Un projet fou d’archivage du Web

Cloud
Information - news

Pour éviter que les pages Web disparaissent dans l’oubli, un ancien d’IBM s’est engagé dans la tâche phénoménale de les enregistrer toutes ! A côté, la bibliothèque d’Alexandrie va ressembler à un livre de poche…

Entre 30 et 100 To de données, tel serait le « poids » du Web estimé par Scott Kirkpatrick, un chercheur retraité d’IBM. Pourquoi s’est-il amusé à le calculer ? Tout simplement parce qu’il a pour projet d’archiver toutes les pages de la Toile accessibles au public ! The Archive, c’est le nom du projet, a pour but de faire passer les bibliothèques à l’heure du numérique. Il s’agit d’éviter que « l’Internet, un nouveau média porteur d’une importante signification historique, ne disparaisse dans le passé, » trouve-t-on comme explication sur le site de cette très grande bibliothèque du Web.

La tâche est immense vu que le contenu du Web change en permanence. Avec des comportements variant d’un extrême à l’autre : certaines pages semble vouloir rester en ligne pour l’éternité alors que d’autres disparaissent quasiment d’un jour à l’autre. Et c’est pour éviter l’oubli que l’Archive a emmagasiné, pour le moment, environ 30 à 35 To de données. Soit environ 1,2 milliard de pages. Si on estime aujourd’hui le nombre total de pages Web entre 1 et 4 milliards (la largeur de la fourchette d’estimation rendant compte de la difficulté du comptage), il ne faut pas oublier que le projet d’archivage a pour ambition de sauvegarder les évolutions du Web. Résultat, certaines pages, dont seul le contenu change mais pas l’adresse URL, sont archivées tous les jours…

Comme tribut à l’histoire du Web, la bibliothèque a fabriqué une « sculpture » composée de quatre écrans informatiques qui font défiler des pages du Web tel qu’il était en 1997. On peut voir une démonstration de cette oeuvre d’art sur le site de l’Archive. Comme quoi le Web peut déjà faire naître un sentiment nostalgique…

Pour en savoir plus :

Le site de The Archive