NEF - Le Livre 010101 de Marie Lebert - Articles

L'Internet Archive, ou les archives du web depuis 1996

paru dans Edition-actu n° 93, 2 avril 2004

De tout temps, les sociétés ont voulu préserver leur culture et leur héritage pour les générations présentes et futures. De tout temps, les bibliothèques ont donc eu pour vocation de conserver les traces écrites de cette culture et de cet héritage, et d’en procurer l’accès au grand public et aux chercheurs. Il paraît donc essentiel qu’elles étendent leur mission aux “nouvelles technologies”. Paradoxalement, le travail de sauvegarde a souvent été mal fait au début du 20e siècle. Nombreux ont été les premiers films qui ont été recyclés – et donc définitivement perdus - pour récupérer la pellicule, et la couche d’argent sur celle-ci. Nombre d’émissions de radio et de télévision n’ont pas été conservées, et ceci est toujours le cas au début du 21e siècle. Il importe donc de ne pas reproduire la même erreur pour l’internet, et particulièrement pour le web, un n ouveau médium dont la portée, immense, est encore méconnue. C’est la raison d’être de l’Internet Archive.

Fondée en avril 1996 par Brewster Kahle à San Francisco, l’Internet Archive a pour but de constituer, stocker, préserver et gérer une bibliothèque de l’internet, en archivant la totalité du web tous les six mois. Cet organisme travaille en collaboration avec la Library of Congress et la Smithsonian Institution pour offrir un accès permanent de ses collections aux universitaires, chercheurs et historiens, et pour préserver un historique de l’internet à destination des générations futures.

En octobre 2001, l’Internet Archive met ses archives - 30 milliards de pages web - en accès libre sur le web grâce à la Wayback Machine, un logiciel créé par la société Alexa, qui permet à tout un chacun de voir le contenu d’un site web à différentes dates, à partir de 1996. Essayez en entrant l’adresse de votre propre site. Vous verrez, c’est impressionnant. La Wayback Machine offre aussi la fonction Recall, en phase de test beta, pour lancer une recherche plein texte dans 11 milliards de pages web.

Par ailleurs, l’Internet Archive constitue des collections spécifiques: les sites relatifs au 11 septembre 2001, les sites relatifs aux élections de 2000 (présidentielles) et 2002 (élection du Congrès et des gouverneurs des Etats), les sites des pionniers du web, etc. Elle constitue aussi des collections numériques telles que le Million Book Project (10.535 livres à ce jour), des archives de films de la période 1903-1973, des archives de concerts live récents, des archives de logiciels, etc. Toutes ces collections sont en consultation libre sur le web.

En 2004, les archives du web représentent plus de 300 téra-octets de données (un téra-octet représentant approximativement un millier de milliards d’octets, ou encore un millier de giga-octets), avec une croissance de 12 téra-octets par mois.

Il ne vous reste plus qu’à passer quelques heures à regarder tout cela. Vous verrez, c’est passionnant.


Liste des articles
Page d'accueil du Livre 010101
Page d'accueil du NEF


© 2004 Marie Lebert