Au-delà de tout texte, de toute image réalisés par un individu sur son ordinateur personnel, un nombre croissant de bases de données (c’est-à-dire de textes et de procédures associées), exploitées ou potentiellement exploitables, existent de nos jours sur les serveurs.
Les plus connus de ces serveurs sont les sites web, qui hébergent des types très variés de fichiers: textes (articles scientifiques par exemple), images, logiciels, etc. Ces serveurs sont eux-aussi archivés à leur manière par les moteurs de recherche. Mais un individu peut aussi se constituer assez aisément de telles archives, avec des « aspirateurs de sites » comme wget. De tels outils, communément utilisés pour construire des sites miroirs, peuvent être détournés, par exemple pour télécharger les échanges d’une liste de discussion. Ainsi des textes, des débats, publiés sur un site distant, peuvent être transférés sur l’ordinateur du chercheur qui désire les étudier à tête reposée, et qui profite là d’une opportunité inattendue: le texte numérique est disponible, présent; la saisie en a été déléguée aux utilisateurs eux-mêmes 1.
Nous sommes là dans le registre des archives sémantiquement cohérentes, dans la mesure où les textes obtenus ont en général un sens propre.
Il existe aussi un autre type d’archives, moins connues, mais répandues sur tout type de serveur et plus généralement sur toute machine servant de nœud dans un réseau électronique: par exemple, un ordinateur Unix (ou Linux) conserve l’ensemble des commandes produites par ses utilisateurs ou par les robots 2, mais aussi les en-têtes des courriers électroniques transitant par le serveur, donc émis ou reçus par ses utilisateurs, les accès web ou ftp 3, etc. De même, les routeurs enregistrent les flux IP qui transitent par eux 4. Ces modes de constitution d’archives sont paramétrables 5, mais les fichiers produits sont peu utilisés du fait de leur faible valeur informative: ils servent avant tout à la sécurité informatique.
Au carrefour de ces deux types d’archives, nous rencontrons les access_log des moteurs de recherche eux-mêmes, qui vont solliciter toute notre attention. Le traitement de ces bases incite à développer des outils spécifiques d’appréhension du texte 6 et à comprendre en profondeur la logique de leur production, puis à imaginer des nouvelles modalités d’écriture, notamment pour produire une synthèse des résultats obtenus.