Chapitre 2
Traces d’un moteur de recherche

Pour montrer comment la liste produit du sens et que celui-ci ne s’obtient qu’en inventant des procédures de lecture et d’écriture, nous avons délibérément choisi une archive parmi les plus contemporaines, les access_log d’un moteur de recherche. Ces fichiers contiennent les questions que les internautes transmettent au moteur pour être aiguillés sur des pages web supposées pouvoir leur offrir des réponses. Parmi leurs auteurs, nous comptons des millions de personnes, qui savent qu’elles s’adressent à des machines, aussi leur syntaxe est très particulière. Mais une telle liste doit aussi beaucoup de son existence à ces mêmes machines, auxquelles l’homme délègue de plus en plus de travaux d’écriture, principalement administrative.

Notre objet, parmi les plus classiques —voire le plus vieux?— de l’écriture, se distingue déjà grandement des listes habituelles. Malgré tout, notre démarche se rapprochera parfois plus de celle de l’archéologue que de celle du sociologue ou de l’informaticien: nos fichiers témoignent d’une activité parcellaire et fugitive d’individus, puisque la fonction d’un moteur de recherche est d’inciter l’internaute à le quitter; de plus, nous n’avons pas la moindre indication socio-démographique relative aux auteurs de ces pratiques enregistrées. Aussi, leur interprétation s’annonce d’emblée délicate, ce qui fait à notre avis tout l’intérêt de ces masses textuelles: nous pourrons montrer en quoi de nombreuses opérations a priori simples —tris, comptages, classifications, etc.— génèrent toute une série de questionnements propres aux sciences humaines, lesquels seront à l’origine des meilleurs résultats que l’on puisse obtenir.

Les résultats suivants proviennent d’un premier travail personnel, et s’intègrent dans le cadre plus vaste d’une recherche labellisée par le RNRT (Réseau National de la Recherche en Télécommunications), réalisée par l’équipe Réseaux, Savoirs & Territoires de l’ENS en collaboration avec le laboratoire d’un groupe industriel. Les résultats des autres participants à ce projet d’étude relatif aux préoccupations des internautes ne seront pas exposés ici 1.

Le moteur de recherche, appelé Goosta par la suite, était sollicité environ 500 000 fois par jour au printemps 2000 et 700 000 fois un an plus tard. Les access_log du premier trimestre 2001 sur lesquels nous allons travailler comprennent donc près de 62 millions de lignes, qui, une fois nettoyés, dépassent quatre giga-octets; leur traitement aura généré environ 100 Go de fichiers intermédiaires produits pour les besoins de l’analyse.


 2.1 Structure des archives
 2.2 Réduction des requêtes
  2.2.1 Première procédure
  2.2.2 Programmation et interprétation
  2.2.3 Seconde procédure
  2.2.4 Précautions
 2.3 Vocabulaire des requêtes
  2.3.1 Richesse lexicale
  2.3.2 Distribution statistique
  2.3.3 Importance des mots rares
  2.3.4 Typologie formelle des mots
 2.4 Typologie des requêtes
  2.4.1 Distribution générale
  2.4.2 Complexité des requêtes
  2.4.3 Mots des requêtes
  2.4.4 Quel Français fondamental?
  2.4.5 De l’amalgame à l’errance statistique
 2.5 Autres surprises statistiques
  2.5.1 Nombre de mots des requêtes
  2.5.2 Importance du temps long
 2.6 Approches thématiques
  2.6.1 Méthode
  2.6.2 Application à quelques thèmes