En matière d’analyse des access_log, la quasi-totalité des travaux sont le fait des Web searching studies, aussi appelées Web information retrieval. De tels travaux sont aussi recensés sous la rubrique Web Connectivity Analysis. Jansen et Pooch [JP00] présentent de façon détaillée l’historique et l’état de l’art de telles recherches.
Force est de reconnaître que ces travaux sont essentiellement le fait d’équipes d’informaticiens, qui souvent sont motivés par le déterminisme technique (« le web a un impact majeur sur la société » 12), et finissent par avoir une vision très centrée sur le fonctionnement des moteurs de recherche. Sinon, il énoncent deux types de résultats: les internautes sont mal à l’aise face au fonctionnement de ces machines, et ces dernières ne sont pas aussi efficaces qu’on pourrait l’espérer; d’où le besoin d’« aider » l’internaute dans ses recherches [MB00]. Souvent, ces mesures mènent à la production d’indicateurs complexes.
D’autres informaticiens proposent des travaux plus descriptifs, même si leur finalité reste la même: l’optimisation du fonctionnement du moteur. La référence à ce jour reste sûrement l’article déjà ancien « Analysis of a very large AltaVista query log » [S+98]. Le thème des usages s’affirme alors et des analyses de type sociologique commencent à apparaître. Mais le caractère daté de l’enquête (lié principalement aux limites du moteur d’alors) fait qu’une grande insistance est accordée à la présence ou à l’absence d’opérateurs booléens dans les requêtes —différence entre advance querying et simple querying, ce qui donne à penser que les 20 % de personnes 13 qui les utilisent sont plus « avancées » que les 80 % d’autres. Et malgré la multiplication d’indicateurs statistiques à chaque étape, les auteurs ne peuvent s’empêcher de donner la liste des 25 requêtes les plus populaires, donnant l’impression que les requêtes frivoles ou pornographiques ont une grande importance 14. Sinon, cet article propose d’autres résultats que nous retrouverons en partie: deux-tiers des requêtes n’apparaissent qu’une fois en 6 semaines, 64 % des sessions consistent en une seule requête sans réplication. L’analyse devient nettement plus critiquable quand elle s’aventure dans l’étude des corrélations entre les 10 000 premiers mots: la focalisation sur le rang permet peut-être d’optimiser l’algorithme du moteur, mais n’informe en rien sur les faits, gestes et demandes des internautes, qui apparaissent en fait comme des « masses sans cesse recomposées ».
Il apparaît donc que le lien étroit qu’ont les chercheurs avec le monde des entreprises, et plus précisement celui des start-up, et leur culture de statisticiens les incitent à insister sur les requêtes majoritaires —même s’ils reconnaissent qu’elles n’ont qu’un faible intérêt— et sur l’utilisation des opérateurs booléens. L’ennui est qu’ils ont créé ainsi une dynamique de recherche dont il sera difficile de se départir 15.
Bien sûr, à partir de telles incursions dans la sociologie, on ne pouvait faire marche arrière. La Transaction log analysis (TLA) espère comprendre les « actions de l’utilisateur », ses « interactions avec le moteur » (ou le serveur), et la façon dont il « évalue les résultats obtenus » ([JP00]). Les limites de cette démarche, déjà ancienne, sont par ailleurs reconnues. Mais elle sert de tremplin aux études sur les access_log et à leur couplage avec des études à caractère plus socio-démographique (allant jusqu’à l’observation participante ou les études en laboratoires, avec des panels spécifiques).
Il s’ensuit une description des internautes et de leurs pratiques « à la louche », qui finit par en donner une image relativement dépréciée: ils écrivent en moyenne deux mots par requête, s’intéressent à la pornographie (entre 5 % et 8 % des requêtes), n’utilisent pas d’opérateurs booléens, ne consultent pas plus d’une page de résultats 16, voire ne « savent pas lire plus de 4 lignes sur un écran » 17. Pour aller plus loin dans l’analyse (par exemple pour rattacher de telles pratiques à des catégories socio-professionnelles), on doit alors faire confiance aux grandes entreprises américaines de sondages, qui évaluent de façon grossière le nombre des internautes, et parfois leur profil sociologique 18.
Cette prolifération de travaux généralistes en langue anglaise ne doit pas inciter à sous-estimer ceux en langue française. Par exemple, des informaticiens, comme Brigitte Trousse 19 et Mahieddine Djoudi [Djo01], conscients des difficultés à consulter le web, se sont attachés à développer des outils d’aide à la navigation. D’autres, comme Patrice Abry 20 ou François Baccelli 21, expliquent le fonctionnement du web avec des lois statistiques non classiques, et commencent à essayer de les corréler avec des comportements humains. Jacques Lajoie, grâce à sa culture de psychologue, sait éviter les écueils dépréciatifs des informaticiens américains et, le premier, a montré la richesse des requêtes des internautes, le foisonnement de leurs exigences [Laj98, Laj01]. Le laboratoire Usages, Créativité, Ergonomie 22, après avoir longtemps travaillé sur les access_log tout en réalisant par ailleurs des recherches de type ethnographique 23, a récemment réussi à combiner les deux: il a étudié durant un an l’intégralité des traces d’un millier d’internautes représentatifs de la population française. Les résultats sont éloquents, car on suit alors les individus un à un plutôt que d’essayer de reconstituer leurs pratiques à partir de leur passage par un point donné. La méthode employée permet un premier calage sociologique de ces pratiques, malgré le biais introduit par le fait que celles-ci s’opèrent exclusivement à domicile [BA02, VB+02]. Citons enfin les travaux de Stat Québec 24, qui offre depuis plusieurs années une description assez complète des pratiques des Québécois en matière d’internet et de leur évolution.
Les recherches à caractère sociologique utilisant les archives électroniques sont surtout promues par les ingénieurs et les informaticiens, et le très petit nombre de sociologues français travaillant dans ce domaine étonne. Cette absence est-elle le fait du mépris pour la technique d’une discipline qui voulait fédérer les sciences humaines? De la difficulté certaine à obtenir des sources et à en réaliser le traitement? Paradoxalement, cette trop faible présence empêche l’épanouissement d’un réel débat scientifique sur le thème des usages: souvent les analyses pêchent par excès de préjugés sur les pratiques sociales. Pour remédier à cette situation, pour garantir une bonne analyse de leurs données, les ingénieurs font appel à d’autres spécialistes. C’est ainsi que les économistes, les linguistes, les spécialistes de l’information et de la communication, mais aussi de l’érudition, sont de plus en plus nombreux à travailler, de façon directe ou indirecte, sur les archives électroniques et sur les usages de l’internet.
Il n’en demeure pas moins que l’intérêt pour les requêtes des internautes aux moteurs de recherche se répand. Par exemple, le site Metaspy 25 propose un instantané des 15 dernières requêtes apparues sur le moteur de recherche MetaCrawler. Diverses entreprises, proposent des analyses, gratuites 26, ou payantes 27. Mais faute d’approche rigoureuse, les auteurs de ces travaux multiplient les erreurs méthodologiques, sans doute parce qu’ils corrèlent sans précautions des pratiques humaines supposées et des statistiques issues des archives électroniques. Leurs résultats semblent ne pas avoir d’autre fonction que de satisfaire leurs commanditaires: les internautes maîtriseraient tous les moteurs de recherche. Ils seraient satisfaits des résultats obtenus et leurs préoccupations seraient avant tout consuméristes 28. De telles conclusions sont aussi stupides que peu crédibles, principalement du fait que leurs auteurs n’ont pas compris que ces traces particulières ne pouvaient être appréhendées que dans un contexte d’outillage mental (pour analyser les intentions des internautes, mesurer leurs pratiques, et construire les outils qui permettent de tirer le meilleur parti de telles sources). C’est aussi pour rappeler ce fait que nous avons désiré clore notre travail sur ce type d’archives.