Analyse des requêtes dans les moteurs de recherche
d'Internet
Jacques Lajoie
Département de psychologie
Université du
Québec à Montréal
lajoie.jacques@uqam.ca
L'analyse des requêtes dans les moteurs de recherche révèle un phénomène
inattendu et fascinant pour les chercheurs des sciences
humaines1. Les
travaux préliminaires de Lajoie (1998a, 1988b) sur 35 000 requêtes sur le
moteur de recherche d'AltaVista et de 15 000 requêtes provenant de
WebCrawler ont montré que contrairement à l'opinion répandue par les médias
traditionnels, les requêtes à caractère sexuel et les autres requêtes qui ont
les fréquences les plus élevées ne constituent qu'une infime partie des
requêtes sur les moteurs de recherche. La principale caractéristique de
l'utilisation des moteurs de recherche est la singularité et la diversité des
requêtes.
Ces premières recherches sont maintenant totalement confirmées par Silverstein
et al. (1998) qui a analysé une base de données de près d'un milliard
d'entrées sur le moteur de recherche de AltaVista.
Les requêtes sont réparties sur 43 jours, entre le 2 août et le 13 septembre
1998. Le nombre total de requêtes valides en comptant seulement la première
page de résultats est plus de 575 millons et proviennent de plus de 285
millions de sessions (regroupement d'un même usager à l'intérieur de cinq
minutes):
- Le pourcentage de requêtes distinctes est de 27%, soit plus de 150
millions;
- Les requêtes demandées une seule fois représentent 17% de
l'ensemble des requêtes et 64% des requêtes distinctes.
- Les requêtes demandées une à trois fois représentent 30% de
l'ensemble des requêtes et 86% des requêtes distinctes.
- Par contre les requêtes demandées plus de trois fois représentent
près de 70% de l'ensemble des requêtes et 13,6% des requêtes distinctes.
- Quant aux 20 requêtes les plus populaires, elles ne représentent que
1,5% de l'ensemble des requêtes.
Ces résultats qui ont un degré de validité très élevé montrent clairement que
les requêtes les plus populaires ne comptent que pour une infime partie de
l'ensemble des requêtes. Certes il est intéressant de constater la nature de
ces requêtes les plus populaires. Mais il est exagéré de prétendre que les
moteurs de recherche servent surtout à des requêtes à caractère sexuel. Les
dix requêtes à caractère sexuel les plus populaires représentent moins de 1%
de l'ensemble des requêtes. Au contraire, c'est la singularité des requêtes
qui est le phénomène le plus marquant de l'utilisation des moteurs de
recherche.
Le phénomène de la singularité des requêtes sur les moteurs de
recherche révèle qu'un très grand nombre d'usagers (6,5 millions par jour
seulement pour AltaVista) perçoivent les moteurs de recherche comme un
instrument d'exploration privilégié dans tous les domaines de la connaissance.
Le total de plus 150 millions de requêtes distinctes en un mois et demi est
plus élevé que le nombre de mots retrouvés habituellement dans les
dictionnaires.
Il est possible que le phénomène de singularité ne soit plafonné que par les
limites des expressions linguistiques de la connaissance. Les prochaines
recherches sur les requêtes viseront à regrouper les thèmes d'exploration à
partir de de mots-clés provenant de thésaurus. Nous pourrons ainsi mieux
cerner les directions de recherche les plus suivies. Il reste à savoir si le
Web répond de façon satisfaisante à ces demandes.
Références
-
Lajoie, J. (1998a). «What people write as queries in the WEB's
search engines: a new tool to investigate the search behavior». In C. Chen
(Ed.), NIT'98: 10th International Conference on New Information
Technology, Hanoi, Vietnam, p. 127--139. Newton, MA: MicroUse Information.
- Lajoie, J. (1998b). «Les moteurs de recherche du réseau
Internet comme indicateurs des besoins intimes». Revue Québécoise de
Psychologie, 19, 2, 207--229.
- Silverstein, C., Henzinger, M., Marais, H. &
Moricz, M. (1998). Analysis of a Very Large AltaVista Query
Log. SRC Technical Note, 1998-014. Palo Alto, California : Digital Systems
Research Center.
- 1
- http://lajoie.uqam.ca/confcirasi/confcirasi.html
Ce document a été traduit de LATEX par HEVEA.