2.3 Vocabulaire des requêtes

2.3.1 Richesse lexicale

Dans l’introduction à la seconde édition du Petit Robert, il est précisé que le nombre total d’entrées dépasse les 50 000. Nous pouvons concevoir qu’en intégrant les diverses flexions des noms communs et des verbes 16, les mots étrangers les plus courants, les néologismes et surtout les noms « propres » —étendus aux marques, aux produits et aux « célébrités »—, le dictionnaire « courant » se monte alors à quelques centaines de milliers de mots. Or, ici, ce nombre s’élève à près de deux millions.

Plusieurs facteurs peuvent expliquer cette hypertrophie lexicale.

— Tout d’abord, les fautes de frappe (très certainement liées à la trop petite fenêtre de la page du moteur, qui empêche de visualiser plus de 10 caractères consécutifs), d’orthographe et les constructions de mots composés (notamment avec le tiret et l’espace souligné, voire sans rien —l’espace entre les mots étant parfois absent).

— l’usage délibéré d’un français libéré des contraintes orthographiques, par exemple phonétique (kdo) ou humoristique (windaube), de façon à cibler plus efficacement les pages recherchées.

— Au-delà des noms « propres », la présence de mots relatifs aux objets techniques de consommation, qui sont déjà des hétérographes, du fait de la présence variable de l’espace inter-« mots »: F801 17, 900XJ, Photoshop5.0. Ce type de mots est virtuellement infini, puisque tout nombre peut avoir le statut de mot (pensons à 2001, 1914, 3615, 1515, etc.).

2.3.2 Distribution statistique

Avant de nous intéresser à certains éléments spécifiques du lexique, nous devons compléter —sous forme synthétique— les résultats déjà présentés dans les tableaux 2.1 et 2.2 (pages 406 et 412): on se souvient qu’avec la procédure Nett1, les mots les plus fréquents étaient des connecteurs. La grande variation des fréquences des mots incite à mettre celles-ci en correspondance avec le rang de ces mots, tout en choisissant des échelles logarithmiques (figure 2.1): sinon, le graphe, en forme d’équerre, est illisible.


PIC

FIG. 2.1: Graphe rang-fréquence des mots avec les deux procédures. En abscisse, le rang des mots, en ordonnée, leur nombre d’occurrences.

Ce graphique montre qu’une fois passés les mots les plus fréquents, les deux procédures donnent des résultats identiques, qui par ailleurs mettent en évidence une assez bonne conformité du vocabulaire avec la loi de Zipf 18, surtout pour les mots à fréquence intermédiaire (entre 10 et 10 000 occurrences).

L’homogénéité de cette classe de mots, et le souvenir de l’intérêt porté par les lexicométriciens aux mots à fréquences rares nous inciteront à ne pas nous focaliser sur les mots à fréquences majoritaires, même si ces derniers ont un poids considérable dans le corpus, comme le montrent les tableaux 2.3 et 2.4.







N premiers mots fréq. cumulées % cum. poids dans le lexique fréq. dernier mot





10 21 809 617 15,2 % 0 % 734 240
100 40 293 662 28,3 % 0,005 % 106 135
1000 74 316 076 52,1 0,05 % 18 695
10 000 116 148 996 81,5 0,54 1455
100 000 136 275 312 95,6 5,4 44
1 000 000 142 433 321 99,9 54 1
1 842 768 (total) 143 276 089 100 100 1






TAB. 2.3: Distribution des mots du dictionnaire de Goosta classés par fréquence décroissante. Procédure Nett1.

En fait, la présentation par rangs décroissants proposée par ces tableaux est dangereuse: déjà, les premières fréquences se cumulent; par exemple, les dix premiers mots obtenus avec la procédure Nett1, qui sont tous des connecteurs, accroissent le poids des 100 premiers, etc 19. Mais surtout, les chiffres n’incitent qu’à étudier les 1000 premiers mots: suivant la méthode utilisée, ils épuisent 42 % ou 52 % des fréquences calculées, alors qu’ils ne constituent que 0,06 % du vocabulaire utilisé (les personnes toutefois soucieuses de connaître ces mille premiers mots et requêtes pourront consulter les paragraphes 4.1 et 4.2de l’annexe (p. 703 et 713). Or, la très grande majorité des analystes d’access_log tombent dans ce piège 20.





N premiers mots fréq. cumulées % cum. poids dans le lexique fréq. dernier mot





10 4 456 598 3,75 % 0 % 309 901
100 17 314 889 14,6 % 0,006 % 94 410
1000 50 049 680 42,1 0,06 % 18 581
10 000 92 140 140 77,6 0,6 1461
100 000 112 255 915 94,5 5,9 43
1 000 000 118 074 638 99,4 58,76 1
1 701 876 (total) 118 750 102 100 100 1






TAB. 2.4: Distribution des mots du dictionnaire de Goosta classés par fréquence décroissante. Procédure Nett2.

Considérons par exemple le tableau 2.5, qui présente la liste des 15 premiers mots, obtenue avec la méthode Nett2. Il ne nous apprend rien, si ce n’est que les mots les plus utilisés sont polysémiques. Dans cette liste, le mot « carte » renvoie-t-il à « carte bleue », « carte routière », ou à « carte de vœux  »? Que penser d’une personne qui a saisi une requête contenant le mot « sexe »? Recherche-t-elle des images obsènes ou vérifie-t-elle que son enfant n’y accèdera pas? Dans quel contexte se comprend le mot « location »? A-t-on un propriétaire, un futur locataire derrière l’écran? Ces locations sont-elles saisonnières ou non?


fréquence mot


688 278 sexe
576 184 france
529 294 paris
487 042 gratuit
419 503 location
393 489 photo
369 153 photos
330 797 carte
316 871 jeux
306 657 video
277 851 emploi
269 857 immobilier
260 077 sex
238 580 hotel
236 779 mp3



TAB. 2.5: Les 15 mots les plus fréquents. Procédure Nett2. Voir aussi la liste des 1000 premiers page 713 de l’annexe (paragraphe 4.2).

Face à une liste de ce type, la construction de regroupements —sexe avec sex et nue (rang 20), photo avec photos, mp3 avec musique (rang 19), etc.— donne une illusion de sérieux et de rigueur, alors qu’elle risque fort de ne rien apporter, puisqu’elle s’appuie sur une méthode faussée dès l’origine.

Après avoir évité ce premier piège, qui consiste à se focaliser sur les mots les plus fréquents, nous retiendrons que la moyenne d’usage des mots est élevée, comprise entre 70 et 78 suivant la méthode choisie, alors que le taux d’hapax ne s’écarte pas trop des normes « littéraires »: 48 % dans les deux cas. Et le graphique 2.1 rappelle que seulement 250 000 mots —soit moins de 15 %, avec l’une ou l’autre méthode— apparaissent plus de 10 fois en 88 jours. En revanche, l’agrégation que proposent le tableau 2.6 et le graphique associé 2.2, met bien en évidence le très petit nombre de mots à fréquences élevées, et l’importance en taille comme en poids des mots aux fréquences faibles (par exemple entre 2 et 10 000).





Classe de fréquences Nombre de mots Total des occurrences



1 798 095 798 095
2 à 10 649 653 2 516 234
11 à 100 195 793 5 929 300
101 à 1000 45 322 13 756 738
1001 à 10 000 11 053 32 747 893
10 001 à 100 000 1872 46 886 421
plus de 100 000 88 16 141 833




TAB. 2.6: Classes de fréquences des mots. Procédure Nett2. 45 322 mots ont une fréquence comprise entre 101 et 1000, et leur poids total dans le corpus est de 13 756 738 (cf. le graphique 2.2).


PIC

FIG. 2.2: Nombre et poids des groupes de mots triés par fréquence. Lecture: 649 653 mots ont une fréquence comprise entre 2 et 10 (inclus). 88 mots ont une fréquence comprise entre 100 001 et 1 000 000. Le total d’occurrences des 649 653 mots de la seconde classe est de 2 516 234. Celui des 88 mots les plus fréquents est de 16 141 833 (cf. tableau 2.6). Procédure Nett2.

2.3.3 Importance des mots rares

En effet, 86 % des mots apparaissent entre une et dix fois dans cette longue période.

Certes, nombreux sont les mots mal orthographiés (souvent des mots composés sans séparateur, comme « galleriephoto » ou « comparaisonsautos »), Or, si ceux-ci risquent fort de renvoyer un message d’erreur de la part du moteur de recherche, ils apportent néanmoins du sens et témoignent d’une variété des pratiques plus instructive que la simple présence de mots banals.

Par exemple, pour les données des 88 jours du printemps 2001, on a dénombré 4820 mots contenant la graphie « photo » (photoaerienne, photoshop, photo_arbre_hevea, www.hp-photoworld.com, pphoto, etc.); 433 mots contenant la graphie « peugeot », 274 contenant la graphie « apple », et 186 la graphie « microsoft » (Procédure Nett1). On pourrait regrouper ces formes avec la forme attendue, qui reste largement majoritaire: on dénombre 60 493 occurrences pour le mot exact « peugeot », quand la seconde forme est bien plus rare —www.peugeot.fr, avec 290 occurrences 21. Mais nous savons qu’une telle démarche est hâtive. En revanche, les formes rares dévoilent donc un sens précis. Considérons par exemple le mot « chomage »: il apparaît 16 885 fois, et ses formes dérivées (au nombre de 56) apparaissent au total 224 fois. Parmi les formes graphiques les plus rares, on recense emploi-chomage (12 occurrences), couverture-chomage (4 occ.), ainsi que chomage2000, chomage.com, assurance-chomage (4 occ. aussi), et enfin les hapax denonciatiochomage et definitionduchomageenfrance. Paradoxalement, ces dernières formes font sens pour la personne qui analyse les requêtes, alors que d’autres, peut-être pertinentes pour le moteur, seront plus difficiles à interpréter.

Parmi ces mots rares, nous découvrons aussi des mots de notre vocabulaire courant: en trois mois, heterodoxe apparaît 10 fois, comme horlogeries (qui apparaît 2755 fois au singulier), hydroxydes est repéré 6 fois, comme ineligibles (qui apparaît 4 fois au singulier), inquietante ou insatiablement. De même, analytiquement n’apparaît que 4 fois —et psychanalytiquement une seule—, scintillographie 3 fois, soliloquer et soliloque une fois (procédure Nett2). Autrement dit, éliminer les mots à faibles fréquences consiste à réduire notre langue sans discernement.

Ce fait est particulièrement flagrant dans le cas des personnes. Des auteurs comme Pierre Bourdieu ou Julien Gracq 22 ne sont cités que respectivement 1679 fois (rang 9050) et 290 fois (rang 29 759). C’est faible face à Molière 23. Le géographe Marcel Roncayolo a bien moins de succès avec 24 occurrences, et un rang de 148 568, soit autant que Jean-Claude Chamboredon (rang 146 118), à peine plus que Gérard Noiriel (23 occ., rang 152 429) ou Jack Goody (21 occ., rang 161 065), mais déjà loin devant Philippe Descola (12 occ., rang 230 696).

Ces exemples prouvent à quel point il est dangereux de négliger les mots rares: non seulement, on fonde l’analyse sur les mots les plus courants, souvent les plus polysémiques et les moins explicites, mais on risque de perdre des pans entiers de la culture maîtrisée —ou sollicitée— par les internautes.

Cette insistance sur les mots rares répond aux quelques études disponibles sur les requêtes des moteurs. Celles-ci ont une fâcheuse tendance à valoriser les « têtes de listes » que sont les mots à fréquences majoritaires, en les décontextualisant de façon artificielle: beaucoup sont des fragments de syntagmes nominaux; et l’on verra que ces mots courants apparaissent fréquemment comme des requêtes complètes. Dans une telle situation, on ne peut rien déduire de l’intention de l’émetteur.

Nous comprenons donc qu’il est nécessaire, pour mener une étude efficace, d’oublier les mots fréquents, ou, au moins, de ne pas se focaliser sur leur fréquence.

2.3.4 Typologie formelle des mots

Pour nous persuader de la grande variété des pratiques, voire de leur étrangeté, nous pouvons préciser la distribution de la longueur des mots et leur homogénéité interne, définie de façon purement formelle comme suit: c’est le nombre de caractères alphabétiques du mot —c’est-à-dire ne comprenant que les symboles a à z—, divisé par sa longueur.


PIC

FIG. 2.3: Nombre de mots d’une longueur donnée. En abscisse, le nombre de caractères. La courbe épaisse du bas traduit le nombre de mots distincts ayant une longueur donnée (en abscisse), l’autre décrit leur poids. Procédure Nett2.

Tout d’abord, le graphique 2.3 décrit la distribution des mots (distincts ou cumulés) en fonction de leur longueur: si l’on rencontre un mot de 1099 caractères et un autre de 1456, les mots les plus fréquemment cités ont entre 3 et 12 caractères, la grande majorité des mots distincts en a entre 5 et 11 24 (procédure Nett2). On remarque aussi que ce groupe de mots entre 5 et 11 caractères est le plus représenté, puisqu’il correspond à 87 539 884 occurrences, soit encore 73 % du total des fréquences. La superposition des deux courbes permet d’avoir une idée de la fréquence d’apparition des mots d’une longueur donnée: autant on conçoit que les courbes soient très proches pour les grandes longueurs (de tels mots apparaissent rarement plus de deux fois), autant les fortes répétitions de mots courts surprennent; 68 mots de longueur 1 générent à eux seuls 900 420 occurrences, et 1524 mots de longueur 2 en génèrent 2 468 056. Certes, on sait qu’un seul mot de longueur 4 en génèrera près de 700 000, mais que pèse-t-il face à ces 1590 mots brefs?


PIC

FIG. 2.4: Homogénéité interne des mots: taux de caractères alphabétiques des mots distincts d’une longueur donnée. En abscisse, le nombre de caractères. Graphe limité aux mots de longueur inférieure à 50. Procédure Nett2.

Reste à comprendre la forme de ces mots. Le graphique 2.4 donne le pourcentage de mots exclusivement composés de lettres de l’alphabet en fonction de leur longueur. Est rappelée, en bas du graphique, la fréquence de ces mots. On constate ici que les mots qui ont le plus de chance d’apparaître dans un dictionnaire 25 sont les mots de longueurs 5 à 13, puisque leur taux d’homogénéité interne dépasse 99 %. Et ce graphe permet de mieux comprendre la forme des mots courts: ce sont surtout des abréviations ou des combinaisons de chiffres et de lettres 26.

Le tableau 2.7 met en évidence cette singularité lexicale, tout en rappelant que la grande majorité des mots est, comme on l’a déjà vu, composée exclusivement de caractères alphabétiques.






Taux de car. alpha nb occ. (poids) du groupe nb mots distincts




entre 0 et 49 % 211 085 42 724
entre 50 et 79 % 1 146 780 75 590
entre 80 et 89 % 741 872 148 562
entre 90 et 99 % 404 943 121 308
100 % 114 345 654 1 313 691





TAB. 2.7: Taux d’homogénéité interne des mots. Procédure Nett2.

Ainsi, de nombreux mots n’appartiennent pas à des dictionnaires: ils sont 118 314 à posséder un taux d’homogénéité interne inférieur à 80 %. Et ils apparaissent 1 357 865 fois en tout. Ceci incite à évaluer les mots composés de chiffres seuls, et de chiffres et lettres seuls. Par exemple, 2001 apparaît 124 902 fois et 2000 110 893 fois. Au total, 179 mots parmi les 10 000 premiers sont composés de chiffres seuls, pour un poids total de 1 244 342 occurrences, et 286 ne comportent que des chiffres et des lettres, mais au moins un chiffre, pour un poids total de 1 938 809. Sur le total des « mots », on en dénombre en fait 11 293 qui ne sont que des nombres, et leur fréquence cumulée est de 1 554 055.

De tels regroupements rappellent ceux relatifs aux connecteurs de la première procédure. Ils mettent en évidence des usages qui nous semblent plus pertinents que ceux que décrivent les conclusions relatives aux mots les plus fréquents. Par exemple, parmi ces « mots-nombres », on dénombre 877 numéros de téléphone 27, pour 1252 occurrences. Cela signifie que certains utilisateurs imaginent que Goosta offre aussi les fonctionnalités d’un annuaire inverse 28 —d’ailleurs très demandé (rang 21, pour 44 681 occurrences).

*
L’étude des mots privés de leur contexte (la requête) a peu d’intérêt, tout comme la focalisation sur leurs rangs: la haute fréquence d’un mot ne nous apprend rien sur le nombre d’utilisateurs l’ayant cité, ni sur leurs intentions. Pourquoi conclure des pratiques à partir des mots sexe ou mp3, alors qu’on ne conclut rien des mots de ou la? En revanche, les mots rares, trop vite oubliés, nous rappellent que les internautes ne sont pas aussi conformistes qu’on pourrait l’imaginer lors d’une étude pressée. Accessoirement, le choix de ces mots rares témoigne de leur curiosité: la saisie d’un ou plusieurs mots banals sur un moteur de recherche renvoie avant tout du bruit.

Nous découvrons aussi à quel point une étude approfondie est coûteuse: elle nécessite du temps (temps de l’homme, temps de la machine), et sollicite diverses disciplines. Pourtant, notre travail ne fait que commencer: le besoin se fait sentir d’étudier les requêtes elles-mêmes, les sessions, et enfin de tenter de cerner leurs auteurs.

Enfin, nous découvrons un étrange dictionnaire: comme les mots de tous les jours, il renvoie à une culture grand public, avec des mots éphémères (starlettes et starletons 29, mots d’actualité, etc.), et les fautes de frappe ou d’orthographe sont communes. Mais il témoigne aussi d’une explosion du vocabulaire, fruit de l’industrialisation (médicaments, noms de marques, pièces techniques, etc.) et il est difficile de savoir si cette « explosion » de ces mots exclus de la littérature a un lien ou pas avec la transformation des techniques d’appropriation et de recomposition de l’écriture.

Cette variété du vocabulaire aura eu le mérite de nous faire prendre conscience que, même si nous écrivons avec peu de mots, un bien plus grand nombre nous encombre l’esprit. Nous y reviendrons.