2.5 Autres surprises statistiques

Cette étude est a priori source de désarroi: les représentations conventionnelles, les échantillonnages habituels ne fonctionnent pas. Mais elle est aussi très instructive sur le plan méthodologique: les phénomènes majoritaires sont peu pertinents, quand les plus informatifs sont rares. Mais d’autres faits bousculent encore nos préjugés.

2.5.1 Nombre de mots des requêtes

On lit souvent qu’une requête est composée de deux mots en moyenne 49. Bien sûr, les deux procédures donnent des résultats distincts puisque la seconde réduit le nombre de mots (cf. le graphique 2.12): avec Nett2, les requêtes de deux ou trois mots sont déjà clairement majoritaires dans l’ensemble des requêtes distinctes (67,5 %), alors qu’avec la procédure Nett1, il faut intégrer les requêtes de quatre mots pour obtenir un seuil analogue (66 %). Ensuite, les graphes apparaissent quelque peu translatés, même si pour les requêtes d’une dizaine de mots, le décalage est plutôt de trois mots. En terme de poids dans le total des requêtes, la seconde procédure favorise les requêtes de deux mots (aussi présentes que celles d’un seul, et qui constituent le profil moyen des requêtes) quand la première manifeste une décroissance forte dès le premier mot.


PIC

FIG. 2.12: Distribution des requêtes en fonction de leur nombre de mots. Procédures Nett1 et Nett2.

Au-delà de ces nuances, un invariant s’impose: quelle que soit la méthode utilisée, les requêtes composées d’un seul mot constituent 40 % du total en nombre d’occurrences 50. Ici encore, les requêtes qui, dans une vision statistique primaire, sont les plus remarquables, sont aussi les moins instructives: pour faire retour à ce que nous avons déjà démontré, on ne dénombre que 7 requêtes de trois mots ou plus dans les 1000 premières, ce qui est fort peu. Pour les 9000 suivantes, ce type de requête ne s’élève qu’à 338.

Qu’obtenons-nous si nous oublions ces requêtes aussi pesantes que vides? Un simple argument de combinatoire permet de comprendre que, plus une requête est longue, plus sa fréquence est faible. Ainsi, l’intérêt des requêtes minoritaires, et parmi elles les requêtes longues, est triple: déjà, ce sont elles qui enrichissent le vocabulaire. Ensuite, la probabilité pour que l’internaute tire satisfaction de sa question au moteur est plus grande que pour une requête courte 51. Enfin, son intention est compréhensible pour l’analyste.





nb occurrences requête nb mots



704 tony hawk s pro skater 5
643 pere noel est une ordure 5
383 sims ca vous change vie 5
314 c est arrive pres chez vous 6
300 credit agricole sud rhone alpes 5
285 on ne badine pas avec amour 6
197 eclipse lune 9 janvier 2001 5
180 centre gestion fonction publique territoriale 5
175 cartes voeux electroniques gratuites bonne annee 2001 7
169 vie est long fleuve tranquille 5
165 peine mort aux etats unis 5
162 dernier jour condamne victor hugo 5
156 bts assistant gestion pme pmi 5
155 guerre troie n aura pas lieu 6
142 crack paint shop pro 7 5
137 impact droit europeen droit interne 5
128 musee art moderne ville paris 5
124 forces faiblesses commerce exterieur francais 5
123 victor hugo dernier jour condamne 5
120 comment gagner argent dans courses chevaux 6




TAB. 2.10: Quelques unes des 30 premières requêtes de 5 à 10 mots. Procédure Nett2.

À titre indicatif, le tableau 2.10 donne les premières requêtes composées de 5 à 10 mots (procédure Nett2), à comparer avec les premières requêtes (voir le tableau 4.1 page 703). Malgré la suppression des connecteurs, celles-ci sont lisibles et interprétables, et la constitution de regroupements thématiques apparaît plus légitime qu’avec des requêtes d’un mot ou deux.

Il en est de même pour les requêtes de plus de 10 mots, dont voici le détail des cinq premières: « tableau recapitulatif tous microprocesseurs amd intel actuel venir ainsi que leurs caracteristiques » (48 occ.), « marie elise eugenie crepin nee 28 mars 1871 forest montiers somme » (40), « est ce que echanges entre partenaires sociaux modifient concretement aide qu animateur apporte jeunes difficulte elaborer realiser leur projet vie » (34), « cours universitairse informatique droit aes sciences politiques ressources » (30), et « redaction une note synthese mise reseau ordinateurs routeurs administrateur reseau entreprise » (29).

D’une part, le sérieux apparaît: point de requêtes frivoles ou naïves ici. D’autre part, nous comprenons mieux comment se construisent les sessions: la probabilité est grande que ces requêtes de plus de 10 mots soient chacune des éléments d’une même session. Outre la spécificité du vocabulaire (« Mme Crépin », etc.), la présence de fautes de frappe corrobore cette intuition (universitairse).

Reste, avant de donner quelques exemples, puis de décrire les sessions, à montrer comment cette richesse lexicale se construit avec le temps.

2.5.2 Importance du temps long

La lecture du tableau 2.1 (page 406) a mis en évidence un fait troublant: le total des mots d’une journée n’est pas représentatif du vocabulaire recensé sur de plus longues périodes. En effet, il est d’environ 80 000 pour une journée d’activité normale (comme le 4 janvier 2001), de 817 658 pour un mois (30 jours de janvier 2001), et de 1 842 768 pour les 88 jours du printemps 2001 52. Le même tableau montre que le nombre de requêtes distinctes croît aussi avec le temps.

Ce résultat, qui peut sembler déroutant, est synthétisé dans le graphique 2.13 et appelle tout de suite une remarque méthodologique. En effet, nous pouvions penser que le nombre de requêtes distinctes fût estimé aisément à partir d’un sondage réduit du corpus, en limitant par exemple l’échantillonnage à une semaine. Il n’en est rien: étonnamment, ce nombre semble proportionnel à la durée. Même à la fin de l’échantillon temporel, entre les 55e et 88e jours, le nombre de nouvelles requêtes croît encore d’environ 97 000 par jour. Et ces nouvelles requêtes ne sont comptées qu’une fois 53. Ainsi, même après une simplification drastique (ici la procédure Nett2), le taux de nouvelles requêtes par jour compose environ un septième du total des requêtes (alors que ces dernières sont comptées autant de fois qu’elles apparaissent). La lecture du graphique 2.14 montre qu’en fait, en période de semaine, les nouvelles requêtes (toujours comptabilisées une seule fois) constituent au moins 40 % des requêtes distinctes de chaque jour. On pourrait alors interpréter ce phénomène comme une conséquence d’une activité combinatoire des internautes à partir d’un lexique donné, fixe au bout d’un certain temps. La croissance du nombre de mots avec la taille de l’échantillon montre que cette hypothèse est fausse. Celle-ci est aussi linéaire avec le temps (en moyenne 20 000 nouveaux mots par jour, cf. graphique 2.13), et ces nouveaux mots constituent au minimum 15 % des mots distincts de chaque jour (cf. graphique 2.14).


PIC

FIG. 2.13: Accroissement du vocabulaire et des nouvelles requêtes au fil des jours. En abscisse, les jours. Les courbes épaisses correspondent aux mots, les autres aux requêtes. Les deux courbes à croissance variable du bas rappellent les nombres de requêtes et de mots de chaque jour: les fléchissements signalent les week-end Procédure Nett2.


PIC

FIG. 2.14: Importance de la nouveauté. Chaque point représente un jour. Cercles: En abscisse le nombre de requêtes distinctes d’un jour donné. En ordonnée le nombre de requêtes nouvelles du jour (c’est-à-dire non apparues les jours précédents). Carrés: même chose pour les mots. On distingue clairement, pour les mots comme pour les requêtes, deux groupes: les points représentatifs des week-end, et ceux des jours de la semaine. Les points sur la première diagonale sont ceux du premier jour. Procédure Nett2.

*
À travailler sur ces listes textuelles réalisées par des millions de personnes, nous découvrons un univers statistique inattendu. Il nous faut négliger l’évidence pour trouver la richesse (linguistique, culturelle) à la marge. Nous devons aussi nous débarrasser de tous nos préjugés, d’autant, qu’au-delà des comptages, nous savons que le couple {requête, fréquence} est, jusqu’à nouvel ordre, sociologiquement arbitraire en ce sens qu’il s’obtient en additionnant des « fragments de pratiques » chez les internautes; il découle d’une agrégation, d’une collection qui n’a pas de rapport avec des pratiques individuelles.