3.2 Individus

Après la récolte de tant d’indices relatifs aux mots, requêtes, et sessions, nous pouvons maintenant opérer un regroupement des pratiques en fonction des « individus-cookies ». Un tel individu sera donc décrit par l’ensemble des sessions réalisées par un cookie particulier. Sa description sera nécessairement complexe ³⁰, si l’on désire garder le maximum d’indicateurs pertinents relatifs à des « objets » qui s’emboîtent les uns dans les autres.

Chaque session est repérée par son type (SE ou SNE), son caractère (« simpliste » ³¹ ou pas), sa longueur, sa forme (répétition systématique ou pas), la taille de son lexique (nombre de mots distincts utilisés dans la session ³²). La durée n’a pas été conservée puisqu’elle n’apparaissait pas pertinente.

Puis sont décrits les thèmes de chaque session en fonction des types de requêtes rencontrées: informatique spécifique (E comme informatique étroite), informatique au sens large (L pour large), pornographie (S comme sexe) et emploi (W pour work). Deux autres thèmes ont été ajoutés: anthropologie et sociologie ³³ (G comme Goody), dictionnaire et traduction ³⁴ (D comme dictionnaire). Une requête n’entrant dans aucune de ces rubriques était classifiée « autre » (A comme autre).

Ce travail a repris, en la généralisant, la méthode exposée au paragraphe 2.6 (cf. page 502); cependant, puisque nous travaillions sur plusieurs thèmes à la fois, il a fallu choisir un ordre pour classifier les requêtes: le programme commence par vérifier si une requête renvoie au thème G, puis E, puis D ³⁵, puis W, puis L ³⁶, et enfin S ³⁷.

Enfin, les sessions sont regroupées par cookie.

À partir de la longueur et de la taille du lexique d’une session, nous déduisons des indicateurs dérivés: longueurs minimale, maximale et moyenne des sessions ³⁸ des internautes; nombre de sessions de longueur 1, de longueur supérieure ou égale à 10; minimum et maximum des tailles de lexique des sessions de chaque personne.

Pour chaque personne, nous calculons enfin le nombre de requêtes d’un thème donné (A, D, E, etc.) dans l’ensemble de ses sessions.

Nous obtenons ainsi un fichier assez complexe, dont chaque ligne correspond à un internaute: on y retrouve son numéro de cookie, la description synthétique de chacune de ses sessions ³⁹, et les indicateurs numériques initiaux et dérivés ⁴⁰, dont la valeur maximale vaut dix (la valeur 10 signifie donc « dix ou plus »).

3.2.1 Premiers résultats

Ces « utilisateurs » sont, au total, 640 885 . À lui seul, ce nombre légitime tous les efforts entrepris depuis le début de cette enquête, puisque nous arrivons à une population d’enquêtés dont la taille n’a plus aucune commune mesure avec une enquête sociologique traditionnelle.

Les résultats précédents donnent à penser qu’une « personne-cookie » réalise en moyenne deux sessions dans la semaine ⁴¹. Dans les faits, 58 % des individus ainsi repérés ne font qu’une session, 20 % en font deux, 9 % trois, et donc 13 % quatre au plus.

La majorité des membres de notre panel utilise donc peu le moteur Goosta. Les taux trouvés sont conformes avec ceux que l’entreprise rencontre pour la totalité du portail qui héberge le moteur —et donc nécessairement plus consulté que le moteur lui-même: 42 % des « utilisateurs-cookies » réalisent une seule visite par semaine, 16 % en réalisent 2, 10 % 3. Ces faibles usages du moteur sont à mettre en regard des travaux de Valérie Beaudouin et de Houssem Assadi ([BA02]), qui montraient que les usagers à domicile consultaient un moteur de recherche 30 fois dans l’année en moyenne et donc, moins d’une fois par semaine ⁴². D’autres études ([BC01, Djo01]) rappellent la difficulté qu’ont les internautes à utiliser un moteur de recherche (mais n’offrent pas de réelles statistiques). Ainsi, même si nous reconnaissons les limites de notre échantillonnage —pour une étude plus poussée, il conviendrait de prendre une plage d’étude bien supérieure à la semaine, ce qui nécessiterait une machine autrement puissante—, nous espérons proposer une étude précise du comportement de ces 641 000 personnes.

Tout d’abord, nous évoquerons rapidement le cas des « profanes », ou nouveaux venus à l’internet. La constance de ces flux de néophytes expliquerait autant l’accroissement du nombre d’internautes que la lente évolution des usages de l’internet. Nous avons alors décidé de tester la pertinence de cet argument. Or, le cookie permet de connaître la première date de consultation du moteur par l’internaute. Il nous a permis de classer nos utilisateurs en trois groupes: personnes arrivées en mars 2001, en janvier ou février 2001, ou auparavant. On sait qu’un tel indicateur a deux biais: les personnes faisant une seule session de longueur 1 sont toutes venues sur Goosta au moins une fois avant mars (c’est ainsi qu’elles ont été repérées); inversement, parmi ces mêmes personnes ne réalisant qu’une session, mais de longueur supérieure à 2, les « nouvelles » sont légèrement sur-représentées, puisqu’elles intègrent les sessions avec refus de cookie que nous avons reconstituées. Les dates de première apparition du cookie sont assez bien distribuées: 39 % des personnes sont déjà venues sur Goosta avant 2001, 31 % en janvier ou février. Ceci dit, cette variable n’apporte pas d’informations probantes en matière de discrimation des pratiques. Il n’est donc pas sûr que les « anciens » aient des usages différents des nouveaux internautes qui découvrent Goosta.

La longueur moyenne des sessions vaut 1 pour 30 % des utilisateurs, 2 pour 24 % d’entre eux, 3 pour 14 % d’entre eux, et dépasse 5 pour 24 % d’entre eux. Il y a donc beaucoup de sessions courtes.

69 % des utilisateurs ont réalisé au moins une SE. Ceci montre l’intérêt d’une étude sur les personnes: elle met en évidence une forme de panachage des pratiques, puisqu’on ne rencontrait que 60 % de SE. De façon analogue, 65 % des personnes n’ont jamais fait de session avec répétition systématique, alors que 79 % des sessions étaient sans répétition (systématique). On peut vérifier cette combinaison d’usages en considérant le pourcentage d’auteurs de sessions de longueur un ⁴³: il n’est que de 22 % quand on dénombrait 38 % de sessions de ce type; une minorité d’internautes réalise plusieurs sessions de longueur 1. En revanche, 14 % des utilisateurs ont réalisé au moins une session de longueur supérieure ou égale à 10, et 35 % une de longueur supérieure ou égale à 5 (23 % des sessions étaient de longueur supérieure ou égale à 5).

Nous n’en déduisons pas pour autant que les utilisateurs réguliers ne font que des sessions courtes: au contraire, le pourcentage des personnes réalisant au moins une session de longueur supérieure ou égale à 5 croît avec leur nombre de sessions, passant de 25 % chez les auteurs d’une session à 86 % pour ceux d’au moins dix.

Les auteurs de sessions « simplistes » forment, quant à eux, une catégorie assez homogène: ils sont 7797, soit quasiment autant que le total de ces sessions (8758).

3.2.2 Une difficile appropriation

Une grande partie des utilisateurs manifeste une préférence pour les SE: 57 % des personnes n’ayant réalisé qu’une session ont fait une SE; mais pour 78 % des personnes ayant réalisé deux sessions, au moins une est une SE. Ce taux va croissant: 99,2 % des auteurs d’au moins dix sessions ont réalisé au moins une SE. Cette augmentation invite à la modélisation: du tableau 3.5, il ressort qu’un utilisateur a une chance sur deux de réaliser une SE, quel que soit le nombre de sessions qu’il effectue. Cet important résultat prouve tout d’abord qu’une majorité d’utilisateurs de Goosta appartient au « grand public » ⁴⁴, mais montre surtout la difficulté qu’ont les internautes de France à exprimer des requêtes précises, si l’on accepte l’idée que notre panel est représentatif de ces derniers. Les croisements SE, SNE et nombre de sessions donnent des informations du même type: entre 70 et 80 % de ceux qui sont venus au moins deux fois sur le moteur ont réalisé autant de SE que de SNE (pourcentage bien sûr calculé sur les sessions paires).


Nb sessions	Au moins 1 SE	1- (1/2)^Nb sessions

1	0.57	0.5
2	0.78	0.75
3	0.87	0.88
4	0.92	0.94
5	0.95	0.97
6	0.96	0.98
7	0.97	0.99
8	0.97	1
9	0.98	1
10 ou plus	0.99	1

Moy	0.69	0.64

TAB. 3.5:

Modélisation de la production de SE. Pour chaque groupe d’utilisateurs ayant réalisé k sessions dans la semaine, on calcule la proportion de ceux qui ont réalisé au moins une SE, et on la compare au modèle théorique supposant qu’à chaque session, l’utilisateur a une chance sur deux de réaliser une SE.

Cette tendance à la simplicité se double d’une tendance à l’abandon: il suffit de considérer les sessions de longueur 1. On rencontre au moins une telle session chez 29 % des personnes venues une seule fois, chez 62 % des personnes ayant réalisé 2 sessions, chez 75 % de celles en ayant réalisé 3, chez 88 % des auteurs de 5 sessions, et... chez 98,5 % des auteurs d’au moins 10 sessions ⁴⁵. Certes, il est possible de retrouver du premier coup un site précis en saisissant les mots-clés ad hoc, mais au vu des résultats précédents, nous sommes plus tenté d’attribuer la présence de ces sessions courtes à un échec qu’à un succès.

On pressent une corrélation entre l’émission de requêtes trop générales et cette forme d’abandon instantané du moteur. Pour la mettre en évidence, nous explicitons les relations entre les 4 variables suivantes: nombres de SE et de SNE, nombre de sessions de longueur 1, et (suite au travail précédent) nombre de sessions à répétition systématique. Cette évaluation est un peu délicate car les variables sont liées, mais non comparables quand le nombre de sessions varie ⁴⁶.

Pour chaque tranche SE + SNE = k, on remarque que le nombre de sessions de longueur 1 et celui de sessions à répétition systématique croissent directement avec le nombre de SE.

À titre d’exemple, le tableau 3.6 donne les taux de sessions de longueur 1 rencontrés chez les personnes ayant fait 2, 3 ou 4 sessions. Nous savions déjà que le taux de sessions de longueur 1 croît avec le nombre de sessions. À nombre de sessions constant, le taux de sessions de longueur 1 croît avec le nombre de SE ⁴⁷: ce taux de sessions de longueur 1 devient très important ⁴⁸ pour les sessions à majorité SE (qui sont d’ailleurs de plus en plus majoritaires quand le nombre de sessions augmente).


SE_SNE	0 lg1	1 lg1	2 lg1	3 lg1	4 lg1	Total individus

2 sessions						125025
0_2	66	28	7	-	-	27 077
1_1	39	50	11	-	-	46 448
2_0	24	41	35	-	-	51 500

3 sessions						57411
0_3	53	31	12	3	-	7323
1_2	32	47	18	4	-	14 308
2_1	20	39	34	7	-	19 021
3_0	13	28	36	23	-	16 759

4 sessions						30793
0_4	43	32	17	6	2	2480
1_3	27	42	23	8	1	5243
2_2	15	36	35	12	2	7795
3_1	11	26	35	24	4	8626
4_0	8	17	28	29	17	6649

TAB. 3.6:

Pourcentage de personnes ayant réalisé 2, 3 ou 4 sessions, dont k de longueur 1 (lg1). La dernière colonne rappelle le total des individus ayant réalisé un type donné de sessions.

Nous obtenons des résultats analogues, bien que moins spectaculaires, pour les répétitions (cf. tableau 3.7). Aussi sommes-nous tenté de « combiner » les deux indicateurs, afin de regrouper deux types de pratiques opposés dans la forme (répétition sytématique ou abandon direct), mais témoignant l’une comme l’autre d’absences de reformulation des requêtes. Nous appelons comb ce nouvel indicateur, qui vaut la somme des deux.


SE_SNE	0 rép.	1 rép.	2 rép.	3 rép.	4 rép.	Total individus

2 sessions						125025
0_2	78	19	3	-	-	27 077
1_1	68	29	3	-	-	46 448
2_0	57	33	10	-	-	51 500

3 sessions						57411
0_3	68	24	6	1	-	7323
1_2	62	32	6	1	-	14 308
2_1	54	34	10	1	-	19 021
3_0	47	34	15	5	-	16 759

4 sessions						30793
0_4	61	26	10	3	1	2480
1_3	57	32	9	2	0	5243
2_2	50	36	11	2	0	7795
3_1	44	35	15	4	0	8626
4_0	39	32	18	8	3	6649

TAB. 3.7:

Pourcentage de personnes ayant réalisé 2, 3 ou 4 sessions, dont k avec répétition systématique (rép).

À titre d’exemple, le graphique 3.4 donne, pour les auteurs de 4 sessions, le nombre de ceux qui ont réalisé k SE et dont le comb vaut l. La relation entre le comb et le nombre de SE apparaît assez directe.

FIG. 3.4:

Auteurs de 4 sessions. En abscisse, le comb. En ordonnée, le nombre d’individus.

Les résultats du tableau 3.8 montrent que, même parmi les personnes n’ayant réalisé qu’une session, dont les pratiques sont difficiles à commenter, 79 % des auteurs d’une SE ont un comb valant 1: environ 169 000 individus ont en fait réalisé une SE, de longueur 1, ou systématiquement répétée. Chez les auteurs de 4 SNE et d’aucune SE, 22 % d’entre eux ont un comb supérieur ou égal à 3. Ce pourcentage, pour les auteurs de 4 SE, se monte à 84 %.


SE_SNE	0 comb.	1 comb.	2 comb.	3 comb.	4 comb.	5 comb.	6 comb.	Total

1 session								373 128
0_1	73	27	-	-	-	-	-	159 841
1_0	21	79	-	-	-	-	-	213 287

2 sessions								125 025
0_2	49	35	16	-	-	-	-	27 077
1_1	15	63	21	-	-	-	-	46 448
2_0	4	27	69	-	-	-	-	51 500

3 sessions								57 411
0_3	35	34	22	10	-	-	-	7323
1_2	11	49	30	9	-	-	-	14 308
2_1	4	23	56	17	-	-	-	19 021
3_0	1	9	31	59	-	-	-	16 759

4 sessions								30 793
0_4	25	29	24	15	7	-	-	2480
1_3	8	38	32	17	5	-	-	5243
2_2	3	19	46	26	7	-	-	7795
3_1	1	8	29	48	14	-	-	8626
4_0	0	3	12	33	51	-	-	6649

5 sessions								18 026
0_5	20	24	21	18	9	7	-	967
1_4	6	30	31	22	8	3	-	2155
2_3	3	14	39	29	12	4	-	3456
3_2	1	7	25	42	20	5	-	4299
4_1	0	2	12	32	43	10	-	4081
5_0	0	1	5	15	36	44	-	3068

6 sessions								11 266
0_6	12	21	25	16	12	10	4	486
1_5	5	21	25	25	14	7	3	1002
2_4	1	13	30	30	17	7	2	1607
3_3	1	6	20	35	25	11	2	2217
4_2	0	2	10	29	38	16	3	2437
5_1	0	1	5	15	33	37	9	2108
6_0	0	0	2	6	18	34	40	1409

TAB. 3.8:

Pourcentage de personnes ayant réalisé 1 à 6 sessions, dont k avec répétition systématique ou de longueur 1 (comb).

Aussi un comb élevé (proche du nombre de sessions) apparait comme un bon indicateur d’une faible motivation ou d’une curiosité difficile à exprimer, surtout dans le cas de sessions élémentaires. Il va nous aider à construire une première typologie des utilisateurs.

3.2.3 Première classification

3.2.3.1 Deux groupes

Pour renouer avec notre démarche itérative de construction de groupes, nous appelons GR1 le groupe de personnes qui émet des requêtes banales ou qui semble désemparé en matière d’internet documentaire.

Plus précisément, GR1 est défini comme suit: ce sont les personnes qui vérifient l’une ou l’autre des conditions suivantes:

— elles n’ont réalisé que des SE;

— leur nombre de SE est strictement supérieur à leur nombre de SNE et leur comb est égal à leur nombre de sessions.

Les personnes n’appartenant pas à GR1, qui ne vérifent donc aucune de ces deux contraintes, seront dénommées GR0 ⁴⁹.

La deuxième condition ne change pas considérablement le profil des 296 885 auteurs exclusifs de SE: elle ne leur ajoute que 5852 personnes. On a donc 47,2 % des utilisateurs qui entrent dans la catégorie GR1.

Il nous semblait essentiel de vérifier que notre définition était compatible avec nos indicateurs initiaux relatifs aux mots et requêtes. Le GR1 est co-responsable de la quasi totalité des requêtes courantes (il en manque 27 sur 10486); en termes de fréquence, cela fait 45,2 % de ces requêtes. Mais il n’est responsable que de 7,6 % des requêtes rares distinctes, dont le total vaut 880 792. En nombre d’occurrences, cela est équivalent: 7,7 %. Les mêmes calculs appliqués aux mots rares donnent des résultats analogues: 11,3 % du total des mots rares distincts, soit 9,9 % en poids. En revanche, le GR0 est bien responsable de la quasi-totalité des requêtes rares. De même pour les mots. Le tableau 3.9 récapitule l’ensemble de ces résultats.


Classe	Nb distinct(e)s	Poids

Requêtes rares
GR0	813 973	1 651 620
GR1	58 306	122 017
mixte	8513	36 583
mixte0		19 278
mixte1		17 305

Requêtes communes
GR0	96 625	556 736
GR1	19 870	89 174
mixte	64 054	833 998
mixte0		514 126
mixte1		319 872

Requêtes fréquentes
GR0	27	467
GR1	5	81
mixte	10 454	1 743 502
mixte0		955 838
mixte1		787 664

Mots rares
GR0	237 575	639 885
GR1	16 550	38 076
mixte	13 772	118 517
mixte0		78 017
mixte1		40 500

Mots communs
GR0	14 225	224 822
GR1	715	4540
mixte	32 308	1 247 802
mixte0		971 832
mixte1		275 970

Mots fréquents
GR0	13	1371
GR1		0
mixte	9686	7 461 526
mixte0		5 855 987
mixte1		1 605 539

TAB. 3.9:

Récapitulatif des nombres de requêtes et mots rares, communs ou fréquents suivant le groupe. « Mixte » signifie qu’un ensemble de mots ou requêtes est utilisé par des personnes des deux groupes. Est rappelée alors en troisième colonne la contribution de chaque groupe au nombre d’occurrences de ces mots ou requêtes.

Au regard des autres données, les deux groupes sont bien distincts: peu de sessions multiples pour les GR1 (70 % d’entre eux n’ont réalisé qu’une session, contre 47 % des GR0 ); tous les GR0 ont réalisé au moins une SNE, contre seulement 2 % des GR1. La taille du lexique maximal renforce ces opposition: elle vaut 1 ou 2 pour 86 % des GR1, mais pour seulement 11 % de l’autre groupe ⁵⁰.

79 % des auteurs GR1 d’une seule session ont un comb qui vaut un. Un comb égal au nombre de sessions apparaît chez 69 % des auteurs GR1 de deux sessions, chez 65 % des GR1 auteurs de trois sessions, etc. Pour l’autre groupe, les taux démarrent bien plus bas et chutent très vite: 27 % des auteurs d’une session, 19 % de ceux de deux, et moins de 5 % ensuite.

Ainsi, avons-nous mis en évidence un groupe spécifique, qui émet surtout des requêtes banales: les SE sont quasi-systématiques, et leur lexique est fort réduit. Dans une session, la reformulation d’une requête est rare. Le groupe GR1 semble donc particulièrement désarmé devant un moteur de recherche. Or ce groupe constitue la moitié de notre population.

Mais cela ne signifie pas pour autant que le GR0 soit composé de personnes expertes ès internet documentaire. En effet, ce second groupe est défini en négatif. Nous savons qu’il contient les personnes qui ont réalisé des sessions sophistiquées, mais aussi d’autres, qui en ont réalisé de bien plus communes (au vu du grand nombre de requêtes fréquentes qui apparaissent dans le tableau 3.9). Aussi ce constat nous invitera-t-il à prolonger l’entreprise de dichotomie itérative que nous avions évoquée à la fin du chapitre 3.1.6 (page 564).

3.2.3.2 Thèmes

De façon générale, le thème A (« autres » ⁵¹) est —par construction— largement majoritaire: 95 % des internautes l’ont évoqué dans au moins une requête. Sinon, le pourcentage de personnes s’étant intéressé à un thème donné est environ le double du taux de requêtes sur ce même thème ⁵².

Le taux d’internautes émettant des requêtes dictionnairiques semble faible (près d’1 %) mais n’est pas négligeable, puisque le lexique constituant le thème D n’est composé que de deux mots ⁵³. Il en est de même pour le thème de l’écriture informatique et de la programmation (E): il n’était pas acquis qu’une personne sur cent sollicite des mots-clés aussi complexes et spécifiques. Par suite, le taux de personnes ayant rédigé au moins une fois rédigé une requête à connotation pornographique apparaît modéré (6,2 %), entre les préoccupations professionnelles (4,1 %) et l’informatique « grand public » (L), qui motive plus de 9 % des utilisateurs. Nous ne nous étonnons pas de la faible apparition du thème G, qui renvoie à toute la variété des préoccupations des internautes, mais il n’est pas désagréable d’apprendre qu’une personne sur 1500 s’intéresse à la sociologie et à l’anthropologie.


Thème	Nb personnes GR1	Nb personnes GR0	% moyen

A	277 620	328 248	94,54
D	2259	3171	0,85
E	1873	4930	1,06
G	63	318	0,06
L	20 274	39 564	9,34
S	18 815	20 870	6,19
W	8680	17 633	4,11

Total	302 737	338 148

TAB. 3.10:

Nombre de personnes de chaque groupe ayant émis au moins une requête d’un thème donné.

Il était tentant de nuancer ces premiers résultats (voir tableau 3.10) en profitant de la décomposition en deux groupes de nos internautes; bien sûr, les grandes différences des longueurs moyennes des sessions et de leur nombre vont certainement influer sur les nombres de personnes s’intéressant à un ou plusieurs thèmes. Déjà pour le thème A (autres), les statistiques divergent: 8 % des GR1 ne l’ont jamais cité, contre seulement 3 % des GR0. 32 % des personnes du GR0 l’ont évoqué plus de 10 fois, contre 8 % du GR1. Souvent, un thème est évoqué par deux fois plus de personnes du GR0 que du GR1. Le cas extrême se produit pour le thème G, avec un rapport de un à cinq. Mais les thèmes E, L et W offrent aussi des résultats surprenants, puisque deux fois moins de GR1 que prévu les évoquent.

Un thème ne suit pas cette loi, celui de la pornographie: le rapport vaut 1. Et il est le seul où l’abandon est moins systématique pour le GR1 : comme le montre la classification 3.5, qui décrit le profil d’un thème (A exclu) en fonction du nombre de personnes l’ayant cité une fois, deux fois, etc. jusqu’à 10 fois ou plus, le GR1 apparaît homogène: les distances entre les thèmes (E_GR1, W_GR1, D_GR1 et L_GR1 ) sont faibles; mais le S_GR1 est présent au sein du profil GR0, nettement plus dispersé ⁵⁴. L’idée n’est pas que les personnes les plus désemparées face à l’internet seraient des obsédés sexuels, mais que leur difficulté à trouver des réponses conformes à leurs réelles préoccupations les incite à n’utiliser les moteurs de recherche que dans un cadre ludique ⁵⁵. Forme d’exclusion intellectuelle, violente entre toutes.

FIG. 3.5:

Classification des thèmes et groupes en fonction du nombre de personnes ayant émis 1, 2, 3..., 9 ou plus de dix requêtes d’un thème donné.

Après avoir découvert qu’en moyenne, les utilisateurs de Goosta avaient une chance sur deux de réaliser, à tout moment, une SE, nous avons prouvé que ces 640 000 personnes se décomposent en fait en deux groupes de tailles équivalentes et aux pratiques bien distinctes: l’un n’effectue quasiment jamais de SNE, et chaque session est bien souvent composée d’une seule requête, très brève et rarement reformulée: l’utilisateur s’en va vite, dès l’obtention de la première série de réponses, sinon, après avoir parcouru une, deux, voire trois pages de réponses. On est dans une logique d’essais, timides et conformistes, rarement réitérés, puisque 70 % des GR1 ne sont venus qu’une fois dans la semaine. L’échec semble la règle. On comprend alors que seul le thème de la pornographie ait quelque succès pour cette population responsable de seulement 8 % des requêtes rares.

Nous pouvons maintenant prolonger notre démarche itérative.

3.2.4 Première généralisation

Nous pourrions réaliser ces itérations de façon quasi-automatique. Mais le fait que certains des indicateurs soient fort synthétiques nous incitera à la prudence, ce qui nous permettra de prouver la fiabilité de notre méthodologie, et d’opérer quelques vérifications, qui garantiront que les indicateurs que nous avons choisis au fil de ce travail sont robustes.

Nous allons donc commencer par réduire légèrement GR0 et vérifier que les mots rares dans les deux nouveaux groupes obtenus se distribuent bien de la façon escomptée, puis étudier attentivement les auteurs d’une seule session, avant d’évaluer le taux de personnes familiarisées avec le fonctionnement des moteurs de recherche.

Nous décomposons le GR0 en deux sous-groupes: GR01, et son complémentaire GR00.

GR01 comprend les personnes dont:

— le comb est égal à leur nombre de sessions

ou dont

— au moins les trois-quarts (strictement) de leurs sessions sont des SE.

Ainsi, nous sélectionnons ici encore des individus aux requêtes banales, qui réalisent des sessions brèves ou sans reformulation. GR01 a donc un profil très proche de GR1.

La taille de GR01 n’est pas négligeable: 70 593 personnes, soit 21 % de GR0, responsables de 152 921 sessions ⁵⁶. À eux deux, GR1 et GR01 réunissent 58,2 % des utilisateurs, et sont responsables de 17 % des requêtes rares distinctes ⁵⁷. Si nous agrégeons ces deux groupes (dont la réunion est donc le complémentaire de GR00 ), les oppositions statistiques découvertes auparavant se maintiennent ou se renforcent; par exemple 76 % des personnes du groupe GR1 U GR01 ont un lexique maximum qui vaut 2, quand ce taux tombe à 5 % pour son complément GR00 (au lieu de 86 % face à 11 %).

3.2.4.1 Mots rares

Nous désirons d’abord vérifier la pertinence des critères de rareté, qui sont définis de façon statistique. Si quelques sondages attestaient de leur qualité, il reste néanmoins possible que des mots rares (ou des requêtes rares) soient en fait des mots banals dans lesquels se seraient glissées des fautes de frappe. Dans ce cas, la rareté ne serait pas synonyme de sophistication.

Aussi, parmi les mots rares rencontrés dans les requêtes émises par des personnes GR1 U GR01 , en avons-nous sélectionné un sur cent; de même pour GR00. Ce qui a donné respectivement 455 et 1982 mots. Ces mots ont été classifiés en quatre groupes: erreur en cas de faute de frappe manifeste (materiek, nostagie, etc.), doute s’il était difficile de garantir l’erreur (noms inconnus, comme lilootes, cedat, acopsante, ou ressemblant à des mots connus, comme auhan, ou maschio), web (URL plus ou moins complètes, mais sans faute de frappe, comme www.dad —mais www.education.gouvr.fr rentre dans la catégorie erreur, à cause du r de gouvr), et enfin autres, a priori corrects, comme lievremont, moho, narcotiques, presley, ou 110ch.

Dans chaque classe d’utilisateurs, le taux d’erreur est identique: un mot sur trois est mal écrit. En revanche, le taux de doute est plus élevé pour GR1 U GR01 que pour GR00 : 32,3 % contre 17 %. Il en est de même pour la catégorie web: 15,6 % contre 5,2 %. Au final, seul un mot rare sur cinq semble sans faute (ou susceptible d’exister dans un large dictionnaire) pour le groupe agrégé, face à un sur deux ⁵⁸ pour GR00. Le tableau 3.11 synthétise ces résultats.

Aussi, les mots rares de GR1 U GR01 sont-ils fréquemment des mots susceptibles de n’être pas compris par le moteur, et on ne peut que se satisfaire de leur faible présence dans les requêtes de cette classe. A fortiori, si une personne de GR1 U GR01 saisit un mot rare, comme il y a 8 chances sur 10 pour que celui-ci soit incompris du moteur, sa réaction de rejet ou d’abandon risque d’être encore plus forte. Cela nous conforte dans l’idée que ce groupe GR1 U GR01 est particulièrement désarçonné par le fonctionnement des moteurs de recherche. À l’opposé, le fort taux de ces mots rares au sein de la classe complémentaire GR00, et le plus faible taux d’erreur prouvent que cette dernière émet effectivement des requêtes plus sophistiquées. Il est même possible de mesurer ce fait: une personne de GR00 a en moyenne 10 fois plus de chances ⁵⁹ de saisir un mot rare correct qu’une personne de GR1 U GR01 .


Type de mots	% dans (GR1 U GR01)	% dans GR00

erreur	31,4	33,3
doute	32,3	17
web	15,6	5,2

total	79,3	55,5

reste	20,7	44,5

Nb mots	455	1982

TAB. 3.11:

Taux et type de fautes dans les mots rares rencontrés dans le groupe GR1 U GR01 et son complémentaire GR00. Échantillonnage: 1 mot sur 100.

3.2.4.2 Biais éventuels

Avant d’aller plus loin, nous devons maintenant vérifier si certaines catégorisations ne créent pas de biais statistiques: nous travaillons sur des valeurs entières, comme le nombre de sessions, et il serait possible que des contraintes du genre nombre de SE > 3 / 4 * nombre de sessions, favoriseraient par exemple les auteurs d’au moins 5 sessions.

Le type de critère utilisé a effectivement une incidence sur les agrégations construites, mais celle-ci est limitée: pour montrer ce fait, considérons par exemple GR00, que nous scindons en deux groupes; CL1 est défini par les critères suivants:
— le nombre de SE est strictement supérieur au nombre de SNE
ou
— le lexique maximal est inférieur ou égal à 3.

CL0 est son complémentaire. CL1 réalise bien les sessions les plus communes ⁶⁰.

Ici, deux personnes qui ont le même profil, mais dont l’une réalise deux sessions quand l’autre en réalise trois, ne seront pas classées dans le même sous-groupe ⁶¹.

FIG. 3.6:

Pourcentages de CL1 et CL0 réalisant un nombre de sessions donné. En abscisse, le nombre de sessions.

Le graphique 3.6, montre que les deux sous-groupes ont une fréquentation analogue du moteur, ce qui est déjà une information riche en soi. Cependant, nous constatons des différences quand le nombre de sessions vaut deux ou trois: c’est bien là que le critère employé induit une rupture. Mais si l’on fait la somme, pour CL0 comme pour CL1, des auteurs de 2 ou 3 sessions, ces brutales variations s’annulent: 35 % au total pour les CL0, 36 % pour les CL1. D’autre part, ces biais, qui se compensent, donc, ne s’étendent pas quand le nombre de sessions dépasse le seuil choisi: à partir de 4 sessions, les résultats sont identiques pour les deux groupes.

Ainsi, les critères employés sont susceptibles d’introduire des biais aux abords du seuil choisi à la marge, mais ces biais sont peu importants.

3.2.5 Mesure de l’expertise

Nous savons que les personnes mal à l’aise consultent peu le moteur, quand les autres le font plus fréquemment ⁶². Cependant, il n’est pas impossible que des utilisateurs familiers des moteurs se glissent parmi la population des personnes qui consultent rarement Goosta. Par exemple, les « experts » habitués à utiliser plusieurs moteurs à la fois; il serait alors erroné de prétendre que le nombre de sessions d’une personne est en relation directe avec ses capacités documentaires sur l’internet. Aussi, pour mesurer le taux de personnes disposant d’une compétence certaine, devons-nous distinguer les auteurs d’une et de plusieurs sessions.

3.2.5.1 Auteurs d’une session

Nous dénombrons 373 128 auteurs d’une seule session et 267 757 auteurs d’au moins deux. 69 % des premiers entrent dans la catégorie GR1 U GR01, face à 44 % des seconds ⁶³.

Mais les 31 % d’autres personnes n’étant venues qu’une fois ont —par construction, puisqu’ils sont dans GR00 — un comportement différent des GR1 U GR01 : pour tous, la longueur de la session vaut au moins 2, et elle dépasse (au sens large) 5 dans 48 % des cas. Tous sollicitent un lexique de taille supérieure ou égale à 2. De plus, 42 % d’entre eux (48 911 personnes, soit 13 % des GR00 n’ayant réalisé qu’une session) ont un lexique ⁶⁴ de taille supérieure ou égale à 5. Un tel seuil semble témoigner d’une capacité certaine des utilisateurs à tirer parti d’un moteur de recherche.

Ces 48 911 personnes sont auteurs de 126 932 requêtes rares distinctes, quand les 67 921 autres (toujours GR00 auteurs d’une seule session) ont émis 87 037 autres requêtes rares distinctes (en sus, 1452 sont communes aux deux sous-groupes). L’étude de quelques sessions réalisées par les personnes utilisant un lexique consistant donne à penser que leurs requêtes sont variées, reformulées, et efficaces ⁶⁵.

Nous pouvons donc en déduire que 13 % des personnes utilisant rarement Goosta (venues une fois seulement dans notre fenêtre temporelle) sont certainement familières des moteurs de recherche. Nous découvrons une classe d’usagers compétents, mais volatiles, qui ont un comportement en rupture complète avec la grande majorité des autres visiteurs épisodiques, pour lesquels nous avons dû constituer des discriminations du plus bas niveau possible afin de repérer un minimum de maîtrise du moteur.

3.2.5.2 Utilisateurs réguliers

Nous pouvons maintenant porter notre intérêt sur les auteurs d’au moins deux sessions: les autres laissent des traces fugitives, et seulement 13 % d’entre eux semblent maîtriser le fonctionnement de Goosta.

Parmi ces auteurs d’au moins deux sessions, presque la moitié (44 %) sont dans le groupe GR1 U GR01. Nous doutons que les 150 723 personnes restantes —de GR00, donc— soient toutes familiarisées avec l’informatique et les requêtes sur l’internet: en effet, 97 243 de ces personnes ont émis au moins une session de longueur 1. Un sondage rapide sur ces sessions de longueur 1, comme sur celles dont le lexique ne contient qu’un mot, montre qu’elles sont souvent très simples et peu évocatrices (« anpe », par exemple).

Sinon, 45 % de ces 150 723 personnes ont réalisé une session de longueur supérieure ou égale à 4. 59 % d’entre elles ont un lexmax supérieur ou égal à 5, ce qui commence à être important. Mais seulement 9 % ont un lexmin supérieur ou égal à 4, et 4 % un lexmin supérieur ou égal à 5.

Sachant que nous ne pouvons appliquer un critère aussi simple que précédemment, puisqu’ici, nos auteurs de multiples sessions peuvent alterner requêtes banales et complexes, nous nous proposons d’utiliser une fois de plus les indicateurs habituels pour opérer une coupure au sein de ce groupe de personnes venues au moins deux fois dans la semaine, et semblant un minimum familiarisées avec les moteurs de recherche. Nous regroupons d’une part les personnes remplissant l’une des conditions suivantes (groupe GR001), d’autre part son complémentaire ⁶⁶ (dénommé GR000):

— le nombre de SE est supérieur ou égal au nombre de SNE;

— les sessions de longueur 1 composent au moins la moitié du total des sessions;

— le lexique minimum d’une session vaut 1 (il existe donc au moins une session composée d’un seul mot);

— le lexique maximal des sessions ne dépasse pas 3;

— la longueur moyenne des sessions vaut 1.

GR001 est bien plus important que GR000: 115 885 personnes, responsables de 430 362 sessions, quand GR000 ne représente que 34 838 personnes (pour 114 370 sessions). Nous remarquons que GR000 a de fortes chances d’intégrer les personnes dont le lexmax est supérieur ou égal à 4.

Bien sûr, les deux groupes émettent de nombreuses requêtes rares: 542 539 à eux deux, dont 7307 communes à GR001 et à GR000. Mais chaque personne de GR000 est responsable d’environ 5,5 requêtes rares distinctes en moyenne, quand ce taux tombe à 3,1 pour GR001. Inversement, et toujours « en moyenne », une personne de GR001 est responsable de 4,8 requêtes fréquentes ⁶⁷, et une personne de GR000 de 3,6. Enfin, les sessions des GR000 sont en moyenne de longueur 5. En matière de thèmes, les taux de GR000 sont plus élevés que pour la moyenne, ce qui est en partie logique, puisque qu’ils réalisent plusieurs sessions: 1,3 % d’entre eux ont émis des requêtes de type D, 9,7 % de type S et 8,2 % de type W. Les plus fortes augmentations se retrouvent pour les thèmes E (2,4 %), G (0,2 %) et L (18,2 %). Ce dernier pourcentage prouve que les personnes qui maîtrisent l’internet ont conscience du besoin de continuer à se cultiver dans le domaine de l’informatique.

Au vu de ces résultats, nous sommes conduit à penser que c’est parmi ces 34 838 personnes —soit 13 % des auteurs d’au moins deux sessions— que nous retrouverons les internautes disposant d’une maîtrise minimale de l’outillage intellectuel contemporain.

Une majorité d’internautes (58 %) n’ont réalisé qu’une session dans la semaine. Nombre de ceux-ci sont particulièrement démunis face au fonctionnement du moteur. À l’opposé, 13 % semblent en avoir une bonne maîtrise. Restent alors les personnes venant deux fois ou plus, plus faciles à étudier. Là encore, seulement 13 % des utilisateurs attestent d’une telle maîtrise. Nous pouvons en déduire que 87 % de nos 640 000 internautes sont particulièrement désemparés face à de tels outils. Et pourtant, nos critères ont été d’une simplicité maximale.

Il faudrait vérifier ce résultat, avec des études approfondies, incluant des enquêtes ethnographiques, mais d’ores et déjà, les témoignages d’étudiants, évoquant leurs collègues, professeurs, amis et parents, nous donnent à penser qu’il est juste, même s’il déplaît.

3.2.6 Quelles requêtes fréquentes?

En effet, nos 87 % de personnes inexpérimentées, mal à l’aise face à la technique comme face à l’internet documentaire, constituent l’« échantillon représentatif » de l’internaute français. C’est au travers de leurs mots et requêtes les plus fréquents que les analystes des access_log vont déterminer des profils et des évolutions. Pour le plaisir de montrer comment leurs résultats sont bousculés par l’étude attentive d’une population précise, nous proposons d’étudier ce que sont les requêtes fréquentes au sein du groupe GR000, qui est à la fois représentatif des personnes sachant se servir de l’internet et des personnes venant régulièrement sur Goosta.

Notre raisonnement est le suivant: pour aller dans le sens des analyses que nous comptons critiquer, et pour réduire le poids des fautes de frappe, nous ne considérons que les requêtes fréquentes ou communes apparues dans les 3 mois, tous utilisateurs confondus. Nous sommes donc assuré que la fréquence totale de ces requêtes est supérieure à 20. Nous comptons combien de fois les membres de GR000 saisissent ces requêtes, puis comparons le rang général d’une requête avec celui qu’elle a dans GR000.

Pour à la fois expliciter cette méthode et montrer en quoi les variations sont faibles pour les requêtes majoritaires, le tableau 3.12 donne les fréquences et rangs respectifs des requêtes qui sont les dix premières dans GR000 ou dans le total.


rang dans GR000	requête	fréq. dans GR000	rg initial	fréq. totale

1	sexe	531	1	284462
2	immobilier	345	2	93755
3	fond ecran	306	18	51067
4	mp3	296	5	79200
5	pokemon	281	22	43856
6	anpe	279	10	70122
7	sexe gratuit	278	11	69967
8	moteur recherche	275	52	28490
9	chat	256	4	84861
10	webcam	241	14	60406
22	meteo	186	6	77851
24	emploi	183	7	74660
41	caramail	154	8	73966
47	sex	147	3	91962
111	horoscope	91	9	73071

TAB. 3.12:

Requêtes apparaissant les dix premières dans GR000 ou dans le total.

Les deux premières requêtes du corpus de trois mois voient leurs rangs inchangés. Mais déjà apparaissent quelques différences. Par exemple « moteur recherche » voit son rang baisser ⁶⁸ (8 au lieu de 52) quand celui de « sex » passe de 3 à 47. On est donc tenté de repérer les requêtes originelles qui voient leur rang croître dans GR000 (fort intérêt en moyenne, mais faible intérêt pour les GR000), et à l’inverse, les requêtes que nos spécialistes n’aurait pas remarquées, mais qui sont sollicitées par les auteurs GR000. Pour cela, on se fixe un seuil limite (2, 5 ou 10), et l’on inscrit dans un fichier les premières ({rang initial * limite} < {rang dans GR000}), et dans un autre les secondes ({rang dans GR000 * limite} < {rang initial}).

Afin d’éviter une trop forte influence de l’échantillonnage sur le résultat, nous ne considérons que les requêtes fréquentes ou communes dont la fréquence dans GR000 est inférieure à la moitié de la fréquence dans le corpus entier ⁶⁹. Les résultats pour limite = 5, sont présentés dans l’annexe (tableaux 4.1 page 724 et 4.2 page 728).

Bien sûr, toutes les requêtes composées d’un mot simple, polysémique quand il est seul, voient leurs rangs s’accroître grandement: ainsi, les requêtes très vagues —mais trop faciles à interpréter?— comme « impot », « race », « parisien », « loto », « sexy », « loterie », « erotique », « pmu », « anal », etc., ont des rangs entre 1000 et 5000 dans GR000 quand ce rang initial était compris entre 20 et 600. Et d’autres, comme « barcelone », « golf » ou « gif anime », se retrouvent au rang 11 000 alors qu’ils semblaient « importants », si l’on en croit leurs rangs initiaux: respectivement 737, 398, 647.

Inversement, des requêtes bien plus pertinentes se retrouvent dans les premiers rangs: « fievre aphteuse » (rang 11 au lieu de 419), « geographie » (124 au lieu de 764), « seine maritime » (149 au lieu de 12 667), « louis 16 » (307 au lieu de 13 775), « ubu roi » (433 au lieu de 19 749), « egalite homme femme » (593 au lieu de 34 871), « declaration droit homme citoyen » (679 au lieu de 20 403), « elections communales » (877 au lieu de 45 389), « phlebologie » (1642 au lieu de 54 448).

Ces quelques exemples convaincront assurément le lecteur que les représentations d’autrui les plus primaires, aisées à réaliser si on effectue une lecture rapide et non raisonnée des rangs et fréquences des requêtes, s’effondrent lorsqu’on s’intéresse aux utilisateurs ayant un minimum de pratique des moteurs. Les préoccupations culturelles, géographiques et politiques des internautes apparaissent alors bien plus clairement.

[préc.] [fin préc.] [haut page] [remonter]