2.6 Approches thématiques

Ces précautions prises, nous pouvons nous intéresser non pas au sens des requêtes, mais à certains des thèmes qu’elles pourraient évoquer. Pour cela, nous proposons des outils lexicométriques simples, mais robustes.

Commençons par un constat, qui rappelle l’importance du temps long. Les requêtes contenant exactement le mot gracq apparaissent presque tous les jours, mais rarement plus de dix fois par jour. En revanche, les références au mot roncayolo sont rares: 13 occurrences le 21^e jour, 6 le 33^e, une le 51^e et 2 le 79^e. Il en est de même pour goody, mieux distribué dans le temps, mais n’apparaissant jamais plus de 5 fois dans une journée. Le graphique 2.15 rappelle la distribution de ces noms d’érudits rarement cités.

FIG. 2.15:

Date et fréquence des requêtes contenant les noms des chercheurs suivants: Chamboredon, Goody, Noiriel et Roncayolo.

Mais cette démarche, qui consiste à chercher un mot dans une liste de requêtes, peut-être améliorée. Puisque nous avons remarqué de grandes oppositions entre des requêtes brèves et vagues, mais nombreuses, et d’autres, précises et rares, nous pouvons tenter de corréler les thèmes des requêtes à leurs caractéristiques lexicales.

2.6.1 Méthode

L’idée est simple: nous définissons une liste de mots susceptibles d’avoir le même profil (comme anpe et emploi) et repérons les mots qui leur sont associés dans l’ensemble des requêtes; puis nous calculons le « taux de cooccurrence » de chaque mot trouvé avec les mots de la liste initiale. Par exemple, offre apparaît 26 357 avec emploi, et 43 728 fois en tout. Il a donc un taux de cooccurrence de 60 % avec emploi. Autrement dit, il n’y a que quatre chances sur dix pour que offre n’apparaisse pas avec emploi à ses côtés.

Quelques sondages montrent qu’un taux de cooccurrence de 30 % est déjà fort élevé. Avec cette méthode lexicale, on retrouve des synonymes, des segments répétés (même si dans le cadre d’une requête, ceux-ci peuvent être inversés), et l’on se constitue au fur et à mesure une liste de base de plus en plus consistante, qui finit par être composée des parties suivantes:

fragments graphiques associés au thème sans ambiguité. Par exemple, employ entre dans le registre de l’emploi, car employé, employeur le contiennent. Les mots mal orthographiés, mais pertinents, comme proffessionel, sont acceptés;
mots ou expressions acceptés: continue (très liée à formation, mais non pas la forme continu —pour éviter « continuité », « discontinu(e) »; de même, dans cette catégorie, nous sélectionnons pare ⁵⁴ ce qui exclut « parent ». Les expressions composées de plusieurs mots s’intègrent dans cette classe;
fragments refusés: location, si on a accepté saisonnier, très lié à emploi, alors qu’on ne veut pas de « location saisonniere »; mode pour éviter de tomber sur les nombreuses recherches de modes d’emploi; mex, lingerie, etc. si l’on recherche des requêtes relatives à TEX et à LATEX, mais qu’on ne veut ni de restaurants mexicains, ni de fantasmes vestimentaires. Dans ce registre, on pourra aussi éviter la forme .html (et donc les URL), si l’on se limite à l’informatique professionnelle.

À partir de là, un programme bref (57 lignes) mais nécessitant quelques heures-machine, sélectionne les requêtes (procédure Nett2) qui satisfont à nos contraintes. Celles-ci sont présentées avec leur nombre d’occurrences, et, à titre de vérification, avec le mot à l’origine de leur sélection.

On dispose ainsi d’un sous-corpus thématique que l’on peut étudier plus précisément. Dans une version améliorée, le programme calcule, pour chaque mot trouvé, son taux de cooccurrence avec la totalité du lexique de base.


	formes acceptées	porno, hardcore, perversion, irotisme, erotisme, erotiq, hexibitionniste, exhibition, exibition, lingerie, sexy, boutikue, monikue, esthele, femminine, charme, chrame, jarretelle, voissa, fellation, sodomi, bondage, masturbation, clito, vagin, partouze, voyeuris
sexe	formes exactes acc.	sex, sexe, sexi, soutien-gorge, guepiere, bas nylon, cul, seins, pamela anderson, nues, lesbiennes, salopes, libertine, sperme, voyeur
	formes refusées	mycose, infection, prelevement, psycho, chirurgie

	formes acc.	job, recrutement, annualisation, employ, salaire, salari, emploi, anpe, stage, interim, temporaire, employabilite, assedic, precaire, licenciment, licenciement, remunerateur, remunere, indemnite, allocation, precaire, apprenti, demandeur, diplomant, diploment, professionel, proffessionel
emploi	formes exactes acc.	boulot, pare, conge, conges, formation, formations, apec, unedic, reinsertion, cheque, cdd, continue, chomage, travail, apprentissage, rtt, 35h
	formes refusées	location, mode, sexe

	formes acc.	proxy, firewall, password, passwd, unix, javascript, linux, ascii, unicode, tutoriel, emacs, postscript, sprintf, debian, redhat, kppp, html, php
inform.	formes exactes acc.	ftp, tcp, telnet, ip, tcpip, cgi, cgi-bin, sql, mysql, routeur, scsi, perl, latex, lisp, gnu, xml, svg, css, dtd, crypt, eof, goto, require, dns, smtp, hub, script, ssh
	formes refusées	sex, star-system, avery, pantalon, cuir, vetement, fetichisme, vinyl, bondage, lingerie, .html, www.

TAB. 2.11:

Sexe, emploi et informatique.

2.6.2 Application à quelques thèmes

Cette méthode a été testée en sélectionnant quatre thèmes: la pornographie —parce qu’elle fait couler beaucoup d’encre—, l’emploi, l’informatique professionnelle, puis l’informatique au sens large. Le tableau 2.11 rappelle tout d’abord les lexiques de chacun des trois premiers thèmes —quasi-exhaustifs, car construits par itérations successives.

Appliquée au sexe, l’étude fait apparaître 2 145 012 requêtes, dont 152 071 distinctes. Les requêtes à connotation pornographique ne dépassent donc pas 3,5 % du total des requêtes. Au vu de la façon dont l’internet permet une exploration intime secrète, sans médiation (du vendeur de journaux pornographiques par exemple) ni contrainte juridique (on peut chercher à l’étranger ce qui est interdit en France), ce taux apparaît assez faible.

La seconde étude, destinée à mettre en évidence les préoccupations professionnelles des internautes, montre que le total des requêtes sur ce thème est de 1 169 990, soit 2 %. C’est plus que ce qu’on attendait, surtout si l’on garde en mémoire les discours relatifs à la morale, ou à l’opposé, à la publicité, qui valorise un internaute consumériste et sans soucis. D’autant que les requêtes distinctes sont ici plus nombreuses que dans le thème précédent: 161 628.

La troisième est réservée à une informatique professionnelle, spécifique aux programmeurs et aux adeptes de l’écriture informatique: c’est pourquoi des mots de « consommation courante », comme napster, mp3 ou windows n’ont pas été retenus, et que les requêtes relatives à des recherches d’URL ont été délibérément rejetées. La méthode est donc stricte, et les résultats surprenants: on dénombre ainsi 61 038 requêtes distinctes, pour un total d’occurrences de 293 848.

L’étude des sessions nous fera découvrir d’autres résultats, mais d’ores et déjà, on est étonné par le nombre de requêtes simples dans le registre pornographique: les requêtes d’un mot sont 889 960, soit 41 % du total, quand ce taux baisse à 29 % pour les requêtes relatives aux préoccupations professionnelles (337 025 requêtes) et à 27 % pour la thématique informatique (79 959 requêtes). On découvre aussi un autre résultat très significatif: pour le premier thème, le poids des requêtes de deux mots est inférieur à celui des requêtes d’un seul (795 113), alors que c’est le contraire (465 276 et 118 137), pour celles des deux autres thèmes.

Dernier point, les requêtes à caractère pornographique composent un vocabulaire de 32 900 mots distincts quand celles du second thème sont plus riches: 40 210 mots distincts (et celles du troisième contiennent 18 708 mots). Déjà, ces quelques indicateurs montrent comment on peut à la fois cerner de façon exhaustive et précise (notamment grâce aux listes de mots rejetés) un ensemble de requêtes liées à un thème, et mesurer sa popularité autrement qu’en faisant de simples additions de fréquences de mots souvent polysémiques s’ils sont pris seuls.

Le quatrième thème est celui de l’informatique au sens large, qui intègre les pratiques de consommation —incluant la recherche de biens culturels comme les logiciels et les extraits musicaux—, et des pratiques plus intellectuelles, qui vont du désir de bien faire fonctionner son ordinateur (quitte à apprendre le mode d’emploi d’un logiciel ou d’un modem) à la recherche d’un anti-virus ou d’un firewall pour protéger ses données. Il englobe l’informatique des spécialistes. Le tableau 2.12 décrit la façon dont il est construit (et montre la difficulté à repérer sans erreur l’intérêt pour les produits Windows).


formes acc.	3com, .gif, .zip, adsl, altavista, antivirus, applescript, appleshare, applet, appletalk, ascii, booster, bsd, cgi, cisco, compilateur, compression, cookie, crontab, debian, defragm, dell, dll, dns, download, emacs, faq, filesystem, firewall, forward, freeware, ftp, gamez, gcc, gnutella, google, hack, hacker, hewlett, hqx, html, http, hypertext, icq, iis, illustrator, imprimante, internet, intranet, javascript, jpeg, jpg, kde, linux, localhost, logiciel, macintosh, mail, makefile, modem, mp3, mp4, mpeg, mpg, napster, netscape, olitec, outlook, passwd, password, pcmcia, photoshop, php, plug-in, pop3, popup, postscript, ppp, programming, proxy, reboot, redhat, robotics, scanner, scsi, servlet, shareware, shutdown, smtp, software, sprintf, sql, ssh, ssl, stylesheet, svg, sybase, tableur, tcp, telecharg, telnet, traceroute, tru64, tutoriel, unicode, unix, url, usb, warez, wget, win2, win32, win9, windows2, windows9, word2, word9, www, wysiwyg, xml, yahoo

formes exactes acc.	ip, routeur, perl, latex, gnu, hub, script, gifs, irc, web, system, excel, nt, configure, bios, macros, explorer, novell, spam, fetch, lisp, sparc, utf

formes refusées	sex, star-system, avery, pantalon, cuir, vetement, fetichisme, vinyl, bondage, lingerie, yvette, appartement, thermocopression, maill, tremail

TAB. 2.12:

Informatique large

Nous obtenons là 2 648 764 requêtes, dont 521 900 distinctes. Ce thème risque fort de traduire la préoccupation première des internautes, avec 4,3 % du total des requêtes, et 6 % des requêtes distinctes. Son lexique est varié, puisqu’il est composé de 209 140 mots distincts. Le poids des requêtes d’un seul mot est de 36,5 %, et celui des requêtes de deux mots est légèrement inférieur aux premières (875 510 contre 968 195); ainsi, ce thème a un profil intermédiaire entre celui de la pornographie, et ceux, plus « exigants », de l’emploi et de l’informatique spécialisée.

Le tableau 2.13 récapitule l’ensemble de ces résultats, tout en introduisant d’autres indicateurs.


Thème	Tt. rq.	Tt. rq. dist.	Taille lx.	pds rq. 1 m.	pds rq. 2 m.	pds rq. > 2 m.

info large	2 648 764	521 900	209 140	968 195	875 510	805 059
sexe	2 145 012	152 071	32 900	889 960	795 113	459 939
emploi	1 169 990	161 628	40 210	337 025	465 276	367 689
info spéc.	293 848	61 038	18 708	79 959	118 137	95 752

TAB. 2.13:

Caractéristiques des quatre thèmes étudiés. Abréviations: Tt.: total; pds: poids; rq.: requêtes; dist.: distinctes; lx.: lexique; m.: mots.

Ainsi, nous obtenons plusieurs moyens susceptibles de discriminer les préoccupations des internautes: en nous souvenant que nous travaillons sur des requêtes, et donc sur des agrégations de pratiques, et non pas sur des individus, et en évitant tout jugement moral, nous avons mis en évidence quelques indicateurs plus pertinents que le poids total des requêtes d’un thème donné. En l’occurrence, après avoir utilisé le nombre de requêtes distinctes, et le taux de requêtes d’un mot, il apparaît que le taux de requêtes distinctes, la taille du lexique divisée par le nombre de requêtes distinctes (richesse lexicale), et le poids des requêtes de trois mots ou plus sont des indicateurs pertinents pour mesurer l’importance d’un thème aux yeux des utilisateurs (cf. tableau 2.14): les requêtes à caractère pornographique, non négligeables, sont communes, brèves et pauvres; leurs auteurs apparaissent peu motivés. Ils le sont déjà beaucoup plus quand ils sont confrontés au mauvais fonctionnement de leur machine, et quand ils sont en quête d’outils leur permettant d’apprendre l’informatique ou d’acquérir des biens culturels: un vocabulaire très étendu est sollicité, et les requêtes longues ne sont pas rares. La problématique de l’emploi témoigne d’efforts du même ordre (en termes de longueurs des requêtes, par exemple), même si le vocabulaire est moins étendu que dans le cas de l’informatique large. Mais il est aussi plus normalisé et en proportion, plus important que dans le premier cas. Enfin, les requêtes touchant à une informatique de type Unix, si elles sont peu nombreuses, témoignent a priori d’une culture spécifique, sollicitant néanmoins un grand nombre de mots, et les plus forts taux de requêtes longues et distinctes.


Thème	poids brut	tx req. dist.	indic. richesse lex.	pds req. > 2 mots

sexe	3,5 %	7 %	21 %	21,4 %
info large	4,3 %	20 %	40 %	30,4 %
emploi	2 %	14 %	25 %	31,4 %
info spéc.	0,4 %	21 %	31 %	32,6 %

TAB. 2.14:

Indicateurs des quatre thèmes étudiés. L’indicateur de richesse lexicale est donné par la taille du lexique divisée par le nombre de requêtes distinctes.

Et donc, plutôt que de plaquer des interprétations (morales, consuméristes, intellectuelles) sur les comportements des internautes en fonction de l’agrégation de leurs pratiques, nous aimerions proposer deux axes de lecture: la motivation et la compétence. Les divers thèmes étudiés ici (au moins les trois premiers) n’ayant aucune raison d’être rattachés à des comportements spécifiques ⁵⁵, nous constatons que notre population est assez passive face au thème de la lubricité: il y a de fortes chances qu’en ce domaine, l’offre soit supérieure à la demande, voire qu’elle la crée. Situation non surprenante, où les concepteurs de sites ont une grande influence dans le « formatage des usages » —ce qu’on mesure par exemple très clairement avec la longueur de la fenêtre destinée aux requêtes, et avec le fouillis de nombreux portails. L’expression de la compétence est plus délicate, puisqu’elle renvoie à une culture spécifique à l’informatique et à l’internet, et à une culture traditionnelle de la documentation, elle-même biaisée par le degré d’expertise de la personne dans le domaine de sa recherche (un spécialiste de statistiques pouvant être fort démuni et donc « naïf » s’il doit rechercher des textes du Moyen-Âge).

Ces quelques exemples, représentant déjà 9 % du total des requêtes, auront rappelé le danger des interprétations rapides, et mis en évidence, grâce à quelques indicateurs simples, la variété des besoins des internautes, et la relation —heureusement prévisible, mais rarement citée— entre leurs besoins (culturels, financiers, etc.) et leurs motivations.

Ces études montrent qu’il est aisé, quitte à construire les outils ad hoc, de mettre en évidence des caractéristiques propres aux archives électroniques provenant d’un moteur de recherche, mais aussi combien il est difficile d’analyser le comportement de ses utilisateurs, dont nous savons peu de choses, si ce n’est que leurs niveaux culturels et leurs préoccupations sont très variables (d’une personne à l’autre, et d’un moment à l’autre pour une même personne).

Nous sommes en effet impressionné par le caractère pluri-dimensionnel des usages: le type des mots et requêtes rencontrés, leurs fréquences, leurs emplois invitent avant tout à la réserve, en même temps qu’ils soulèvent des questions informatiques et méthodologiques aussi essentielles que passionnantes.

Ces premières descriptions devraient maintenant nous permettre de prolonger l’étude jusqu’aux auteurs de notre étrange liste.

[préc.] [fin préc.] [haut page] [remonter]