2.6 Approches thématiques

Ces précautions prises, nous pouvons nous intéresser non pas au sens des requêtes, mais à certains des thèmes qu’elles pourraient évoquer. Pour cela, nous proposons des outils lexicométriques simples, mais robustes.

Commençons par un constat, qui rappelle l’importance du temps long. Les requêtes contenant exactement le mot gracq apparaissent presque tous les jours, mais rarement plus de dix fois par jour. En revanche, les références au mot roncayolo sont rares: 13 occurrences le 21e jour, 6 le 33e, une le 51e et 2 le 79e. Il en est de même pour goody, mieux distribué dans le temps, mais n’apparaissant jamais plus de 5 fois dans une journée. Le graphique 2.15 rappelle la distribution de ces noms d’érudits rarement cités.


PIC

FIG. 2.15: Date et fréquence des requêtes contenant les noms des chercheurs suivants: Chamboredon, Goody, Noiriel et Roncayolo.

Mais cette démarche, qui consiste à chercher un mot dans une liste de requêtes, peut-être améliorée. Puisque nous avons remarqué de grandes oppositions entre des requêtes brèves et vagues, mais nombreuses, et d’autres, précises et rares, nous pouvons tenter de corréler les thèmes des requêtes à leurs caractéristiques lexicales.

2.6.1 Méthode

L’idée est simple: nous définissons une liste de mots susceptibles d’avoir le même profil (comme anpe et emploi) et repérons les mots qui leur sont associés dans l’ensemble des requêtes; puis nous calculons le « taux de cooccurrence » de chaque mot trouvé avec les mots de la liste initiale. Par exemple, offre apparaît 26 357 avec emploi, et 43 728 fois en tout. Il a donc un taux de cooccurrence de 60 % avec emploi. Autrement dit, il n’y a que quatre chances sur dix pour que offre n’apparaisse pas avec emploi à ses côtés.

Quelques sondages montrent qu’un taux de cooccurrence de 30 % est déjà fort élevé. Avec cette méthode lexicale, on retrouve des synonymes, des segments répétés (même si dans le cadre d’une requête, ceux-ci peuvent être inversés), et l’on se constitue au fur et à mesure une liste de base de plus en plus consistante, qui finit par être composée des parties suivantes:

À partir de là, un programme bref (57 lignes) mais nécessitant quelques heures-machine, sélectionne les requêtes (procédure Nett2) qui satisfont à nos contraintes. Celles-ci sont présentées avec leur nombre d’occurrences, et, à titre de vérification, avec le mot à l’origine de leur sélection.

On dispose ainsi d’un sous-corpus thématique que l’on peut étudier plus précisément. Dans une version améliorée, le programme calcule, pour chaque mot trouvé, son taux de cooccurrence avec la totalité du lexique de base.





formes acceptées porno, hardcore, perversion, irotisme, erotisme, erotiq, hexibitionniste, exhibition, exibition, lingerie, sexy, boutikue, monikue, esthele, femminine, charme, chrame, jarretelle, voissa, fellation, sodomi, bondage, masturbation, clito, vagin, partouze, voyeuris
sexe formes exactes acc. sex, sexe, sexi, soutien-gorge, guepiere, bas nylon, cul, seins, pamela anderson, nues, lesbiennes, salopes, libertine, sperme, voyeur
formes refusées mycose, infection, prelevement, psycho, chirurgie



formes acc. job, recrutement, annualisation, employ, salaire, salari, emploi, anpe, stage, interim, temporaire, employabilite, assedic, precaire, licenciment, licenciement, remunerateur, remunere, indemnite, allocation, precaire, apprenti, demandeur, diplomant, diploment, professionel, proffessionel
emploi formes exactes acc. boulot, pare, conge, conges, formation, formations, apec, unedic, reinsertion, cheque, cdd, continue, chomage, travail, apprentissage, rtt, 35h
formes refusées location, mode, sexe



formes acc. proxy, firewall, password, passwd, unix, javascript, linux, ascii, unicode, tutoriel, emacs, postscript, sprintf, debian, redhat, kppp, html, php
inform. formes exactes acc. ftp, tcp, telnet, ip, tcpip, cgi, cgi-bin, sql, mysql, routeur, scsi, perl, latex, lisp, gnu, xml, svg, css, dtd, crypt, eof, goto, require, dns, smtp, hub, script, ssh
formes refusées sex, star-system, avery, pantalon, cuir, vetement, fetichisme, vinyl, bondage, lingerie, .html, www.




TAB. 2.11: Sexe, emploi et informatique.

2.6.2 Application à quelques thèmes

Cette méthode a été testée en sélectionnant quatre thèmes: la pornographie —parce qu’elle fait couler beaucoup d’encre—, l’emploi, l’informatique professionnelle, puis l’informatique au sens large. Le tableau 2.11 rappelle tout d’abord les lexiques de chacun des trois premiers thèmes —quasi-exhaustifs, car construits par itérations successives.

Appliquée au sexe, l’étude fait apparaître 2 145 012 requêtes, dont 152 071 distinctes. Les requêtes à connotation pornographique ne dépassent donc pas 3,5 % du total des requêtes. Au vu de la façon dont l’internet permet une exploration intime secrète, sans médiation (du vendeur de journaux pornographiques par exemple) ni contrainte juridique (on peut chercher à l’étranger ce qui est interdit en France), ce taux apparaît assez faible.

La seconde étude, destinée à mettre en évidence les préoccupations professionnelles des internautes, montre que le total des requêtes sur ce thème est de 1 169 990, soit 2 %. C’est plus que ce qu’on attendait, surtout si l’on garde en mémoire les discours relatifs à la morale, ou à l’opposé, à la publicité, qui valorise un internaute consumériste et sans soucis. D’autant que les requêtes distinctes sont ici plus nombreuses que dans le thème précédent: 161 628.

La troisième est réservée à une informatique professionnelle, spécifique aux programmeurs et aux adeptes de l’écriture informatique: c’est pourquoi des mots de « consommation courante », comme napster, mp3 ou windows n’ont pas été retenus, et que les requêtes relatives à des recherches d’URL ont été délibérément rejetées. La méthode est donc stricte, et les résultats surprenants: on dénombre ainsi 61 038 requêtes distinctes, pour un total d’occurrences de 293 848.

L’étude des sessions nous fera découvrir d’autres résultats, mais d’ores et déjà, on est étonné par le nombre de requêtes simples dans le registre pornographique: les requêtes d’un mot sont 889 960, soit 41 % du total, quand ce taux baisse à 29 % pour les requêtes relatives aux préoccupations professionnelles (337 025 requêtes) et à 27 % pour la thématique informatique (79 959 requêtes). On découvre aussi un autre résultat très significatif: pour le premier thème, le poids des requêtes de deux mots est inférieur à celui des requêtes d’un seul (795 113), alors que c’est le contraire (465 276 et 118 137), pour celles des deux autres thèmes.

Dernier point, les requêtes à caractère pornographique composent un vocabulaire de 32 900 mots distincts quand celles du second thème sont plus riches: 40 210 mots distincts (et celles du troisième contiennent 18 708 mots). Déjà, ces quelques indicateurs montrent comment on peut à la fois cerner de façon exhaustive et précise (notamment grâce aux listes de mots rejetés) un ensemble de requêtes liées à un thème, et mesurer sa popularité autrement qu’en faisant de simples additions de fréquences de mots souvent polysémiques s’ils sont pris seuls.

Le quatrième thème est celui de l’informatique au sens large, qui intègre les pratiques de consommation —incluant la recherche de biens culturels comme les logiciels et les extraits musicaux—, et des pratiques plus intellectuelles, qui vont du désir de bien faire fonctionner son ordinateur (quitte à apprendre le mode d’emploi d’un logiciel ou d’un modem) à la recherche d’un anti-virus ou d’un firewall pour protéger ses données. Il englobe l’informatique des spécialistes. Le tableau 2.12 décrit la façon dont il est construit (et montre la difficulté à repérer sans erreur l’intérêt pour les produits Windows).




formes acc. 3com, .gif, .zip, adsl, altavista, antivirus, applescript, appleshare, applet, appletalk, ascii, booster, bsd, cgi, cisco, compilateur, compression, cookie, crontab, debian, defragm, dell, dll, dns, download, emacs, faq, filesystem, firewall, forward, freeware, ftp, gamez, gcc, gnutella, google, hack, hacker, hewlett, hqx, html, http, hypertext, icq, iis, illustrator, imprimante, internet, intranet, javascript, jpeg, jpg, kde, linux, localhost, logiciel, macintosh, mail, makefile, modem, mp3, mp4, mpeg, mpg, napster, netscape, olitec, outlook, passwd, password, pcmcia, photoshop, php, plug-in, pop3, popup, postscript, ppp, programming, proxy, reboot, redhat, robotics, scanner, scsi, servlet, shareware, shutdown, smtp, software, sprintf, sql, ssh, ssl, stylesheet, svg, sybase, tableur, tcp, telecharg, telnet, traceroute, tru64, tutoriel, unicode, unix, url, usb, warez, wget, win2, win32, win9, windows2, windows9, word2, word9, www, wysiwyg, xml, yahoo


formes exactes acc. ip, routeur, perl, latex, gnu, hub, script, gifs, irc, web, system, excel, nt, configure, bios, macros, explorer, novell, spam, fetch, lisp, sparc, utf


formes refusées sex, star-system, avery, pantalon, cuir, vetement, fetichisme, vinyl, bondage, lingerie, yvette, appartement, thermocopression, maill, tremail



TAB. 2.12: Informatique large

Nous obtenons là 2 648 764 requêtes, dont 521 900 distinctes. Ce thème risque fort de traduire la préoccupation première des internautes, avec 4,3 % du total des requêtes, et 6 % des requêtes distinctes. Son lexique est varié, puisqu’il est composé de 209 140 mots distincts. Le poids des requêtes d’un seul mot est de 36,5 %, et celui des requêtes de deux mots est légèrement inférieur aux premières (875 510 contre 968 195); ainsi, ce thème a un profil intermédiaire entre celui de la pornographie, et ceux, plus « exigants », de l’emploi et de l’informatique spécialisée.

Le tableau 2.13 récapitule l’ensemble de ces résultats, tout en introduisant d’autres indicateurs.









Thème Tt. rq. Tt. rq. dist. Taille lx. pds rq. 1 m. pds rq. 2 m. pds rq. > 2 m.







info large 2 648 764 521 900 209 140 968 195 875 510 805 059
sexe 2 145 012 152 071 32 900 889 960 795 113 459 939
emploi 1 169 990 161 628 40 210 337 025 465 276 367 689
info spéc. 293 848 61 038 18 708 79 959 118 137 95 752








TAB. 2.13: Caractéristiques des quatre thèmes étudiés. Abréviations: Tt.: total; pds: poids; rq.: requêtes; dist.: distinctes; lx.: lexique; m.: mots.

Ainsi, nous obtenons plusieurs moyens susceptibles de discriminer les préoccupations des internautes: en nous souvenant que nous travaillons sur des requêtes, et donc sur des agrégations de pratiques, et non pas sur des individus, et en évitant tout jugement moral, nous avons mis en évidence quelques indicateurs plus pertinents que le poids total des requêtes d’un thème donné. En l’occurrence, après avoir utilisé le nombre de requêtes distinctes, et le taux de requêtes d’un mot, il apparaît que le taux de requêtes distinctes, la taille du lexique divisée par le nombre de requêtes distinctes (richesse lexicale), et le poids des requêtes de trois mots ou plus sont des indicateurs pertinents pour mesurer l’importance d’un thème aux yeux des utilisateurs (cf. tableau 2.14): les requêtes à caractère pornographique, non négligeables, sont communes, brèves et pauvres; leurs auteurs apparaissent peu motivés. Ils le sont déjà beaucoup plus quand ils sont confrontés au mauvais fonctionnement de leur machine, et quand ils sont en quête d’outils leur permettant d’apprendre l’informatique ou d’acquérir des biens culturels: un vocabulaire très étendu est sollicité, et les requêtes longues ne sont pas rares. La problématique de l’emploi témoigne d’efforts du même ordre (en termes de longueurs des requêtes, par exemple), même si le vocabulaire est moins étendu que dans le cas de l’informatique large. Mais il est aussi plus normalisé et en proportion, plus important que dans le premier cas. Enfin, les requêtes touchant à une informatique de type Unix, si elles sont peu nombreuses, témoignent a priori d’une culture spécifique, sollicitant néanmoins un grand nombre de mots, et les plus forts taux de requêtes longues et distinctes.





Thème poids brut tx req. dist. indic. richesse lex. pds req. > 2 mots





sexe 3,5 % 7 % 21 % 21,4 %
info large 4,3 % 20 % 40 % 30,4 %
emploi 2 % 14 % 25 % 31,4 %
info spéc. 0,4 % 21 % 31 % 32,6 %






TAB. 2.14: Indicateurs des quatre thèmes étudiés. L’indicateur de richesse lexicale est donné par la taille du lexique divisée par le nombre de requêtes distinctes.

Et donc, plutôt que de plaquer des interprétations (morales, consuméristes, intellectuelles) sur les comportements des internautes en fonction de l’agrégation de leurs pratiques, nous aimerions proposer deux axes de lecture: la motivation et la compétence. Les divers thèmes étudiés ici (au moins les trois premiers) n’ayant aucune raison d’être rattachés à des comportements spécifiques 55, nous constatons que notre population est assez passive face au thème de la lubricité: il y a de fortes chances qu’en ce domaine, l’offre soit supérieure à la demande, voire qu’elle la crée. Situation non surprenante, où les concepteurs de sites ont une grande influence dans le « formatage des usages » —ce qu’on mesure par exemple très clairement avec la longueur de la fenêtre destinée aux requêtes, et avec le fouillis de nombreux portails. L’expression de la compétence est plus délicate, puisqu’elle renvoie à une culture spécifique à l’informatique et à l’internet, et à une culture traditionnelle de la documentation, elle-même biaisée par le degré d’expertise de la personne dans le domaine de sa recherche (un spécialiste de statistiques pouvant être fort démuni et donc « naïf » s’il doit rechercher des textes du Moyen-Âge).

Ces quelques exemples, représentant déjà 9 % du total des requêtes, auront rappelé le danger des interprétations rapides, et mis en évidence, grâce à quelques indicateurs simples, la variété des besoins des internautes, et la relation —heureusement prévisible, mais rarement citée— entre leurs besoins (culturels, financiers, etc.) et leurs motivations.

*
Ces études montrent qu’il est aisé, quitte à construire les outils ad hoc, de mettre en évidence des caractéristiques propres aux archives électroniques provenant d’un moteur de recherche, mais aussi combien il est difficile d’analyser le comportement de ses utilisateurs, dont nous savons peu de choses, si ce n’est que leurs niveaux culturels et leurs préoccupations sont très variables (d’une personne à l’autre, et d’un moment à l’autre pour une même personne).

Nous sommes en effet impressionné par le caractère pluri-dimensionnel des usages: le type des mots et requêtes rencontrés, leurs fréquences, leurs emplois invitent avant tout à la réserve, en même temps qu’ils soulèvent des questions informatiques et méthodologiques aussi essentielles que passionnantes.

Ces premières descriptions devraient maintenant nous permettre de prolonger l’étude jusqu’aux auteurs de notre étrange liste.