Outils de recherche pour le Web corpus d'usages linguistiques

Russon Wooldridge

University of Toronto

Décembre 2002
© 2002 Russon Wooldridge

Jusque récemment la linguistique des corpus était l'affaire de spécialistes travaillant en équipes munies d'équipements et de logiciels coûteux sur des corpus élaborés avec grand soin à partir de critères de sélection finement déterminés. Avec l'avènement du World Wide Web et surtout depuis que le WWW s'est enrichi considérablement à tous les niveaux depuis les sites gouvernementaux jusqu'aux pages personnelles et aux forums en ligne, les mêmes spécialistes, comme aussi toute personne s'intéressant au fonctionnement de la langue contemporaine, ont à leur disposition un corpus tout fait et en plus dynamique, donc synchronique : l'ensemble des documents trouvables dans le Web. Toutefois, comme dans la linguistique des corpus traditionnelle, la valeur des résultats d'une interrogation du Web dépend toujours d'une interprétation intelligente. Il n'est pas douteux que nombre d'aspects de l'usage linguistique ne soient convenablement observables que par les méthodes de la recherche spécialisée. Le grand avantage du Web-corpus par rapport aux corpus élaborés réside dans la rapidité avec laquelle on peut dépister certains types de phénomènes linguistiques. Nous examinerons différents moyens d'étudier quatre types d'usages linguistiques : les formes lexicales, les syntagmes, la fréquence relative d'usages concurrents et les cooccurrences.

1. Trouver vs. découvrir

La distinction que nous faisons ici est la suivante : on trouve ce qu'on cherche et on découvre ce qu'on ne s'attendait pas à trouver. Elle est implicitement ou explicitement en jeu dans les requêtes entreprises ci-dessous.

2. Un moteur de recherche spécialisé : TACTweb

Avant de regarder les moteurs de recherche généralistes qui interrogent l'ensemble du Web visible, nous allons jeter un coup d'oeil sur un logiciel sophistiqué qui n'interroge qu'une partie déterminée du "Web invisible" (hors d'atteinte des moteurs généralistes). Le logiciel TACTweb, librement accessible en ligne sous un navigateur Web, travaille effectivement sur des bases de données pré-indexées dont les contenus virtuels ne se réalisent qu'à partir de requêtes ponctuelles.

2.1. Formes lexicales

TACTweb permet toutes sortes de recherches de formes au moyen d'expressions régulières (voir la page TACTweb Queries: Regular Expressions du site officiel de TACTweb). Nous n'illustrerons ici que la recherche des variantes du début ou de la fin d'un mot. Soit la recherche de formes de la famille lexicale de connaître dans la sixième édition (1835) du Dictionnaire de l'Académie française. La requête .*conn.* appelle, au moyen des jokers point-astérisque, tous les mots de texte contenant la chaîne de caractères ...conn.... En faisant abstraction du bruit produit, on trouve, ou on découvre, comme formes de la famille lexicale du verbe connaître, entre autres  : connaissance, connaissement, connaisseur, connaître, connu, inconnu, méconnaissable, méconnaissance, méconnaître, méconnu, reconnaissable, reconnaissance, reconnaissant, reconnaître, reconnu.

2.2. Syntagmes

Soit sans + nom + ni + nom chez Maupassant. La requéte sans | > | ni produit 20 résultats dont certains sont plus ou moins lexicalisés (sans trêve ni repos, sans toit, ni pain, sans rime ni raison, sans feu ni lieu, sans manger ni boire), d'autres non. Dans tous les cas, on découvre de cette façon un aspect particulier, si petit qu'il soit, de l'écriture de l'auteur.

2.3. Fréquence relative d'usages concurrents

En faisant abstraction ici de considérations diachroniques, nous interrogeons plusieurs dictionnaires de la Renaissance pour connaître la fréquence relative des différentes formes de la préposition sous. Soit la requête sous, souz, soub.*. Les formes pertinentes produites par la requête, avec leur fréquence dans le corpus, sont les suivantes : soub x 38, soubs x 215, soubz x 91, sous x 233 (sans compter une occurrence du nom sou au pluriel), souz x 6. Soubs (104 occurrences en 1552) et sous (210 occurrences en 1606) sont les formes dominantes, soubz (79 occurrences en 1552) arrive en troisième position.

2.4. Cooccurrences

On peut dire que les deux termes de trève et repos, toit et pain, rime et raison ou feu et lieu (voir la section 2.2 sur les syntagmes) sont en cooccurrence. Ce qui nous intéresse davantage dans la présente section, c'est la cooccurrence moins figée de termes associés dans un même champ syntagmatique. Soit le verbe allumer et le nom feu dans Le Chien jaune de Georges Simenon. La requête allum.* & feu.* avec les deux mots séparés l'un de l'autre par un maximum de quatre mots ("Contexte d'une requête de Cooccurrence: Avant: 5 mots; Après: 5 mots") produit trois cooccurrences : "on allumait un feu sur la terrasse", "le feu qu'il y avait allumé pour se réchauffer", "un feu qui avait été allumé au milieu de la pièce". On constatera que le mot feu suit allumer dans le premier contexte et le précède dans les deux autres ; le nombre de mots séparant l'un de l'autre est respectivement un, quatre et trois. Association forte (le verbe allumer a un nombre total de 16 occurrences dans le roman, feu en a 11), mais syntagmatique variable.

3. Deux moteurs de recherche généralistes : AltaVista et Google

3.1. Formes lexicales

Nous allons reprendre l'exemple des formes de la famille lexicale du verbe enfirouaper (voir "Enfirouaper dans le World Wide Web"). Dans les statistiques qui suivent nous soustrayons systématiquement deux résultats correspondant à deux pages de l'étude mentionnée dans la phrase précédente.

3.1.1. AltaVista

AltaVista permet, au moyen du joker astérisque, de rechercher des mots dont la dernière partie varie. La requête enfirou* produit (à la date du 2 décembre 2002) 245 résultats – 2 = 243. Parmi ces résultats, on trouve, ou on découvre, entre autres, les formes enfirouaper, enfirouâper, enfirouape, enfirouapé, enfirouapage et enfirouapeux. La fréquence de chacune de ces formes demandées individuellement est la suivante : enfirouaper = 86 – 2 = 84 ; enfirouâper = 14 – 2 = 12 ; enfirouape = 47 – 2 = 45 ; enfirouapé = 34 – 2 = 32 ; enfirouapage = 4 – 2 = 2 ; enfirouapeux = 3 – 2 = 1.

3.1.2. Google

Google ne permet pas de découvrir les variations à la fin des mots, ne reconnaissant pas de joker comme partie de mot. Il faut donc connaître à l'avance les formes que l'on veut retrouver dans les documents du Web. Pour les six formes citées dans la section précédente et qu'il faut donc demander individuellement, les fréquences affichées sont les suivantes : enfirouaper = 108 – 2 = 106 ; enfirouâper = 127 – 2 = 125 ; enfirouape = 94 – 2 = 92 ; enfirouapé = 172 – 2 = 170 ; enfirouapage = 7 – 2 = 5 ; enfirouapeux = 7 – 2 = 5. Ces chiffres sont en fait trompeurs. Une requête contenant une lettre diacrisée produit des occurrences non seulement du mot tapé mais aussi de la même forme sans signes diacritiques ; ainsi, la requête enfirouâper produit des occurrences et d'enfirouâper et d'enfirouaper, la requête enfirouapé produit des occurrences et d'enfirouapé et d'enfirouape. En tenant compte de cette anomalie (on se serait attendu plutôt à l'effet contraire), on peut voir que le nombre des occurrences est toujours supérieur sous Google par rapport à AltaVista et que les proportions relatives sont grossièrement les mêmes.

3.1.3. Comparaison d'AltaVista et de Google

Nous reconnaissons un avantage chez AltaVista par rapport à Google et deux avantages de Google par rapport à AltaVista. À l'opposé de Google, AltaVista permet de découvrir des formes (joker de partie de mot). En revanche, Google produit plus de résultats qu'AltaVista (avantage mineur) et affiche sur ses pages de résultats les contextes des mots demandés (avantage majeur), alors qu'avec AltaVista on est obligé d'ouvrir chaque document pour y chercher les mots demandés.

3.2. Syntagmes

Si l'on veut comprendre dans la recherche de syntagmes des mots à forme très variable (verbes surtout), on pourra préférer utiliser d'abord AltaVista, avec son joker de fin de mot. Sinon, Google, avec ses résultats plus nombreux et son affichage de contextes dans les pages de résultats, peut suffire tout seul. Google sera notre outil de découverte dans l'exemple suivant.

Reprenant le paradigme sous-jacent dans "il se moquait de tout ça comme de sa première chaussette" (voir "Syntagmes-clés et intertextualité", section 2.2), nous faisons deux requêtes sous Google : "comme de * première" et "comme de * premier" (Google accepte le joker de mot complet). À la date du 3 décembre 2002, la première requête a produit 716 résultats, la seconde 225. Les requêtes semblent assez bien ciblées : sur les dix premiers résultats de la première requête cinq sont pertinents, sur les dix premiers de la seconde huit sont pertinents. Le féminin première est plus fréquent que le masculin premier surtout à cause de la haute fréquence du nom chemise ("s'en fout comme de sa première chemise", etc.) Nous avons trouvé effectivement 193 documents en réponse à la requête "comme de * première chemise".

3.3. Fréquence relative d'usages concurrents

Soit la fréquence relative de sous les meilleurs auspices vs. sous les meilleurs hospices (cf. "Syntagmes-clés et intertextualité", section 2.3). Pour ce genre de requêtes, AltaVista et Google se valent dans une certaine mesure. À la date du 3 décembre 2002, le premier donne la distribution 1351 (93,49%) vs. 94 (6,51%) ; le second 2890 (88,73%) vs. 367 (11,27%). On se fiera peut-être davantage aux résultats de Google, réputé plus représentatif de l'ensemble du Web et aussi plus à jour. L'un comme l'autre démontre la fréquence de la forme fautive (sous les meilleurs hospices), laquelle n'est pas la seule possible (on trouve aussi sous les meilleures auspices, sous les meilleures hospices, voire sous les meilleures hauspices, sous les meilleurs ospices).

4. Un logiciel de mise en forme : WebCorp

Le logiciel WebCorp (voir "WebCorp: Applying the Web to Linguistics and Linguistics to the Web", document consulté en novembre et décembre 2002), pour l'instant au moins librement accessible en ligne, se sert de moteurs de recherche généralistes, notamment AltaVista et Google, fait une sélection d'un maximum observé de moins de 200 résultats (les paramètres de sélection ne sont pas expliqués sur le site) et offre un choix de mises en forme, dont l'affichage KWIC cher aux créateurs de concordances et à la linguistique des corpus.

4.1. Formes lexicales

En réponse à la requête enfirouap* sous AltaVista, WebCorp a produit (2 décembre 2002) 55 résultats (voir résultats en affichage KWIC avec indication des sources). En faisant abstraction des 26 résultats provenant de l'article sur "Enfirouaper dans le World Wide Web", nous trouvons parmi les 29 restants les formes suivantes : enfirouaper x 18, enfirouapé x 5, enfirouape x 2, enfirouapete x 1, enfirouapante x 1, enfirouapeurs x 1, enfirouappent x 1. (Google les trouve aussi.)

4.2. Syntagmes

À la date du 3 décembre 2002, WebCorp a produit, en réponse à la requête comme de * première, 88 occurrences dont 68 seraient pertinentes (voir résultats en affichage KWIC sans indication de source) ; la requête comme de * premier a rendu 81 occurrences dont 72 seraient pertinentes (voir résultats en affichage KWIC sans indication de source). Les résultats de WebCorp révèlent sur une seule page la grande variation – et donc le haut degré d'inventivité – des verbes synonymes de se moquer de et des noms qualifiés de première ou premier.
  • Pour les premiers, on note : m'en tape, faire fi, m'en fous, s'en balancent, m'en tamponne, s'en carre, se fiche de, s'en crissent, se soucie de, s'en occuper, s'en préoccupent, s'en contrefout, s'en bat l'oeil (sans regarder les verbes qui n'apparaissent pas dans les lignes de contextes).
  • Les noms varient encore plus, étant souvent choisis en fonction de la thématique du contexte : par exemple, bulle en parlant d'injonction papale, perruque en parlant de Vivaldi, ou moustache en parlant de Georges Brassens. On notera quand même que le nom "normé" (attendu) chemise s'emploie 18 fois ; chaussette se retrouve quatre fois. Parmi les autres premiers objets plus ou moins "normaux" : paire de culotte (ou culotte tout court, culotte courte, couche-culotte, voire Sainte Culotte), paire de bobettes, sucette, socquette, robe, slip, caleçon, anorak, cotillon, biberon, cure-dents, kleenex, cheveu, baiser.

    4.3. Fréquence relative d'usages concurrents

    Ici WebCorp n'est d'aucune utilité. Étant donné son maximum de moins de 200 résultats, ses 84 (AltaVista) et 92 (Google) occurrences de sous les meilleurs auspices et ses 58 (AltaVista) et 86 (Google) de sous les meilleurs hospices sont sans valeur (requête faite le 3 décembre 2002).

    5. Cooccurrences, et interaction d'outils généralistes et de mise en forme

    Dans cette dernière partie, nous examinerons brièvement un cas où l'interaction d'AltaVista-Google et de WebCorp semblerait utile.

    L'on sait que les deux verbes raisonner et résonner sont souvent confondus (cf. le jeu de mots contenu dans raisonner comme une casserole) ; le Web offrirait un corpus d'étude du phénomème, mais comment le cerner? Si, selon le dictionnaire, la suite résonn- ne se trouve que chez le verbe – ce qui militerait en faveur de l'emploi d'AltaVista –, dans la pratique on trouve fréquemment résonnant pour résonant (adj.) et résonnance pour résonance (question de l'aléatoire des consonnes doubles). Pour ce qui est de raisonner, il n'y a aucune suite discrète qui permette de réunir toutes les formes du verbe. Dans l'impossibilité d'établir (sauf par des dépouillements ardus) des statistiques fermes, comme dans le cas de sous les meilleurs auspices/hospices (voir 3.3), nous ne retiendrons dans nos requêtes que les formes complètes raisonne/résonne, raisonnent/résonnent, raisonnait/résonnait, raisonnaient/résonnaient et raisonner/résonner – ce qui laisse de côté, non seulement d'autres formes des verbes (notamment le participe passé, que nous excluons ici à cause de la non-reconnaissance du é final chez Google – cf. 3.1.2), mais également des graphies fautives telles que raisone ou résonait (toutes deux attestées plusieurs fois par AltaVista et Google).

    Fréquences produites par les moteurs de recherche généralistes (4 décembre 2002) :

  • AltaVista (documents en français) : raisonne 20 689, résonne 11 734 ; raisonnent 2 749, résonnent 6 583 ; raisonnait 796, résonnait 2 194 ; raisonnaient 415, résonnaient 1 435 ; raisonner 21 231, résonner 12 456.
  • Google (pages francophones) : raisonne 37 500, résonne 24 700 ; raisonnent 5 470, résonnent 15 600 ; raisonnait 1 820, résonnait 5 320 ; raisonnaient 923, résonnaient 3 870 ; raisonner 40 700, résonner 27 500.

    Premières constatations : 1) les deux verbes sont fréquents, raisonner plus que résonner ; 2) on raisonne surtout au singulier et au présent, alors que résonner est plus fréquemment employé au passé ou avec un sujet pluriel que raisonner.

    Étant donné la masse des données, on peut essayer de se donner une idée de la syntagmatique caractéristique des deux verbes en passant par les affichages KWIC de WebCorp. Cependant, comme on a pu le voir à propos d'enfirouaper (cf. 4.1), WebCorp a tendance à retenir plusieurs occurrences provenant d'un même document, ce qui fausse les résultats au niveau de la langue, par exemple dans le cas de longues pages techniques où il est question de la résonance.

    Abandonnant pour l'instant toute ambition d'établir des statistiques globales (le but du présent document est d'indiquer des pistes de recherche et non de produire des résultats définitifs), nous allons regarder deux suites syntagmatiques bien circonscrites : "pas raisonne/raisonnent/raisonnait/raisonnaient" et "se résonne/résonnent/résonnait/résonnaient". En effet, normalement des pas ou un bruit de pas résonne(nt), alors que le verbe résonner est intransitif sans pronom réfléchi.

    Voici d'abord ce que WebCorp tire de Google pour "pas raisonn-" (exemple: "Leurs bruits de pas raisonnaient dans le long corridor") et "se résonn-" (exemples: "les médecins se résonnent à affirmer que...", "Des sirènes se résonnaient soudainement") ; les résultats des requêtes individuelles sont réunies chaque fois ici sur une page. Après l'exclusion des deux contextes de "pas raisonne" dans lesquels les deux mots sont séparés par un signe de ponctuation (les moteurs de recherche n'en tiennent pas compte), les chiffres du nombre d'occurrences des syntagmes fautifs sont les suivants :

  • "pas raisonn-" : 2 + 8 + 1 + 4 = 15
  • "se résonn-" : 11 + 3 + 2 + 1 = 17

    Regardons enfin ces suites de mots sous AltaVista et Google et comparons les résultats avec ceux des suites correctes "pas résonn-" et "se raisonn-" (4 décembre 2002).

    1a. pas raison- :

  • AltaVista : "pas raisonne" = 77 ; "pas raisonnent" = 3 ; "pas raisonnait" = 1 ; "pas raisonnaient" = 1
  • Google : "pas raisonne" = 138 ; "pas raisonnent" = 11 ; "pas raisonnait" = 2 ; "pas raisonnaient" = 6

    1b. pas résonn- :

  • AltaVista : "pas résonne" = 32 ; "pas résonnent" = 111 ; "pas résonnait" = 21 ; "pas résonnaient" = 48
  • Google : "pas résonne" = 152 ; "pas résonnent" = 315 ; "pas résonnait" = 75 ; "pas résonnaient" = 171

    2a. se résonn- :

  • AltaVista : "se résonne" = 4 ; "se résonnent" = 1 ; "se résonnait" = 1 ; "se résonnaient" = 0
  • Google : "se résonne" = 18 ; "se résonnent" = 4 ; "se résonnait" = 3 ; "se résonnaient" = 1

    2b. se raisonn- :

  • AltaVista : "se raisonne" = 156 ; "se raisonnent" = 25 ; "se raisonnait" = 14 ; "se raisonnaient" = 4
  • Google : "se raisonne" = 312 ; "se raisonnent" = 57 ; "se raisonnait" = 180 ; "se raisonnaient" = 4

    Nous dirons a) que les occurrences seraient à examiner de plus près (cf. pas raisonne plus fréquent que pas résonne), b) que WebCorp n'est pas loin de récupérer la totalité des occurrences de "se résonn-" que trouve Google et c) que la confusion courante des deux verbes est bien attestée dans le corpus du Web.

    6. Conclusion

    Pour la découverte de formes lexicales, AltaVista offre plus de possibilités que Google. Les deux se valent dans la plupart des requêtes concernant les syntagmes. Pour l'affichage des résultats, Google est nettement supérieur à AltaVista, mais WebCorp est encore bien plus révélateur. Pour ce qui est de la fréquence relative d'usages concurrents, AltaVista et Google sont tous deux utiles, mais le second serait un peu plus fiable, alors que WebCorp est ici impuissant. Il y a enfin certaines situations complexes qui militent en faveur d'un va-et-vient entre les moteurs de recherche et un logiciel de mise en forme tel que WebCorp.