La lexico en ligne

Russon Wooldridge

University of Toronto

Document préparé pour le cours FR2100 de York University
3 novembre 2005

© 2005 R. Wooldridge
 

Introduction

Le Web démolit nombre de frontières : on passe d'un pays à l'autre sans s'en apercevoir, il n'y a plus de distinction entre apprentissage et recherche, publie quiconque a une connection à Internet. Les dictatures tombent, dont celle de l'édition traditionnelle. Dorénavant le lecteur, l'usager du Web, est roi. Cependant, pour pouvoir exercer une maîtrise sur la masse d'informations dont il dispose, pour se donner les moyens de séparer le bon grain de l'ivraie, le lecteur doit acquérir une compétence analytique et surtout critique. [1]

Une des frontières que fait tomber le Web est celle qui, du moins pour les spécialistes, définit trois domaines différents : la lexicographie, la lexicologie et la lexicométrie. Les moteurs de recherche donnent accès au Web à travers les unités de base que sont les mots. Google cherche, dans la partie du Web qui lui est accessible, toutes les occurrences du, ou des, mots-clés de la requête et affiche les résultats de sa recherche. Les statistiques – le nombre de documents contenant les termes demandés – relève de la lexicométrie ; les contextes pertinents offrent des matériaux à l'analyse lexicologique. Les nombreux dictionnaires, glossaires et lexiques en ligne sont le fait de lexicographes professionnels et amateurs. L'ensemble c'est de la lexico.

Comme je viens de le dire, le Web fonctionne grâce aux mots ; pour citer le titre d'un livre écrit par la petite-fille de James Murray, auteur du Oxford English Dictionary, le Web, comme le dictionnaire, est un "web of words", une toile tissée de mots. [2] Que trouve-t-on donc dans cette Toile ?

1. Le Web comme superdictionnaire, comme corpus d'usages linguistiques

Les millions de documents publiés dans la Toile constituent, par la structuration que leur donnent les mots-clés des moteurs de recherche, un vaste dictionnaire, un dictionnaire encyclopédique fait de concepts et de mots. Le Web est aussi le plus gros corpus linguistique qui ait jamais existé ; en plus, sa construction ne coûte rien et il est dynamique et essentiellement synchronique.

1.1. Enfirouaper

Prenons le verbe canadien-français enfirouaper, courant au Canada français mais inconnu en Europe. Le Dictionnaire québécois d'aujourd'hui (DicoRobert, 1993) le traite ainsi : Beaucoup de synonymes ou de parasynonymes qui laissent entrevoir les différents effets sémantiques, mais un seul exemple d'emploi relevant du contexte vendeur-client. Les autres dictionnaires en disent moins ou moins bien. Quel est pourtant son usage réel ? Le Web nous a offert (en 1998 et 1999), entre autres : C'est un mot onomatopéique, poétique et romanesque, dans la bouche d'une personne ou d'un animal, politique, mot de bagarres de toutes sortes, de registres de langue différents. [3]

Pour cet exemple, nous nous sommes servis d'une synchronie large ; en revanche, quand on veut comparer des chiffres, il faut le faire dans une synchronie très étroite. Les chiffres de l'exemple suivant ont été observés le 13 octobre 2005.

1.2. Madame la ministre / madame le ministre

Un exemple concernant le genre des noms de métiers. On a pu, il y a quelques années, observer, à partir d'un corpus médiatique, que le français contemporain accepte de plus en plus facilement des appellations telles que Madame la ministre. Sans avoir à entreprendre le travail préparatoire de rassembler un corpus d'articles de journaux, on peut voir en un coup d'oeil la distribution suivante dans les documents en français du Web (13 octobre 2005) : Ces chiffres bruts indiquent : d'une part, que la forme du féminin (du moins dans le syntagme Mme la ministre ou Madame la ministre) est majoritaire dans la francophonie en général et dans quatre pays francophones en particulier ; et d'autre part, qu'elle a une fréquence beaucoup plus élevée que la moyenne au Canada et en Belgique, mais moins élevée que la moyenne en France. [4]

La relative faiblesse des chiffres pour la Suisse s'expliquerait par le fait que dans son système politique fédéral la Suisse a des conseillers là où les autres pays mentionnés ont des ministres. Interrogeons donc le web suisse francophone en tenant compte de cette variation dénominative (résultats du 31 octobre 2005) :

1.3. Sélectivité dictionnairique et extensivité du Web : doudou

Le chanteur québécois Richard Desjardins dit à la jeune fille Caroline, dans sa chanson Caroline, qu'elle n'est plus enfant et qu'il est temps qu'elle quitte la maison de ses parents. Il lui enjoint : Qu'est-ce donc qu'une doudou ? Ouvrons quelques dictionnaires : On dira alors que majoritairement doudou, nom féminin, serait un terme antillais familier affectueux désignant une femme. Desjardins, québécois, dit-il alors à la jeune Caroline de quitter sa femme (antillaise) chérie ? C'est fort peu vraisemblable.

Regardons donc ailleurs, c'est-à-dire dans le Web. Henri Dès, chanteur suisse, dit au sujet de sa chanson Mon doudou :

On peut maintenant émettre l'hypothèse qu'on dit une doudou au Canada et un doudou en Europe.

Regardons les statistiques brutes du Web :

Pour le féminin, on trouve des occurrences des deux sens, celui des dictionnaires et celui de Desjardins et de Dès. C'est le second qui nous intéresse ici. Citons deux pages : Et voilà. Un ou une doudou est un animal en peluche ou un morceau de tissu élu par le petit enfant comme ami inséparable qui le rassure. La langue des enfants – vocabulaire à étudier à l'aide du Web – est depuis belle lurette oubliée des vieux messieurs et des vieilles dames qui confectionnent des dictionnaires. [5]

2. Le Web et le dictionnaire

D'un point de vue strictement scientifique ou technique, le Web n'est nullement un dictionnaire au sens strict du terme : ce n'est pas un recensement systématique des unités lexicales d'une langue, avec une description de leurs propriétés lexicales, grammaticales, syntaxiques, sémantiques, phonétiques ou étymologiques. C'est un corpus d'usages, d'emplois discursifs et, occasionnellement, d'emplois dictionnairiques lorsqu'une occurrence se trouve dans un dictionnaire en ligne. Si on veut savoir l'orthographe, le genre ou le sens général de mots comme table, mur, tableau ou université, un dictionnaire traditionnel suffit largement. Pourtant, les dictionnaires sont souvent insatisfaisants, ils sont par la force des choses en partie obsolescentes et ils sont forcément toujours incomplets. Pour beaucoup d'interrogations (cf. doudou), le Web en dit plus, mieux et plus vite. Il va sans dire qu'il faut savoir se servir des ressources en ligne, tout comme il faut savoir bien se servir d'un dictionnaire.

3. Le Web comme dictionnaire de fautes

Le dictionnaire ne donne que ce qui est accepté par la norme. Pourtant la langue dans son usage réel comprend non seulement ce qui est normé mais aussi ce qui résulte, presque naturellement, de confusions de toutes sortes : homophoniques, paronymiques, digitales. Je donnerai un exemple de confusion paronymique : éminent et imminent. Selon la norme, on dit "mon éminent collègue", "un danger imminent" ; cependant on entend parfois, et on lit, "mon imminent collègue", "un danger éminent".

Qu'en dit le Web ? Le 13 octobre 2005, j'ai trouvé :

Les formes "fautives" seraient-elles toujours le fait de personnes non instruites ? On peut en juger par les exemples suivants :

4. Les dictionnaires en ligne

Les dictionnaires en ligne tendent à être, soit rudimentaires, soit techniques, soit anciens. Les éditeurs français seraient avares d'argent et semblent ne pas aimer le fait de consulter un dictionnaire général en ligne sans payer. Cette opinion vient de ce que deux dictionnaires généraux, très utiles pour les apprenants de la langue, ont été retirés du Web dans les deux ou trois dernières années : l'Encyclopédie Voila avec Hachette et le Dictionnaire Universel Francophone En Ligne, encore chez Hachette. On peut toujours les acheter sur papier, bien entendu.

Heureusement, on peut toujours consulter le grand Trésor de la langue française informatisé [7], lequel offre par ailleurs des types de consultations qui sont impossibles dans le dictionnaire papier. Si je choisis l'option "Recherche assistée" du TLFI, je peux demander, par exemple, toutes les occurrences du mot sabotage dans les exemples d'emploi à travers tout le dictionnaire de A à Z. Il y en a 25, dont 5 dans l'article sabotage. Parmi les 20 autres, je trouve au mot prononciation "Sabotage de la prononciation de notre belle langue par les speakers de la radio.", dans lequel le mot sabotage est employé dans un sens qui manque à l'article du mot lui-même. Dans ce type de lectures transversales le mot vedette est remplacé par le mot clé. [8]

5. Les bases de données textuelles

Une base de données textuelles comme celles d'ARTFL (Chicago) [9] ou de Frantext (Nancy) [10] – elles contiennent chacune des centaines d'oeuvres de la littérature française de la Renaissance jusqu'au vingtième siècle – permet des interrogations bien plus sophistiquées que ne peut faire un moteur de recherche comme Google. Je prendrai comme exemple une base de données du roman Le Chien jaune de Georges Simenon [11] fonctionnant avec le logiciel TACTweb dans la collection FreBase [12] de l'Université de Toronto. M'intéressant aux mots – noms, verbes et adverbes – se terminant en -ment, je peux sortir de la base du Chien jaune toutes les occurrences de formes lexicales se terminant ainsi. La requête : produit une longue liste d'occurrences dont voici les mots commençant par a- : parmi lesquels on trouve trois noms (ahurissement, appartement, avancement), un verbe (aiment) et cinq adverbes (absolument, actuellement, artificiellement, attentivement, autrement).

Je donnerai un autre exemple de l'exploitation d'une base de données textuelles. M'intéressant au phénomène de l'altermondialisation et aux mots qui l'expriment (par exemple, "pour une autre mondialisation") ou qui expriment son contraire, j'ai indexé un long article intitulé "Voyage au coeur de la mondialisation" du politicologue Jean-Louis Bourque paru en septembre 2002 dans le magazine québécois L'action nationale [13]. En faisant une requête demandant tous les mots de texte se terminant en -tion, j'établis vite deux listes de parasynonymes et de para-antonymes du mot mondialisation :

6. La lexico ludique

Le mot de la fin est donné à la lexicographie ludique. Les jeux de mots de société, de la radio, télévision, livres, journaux et magazines prolifèrent dans la Toile. Le site de l'Oxford English Dictionary [15] propose "Word of the Day". De nombreux sites offrent "Le Jeu du pendu", le "Pêle-mêle", des "Mots croisés", des "Anagrammes". Le "Scrabble" en ligne a ses sites de jeu interactif et ses boîtes à outils (dictionnaires). [2]


Références

1. Russon Wooldridge, ACRE : pour une Autonomisation de la critique de ressources en ligne, dans Le Net des Études françaises, Toronto, depuis 2000. <http://www.etudes-francaises.net/acre/>.

2. Russon Wooldridge, "La lexicographie assistée par ordinateur", Toronto, septembre 2003. <http://www.chass.utoronto.ca/~wulfric/articles/lao/lexico_fr.htm>.

3. Russon Wooldridge, Maryam McCubben, John Planka & Snejina Sonina, "Enfirouaper dans le World Wide Web", Toronto, Lexperimenta, 1999. <http://www.chass.utoronto.ca/~wulfric/lexperimenta/enfirouaper/>.

4. Russon Wooldridge, "Études du Web corpus d'usages linguistiques: madame la ministre", dans Le Net des Études françaises, Toronto, octobre 2003. <http://www.etudes-francaises.net/acre/corpus/ministre.htm>.

5. Russon Wooldridge, "Études du Web corpus d'usages linguistiques: doudou", dans Le Net des Études françaises, Toronto, mai 2003. <http://www.etudes-francaises.net/acre/corpus/doudou.htm>.

6. Voir Russon Wooldridge, "Quelques mesures du Web comme corpus d'usages linguistiques", Toronto, avril 2003. <http://www.chass.utoronto.ca/~wulfric/articles2/mesures/>.

7. Trésor de la langue française informatisé, <http://zeus.atilf.fr/tlf.htm>.

8. Russon Wooldridge, "Internet dictionnairique: une typologie exemplifiée", Toronto, mars 2000. <http://www.chass.utoronto.ca/~wulfric/interdico/>.

9. Project for American and French Research on the Treasury of the French Language (ARTFL, University of Chicago), <http://humanities.uchicago.edu/orgs/ARTFL/>.

10. Base textuelle Frantext (ATILF, Nancy), <http://atilf.atilf.fr/frantext.htm>.

11. Base de données du Chien jaune de Georges Simenon (Toronto, 1996), <http://www.chass.utoronto.ca/~wulfric/frebase/chien/cj1-11.htm>.

12. FreBase : bases textuelles (Université de Toronto), <http://www.chass.utoronto.ca/~wulfric/frebase/>.

13. Jean-Louis Bourque, "Voyage au cœur de la mondialisation", in L'Action nationale (Québec), septembre 2002, <http://www.action-nationale.qc.ca/02-9/dossier-bourque.html>.

14. Russon Wooldridge, "Études du Web corpus d'usages linguistiques: mcdonaldisation", dans Le Net des Études françaises, Toronto, septembre 2003. <http://www.etudes-francaises.net/acre/corpus/mcdonaldisation/>.

15. Oxford English Dictionary, <http://www.oed.com/>.