La lexico en ligne
Russon Wooldridge
University of Toronto
Document préparé pour le cours FR2100 de York University
3 novembre 2005
© 2005 R. Wooldridge
Introduction
Le Web démolit nombre de frontières : on passe d'un pays à l'autre sans s'en apercevoir, il n'y a plus de distinction entre apprentissage et recherche, publie quiconque a une connection à Internet. Les dictatures tombent, dont celle de l'édition traditionnelle. Dorénavant le lecteur, l'usager du Web, est roi. Cependant, pour pouvoir exercer une maîtrise sur la masse d'informations dont il dispose, pour se donner les moyens de séparer le bon grain de l'ivraie, le lecteur doit acquérir une compétence analytique et surtout critique. [1]
Une des frontières que fait tomber le Web est celle qui, du moins pour les spécialistes, définit trois domaines différents : la lexicographie, la lexicologie et la lexicométrie. Les moteurs de recherche donnent accès au Web à travers les unités de base que sont les mots. Google cherche, dans la partie du Web qui lui est accessible, toutes les occurrences du, ou des, mots-clés de la requête et affiche les résultats de sa recherche. Les statistiques le nombre de documents contenant les termes demandés relève de la lexicométrie ; les contextes pertinents offrent des matériaux à l'analyse lexicologique. Les nombreux dictionnaires, glossaires et lexiques en ligne sont le fait de lexicographes professionnels et amateurs. L'ensemble c'est de la lexico.
Comme je viens de le dire, le Web fonctionne grâce aux mots ; pour citer le titre d'un livre écrit par la petite-fille de James Murray, auteur du Oxford English Dictionary, le Web, comme le dictionnaire, est un "web of words", une toile tissée de mots. [2] Que trouve-t-on donc dans cette Toile ?
1. Le Web comme superdictionnaire, comme corpus d'usages linguistiques
Les millions de documents publiés dans la Toile constituent, par la structuration que leur donnent les mots-clés des moteurs de recherche, un vaste dictionnaire, un dictionnaire encyclopédique fait de concepts et de mots. Le Web est aussi le plus gros corpus linguistique qui ait jamais existé ; en plus, sa construction ne coûte rien et il est dynamique et essentiellement synchronique.
1.1. Enfirouaper
Prenons le verbe canadien-français enfirouaper, courant au Canada français mais inconnu en Europe. Le Dictionnaire québécois d'aujourd'hui (DicoRobert, 1993) le traite ainsi :
enfirouaper [...] v. tr. [...] Fam. Embrouiller, emberlificoter qqn pour le tromper, le rouler. => duper, enjôler, entortiller, séduire. Se faire enfirouaper par un vendeur. => berner, jouer ; fam. pogner ; très fam. fourrer.
Beaucoup de synonymes ou de parasynonymes qui laissent entrevoir les différents effets sémantiques, mais un seul exemple d'emploi relevant du contexte vendeur-client. Les autres dictionnaires en disent moins ou moins bien. Quel est pourtant son usage réel ? Le Web nous a offert (en 1998 et 1999), entre autres :
"Comme un politicien, le génie cherchait un moyen
D'm'enfirouaper, c'est ben certain, c't'un beau menteur
Hey!" (Extrait de Le génie dans la bouteille, poème)
"A quoi servent les gestes?
A arracher, à séduire,
A enfirouaper, à conquérir;
Après, qu'est-ce qu'il reste?" (Extrait de A quoi servent les mots?, poème)
"Le romancier Yves Beauchemin [...] qui lui a dédié son roman, L'Enfirouapé résume ainsi la carrière de ce salonnier montréalais." (Page sur Henri Tranquille)
"Je suis la dernière arrivée. Denyse est sûrement une philanthrope ou plutôt une « félinthrope », une sensible qui se laisse enfirouaper. Autrement, elle m'aurait amené à la SPCA." (Extrait de Denyse Mageau vue par ses trois chats)
"Mais, comme toujours, les francophones au Québec n'ont été surpassés que par leurs congénères d'Ottawa, politiciens et fonctionnaires. Et le Canada anglais s'est fait joliment « enfirouaper »." (Expression d'opinion politique)
"M. Gautrin: M. le Président, si vous le permettez, j'ai présenté une motion sans préavis. Le gouvernement dit oui ou non. Maintenant, qu'ils essaient d'enfirouâper ça pour toutes les raisons pour lesquelles ils disent non, moi, je n'en sais rien." (Débat de l'Assemblée nationale)
"Pas plus que la veille quand il s'était rué sur Eddie Irvine, pour lui dire son fait, un Villeneuve frondeur ne s'est laissé intimider, dans un affrontement décisif, avec l'Allemand qu'on disait tellement fort qu'il allait l'enfirouaper. Une saison de fou pour Jacques qui a démontré qu'il avait toute une carapace." (Le Soleil, journal)
C'est un mot onomatopéique, poétique et romanesque, dans la bouche d'une personne ou d'un animal, politique, mot de bagarres de toutes sortes, de registres de langue différents. [3]
Pour cet exemple, nous nous sommes servis d'une synchronie large ; en revanche, quand on veut comparer des chiffres, il faut le faire dans une synchronie très étroite. Les chiffres de l'exemple suivant ont été observés le 13 octobre 2005.
1.2. Madame la ministre / madame le ministre
Un exemple concernant le genre des noms de métiers. On a pu, il y a quelques années, observer, à partir d'un corpus médiatique, que le français contemporain accepte de plus en plus facilement des appellations telles que Madame la ministre. Sans avoir à entreprendre le travail préparatoire de rassembler un corpus d'articles de journaux, on peut voir en un coup d'oeil la distribution suivante dans les documents en français du Web (13 octobre 2005) :
1. Google, Web : la ministre x 1 790 000
a) Google, Web : madame/mme la ministre x 247 100 = 77,17 % de a+b
b) Google, Web : madame/mme le ministre x 73 100 = 22,83 % de a+b
2. Google, pages canadiennes (.ca) : la ministre x 1 050 000
a) Google, pages canadiennes (.ca) : madame/mme la ministre x 31 900 = 98,60 % de a+b
b) Google, pages canadiennes (.ca) : madame/mme le ministre x 453 = 1,40 % de a+b
3. Google, pages françaises (.fr) : la ministre x 415 000
a) Google, pages françaises (.fr) : madame/mme la ministre x 121 800 = 73,11 % de a+b
b) Google, pages françaises (.fr) : madame/mme le ministre x 44 800 = 26,89 % de a+b
4. Google, pages belges (.be) : la ministre x 167 000
a) Google, pages belges (.be) : madame/mme la ministre x 18 460 = 98,00 % de a+b
b) Google, pages belges (.be) : madame/mme le ministre x 377 = 2,00 % de a+b
5. Google, pages suisses (.ch) : la ministre x 19 200
a) Google, pages suisses (.ch) : madame/mme la ministre x 261 = 75,87 % de a+b
b) Google, pages suisses (.ch) : madame/mme le ministre x 83 = 24,13 % de a+b
Ces chiffres bruts indiquent : d'une part, que la forme du féminin (du moins dans le syntagme Mme la ministre ou Madame la ministre) est majoritaire dans la francophonie en général et dans quatre pays francophones en particulier ; et d'autre part, qu'elle a une fréquence beaucoup plus élevée que la moyenne au Canada et en Belgique, mais moins élevée que la moyenne en France. [4]
La relative faiblesse des chiffres pour la Suisse s'expliquerait par le fait que dans son système politique fédéral la Suisse a des conseillers là où les autres pays mentionnés ont des ministres. Interrogeons donc le web suisse francophone en tenant compte de cette variation dénominative (résultats du 31 octobre 2005) :
6. Google, pages suisses (.ch) : la conseillère x 85 200
a) Google, pages suisses (.ch) : madame/mme la conseillère x 12 728 = 99,95 % de a+b
b) Google, pages suisses (.ch) : madame/mme le conseiller x 6 = 0,05 % de a+b
1.3. Sélectivité dictionnairique et extensivité du Web : doudou
Le chanteur québécois Richard Desjardins dit à la jeune fille Caroline, dans sa chanson Caroline, qu'elle n'est plus enfant et qu'il est temps qu'elle quitte la maison de ses parents. Il lui enjoint :
Prends ta robe et ton bijou,
dis bye bye à ta doudou
Qu'est-ce donc qu'une doudou ? Ouvrons quelques dictionnaires :
1. Petit Robert (PR), 1993
DOUDOU [...] n. f. [...] RÉGION. (Antilles) Jeune femme aimée. Il était avec sa doudou.
2. Trésor de la langue française informatisé (TLFI) (http://zeus.atilf.fr/tlf.htm)
DOUDOU, subst. fém. Région. (Antilles) et fam. Appellation tendre donnée à une femme. L'amour (...) La prononciation la trahit (...) la syllabe mour, prononcée comme mou, presque sans r et avec une ferveur de doudou (H. BAZIN, Lève-toi, 1952, p. 111).
3. Dictionnaire universel francophone en ligne (DUF) (nov. 2004 : ressource supprimée)
doudou n. (Antilles fr.) Fam. Chéri(e).
4. Encyclopédie Voilà avec Hachette (nov. 2005 : ressource en ligne supprimée)
doudou n. fém. Fam. Femme ou mère, aux Antilles.
On dira alors que majoritairement doudou, nom féminin, serait un terme antillais familier affectueux désignant une femme. Desjardins, québécois, dit-il alors à la jeune Caroline de quitter sa femme (antillaise) chérie ? C'est fort peu vraisemblable.
Regardons donc ailleurs, c'est-à-dire dans le Web. Henri Dès, chanteur suisse, dit au sujet de sa chanson Mon doudou :
Dans mon «doudou» je parle d’un chiffon
que les enfants ont à une certaine époque de leur vie et je sais qu’il
y a beaucoup d’adolescents qui le mettent sous leur lit parce qu’ils
ne veulent pas le perdre, même s’ils n’osent dire qu’ils en ont encore
un... pour ne pas paraître ridicules aux yeux de leurs copains. (http://www.lexpress.ch/loisirs/juniors/musique/2002/henrydes.htm)
On peut maintenant émettre l'hypothèse qu'on dit une doudou au Canada et un doudou en Europe.
Regardons les statistiques brutes du Web :
Pour le féminin, on trouve des occurrences des deux sens, celui des dictionnaires et celui de Desjardins et de Dès. C'est le second qui nous intéresse ici. Citons deux pages :
Tu sais, même les grands sont jaloux
de toi ma Doudou et par-dessus tout,
il va bien falloir
que tu te décides à apprendre à nager,
car maman veux te rapiécer
et te plonger dans la machine à laver.
Le soir ce que j'aime le plus,
c'est de m'endormir auprès de toi.
J'aime ta senteur parfumée de fleurs,
quand tu es tout enroulé entre mes doigts
et que tu me chatouilles le visage.
Tu es mon ami, tu me réconfortes beaucoup.
Je t'aime plus que tout, toi ma Doudou.
(Extrait de "Regards des petites personnes: Ma doudou", page québécoise à
http://www.ouellette001.com/regard/2002_01_28_Doudou.htm)
-------------
Le choix du doudou par l'enfant est très important, c'est lui qui adopte ou non un doudou.
Le doudou est le compagnon affectif et rassurant de tous les instants. [...] Le doudou peut être une peluche dont le choix peut nous laisser perplexe, mais bien d'autres choses encore comme un lange, un drap, un pull de maman, une taie d'oreiller.
(Extrait de "Le doudou de bébé", page française à
http://www.teteamodeler.com/eveil/jeux/doudou.asp)
Et voilà. Un ou une doudou est un animal en peluche ou un morceau de tissu élu par le petit enfant comme ami inséparable qui le rassure. La langue des enfants vocabulaire à étudier à l'aide du Web est depuis belle lurette oubliée des vieux messieurs et des vieilles dames qui confectionnent des dictionnaires. [5]
2. Le Web et le dictionnaire
D'un point de vue strictement scientifique ou technique, le Web n'est nullement un dictionnaire au sens strict du terme : ce n'est pas un recensement systématique des unités lexicales d'une langue, avec une description de leurs propriétés lexicales, grammaticales, syntaxiques, sémantiques, phonétiques ou étymologiques. C'est un corpus d'usages, d'emplois discursifs et, occasionnellement, d'emplois dictionnairiques lorsqu'une occurrence se trouve dans un dictionnaire en ligne. Si on veut savoir l'orthographe, le genre ou le sens général de mots comme table, mur, tableau ou université, un dictionnaire traditionnel suffit largement. Pourtant, les dictionnaires sont souvent insatisfaisants, ils sont par la force des choses en partie obsolescentes et ils sont forcément toujours incomplets. Pour beaucoup d'interrogations (cf. doudou), le Web en dit plus, mieux et plus vite. Il va sans dire qu'il faut savoir se servir des ressources en ligne, tout comme il faut savoir bien se servir d'un dictionnaire.
3. Le Web comme dictionnaire de fautes
Le dictionnaire ne donne que ce qui est accepté par la norme. Pourtant la langue dans son usage réel comprend non seulement ce qui est normé mais aussi ce qui résulte, presque naturellement, de confusions de toutes sortes : homophoniques, paronymiques, digitales. Je donnerai un exemple de confusion paronymique : éminent et imminent. Selon la norme, on dit "mon éminent collègue", "un danger imminent" ; cependant on entend parfois, et on lit, "mon imminent collègue", "un danger éminent".
Qu'en dit le Web ? Le 13 octobre 2005, j'ai trouvé :
Google, pages francophones : éminent collègue x 13 700 ; imminent collègue x 60
Google, pages francophones : danger imminent x 64 500 ; danger éminent x 261
Les formes "fautives" seraient-elles toujours le fait de personnes non instruites ? On peut en juger par les exemples suivants :
"les travaux de notre imminent collègue de McGill" (dans un compte rendu publié sur le site de l'Université du Québec à Trois-Rivières)
"des questions que l'imminent collègue vient de poser à ma collègue de Laval-Centre" (dans un document du gouvernement fédéral du Canada)
"Si un danger éminent pèse sur la sécurité des observateurs, ceux-ci doivent s'éloigner" (dans un document publié par l'Organisation des Nations-Unies)
"Je crains que ne germe, un danger éminent pour l'Europe du XXIe siècle." (dans une intervention de la part d'un membre du Sénat de France) [6]
4. Les dictionnaires en ligne
Les dictionnaires en ligne tendent à être, soit rudimentaires, soit techniques, soit anciens. Les éditeurs français seraient avares d'argent et semblent ne pas aimer le fait de consulter un dictionnaire général en ligne sans payer.
Cette opinion vient de ce que deux dictionnaires généraux, très utiles pour les apprenants de la langue, ont été retirés du Web dans les deux ou trois dernières années : l'Encyclopédie Voila avec Hachette et le Dictionnaire Universel Francophone En Ligne, encore chez Hachette. On peut toujours les acheter sur papier, bien entendu.
Heureusement, on peut toujours consulter le grand Trésor de la langue française informatisé [7], lequel offre par ailleurs des types de consultations qui sont impossibles dans le dictionnaire papier. Si je choisis l'option "Recherche assistée" du TLFI, je peux demander, par exemple, toutes les occurrences du mot sabotage dans les exemples d'emploi à travers tout le dictionnaire de A à Z. Il y en a 25, dont 5 dans l'article sabotage. Parmi les 20 autres, je trouve au mot prononciation "Sabotage de la prononciation de notre belle langue par les speakers de la radio.", dans lequel le mot sabotage est employé dans un sens qui manque à l'article du mot lui-même. Dans ce type de lectures transversales le mot vedette est remplacé par le mot clé. [8]
5. Les bases de données textuelles
Une base de données textuelles comme celles d'ARTFL (Chicago) [9] ou de Frantext (Nancy) [10] elles contiennent chacune des centaines d'oeuvres de la littérature française de la Renaissance jusqu'au vingtième siècle permet des interrogations bien plus sophistiquées que ne peut faire un moteur de recherche comme Google. Je prendrai comme exemple une base de données du roman Le Chien jaune de Georges Simenon [11] fonctionnant avec le logiciel TACTweb dans la collection FreBase [12] de l'Université de Toronto. M'intéressant aux mots noms, verbes et adverbes se terminant en -ment, je peux sortir de la base du Chien jaune toutes les occurrences de formes lexicales se terminant ainsi. La requête :
produit une longue liste d'occurrences dont voici les mots commençant par a- :
parmi lesquels on trouve trois noms (ahurissement, appartement, avancement), un verbe (aiment) et cinq adverbes (absolument, actuellement, artificiellement, attentivement, autrement).
Je donnerai un autre exemple de l'exploitation d'une base de données textuelles. M'intéressant au phénomène de l'altermondialisation et aux mots qui l'expriment (par exemple, "pour une autre mondialisation") ou qui expriment son contraire, j'ai indexé un long article intitulé "Voyage au coeur de la mondialisation" du politicologue Jean-Louis Bourque paru en septembre 2002 dans le magazine québécois L'action nationale [13]. En faisant une requête demandant tous les mots de texte se terminant en -tion, j'établis vite deux listes de parasynonymes et de para-antonymes du mot mondialisation :
Parasynonymes | Para-antonymes |
standardisation
américanisation
dollarisation
appropriation (du monde)
globalisation
marchandisation
libéralisation
capitalisation
unification |
sur-exploitation
sur-pollution
surconsommation
déforestation
désertification
commercialisation
déréglementation
McDonaldisation |
anti-mondialisation
démocratisation
responsabilisation
dépollution
conservation
réglementation
concertation
consultation
conscientisation [14] |
6. La lexico ludique
Le mot de la fin est donné à la lexicographie ludique. Les jeux de mots de société, de la radio, télévision, livres, journaux et magazines prolifèrent dans la Toile. Le site de l'Oxford English Dictionary [15] propose "Word of the Day". De nombreux sites offrent "Le Jeu du pendu", le "Pêle-mêle", des "Mots croisés", des "Anagrammes". Le "Scrabble" en ligne a ses sites de jeu interactif et ses boîtes à outils (dictionnaires). [2]
Références
1. Russon Wooldridge, ACRE : pour une Autonomisation de la critique de ressources en ligne, dans Le Net des Études françaises, Toronto, depuis 2000. <http://www.etudes-francaises.net/acre/>.
2. Russon Wooldridge, "La lexicographie assistée par ordinateur", Toronto, septembre 2003. <http://www.chass.utoronto.ca/~wulfric/articles/lao/lexico_fr.htm>.
3. Russon Wooldridge, Maryam McCubben, John Planka & Snejina Sonina, "Enfirouaper dans le World Wide Web", Toronto, Lexperimenta, 1999. <http://www.chass.utoronto.ca/~wulfric/lexperimenta/enfirouaper/>.
4. Russon Wooldridge, "Études du Web corpus d'usages linguistiques: madame la ministre", dans Le Net des Études françaises, Toronto, octobre 2003. <http://www.etudes-francaises.net/acre/corpus/ministre.htm>.
5. Russon Wooldridge, "Études du Web corpus d'usages linguistiques: doudou", dans Le Net des Études françaises, Toronto, mai 2003. <http://www.etudes-francaises.net/acre/corpus/doudou.htm>.
6. Voir Russon Wooldridge, "Quelques mesures du Web comme corpus d'usages linguistiques", Toronto, avril 2003. <http://www.chass.utoronto.ca/~wulfric/articles2/mesures/>.
7. Trésor de la langue française informatisé, <http://zeus.atilf.fr/tlf.htm>.
8. Russon Wooldridge, "Internet dictionnairique: une typologie exemplifiée", Toronto, mars 2000. <http://www.chass.utoronto.ca/~wulfric/interdico/>.
9. Project for American and French Research on the Treasury of the French Language (ARTFL, University of Chicago), <http://humanities.uchicago.edu/orgs/ARTFL/>.
10. Base textuelle Frantext (ATILF, Nancy), <http://atilf.atilf.fr/frantext.htm>.
11. Base de données du Chien jaune de Georges Simenon (Toronto, 1996), <http://www.chass.utoronto.ca/~wulfric/frebase/chien/cj1-11.htm>.
12. FreBase : bases textuelles (Université de Toronto), <http://www.chass.utoronto.ca/~wulfric/frebase/>.
13. Jean-Louis Bourque, "Voyage au cœur de la mondialisation", in L'Action nationale (Québec), septembre 2002, <http://www.action-nationale.qc.ca/02-9/dossier-bourque.html>.
14. Russon Wooldridge, "Études du Web corpus d'usages linguistiques: mcdonaldisation", dans Le Net des Études françaises, Toronto, septembre 2003. <http://www.etudes-francaises.net/acre/corpus/mcdonaldisation/>.
15. Oxford English Dictionary, <http://www.oed.com/>.