Le Web comme corpus d'usages linguistiques

Russon Wooldridge

University of Toronto

Octobre 2003

(Texte préparé pour un article paru dans les Cahiers de lexicologie, 85 (2004): 209-25.)

English version

 

Introduction

Jusque récemment la linguistique de corpus était l'affaire de spécialistes travaillant en équipes munies d'équipements et de logiciels coûteux sur des corpus élaborés avec grand soin à partir de critères de sélection finement déterminés. Avec l'avènement du World Wide Web et surtout depuis que le WWW s'est enrichi considérablement à tous les niveaux depuis les sites gouvernementaux jusqu'aux pages personnelles et aux forums en ligne, les mêmes spécialistes, comme aussi toute personne s'intéressant au fonctionnement de la langue contemporaine, ont à leur disposition un corpus tout fait et en plus dynamique, donc synchronique : l'ensemble des documents trouvables dans le Web. Toutefois, comme dans la linguistique de corpus traditionnelle, la valeur des résultats d'une interrogation du Web dépend toujours d'une interprétation intelligente. Il n'est pas douteux que nombre d'aspects de l'usage linguistique ne soient convenablement observables que par les méthodes de la recherche spécialisée. Un des grands avantages du Web-corpus par rapport aux corpus élaborés réside dans la rapidité avec laquelle on peut dépister certains types de phénomènes linguistiques.

L'autre avantage majeur du Web réside dans sa nature dynamique. Tout comme la langue elle-même, il se renouvelle sans cesse et offre ainsi des instantanés de l'état actuel de la langue, avec sa dose d'usages nouveaux, établis ou vieillisants.

Nous illustrerons notre propos en regardant différents phénomènes linguistiques : mots, familles de mots et dérivation, syntagmes et paradigmes, confusions homophoniques, paronymiques et morphologiques, usages canadiens et usages français, genèse d'un concept et dénomination lexicale, sélectivité dictionnairique et extensivité du Web.

1. Le mot normand douet

Au bord des petites routes du Pays d'Auge, on voit des panneaux annonçant qu'on suit la "Route des Douets". Avant d'aller consulter en bibliothèque atlas linguistiques ou glossaire régionaux, on peut chercher ce mot dans les pages francophones du Web : On recueille tout de suite des informations linguistiques et pragmatiques, ces dernières étant plus difficilement trouvables dans les atlas et glossaires.

2. Familles de mots et dérivation

2.1. Enfirouaper et ses dérivés

Le verbe canadien enfirouaper est traité ainsi dans le Dictionnaire québécois d'aujourd'hui (DicoRobert, 1993) : C'est un portrait sémantique et onomasiologique avec un seul exemple d'emploi. Quel est pourtant son usage réel ? Le Web nous a offert (en 1998 et 1999), entre autres : C'est un mot onomatopéique, poétique et romanesque, dans la bouche d'une personne ou d'un animal (anthropomorphisme), politique, mot de bagarres de toutes sortes, de registres de langue différents.

Le moteur de recherche AltaVista, à la différence de Google, permet de découvrir des formes lexicales au moyen du joker de fin de mot. La requête enfirou* nous a révélé, entre autres, les dérivés enfirouapage et enfirouapeux :

On note le haut degré de productivité sémantique (effets de sens, registres) et morphologique (dérivés) du verbe enfirouaper.

2.2. La famille du verbe scribouiller

Prenons comme point de départ une phrase célèbre du Général de Gaulle : Regardons maintenant le traitement du verbe dans le Trésor de la langue française (le mot manque à la plupart des dictionnaires moins extensifs) : On retient le deuxième sens de scribouiller, "écrire sans soin ou sans talent". Ajoutons les définitions données par le TLF pour scribouilleur "Celui qui scribouille; auteur, écrivain sans talent" et scribouillage "Action de scribouiller; résultat de cette action".

Dans le Web, on trouve bien sûr la phrase gaullienne, mais on trouve surtout (des centaines d'occurrences) le verbe scribouiller employé dans un registre familier et à effet atténuatif dans le babillardage en ligne. Par exemple :

Regardons maintenant le nom scribouilleur, ou plutôt scribouilleur, scribouilleuse, et scribouilleux. En juin 2003, le Web contenait – c'est-à-dire Google trouvait – 264 occurrences de scribouilleur(s), 987 occurrences de scribouilleuse(s) et 7 de scribouilleux.

Un scribouilleur est, comme dit le TLF, "celui qui scribouille; auteur, écrivain sans talent" :

En revanche, un scribouilleux serait quelqu'un qui scribouille selon les normes du babillardage en ligne : Quant à la scribouilleuse (le féminin est plus de trois fois plus fréquent que les deux formes du masculin réunies), elle semblerait devoir aon succès au nom d'un journal en ligne : La page d'accueil du Journal de la Scribouilleuse ("Le journal de bord de la Scribouilleuse") contient, entre autres, les "plats" suivants (l'ensemble des rubriques forme un menu) : Autres unités à ajouter donc à la liste des membres de la famille lexicale de scribouiller : a) scrib, n. f. Abréviation de scribouilleuse ; b) scribouille, n. f. Surnom utilisé dans les récits interactifs : Pour ce qui est de scribouillage (67 occurrences trouvées en juin 2003), la grande majorité des emplois du singuilier ont la valeur péjorative du dictionnaire : dont un écho du passé : Le pluriel montre clairement qu'il s'agit surtout du résultat de l'action de scribouiller plutôt que de l'action elle-même : La famille de scribouiller aurait en quelque sorte deux visages dans le Web : d'une part, en retrait, le reflet du scribouiller des dictionnaires, et d'autre part, en avant, une forme qui, par son expressivité onomatopéique habillant un contenu d'actualité, sied merveilleusement bien au monde underground – non académique, non scolaire et surtout non "littéraire" – de l'écriture interactive en ligne : le monde des scribouilleuses, scribouillards, scribouilleux, scribouilles et scribs qui scribouillent leurs scribouillages dans des scribouillons, des scribouillards ou des scribouill'arts.

3. Syntagmes et paradigmes

3.1. Esprit de corps, esprit d'équipe

Ce sont des expressions de sens très proches (parasynonymes). Le Petit Robert privilégie la première, suggérant implicitement qu'elle serait plus lexicalisée, voire plus fréquente : Le Dictionnaire des expressions et locutions figurées (Robert, 1979) donne plus de précisions : Esprit d'équipe n'est pas daté mais serait plus récent qu'esprit de corps. Le Web montre clairement la prédominance d'esprit d'équipe dans le monde plus compétitif (esprit d'équipe imposé d'en haut) que solidaire (esprit de corps entre égaux) d'aujourd'hui : Il n'est qu'à regarder les premiers résultats livrés par Google pour voir qu'esprit d'équipe est un terme/concept clé :

3.2. Madame la ministre / madame le ministre

On a pu, il y a quelques années, observer, à partir d'un corpus médiatique, que le français contemporain accepte de plus en plus facilement des appellations telles que Madame la ministre. Sans avoir à entreprendre le travail préparatoire de rassembler un corpus d'articles de journaux, on peut voir en un coup d'oeil la distribution suivante dans les documents en français du Web (fin septembre 2003) : Ces chiffres bruts indiquent : d'une part, que la forme du féminin (du moins dans le syntagme Mme/Madame la ministre) est majoritaire dans la francophonie en général et dans quatre pays francophones en particulier ; et d'autre part, qu'elle a une fréquence plus élevée que la moyenne au Canada, en Belgique et en Suisse (presque exclusive au Canada), mais moins élevée que la moyenne en France.

3.3. Se moquer de qch/qn comme de sa première chemise

On sent là une expression idiomatique à formulation variable : un verbe appartenant au champ sémantique de se moquer de, un nom appartenant au champ des premiers objets possédés par la personne sujet du verbe. Les requêtes "comme de * premier" et "comme de * première" produisent, entre autres et avec peu de bruit (Google les montre dans l'affichage de ses résultats – recherches de septembre et décembre 2002) : Les résultats obtenus dans le Web montrent le haut degré de productivité du syntagme.

4. Confusions homophoniques, paronymiques, morphologiques

Cette section ne sera pas dénuée d'intérêt pour le professeur de français qui cherche à comprendre les fautes de ses élèves.

4.1. Sous les meilleurs auspices / sous les meilleurs hospices

La confusion est si courante qu'il n'est pas surprenant que le site Web de France 2 ait affiché la deuxième version (avant qu'un lecteur lui signale la faute!). La confusion homophonique ne se limite pas au dernier mot de l'expression : Sans parler d'hauspices ou d'ospices.

4.2. Conjecture / conjoncture

La faute paronymique dans la conjecture actuelle, pour dans la conjoncture actuelle, serait bien moins fréquente que la faute d'homophonie que l'on vient de citer : En revanche la confusion se perdre en conjectures / conjonctures s'avère moins rare : Les occurrences de la forme fautive correspondent presque exclusivement à une confusion réelle ; une seule exception sous Google :

4.3. Pluriels en -x

Il s'agit d'une zone complexe, et en partie floue, de la grammaire du français. Il y a d'abord les variantes admises : Les pages francophones de Google, à la date d'avril 2003, donnent les chiffres suivants : Il y a ensuite les fameux -oux : Bien entendu, ces chiffres, comme tous les chiffres bruts, sont à raffiner. Par exemple, le chiffre étonnant de 16 400 occurrences de pous comprend un certain nombre de noms propres et de coquilles (pous au lieu de pour). Ajoutons les occurrences au pluriel de l'adjectif chou : Dans le Web (pages francophones de Google), nous avons trouvé en avril 2003 : Terminons sur ce qui serait considéré par la grammaire scolaire comme des fautes grossières :

5. Usages canadiens et usages français

5.1. Courriel vs. email

Le champ sémantique de courriel / email est assez difficile à cerner de façon statistique. Nous l'aborderons en partant de deux sites Web, l'un canadien, l'autre français : On y voit une distinction et des confusions. L'Office fait une distinction entre le système virtuel – pour lequel il recommande courrier électronique et donne deux synonymes dont courriel – et la réalisation ponctuelle – pour laquelle elle donne, sans recommandation, courriel, les synonymes courrier électronique et message électronique et la proscription de e-mail. Polysémie donc de courriel et de courrier électronique. Dans l'usage réel, ce sont les sens de "message électronique" et d' "adresse électronique" qui dominent et qui font appel aux formes simples, témoin une page d'adresses de l'Ecole Doctorale Chimie et Sciences du Vivant de l'Université Joseph Fourier de Grenoble qui contient six formes différentes : Ces deux sites – Office prescriptif (langue) et Grenoble pratique (discours) – suggèrent que la forme simple courriel serait canadienne, alors que les variantes e-mail, email, mail, mel, mél et mèl seraient françaises. Comment confirmer ce sentiment dans le Web ? Écartons tout de suite la forme mel, trop souvent nom propre (Mel Gibson, Mel'cuk, etc.), et tenons compte du fait que pour Google la requête e-mail équivaut indifféremment à e-mail et à email, que mél correspond indifféremment à mél, mel ou mèl. Notre observation s'est limitée aux adresses explicitement canadiennes (.ca) d'une part, et françaises (.fr) d'autre part, dans les pages francophones de Google (avril 2003). En bref, courriel est bien plus fréquent sur des sites canadiens, e-mail, email, mél et mèl sont beaucoup plus fréquents sur des sites français. Les formes e-mail et email seraient à examiner de plus près, bien entendu, puisqu'on rencontre souvent des séquences en anglais dans des documents dits "francophones" (c.-à-d. en langue française).

5.2. Pourriel vs. spam

Après le courriel, le pourriel. Ce dernier mot, que l'Office québécois de la langue française tient à distinguer (inutilement, à notre avis) de polluriel (pourriel = angl. junk e-mail ; polluriel = angl. spam), est, comme courriel, de facture canadienne. Parmi les multiples références dans la presse québécoise en ligne, citons André Forgues : Forgues avait parlé du pourriel en 1999 dans Cyberpresse ; l'Office québécois de la langue française avait déjà lancé des propositions de dénomination du phénomène en 1997. Le Jargon français note la provenance du terme en 1999 : Qu'en dit le Web en avril 2003 ? En bref : a) le pluriel pourriels est plus fréquent que le singulier pourriel dans le Web francophone global – il s'agit d'objets concrets –, alors que dans les Webs nationaux restreints, c'est le singulier, le phénomène général, qui prédomine ; b) pourriel(s) est plus fréquent dans le Web canadien que dans le Web français ; c) c'est l'anglicisme spam de loin le mot le plus fréquent dans tous les cas de figure.

6. Genèse du concept "une autre mondialisation" et dénomination lexicale par altermondialisation

Avec le rassemblement de Larzac précédant la réunion de l'OMC à Cancun, la presse française du mois d'août 2003 a connu un emploi bien fréquent des termes altermondialisation, altermondialiste(s) et altermondialisme. Par exemple : L'altermondialisation, c'est le phénomène ; l'altermondialisme, c'est l'idéologie ; les altermondialistes sont les adeptes du mouvement altermondialiste. En septembre 2003, les pages francophones de Google ont rendu les statistiques suivantes : Dans quelle mesure le Web permet-il de dater le concept et le terme ? Citons d'abord un article de la Wikipédia : L'idée d'un autre monde, d'une autre mondialisation remonterait donc à 1999. Pour les année 1999 et 2000, on trouve plusieurs attestations dont : En septembre 2003, on peut observer les fréquences suivantes pour cetaines expressions-clés (pages francophones de Google) : Tournons maintenant vers les attestations en ligne de altermondialisation, altermondialiste et altermondialisme. Ces résultats, obtenus en quelques minutes de recherche, montrent qu'on peut facilement remonter les premières attestations de cette famille de mots au début de l'année 2002, voire plus loin. D'après ces premières données, le mot altermondialisme aurait apparu après les deux autres, ce qui est logique : l'altermondialisation ayant remplacé l'antimondialisation pour présenter une opposition plus positive face à la mondialisation, elle se serait par la suite érigée en idéologie, l'altermondialisme.

7. Sélectivité dictionnairique et extensivité du Web : doudou

Pour illustrer notre propos (nous l'avons déjà fait en passant dans plusieurs des sections précédentes), nous prendrons comme point de départ la chanson Caroline de Richard Desjardins : Qu'est ce donc qu'une doudou ? Ouvrons quelques dictionnaires : Si on y trouve une certaine confusion, on dira que majoritairement doudou, nom féminin, serait un terme antillais familier affectueux désignant une femme. Desjardins, québécois, dit-il alors à la jeune Caroline de quitter sa femme (antillaise) chérie ? C'est fort peu vraisemblable.

Regardons donc ailleurs, c'est-à-dire dans le Web. Henri Dès, chanteur suisse, dit au sujet de sa chanson Mon doudou :

On peut énoncer l'hypothèse qu'on dit une doudou au Canada, un doudou en Europe.

Passons aux statistiques brutes (Google, pages francophones, mai 2003) :

Pour le féminin, on trouve des occurrences des deux sens, celui des dictionnaires et celui de Desjardins et de Dès. C'est le second qui nous intéresse ici. Citons deux pages : Un ou une doudou est donc un animal en peluche ou un morceau de tissu élu par le petit enfant comme ami inséparable qui le rassure. La langue des enfants – dont une grande partie disparaît lorsque l'enfant atteint l'âge scolaire, pour revenir avec la paternité ou la maternité – est beaucoup plus présente dans le Web que dans les dictionnaires.

Conclusion

La macro-lexicographie ou dictionnairique est de nos jours fondée sur le dépouillement d'importants corpus coûteux et essentiellement statiques, donc vieillissants par rapport à l'usage actuel, celui du moment de la consultation du dictionnaire. L'observation du Web comme corpus d'usages linguistiques, se situant au niveau de la micro-lexicographie (traditionnellement prise en charge par la lexicologie ou la datation de mots), a l'avantage de pouvoir se renouveler constamment en se fondant sur des corpus dynamiques.

On trouvera, dans le Net des Études françaises, aux adresses <http://www.etudes-francaises.net/acre/corpus/> ou <http://translatio.ens.fr/miroir-nef/acre/corpus/> (site miroir) des analyses plus développées de celles présentées ici.