Quelques mesures du Web comme corpus d'usages linguistiques

Russon Wooldridge

University of Toronto

© avril 2003 R. Wooldridge  

Introduction

Il s'agit de mesures quantitatives et qualitatives du Web considéré comme un corpus d'usages linguistiques. Si en anglais le mot corpus a le sens très répandu de "corpus linguistique" à cause de la place importante occupée par la corpus linguistics dans le monde anglophone et anglicisant de pays comme le Royaume-Uni, les pays scandinaves et les Pays Bas, il en va autrement dans les pays francophones où la linguistique de corpus existe relativement peu (on note surtout quelques travaux sur la langue orale). L'étude du Web comme corpus d'usages linguistiques, peu répandue encore dans le domaine de l'anglais, serait quasiment inexistante en français. Pourtant le Web représente un corpus d'usages contemporains, dynamique donc essentiellement synchronique, un corpus tout fait, qui offre un terrain d'étude riche et mérite un examen sérieux.

Cette communication présente quelques modèles d'investigation et d'analyse, ainsi que quelques mesures des phénomènes étudiés.

1. Variantes

Les variantes sont de plusieurs sortes : nous mentionnerons ici celles admises par le système de la langue et celles qui ne le sont pas, dont formes résultant de confusions diverses ; variantes synonymiques et variantes parasynonymiques.

1.1. Variantes d'expression

1.1.1. esprit de l'escalier vs. esprit d'escalier

Le dictionnaire admet les deux formulations syntagmatiques : Le Web donne un instantané de la distribution de chaque forme : Comme cette expression française s'emploie également dans d'autres langues, notamment l'anglais, on a intérêt à interroger l'ensemble du Web : On remarque qu'esprit de l'escalier est, de peu, la plus fréquente des deux formes dans les documents reconnus par Google comme étant en français, alors qu'esprit d'escalier est, de loin, la plus fréquente dans l'ensemble du Web. Chiffres – comme tous ceux qui suivent – qui seraient à examiner de plus près.

1.1.2. esprit de corps vs. esprit d'équipe

Expressions de sens très proches (parasynonymes). Le Petit Robert privilégie la première, suggérant implicitement qu'elle serait plus lexicalisée, voire plus fréquente : Le Dictionnaire des expressions et locutions figurées (Robert, 1979) donne plus de précisions : Esprit d'équipe n'est pas daté mais serait plus récent qu'esprit de corps. Le Web montre clairement la prédominance d'esprit d'équipe dans le monde plus compétitif (esprit d'équipe imposé d'en haut) que solidaire (esprit de corps entre égaux) d'aujourd'hui : Il n'est qu'à regarder les premiers résultats livrés par Google pour voir qu'esprit d'équipe est un terme/concept clé :

1.2. Variantes géo-linguistiques

Nous allons jeter un coup d'oeil sur des termes appartenant au vocabulaire d'Internet, créé d'abord en anglais et exprimé ensuite, par emprunt ou adaptation, dans d'autres langues dont le français. Alors que le français canadien tend à traduire, le français européen tend à emprunter. La variation formelle, que ce soit du côté de l'emprunt ou de la traduction, est plus grande en français qu'en anglais, les formes lexicales s'imposant assez vite dans la langue de création de cette terminologie.

1.2.1. gratuiciel vs. freeware

Le Vocabulaire d'Internet de l'Office québécois de la langue française, glossaire le plus complet en la matière publié par cet organe prescriptif du gouvernement québécois, propose la traduction suivante de l'anglais freeware : La variation formelle réelle est plus grande : La forme gratisciel (gratis + -ciel) étant de formation plus puriste que fonctionnelle, restent en concurrence réelle graticiel, gratuiciel et gratuitiel (les deux dernières formes, de prononciation identique, étant dérivées de gratuit + -ciel, avec retention intervocalique, soit de t, soit de c). Limiter la recherche aux sites canadiens et français facilement identifiables montre des préférences parmi les trois variantes principales : Formes dominantes au Canada : gratuiciel et gratuitiel ; formes dominantes en France : graticiel et gratuiciel. Toutes ces formes, employées tant au Canada qu'en Europe, sont concurrencées par l'emprunt freeware : En bref, freeware est la forme la plus fréquente du Web francophone global et du Web francophone français, alors que gratuiciel et gratuitiel sont les formes les plus fréquentes du Web francophone canadien. Il est bien entendu que ces chiffres nationaux, comme ceux des deux sections suivantes, ne tiennent pas compte, pour des raisons évidentes, de sites canadiens ou français ayant une adresse .com, .org, .net, etc.

1.2.2. courriel vs. email

Champ sémantique difficile à cerner de façon statistique que nous allons aborder à partir de deux sites Web : Distinction et confusions. L'Office fait une distinction entre le système virtuel – pour lequel il recommande courrier électronique et donne trois synonymes dont courriel et Mél. – et la réalisation ponctuelle – pour laquelle elle donne, sans recommandation, courriel et les synonymes message électronique et courrier électronique. Polysémie donc de courriel et de courrier électronique. Dans l'usage réel, ce sont les sens de "message électronique" et d' "adresse électronique" qui dominent et qui font appel aux formes simples, témoin une page d'adresses de l'Ecole Doctorale Chimie et Sciences du Vivant de l'Université Joseph Fourier de Grenoble qui contient six formes différentes : Ces deux sites (Office et Grenoble) suggèrent que la forme simple courriel serait plutôt canadienne, alors que les variantes e-mail, email, mail, mel, mél et mèl seraient plutôt françaises. Comment confirmer ce sentiment dans le Web ? Écartons tout de suite la forme mel, trop souvent nom propre (Mel Gibson, Mel'cuk, etc.), et tenons compte du fait que pour Google la requête e-mail équivaut indifféremment à e-mail et à email, que mél correspond indifféremment à mél, mel ou mèl. En bref, courriel est bien plus fréquent sur des sites canadiens, e-mail, email, mél et mèl sont beaucoup plus fréquents sur des sites français.

1.2.3. pourriel vs. spam

Après le courriel, le pourriel. Ce dernier mot, que l'Office québécois de la langue française tient à distinguer de polluriel (pourriel = angl. junk e-mail ; polluriel = angl. spam), est, comme courriel, de facture canadienne. Parmi les multiples références dans la presse québécoise en ligne, citons André Forgues : Forgues avait parlé du pourriel en 1999 dans Cyberpresse ; l'Office québécois de la langue française avait déjà lancé des propositions de dénomination du phénomène en 1997. Le Jargon français note la provenance du terme en 1999 : Qu'en dit le Web en 2003 ? En bref : a) le pluriel pourriels est plus fréquent que le singulier pourriel dans le Web francophone global – il s'agit d'objets concrets – alors que dans les Webs nationaux restreints c'est le singulier, le phénomène général, qui prédomine ; b) pourriel(s) est plus fréquent dans le Web canadien que dans le Web français ; c) c'est l'anglicisme spam de loin le mot le plus fréquent dans tous les cas de figure. (Voir aussi ci-dessous, 2.1.2) la section sur la productivité lexicale de courriel.)

1.3. Variantes morphologiques

Les pluriels en -x occupent une zone floue – il y en a d'autres – de la morphologie des mots. L'héritage d'une prononciation et d'une graphie héritées de l'ancien ou du moyen français – chevaus, travauz, poulx – pèse lourd sur le français moderne, où on hésite, par exemple, entre finals et finaux. Si les formes travaux et nationaux semblent aller de soi, on trouve quand même travails et nationals Google trouve un total de 5 950 documents contenant la forme nationals dans ses pages francophones, mais comme un très grand nombre de ces pages sont bilingues, les occurrences relèvent en majorité de l'anglais. En revanche, les 4 280 documents contenant la forme travails sont bien quasiment tous en français.

Le Petit Robert est explicite au sujet du pluriel de travail et de national :

Citons maintenant Grevisse au sujet du pluriel des noms en -ou : Au sujet des pluriels en -als/-aux, la plupart des discours didactiques évitent d'énoncer des règles absolues et préfèrent évoquer des tendances. À la manière du même Grevisse, héritier de Vaugelas et du Dictionnaire de l'Académie française, ils abondent en relativisations et contre-exemples. Témoins, pour les pluriels en -als/-aux : On a affaire en fait à deux grammaires opposées : une grammaire normative, celle des bancs de l'école, qui enseigne les règles et les exceptions d'une langue figée, voire fossilisée ; et une grammaire rationnelle, celle de la communication quotidienne, qui généralise les règles de base ("On forme le pluriel des adjectifs, comme celui des noms, en ajoutant un s au singulier.")

Dans les observations suivantes des usages du Web, nous préférerons souvent interroger des syntagmes plutôt que des mots isolés potentiellement ambigus (interférence de l'anglais, etc.). Recherches dans les pages francophones de Google (23-25 avril 2003).

1.3.1. Masculin pluriel des adjectifs en -al

  • finals vs. finaux
  • navals vs. navaux
  • natals vs. nataux Langue française, Softissimo, le Petit Robert et le TLFI (Trésor de la langue française informatisé) sont d'accord pour dire que l'usager a le choix entre finals et finaux ; ce choix se confirme dans les occurrences du Web. Softissimo n'approuve pour le masculin pluriel de hatal et naval que natals et navals, alors que le Petit Robert se contente de leur donner son approbation implicite ; les occurrences du Web leur donneraient raison pour navals, mais pas pour natals, fortement concurrencé par nataux. Le TLFI donne raison à l'usage que l'on peut observer dans le Web et pour natals/nataux et pour navals/navaux.

    1.3.2. Adjectifs en -al / -el

    Les couples du type structural vs structurel, cérémonial vs. cérémoniel, original vs. originel soit posent en principe une distinction sémantique (laquelle dans la pratique est souvent neutralisée ou ignorée), soit recèlent un déplacement diachronique (structurel introduit vers 1960, cérémoniel terme de sociologie, selon le Petit Robert).

  • structural vs. structurel

    Il est d'usage de parler d'exercices structuraux, ce qui n'empêche pas de rencontrer également exercices structurels :

  • original vs. originel

    1.3.3. -ails / -aux

    1.3.4. -ous / -oux

    Ces résultats sont évidemment à raffiner pour écarter le bruit (noms propres, coquilles dont pous au lieu de pour, etc.). Par exemple : Ajoutons chou, adjectif :

    1.4. Confusions homophoniques, paronymiques, digitales

    1.4.1. sous les meilleurs auspices vs. sous les meilleurs hospices

    Seule la première forme est admise par la langue, pour des raisons évidentes. Cependant la confusion homophonique est courante, comme on sait ou imagine, et comme le confirme le Web : La confusion homophonique ne se limite pas au dernier mot de l'expression : Sans parler d'hauspices ou d'ospices.

    le ver / verre / vers / vert est dans le fruit

    Le jeu de mots homophonique – potentiel dans sous les meilleurs hospices (contexte = Beaune), mais noyé dans la masse des fautes réelles – est plus facile à observer dans le X est dans le fruit.

    Quatre homophones (vair étant exclu, car qui connaît ce mot connaît la forme correcte de l'expression) qui présentent ici trois cas de figure : a) forme acceptée par la langue (le ver est dans le fruit) ; b) confusion homophique réelle ; c) confusion feinte = jeu de mots.

    La très grande majorité des occurrences de le vers est dans le fruit reviendraient à des confusions réelles (à noter que le pluriel de ver est vers) – un ou deux jeux de mots : "'Le vers est dans le fruit': lecture de poèmes". Dans les trois exemples de le verre est dans le fruit, il s'agit de boissons, donc de jeu de mots. De même, les occurrences de le vert est dans le fruit relèvent de contextes dont le thème est soit l'écologie, soit la couleur.

    nu(e)(s) comme un ver / verre / vers / vert.

    On observe les mêmes tendances que dans le ver est dans le fruit, avec, en plus, l'intervention d'un facteur de distortion statistique important : l'appartenance du mot nu au champ sémantique de la pornographie, ce qui a pour résultat d'augmenter le nombre d'occurrences.

    Il y a encore un autre facteur de confusion qui influence la graphie de ver : la cooccurrence avec terre dans le mot-syntagme ver de terre. Google, pages francophones, trouve (8 avril 2003) 281 occurrences de verre de terre, dont confusions réelles et jeux de mots et dont trois occurrences de "nu comme un verre de terre".

    exaucer / exhausser un voeu

    Deux complications de la recherche : 1) Google n'accepte pas le joker de fin de mot, alors que le moins performant AltaVista le reconnaît ; 2) le troisième mot de l'expression peut s'écrire de deux façons : voeu ou vœu.

    Dans toutes les occurrences d'exhauss- un voeu/vœu, il s'agit d'une faute réelle.

    1.4.2. dans la conjoncture actuelle vs. dans la conjecture actuelle

    Exemple de paronymie où la confusion revient à ce qu'on appelle en anglais un malapropisme. Cf. Le Petit Robert : Résultats dans le Web : se perdre en conjectures / conjonctures

    Confusion plus surprenante peut-être que la précédente mais réelle et aussi plus fréquente :

    Les occurrences de la forme fautive correspondent presque exclusivement à une confusion réelle ; une seule exception sous Google :

    éminent vs. imminent

    a) soit éminent collègue vs. imminent collègue

    Les deux occurrences d'imminent collègue méritent d'être citées puisqu'il s'agit, en principe, de locuteurs ayant une certaine maîtrise de la langue : b) soit danger imminent vs. danger éminent

    1.4.3. identité vs. indentité

    La deuxième forme est évidemment incorrecte, mais la faute est cette fois digitale et non phono-graphique. Comme la plupart des mots en i- commencent par in- (66 pages sur les 98 de la lettre I du Petit Robert de 1993, 42,5 sur 72 dans le Random House Unabridged de la même année), le doigt passe facilement de i à n sur le clavier. La faute est relativement rare, mais répandue quand même, malgré l'existence de logiciels de correction d'orthographe :

    2. Productivité

    2.1. Productivité lexicale

    2.1.1. enfirouaper et ses dérivés

    Nous reprenons une étude vieille de plus de trois ans (Wooldridge et al., "Enfirouaper dans le World Wide Web", 1999). Regardons ce verbe dans un dictionnaire usuel du français québécois, le Dictionnaire québécois d'aujourd'hui (DicoRobert, 1993) : Portrait sémantique et onomasiologique avec un seul exemple d'emploi, mais quel est son usage réel ? Le Web nous a offert, entre autres :

    C'est un mot onomatopéique, poétique et romanesque, dans la bouche d'une personne ou d'un animal (anthropomorphisme), politique, mot de bagarres de toutes sortes, de registres de langue différents.

    Le moteur de recherche AltaVista, à la différence de Google, permet de découvrir des formes lexicales au moyen du joker de fin de mot. La requête enfirou* nous a permis de découvrir les dérivés enfirouapage et enfirouapeux :

    Les mesures sont ici plus qualitatives que quantitatives : haut degré de productivité sémantique (effets de sens, registres) et morphologique (dérivés).

    2.1.2. "Un avantage de « courriel » est sa productivité lexicale"

    Notre intitulé est celui d'une page du Dicomoche. Les rejetons de courriel qu'énumère le Dicomoche sont les suivants : Productivité en partie réelle – voir l'étude ci-dessus (1.2.3) de pourriel –, en partie virtuelle ou ludique. Les résultats de Google, pages francophones (8 avril 2003), pour ces formes sont les suivants (page du Dicomoche exclue, prise en compte de la pertinence pour les basses fréquences) : À part pourriel et polluriel, le seul mot de la liste employé ailleurs que dans le Dicomoche est bourriel, dans une discussion des dénominations françaises du spamming.

    -ciel, -ware, cyber-, surf-

    Bon nombre des éléments de composition des termes d'Internet sont très productifs. Nous avons examiné la productivité de -ciel, -ware, cyber- et surf- dans le Web dans une étude de 1998 (R. Wooldridge, "Expressing the Cybermedium in English and French").

    2.2. Productivité syntagmatique

    2.2.1. se moquer de qch/qn comme de sa première chemise

    On sent là une expression idiomatique à formulation variable : un verbe appartenant au champ sémantique de se moquer de, un nom appartenant au champ des premiers objets possédés par la personne sujet du verbe. Les requêtes "comme de * premier" et "comme de * première" produisent, entre autres et avec peu de bruit (Google les montre dans l'affichage de ses résultats – recherches de septembre et décembre 2002) : Mesure encore une fois qualitative du haut degré de productivité du syntagme.

    • Voir aussi changer de X comme de chemise : en plus du connu changer d'avis comme de chemise, on trouve des occurrences multiples de changer de nom / idée / maillot / religion / prof comme de chemise.

    2.2.2. en avoir dans le pantalon

    Aucun des exemples pris pour cette exploration du Web n'est innocent. Chacun vient d'une lecture ponctuelle, soit dans le Web, soit dans un texte imprimé. Le point de départ de cette dernière expression est la traduction française de La Carta esférica d'Arturo Pérez-Reverte (Le Cimetière des bateaux sans nom, Seuil, 2001), où on lit (p. 324) : En septembre 2002, Google a donné les résultats suivants pour des variantes choisies de cette expression (sens figuré et propre confondus) : La deuxième requête, avec joker de mot (a, avait, ont, etc.), donne une augmentation inattendue pour culotte. La raison principale en est l'intitulé des nombreuses pages du site pornographique "www.BananaSplit.com" (en fait à l'adresse ipw2.free.fr/) : "BananaSlip - Pour ceux qui en ont dans la culotte" !

    Synthèse et conclusion

    Phénomènes linguistiques observés dans ce bref tour d'horizon : les variantes et la productivité lexicale. Variantes d'expression (1.1), variantes géo-linguistiques (1.2), variantes morphologiques (1.3), confusions réelles ou feintes (1.4) ; productivité formelle et sémantique d'un lexème (2.1), productivité paradigmatique de matrices syntagmatiques (2.2). Suffisance, dans la plupart des cas, du moteur de recherche Google ; suppléance, dans certains cas (1.4.1, 1.4.2, 2.1.1), par AltaVista. Quelques complexités de recherche : besoin de l'opérateur ET NON dans quelques cas ambigus (1.2.2) ; nécessité de tenir compte de la variation oe / œ (1.4.1), dont la correspondance est transparente pour l'oeil humain, opaque pour le moteur de recherche.

    Les mesures faites ici varient entre l'exact et le flou, mais elles ont toujours une valeur relative certaine.

    Certains des exemples choisis illustrent l'intérêt socio-linguistique de l'exploration du Web comme corpus d'usages linguistiques : comparaisons géo-linguistiques (cf. courriel vs. email, etc. dans la section 1.2) ; esprit de corps vs. esprit d'équipe (1.1.2) ; distortions quantitatives provoquées par les sites pornographiques (1.4.1, 2.2.2 – on sait que le mot-clé le plus utilisé dans les requêtes par moteur de recherche est sex/sexe).

    Dans plusieurs cas, nous avons confronté l'usage observable dans le Web avec les déclarations normatives du dictionnaire. Dans certains cas, les occurrences en ligne viennent enrichir et compléter ce qu'offre le dictionnaire (ex. enfirouaper, 2.1.1) ; dans d'autres cas, l'usage réel entre en contradiction avec le dictionnaire, qui n'enregistre que ce qu'il juge sanctionné par la norme. C'est le cas, par exemple, de l'adjectif chou que le dictionnaire (Petit Robert et TLFI) déclare être invariable, mais que les occurrences du Web montrent clairement variable, donnant au pluriel chou, chous ou choux (1.3.4).

    Pour une zone qui se situerait entre le très fréquent (plusieurs centaines de milliers de résultats) et le très particulier (idiolectes) et dont les unités sont observables du point de vue de leur forme (syntagmatique vs. polysémie), le Web peut offrir des instantanés mesurables de plusieurs types de phénomènes linguistiques, quitte à raffiner les résultats par des analyses de détail. C'est le seul corpus étendu qui ne demande pas une construction coûteuse en termes de temps et d'argent. Corpus peu théorisé donc et non la chasse gardée de spécialistes ou d'équipes de chercheurs en quête de subventions importantes. Corpus virtuel qui est transformé en corpus concret par l'usager se servant intelligemment de moteurs de recherche. Pour la première fois, quiconque s'intéresse à l'usage réel de la langue a à sa disposition un champ d'observation de valeur scientifique autrement plus satisfaisant et complet que les analyses ponctuelles et les recueils de perles des auteurs de livres ou de chroniques.

    L'avenir du Web-corpus est prometteur. En perpétuelle expansion (par ex. navigateur(s) = 9 793 occurrences en décembre 1997, 804 000 en mars 2003 – cf. R. Wooldridge, "L'expression d'Internet en anglais et français (2): cinq ans après"), il offre un terrain d'exploration toujours plus riche à l'observateur de la langue, que celui-ci se contente d'instantanés approximatifs ou s'attarde à développer des agrandissements à définition variable.