Aspects de la base informatisée du Dictionnaire de l'Académie françoise de 1694

Russon Wooldridge

University of Toronto

© 1998 R. Wooldridge

[Version révisée d'une conférence présentée à Paris, le 15 mai 1998, au Groupe d'Études en Histoire de la Langue Française.]



1. Modalités de saisie

Calendrier sommaire:
  • Mars 1997: photocopies du DAF 1694 (réédition fac-similé de Lille 1901) envoyées en Chine;
  • Avril 1997: saisie manuelle (texte et balisage typographique -- cf. Wooldridge "Baliser" 1997) faite par des non-indoeuropéanophones;
  • Mai 1997: première version de la base informatisée mise en ligne à ARTFL (University of Chicago);
  • Septembre-décembre 1997: correction/révision de la saisie (Toronto): lecture des formes textuelles, résolution des traits d'union typographiques, explicitation des féminins elliptiques en co-vedette;
  • Février 1998: deuxième version de la base informatisée mise en ligne à ARTFL.

    1.1. Compétence du claviste

    La saisie d'un texte est un acte qui, comme tout acte, se dote d'un sens. Pour celui qui ne comprend pas la langue du texte qu'il saisit, le sens se trouve dans les formes à saisir: ainsi, congnoistre, cognoistre, connoistre et connoître sont quatre unités différentes, ce qui correspond aux attentes d'une saisie textuelle. Pour celui qui comprend la langue du texte qu'il saisit, le risque est grand de trouver le sens de l'acte dans le signifié linguistique du texte à saisir: ainsi, congnoistre, cognoistre, connoistre et connoître seraient vus comme des variantes d'un même verbe, ce qui est faux, puisque dans la saisie textuelle on a affaire à des signifiants et non à des signes. Les fautes dues à une interprétation linguistique du texte (qualité du saisissant humain) sont difficiles à dépister; les fautes dues à une mauvaise lecture des formes des caractères (qualité du saisi imprimé) sont, comme celles d'une saisie optique, faciles à repérer. La saisie d'un texte français par des professionnels non-indoeuropéanophones représente la garantie maximale d'une saisie purement formelle.

    1.2. Explicitation des co-vedettes elliptiques

  • Texte imprimé: "ABSENT, ENTE. Adj.". Le cerveau du lecteur/consulteur humain interprète: "absent, adjectif masculin; absente, adjectif féminin".
  • Texte électronique (1): "ABSENT, ENTE. Adj.". Pour la machine, et donc pour l'interrogateur du texte informatisé, le féminin absente a disparu. C'est malheureusement la pratique courante des dictionnaires rétroconvertis.
  • Texte électronique (2): "ABSENT, [ABS]ENTE. Adj.". Le logiciel de recherche de la machine trouve: absent et absente. C'est la pratique du DAF 1694 informatisé.

    Ce travail essentiel d'explicitation des 4309 féminins elliptiques donnés en co-vedette ou co-sous-vedette a été effectué en une soirée de travail manuel assisté par des macros conditionnels (la presque totalité des féminins des participes passés -- ou "participes passifs", selon la terminologie du DAF 1694 -- des verbes en -er sont imprimés "ÉE"; les autres terminaisons du féminin sont variables: "GRENU, UE" mais "SAUGRENU, NUE", "RIVAL, E" mais "CORRIVAL, LE", "BARLONG, ONGUE" mais "OBLONG, UE").

    2. Aspects de la genèse du dictionnaire

    2.1. Ordre alphabétique

    Certaines dérogations à l'ordre alphabétique des vedettes de la macrostructure s'expliqueraient par des modifications orthographiques intervenues au cours de la rédaction du dictionnaire:

    2.2. Renvoi et article

  • Variantes renvoi/article Le macro-article PRIX ne donne que APPRECIER. Le macro-article FAIRE donne EFFET. BOUILLIR donne EBULITION.

  • Renvois qui ne renvoient à rien Il n'y a pas de vedette ALTERNE; SUBALTERNE est donné s.v. ALTERNATIF.

    2.3. Oublis rattrapés

  • Items précédés du symbole d'un doigt

    Il y en a quatre, tous à la page 318 du tome 1 (lettre D...)

    Ces quatre items auraient dû paraître respectivement s.v. ACCORD, ALTERER, AVANT et BONDON.

  • sousbassement

    On lit s.v. SOUS:

    2.4. Regroupements étymologiques

    Les regroupements étymologiques de la mésostructure ne se font pas toujours sans poser de problèmes (comme l'atteste encore aujourd'hui la méthode du FEW), liés soit à l'ignorance des étymons, soit au divorce total entre la forme d'une sous-vedette et l'ordre alphabétique. Certains regroupements sont justifiés par des exemples ou définitions étymologisants (gras ajouté): Pour ce qui est des divergences entre la forme d'une sous-vedette et la place alphabétique du macro-article, notons les exemples de CONTREVALLATION mis à la suite de CIRCONVALLATION s.v. CIRCON... et de DINDON, DINDONNEAU donnés à la suite de COQ D'INDE s.v. COQ.

    3. Nomenclature dictionnairique et lexique réel

    Le système virtuel de la langue peut générer des unités de nomenclature non attestées par l'usage observé: Dans le dernier exemple, "QUEUE" ne doit pas être considéré comme une forme lexicale; son statut est celui de vedette ou nom d'article. La coïncidence entre vedette d'article et graphie du mot-vedette, quoique très forte dans DAF 1694, n'a été généralisée que dans les dictionnaires modernes qui dotent systématiquement les lettres majuscules de signes diacritiques.

    4. Nomenclature cachée et mots oubliés

    Items cachés

    Ils sont assez nombreux. barbichon est peu caché, babiche et babichon le sont davantage, biche et bichon le sont beaucoup; aucune des variantes n'est donnée à sa place alphabétique. batail manque dans la nomenclature consultable.

    Mots oubliés

    Ils sont très nombreux.

    5. Adéquation typographie/microstructure

    Si l'adéquation 'séquence en petites capitales en début d'alinéa = sous-vedette' est presque totale (il faut excepter deux occurrences de JESUS-CHRIST sujet d'exemple), celle de 'sous-vedette = délimiteur de micro-article' peut être assez problématique. Nous prendrons comme illustration de cette difficulté la dernière partie du macro-article MAIN (complexité sémantique et surtout syntagmatique de main), où on trouve la séquence d'items suivante: ... Main forte / main morte / MAINMORTABLE / main morte / MAIN-POTE / DE MAIN EN MAIN / A LA MAIN / EN MAIN / Faire sa main / SOUSMAIN / [avoir] la main / MAIN (divers sens) / Main d'Oublies / Main de Justice / A DEUX MAINS / A PLEINES MAINS / Main (deux sens) / Mains / MAINLEVÉE / EN UN TOURNEMAIN / AVANTMAIN / ARRIEREMAIN ... (Voir la Figure 1: page 8 du tome 2.)

    6. Le texte comme dictionnaire et corpus: l'exemple de vin

    La distribution des mots de texte est pour certains aspects la même dans un texte métalinguistique comme le dictionnaire que dans un texte linguistique (comme le roman ou le journal, par exemple): les mots de haute fréquence (mots outils) et de moyenne fréquence (mots lexicaux fréquents) sont dispersés à travers l'ensemble du texte. Ainsi, de (f 63119, rang 1) et la (f 32204, rang 4) sont présents dans un très grand nombre des paragraphes du DAF 1694, comme ils le sont dans ceux d'un roman; grand (f 2001, rang 83) se rencontre dans des articles sous toutes les lettres de la nomenclature du DAF 1694, comme il peut se trouver dans n'importe quelle rubrique d'un journal. La fréquence dictionnairique de certains mots outils peut être influencée par leur fonction particulière dans un ouvrage donné, soit fonction métalinguistique, soit fonction linguistique. Ainsi, dans le DAF 1694, le pronom sujet on (f 29161, rang 5) est employé surtout dans des tours de présentation métalinguistiques: on dit (f 12404), on appelle (f 3137), etc. En revanche, les occurrences du pronom sujet il (f 41617, rang 2) sont à chercher en particulier dans les exemples d'emploi, où ils servent à représenter le sujet de phrase humain typique: 112 fois dans l'échantillonage d'articles du DAF 1694 de la première version de la Base Académie Échantillon (Leroy-Turcan & Wooldridge 1998: 5.1.1), laquelle constitue environ 0,53% du texte complet (Wooldridge 1994/1996: Figure 1), et donc, selon toute vraisemblance statistique, plus de 20 000 fois dans l'ensemble du texte.

    Dans le domaine des mots lexicaux de haute fréquence (cf. vent/vents in Leroy-Turcan & Wooldridge 1998, arme/armes in Wooldridge Débuts 1997: ch. 4), nous étudierons ici le cas du substantif vin, dont la fréquence est 954 au singulier (rang 158), 55 au pluriel. Non seulement la fréquence de vin/vins est plus élevée ailleurs que dans l'article VIN -- 154 sub voce, 855 ailleurs (dont toutes les occurrences du pluriel) --, mais aussi le traitement sémantique et syntagmatique fourni par l'ensemble des contextes y est plus riche.

    La Figure 2 donne, dans l'ordre, tous les items de l'article VIN du DAF 1694, regroupés soit selon l'articulation de l'article original, soit selon des indications fournies par deux corpus de comparaison. Ces deux corpus sont, d'une part les contextes des occurrences de vin/vins dans le DAF 1694 ailleurs que s.v. VIN et qui sont différents des items donnés sub voce (colonne de droite), et d'autre part les données du DAF 1694 telles qu'elles se trouvaient déjà dans le Thresor de la langue françoyse de Nicot (1606), surtout dans les développements encyclopédiques et onomasiologiques de ce dernier ouvrage (colonne de gauche). Les polices de caractères -- romain et italique -- sont celles de l'original. La Figure 3 donne la liste des articles du DAF qui contiennent au moins une occurrence de vin/vins.

    Parmi les sous-ensembles de ce corpus, on peut remarquer que DAF 1694 "Ailleurs" développe le champ syntagmatique du goût du bon vin, en y ajoutant l'odeur (Figure 2a), ainsi que celui du mauvais vin, du vin fort et des fumées du vin (Figure 2b); qu'il développe considérablement le traitement de l'eau mise dans le vin et explicite aussi le sens du syntagme vin qui porte l'eau donné sub voce (Figure 2c); qu'il donne de l'ampleur au verre de vin (Figure 2d) et à l'ivresse (Figure 2e). Pour ce qui est du sens de certains items enregistrés s.v. VIN, vin de primeur est expliqué s.v. PRIMEUR, vin de l'arriere-saision s.v. ARRIERE-SAISON, vin qui donne dans la teste s.v. TESTE, vin souffré s.v. SOUFRER, aller boire le vin du marché s.v. BOIRE (Figure 2f). Notons encore quelques domaines du vin qui sont traités dans le DAF 1694 ailleurs que s.v. VIN: les dérivés du vin, l'association vin et viande, la sagesse populaire, les dénominations métaphoriques du vin, le vin et la religion (Figure 2g).

    Les listes ouvertes indiquées par les &c. de l'article VIN du DAF 1694 sont complétées ailleurs: par le DAF 1694 pour les vins régionaux, par le DAF 1694 et Nicot 1606 pour les contenants et mesures du vin (Figure 2h). Nicot commente en détail les délimitations géographiques des appellations vins de Bourgongne et vins François (Figure 2h) et il fournit plusieurs cas de regroupements onomasiologiques concernant les mesures du vin et les opérations de la vendange (Figure 2i).

    7. Conclusion

    En guise de conclusion, nous dirons que certains aspects de l'étude d'un dictionnaire sont facilités par l'existence d'une base informatisée de celui-ci, alors que d'autres, dont l'examen du dictionnaire comme corpus, ne sont possibles que grâce à ce type d'accès total au texte.


    Références

  • Le Dictionnaire de l'Académie françoise 1694 en ligne à ARTFL, http://humanities.uchicago.edu/ARTFL/projects/academie/.
  • Base Académie Échantillon, http://www.chass.utoronto.ca/~wulfric/academie/.
  • I. Leroy-Turcan & R. Wooldridge, "Quelques exemples des acquis de la base informatisée du Dictionnaire de l'Académie françoise 1694" (conférence, Université Laval et Université de Montréal, février 1998), http://www.chass.utoronto.ca/~wulfric/academie/acad1694/quebec98.htm.
  • J. Nicot, Thresor de la langue françoyse 1606 en ligne à ARTFL, http://humanities.uchicago.edu/ARTFL/projects/TLF-NICOT/.
  • Base Nicot Échantillon, http://www.chass.utoronto.ca/~wulfric/nicot/.
  • R. Wooldridge, "La base lexicographique du Dictionnaire de l'Académie française (1694-1992): quelques mesures", in CCH Working Papers, 4 (1994) et CHWP, B.22 (1966).
  • R. Wooldridge, "Baliser un texte, c'est le penser: le cas du Dictionnaire de l'Académie française" (GEHLF, mai 1997), http://www.unilim.fr/~caron/gehlf/trw597/ et http://www.chass.utoronto.ca/~wulfric/articles/gehlf597/.
  • R. Wooldridge, Les Débuts de la lexicographie française, 2e éd., Toronto, EDICTA, http://www.chass.utoronto.ca/~wulfric/edicta/wooldridge/, 1997.