Projet d'informatisation du Dictionnaire de l'Académie (1694-1935)

Russon Wooldridge

University of Toronto

© 1996 R. Wooldridge


Je vais traiter brièvement cinq questions:

1. Pourquoi informatiser les dictionnaires anciens?

On peut étudier la langue et les textes du passé à l'aide de dictionnaires historiques tels que le Trésor de la langue française ou le Robert historique; ceux-ci ont pourtant été écrits à travers le prisme du XXe siècle. Les dictionnaires contemporains de l'état de langue et des textes en question ont l'avantage d'avoir été rédigés par des lexicographes ayant la même compétence linguistique synchronique. Ce sont donc des documents métalinguistiques privilégiés dont les descriptions viennent compléter celles des dictionnaires historiques modernes.

2. Pourquoi informatiser le Dictionnaire de l'Académie?

Le Dictionnaire de l'Académie est important à divers titres:

a) l'Académie est une référence indispensable pour tout ce qui touche à la norme du français. Tous les grands dictionnaires s'y réfèrent;

b) il constitue une série unique et homogène de descriptions (huit entre 1694 et 1935) de différents états du français classique et moderne;

c) c'est le seul dictionnaire français du passé dont l'envergure, le rayonnement culturel international, l'importance historique et les qualités linguistiques justifient que de grandes énergies et ressources soient consacrées à son informatisation.

Il y a deux raisons de vouloir diffuser le Dictionnaire de l'Académie sous forme de base de données:

a) dans la perspective de l'étude du français classique et moderne, la base permettra, par l'exhaustivité des informations, une consultation enrichie du dictionnaire;

b) du point de vue pratique de l'accès au dictionnaire, seules quelques rares bibliothèques ont l'ensemble des huit éditions imprimées. Un CD-ROM ou une base en ligne réunissant les huit éditions permettra à toute bibliothèque et à tout chercheur individuel d'avoir l'intégralité du dictionnaire sous une forme éminemment maniable.

3. Que donnera une base de données des huit éditions complètes du Dictionnaire de l'Académie?[1]

Il y a autant de réponses à cette question que de types de consultations d'un dictionnaire et d'interrogations d'une base de données textuelles. D'abord, la base Académie facilitera la correction ou l'appréciation des mentions du Dictionnaire de l'Académie données par les autres dictionnaires. D'autre part, l'interrogation simultanée les huit éditions permettra différents types d'enrichissement intertextuel à l'intérieur du Dictionnaire de l'Académie. Un premier type d'enrichissement, la construction d'un article diachronique, pourrait se faire, quoique avec difficulté -- huit volumes à manier -- à partir du dictionnaire imprimé. La Figure 1 reproduit l'essentiel de la filiation sémantique de l'article TIMBRE, qui, contrairement à beaucoup d'autres, a bien évolué d'une édition à l'autre; ayant quatre sens dans la première édition, il se retrouve avec quinze acceptions dans la huitième.[2]

Le second type d'enrichissement intertextuel que je voudrais exemplifier aurait été impossible à constituer sans le recours de l'ordinateur. Il s'agit, dans son principe, de la réunion de toutes les occurrences dans le texte, où qu'elles se trouvent, d'un phénomène donné. La Figure 2 donne les occurrences d'ame/âme qui se trouvent s.v. DOUBLE, DOUCEUR, DOUX, TIMIDE et TIMORé.

La confrontation des dictionnaires et des textes révèle, par exemple, que le syntagme plein de douceur, que l'Académie ne consigne dans l'article DOUCEUR qu'en 1835, est déjà employé au XVIIe siècle (d'après la base ARTFL) par l'Académicien Voiture (Poésies 1848), Bouhours (Entretiens 1671), Nicole (Essais 1671) et Lafayette (Princesse de Clèves 1678), entre autres.

4. Quelle forme une base de données du Dictionnaire de l'Académie pourra-t-elle avoir?

Sur le plan formel et structurel, il y a un certain nombre de typologies qu'il convient d'établir si l'on veut considérer le dictionnaire dans la perspective d'une base de données. J'en indiquerai trois.

En me fondant sur la taille de l'échantillonnage ÂME, DOUAIRE-DOUZIL, GAGNER, LOIN-LOISIR, QUE, TIGE-TINTOUINADGLQT»), qui représente environ 0,53% du corpus, j'ai estimé (très approximativement) à 106 mégaoctets -- c'est-à-dire 106 millions de caractères, ou signes, -- et à 18 millions de mots le volume total des huit éditions. Les chiffres donnés dans la Figure 3 montrent également le pourcentage d'augmentation ou de réduction de chaque édition par rapport à la précédente.[3]

Comparé à des dictionnaires typographiquement et sémiotiquement bien plus riches, le degré de correspondance entre la typographie et les types d'informations du Dictionnaire de l'Académie est très élevé. En règle générale, les grandes capitales et le gras sont réservés aux vedettes, les petites capitales aux sous-adresses; le romain est très majoritairement employé pour les définitions, l'italique pour les exemples.

La distinction des différentes fonctions des caractères polysémiques -- notamment le romain et l'italique -- peut être effectuée dans une très large mesure à partir du vocabulaire métalinguistique des classes informationnelles fermées, c'est-à-dire essentiellement les classes de la catégorie grammaticale, de la marque d'usage et de la copule. La Base Académie Échantillon en ligne donne accès aux occurrences des principales indications de catégorie grammaticale et marques d'usage.

En résumé, une base «au kilomètre», comme on dit -- c'est-à-dire, grosso modo, sans explicitation informatique des champs informationnels autre que celui de la vedette --, mais dans laquelle il y aura des jalons signalant le caractère d'imprimerie et les débuts de paragraphe, ainsi qu'un dictionnaire-index des termes métalinguistiques clés -- une base essentiellement formelle et peu sémantisée -- sera déjà en mesure de répondre de façon très efficace à la très grande majorité des interrogations.

5. Comment informatiser le Dictionnaire de l'Académie?

Le texte de la Base Académie Échantillon a été saisi en partie manuellement, en partie par lecteur optique, par moi-même et une assistante de recherche, Jean Shaw. La base fonctionne sur micro-ordinateur PC et est également installée sur l'Internet. En principe, la base intégrale fera partie de la composante dictionnairique des bases textuelles Frantext (INaLF-CNRS, Nancy) et ARTFL (University of Chicago).

[Retour à la Table/ Return to table]


[1] Voir aussi N. Catach, "Les dictionnaires de l'Académie française", in Early Dictionary Databases. CCH Working Papers (University of Toronto), 4 (1994): 143-56, Informatique et dictionnaires anciens. Dictionnairique et lexicographie (Didier Érudition), 3 (1995): 143-56 et CHWP, B.21 (1996). Dans cet article, Mme Catach passe en revue plusieurs champs qui mériteraient d'être étudiés dans une base informatisée du Dictionnaire de l'Académie: archaïsmes, proverbes, remarques sur le "bon usage", niveaux de langue, prononciation ancienne, féminins des noms et adjectifs, changements de féminins, changements de pluriels et de catégories grammaticales, mots nouveaux, variations graphiques en synchronie et en diachronie, etc.

[2] Le chiffre qui suit le deux-points entre parenthèses correspond au numéro d'ordre des paragraphes originaux; l'ordre des items de l'article composite est basé sur l'économie des éditions qui les introduisent. Exemple déjà donné dans T.R. Wooldridge, "La base lexicographique du Dictionnaire de l'Académie française (1694-1992): quelques mesures", in Early Dictionary Databases. CCH Working Papers (University of Toronto), 4 (1994): 157-64, Informatique et dictionnaires anciens. Dictionnairique et lexicographie (Didier Érudition), 3 (1995): 157-64 et CHWP, B.22 (1996).

[3] Chiffres déjà cités in T.R. Wooldridge, op. cit.