a) l'Académie est une référence indispensable pour tout ce qui touche à la norme du français. Tous les grands dictionnaires s'y réfèrent;
b) il constitue une série unique et homogène de descriptions (huit entre 1694 et 1935) de différents états du français classique et moderne;
c) c'est le seul dictionnaire français du passé dont l'envergure, le rayonnement culturel international, l'importance historique et les qualités linguistiques justifient que de grandes énergies et ressources soient consacrées à son informatisation.
Il y a deux raisons de vouloir diffuser le Dictionnaire de l'Académie sous forme de base de données:
a) dans la perspective de l'étude du français classique et moderne, la base permettra, par l'exhaustivité des informations, une consultation enrichie du dictionnaire;
b) du point de vue pratique de l'accès au dictionnaire, seules quelques rares bibliothèques ont l'ensemble des huit éditions imprimées. Un CD-ROM ou une base en ligne réunissant les huit éditions permettra à toute bibliothèque et à tout chercheur individuel d'avoir l'intégralité du dictionnaire sous une forme éminemment maniable.
Le second type d'enrichissement intertextuel que je voudrais exemplifier aurait été impossible à constituer sans le recours de l'ordinateur. Il s'agit, dans son principe, de la réunion de toutes les occurrences dans le texte, où qu'elles se trouvent, d'un phénomène donné. La Figure 2 donne les occurrences d'ame/âme qui se trouvent s.v. DOUBLE, DOUCEUR, DOUX, TIMIDE et TIMORé.
La confrontation des dictionnaires et des textes révèle, par exemple, que le syntagme plein de douceur, que l'Académie ne consigne dans l'article DOUCEUR qu'en 1835, est déjà employé au XVIIe siècle (d'après la base ARTFL) par l'Académicien Voiture (Poésies 1848), Bouhours (Entretiens 1671), Nicole (Essais 1671) et Lafayette (Princesse de Clèves 1678), entre autres.
En me fondant sur la taille de l'échantillonnage ÂME, DOUAIRE-DOUZIL, GAGNER, LOIN-LOISIR, QUE, TIGE-TINTOUIN («ADGLQT»), qui représente environ 0,53% du corpus, j'ai estimé (très approximativement) à 106 mégaoctets -- c'est-à-dire 106 millions de caractères, ou signes, -- et à 18 millions de mots le volume total des huit éditions. Les chiffres donnés dans la Figure 3 montrent également le pourcentage d'augmentation ou de réduction de chaque édition par rapport à la précédente.[3]
Comparé à des dictionnaires typographiquement et sémiotiquement bien plus riches, le degré de correspondance entre la typographie et les types d'informations du Dictionnaire de l'Académie est très élevé. En règle générale, les grandes capitales et le gras sont réservés aux vedettes, les petites capitales aux sous-adresses; le romain est très majoritairement employé pour les définitions, l'italique pour les exemples.
La distinction des différentes fonctions des caractères polysémiques -- notamment le romain et l'italique -- peut être effectuée dans une très large mesure à partir du vocabulaire métalinguistique des classes informationnelles fermées, c'est-à-dire essentiellement les classes de la catégorie grammaticale, de la marque d'usage et de la copule. La Base Académie Échantillon en ligne donne accès aux occurrences des principales indications de catégorie grammaticale et marques d'usage.
En résumé, une base «au kilomètre», comme on dit -- c'est-à-dire, grosso modo, sans explicitation informatique des champs informationnels autre que celui de la vedette --, mais dans laquelle il y aura des jalons signalant le caractère d'imprimerie et les débuts de paragraphe, ainsi qu'un dictionnaire-index des termes métalinguistiques clés -- une base essentiellement formelle et peu sémantisée -- sera déjà en mesure de répondre de façon très efficace à la très grande majorité des interrogations.
[Retour à la Table/ Return to table]
[1] Voir aussi N. Catach, "Les dictionnaires de l'Académie française", in Early Dictionary Databases. CCH Working Papers (University of Toronto), 4 (1994): 143-56, Informatique et dictionnaires anciens. Dictionnairique et lexicographie (Didier Érudition), 3 (1995): 143-56 et CHWP, B.21 (1996). Dans cet article, Mme Catach passe en revue plusieurs champs qui mériteraient d'être étudiés dans une base informatisée du Dictionnaire de l'Académie: archaïsmes, proverbes, remarques sur le "bon usage", niveaux de langue, prononciation ancienne, féminins des noms et adjectifs, changements de féminins, changements de pluriels et de catégories grammaticales, mots nouveaux, variations graphiques en synchronie et en diachronie, etc.
[2] Le chiffre qui suit le deux-points entre parenthèses correspond au numéro d'ordre des paragraphes originaux; l'ordre des items de l'article composite est basé sur l'économie des éditions qui les introduisent. Exemple déjà donné dans T.R. Wooldridge, "La base lexicographique du Dictionnaire de l'Académie française (1694-1992): quelques mesures", in Early Dictionary Databases. CCH Working Papers (University of Toronto), 4 (1994): 157-64, Informatique et dictionnaires anciens. Dictionnairique et lexicographie (Didier Érudition), 3 (1995): 157-64 et CHWP, B.22 (1996).
[3] Chiffres déjà cités in T.R. Wooldridge, op. cit.