Valorisation informatique des dictionnaires anciens: Estienne, Nicot, Académie française

Russon Wooldridge

University of Toronto

© 2005 R. Wooldridge  

1. Introduction

Pour traiter la question de la valorisation informatique des dictionnaires anciens, nous allons parler des dictionnaires que nous avons informatisés.

Nous avons commencé, essentiellement dans les années 1980, par informatiser les ouvrages clés de chaque branche de la famille de dictionnaires que nous convenons d'appeler le corpus Estienne-Nicot. Les principales branches de ce corpus sont les suivantes: le Dictionarium, seu Latinae linguae Thesaurus (à partir de 1531), le Dictionarium Latinogallicum (1538-), le Dictionaire francoislatin (1539-), le Grand Dictionaire François-Latin (1593-) et le Thresor de la langue francoyse (1606-). [1]

Dans les années 1990, nous avons dirigé la saisie, la correction et la mise en ligne de deux éditions du Dictionnaire de l'Académie française: la première édition, de 1694, et la sixième édition, de 1835. [2]

Deux bases échantillons que nous avons créées seront également évoquées au cours de l'article: une Base échantillon critique des huit éditions complètes du Dictionnaire de l'Académie française (milieu-fin des années 1990) [3] et une Base échantillon des dictionnaires français anciens (avec le concours de plusieurs collaborateurs, fin des années 1990) [4].

Dans les paragraphes qui suivent, nous allons caractériser les problèmes que ces textes et leur informatisation nous ont posés et les procédures que nous avons adoptées. Nous finirons par quelques remarques sur la question de la valorisation informatique des textes anciens.

2. Nature des textes

Nous ne commenterons pas les traits communs à tous les textes, mais seulement ceux qui sont marqués par l'époque ou le genre et qui complexifient la lecture du texte.

Caractéristiques des textes de la Renaissance sont les habitudes typographiques héritées de pratiques manuscrites. Il s'agit, d'une part, des abréviations faites pour respecter la justification à droite; nous en mentionnerons deux, fréquentes quoique occasionnelles dans les dictionnaires du XVIe siècle: un tilde sur une voyelle remplaçant une consonne nasale suivante (ex. cõptãt = comptant) et 9 pour us (ex. Efflux9). La perluette remplace systématiquement, dans les dictionnaires d'Estienne et de Nicot, le mot et (&, &c.), alors qu'en début de phrase on trouve toujours Et. Deux lettres connaissent des formes variables selon qu'elles sont en position non finale ou en position finale: le s non final est souvent représenté par un s long et dans les chiffres romains le i final est souvent représenté par un j (ex. viij). [5]

À part le cas cité ci-dessus, la lettre i est systématiquement employée pour nos modernes i et j. Les lettres u et v ont une distribution complémentaire: u en position non initiale, v en position initiale, V majuscule quelle qu'en soit la position; il ne s'agit donc pas de l'opposition phonétique moderne.

Du point de vue orthographique ou typographique, les textes d'Estienne et de Nicot sont, pour un oeil moderne, relativement simples par rapport aux livres de Meigret ou de Ramus, par exemple.

Lorsque nous considérons ces textes sous l'angle du genre, plusieurs aspects sont à noter. Bien que non le propre du dictionnaire, l'utilisation de plusieurs polices de caractères et de plusieurs alphabets est nécessaire pour démarquer les différents langues ou niveaux de discours. Chez Estienne et Nicot la règle générale veut que le romain dénote le latin et que l'italique dénote le français ou d'autres langues européennes modernes en usage (italien, espagnol, allemand, etc.); la mention de mots de langues modernes se fait généralement en caractères romains. Dans le Dictionnaire de l'Académie française monolingue, le romain marque essentiellement la mention (définitions, marques d'usage) et l'italique l'usage (exemples). Estienne et Nicot citent souvent des équivalents ou étymons grecs en caractères grecs; Nicot ajoute des citations en lettres grecques ou hébraïques dans ses commentaires encyclopédiques.

Au niveau des articles, il convient de noter une tendance générale à normer les mots sub voce, alors qu'ailleurs les mots sont simplement en usage. C'est ainsi, par exemple, qu'en 1549 Estienne commence l'article du mot SOUBZ par «  Soubz, ou Soub »; la graphie soub, fréquente dans le Thesaurus de 1531, n'existe, dans le Dictionaire francoislatin et le Thresor, qu'une seule fois, comme vedette variante de soubz. Comme Nicot garde l'article d'Estienne plus ou moins tel quel, les graphies soubz et soub s'y retrouvent, mais uniquement sub voce; partout ailleurs, Nicot utilise les formes sous (surtout) et soubs. La première édition du Dictionaire francoislatin fait exception à l'opposition norme vs. usage puisque tout le français reflète l'usage d'Estienne, le français n'étant que la porte d'entrée pour retrouver le latin, langue cible du Dictionarium latinogallicum et du Dictionaire francoislatin de 1539. [6]

Si l'on peut dire que le mot-vedette joue le double rôle de vedette d'article et graphie dans les dictionnaires d'Estienne et de Nicot, il n'en va pas de même du Dictionnaire de l'Académie française. L'équation mot-vedette = graphie n'y est que fortuite, malgré ce qui est dit dans la préface (« Et si un mesme mot se trouve escrit dans le Dictionnaire de deux manieres differentes, celle dont il sera escrit en lettres Capitales au commencement de l'Article est la seule que l'Academie approuve. » Préface, 1694). Comme les vedettes sont imprimées en lettres capitales et que celles-ci font tomber certains signes diacritiques, la forme queue, donnée en vedette d'article (« QUEUE. s. f. »), ne correspond pas à l'orthographe du mot, qui partout ailleurs sub voce et dans le reste du texte s'écrit queuë ou queüe. [6]

Caractéristique aussi du genre est l'économie dictionnairique justifiée par la récurrence d'informations. Il y a des centaines ou des milliers de noms féminins ou de verbes transitifs, d'où des abréviations conventionnelles comme f. ou act. chez Nicot, s. f. ou v. a. chez l'Académie. Cette dernière pratique un autre type d'économie, non justifiée puisque seul le type est récurrent et non les mots abrégés: il s'agit de l'ellipse des féminins co-vedettes de formes masculines. La forme grenue n'est que virtuelle dans la première édition du Dictionnaire de l'Académie française: « GRENU, UE », alors qu'elle est explicite chez Estienne et Nicot: « Grenu, Granosus. / Pomme grenue, Malum granatum. ». [7]

La récursivité – très grande en début d'article dans le Dictionarium latinogallicum (type « Agmen, agminis, pen. corr. n. g. Vne armee... », « Agricola, pe. cor. com. gen. Laboureur... ») ou chez l'Académie (type « CLOCHE. s. f. Instrument... », « CLOCHER. s. m. Bastiment... ») – n'est jamais que partielle. Chez Nicot elle est bien défaillante: « Cloche, f. penac. Est vn instrument... », « Vn grand os de poisson de mer fait comme vn cor, & duquel l'on peut corner, & en font les graueurs des images, communéement dict, Porcelaine, Buccinum. » (entre PORC et PORCHE), « Lecta, Publicata, & registrata, Diploma... » (entre LEÇON et LECTEUR).

3. Saisie des textes

Il existe plusieurs façons de saisir un texte. Une simple reproduction par fac-similé photographique – plusieurs dictionnaires anciens ont été rediffusés ainsi – permet de mettre un livre rare dans toutes les bibliothèques, de le mettre à la portée des chercheurs individuels où qu'ils soient. Par exemple le Thresor de la langue françoyse de Jean Nicot (1606) est actuellement disponible (février 2005), grâce aux services de abebooks.fr, sous deux formes: soit en exemplaire original au prix de €6750, soit en reprint (Picard, 1960) au prix de €120. La reproduction par fac-similé numérique coûte généralement moins cher encore puisque les images peuvent être stockées sur CD/DVD ou sur disque dur. Qu'il s'agisse d'affichage sur papier ou sur écran, l'accès au texte reproduit par fac-similé est strictement le même que dans le cas du texte original: on consulte telle page ou tel article de dictionnaire, on lit tel paragraphe ou telle information.

Un autre type de reproduction pratiquée pour les dictionnaires anciens, comme pour les dictionnaires modernes ou les oeuvres littéraires, consiste à transcrire le texte en le numérisant, ce qui réduit la taille des fichiers et, quand le texte est indexé en base de données, permet toutes sortes de lectures et d'interrogations. Le texte dévoile ainsi tous ses secrets, puisqu'il est en mode "plein texte". Le prix à payer pour cet accès optimisé est l'argent qu'il faut pour la quantité d'heures de saisie et de relecture et la haute compétence nécessaire pour assurer la qualité de ces deux étapes.

C'est la transcription, ou saisie textuelle, qui a été choisie pour les dictionnaires d'Estienne, de Nicot et de l'Académie. Sans entrer dans le détail des problèmes particuliers, nous pouvons dire que la relecture du Dictionarium latinogallicum d'Estienne et des deux éditions du Dictionnaire de l'Académie française a été relativement facile (haute qualité de la saisie et simplicité des textes), alors que celle du Thresor de Nicot, texte très complexe et variable sur le plan de la structure et sur celui du contenu, a été plutôt longue et pénible.

Le problème majeur que l'on doit affronter lors de la transcription est l'interférence du sens linguistique, cause de fautes de saisies difficiles à repérer dans la phase de relecture. Cette interférence n'intervient pas, bien entendu, lorsqu'on fait une saisie optique avec reconnaissance des caractères, mais cette dernière, qui pose d'autres types de problèmes, est inopérante devant les textes anciens, avec leurs lignes non droites, des caractères brisés ou qui se touchent, la largeur variable des caractères en italique, les signes diacritiques (notamment le tréma) que l'oeil nu voit parfois à peine.

Notre expérience nous a montré des solutions assez efficaces au problème de l'interférence du sens linguistique. Dans une saisie faite par des non-indoeuropéanophones, seule la forme, ou le signifiant linguistique, est présente; ce genre de saisie s'est avérée nettement supérieure aux transcriptions faites par des indoeuropéanophones. Lors de la relecture, nous avons trouvé deux façons d'évacuer le sens linguistique. Dans une relecture linéaire, on ne laisse l'oeil percevoir que les formes textuelles en faisant venir le sens linguistique d'ailleurs par un autre canal (l'oreille) et une autre source (la radio parlante des discussions); la radio de la BBC nous a rendu de grands services dans la relecture du texte numérisé du Thresor de Nicot. On peut aussi faire une relecture verticale des formes textuelles, mots graphiques, rangées par ordre alphabétique; le logiciel WordCruncher, permettant de passer directement de la forme au contexte, s'est montré très utile pour la relecture d'Estienne, Nicot et Académie. [8]

Une condition nécessaire pour faire une bonne rétroconversion informatique d'un dictionnaire ancien est une connaissance intime du texte. C'est ainsi, entre autres, que l'on reconnaît le ou les système(s) orthographique(s) de Robert Estienne, de Jean Nicot, de l'Académie de la fin du XVIIe siècle ou de celle de la première moitié du XIXe. Des textes comme le Dictionarium latinogallicum d'Estienne ou les dictionnaires de l'Académie étant sur ce plan assez simples, on peut choisir, lors de la relecture verticale (une fois faites les neutralisations dont il sera question dans la section 4), d'adopter une approche probabiliste: telle ou telle forme étant conforme au(x) système(s) d'Estienne/Académie, on l'accepte. C'est ainsi que nous avons procédé pour le Dictionnaire de l'Académie française. [8] La conformité orthographique se reflète en partie dans les fréquences (les hapax legomena sont toujours à contrôler). Le Thresor, combinaison des graphies d'Estienne, de Thierry, de Nicot et des multiples sources citées, exclut ce choix.

4. Valorisation informatique

4.1. Neutralisation de conventions typographiques

Si le but de la numérisation est de valoriser la consultation d'un texte, en plus de le conserver, un toilettage des formes textuelles est nécessaire pour neutraliser les variantes purement typographiques. Ces variantes sont de plusieurs sortes: abbréviations typographiques (type cõptãt, Efflux9, &) et distribution positionnelle de i/j et u/v chez Estienne-Nicot, ellipse des co-vedettes chez l'Académie, accents virtuels et incises typographiques dans tous les textes.

Cõptãt deviendra donc Comptant; Efflux9 sera changé en Effluxus; etc. remplacera &c.. VNIVERSEL et vniuersel deviendront respectivement UNIVERSEL et universel; IVRE sera désambiguïsé en JURE ou en IVRE, selon le contexte. La modernisation de i/j, u/v n'a été pratiquée dans les dictionnaires d'Estienne et de Nicot que pour les langues modernes, pas pour le latin (EQVVS et equus restent donc tels quels). Dans tous les dictionnaires à partir du milieu du XVIe siècle, la préposition à est réalisée par à en minuscule et par A en majuscule; l'informatisation actualise l'accent virtuel de la lettre majuscule (donc à et À). Du côté des chiffres arabes, le I romain, utilisé fâcheusement pour le 1, est remplacé par le chiffre arabe: I549 devient donc 1549. Bien qu'il ne s'agisse pas de variantes typographiques, mentionnons également la translittération de caractères hébreux ou grecs (ex. devient kibôtos).

L'incise dite typographique est utilisée pour la justification de la marge droite du codex, dont la largeur de page est fixe. Elle n'a pas lieu d'être dans un texte électronique affiché à l'écran, dont la largeur est variable. Pour assurer la possibilité d'interroger l'intégralité du texte, une partie importante du nettoyage du texte consiste donc à remettre ensemble les deux parties de mot séparées par l'incise et le retour à la ligne. Dans l'exemple suivant, il y a, entre autres, deux occurrences du mot eschelle à réalisation typographique différente.

On fait donc passer à la première ligne la deuxième partie des mots ainsi coupés en deux. Pour pouvoir à tout moment contrôler les réunions ainsi pratiquées (cas de « resveille- / matin » alors qu'on trouve et resveille-matin et resveillematin chez Estienne-Nicot), on peut y ajouter un signe dont ne tiendra pas compte un logiciel d'indexation; par exemple ("<c I>" = caractère italique): Pour la consultation du texte en mode lecture (fichiers HTML), on peut laisser l'écran faire la mise en lignes: Pour qu'elles soient repérables dans le texte informatisé, les formes elliptiques des co-vedettes des dictionnaires de l'Académie doivent être données en clair. La séquence « GRENU, UE » sera saisie « GRENU, [GREN]UE » dans les fichiers destinés à l'indexation. Le logiciel d'indexation ne tient compte des crochets (entourant la partie virtuelle) que dans l'affichage du contexte (grenue dans la liste des mots, [gren]ue (1694) et [GREN]UE (1835) dans les contextes).

4.2. Balisage et mots-clés

Dans un fichier HTML, conçu pour la lecture, le balisage, fixe, assure la mise en forme du texte (ex. "<I>...</I>" pour les séquences en italique, "<P>...</P>" pour la mise en paragraphes). Dans un fichier destiné à la mise en base de données par indexation avec le logiciel TACT, le balisage, libre, est choisi par l'indexeur (c.-à-d. la personne qui indexe) pour indiquer telles ou telles propriétés du texte: divisions du texte telles que page, chapitre, acte, scène, article, alinéa; caractère d'imprimerie tel que romain, grand romain, petit romain, italique, gras, grec, hébreu; langue telle que français, latin, grec, espagnol; niveau de discours tel que récit, dialogue, citation, texte, image, titre; champ informationnel tel que vedette, catégorie grammaticale, définition, exemple. Une balise TACT a la syntaxe fixe suivante: délimiteur ouvrant + variable + espace + valeur + délimiteur fermant. Par défaut les délimiteurs sont "<" et ">", mais peuvent être déclarés autrement; la dénomination de la variable et celle de la valeur sont décidées et déclarées par l'indexeur. Cela donnera, par exemple, "<c I>", signifiant "jusqu'à nouvel ordre le texte qui suit est imprimé en italique". [9]

Une règle d'or du balisage veut que l'on balise les propriétés objectives et clairement discrètes et récursives et que l'on ne balise pas les propriétés subjectives ou celles qui ne sont pas clairement discrètes et récursives. Dans les dictionnaires anciens (les modernes ne sont pas sans poser de problèmes), les distinctions linguistiques et informationnelles ne sont pas toujours objectives et claires: par exemple, chez Estienne et Nicot le latin est normalement en romain, le français en italique, mais en plus de nombreuses exceptions on trouve des commentaires bilingues ou plurilingues (le commentateur passe du latin au grec sans s'en apercevoir, un mot français fonctionne en latin ou vice versa); chez Nicot et l'Académie la catégorie grammaticale n'est précisée que de façon irrégulière et il est souvent difficile de départager définition et marque d'usage.

Le seul champ informationnel que nous avons jugé essentiel de baliser est la vedette ou adresse d'article, bien que l'identification de celle-ci soit dans de nombreux cas problématique chez Nicot et n'aille pas sans problème dans le Dictionnaire de l'Académie française. [10]

Pour le reste, plutôt que de dénaturer le texte en imposant un balisage douteux, nous avons choisi de fournir à l'usager des listes de mots-clés (en fait formes textuelles) des champs informationnels, ce que nous appelons des mots-clés métalinguistiques. Par exemple, ablatif, accusatif, actif/act/acti/actiu/active, activement, adjectif/adiectiu/adject/adjective, adjectifvement, adverbe/aduerb/aduerbia/aduerbio/aduerbium/adver/adverb, adverbial/adverbiale, adverbialement/aduerbialiter... pour la catégorie grammaticale chez Nicot; bas/bass/basse/bassem/bassement, comique, familier/familiere/familierement/familieres, honneste... pour les marques de registre dans la première édition du Dictionnaire de l'Académie française. [11]

4.3. Mise en ligne

Un aspect important de la valorisation est la diffusion. Plus un texte est diffusé et plus il est valorisé. Plus un texte mis en vente sur CD/DVD ou publié dans le Web est bien informatisé, plus sa diffusion sera grande. Le CD/DVD et le Web permettent de présenter le texte sous plusieurs formes et de le faire accompagner de divers outils, ce qui est une autre façon de valoriser le texte. Le CD/DVD étant payant, c'est le Web libre qui est à même d'optimiser le plus la valorisation d'un texte numérisé. C'est ce dernier médium qui a été choisi pour la diffusion des dictionnaires anciens que nous avons informatisés. (La publication en ligne a aussi l'avantage d'être immédiate et dynamique, en plus d'être exempte de la mainmise d'un éditeur.)

La pièce essentielle de l'édition d'un dictionnaire informatisé est la base de données. Seule celle-ci donne accès aux multiples lectures verticales du texte, alors qu'on peut toujours faire une lecture linéaire du texte en bibliothèque. Cependant un ensemble informatique idéal serait la disponibilité du texte sous les plusieurs formes suivantes: le texte en mode image; le texte en mode lecture; le texte en base de données; divers outils et documents annexes.

Des images des pages de l'original (fichiers JPEG ou GIF) donnent une caution aux mêmes pages en mode lecture et à la base de données: l'usager a ainsi la possibilité de contrôler l'exactitude de la transcription. Le mode lecture (fichiers HTML) facilite la lecture linéaire et permet une lecture verticale limitée (fonction Trouver/Rechercher). La base de données (sous TACTweb à Toronto, Philologic à Chicago, Stella à Nancy) offre la possibilité d'interroger l'intégralité du texte de mille façons, selon les besoins ou l'imagination de l'usager et la puissance du logiciel d'indexation et d'interrogation. Parmi les documents annexes, mentionnons les listes d'adresses d'articles, de mots de texte, de mots-clés métalinguistiques.

Pour ce qui est des ensembles dictionnairiques en ligne depuis Toronto, on peut observer les réalisations suivantes:

Une dernière remarque sur la valorisation de textes anciens. Il existe à notre connaissance deux rééditions de l'ensemble des préfaces du Dictionnaire de l'Académie française. Une publication sur papier intitulée Les Préfaces du Dictionnaire de l'Académie française, 1694-1992 (Champion, 1997) offre essentiellement deux types de documents: une transcription des préfaces et de copieux commentaires linguistiques et extra-linguistiques. En l'absence d'images des préfaces originales, le lecteur doit se fier aux transcriptions, lesquelles recèlent, entre autres fautes: une quinzaine d'occurrences de lettres triples (type letttres), alors qu'il n'y en a qu'une dans les pièces originales; & transcrit tantôt et, tantôt &. Un ensemble en ligne intitulé Dictionnaire de l'Académie française: Les Préfaces [1694-1932] (Toronto, 1997) offre les préfaces en mode image, en mode lecture et en base de données, avec des listes de mots de texte; les commentaires se limitent à des remarques sur l'établissement du texte. [12] Nous laissons au lecteur le soin de décider quelle réédition valorise ces préfaces le plus.


Notes

1. Voir RenDico: Dictionnaires de la Renaissance, <http://www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm>.

2. Voir Dictionnaire de l'Académie française, <http://www.chass.utoronto.ca/~wulfric/dico_tactweb/acad.htm>.

3. Voir Dictionnaire de l'Académie française: Base Échantillon analytique, 1694-1935, <http://www.chass.utoronto.ca/~wulfric/academie/>.

4. Voir Base Échantillon des Dictionnaires Français Anciens: de Robert Estienne 1539 à l'Académie française 1935, <http://www.chass.utoronto.ca/~wulfric/naf/>.

5. Cf. R. Wooldridge, "Introduction méthodologique à la saisie philologique des textes anciens", <http://www.chass.utoronto.ca/~wulfric/nicot/conc_tab.htm>.

6. Cf. R. Wooldridge, "Les graphies du Thresor de la langue françoyse", <http://www.chass.utoronto.ca/~wulfric/articles/graph95/> et Cahiers de lexicologie, 66 (1995): 55-66.

7. Cf. R. Wooldridge, "La déféminisation du français", <http://www.chass.utoronto.ca/~wulfric/articles/defemin/> et Cahiers de lexicologie, 74 (1999): 227-29.

8. Cf. R. Wooldridge, "L'informatisation du Dictionnaire de l'Académie française (DAF)", <http://www.chass.utoronto.ca/~wulfric/siehlda/dicta1998/trw_acad.htm>.

9. Cf. R. Wooldridge & É. Devriendt, "TACT et TACTweb, logiciels de recherche de données textuelles structurées", <http://www.chass.utoronto.ca/~wulfric/articles2/poitiers2001/>.

10. Cf. R. Wooldridge, "Les fausses vedettes, les fausses sous-vedettes et les fautes de classement alphabétique", <http://www.chass.utoronto.ca/~wulfric/academie/acad1694/94nota.htm>.

11. Pour les listes de mots-clés chez Nicot, voir <http://www.chass.utoronto.ca/~wulfric/nicot/conc5.htm>; pour celles de la première édition du Dictionnaire de l'Académie française, voir <http://www.chass.utoronto.ca/~wulfric/academie/acad1694/mc_index.htm>. Voir aussi R. Wooldridge & I. Leroy-Turcan, "Les mots-clés métalinguistiques comme outil d'interrogation structurante des dictionnaires anciens", <http://www.chass.utoronto.ca/~wulfric/articles/lyon995/> et Lexicomatique et dictionnairiques (Beyrouth & Montréal, 1996): 307-16.

12. Dictionnaire de l'Académie française: Les Préfaces, <http://www.chass.utoronto.ca/~wulfric/academie/prefaces.htm>.