DictA1998

L'informatisation du Dictionnaire de l'Académie française (DAF)

Russon Wooldridge

wulfric@chass.utoronto.ca

University of Toronto

1. Importance du DAF

Le DAF a dominé la lexicographie monolingue française du XVIIe siècle jusque vers le milieu du XIXe; il est encore aujourd'hui la référence privilégiée et incontournable dans les grands dictionnaires français. Autorité première évoquée ou critiquée dans les discussions sur le bon usage au XVIIe siècle et par les remarqueurs du XVIIe et du XVIIIe siècles, dont Féraud fait la synthèse dans son Dictionaire critique de 1787, il oblige Richelet (1680) et Furetière (1690) à se situer par rapport à lui à la fin du XVIIe siècle; il est constamment cité au XVIIIe siècle par le Trévoux, au XIXe par Bescherelle, Littré et le Dictionnaire général, au XXe par Robert et le Trésor de la langue française, entre autres. Il n'a cessé d'exercer une influence déterminante qu'à partir de la seconde moitié du XXe siècle (Littré pris comme modèle par Robert et le TLF).

Le DAF informatisé sert de fédérateur de l'informatisation de dictionnaires anciens en général (témoin le présent colloque): il fournit un tronc auquel associer des branches telles que Estienne et Nicot comme prédécesseurs, Richelet, Furetière ou Trévoux comme concurrents complémentaires, Féraud comme commentateur critique, Ménage comme complément historique et étymologique. C'est le DAF qui donne son sens à un projet de construction d'une base générale des dictionnaires français anciens.

2. Historique du projet

  • Octobre 1993: Nina Catach (Catach 1994) et Russon Wooldridge (Wooldridge 1994) ont décrit un certain nombre d'aspects du DAF qui ressortiraient de la consultation d'une version électronique du dictionnaire.
  • Novembre 1994: le projet d'informatisation du DAF a été annoncé à l'Institut de France, avec Isabelle Leroy-Turcan comme directrice scientifique et R. Wooldridge comme directeur technique (Wooldridge 1998a); une base échantillon des huit éditions complètes du DAF (1694-1935), créée en premier lieu pour les besoins du colloque de l'Institut et constamment mise à jour et augmentée par la suite, est consultable sur Internet depuis 1995.
  • 1996-1998: trois éditions du DAF ont été saisies intégralement et ont été mises en ligne sur Internet grâce à la collaboration du projet ARTFL de l'Université de Chicago (directeur, Robert Morrissey; responsable technique, Mark Olsen): 1) la cinquième de 1798, sous la direction de Douglas Kibbee (avec des fonds consentis par l'Université d'Illinois à Urbana-Champaign); 2) la première de 1694, sous la direction d'I. Leroy-Turcan et R. Wooldridge; 3) la sixième de 1835 (dir. R. Wooldridge). La saisie de la première et de la sixième éditions a été financée par le projet ARTFL.
  • 1997-1998: saisie de la huitième édition de 1932-5 au laboratoire de Nancy de l'INaLF, sous la direction d'I. Leroy-Turcan et patronnée par le directeur de l'INaLF, Robert Martin puis Bernard Cerquiglini; relecture à faire avant l'installation en ligne.
  • Autres saisies prévues: celle de la quatrième édition de 1762, sous la direction de Louise Dagenais, et celle de la septième de 1878, sous la direction de Jean Pruvost.

    3. Procédures et problèmes de saisie

    Dans le reste de ma communication je parlerai des procédures suivies pour les éditions saisies par les soins du projet ARTFL. Les trois éditions traitées par les services techniques du projet ARTFL (1694, 1798, 1835) ont été saisies manuellement en Chine par des professionnels non-indoeuropéanophones. L'avantage crucial d'une saisie faite par un claviste qui ne comprend pas la langue du texte qu'il saisit et qui n'a même pas la possibilité de postuler des analogies avec des mots de sa langue maternelle est que la saisie ne peut être que formelle. Il ne peut donc se produire les interférences sémantiques, graphémiques ou phonétiques qui s'introduisent inévitablement dans une saisie faite par quelqu'un qui comprend la langue du texte ou qui croit y percevoir certains phénomènes linguistiques qui lui sont familiers.

    Je donnerai comme cas d'interférence typique un exemple qui se trouve dans le texte du DAF lui-même et qui, on le sait, a posé problème pour les rédacteurs. Les Registres de l'Académie, à la date de septembre 1673, contiennent un compte rendu d'une discussion chez les membres de l'Académie au sujet de fond/fonds:

    Cette même distinction entre fond et fonds se retrouve dans l'article FOND du Dictionnaire de 1694; cependant, les deux formes sont confondues dans le dernier alinéa de l'article: C'est le tout dernier exemple – c'est un homme qui n'a point de fond – qui constitue l'élément perturbateur. La distinction fond / fonds (la prononciation est la même), difficilement établie dans la décision de 1673 et maintenue dans l'article FOND de 1694, cesse en grande partie d'être opératoire dans le reste du texte du dictionnaire, l'attention des rédacteurs étant alors dirigée ailleurs. Je citerai deux cas parmi d'autres non conformes à la décision et à l'article FOND, l'un dans une séquence définitoire, l'autre dans un exemple: Alors que pour un indoeuropéanophone fond et fonds font partie d'un même paradigme (cf. angl. fund/funds), les paradigmes sont tout autres pour le non-indoeuropéanophone: 1) fond = chaîne de quatre caractères (cf. bond, fend, font); 2) fonds = chaîne de cinq caractères (cf. ronds, fonde, sonde).

    À part quelques confusions de lettres causées par les formes des caractères ou les imperfections du texte original (b et h en italique, r et t en romain ou italique, par exemple), confusions faciles à repérer, l'élément le plus perturbateur dans les textes du XVI-XVIIIe s. est le s long, formellement très proche de la lettre f. La correction globale de formes comme fign., fignifie, signisie, figur. ou siguré est facile; en revanche, les occurrences des formes textuelles fig. et sig. sont à examiner de plus près. Le contexte aidant (par exemple, "au fig./sig." = "au fig.", "fig./sig. &" = "fig. &", "il fig./sig." = "il sig."), le contrôle, dans le DAF de 1694, des 4072 occurrences de fig. et des 72 de sig. a pris peu de temps.

    En fin de compte, l'atout majeur du correcteur qui reçoit un texte saisi par un professionnel non-indoeuropéanophone est la grande confiance qu'il peut y placer.

    4. Balisage objectif

    Seuls sont balisés dans le texte électronique du DAF les objets typographiques: La Figure 1 donne un exemple de l'application de ce balisage (le macro-article TIMBRE de DAF 1694).

    Les balises sont saisies en même temps que le texte (consignes simples), ce qui favorise une saisie rapide de l'ensemble du dictionnaire (environ un mois) et une première mise en base immédiate. L'accès à l'intégralité du texte facilite la correction, en même temps qu'il permet déjà de nombreuses interrogations par le chercheur; cette maîtrise du texte global facilite aussi pour l'équipe de recherche une éventuelle complexification du balisage, lequel peut – et doit – être fondé sur une connaissance du texte entier et non pas seulement sur des sondages.

    Pour ce qui est de la correspondance entre une séquence en capitales en début de paragraphe et le statut d'adresse, l'équivalence est presque toujours biunivoque au niveau des grandes capitales (vedettes) – elle est renforcée par le gras à partir de la sixième édition –, alors qu'elle n'est qu'univoque à celui des petites capitales: sous-adresse => petites capitales.

  • Grandes capitales = vedette. On rencontre un petit nombre de fausses vedettes typographiques (accidents de composition): ex. "EMMANCHER", entre MANCHE et EMMANCHÉ s.v. MAIN dans DAF 1694.
  • Petites capitales = sous-vedette. Les petites capitales en début de paragraphe sont non seulement utilisées pour les sous-vedettes de DAF 1694 (dérivés, composés, syntagmes lexicalisés), mais également pour les reprises d'adresse (vedette ou sous-vedette). On peut noter par ailleurs que d'un point de vue sémiotique la frontière entre sous-vedette et sous-adresse (imprimée en italique) est difficile à établir. Cette zone de flou sémiotique ne doit pas cependant exercer une influence sur le balisage du texte; elle est due aux hésitations des rédacteurs et nous ne sommes pas habilités, trois siècles après, à trancher autrement, sauf à écrire un "Nouveau DAF 1694"!

    Exemple de reprise d'adresse vs. sous-vedette dans DAF 1694:

    Exemples de sous-vedette vs. sous-adresse dans DAF 1694:

    5. Correction, nettoyage, mise en base

    Dès réception de la saisie, des procédures automatisées permettent la mise en ligne immédiate d'une première version de la base dictionnairique.

    Ensuite, plusieurs types de relecture, de correction et de nettoyage sont effectués à partir des fichiers texte et d'une autre version de la base installés sur PC (cf. la section suivante): a) la résolution des doutes de saisie, marqués "<?>"; b) la résolution des traits d'union de fin de ligne (à noter que les lignes du texte électronique respectent la mise en ligne de l'original, ce qui est important pour la correction et le nettoyage); c) une relecture verticale avec correction probabiliste (voir ci-dessous) à partir d'un index des mots-formes; d) l'explicitation des co-adresses elliptiques (type "BLANC, ANCHE" -> "BLANC, [BL]ANCHE" – cf. Wooldridge 1998b).

    Deux types de relecture (point "c" ci-dessus) sont possibles: linéaire ou verticale. La relecture linéaire est longue, fastidieuse et difficile (interférence permanente du sémantique et du contexte gommants), quoique nécessaire dans le cas d'une saisie "européanophone" (cf. la section 3). La relecture verticale, qui élimine la coexistence de la forme et du contexte, est au contraire relativement rapide et aisée; la relecture probabiliste représente un compromis entre coût et rendement; elle consiste en l'acceptation de toute forme possible dans le cadre des systèmes orthographiques mis en oeuvre dans le texte (le relecteur doit donc avoir une bonne connaissance du texte, grandement secondée par l'accès rapide à la totalité des occurrences d'un phénomène donné) et l'affichage des contextes des formes douteuses ou impossibles, suivi au besoin de la consultation de l'original.

    Dans le cas de l'informatisation du DAF, deux facteurs majeurs suffisent à justifier une relecture verticale probabiliste:

  • le taux de justesse très élevé de la saisie, dont les erreurs sont purement formelles et par conséquent faciles à repérer;
  • la relative simplicité du texte dont les variantes formelles (variantes graphiques et abréviations) sont prévisibles.

    Que l'on fasse une lecture linéaire ou une lecture verticale, on ne peut, bien entendu, jamais être sûr d'avoir rendu le texte électronique totalement conforme à l'original. Ce qui plus est, la nature de l'original n'est pas toujours forcément claire. Je mentionnerai à ce propos le cas problématique du tréma, petit signe dont l'impression est souvent imparfaite, dont la présence dans certaines formes lexicales du DAF est facultative, et dont la place est variable (cf. les 75 occurrences de queuë et les 48 de queüe s.v. QUEUE).

    Une nouvelle version de la base est alors installée en ligne à partir du texte revu et corrigé.

    La fréquentation de la base (lectures linéaires contextuelles) permet de faire progressivement d'autres corrections ponctuelles, sans que l'on puisse jamais savoir si toutes les fautes de saisie ont été repérées.

    6. Outils de saisie, de correction et de mise en base

    Saisie: traitement de texte avec sauvegarde en format ASCII (dont "é" = "é", "À" = "¬A").

    Correction et relecture (DAF 1694 et 1835): WordPerfect pour DOS (correction) et WordCruncher pour DOS (relecture verticale).

    Mise en ligne: conversion ASCII -> ISO Latin 1; outils UNIX pour l'installation; logiciels PhiloLogic (version ARTFL) ou TACTweb (Toronto) pour l'interrogation de la base sur Internet.

    7. Outils et documents associés

    Un certain nombre de documents et d'outils associés à la base dictionnairique sont installés sur le site de la Base Échantillon.

    7.1. Le texte

  • Index de mots-clés métalinguistiques (= approche des champs informationnels);
  • Listes d'adresses et de mots de texte;
  • Images des pages originales.

    7.2. Le paratexte et l'intertexte

  • Tableaux comparatifs de nomenclature (ex. DAF 1694 vs. Richelet 1680, Furetière 1690, Ménage 1694);
  • Titre, préface, liste d'abréviations, etc. en modes texte et image;
  • Textes analytiques et critiques de remarqueurs, etc. (ex. Registres de l'Académie);
  • Écrits critiques ou littéraires d'académiciens (= Base Auteurs; ex. Scudéry, Lamartine, Villemain);
  • Images référentielles (ex. l'acanthe et la feuille d'acanthe chez Perrault 1684, Chabat 1875-1878, Lachâtre 1881, Larousse 1928);
  • Études par différents membres du projet.


    Bibliographie

    Base Académie Échantillon, http://www.chass.utoronto.ca/~wulfric/academie/.

    Catach, Nina (1994). "Les dictionnaires de l'Académie française", CCH Working Papers, 4: 143-56; rééd. in Dictionnairique et lexicographie, 3 (1995): 143-56 et CH Working Papers, B.21 (1996).

    Dictionnaire de l'Académie française, éditions de 1694, 1798 et 1835 mises en ligne par le projet ARTFL de l'Université de Chicago, http://humanities.uchicago.edu/ARTFL/projects/academie/.

    Régistres de l'Académie françoise, 1672-1793, t. 4, Paris, Firmin-Didot, 1906. (Voir texte et étude des Décisions sur la langue sur le site de la Base Échantillon, à http://www.chass.utoronto.ca/~wulfric/academie/acad1694/registre/.)

    Wooldridge, Russon (1994). "La base lexicographique du Dictionnaire de l'Académie française (1694-1992): quelques mesures", CCH Working Papers, 4: 157-64; rééd. in Dictionnairique et lexicographie, 3 (1995): 157-64 et CH Working Papers, B.22 (1996).

    Wooldridge, Russon (1998a). "Projet d'informatisation du Dictionnaire de l'Académie (1694-1935)", in Le Dictionnaire de l'Académie française et la lexicographie institutionnelle européenne (Actes du Colloque international, Institut de France, novembre 1994; ed. B. Quemada & J. Pruvost), Paris, Champion: 309-20.

    Wooldridge, Russon (1998b). "Aspects de la base informatisée du Dictionnaire de l'Académie françoise de 1694" (conférence présentée à Paris, en mai 1998, au Groupe d'Études en Histoire de la Langue Française), publ. sur Internet à http://www.chass.utoronto.ca/~wulfric/articles/gehlf598/ et http://www.unilim.fr/~caron/gehlf/trw598/.

    [Table des communications]