Le DAF informatisé sert de fédérateur de l'informatisation de dictionnaires anciens en général (témoin le présent colloque): il fournit un tronc auquel associer des branches telles que Estienne et Nicot comme prédécesseurs, Richelet, Furetière ou Trévoux comme concurrents complémentaires, Féraud comme commentateur critique, Ménage comme complément historique et étymologique. C'est le DAF qui donne son sens à un projet de construction d'une base générale des dictionnaires français anciens.
Je donnerai comme cas d'interférence typique un exemple qui se trouve dans le texte du DAF lui-même et qui, on le sait, a posé problème pour les rédacteurs. Les Registres de l'Académie, à la date de septembre 1673, contiennent un compte rendu d'une discussion chez les membres de l'Académie au sujet de fond/fonds:
Le jeudy Sept. de l'an 1673. S'il faloit mettre une S a fond, la chose ayant esté bien discutée, on a trouvé que ce mot avoit deux significations. La première est de la partie ou espace qui est au bas d'une chose laquelle a profondeur, comme le fond d'un tonneau, au fond de la rivière, de l'abysme. Son
procès ne vaut rien au fond.
La seconde signification est pour un héritage, ou pour une
certaine somme de deniers destinée à quelque chose: du bien
en fonds de terre, on a fait un fonds pour le payeur des gents
de guerre pour l'artillerie, etc. On est demeuré d'accord qu'à l'une et à l'autre signification on mettoit autrefois une S car on disoit
foncer et enfoncer qui viennent de fond dans la première
signification; mais que depuis, l'usage l'en a ostée, et l'a laissée
seulement à la seconde; De sorte qu'on dit le fond d'un tonneau, de la
cour, et un fonds de terre.
À part quelques confusions de lettres causées par les formes des caractères ou les imperfections du texte original (b et h en italique, r et t en romain ou italique, par exemple), confusions faciles à repérer, l'élément le plus perturbateur dans les textes du XVI-XVIIIe s. est le s long, formellement très proche de la lettre f. La correction globale de formes comme fign., fignifie, signisie, figur. ou siguré est facile; en revanche, les occurrences des formes textuelles fig. et sig. sont à examiner de plus près. Le contexte aidant (par exemple, "au fig./sig." = "au fig.", "fig./sig. &" = "fig. &", "il fig./sig." = "il sig."), le contrôle, dans le DAF de 1694, des 4072 occurrences de fig. et des 72 de sig. a pris peu de temps.
En fin de compte, l'atout majeur du correcteur qui reçoit un texte saisi par un professionnel non-indoeuropéanophone est la grande confiance qu'il peut y placer.
Objet | Balise | Correspondance sémiotique | |
---|---|---|---|
livre | page | <page n="1"> (etc.) | |
colonne | <col n="2"> (etc.) | ||
texte | paragraphe | <p> | |
grandes capitales | <lc>...</lc> | en début de paragraphe = vedette | |
petites capitales | <sc>...</sc> | 1694, en début de paragraphe = sous-vedette | |
italique | <i>...</i> | ||
gras (à partir de la 6e éd.) | <b>...</b> |
Les balises sont saisies en même temps que le texte (consignes simples), ce qui favorise une saisie rapide de l'ensemble du dictionnaire (environ un mois) et une première mise en base immédiate. L'accès à l'intégralité du texte facilite la correction, en même temps qu'il permet déjà de nombreuses interrogations par le chercheur; cette maîtrise du texte global facilite aussi pour l'équipe de recherche une éventuelle complexification du balisage, lequel peut et doit être fondé sur une connaissance du texte entier et non pas seulement sur des sondages.
Pour ce qui est de la correspondance entre une séquence en capitales en début de paragraphe et le statut d'adresse, l'équivalence est presque toujours biunivoque au niveau des grandes capitales (vedettes) elle est renforcée par le gras à partir de la sixième édition , alors qu'elle n'est qu'univoque à celui des petites capitales: sous-adresse => petites capitales.
Exemple de reprise d'adresse vs. sous-vedette dans DAF 1694:
Petites capitales romaines | Minuscules italiques |
---|---|
A GAUCHE. adv. | A l'Air, adverb. |
PAR INDIVIS. Façon de parler adverbiale. | Par accident, Maniere de parler
adverbiale. (Cf. On dit aussi adverbialement. Par comparaison, pour dire...) |
AISÉ, signifie aussi, Commode. | Accord signifie aussi Union |
RECHERCHER. v. a. Chercher une autre fois. (s.v. CHERCHER) | Ravoir. v. a. Avoir une autre fois. (s.v. AVOIR) |
CHASSELAS. Sorte de raisin. | Selle. Sorte de siege... |
Ensuite, plusieurs types de relecture, de correction et de nettoyage sont effectués à partir des fichiers texte et d'une autre version de la base installés sur PC (cf. la section suivante): a) la résolution des doutes de saisie, marqués "<?>"; b) la résolution des traits d'union de fin de ligne (à noter que les lignes du texte électronique respectent la mise en ligne de l'original, ce qui est important pour la correction et le nettoyage); c) une relecture verticale avec correction probabiliste (voir ci-dessous) à partir d'un index des mots-formes; d) l'explicitation des co-adresses elliptiques (type "BLANC, ANCHE" -> "BLANC, [BL]ANCHE" cf. Wooldridge 1998b).
Deux types de relecture (point "c" ci-dessus) sont possibles: linéaire ou verticale. La relecture linéaire est longue, fastidieuse et difficile (interférence permanente du sémantique et du contexte gommants), quoique nécessaire dans le cas d'une saisie "européanophone" (cf. la section 3). La relecture verticale, qui élimine la coexistence de la forme et du contexte, est au contraire relativement rapide et aisée; la relecture probabiliste représente un compromis entre coût et rendement; elle consiste en l'acceptation de toute forme possible dans le cadre des systèmes orthographiques mis en oeuvre dans le texte (le relecteur doit donc avoir une bonne connaissance du texte, grandement secondée par l'accès rapide à la totalité des occurrences d'un phénomène donné) et l'affichage des contextes des formes douteuses ou impossibles, suivi au besoin de la consultation de l'original.
Dans le cas de l'informatisation du DAF, deux facteurs majeurs suffisent à justifier une relecture verticale probabiliste:
Que l'on fasse une lecture linéaire ou une lecture verticale, on ne peut, bien entendu, jamais être sûr d'avoir rendu le texte électronique totalement conforme à l'original. Ce qui plus est, la nature de l'original n'est pas toujours forcément claire. Je mentionnerai à ce propos le cas problématique du tréma, petit signe dont l'impression est souvent imparfaite, dont la présence dans certaines formes lexicales du DAF est facultative, et dont la place est variable (cf. les 75 occurrences de queuë et les 48 de queüe s.v. QUEUE).
Une nouvelle version de la base est alors installée en ligne à partir du texte revu et corrigé.
La fréquentation de la base (lectures linéaires contextuelles) permet de faire progressivement d'autres corrections ponctuelles, sans que l'on puisse jamais savoir si toutes les fautes de saisie ont été repérées.
Correction et relecture (DAF 1694 et 1835): WordPerfect pour DOS (correction) et WordCruncher pour DOS (relecture verticale).
Mise en ligne: conversion ASCII -> ISO Latin 1; outils UNIX pour l'installation; logiciels PhiloLogic (version ARTFL) ou TACTweb (Toronto) pour l'interrogation de la base sur Internet.
Catach, Nina (1994). "Les dictionnaires de l'Académie française", CCH Working Papers, 4: 143-56; rééd. in Dictionnairique et lexicographie, 3 (1995): 143-56 et CH Working Papers, B.21 (1996).
Dictionnaire de l'Académie française, éditions de 1694, 1798 et 1835 mises en ligne par le projet ARTFL de l'Université de Chicago, http://humanities.uchicago.edu/ARTFL/projects/academie/.
Régistres de l'Académie françoise, 1672-1793, t. 4, Paris, Firmin-Didot, 1906. (Voir texte et étude des Décisions sur la langue sur le site de la Base Échantillon, à http://www.chass.utoronto.ca/~wulfric/academie/acad1694/registre/.)
Wooldridge, Russon (1994). "La base lexicographique du Dictionnaire de l'Académie française (1694-1992): quelques mesures", CCH Working Papers, 4: 157-64; rééd. in Dictionnairique et lexicographie, 3 (1995): 157-64 et CH Working Papers, B.22 (1996).
Wooldridge, Russon (1998a). "Projet d'informatisation du Dictionnaire de l'Académie (1694-1935)", in Le Dictionnaire de l'Académie française et la lexicographie institutionnelle européenne (Actes du Colloque international, Institut de France, novembre 1994; ed. B. Quemada & J. Pruvost), Paris, Champion: 309-20.
Wooldridge, Russon (1998b). "Aspects de la base informatisée du Dictionnaire de l'Académie françoise de 1694" (conférence présentée à Paris, en mai 1998, au Groupe d'Études en Histoire de la Langue Française), publ. sur Internet à http://www.chass.utoronto.ca/~wulfric/articles/gehlf598/ et http://www.unilim.fr/~caron/gehlf/trw598/.