DictA1998

La rétroconversion d'Estienne et de Nicot pour mise sur Internet

Russon Wooldridge

wulfric@chass.utoronto.ca

University of Toronto

1. Les éditions

  • Robert Estienne, Dictionarium latinogallicum, 3e éd, Paris, Ch. Estienne, 1552.
  • Jean Nicot, Thresor de la langue françoyse, Paris, David Douceur, 1606.

    2. La première informatisation et mise en base

    Le texte du Thresor fut saisi à Nancy et à Toronto entre 1979 et 1984, grâce au concours de l'INaLF-CNRS, du Conseil de recherche en sciences humaines du Canada et de l'Université de Toronto. Une Concordance du Thresor sur microfiches, avec une introduction méthodologique, fut publiée en 1985 aux Éditions Paratexte, Toronto. En 1988, le Thresor fut mis en base interactive sur PC sous WordCruncher. Une première version du Thresor fut installée en base interrogeable sur le site Internet du projet ARTFL, Université de Chicago, en 1994; une deuxième version, conforme au balisage du Dictionnaire de l'Académie française de 1694, lui succéda en 1998.

    Le Dictionarium latinogallicum (DLG) fut saisi à l'INaLF de Nancy entre 1984 et 1988, avec relecture subventionnée par le CRSHC. Il fut ensuite indexé sous WordCruncher en 1989. Une base interactive du DLG, avec balisage conforme à DAF 1694, fut installée par le projet ARTFL en 1998.

    Le balisage du Thresor et du DLG en version concordance et WordCruncher:

    Ce balisage comprend des balises objectives et des balises subjectives: À l'opposé du texte simple du DLG, dans lequel le latin est imprimé systématiquement en caractères romains et le français en italiques, le grec étant marqué soit par le caractère grec, soit par une indication explicite (Graece, Grecs, etc.), la langue d'appartenance de maintes formes du Thresor pose problème: étymons non étiquetés; reconstitutions hypothétiques mi-latines, mi-françaises; mots grecs latinisés (c.-à-d. imprimés en caractères romains et faisant partie d'une séquence latine); indications de catégorie grammaticale qui peuvent être données en latin ou en français, mais qui sont le plus souvent abrégées (masculinus, masculin, mais surtout masc.); mots présentés comme non-français au début d'un commentaire qui s'intègrent progressivement au français du discours; mots qui combinent caractères romains et caractères grecs; mots donnés dans la nomenclature (composée en principe de mots français) qui sont expressément dits être non-français; etc. (le texte du Thresor combine le dictionnaire de langue, le dictionnaire étymologique et le dictionnaire encyclopédique). La Figure 1 illustre plusieurs de ces types de problèmes.

    La variabilité de la typographie (grands romains minuscules, petites capitales ou italique, avec initiale majuscule ou minuscule) et de la place de l'adresse (position initiale ou non-initiale) est illustrée dans la Figure 2.

    3. Simplification du balisage pour mise sur Internet

  • Balises objectives retenues: page, colonne, paragraphe, typographie, adresses d'Estienne.
  • Balises subjectives retenues: adresses de Nicot.

    Le but de la simplification du balisage était d'éliminer les balises subjectives et, en même temps, de rendre le balisage conforme à celui retenu pour le Dictionnaire de l'Académie (cf. ma communication sur l'informatisation du DAF). Il était impératif toutefois de maintenir, parmi les balises subjectives, celle de l'adresse d'article, référence essentielle pour la localisation des mots d'un texte dictionnairique. Il va sans dire que les bases WordCruncher, conçues pour les besoins de la recherche spécialisée et non pour consommation "grand public", gardent leur balisage complexe.

    [Table des communications]