Les dictionnaires anciens sur Internet: bases linguistiques, philologiques, culturelles

Russon Wooldridge

University of Toronto

Texte mis à jour d'une communication préparée pour le XIVe Congrès international de l'Association Guillaume Budé (Limoges, août 1998)

© 1998 R. Wooldridge

Le texte suivant est en grande partie une synthèse hypertextuelle renvoyant à des documents en ligne qui contiennent ou qui illustrent différents éléments de mon propos. Il traitera d'une part la question de l'établissement du texte électronique et des bases en ligne des dictionnaires anciens, d'autre part celle des types d'analyses que ces bases dictionnairiques hypertextuelles permettent, dont la confrontation des dictionnaires avec d'autres textes, contemporains (usage synchronique) ou antérieurs (textes potentiellement ou effectivement sources).


1. Dictionnaires anciens sur Internet [*]

On trouve actuellement en ligne en accès libre (septembre 1998): Seront prochainement installés en ligne: Ces bases donnent, ou ont pour objectif de donner, le texte conforme à la présentation matérielle des originaux (dont graphies) indexé au moyen d'un logiciel de recherche de données textuelles à interrogation en plein texte permettant divers types de requêtes et d'affichages. Y sont associés en hypertexte d'autres bases et outils textuels, métatextuels, critiques, bibliographiques et iconiques, ainsi que les pages de l'original en mode image. Le modèle en est donné par la Base Académie Échantillon. L'informatisation d'autres dictionnaires anciens suivra.

Le premier dictionnaire ancien à être informatisé -- avant même qu'on ait l'idée d'informatiser le Oxford English Dictionary -- fut le Thresor de Nicot, dont le texte fut saisi entre 1979 et 1983 (à l'INaLF de Nancy et à l'Université de Toronto), une concordance sur microfiches fut publiée en 1985, une première base interactive fut réalisée avec le logiciel WordCruncher en 1988 et une première version pour Internet fut installée sur le site ARTFL en 1994 (deuxième version en 1998). Les critères qui ont présidé à la représentation du texte -- mise en livre, structuration dictionnairique, typographie, graphies, langues, homographes -- sont détaillés dans l'Introduction méthodologique, devenue, dans sa version en ligne, "Introduction méthodologique à la saisie philologique des textes anciens" (Wooldridge 1996b). Les critères de balisage ont dû être quelque peu allégés dans la perspective de la création d'une base commune de dictionnaires français anciens saisis par différents projets. Un modèle de ce balisage allégé est donné par la version électronique de la première édition du Dictionnaire de l'Académie française; un modèle de la mise en commun est offert par la Base Nicot-Académie-Féraud (site limousin; site torontois). Un prochain atelier, qui se tiendra à l'Université de Limoges en novembre 1998, sera consacré au thème du "balisage des dictionnaires anciens"; le site de l'atelier contient déjà des éléments de discussion et de modèles.

2. Quelques principes concernant l'informatisation d'un dictionnaire et l'interrogation d'une base dictionnairique

Il me semble évident que l'informatisation et la mise en base doivent être dirigées par un spécialiste qui connaît bien le texte et qui sait concevoir une bonne base de données (éventuellement deux personnes travaillant ensemble). Il me semble tout aussi évident que l'utilité des données rendues par une requête dépend, d'une part de la justesse de la requête elle-même, et d'autre part de la qualité de l'exploitation qui en est faite. En d'autres termes, l'ordinateur n'est qu'un outil qui facilite la recherche; c'est au chercheur d'y donner un sens. L'intérêt d'une base interactive comme celle des huit éditions du Dictionnaire de l'Académie, par exemple, est double:
  • elle réunit en un lieu et sous une forme très maniable des volumes qui sont généralement dispersés: par exemple dans la bibliothèque de l'Université de Toronto, qui a la chance d'avoir toutes les huit éditions, il faut aller et venir entre les rayons des usuels (5e-8e éditions au 12e étage), la salle des microfiches (2e et 3e éditions au 3e étage) et le fonds ancien (1ère et 4e éditions, aile annexe au 2e étage) -- les arcanes labyrinthiques d'Eco (c'est la bibliothèque de Toronto qui lui a inspiré celle du Nom de la rose) sont ainsi abolis;
  • ce qui est bien plus important, elle permet d'interroger tout le texte et pas seulement les entrées du dictionnaire imprimé: les entrées sont en nombre illimité et sont celles choisies par le consulteur/chercheur, et non pas seulement celles (les vedettes) du lexicographe.

    3. Exemples de types d'interrogations

    1. Vocabulaire du bâtiment. En me servant de la Concordance du Thresor de 1606 et en partant des termes-clés maçon/maçonnerie, menuisier/meuiserie, charpentier/charpenterie et architecte/architecture, j'ai pu repérer une centaine d'articles donnant l'essentiel du vocabulaire du bâtiment chez Nicot (Wooldridge 1985).

    2. Vent, vin, brebis. Les occurrences du mot vent/vents dans l'article VENT d'Académie 1694 combinées avec celles qui se trouvent ailleurs dans le même ouvrage donnent une image bien plus complète du mot que ce qui est donné dans la seule nomenclature "consultable", celle du dictionnaire imprimé (voir Leroy-Turcan & Wooldridge 1998: 1). Cela est encore plus vrai pour le mot vin/vins: presque toute la dimension culturelle de la place du vin dans la sagesse populaire est à chercher ailleurs que s.v. VIN, où il s'agit surtout d'emplois dénominatifs (voir Wooldridge 1998: site limousin; site torontois).

    J'ajouterai ici une remarque sur l'expression entre deux vins. Dans Académie 1694, elle a une seule occurrence, s.v. GAILLARD:

    Ce n'est que l'édition suivante (1718) qui lui donne le statut de sous-adresse s.v. VIN: La base ARTFL (Frantext en France) atteste son emploi avant la publication de la première édition du Dictionnaire de l'Académie, chez Garasse (1623) et Mme de Sévigné (1680).

    Il est souvent instructif de regarder la liste des articles dans lesquels apparaissent un mot lexical; soit brebis dans Nicot 1606 et Académie 1694:

    Plusieurs des occurrences du dictionnaire de l'Académie associent brebis à loup. J'en donnerai un exemple: On peut constater plusieurs choses:
  • le manque de systématicité métalinguistique: "On dit" / "On dit prov. & fig." / "On dit prov.". Qu'il s'agisse de dictionnaires anciens ou de dictionnaires modernes, la pratique des marques d'usage manque de cohérence; c'est seulement le degré de systématicité qui varie.
  • la variation lexicale: le proverbe est formulé de trois façons différentes, ce qui est en fait une marque de son oralité populaire (aucune occurrence au XVIIe siècle dans la base ARTFL, composée presque entièrement de textes littéraires ou techniques).

    3. Les mots-clés métalinguistiques. Par ce terme j'entends les copules reliant l'adresse aux différentes informations (s'écrit, se prononce, signifie, comme, etc.), les articulateurs de l'article (on dit, on appelle, etc.) ou des items (aussi, encore, etc.) et les informations appartenant à des classes générales -- catégorie grammaticale (s. f., v. act., etc.), filiation sémantique (par extension, fig., etc.) ou marque d'usage (fam., vieux, terme de cuisine, etc.). C'est par le biais des mots-clés métalinguistiques qu'on peut interroger un certain nombre de champs informationnels d'un dictionnaire informatisé. La Base Académie Échantillon donne un index de ces termes; on peut lire une discussion du concept de "mot-clé métalinguistique" dans Wooldridge & Leroy-Turcan 1996.

    4. Recherches philologiques et culturelles. Un modèle de ce que j'entends par une "base dictionnairique, philologique et culturelle" est proposé par Wooldridge 1996a, dont je me contente de citer le résumé: "La connaissance d'un état de langue du passé s'acquiert dans les textes et, lorqu'ils existent, les dictionnaires de l'époque en question; complémentarité en ce que les textes montrent la langue en usage (niveau linguistique) alors que les dictionnaires offrent une réflexion sur la langue (niveau métalinguistique). Les dictionnaires anciens informatisés -- notamment Estienne, Nicot, Académie française -- sont associés par des liens hypertextuels à un certain nombre de textes sources -- dont Belleau, Du Fouilloux, Vigenere et Vitruve -- et à des bases bibliographiques et de mots-clés métalinguistiques ainsi qu'à des notes critiques et à des images."

    Je me dois de mentionner dans le cadre de ce colloque le nom de Guillaume Budé. Collaborateur éminent de Robert Estienne, c'est à Budé qu'on doit, entre mille autres choses, le premier recensement lexicographique en France du vocabulaire de l'architecte romain Vitruve; le dictionnaire d'Estienne incorpore par la suite des termes d'architecture exprimés cette fois-ci en français, provenant de la première traduction française du traité de Vitruve (Martin 1547). L'étude de la genèse de ce vocabulaire dans le Thesaurus linguae latinae, le Dictionarium latinogallicum et le Dictionaire francoislatin s'est faite en partie, de façon classique, dans les bibliothèques et en partie à l'aide de quatre textes informatisés: le traité de Vitruve en latin et dans la traduction de Martin, le Dictionarium latinogallicum de 1552 et le Thresor de Nicot (voir Wooldridge 1997). (Voir aussi le site Vitruve.)

    4. Dictionnaires anciens et dictionnaires historiques

    Qu'entendons-nous par "dictionnaire ancien"? Essentiellement c'est un dictionnaire auquel on ne touche plus, qui n'est pas révisable. C'est un artefact du passé qu'on étudie et dont on respecte l'intégrité. Le dictionnaire historique décrit des phénomènes linguistiques relevant du passé de la langue. Le Nicot de 1606 et le Ménage de 1694 (Dictionnaire étymologique) sont à la fois des dictionnaires anciens et, en partie, des dictionnaires historiques: Nicot a écrit un Thresor de la langue françoyse, tant ancienne que moderne, mélange de synchronique et de diachronique; quand Ménage commente les ouvrages d'Estienne et de Nicot il parle de "vieux dictionnaires". Alors que les dictionnaires synchroniques sont par définition toujours à remplacer du point de vue de leur fonctionnalité pratique (cf. les éditions successives du Dictionnaire de l'Académie), les grands dictionnaires historiques se veulent souvent, du moins depuis le XIXe siècle, définitifs, irremplaçables, ce qui est, bien entendu, une pure illusion. N'est irremplaçable que ce qu'on n'a pas les moyens de remplacer; le définitif n'est que provisoire. Dans le domaine de la lexicographie historique, il y a plusieurs chantiers inachevés ou inachevables. On veut remplacer le Huguet, mais à supposer que le "Nouveau Huguet" sortait demain, il serait jugé insatisfaisant dans cinquante ans, sinon avant. On continue à refaire, à améliorer, à corriger le FEW soixante-dix-sept ans après la parution du premier fascicule: exemple d'un projet sisyphéen.

    Dans un compte-rendu publié à l'occasion de la parution du dernier fascicule de la lettre G du très apprécié DEAF (Dictionnaire étymologique de l'ancien français), première lettre à être rédigée d'un ouvrage mis en chantier il y a vingt-sept ans, F. Lebsanft dit ceci:

    Le mot-clé de cet extrait est peut-être le dernier: les fonds. Je terminerai par poser la question suivante: Puisque toute interprétation (ici un dictionnaire historique) attend d'être remplacée par une meilleure ou une autre (ici le "Nouveau DEAF"), ne vaut-il pas mieux que les spécialistes investissent leur temps et les fonds dont ils disposent en priorité dans ce qui ne change pas, l'interprêté (les textes du passé, dont dictionnaires anciens), en les mettant à la disposition de l'ensemble des chercheurs par le biais de bases informatisées?


    Références: adresses des liens hypertextuels

  • ARTFL Project: http://humanities.uchicago.edu/ARTFL/ARTFL.html (U. of Chicago).
  • Atelier sur "Le balisage des dictiionnaires anciens" (Limoges, novembre 1998): http://www.unilim.fr/~caron/DictA/DictA1998/ (U. de Limoges).
  • Base Académie Échantillon: http://www.chass.utoronto.ca/~wulfric/academie/ (U. of Toronto).
  • Base Échantillon Nicot-Académie-Féraud: http://www.unilim.fr/~caron/naf/ (U. de Limoges) et http://www.chass.utoronto.ca/~wulfric/naf/ (U. of Toronto).
  • Dictionnaire de l'Académie française, première (1694) et cinquième (1798) éditions: http://humanities.uchicago.edu/ARTFL/projects/academie/ (ARTFL, U. of Chicago).
  • Frantext: http://www.ciril.fr/~mastina/FRANTEXT (CIRIL, Nancy).
  • Leroy-Turcan & Wooldridge 1998: "Quelques exemples des acquis de la base informatisée de la première édition du Dictionnaire de l'Académie française (1694)": http://www.chass.utoronto.ca/~wulfric/academie/acad1694/quebec298.htm (U. of Toronto).
  • J. Nicot, Thresor de la langue françoyse, 1606: http://humanities.uchicago.edu/ARTFL/projects/TLF-NICOT/ (U. of Chicago).
  • RenDico: base des dictionnaires d'Estienne et de Nicot: http://www.chass.utoronto.ca/~wulfric/tiden/ (U. of Toronto).
  • Wooldridge 1985: "Le vocabulaire du bâtiment chez Nicot: quelques datations": http://www.chass.utoronto.ca/~wulfric/articles/batiment/ (U. of Toronto).
  • Wooldridge 1996a: "Bases dictionnairiques, philologiques, culturelles": http://www.chass.utoronto.ca/~wulfric/articles/nan595/ (U. of Toronto).
  • Wooldridge 1996b: "Introduction méthodologique à la saisie philologique des textes anciens": http://www.chass.utoronto.ca/~wulfric/nicot/conc_tab.htm (U. of Toronto).
  • Wooldridge 1997: "Vitruve latin et français dans les dictionnaires de Robert Estienne": http://www.chass.utoronto.ca/~wulfric/articles/nan395/ (U. of Toronto).
  • Wooldridge 1998: "Aspects de la base informatisée du Dictionnaire de l'Académie françoise de 1694": http://www.unilim.fr/~caron/gehlf/trw598/ (U. de Limoges) et http://www.chass.utoronto.ca/~wulfric/articles/gehlf598/ (U. of Toronto).
  • Wooldridge & Leroy-Turcan 1996: "Les Mots-clés métalinguistiques comme outil d'interrogation structurante des dictionnaires anciens": http://www.chass.utoronto.ca/~wulfric/articles/lyon995/ (U. of Toronto).


    Note: "Actuellement, la préposition sur est très employée en association avec les termes Internet, Web, navigation, naviguer et l'utilisation fréquente du verbe surfer vient renforcer l'usage de cette préposition. La logique voudrait que ce soit dans dont on se serve, puisque Internet est un réseau dans lequel on pénètre. De plus, l'image que contiennent les termes navigation et naviguer devrait être reliée à la navigation aérienne plutôt qu'à la navigation maritime car le cyberespace dans lequel évoluent les internautes est plus proche de l'espace aérien que de la mer. Par ailleurs, l'utilisation de la préposition dans offre l'avantage de lever l'ambiguïté qui existe dans des expressions telles que trouver un renseignement sur Internet, dans lesquelles on ne sait trop si sur signifie « à propos d'Internet » ou « dans Internet »." (Office de la langue française, Vocabulaire d'Internet Plus, Gouvernement du Québec, 1997, s.v. BROWSE).
    En matière de langue, la logique ne décide rien; c'est l'usage qui est maître. Une interrogation des sites de langue française sur/dans Internet au moyen du moteur de recherche AltaVista a donné, au 2 août 1998, les résultats suivants: "sur Internet" dans 81.238 documents; "dans Internet" dans 3.006 documents.