2. Quel balisage pour répondre à quels objectifs ?

2.1. Rappels

Le travail de création de bases de données de dictionnaires anciens implique une étude préalable systématique des différents niveaux de fonctionnement du texte, en particulier de toutes les modalités de présentation de l'ensemble des informations, qu'elles soient ou non structurées selon des champs informationnels plus ou moins récurrents.

Il faut, par exemple, être en mesure de décrire toutes les valeurs des polices de caractères, de l'italique, du droit romain, des petites capitales, des majuscules particulières, des ponctuations non syntaxiques, etc... pour préparer les conditions idoines de travail sur support informatique, savoir ce qu'il est important de baliser ou non, être en mesure de définir les outils complémentaires les plus efficaces. On trouvera la présentation détaillée de ces exigences méthodologiques dans les travaux de T.R. Wooldridge sur Nicot et des exemples de ce travail avec les derniers articles donnés à propos de la préparation de l'informatisation du DEOLF de Ménage [4] et de la première édition du DAF [5].

On opposera donc le balisage minimal formel tel qu'il a été mis en œuvre par T. R. Wooldridge sur WordCruncher pour les dictionnaires de la série Estienne-Nicot, puis pour la première édition du DAF, au balisage fin, analytique textuel, tel que je l'ai proposé, lors de mes premières réflexions pour l'informatisation du DEOLF de Ménage en 1993, puis surtout en 1994 et en 1996 [6], ou au balisage analytique formalisé, à savoir le balisage TEI dont Chantal Wionet nous parlera sans doute à propos du Basnage.

2.2. Balisage formel / balisage analytique

2.2.1. Objectivité formelle / subjectivité interprétative

Alors que le balisage formel rend compte en toute objectivité de l'ensemble du texte, quelles que soient sa forme, son organisation, sa signification, le balisage fin implique toujours l'intervention d'un lecteur créateur/auteur d'une interprétation qui est destinée à enrichir la consultation du texte codifié. On le perçoit d'emblée, le choix de balisage appréciatif peut être motivé par le statut plus ou moins complexe du discours dictionnairique considéré. De fait, la conscience linguistique des écarts entre forme et signification, l'appréciation de discours ambigus, de significations implicites, de références incomplètes peut conduire à préférer un balisage analytique qui clarifie le texte du dictionnaire pour un consultant non averti.

A la lumière de plusieurs exemples qui seront en partie développés, je vais démontrer trois idées forces, trois perspectives de réflexion :

- dans quelle mesure le balisage formel minimal répond au maximum d'exigences par rapport aux interrogations envisageables sur une base de données de dictionnaires anciens,

- dans quelle mesure la définition d'outils complémentaires tels que les listes de mots-clés ou la définition de séquences-clés métalinguistiques permet d'obtenir de meilleurs résultats,

- pourquoi sur des corpus discursifs ambigus tels que le sont nos dictionnaires anciens le balisage analytique paraît, à la fois très lourd à mettre en œuvre et est peu opératoire en pré-édition électronique par comparaison avec d'autres solutions, ce qui implique la définition d'outils associés complémentaires.

2.2.2. Un premier exemple significatif sur le contenu du texte dictionnairique : le latin dans un dictionnaire d'expression française

Si je choisis, à titre de premier exemple, une recherche concernant les occurrences de mots latins ou du mot latin dans les dictionnaires d'expression française, c'est par rapport aux difficultés engendrées par cette sorte d'interrogation et par rapport aux perspectives implicites qu'elle entraîne, l'appartenance linguistique des formes utilisées n'étant pas toujours précisée.

2.2.2.1. Partons des dictionnaires de Nicot et Ménage où le statut des formes latines est particulièrement complexe, tout comme dans bien d'autres dictionnaires anciens (cf. aussi Trévoux) : dans ces deux dictionnaires, les formes latines, qui ne sont pas toujours identifiées comme telles, les auteurs considérant sans doute qu'elles étaient implicitement reconnaissables par tout lecteur de leur temps, jouent un rôle important et se trouvent parfois dans des formulations correspondant à plusieurs champs informationnels associés, souvent de façon ambiguë au point qu'on n'est pas toujours en mesure de trancher entre le discours étymologique et le discours définitoire; le latin, dont on ne peut absolument pas codifier la distribution, peut fonctionner comme simple traduction de l'adresse, permet des jeux de synonymie interlinguistique au même titre que les anciennes gloses, offre une traduction définitoire ou une traduction étymologisante, est parfois superposable à l'étymon, etc...

2.2.2.2. T. R. Wooldridge, qui avait tenté d'ajouter à une première version électronique du Thresor des balises d'identité linguistique, a dû renoncer à cet enrichissement de la base de données à cause des trop nombreux cas difficiles impliquant une interprétation subjective : si, par exemple le cas des formes abrégées masc. pouvant correspondre aussi bien aux formes pleines des marques formulées en latin, masculinus, ou en français, masculin, paraît sans grandes conséquences sur le plan linguistique, il n'en est pas de même pour le cas d'un discours portant d'abord sur une forme latine donnée comme étymon, puis évoluant vers d'autres perspectives, par exemple dans le cas des échelles (cf. infra, note 7), phénomème interlinguistique qu'on retrouve, par exemple, dans le DEOLF de Ménage .

2.2.2.3. Pour les premiers échantillons de saisie du texte de Ménage, j'avais commencé par procéder à l'ajout systématique de la simple marque d'identité linguistique d'une forme par une balise du type [lat.], [gr.], [it.], [esp.], [heb.] avec l'objectif de pouvoir ainsi repérer automatiquement toutes les occurrences d'un même domaine linguistique; laissons de côté pour le moment l'insatisfaction de neutraliser sous la seule balise [lat.] l'identité réelle des formes appartenant aux différentes périodes de la latinité jusqu'au latin médiéval; certes, ces balises pour le grec, assez aisées à mettre en œuvre, ont pu, d'un point de vue pragmatique, me permettre de faire sur mes échantillons de saisie une relecture systématique des formes données comme étymons, mais pour les formes inscrites dans l'interlinguisme roman, latin, italien et espagnol notamment, je me suis heurtée aux mêmes difficultés que celles rencontrées par T.R.Wooldridge pour Nicot : les exemples en sont nombreux [
7]. Sur un autre plan, celui du statut et de la valeur des formes, j'ai rapidement compris à la fois l'ampleur de l'entreprise, sa difficulté de mise en œuvre et le poids de la subjectivité afférente : même si en tant que spécialiste, averti des ambiguïtés discursives du texte considéré, on est tenté de vouloir faire profiter tout consultant d'une base des acquis d'études approfondies, a-t-on pour autant le droit d'imposer son interprétation, sachant que la plupart du temps, il faudrait pouvoir démontrer explicitement les raisons de son choix ? De ce fait, la solution de notes critiques regroupées dans une base hypertextuelle associée paraît plus propre à respecter la liberté du lecteur / consultant, à permettre une plus grande souplesse d'intervention du spécialiste, dès lors que les notes peuvent être élaborées, sous forme de fichiers libres, sans contrainte de temps, et contribuer à construire petit à petit l'équivalent d'une édition critique commentée. Ne vaut-il pas mieux alors pouvoir mettre à la disposition des chercheurs intéressés un texte "nu" qu'ils peuvent interpréter librement, plutôt que de les faire attendre des années avant de leur livrer un texte enrichi d'un balisage analytique complexe, lourd à mettre en œuvre et risquant toujours d'être sujet à caution du seul fait des risques de divergences d'interprétations ?

2.2.2.4. Contrairement à ce qu'on pourrait penser à première vue, une interrogation sur le latin n'est pas dénuée de pertinence même pour la première édition du DAF où se trouvent des formes latines et l'emploi des mots latin (-s), latine (-s). S'il est vrai que le balisage formel ne peut permettre l'accès aux mots latins eux-mêmes, puisqu'ils ne sont pas balisés en tant que tels, en revanche on obtient des résultats intéressants par le biais d'une recherche sur le seul mot-clé, métalinguistique ou non, latin sous toutes ses formes (latin : 112 occurrences + latins : 32 et latine: 38 ) : le total de 182 occurrences dans l'ensemble du DAF permet de donner une sorte de fiche synthétique sur la place accordée au latin dans ce dictionnaire qui refusait officiellement tout discours impliquant la diachronie. Ces occurrences correspondent aux différents statuts du mot latin selon les emplois suivants :

=> pris dans les exemples comme adjectif ("Bible latine", s.v. BIBLE) ou comme nom ("il sçait desja le Latin. C'est beaucoup pour son âge", s.v. BEAUCOUP;

=> utilisé dans des exemples avec plusieurs niveaux de discours, limité à la simple exemplification de l'adresse s.v. ALPHABET : "... alphabet Grec, Latin..." enrichi, car informatif, comme s.v. AORISTE: "la langue Latine n'a point d'Aoriste" ou s.v. LANGUE: "... la Langue Italienne est derivée de la Latine..."

=> utilisé dans des définitions avec une valeur ambiguë, ouverte vers l'implicite étymologique : ainsi, s.v. AUSTRAL : "... qui est du costé du midy, du costé que souffle le vent que les Latins appellent Auster. Terre Australe. Les parties australes du Zodiaque."; on soulignera ici la double valeur de l'italique pour Auster : du point de vue purement formel, Auster est intégré à la série d'exemples mais, du point de vue sémiotique et fonctionnel, l'italique est aussi justifiée par la citation d'un mot appartenant à un autre domaine linguistique en vertu de la logique syntaxique du contexte de sa mention (polysémie qui complique les modalités d'utilisation d'un balisage formel pour le non-spécialiste et qui impose du même coup la rédaction d'un minimum de notes d'utilisation ou d'avertissement de la part des créateurs de bases de données).

=> utilisé comme marque d'identité linguistique d'un mot latin,

- mentionné pour lui-même à titre d'exemple, comme s.v. EQUESTRE à propos de la prononciation : "La deuxiesme syllabe se prononce comme la dernière d'Eques en Latin." (on note évidemment le statut étymologique non marqué, peut-être détourné, de la forme latine donnée comme simple exemple de prononciation)

- emprunté tel que par le français s.v. AB HOC ET AB HAC "Mots empruntez du latin", s.v. BIS "Est aussi un mot pris du Latin, dont on se sert, & particulierement en fait de chanson...", ou s.v. DECORUM "Terme purement Latin, qui n'a d'usage qu'en cette phrase. Garder le decorum, Qui...".

- marque d'un discours priviligiant l'étymologie, comme s.v. G ou H à propos des mots qui viennent du latin sans que des formes latines soient citées.

Il ressort de ce bref aperçu que le balisage formel minimal donnant accès à tous les mots de texte suffit à offrir un corpus de travail pertinent, dès lors qu'on accepte les deux grandes caractéristiques du travail assisté par ordinateur que sont le flou et le bruit et sachant que jamais l'ordinateur, qui permet la lecture verticale, ne pourra remplacer la consultation directe des textes ni se substituer à la lecture traditionnelle, ce qui sera renforcé par l'exemple suivant.

2.2.2.5. Cependant, pour les dictionnaires généraux de langue française, si l'exemple du DAF (1694) est pertinent (on appréciera en outre, à titre indicatif, les articles consacrés par Richelet, Académie 1694 et Trévoux à l'expression AB HOC ET AB HAC empruntée par le français au latin – voir Annexe 1), reste le problème des formes latines présentes dans le DEOLF de Ménage (cf. le latin traduction définitoire, le latin définitoire et étymologisant, etc...) et surtout dans le DUFLT (1721) qui s'inscrivent dans la lignée du Thresor. Ainsi, pour la simple traduction tirant plus ou moins sur la glose et pour les étymons. Une analyse systématique du statut métalexicographique du latin dans les dictionnaires universels resterait à faire, ne serait-ce que pour confirmer qu'au sein des grandes familles de dictionnaires, chaque texte exige une réflexion propre sur les modalités d'informatisation.

2.2.3. Un second exemple sur le métalangage dictionnairique

La question délicate des outils complémentaires d'interrogation de bases de données.

2.2.3.1. T. R. Wooldridge a proposé, il y a déjà longtemps pour le Thresor de Nicot informatisé, la mise en œuvre de listes de mots-clés métalinguistiques [
8], à la fois pour neutraliser le flou associé au bruit et pour optimiser les résultats d'interrogation dans les textes dont les champs informationnels sont peu structurés.

De fait, ces mots-clés facilitent l'exploitation des bases de données, du seul fait qu'ils complètent à leur façon le balisage formel et fonctionnent selon le même principe de recherche d'occurrences. J'ai pu cependant vérifier la nécessité d'enrichir cet outil d'un point de vue paradigmatique et syntagmatique, en particulier pour les recherches thématiques et techniques, recherches communes aux quatre dictionnaires de notre corpus de référence. Dans la continuité de mon propos précédent, je renvoie donc, pour l'ensemble, aux cas déjà traités dans des articles publiés (cf. bibliographie générale), me contentant ici de donner un bref récapitulatif concernant les deux exemples techniques de la recherche de discours grammaticaux et étymologiques dans le DAF et les exemples thématiques du vocabulaire de la marine et des parlers régionaux [9].

2.2.3.2. Ainsi, pour la première édition du DAF, j'ai montré que, outre le marquage parfois aléatoire de la catégorie grammaticale [10], il faut tenir compte aussi des formulations propres à une époque donnée: de fait, pour la seule grammaire, si l'on ne pense pas à rechercher les "parties d'oraison" qui sont une des marques permettant d'accéder au discours grammatical, on perd une partie importante des informations, sans compter que bon nombre de mots concernant la grammaire ne sont pas marqués comme tels, ce qui implique la mise en œuvre de moyens complémentaires d'interrogations d'une base de données balisée formellement : si l'on peut envisager des listes d'adresses concernant un domaine (comme les listes ajoutées dans l'édition en reprint du Furetière sous la direction d'A. Rey), en termes pragmatiques de temps investi pour une efficacité maximale, l'ajout d'un balisage des catégories non marquées pourrait être plus pertinent, plus utile, mais encore assez lourd, parfois même délicat, à mettre en œuvre.

Pour la recherche des discours étymologiques cachés dans le DAF, le mot-clé métalinguistique n'est pas étymologie, ni même étymologique, mais origine, et l'importance du bruit afférent à ce terme exige la définition de séquences-clés métalinguistiques suivant le domaine linguistique de l'origine (grec, latin, italien, espagnol...) et le verbe opérateur de la recherche étymologique (marquer, tirer, emprunter) [11], sachant que les réponses obtenues ne seront jamais exhaustives dès lors que, même si l'on effectue une recherche plus complexe avec les séquences du genre terme / mot + latin / grec, se posera la question délicate d'appréciation du statut du mot dans le discours, de l'identité simple du mot dans le processus d'emprunt linguistique, les modalités d'expression comme "terme purement latin", "terme pris/emprunté/corrompu, transporté du latin".

Comment être certain de ne pas trouver d'autres champs de discours étymologiques ? Par exemple, en menant une simple interrogation sur les mot arabe(-s) et hébreu(-x) dans le cadre d'une recherche en cours, ai-je trouvé une occurrence mentionnant un emprunt du français à l'arabe, sv. NADIR : "Terme d'Astronomie pris des Arabes". Si, lors de ma précédente recherche sur les modalités de repérage des informations dispersées ou cachées dans le DAF, j'avais accepté l'idée d'interroger systématiquement la base Académie sur l'ensemble des occurrences de "pris de", dont le bruit est en partie neutralisé par l'association de la palette des langues susceptibles d'intéresser l'étymologie, donc sans me limiter aux langues romanes, j'aurais eu accès à cette occurrence unique.

2.2.3.3. Marques de domaine ou marques techniques ? Avec les exemples de recherches thématiques se pose la question terminologique opposant deux catégories de marques d'usages, les marques de domaines et celles plus proprement techniques, par rapport à la distinction fondamentale entre langue commune et langue de spécialité; les frontières sont particulièrement délicates à définir, même si l'on tient compte des différentes catégories de dictionnaires, DGL, DTU ou DU, sachant qu'en toute logique, si la marque d'usage technique devient caduque dans le dictionnaire de spécialité limité à un seul domaine (cf. les dictionnaires de Guillet et Desroches pour le vocabulaire technique de la marine à voiles au XVIIe siècle), elle peut être très ambiguë dans un dictionnaire universel qui associe dans sa nomenclature les mots de la langue commune et des termes techniques : ainsi, les dictionnaires de Furetière et de Trévoux où une même formule métalinguistique aura le statut de simple marque de domaine ou de marque d'usage technique selon l'identité du mot considéré et la typologie du discours qui lui sera consacré.

Quelques précisions s'imposent ici, quitte à enfoncer des portes ouvertes : la qualité d'une marque d'usage qualifiée si souvent de "technique", mais que je préfère, dans un premier temps qualifier de "marque de domaine", s'appréciera différemment dans les dictionnaires anciens : ainsi, je choisirai plutôt la notion de "marque de domaine" pour le DAF qui est un dictionnaire général de langue et non pas un dictionnaire technique, réservant la notion de marque technique plutôt pour les DU, comme le DArS ou le DUFLT qui associent plusieurs "domaines" différents, sachant que reste la difficulté de choix terminologique pour les dictionnaires de Richelet et de Furetière [12] : alors que pour le premier les marques de domaine paraissent plus satisfaisantes, puisqu'il est plutôt orienté vers la langue commune, ne serait-ce que par le choix de sa nomenclature (cf. sa page de titre) et sa façon de vulgariser les discours empruntés aux auteurs de dictionnaires techniques (cf. pour le vocabulaire de la marine, l'exploitation qu'il fait des textes de Guillet pour ses exemples), en revanche pour le second, plus ouvert aux considérations techniques préencyclopédiques, la dénomination de marques techniques peut être plus satisfaisante. Mais, dans le DUFLT ouvert à une nomenclature encore plus diversifiée, quels critères retenir pour justifier la distinction terminologique ? Ce seraient sans doute la prise en compte du discours définitoire, vulgarisateur ou non, et surtout la comparaison avec les traités spécialisés qui pourraient alors servir de critères d'appréciation des propriétés d'une partie de la nomenclature comme limitée dans les usages linguistiques, puisque spécialisée, technique. Il resterait à définir les critères permettant d'apprécier la conscience linguistique des lexicographes dans leurs choix de marquages techniques ou thématiques. Là encore, le critère de l'intertextualité, en particulier avec les traités techniques spécialisés susceptibles d'avoir servi de source première, est alors précieux, car sans doute le plus fiable.

D'autre part, il faut souligner que les marques ne s'apprécieront pas non plus seulement en fonction de la famille de dictionnaire considérée, mais du seul fait du caractère assez aléatoire de leur présence ou absence : que faut-il alors prendre en compte pour le balisage, sachant que le simple balisage formel objectif ne pourra pas signaler les absences de marques ? Dans quelle mesure ces absences sont-elles interprétables comme indices de neutralité implicitement formalisée renvoyant à la langue commune, comme c'est par exemple le cas pour le vocabulaire de la maison traité dans le DAF [13] ? Dans quelle mesure peut-on envisager un balisage signalant l'absence de marque et éventuellement complété par une indication de domaine susceptible de faciliter les recherches thématiques ? Si ce genre d'ajout paraît pertinent dans des dictionnaires tels que le DU de Furetière ou le DArS de Corneille ou même le DEOLF de Ménage, il peut sembler superflu dans le DAF surtout si l'on retient conjointement la solution des mots-clés thématiques (cf. notre proposition présentée en 1998 à Bruxelles à propos du vocabulaire de la marine : étude signalée supra, note 9).

Enfin, sachant que les limites de l'appartenance de certains termes à la langue commune ou à la langue technique sont elles-mêmes difficiles à apprécier, a-t-on les moyens d'analyser le statut d'une même marque selon qu'elle s'applique à un mot considéré comme banal pour la langue commune ou à un terme plus technique (cf. Annexe 2, le cas significatif du binome aborder / abordage) ? Faut-il alors, au risque de limiter la liberté de lecture du consultant, prendre le soin de préciser la nature de la marque selon qu'elle ouvre largement à un domaine ou limite l'usage à des emplois techniques ? Ainsi, si l'appartenance conjointe à la langue commune et à la terminologique linguistique de termes du domaine de la grammaire tels que verbe, adjectif, particules ne fait pas de doute, que penser cependant du terme aoriste banal dans la terminologie grammaticale grecque et traité dans le DAF par rapport à la terminologie grammaticale française ? Que penser des différentes catégories de vers antiques définies dans le DAF et marquées comme relevant du domaine de la poétique ? Pour le vocabulaire de la marine, les exemples de navire par opposition à paquefic et du binome aborder / abordage me paraissent significatifs par la seule comparaison des différents traitrements de ces mots dans un DGL ou dans un DU (cf. Annexe 2) : outre un certain travail de vulgarisation par simplification des définitions, du DTS (Guillet) au DGL (Académie), via le DU (Furetière/Richelet) ou le DTU (Corneille), on perçoit le caractère incomplet d'une définition dans un DGL du seul fait qu'elle oblitère une partie des conditions réelles d'emploi, édulcore en quelque sorte l'identité du mot (ainsi, cf. pour Académie : abordage par rapport à Guillet). Simple processus de vulgarisation ? Trahison sémantique propre à la récupération par la langue commune de termes fondamentalement techniques ?

2.2.3.4. Dans les différents cas, il apparaît que l'utilisation de listes de mots-clés ne répond pas suffisamment aux exigences d'interrogation des bases, dès lors que les principes rédactionnels des dictionnaires anciens ne sont pas systématiques, qu'ils s'agisse de la question du marquage métalinguistique des mots étudiés ou de l'organisation récurrente des champs informationnels [14]. Les réflexions menées à propos du corpus du DAF seraient tout aussi pertinentes pour les autres dictionnaires du corpus de référence [15]. Soulignons simplement ici qu'il est illusoire de croire que les seuls mots-clés métalinguistiques de marques d'usage technique ou de marques d'usage de domaines, même complétés par les mots-clés thématiques, permettront d'accéder dans le DEOLF de Ménage ou dans le DUFLT (Trévoux) comme dans le DAF et dans le DArS de Corneille à l'ensemble d'une nomenclature concernant un domaine particulier, technique (comme celui de la marine) ou non (comme celui de la vie quotidienne), dès lors que certaines entrées ne sont pas marquées comme appartenant à ce domaine et que l'exploitation de listes de mots-clés de domaine est à la fois lourde à mettre en œuvre et sans garantie d'efficacité absolue. Peut-on pour autant aller jusqu'à proposer un balisage partiellement fin, pré-analytique, destiné à marquer ce qui ne l'est pas explicitement dans les dictionnaires anciens, en particulier pour le repérage de la nomenclature de référence à défaut de celle qui est susceptible d'être cachée ? Par exemple, pour les termes de marine traités dans le DArS sans qu'aucune marque d'usage permette d'en faire un relevé automatique via l'interrogation par un mot-clé métalinguistique ou thématique ? De même dans le DEOLF où Ménage prend rarement le soin de marquer les catégories du discours ou l'appartenance spécifique des mots traités à un domaine (cf. nos relevés manuels des termes de botanique et des termes de marine).

Cela confirme encore la nécessité de définir, outre les listes de mots-clés métalinguistiques, outre les listes de séquences-clés métalinguistiques, outre les listes de mots-clés des domaines faisant l'objet des recherches, d'autres outils associés, en l'occurrence des notes critiques, surtout quand l'objet des recherches rend inefficace tout mot-clé [16].

2.2.4. Les difficultés propres aux corpus discursifs polyphoniques

Les difficultés propres aux corpus discursifs polyphoniques imposent une réflexion particulière concernant le balisage des versions électroniques des dictionnaires anciens concernés. J'ai déjà évoqué, dans plusieurs de mes travaux sur Ménage, le jeu de polyphonie énonciative présent dans le DEOLF; cet aspect, observable également dans le Dictionnaire Universel de Furetière, est tout aussi manifeste dans le DUFLT du seul fait de l'importance des discours empruntés.

Il me paraît donc important de montrer pourquoi, sur des corpus discursifs ambigus tels que le sont nos dictionnaires anciens, la plupart du temps sans structure récurrente permettant d'établir une typologie d'organisation des articles, le balisage analytique, si intéressant soit-il dans l'absolu, paraît très lourd à mettre en œuvre tout en restant relativement peu opératoire en pré-édition électronique par comparaison avec les autres solutions envisageables, ce qui nous conduira, sans doute tous, à définir de toute façon des outils associés complémentaires installés dans des bases hypertextuelles associées aux bases dictionnairiques.

2.2.4.1. Le DEOLF de Ménage : texte discursif riche d'ambiguïtés

A l'occasion de mes premières réflexions sur l'informatisation du DEOLF (Toronto, 1993), le travail initial de mise en évidence des critères formels fut si complexe que j'ai d'emblée été conduite à réfléchir à un balisage fin (cf. mes propositions de fiches pré-analytiques à propos des articles consacrés aux phytonymes, exemples dans les travaux signalés en n. 17) : de fait, mes premières études sur les fonctionnements explicites et implicites des discours dans le DEOLF m'ont conduite à privilégier la dimension analytique d'un balisage guidé, imposé à la fois par mes propres recherches [17] et par ma connaissance du texte ou des habitudes d'écriture de Ménage (ainsi les valeurs implicites de l'imparfait dans certains contextes ou la réalité référentielle de certains emplois de l'indéfini on). Ainsi, pour reprendre l'exemple du latin dans le DEOLF de Ménage, on retrouve les difficultés présentes dans le Thresor de Nicot, mais on est en outre confronté à celles qu'offre l'interprétation de Ménage par rapport aux formes latines données par Nicot: des formes données par Nicot comme de simples traductions prennent par l'intermédiaire de Ménage le statut d'étymons soumis à la critique de l'étymologiste.

Parmi toutes les sortes d'interrogations que l'on peut mener dans le DEOLF, je ne développerai pas ici la question des marques de la nomenclature permettant d'isoler les termes d'un domaine [18] ou de rechercher les formes propres aux parlers régionaux [19], puisque Ménage ne pratique que très rarement les marques d'usage (cf. mon étude sur les phytonymes, Blois 1995) et utilise en général une métalangue très limitée, relativement pauvre et souvent ambiguë. Je préfère retenir aujourd'hui la question fondamentale du repérage automatique des sources : l'exemple des formules métalinguistiques utilisées pour les références à des textes sources imprimés ou manuscrits est significatif car on y trouve l'essentiel des difficultés qu'impose une réflexion sur le balisage des sources dans le DEOLF, qu'elles soient accompagnées ou non de citations.

2.2.4.2. Difficultés inhérentes aux références bibliographiques

La richesse parfois impressionnante des références à des textes imprimés ne doit pas en masquer les difficultés d'étude : malgré la diversité des sources nommées, il faut prendre en compte les sources cachées [20] et, à cet égard, il serait illusoire de croire que l'on pourra connaître un jour l'ensemble des sources non nommées d'un dictionnaire tel que le DEOLF; par ailleurs, pour une bonne part, certaines sources ne sont pas toujours identifiables comme relevant de l'écrit ou de l'oral. Un simple aperçu sur le modèle de fiche (Annexe 3) avec la légende de ce qu'il faudrait pouvoir coder, suffit à comprendre la complexité du balisage susceptible d'être mis en oeuvre dans l'absolu, qu'il s'agisse,

- pour l'identification des auteurs cités, des formes de l'occurrence du nom d'auteur dans le texte (différentes graphies du nom propre, auteurs associés dans une même série de références, difficultés de certains renvois, des références plus ou moins complètes, etc...),

- pour l'identification des sources nommées, de la nature de la référence à l'écrit (imprimé ou manuscrit) ou à l'oral (noms propres associés ou vagues souvenirs autobiographiques),

- pour l'appréciation scientifique des sources nommées, du statut de source de première ou de seconde main en fonction des détails de références bibliographiques fournis pour les imprimés, éventuellement repérable par l'analyse comparée des textes ou par comparaison avec l'inventaire de la bibliothèque de Ménage (édition en préparation).

Nous avons déjà signalé [21] qu'il était pertinent de mener deux principaux types d'interrogation des bases échantillons Ménage : les interrogations ciblées avec la simple recherche sur les noms d'auteurs ou les titres d'ouvrages susceptibles d'être mentionnés, ce qui impose la création préalable de listes avec le risque de ne pas répondre à l'exigence absolue d'exhaustivité, et les interrogations plus larges grâce à l'utilisation de mots-clés ou séquences-clés métalinguistiques marquant les sources, ce qui impose de résoudre tous les cas d'ambiguïté fonctionnelle en raison des formes polysémiques. C'est grâce à des séquences-clés métalinguistiques, prédéfinies selon une analyse des différents contextes d'occurrences des formes, que nous pouvons obtenir des résultats fiables d'interrogation sur ordinateur en limitant les risques d'erreurs dues à la polysémie des termes copules : ainsi l'ambivalence de mots-clés métalinguistiques tels que dire [22] ou prendre fonctionnant pour les sources et pour l'étymologie peut-elle se résoudre, à quelques rares exceptions près, par le contexte selon la définition préalable de séquences-clés : "prendre de + nom propre" "prendre de + formes appartenant aux catégories du discours dans les différentes langues susceptibles de fournir des étymons". Loin de remettre en cause la pertinence de la notion même de mot-clé pour toutes les situations sans équivoque dont on peut prévoir les différentes typologies mais dont l'utilisation nécessite des précautions [23], je préfère introduire pour les dictionnaires de Ménage (pour l'italien et le français) la notion de séquence-clé métalinguistique à côté de celle de mot, du seul fait du caractère imprévisible et irrégulier des modalités discursives de ce genre de texte, dont l'expression est souvent si spontanée (cf. l'omniprésence de l'auteur bien identifiable comme instance énonciatrice) : la multiplicité des variantes, qu'il s'agisse des temps des verbes, de la nature des formes fonctionnant comme sujet ou complément, des modalisateurs, etc..., correspond à des fonctions spécifiques (copule exemplificatrice, copule étymologisante, copule d'exégèse critique, etc…), oriente le rôle sémiotique du mot/séquence et il appartient au balisage d'être en mesure de guider l'utilisateur; on n'échappe donc pas à l'interprétation et le travail risque d'être infini, mais nécessaire malgré les risques d'imperfection. Reste le monde du non-dit, des références absentes : que baliser sinon l'incomplétude du discours [24] ?

2.2.4.3. Du DEOLF au DUFL de Trévoux : entre deux balisages

Si l'on passe du DEOLF au DUFLT de Trévoux, on constate que le dictionnaire de Trévoux, n'étant plus l'oeuvre d'un seul auteur, échappe aux difficultés d'énonciation d'une certaine catégorie de sources, tout en ayant l'air de systématiser l'usage de références codées, dès lors que l'ajoût d'une "Table des auteurs" autorise l'usage de références abrégées; or, cette liste même réduit la qualité des références puisque ne figurent plus toujours tous les moindres détails bibliographiques attendus (page, chapitre) et que la table elle-même ne permet pas d'identifier les éditions utilisées (sauf dans les rares cas de chronologie relative autorisant la logique de déduction), ce qui ne facilitera pas la tache de l'analyste scrupuleux. D'autre part, dans le DUFLT, il n'est pas toujours aisé de faire la différence entre citation effective et récupération de discours : comme l'habitude des rédacteurs du dictionnaire de Trévoux consiste à placer la mention, le plus souvent abrégée, du nom d'auteur à la fin de la citation ou du paragraphe faisant l'objet de la référence, le lecteur n'est pas toujours en mesure de percevoir les limites des différents plans discursifs : nos deux exemples (Annexe 2) du traitement des mots ABOILAGE et NAVIERE illustrent bien la problématique limite des discours, même dans le cas de sources nommées, et l'imprécision du système de références du Trévoux pour l'appréciation d'une récupération partielle ou totale du discours référencé.

Que baliser dans ces conditions ?

Quels compromis accepter entre un idéal métalexicographique de clarification des discours convertis en bases de données et l'ampleur démesurée d'un travail d'analyses, de vérifications et de confrontations toujours soumis aux aléas de l'erreur humaine et de toute façon irréalisable à l'échelle individuelle ?

L'intérêt d'un compromis entre balisage minimal et balisage fin s'impose donc encore.

Entre le DEOLF et le DUFLT, une dernière remarque est nécessaire concernant le balisage des sources dans le DArS, Corneille ne mentionnant que très peu ses sources, de façon vague, limitée la plupart du temps au seul nom d'auteur, les rares références données imposant un minimum d'exégèse par rapport à la filiation des sources. Nous en avons relevé de nombreux exemples pour le vocabulaire de la marine. Dans ce cas, comment baliser efficacement le silence des sources non nommées, le non-dit des sources récupérées via Richelet, Furetière ou Ménage ? Comment baliser une citation non marquée ou partiellement récupérée avec des modifications mineures qui ne trompent pas le lecteur averti ? Dans le cas d'un tel dictionnaire où la proportion des sources nommées est très faible, ne vaut-il pas mieux que chaque chercheur intéressé par un domaine s'attache à donner, sous forme de note hypertextuelle associée, une analyse de synthèse des sources, à tout le moins des pistes susceptibles de guider un lecteur non averti de l'implicite du non-dit dans certains discours ? Il serait, en effet, totalement utopique et en partie vain ici de prétendre élaborer des listes de noms d'auteurs...

[Suite] – [Table]


Notes

4. Cf. Leroy-Turcan 1994.

5. Cf. Wooldridge & Leroy-Turcan 1997.

6. Cf. Leroy-Turcan 1994. Cf. participation en 1994 au Séminaire du 14 décembre 1994 organisé par L. Pasques, HESO, Histoire de la langue et structure de l'orthographe, dialectologie dont le texte a été repris et enrichi dans Leroy-Turcan 1996.

7. Cf. Leroy-Turcan 1993a et 1993b.

8. Cf. Wooldridge 1993.

9. Cf. Leroy-Turcan 1999 et 1998b.

10. Cf. Leroy-Turcan 1998a.

11. Cf. Leroy-Turcan 1999.

12. Cf. Rey 1990.

13. Cf. notre étude proposée au 7ème colloque international de dialectologie et de littérature du domaine d'Oïl occidental de Caen en mars 1999 : «Place accordée au lexique de la maison dans le vocabulaire de la vie quotidienne rurale étudié par quatre dictionnaires du XVIIe siècle : Furetière (1690), Académie (1694), Corneille (1694), Ménage (1694)» à paraître dans les Actes.

14. Cf. Wooldridge & Leroy-Turcan 1996.

15. Des analyses systématiques sont en cours.

16. Comme c'est par exemple le cas pour une recherche sur les étymons latins présents dans un dictionnaire de synchronie tel que le DAF!

17. Cf. mes premiers essais pour le vocabulaire des plantes, exempliers proposés dans mon texte rédigé à partir de ma participation au séminaire de l'HESO du 14 décembre 1994 organisé par L. Pasques, HESO, Ivry-sur-Seine : le texte de ma communication a été repris et enrichi dans Leroy-Turcan 1996.

18. Ce qui a déjà été fait en partie à l'occasion de plusieurs travaux.

19. Pour ce vaste ensemble, il apparaît que les mots-clés métalinguistiques province(-s), région(-s) ou ville(-s) ne sont pas opératoires et que ce sont les noms propres des régions concernées qui constituent l'outil le plus fiable (étude de synthèse en préparation).

20. Cf. Wooldridge 1995.

21. Dans notre contribution aux mélanges offerts à M. Höfler : «Les sources de G. Ménage comparatiste des langues romanes : de l'oral à l'écrit, du manuscrit à l'imprimé. Un aperçu de sa bibliothèque» in Traliphi, XXXVII, 1999, pp. 91-108.

22. L'exemple de dire comme verbe copule polysémique est particulièrement significatif : il fonctionne certes pour des sources écrites, sans qu'on puisse exclure les sources orales, mais aussi comme copule exemplificatrice dans la fameuse formule héritée du traditionnel quasi dicitur «Comme quand on dit, ou même étymologique, notamment dans la formule «ainsi dit de».

23. Par exemple pour une partie des mots-clés métalinguistiques indicateurs de sources employés dans des conditions syntaxiques qu'il faut définir, selon que le sujet du verbe-clé métalinguistique est un simple mot ou un nom propre et selon la qualité des complémentations : écrire, dériver, confirmer, interpréter, etc…

24. Nous avons par exemple déjà signalé (n. 21 op. cit.) la difficulté du flou bibliographique pour l'appréciation des indices textuels permettant de définir le statut de certaines références (imprimé ou manuscrit ?)