Les Mots-clés métalinguistiques comme outil d'interrogation structurante des dictionnaires anciens

Russon Wooldridge & Isabelle Leroy-Turcan

University of Toronto & Université de Lyon III

(Parution imprimée in Lexicomatique et dictionnairiques (éd. A. Clas, P. Thoiron & H. Béjoin), Beyrouth: FMA & Montréal: AUPELF-UREF, 1996, pp. 307-16.)


Abstract

The structure of early dictionaries, such as Nicot's Thresor, Ménage's Dictionnaire étymologique or the Dictionnaire de l'Académie française, is not sufficiently clear or recurrent to permit the objective and systematic tagging of information fields. Indexes of the key words of the dictionary's metalinguistic discourse give the reader access to a large number of the occurrences of the information fields without the text being distorted by arbitrary tagging.

KEY WORDS
Early dictionaries, Fuzzy structures, Metalinguistic keywords, Information fields, Nicot, Ménage, Académie française


    Introduction
    1. Vedettes et sous-vedettes
    2. Caractère d'imprimerie et champs informationnels
    3. Mots-clés métalinguistiques dans Académie
    4. Les variations fonctionnelles des mots métalinguistiques selon les genres de dictionnaires
    Conclusion
    Références


© 1996 R. Wooldridge & I. Leroy-Turcan


Introduction

Les dictionnaires anciens mettent en oeuvre une pluralité de systèmes de structuration textuelle, tant pour la macrostructure que pour la microstructure. Dans le domaine de la lexicographie française générale, le cas le plus marqué à cet égard est sans doute le Thresor de la langue françoyse (= TLF) de Jean Nicot (1606), combinaison de dictionnaire monolingue, bilingue et multilingue, de dictionnaire de langue, dictionnaire encyclopédique et dictionnaire étymologique. Dans celui plus spécialisé de l'étymologie, le premier grand répertoire français, le Dictionnaire étymologique, ou Origines de la langue françoise (= DEOLF) de Gilles Ménage (1694), associe lui aussi les deux genres du dictionnaire étymologique et du dictionnaire général de langue au service d'une perspective ouverte, à visées linguistiques et encyclopédiques. Les articles individuels de ces deux ouvrages emploient différents modèles de contenu et d'articulation selon l'objet particulier de la description ou de l'analyse. Les modèles utilisés ne sont souvent qu'imparfaitement réalisés, ce qui crée un certain flou structurel, flou renforcé chez le lecteur par le caractère imprévisible des structures.[1]

Aussi la base informatique qui a été réalisée pour le TLF de Nicot -- celle du DEOLF de Ménage est en cours[2] -- ne contient-elle, comme métatexte, que des jalons indiquant la localisation, les vedettes, la typographie, la langue des unités textuelles et les alinéas. Pour donner accès aux champs informationnels -- catégorie grammaticale, définition, marque d'usage, exemple, citation, source, étymologie, etc. -- sans dénaturer le texte original et sans empiéter sur les compétences de chaque lecteur en le conditionnant dans des pistes d'orientation ou dans des interprétations particulières, il a été élaboré des listes de mots-clés métalinguistiques, lesquels réunissent sous une forme lemmatique toutes les occurrences textuelles d'un marqueur de champ informationnel. Ainsi, par exemple, le lemme FEMININ permet de retrouver dans la base Nicot tous les contextes où le lexicographe a indiqué -- par "feminin", "f.", "fem.", "foem." ou "foemin." -- le genre d'un nom ou d'un adjectif féminin.[3]

Le projet d'informatisation des huit éditions complètes du Dictionnaire de l'Académie française (1694-1935) -- projet annoncé à l'Institut de France en novembre 1994 (Wooldridge, 1994; cf. Leroy-Turcan et Wooldridge, 1995) -- rencontre le même type de flou structurel que dans Nicot et Ménage, dans une mesure moindre mais bien réelle. Le texte du Dictionnaire de l'Académie, notamment celui de la première édition de 1694, quoique présentant une microstructure apparemment plus simple et plus récurrente que celles de Nicot et de Ménage, délimite souvent mal la frontière entre langue et métalangue, mot et référent, définition et marque d'emploi, locution, collocation et exemple. Ajouter un métatexte hautement structuré risquerait ainsi de dénaturer le texte en lui imposant une perspective moderne, donc anachronique.[4]

De fait s'opposent deux orientations radicalement différentes de balisage du texte informatisé selon les relations choisies: 1) via l'analyse du spécialiste qui propose une interprétation du fonctionnement du texte, ce qui se matérialise sous la forme d'un encodage complexe (cf. le balisage fin tel qu'il a été proposé pour Ménage et dont la mise en oeuvre est complexe -- Leroy-Turcan, 1994b); 2) via des grilles de lecture destinées à compléter le balisage minimal des marques de localisation et de typographie (cf. supra et infra les éléments retenus pour le balisage minimal): les listes de mots-clés métalinguistiques. Le but de notre communication est de donner une première mesure, fondée sur des échantillons informatisés,[5] de l'efficacité des mots-clés métalinguistiques, en relation avec la position microstructurelle et les marqueurs typographiques, comme outil d'interrogation structurante du Dictionnaire de l'Académie et, par extension, des dictionnaires anciens en général. La Base Académie Échantillon comprend, pour chaque édition, les tranches ÂME, DOUAIRE à DOUZIL, GAGNER, GRAS, GROS, LOIN à LOISIR, QUE, QUEUE, TIGE à TINTOUIN, VOLER. Un jalonnage indique l'édition, la vedette, l'alinéa, le caractère d'imprimerie et la page-colonne. À l'exception de la vedette, l'identification des champs balisés se fonde objectivement sur des critères formels systématiques. La communication démontre que le balisage explicite a été adopté comme méthode de recherche des vedettes plutôt que l'interrogation de la base à partir de marqueurs typographiques (capitales et position), alors que la localisation des champs informationnels se fonde sur le caractère d'imprimerie et les mots-clés métalinguistiques.

Un concept important pour cette méthode d'interrogation est celui de la "requête floue" (Wooldridge, 1993). En gros, le flou signifie que plutôt que de dépenser un effort énorme pour obtenir 100% de ce qu'on cherche et rien de plus, on fait mieux et on obtient pratiquement les mêmes résultats en se contentant, avec beaucoup moins d'effort, d'une fourchette de 95% à 105% du total théorique, quitte à rejeter le 5% de bruit. La requête floue convient particulièrement bien comme modèle d'interrogation d'un texte à flou structurel. Si nous introduisons la notion de mot-clé métalinguistique, c'est notamment en raison du flou macrostructurel des vedettes et sous-vedettes dans Acad 1694, flou qui touche aussi la microstructure.

1. Vedettes et sous-vedettes

Le système de classement des unités de la nomenclature employé dans la première édition (1694) est différent de celui des autres (1718-1935). Dans la première édition, les mots sont regroupés en familles étymologiques, lien caduque dans Acad2-8; dans la macrostructure principale, les mots de base des différentes familles sont rangés par ordre alphabétique, tandis que les autres membres de chaque famille sont organisés suivant des principes de dépendance dérivationnelle.[6]

Les propriétés formelles des unités de la macrostructure alphabétique sont les grandes capitales et la position initiale d'alinéa. À celles-ci s'ajoutent, dans certaines éditions, le gras (Acad6-8) et un interligne précédent plus grand (Acad8). Bien que les grandes capitales s'emploient aussi dans les renvois de la première édition ("TIMPAN. Voy TYMPAN.") et que la position initiale d'alinéa puisse être occupée par des objets de toutes sortes, les deux ensemble suffisent en général à identifier toutes les vedettes et seulement des vedettes. Les rares exceptions sont à considérer comme des accidents.[7]

Le niveau secondaire de la macrostructure, celui des sous-vedettes, est plus problématique. Afin de rendre possible une comparaison du contenu de la macrostructure de la première édition avec ceux des autres, il est nécessaire d'attribuer un jalon de vedette aux items subsidiaires d'Acad1 susceptibles d'appartenir à la nomenclature alphabétique d'Acad2-8 (ex. TIMIDITÉ, INTIMIDER, TIMIDEMENT et TIMORÉ dans l'exemple donné ci-dessus, n. 4). Ces sous-vedettes ont deux propriétés formelles: petites capitales et position initiale d'alinéa; cependant ces deux propriétés sont souvent partagées par ce qui dans l'ensemble des éditions (Acad1-8), comme dans la tradition lexicographique générale, doit être considéré comme des sous-adresses fonctionnant au niveau de la microstructure. Les difficultés posées dans Acad1 par la distinction des sous-vedettes et des sous-adresses sont nombreuses.[8]

Comme les critères formels objectifs sont insuffisants pour permettre un jalonnage automatique des sous-vedettes d'Acad1,[9] une procédure raisonnable consiste à ajouter systématiquement un jalon de vedette à l'endroit de la première unité de chaque début d'alinéa en capitales, puis, dans une post- édition manuelle interprétative, à éliminer les jalons qui correspondent à une sous-adresse.

2. Caractère d'imprimerie et champs informationnels

Les deux principaux caractères d'imprimerie utilisés dans le Dictionnaire de l'Académie sont le romain et l'italique. Ils ont chacun des fonctions sémiotiques différentes, tout comme les capitales et les minuscules. Le gras ajouté aux vedettes d'Acad6-8 augmente la consultabilité du texte mais il est sémiotiquement redondant. Dans le système sémiotique de base, le romain minuscule (caractère non marqué) sert au niveau textuel fondamental du discours métalinguistique du lexicographe, lequel contient catégorie grammaticale, marque d'usage, filiation sémantique, définition et les copules articulatrices des différentes unités linguistiques et métalinguistiques de la microstructure; les capitales romaines, l'italique et le gras (caractères marqués) s'emploient pour les autonymes -- c.-à-d. les unités de l'objet de description, la langue: mots, expressions idiomatiques, cooccurrents, exemples, synonymes, etc. Mais peut-on se servir du caractère d'imprimerie, en rapport avec la position (position absolue ou relative d'un item dans la microstructure), pour rechercher les champs informationnels?

Comme on l'a vu, le romain minuscule est utilisé pour plusieurs champs informationnels: la catégorie grammaticale est normalement signalée immédiatement après la vedette ("DOUBLE. adj. de tout genre."), exceptionnellement ailleurs ("Il est aussi subst."); les marques d'usage et de qualification sémantique tendent à être non initiales dans les alinéas discursifs des premières éditions ("On dit fig. et fam. [...] une cervelle, une teste bien timbrée, mal timbrée" Acad2-5 s.v. TIMBRER), initiales dans les dernières ("Fig. et fam., Une cervelle, une tête timbrée" Acad6-8). L'italique s'emploie systématiquement dans les exemples, de façon occasionnelle à l'endroit des cooccurrents et des synonymes: "GAGNER, se joint quelquefois avec la préposition Sur" (Acad2; Acad1 "sur") vs. "SANS DOUTE, [...] se joint quelquefois avec Que" (id.; Acad1 "que"); "DOUBLON. [...] On dit aussi, Pistole" (Acad6; Acad5 "[...] que nous appelons Pistole") vs. "Ne... que peut, dans certains cas, être considéré comme entièrement synonyme de l'adverbe Seulement" (id. s.v. QUE = Acad7-8).

Le gras seul suffit pour trouver toutes les vedettes et co-vedettes d'Acad6-8 (325 séquences dans la Base Échantillon = 100% des (co-)vedettes). Les grandes capitales romaines (387) sont utilisées pour des vedettes (Acad1-5) et des co-vedettes (Acad2-5) dans 374 cas (96,64%) et pour des renvois dans 13 cas (Acad1, 3,36%). Les petites capitales romaines (790) sont hautement polysémiques: elles servent régulièrement pour les co-vedettes d'Acad1 (5 occurrences = 0,63%), les sous-vedettes et les sous-adresses d'Acad1-8 (726 = 91,90%) et les renvois d'Acad4-8 (55 = 6,96%); leur statut de caractère marqué expliquerait quatre occurrences idiosyncratiques, ou irrégulières: un synonyme ("On dit aussi DUPLICATA" Acad8 s.v. DOUBLE), un cooccurrent ("Il se joint quelquefois avec la préposition SUR" Acad8 s.v. GAGNER) et un élément d'exemple ("âme rachetée par le sang de JÉSUS-CHRIST" Acad6-7 s.v. ÂME; cf. Acad5 "[...] JÉSUS-CHRIST", Acad2-4 "[...] Jésus-Christ").

Selon la logique générale du dictionnaire, les définitions (métalangue) sont imprimées en romain, les cooccurrents, synonymes et antonymes (langue) en italique. Lorsque, comme c'est souvent le cas des adjectifs et des adverbes, la définition est un mot plutôt qu'une périphrase, la distinction entre définition et synonyme est gommée; en conséquence, l'emploi des différents caractères peut devenir aléatoire: "Il signifie aussi, Espais, et est opposé à delié, delicat" (Acad1-7 s.v. GROS), au lieu de "Il signifie aussi, Espais, et est opposé à delié, delicat" (cf. "DOUBLE [...] Il est opposé à simple" Acad1).

Il devient nécessaire alors d'avoir recours aux mots-clés métalinguistiques, tels que SIGNIFIE, SE JOINT AVEC, ON DIT AUSSI, OPPOSÉ À, etc., pour la recherche des définitions, cooccurrents, synonymes et antonymes.

3. Mots-clés métalinguistiques dans Académie

La relative régularité, à travers les huit éditions, de l'emploi du caractère d'imprimerie s'observe aussi dans la terminologie du métalangage dictionnairique. Les noms sont normalement donnés comme noms masculins ou féminins, les verbes comme verbes transitifs ou intransitifs. Les formules de présentation des expressions lexicalisées, des définitions, de l'articulation sémantique et des niveaux d'usage restent les mêmes. En l'absence de l'étymologie et de la prononciation, qui n'est donnée que dans des cas exceptionnels, le nombre des champs informationnels est relativement petit. Pour la recherche des informations, quelques termes métalinguistiques sont caractéristiques par leur efficacité.

La Liste de mots-clés est un index alphabétique qui contient les adresses dans la base des occurrences des mots-clés métalinguistiques. Les items de la Liste sont des lemmes regroupant des formes variantes textuelles; par exemple, le lemme FEMININ donne accès aux formes textuelles "f.", "fem.", "fém.", "fémin." et "féminin". La fréquence dans la Base Échantillon du mot-clé brut FEMININ est 204. 201 (98,53%) des occurrences indiquent le genre de l'unité lexicale sujet d'énoncé; dans presque tous les cas, le mot est précédé soit du mot-clé SUBSTANTIF (196), soit du mot-clé ADJECTIF (2). Un examen des six autres cas (6 sur les 8 occurrences de la forme "féminin") révèle que trois d'entre eux concernent des signes linguistiques autonymes ("GROSSE, au féminin" Acad6-7; "Au féminin" Acad8 s.v. GROS), tandis que les trois autres se réfèrent à une propriété sémantique au niveau de la métamétalangue ("On appelle en termes de Grammaire, Noms douteux, Ceux que les uns mettent au masculin, et d'autres au féminin." Acad5-7). Le mot-clé FEMININ qualifiant une unité lexicale peut alors être corrigé pour en réduire le nombre d'occurrences à 201. Il est clair cependant que le mot-clé explicite FEMININ, tel qu'il vient d'être défini, ne donne pas accès à toutes les formes féminines de la nomenclature: le féminin de l'adjectif est normalement signalé par la forme elle- même et non pas par une étiquette ("DOUX, DOUCE. adj."), tandis que les noms à genre double sont marqués négativement par une absence d'étiquette de genre. Par exemple, les 150 occurrences du mot-clé SUBSTANTIF suivi ni de MASCULIN, ni de FEMININ renferment 30 concernant le féminin:

    "TIGRE, TIGRESSE. s." (Acad1-8)

    "DOUILLET, est aussi substantif, dans la seconde acception. Faire le douillet. C'est un douillet, une douillette." (Acad6-8)

Les occurrences du mot-clé FEMININ peuvent alors être augmentées par l'ajout des adresses des formes féminines de la nomenclature non étiquetées.

Dans le cas du genre, le manque d'une étiquette explicite n'exclut pas, comme nous venons de le voir, la recherche objective des items pertinents: TIGRESSE est donné comme féminin en vertu et de sa position comme seconde de deux co- vedettes et de l'indication "s."; DOUILLETTE est donné comme nom féminin dans l'exemple "C'est une douillette.". Pour ce qui est du niveau d'usage et de la filiation sémantique, on doit se fier aux étiquettes explicites, sans lesquelles on est amené à faire une interprétation subjective du texte. On peut adopter une méthode légèrement différente pour des termes comme "aussi". Dans presque toutes ses occurrences en romain (770 sur 786 = 97,96%), "aussi" est métalinguistique; cette copule polysémique s'emploie dans des informations sur la catégorie grammaticale, le sens, la synonymie et la syntaxe. Pour la définition du mot-clé AUSSI, on a alors le choix entre la règle simple, floue mais efficace ""aussi" précédé d'un jalon de caractère romain" (f 786), la liste globale plus précise des occurrences métalinguistiques (f 770) et la création de plusieurs mots- clés AUSSI correspondant à chaque type d'information particulier (catégorie grammaticale, sens, etc.)

L'usage familier est marqué comme tel dans le texte au moyen des termes "familier", "fam.", "famil.", "familière", "familières", "familiers" ou "familièrement". Le mot-clé FAMILIER renvoie, dans la Base Échantillon, aux 319 occurrences de ces variantes. Il est important de distinguer la subjectivité de la décision du lexicographe de qualifier un item de familier -- plutôt que, par exemple, de populaire[10] ou de bas[11] -- de l'objectivité de la recherche des étiquettes textuelles.

Pour rechercher les occurrences d'usage figuré, on peut choisir soit de se limiter au mot- clé FIGURÉ (formes textuelles "fig.", "figur.", "figuré", "figurées", "figurém.", "figurément" -- f 517), soit d'y inclure ANALOGIE ("par analogie", "par une sorte d'analogie" -- f 13) et/ou PROVERBIAL ("prov.", "proverb.", "proverbe", "proverbiale", "proverbialem.", "proverbialement" -- f 275). On peut remarquer que dans 112 de ses occurrences PROVERBIAL se combine avec FAMILIER (ex. "On dit prov. et fig. Joüer à quitte ou à double, pour dire, Hazarder tout pour se tirer d'une affaire." Acad1-5 s.v. DOUBLE; cf. "[...] figurément et familièrement [...]" Acad6-7, "Voyez QUITTE" Acad8).

Si l'identification de la catégorie grammaticale, du genre et des marques d'usage est facile, celle d'autres champs informationnels, tels que la définition et l'exemple d'emploi, peut être complexe et nécessiter une interprétation subjective. Comme nous l'avons vu dans la section précédente, une condition préalable pour la définition est qu'elle soit en romain, pour l'exemple qu'il soit en italique. L'emploi de mots-clés métalinguistiques à l'endroit de ces deux types d'informations (SIGNIFIE, SE PREND POUR, COMME...) est occasionnel; aucune combinaison de caractère d'imprimerie et de mots-clés ne permet de rechercher tous les cas de définitions/exemples et uniquement les définitions/exemples. Une considération préalable à l'application de marques formelles (ou à celle de jalons dans un dictionnaire moderne dont les champs informationnels ont été systématiquement balisés) est la définition de ce qui constitue une définition ou un exemple.

La "définition" peut fonctionner en métalangue de contenu ou en métalangue de signe (Rey-Debove, 1971); elle peut traiter le mot au niveau du lexique ou du discours:

    Métalangue de contenu: "AME. s. f. Ce qui est le principe de la vie dans les choses vivantes." (Acad1)

    Métalangue de signe: "DOUBLE [...] se dit aussi des choses plus fortes, de plus grande vertu que les autres de mesme nature." (id.)

    Lexique: "ÂME [...] se dit aussi figurément de Ce qui est le principal fondement d'une chose, qui la maintient. La discipline militaire est l'âme d'une armée. La bonne foi est l'âme du commerce." (Acad8)

    Discours: "Fig., Donner de l'âme à un ouvrage, mettre de l'âme dans un ouvrage, Exprimer vivement ce qu'on y représente, y mettre beaucoup de feu, de sentiment." (id. s.v. ÂME)

Les copules explicites reliant occasionnellement l'unité lexicale (sujet) à la définition (prédicat) comprennent "signifie" (f 414),[12] "pour dire" (f 801) et "se prend pour" (f 53).
    "QUEUE, Signifie aussi, La derniere partie, les derniers rangs de quelque Corps, de quelque Compagnie" (Acad3)

    "On dit, Manger gras, faire gras, pour dire, Manger de la viande les jours que l'on devroit manger maigre." (Acad4 s.v. GRAS)

    "Il se prend plus particulierement, et d'une maniere absoluë, pour Façon d'agir douce, et éloignée de toute sorte de violence." (Acad1 s.v. DOUCEUR)

Une autre marque occasionnelle de la définition est l'explicitation du statut d'espèce (hyponyme) de l'unité lexicale par opposition au genre (hyperonyme) du terme nucléaire de la définition. Ainsi, "espece/espèce" (f 78) et "sorte" (f 86) qualifiant, par exemple, DOUBLON et LOIR de types de monnaie et d'animal respectivement:
    "DOUBLON. s. m. Espece de monnoye d'Espagne, qui est d'or, et que nous appellons Pistole." (Acad1 et cf. Acad2-5); cf. "DOUBLON. s. m. Monnaie d'or espagnole qui a différentes valeurs." (Acad6 et cf. Acad7-8)

    "LOIR. s. m. Sorte de petit animal semblable à un Rat qui vit dans le creux des arbres et qui dort durant tout l'hyver, à ce que disent les Naturalistes." (Acad1 et cf. Acad2-4); cf. "LOIR. s. m. Petit animal semblable à un rat, qui vit dans les creux des arbres, et qui dort durant tout l'hiver." (Acad5 et cf. Acad6-8)

Pour ce qui est des exemples, il n'y a aucun moyen absolu de déterminer, dans le texte du dictionnaire, la frontière entre unités lexicales et exemples, entre syntagmes lexicalisés et syntagmes libres. Dans un alinéa qui contient plusieurs séquences en italique, les items lexicalisés précèdent normalement les items libres. Dans la plupart des cas, un syntagme lexicalisé est suivi d'un traitement sémantique, alors qu'un exemple libre est donné en position finale. Dans le premier extrait suivant, la première séquence en italique est une unité lexicale suivie d'une définition, la seconde une série de trois exemples; dans le deuxième extrait, l'unique séquence en italique est une unité lexicale suivie d'une définition; dans le troisième extrait, les multiples séquences en italique sont à considérer comme collocations ou phrases exemplificatrices même si plusieurs d'entre elles sont suivies d'une définition du mot en usage.
    "On dit, Filer doux, pour dire, Demeurer dans la retenüe, dans la soumission à l'égard de quelqu'un que l'on craint, souffrir patiemment une injure. C'est un homme avec qui il faut filer doux. je le feray bien filer doux. quand il s'entendit menacer, il fila doux." (Acad1 s.v. DOUX)

    "On dit prov. Aller doucement en besogne. Et tantost il signifie, Sagement, meurement, sans rien précipiter; tantost il signifie, Laschement, mollement." (id. s.v. DOUCEMENT)

    "DOUCEMENT. adv. d'Une maniere douce. Dormir doucement. il faut marcher doucement dans la chambre d'un malade. heurtez doucement à la porte, c'est à dire avec le moins de bruit que l'on peut. Allez-y plus doucement. il faut traiter doucement les vaincus. reprendre quelqu'un doucement de ses fautes. je luy fis doucement la guerre de ce que, etc. quand on a souffert de grandes douleurs, et que l'on ne souffre plus, on se trouve bien doucement. on peut vivre doucement la campagne pour peu de chose. ce cheval galoppe fort doucement. cette affaire veut estre traitée, veut estre maniée doucement, c'est-à-dire delicatement. Il faut s'y prendre doucement. on craignoit qu'il n'arrivast quelque desordre dans l'assemblée: mais toutes choses s'y passerent fort doucement, c'est à dire fort paisiblement. C'est une chose qu'il faut faire doucement; c'est à dire, sourdement, sans faire esclat." (ibid.)

Mais ce qui est valable pour l'Académie ne l'est pas forcément pour d'autres dictionnaires: ainsi les mots-clés métalinguistiques FEMININ et FAMILIER ne sont pas opératoires dans le cas du dictionnaire de Ménage qui n'aborde que rarement la synchronie.

4. Les variations fonctionnelles des mots métalinguistiques selon les genres de dictionnaires

Un même mot métalinguistique peut fonctionner différemment dans un dictionnaire de synchronie et dans un dictionnaire historique à dominante étymologique. C'est, par exemple, le cas de FEMININ dans Académie opposée à Nicot et à Ménage. Nous examinerons, pour la marque de l'usage ancien, celui du mot métalinguistique ANCIEN.

Sous le lemme ANCIEN sont regroupées toutes les modalités de marques d'une graphie, d'un mot, d'une collocation ou d'un emploi qualifiés d'anciens (éventuellement par rapport à un usage en cours); sont donc compris sous ce lemme toutes les formes se rattachant à la base ancien- et les termes exprimant le même sémantisme comme vieux et vieillir, et leurs formes fléchies, ou les adverbes autrefois, jadis, sans négliger toutes les marques temporelles de passé dans les verbes qui peuvent être eux-mêmes métalinguistiques (comme signifier, appeler ou dire) ou éléments de définition (comme valoir s.v. DOUBLE: "Espece de monnoye qui valoit deux deniers" Acad2-5).

Le résultat des interrogations des trois bases -- c.-à-d. le texte intégral de Nicot et des échantillons de Ménage et d'Académie (cf. supra) -- donné sous forme de tableau (ci-dessous) nécessite quelques commentaires en raison des difficultés d'appréciation liées à la nature même de chaque dictionnaire.

                          Nicot 1606   Ménage 1694   Acad 1694-1935

  ancien-                     234           24           15
  vieux                         3           11           11
  [il] vieillit / a vieilli     0            0           14
  autrefois                     0            4           15
  jadis                        19            1            0

                     Principales marques d'usage ancien
Ancien- dans Ménage. Sur 90 occurrences d'ancien-, 49 ne sont pas du tout pertinentes, 12 concernant un discours socio-culturel, 7 étant dans des citations et 30 appartenant à la bibliographie; les occurrences restantes se répartissent entre l'étymologie (sur 10 occurrences, 2 étymons = "ancien mot"; 4 renvois à d'autres langues dont 3 séquences "de l'ancien"; un emploi "d'ancienne origine"), des références à l'ancien français (3 occurrences = "mot ancien") et l'usage ancien (10 emplois d'anciennement tous combinés à des marques d'imparfait et 14 d'ancien), sans compter les doubles emplois dans un même article. La diversité des occurrences d'ancien- rend nécessaire la définition des différentes conditions de l'environnement du mot métalinguistique réparti dans des sous-catégories de séquences métalinguistiques levant toute ambiguïté.

Vieux dans Ménage. Sur les 21 occurrences de vieux dans Ménage, seulement 11 sont pertinentes pour l'identification d'un usage ancien; 4 emplois qualifient des références bibliographiques, un emploi qualifie un nom de poète, un autre un proverbe, 3 se trouvent dans des citations, 5 emplois de la forme du féminin n'appartiennent pas à la métalangue, un emploi concerne l'étymologie; la proportion importante de rebut nous conduit à proposer des modalités de structuration ou de modélisation de l'environnement du mot métalinguistique susceptible, dans ce cas, de devenir plutôt une séquence métalinguistique qui inclut les éléments textuels permettant une interrogation plus fine. De fait, l'interrogation par la séquence "Vieux mot", en début d'article, ou ", vieux mot", en groupe apposé, donne le résultat des 11 occurrences pertinentes, s.v. GABAN, GABER, GALLER, GAUSSER, JOUCARITE, JUS, ISNEL, RAIN, RAMON, RAMPONNER et RESE.

Des problèmes analogues s'observent dans le discours fortement étymologique de Nicot, la proportion des remarques d'usage restant dominante (les 234 occurrences d'ancien- sont à trier).

On peut faire le même genre d'analyse pour les séquences "on dit", "on disoit", "on a dit", qui n'ont pas le même fonctionnement dans Nicot, Ménage et Académie.

Conclusion

Bien que les dictionnaires modernes ne soient jamais entièrement systématiques, ils le sont relativement; quand on les informatise par rétroconversion, on balise systématiquement leurs champs informationnels à un degré plus ou moins détaillé. Les dictionnaires anciens sont, dans une mesure variable, moins systématiques que les dictionnaires modernes. Pour ne pas les enfermer dans une interprétation univoque, on doit éviter un balisage systématique des champs informationnels. En revanche, on peut, dans la majorité des cas, obtenir un taux de succès très satisfaisant dans la recherche des champs informationnels au moyen des indicateurs que sont le caractère d'imprimerie et les mots-clés métalinguistiques. Dans l'utilisation des jalons de caractère et la définition des mots-clés, il faut réfléchir au rendement de la recherche floue par opposition à une post-édition ardue: la seule interrogation de ce genre de base par les mots métalinguistiques ne saurait produire des statistiques utilisables de façon automatique ou manuelle pour la fréquence ou le repérage des champs informationnels; même une définition rigoureuse des différentes modalités d'environnement du mot métalinguistique exige les compétences linguistique, dictionnairique et pragmatique du lecteur/utilisateur de la base.


Références


Notes