Introduction

Dans la continuité d'une réflexion sur les modalités de balisage de la version électronique du Dictionnaire de l'Académie française (=DAF) s'impose la question du repérage automatique (ou tendant à l'être) des différentes informations qu'un lecteur-consultant est susceptible de rechercher, sans négliger les informations auxquelles il ne s'attend pas, comme c'est par exemple le cas de l'étymologie dans un dictionnaire de synchronie.

L'absence de systématicité d'écriture et d'organisation des articles, caractéristique des dictionnaires anciens, entraîne un relatif brouillage des champs informationnels, une certaine dispersion des informations, un marquage aléatoire des catégories.

C'est dans ce cadre que s'inscrit notre propos, avec l'exemple de deux sortes différentes de recherches dans la première édition du DAF (1694): des recherches techniques bien définies par opposition aux investigations thématiques sur réseaux lexicaux, les deux imposant une nouvelle réflexion sur la question des mots-clés métalinguistiques [1].

1. Les recherches techniques

La première édition du DAF, vitrine de la langue française et du bon usage, indissociable des querelles linguistiques qui ont animé le grand siècle, a rempli aussi en partie le rôle technique de grammaire des usages; ont également été enregistrées des informations contraires aux principes théoriques énoncés dans la Préface et déjà exprimés dans les Registres: ainsi pour la grammaire, l'étymologie et les parlers dialectaux, comment peut-on repérer, dans l'ensemble du texte du DAF, les différents lieux de discours, d'informations concernant ces domaines qui, non reconnus officiellement par l'Académie, ne font a priori l'objet d'aucune marque préalablement définie?

La grammaire

La grammaire [2], qui constituait un projet distinct du Dictionnaire, occupe un statut un peu à part: l'étude comparative de la nomenclature marquée comme terme technique de grammaire et repérable, pour l'essentiel par les mots-clés métalinguistiques grammaire ou partie d'oraison [3] par opposition à la nomenclature non marquée, confirme l'intérêt particulier de l'Académie pour la grammaire; une comparaison du corpus des vedettes du DAF avec celui du Dictionnaire des Arts et des Sciences (1694) de Thomas Corneille, où nous ne trouvons que des termes relatifs à la logique et à la rhétorique, nous prouve qu'en dépit du principe de répartition officielle entre termes courants de la langue commune et termes techniques des langages de spécialités, le DAF a enregistré la nomenclature des domaines, considérés comme techniques, de la grammaire et de la poétique dont on ne trouve pas de trace chez Th. Corneille.

La diachronie

Dès lors que les auteurs du DAF avaient décidé de privilégier la synchronie en fixant la langue dans l'état de perfection où ils pensaient qu'elle se trouvait (cf. le dernier paragraphe du texte de la Préface), par opposition à la diachronie, il était déjà paradoxal de retenir un classement des entrées par racines donc d'accorder une place à l'étymologie, même avec une limitation aux seules formations dérivées identifiables dans une certaine synchronie. Plus encore paradoxale est la présence en divers lieux du DAF de discours purement étymologiques en partie repérables dans la version électronique par les séquences métalinguistiques pris de ou tiré de (cf. infra), pratiquement pas par la séquence vient de [4]; une consultation assidue du dictionnaire nous a permis de retrouver d'autres lieux de discours impliquant la diachronie et nécessitant la définition non pas de simples mots-clés métalinguistiques regroupés sous un paradigme de variantes formelles comme on l'a proposé pour les marques de genre avec le mot-clé féminin sous lequel sont reconnues toutes les formes d'abréviations [5], mais de séquences-clés métalinguistiques qui tiennent compte de toutes les variantes paradigmatiques, purement formelles ou lexicales, et surtout syntagmatiques.

Recherche des mots-clés du domaine, noyaux de séquences-clés

Ainsi, pour une recherche sur la présence de discours étymologiques dans le DAF, retiendrons-nous plusieurs possibilités conjointes: malgré la logique fonctionnelle attendue dans un dictionnaire, on ne saurait retenir ici comme mot-clé etymologie sous lequel se regroupent la forme du pluriel, le substantif etymologiste et l'adjectif qualificatif etymologique puisqu'il n'est pas opératoire: en effet, nous obtenons onze occurrences [6] sur lesquelles une seule intéresse notre recherche et encore, de façon accessoire, puisque liée à la définition et sans aucune mention proprement étymologique, s.v. CHRIST:

Si nous interrogeons la base avec le mot-clé origine [7] officiellement reconnu dans sa définition comme le synonyme d'etymologie, nous obtenons un grand nombre d'occurrences qui nécessitent un tri rigoureux: les soixante quatre occurrences (dont deux pour mise en vedette et renvoi) se répartissent pour leur majorité entre le discours de la définition donné surtout au premier alinéa (26) [8] et celui des exemples en italique (32) [9] ce qui ne laisse plus que quatre occurrences pour l'étymologie, soit une bien faible proportion par rapport au total des soixante quatre formes: s.v. FANTAISIE ("suivant l'origine": pour une graphie étymologisante), s.v. H ("marquer l'origine" et "dans des mots d'origine Grecque ou Hebraïque": pour le lien graphie / étymologie), s.v. DERIVER ("se dit en termes de Grammaire, des mots qui tirent leur origine de quelque autre": pour la définition du lexème directement liée au thème de la recherche). Si la pertinence d'un tel mot-clé est très médiocre, il en est de même pour le nombre restreint des séquences syntagmatiques permettant d'accéder à un discours sur l'étymologie. De fait, on n'obtiendra pas de meilleurs résultats en élargissant la recherche aux mots originaire [10] et originairement [11]; en revanche, les quelques rares occurrences d'origine à propos de l'histoire des mots nous permettent de retenir comme séquences-clés métalinguistiques les syntagmes "suivant l'origine", "marquer l'origine", "dans des mots d'origine..." et "tirent leur origine" uniquement à titre de complément pour être sûr de ne pas omettre des informations. Mais il nous faut chercher d'autres formules plus opératoires.

Les verbes opérateurs de la recherche étymologique

L'emploi dans les séquences retenues ci-dessus du verbe tirer construit avec la préposition de, nous invite à vérifier la pertinence de cette séquence comme outil de recherche mais avec l'orientation complémentaire des deux domaines étymologiques principaux présents dans le dictionnaire, le grec et le latin; le DAF comprend 666 occurrences du verbe tirer, dont 512 suivies par de, mais le champ d'investigation devient bien restreint si l'on y ajoute les références au grec (avec les occurrences de grec, grecs, grecque, grecques) ou au latin (avec les occurrences de latin, latine, latins: cf. infra); l'importance du bruit et les résultats incomplets [12] nous conduisent à rejeter la proposition. De même pour le verbe venir construit avec de dont le grand nombre d'occurrences de tous ordres (comme pour le futur proche ou le verbe de localisation pure) constitue là encore un bruit beaucoup trop lourd, ce qui nécessite un affinement de l'interrogation en privilégiant les domaines; le verbe dériver, assez rarement employé dans le DAF et de toutes façons le plus souvent dans les définitions ou les exemples, est sans pertinence pour notre travail.

Reste la famille du verbe emprunter dont on trouve 55 occurrences, parmi lesquelles seules quelques formes du participe passé sont pertinentes [13]. De fait, le participe passé emprunté / -ez fonctionne bien comme mot métalinguistique du discours étymologique, qu'il soit associé au latin, à l'espagnol ou à l'italien, mais pas de façon systématique, à peine pour la moitié des occurrences, soit 9 sur 19 pour emprunté/-ée et 2 sur 5 pour empruntez [14]. Ces premiers résultats nous confirment la difficulté d'un recensement exhaustif ciblé mais aussi l'intérêt pragmatique de la définition de séquences-clés métalinguistiques qui tiennent compte des fonctionnements cachés du dictionnaire; cependant, le faible nombre d'occurrences concernées rend plus délicate la démarche; d'autre part, indépendamment des regroupements associant le domaine technique et l'aire linguistique "emprunté / -ée / -ez + latin /italien / espagnol", on ne pourrait exclure d'emblée les séquences en italiques au seul motif qu'elles sont réservées aux exemples. En effet, le discours étymologique peut ne pas être donné explicitement pour lui-même, mais figurer dans un exemple sans marque particulière, comme s.v. SUPERLATIF [15], ce qui confirme, outre la présence d'informations cachées, le statut particulier de l'étymologie, implicitement reléguée mais pas totalement refusée.

Les langues sources

On peut alors privilégier la recherche par le biais de mot-clés correspondant aux principaux domaines linguistiques susceptibles de nourrir le discours étymologique: le grec et le latin, puis l'italien et l'espagnol, ces mots-clés se trouvant susceptibles d'être les noyaux des séquences syntaxiques.

En partant des mots-clés grec, qui totalise 135 occurrences (grec 46, grecque 27, grecques 4, grecs 58), et latin, qui totalise 182 occurrences (latin 112, latine 38, latins 32), pour éviter d'emblée tout discours non étymologique, nous complétons la séquence par pris de dont nous avons pu vérifier la pertinence, ce qui nous donne accès à seulement 16 occurrences liées à l'étymologie quelle que soit la nature du discours [16]. Ainsi pour la séquence "pris du grec", les six occurrences se répartissent entre des remarques générales concernant la prononciation des lettres G et M [17] et l'information étymologique donnée dès le premier alinéa tout de suite après la marque de catégorie grammaticale pour les mots MICROCOSME, MICROSCOPE, MISANTHROPE, PROSELYTE [18]. Avec la séquence "pris du latin", nous relevons les dix occurrences homogènes, précédées de mot (s.v. BIS, INDEX, IMPROMPTU, ITEM, SEMI) ou de terme (s.v. PHEBUS, QUASIMODO), avec ajout de marque technique pour TACET ("Terme de musique pris du Latin") et VISA ("Terme de Chancellerie pris du Latin") et, enfin, une variante formelle s.v. DEGALLICO: "Manière de parler adverbiale prise du latin".

Ces premières investigations, même laborieuses, ne nous ont cependant pas donné accès à toutes les informations étymologiques dispersées dans le DAF: il nous reste en effet au moins deux séries d'interrrogations à expérimenter, à vérifier, celles sur les séquences simples mot / terme grec et mot / terme latin. qui, tout en incluant en partie les interrogations précédentes, vont au moins nous permettre de confirmer la pertinence de la séquence-clé spécifiant le domaine.

La séquence-clé "mot / terme latin", sur un total de soixante quatre occurrences, nous donne accès à trente quatre items impliquant l'étymologie. La séquence avec "terme" est la plus efficace pour notre recherche (dix neuf sur vingt deux occurrences contre une proportion de quinze sur les quarante deux occurrences obtenues avec "mot") et semble correspondre à la marque métalinguistique de l'identité proprement latine de mots directement empruntés; elle fonctionne selon la distribution suivante:

L'utilisation de la séquence-clé avec "mot" [22] semble fonctionner davantage comme marque de l'étymologie, puisque sur les quinze occurrences, on ne retrouve qu'une séquence identitaire s.v. INTERIM ("mot purement Latin"), les autres comprenant un noyau verbal exprimant l'origine (ainsi, "mot pris du latin", s.v. BIS, INDEX, ITEM et SEMI; "mot tiré du latin", s.v. CAMPOS, FOLIO et IN QUARTO; "mot emprunté du latin", s.v. ILLUSTRATION; "... le mot latin est devenu françois par l'usage... ", s.v. BENEDICITE; "mot qui a passé du Latin dans le François", s.v. ET CAETERA; "mot Latin qui est passé en françois", s.v. PALLIUM; "mot Latin passé dans le françois", s.v. PAREATIS; "mot latin transporté sans changement dans nostre langue", s.v. MAGISTER.

Enfin, notons deux emplois secondaires de la formule mot latin s.v. NATURALISER et s.v. RECIPE: nous reviendrons infra sur le premier cas qui correspond à un discours en partie caché du seul fait de sa présence dans une série d'exemples; pour RECIPE il s'agit davantage d'évoquer les raisons de la dénomination d'une réalité, sans explicitation particulière: "Ordonnance... On la nomme ainsi, parce qu'elle commence par ce mot latin..."

Pour la séquence "mot grec", on retrouve la distinction entre la simple marque de l'identité d'un mot par son appartenance à un domaine linguistique et la formulation de son origine. Mais sur trente occurrences trois seulement sont relatives à l'étymologie, l'une de façon explicite s.v. MISANTHROPE ("Ce mot est pris du grec"), les deux autres de façon plus synthétique avec la formulation "Mot Grec qui signifie...", s.v. PATHOS et PENTECOSTE [23], l'essentiel des autres se trouvant en position d'exemples s.v. MOT et DERIVER. La formule équivalente "terme grec" est employée à propos des mots MICROCOSME, MICROSCOPE, PROSELYTE; sinon les autres occurrences non pertinentes se trouvent surtout s.v. MOT.

Une recherche sur d'autres domaines linguistiques nous confirme la difficulté de définition de séquences-clés métalinguistiques à la fois en raison du faible nombre d'occurrences pertinentes et du grand nombre d'occurrences non significatives placées dans les séquences exemplificatrices. Pour l'italien, nous retiendrons donc simplement, sur un total de trente cinq occurrences du mot-clé italien/-s/-enne, cinq articles pertinents pour notre recherche [24], avec quatre formes verbales différentes: s.v. INCOGNITO "Ce mot a été transporté tout entier de l'Italien dans le François", s.v. BELVEDERE "Mot Italien qui est devenu François", s.v. NEPOTISME "Terme emprunté de l'Italien", s.v. STRAPASSER "Terme emprunté de la langue italienne", s.v. A PARTE "Mot pris de l'Italien & de l'Espagnol". Pour l'espagnol, sur vingt-neuf occurrences d'espagnol/-s/-e, on ne relève que quatre emplois relatifs à l'étymologie, s.v. A PARTE (supra), s.v. DISPARATE "Mot emprunté de l'Espagnol", MEDIANOCHE "Terme qui a passé de l'Espagnol dans le François" et l'exemple donné s.v. TRANSPORTER: "Paraguante est un mot qu'on a transplanté d'Espagnol en François".

Premier bilan

Ces premières observations nous confirment donc trois points essentiels: la difficulté d'élaboration de listes de mots-clés, même avec l'enrichissement de certaines conditions de distributions, pour ce genre de dictionnaire ancien qu'est la première édition du DAF; la difficulté de définition des séquences-clés restreintes à la combinatoire de deux termes, ainsi que le bruit pour les exemples de mot latin et mot grec; la nécessité de dégager des séquences-clés à trois termes impliquant un noyau verbal: ainsi l'ajout à "terme latin" d'un verbe du type "pris de...", "...passé du..." ou "tiré de...", même si ce genre d'ajout risque de laisser encore de côté des informations pertinentes; de fait, il suffit d'apprécier les différentes occurrences avec "terme latin" pour être convaincu de la complexité qu'implique une lemmatisation, les formules n'étant pas toujours absolument équivalentes, sauf si l'on accepte de neutraliser les variantes en vertu d'un thème général. Enfin, nous devons préciser que seule la connaissance minimale de l'histoire de la langue et l'exploration de la base nous permettent de repérer les principales langues sources sur le plan étymologique [25]; mais peut-on avoir la certitude de ne pas perdre des informations? Enfin, la définition d'outils tels que ces listes est-elle vraiment utile dans le cas de recherches portant sur des domaines aussi spécialisés et restreints, ce qui neutralise l'efficacité de l'outil?

Aspects du non-dit étymologique

Nous n'avons jusqu'à présent évoqué que les occurrences des séquences-clés dans le discours général du dictionnaire typographié en caractères droits romains. Si les séquences- clés métalinguistiques peuvent donner accès aux principaux articles comprenant un discours sur l'origine ou l'identité des mots, quelle que soit la typographie utilisée, on ne saurait négliger certaines définitions, certains commentaires dont l'implicite relève de l'étymologie; et dans ce cas, quels outils de recherche proposer?

Ainsi s.v. IOTA, doit-on admettre la prise en compte de la compétence linguistique du lecteur qui sait implicitement que le mot est "pris du grec" ou "purement grec": "La neuviéme lettre de l'Alphabet Grec... Ce mot en nostre langue ne s'employe que dans certaines phrases... ".

S'il ne faut pas négliger les séquences en italiques qui sont la plupart du temps réservées à l'exemple, c'est bien parce que le texte donné en exemple peut être lui-même lieu de discours concernant l'étymologie, comme nous l'avons déjà signalé à propos de superlatif ou de transporter; ajoutons, s.v. NATURALISER, l'exemple en italique:

Ce propos, même relégué dans un exemple, nous confirme que la simple marque identitaire d'un mot qualifié de latin ou grec implique bien la prise en compte de l'étymologie.

D'autre part, s.v. AORISTE, le lecteur ne trouve aucune précision d'emprunt au grec mais un exemple qui introduit un discours complétant la définition et concernant l'histoire de la notion "Les Grecs ont un premier Aoriste, un second Aoriste. la langue Latine n'a point d'Aoriste."; de même le mot ATHLETE est-il d'abord défini non pas par rapport à la culture française du XVIIe siècle, mais par rapport à l'antiquité "C'estoit chez les Grecs et chez les Romains..." (cf. encore DRACHME, HEXAMETRE ou ORCHESTRE, etc.): nous avons alors le sentiment que ces exemples peuvent correspondre à des discours partiellement cachés, puisque non officiellement reconnus.

On constate donc qu'un aperçu indirect, car en partie masqué, de la conscience linguistique en matière d'étymologie, est transmis au lecteur à la fois dans les séquences exemplificatrices en italique dans le corps même du texte de l'article, dès le premier alinéa, place privilégiée, sans même parfois la mention des catégories du discours (cf. s.v. NOTA. "Terme qu'on a transporté du Latin, & qui signifie...") (s.v. MAGISTER. "Mot Latin transporté sans changement dans nostre Langue, pour dire...") (s.v. ET CAETERA... "Mot qui a passé du Latin dans le François. Il sign...."); on appréciera enfin l'expression d'une conscience linguistique ouverte sur les langues romanes avec la définition donnée s.v. CORROMPU:

Certes, cette brève analyse ne concerne que quelques items par rapport à l'ensemble des mots traités dans le DAF, mais elle nous paraît pertinente dans la mesure où elle confirme la difficulté des Académiciens à se limiter à la synchronie du seul fait des choix de nomenclature: à ce titre, on observe que le nombre de mots purement latins mis en vedette correspond à la forte présence du vocabulaire juridique dans le DAF.

Ce travail confirme aussi, sur le plan méthodologique, la nécessité de réfléchir aux outils d'interrogation les plus efficaces, même pour des recherches fines, ciblées, laissant attendre des réponses restreintes à quelques items. La solution de notes de synthèses présentées en lien hypertextuel [26] avec la base informatisée du DAF, semble la plus satisfaisante.

On retrouve la même typologie de faits avec la recherche de la présence dans le DAF des parlers régionaux.

[Table] -- [Suite]


Notes

1. Cf. Wooldridge & Leroy-Turcan 1996a et 1996c.

2. Qui a déjà été abordée: cf. Leroy-Turcan 1998.

3. Avec les réserves exprimées dans Leroy-Turcan 1998.

4. Cf. uniquement, pour l'étymologie remontant à l'antiquité, s.v. H, à propos de l'absence d'aspiration "au commencement des mots qui viennent du Latin" ou "qui ne viennent nullement du Latin". Sinon, venir de fonctionne pour les formations internes au français et pour un emprunt au turc à propos de sofa.

5. Cf. Wooldridge & Leroy-Turcan 1996a.

6. Pour etymologie s.v. CHRIST, ETYMOLOGIE (2) et ORIGINE; pour etymologies s.v. ETYMOLOGISTE (3) et ETYMOLOGIQUE (1); pour etymologique, s.v. ETYMOLOGIQUE (2) et pour etymologiste, seule la forme mise en vedette.

7. Sous lequel sont associées les formes du singulier (62) et du pluriel (2), et le mot originaire (7).

8. S.v. BASILIQUE, DESCENDRE, DESCENDANT, EMANER, ESTRE, ETYMOLOGIE, REMONTER, NAISTRE, DENOMINATION, ORIGINAIRE, ORIGINAIREMENT, ORIGINEL (2), ORIGINELLEMENT (2), POSTERITE, PRENDRE, PROCEDER, PUISER, DERIVER, DERIVATION, SOURCE, TIGE, TIRER, EXTRACTION, TRIBU.

9. S.v. CELESTE, DONT, REMONTER (2), MUSCLES, OU, RAPPORTER, PRENDRE (2), PRIORITE, QUERELLE, TIRER (2), avec en particulier 18 occ. dans les exemples donnés s.v. ORIGINE.

10. 7 occ. dont 2 pour vedette et renvoi; exemple (s.v. NATIF, ORIGINAIRE(2); définition (s.v. NATUREL (2).

11. 11 occ. dont vedette et renvoi (=2); définition: s.v. COMMENDE; autour de l'usage grammatical pour la question de genre: s.v. FEMINISER; PAUME; REPRESENTER; PRIMITIF; RADICALEMENT; exemple: s.v. ORIGINAIREMENT (3).

12. Même si l'on sait bien que ces deux facteurs sont toujours à prendre en compte dès que l'on choisit de travailler avec les mots-clés métalinguistiques (cf. Wooldridge 1993).

13. Réparties de la façon suivante: emprunta 1, emprunte 5, empruntent 2, emprunter 23. Tous les emplois se rapportent au domaine du prêt et fonctionnent soit dans des séquences exemplificatrices en italique, soit, plus rarement, dans des définitions. On ne relève dans le DAF aucun emploi linguistique du substantif emprunt(s) sur les 12 occurrences relevées.

14. Pour les 19 occurrences de la forme emprunté / -ée, 2 sont en vedette ou co-vedette, 8 sont dans des exemples, les autres concernant l'étymologie: 6 pour le latin (s.v. COLERA-MORBUS, A L'INSTAR, ILLUSTRATION, O BENIGNA, QUIA, TUAUTEM), 2 pour l'italien (s.v. NEPOTISME et STRAPASSER) et 1 pour l'espagnol (s.v. DISPARATE); sur les 5 occurrences d'empruntez, l'une concerne le latin, s.v. AB HOC ET AB HAC, l'autre l'italien, s.v. SUPERLATIF, le reste n'étant pas pertinent pour la présente étude.

15. Texte cité infra, note 24.

16. Qui fera l'objet d'une autre étude intégrée à une réflexion plus large sur la conscience linguistique de l'Académie appréciée au prisme des discours, avérés ou cachés, dans le DAF 1694.

17. S.v. G: "Il faut en excepter quelques mots pris du Grec ou du Latin" et s.v. M: "Il faut en excepter les mots pris du Grec comme Amnistie, Memnon, Mnemosine. &c. où elle retient toute sa prononciation."

18. La formule métalinguistique est "Terme pris du grec" pour les mots MICROCOSME, MICROSCOPE et PROSELYTE, MISANTHROPE bénéficiant d'une variante, "Ce mot est pris du grec".

19. "Terme de Palais purement latin qui n'a d'usage qu'en cette phrase..."

20. "Ce terme est purement latin, ainsi que plusieurs autres qui sont demeurez dans la pratique, parce qu'autrefois les expeditions se faisoient en latin."

21. Avec pour ces deux derniers mots la précision du domaine, "Terme de Musique" (TACET) et "Terme de Chancellerie" (VISA).

22. Sur les 42 occ. obtenues, 15 seulement sont pertinentes, les autres correspondant pour l'essentiel à des exemples, notamment s.v. MOT et SIGNIFIER.

23. S.v. PATHOS "Mot Grec qui signifie Passion, & qui ne s'employe que pour signifier les mouvemens que l'Orateur excite dans les Auditeurs, ne se dit gueres qu'en conversation". s.v. PENTECOSTE "Feste... ainsi appellée d'un mot grec qui signifie le cinquantiéme jour d'aprés Pasques...".

24. L'exemple de Seigneurie étant ambigu: "...terme d'honneur & de civilité tiré de l'Italien..."; d'autre part, s.v. SUPERLATIF, on appréciera l'exemple suivant: "Eminentissime, Serenissime, Reverendissime sont des superlatifs empruntez de l'Italien.", comme source d'information cachée.

25. Dans l'absolu, il faudrait faire, à titre d'exemple, la vérification sur toutes les autres langues susceptibles d'être concernées par ce genre de recherche.

26. Cf. en particulier nos travaux sur la question: Leroy-Turcan 1996b et 1997b.