La base Académie et son hypertexte: construction du corpus diachronique réunissant les huit éditions du Dictionnaire de l'Académie française (1694-1935) et les données linguistiques, littéraires et culturelles associées à chaque édition

Isabelle Leroy-Turcan

Université Jean Moulin, Lyon

(Institut Universitaire de France, Rencontres de linguistique appliquée, Paris VII, 24-27 septembre 1997)

Préambule

Depuis la mention de corpus de quatre cents millions de mots, j'ai presque envie de qualifier le corpus des huit éditions du Dictionnaire de l'Académie française de "petit corpus" puisque l'ensemble a été estimé à dix-huit millions de mots... (cf. note 4).

La construction de la base informatisée des huit éditions du Dictionnaire de l'Académie française (= DAF), s'inscrit, on ne peut mieux, dans le thème de ces rencontres: ce que nous nommons en raccourci la "base Académie" regroupe les huit dictionnaires, qui, représentatifs de différents stades de synchronies de la langue française, furent publiés par l'Académie française sur près de trois siècles, de 1694 à 1935 [1].

Plutôt que de revenir sur les questions relatives aux modalités de création de la base dictionnairique déjà traitées par T.R. Wooldridge et nous-même dans de précédents colloques [2], nous retiendrons aujourd'hui deux points concernant à la fois la diachronie et la synchronie en vertu de l'identité propre à chaque dictionnaire constituant la série:

  1. la constitution de la base selon différents niveaux de diachronie, différentes façons de concevoir un corpus dictionnairique diachronique;
  2. le corpus diachronique propre à l'identité du DAF du XVIIe au XXe siècle, inhérent à la série des huit éditions.
Cela nous conduira à évoquer la complémentarité entre différentes sortes, différents degrés de synchronies, ce que nous pourrons dénommer la micro-diachronie et la diachronie absolue; de fait, l'identité du DAF est telle qu'elle porte en elle-même les marques de sa longue élaboration au fil d'une diachronie plus ou moins définie [3], plus ou moins connue.

Force est donc de prendre en compte, dans la base informatisée, tous les paramètres qui fédèrent la série des huit éditions, indépendamment de l'existance propre de chaque dictionnaire; la diachronie de la série peut être renforcée par l'ajout à la base dictionnairique de corpus parallèles associés, qui, organisés dans la base hypertextuelle, permettent de concilier la synchronie propre à chaque édition, la diachronie de l'ensemble.

1. Identité de la base Académie, un corpus dictionnairique diachronique

1.1. Plusieurs bases distinctes dont la complémentarité est renforcée par des hypertextes associés.

1.1.1. Chaque édition du DAF constitue une base dictionnairique et offre à elle seule une dimension comparative diachronique par rapport à une autre. Ainsi, sur l'ensemble des huit éditions, ont été déjà saisies, par les soins d'ARTFL (Chicago), la première (1694), sous la double responsabilité technique de T.R. Wooldridge (Toronto) et scientifique de nous-même, et la cinquième (1798) sous la responsabilité de D. Kibbee (Urbana-Champaign, Illinois): certes, le corpus diachronique est encore restreint à un siècle et ne représente qu'un quart du corpus global [4], mais il est déjà suffisamment riche pour permettre de nombreuses consultations purement linguistiques ou socio-culturelles et linguistiques.

1.1.2. Si nous avons choisi de commencer les saisies de la base Académie en privilégiant d'abord ces deux éditions, c'est surtout en fonction de leur importance historique; d'autre part, entre la première édition et la quatrième, on constatera moins de changements, dans la macrostructure comme dans la microstructure, (excepté bien sûr la remise en ordre alphabétique de la nomenclature dès 1718) qu'entre la première et la cinquième, ne serait-ce que pour l'enrichissement de la nomenclature considérable après la révolution française. De même, il est capital de remarquer que les premiers enrichissements de la nomenclature constatés entre la quatrième et la cinquième édition se poursuivent de façon importante entre la cinquième et la sixième édition, les ajouts ayant été évalués à plus de 35% [5], ce qui nous conduit désormais à privilégier la saisie de ce texte de 1835.

1.1.3. Enfin, chaque édition porte en elle une diachronie particulière, celle de sa genèse, ce qui implique différents niveaux de diachronie et nous permet d'introduire la question des bases hypertextuelles associées. Les deux éditions de 1694 et 1798 en sont d'excellents exemples, auxquels on peut ajouter la deuxième édition de 1718, tributaire à la fois de la fausse seconde édition de 1695 et des critiques formulées dans les textes polémiques publiés après la parution de la première édition [6].

1.2. Diachronie et genèse des dictionnaires édités en base de données:

1.2.1. La genèse de la première édition: si nous avons posé la question "L'informatisation de la pré-édition du Dictionnaire de l'Académie française (1687) est-elle à l'ordre du jour?" [7], c'est bien parce que la première mouture du DAF, que nous avons conservée en partie [8], constitue un corpus propre dont on ne saurait négliger l'intérêt historique.

1.2.1.1. De fait, tout en admettant le principe de l'ébauche et tout en connaissant les difficultés d'harmonisation entre la première partie préparée par Vaugelas avant 1650 (jusqu'à la lettre I) et la suite achevée en hâte, on est surpris par le nombre important de différences entre cette préédition de 1687 [9] et la forme définitive de la première édition; on pourrait presque considérer qu'il s'agit d'un texte à part entière. De fait, on apprécie la valeur des deux phases rédactionnelles correspondant à même projet fondé sur les mêmes objectifs méthodologiques, mais force est de reconnaître que les deux moutures du dictionnaire représentent chacune deux générations d'Académiciens, soit, peu ou prou, deux synchronies différentes, la première dominée par son premier rédacteur Vaugelas, la seconde nettement tournée vers la génération des modernes [10].

1.2.1.2. On ne saurait négliger l'intérêt de cette pré-édition pour toute analyse du texte de 1694: mais, sans aller jusqu'à proposer d'informatiser cette version si décriée en son temps [11], il est néanmoins historiquement capital de pouvoir introduire, dans une base hypertextuelle associée, au moins les principales différences (celles qui affectent la nomenclature et l'organisation microstructurelle des articles, sans négliger les variantes graphiques), l'idéal restant, de notre point de vue, de toutes les enregistrer (cf. en particulier tout ce qui relève de la sémiotique de la typographie, de la ponctuation).

1.2.2. La cinquième édition offre elle aussi une dimension diachronique liée à sa genèse, puisque la bibliothèque de l'Institut de France a gardé un exemplaire de la quatrième édition annoté en vue de préparer la nouvelle édition. Corrections et enrichissements des définitions et des exemples, modifications dans l'organisation des articles, enrichissements de la nomenclature [12], etc. sont du plus haut intérêt, non seulement pour le lexicologue et le linguiste, mais aussi pour l'historien; entre les deux versions imprimées de 1762 (quatrième édition) et de 1798, la prise en compte, sous forme de base associée hypertextuelle dans le corpus informatisé, des données manuscrites de l'exemplaire de l'Institut de France offre un apport conséquent pour une meilleure appréciation de l'élaboration du dictionnaire dans une perspective diachronique même restreinte: on peut alors vérifier les étapes de reconnaissance par les lexicographes de certains sens nouveaux, apprécier la valeur des ajouts, analyser même les doutes par la seule prise en compte des ratures, etc.

L'exemple de cette édition nous invite à considérer qu'il peut être alors intéressant d'introduire la notion de micro-diachronie à propos de corpus éloignés de quelques années, qu'il s'agisse d'une trentaine d'années ou moins (comme de 1687 à 1694 ou de 1694 à 1718), qu'il s'agisse de plusieurs décennies si l'on prend en compte la longue élaboration du premier exemplaire donné en 1687 mais commencé dans la première moitié du siècle.

1.2.3. À la lumière de ces deux exemples, on mesure l'intérêt d'une distinction entre différents niveaux de diachronie dans le cas d'un corpus dictionnairique aussi important que celui du DAF. C'est en vertu de ce principe de complémentarité entre micro-diachronie et diachronie plus vaste que nous procéderons à la constitution de la base Académie dans son ensemble.

Mais, comme pour toute étude textuelle, on ne saurait négliger le contexte dans lequel est né une oeuvre. C'est pour cette raison que nous proposons d'enrichir la base Académie en y associant d'autres bases dans le cadre de ce qu'il est convenu de nommer l'hypertexte.

2. Le corpus diachronique propre à l'identité du DAF du XVIIe au XXe siècle

Le corpus diachronique propre à l'identité du DAF du XVIIe au XXe siècle, inhérent à la série des huit éditions, s'inscrit lui-même dans une multiplicité d'autres synchronies parallèles qui nourissent la diachronie de la série.

Arrêtons-nous simplement sur l'exemple de la première édition pour laquelle nous avons défini une méthodologie de création d'hypertexte, méthodologie qui servira de référence pour préparer les bases hypertextuelles des autres éditions. Rappelons, au préalable, qu'un hypertexte peut s'organiser selon deux grandes catégories d'outils, des outils textuels, dictionnairiques ou autres, et des outils d'analyse critique préparés sous forme de listes, de tableaux ou rédigés par des spécialistes, qu'il s'agisse d'index spécifiques [13] ou de ce qu'il est convenu de nommer "notes d'experts" [14].

2.1. Sur le plan strictement linguistique, deux catégories de textes retiennent notre attention, les dictionnaires et les grammaires ou observations, notes et remarques [15].

2.1.1. Ainsi, en nourrissant l'hypertexte de la base Académie 1694 par l'ajout de parallèles avec des dictionnaires contemporains de l'élaboration du DAF 1694, tels le Richelet (1680) et surtout le Furetière (1690), pour l'usage, le Ménage (1694) pour l'étymologie [16], nous apportons au consultant de la base des outils comparatifs intéressants à divers égards [17], complétés par des outils techniques comme les index. On pourra ici distinguer plusieurs niveaux de consultation: il va de soi qu'il est impossible, dans un premier temps, de fournir en parallèle d'autres versions électroniques de dictionnaires contemporains, l'idéal étant, en la matière, que l'on puisse un jour fédérer tous les projets et dossiers d'informatisation de dictionnaires anciens; cependant, il est déjà possible de réaliser de façon modeste, des outils comparatifs comme ceux que nous avons proposés pour l'hypertexte Académie 1694 avec, d'une part, un tableau comparatif des adresses (vedettes et sous-vedettes) dans la pré-édition de 1687 et dans la première édition de 1694 sur l'échantillon de la lettre G, d'autre part, un tableau comparatif des nomenclatures de Richelet, Furetière, Ménage et Académie sur l'échantillon du début de la lettre G, la section Ga [18].

2.1.2. De même, en introduisant dans une base critique des textes relatifs aux discussions sur l'usage, nous procurons des clés de lecture, des éléments d'appréciation pour mieux cerner les ambiguïtés, le flou de certains énoncés formulés dans le DAF 1694 (cf. les indéfinis, les doubles graphies anciennes et modernes, l'utilisation des coordinations alternatives) [19].

2.2. Sur le plan, plus vaste de la littérature et de la culture: entre le domaine linguistique, assez aisé à circonscrire, et le domaine culturel ouvert à l'infini, la littérature occupe un statut privilégié, en particulier pour la série du DAF, puisque ce sont d'abord des auteurs reconnus sur le plan littéraire qui ont eu la tâche de définir l'usage pour l'enregistrer dans le dictionnaire. En introduisant, dans la mesure du possible, des textes littéraires contemporains de la période d'élaboration de chaque édition du DAF, nous permettons au lecteur/consultant de confronter les usages retenus dans le texte de référence avec les usages réels des auteurs [20].

Il va de soi que l'identité même de la première édition, qui a été en gestation si longtemps et qui s'est donc trouvée confrontée aux évolutions de la langue entre le deuxième et le dernier quart du siècle, implique de façon indiscutable la complémentarité entre synchronie et diachronie, entre les différentes synchronies qui constituent une micro-diachronie, ce qui sera moins pertinent pour d'autres éditions.

2.2.1. On peut distinguer, dans le cadre de la base hypertextuelle, au moins deux catégories de textes littéraires, ceux qui sont représentatifs d'usages d'écrivains académiciens ou non académiciens et ceux qui sont ouvertement polémiques, comme tous les textes relatifs à l'affaire Furetière à partir de 1685 [21].

Pour les premiers, nous avons déjà exprimé nos exigences scientifiques [22], à savoir une conformité absolue avec les textes originaux, ce qui limite évidemment l'utilisation de textes figurant déjà dans des bases de données de textes littéraires; pour les seconds, nous avons défini un programme de saisie qui est en cours [23].

2.2.2. Sans se polariser sur la seule production de l'écrit littéraire, il est intéressant d'associer dans un hypertexte de base diachronique des documents touchant aux domaines culturels propres à l'époque considérée [24]. Deux exemples retiennent notre attention aujourd'hui: les rapports entre Monarchie et linguistique, les questions de bibliographie.

2.2.2.1. Nous avons eu l'honneur de présenter, il y a déjà quelques années, dans cette même université, sur l'invitation de M. B. Cerquiglini, les liens entre "les recherches grammaticales au XVIIe siècle et le pouvoir monarchique" autour de l'élaboration du DAF. Ce thème pourrait faire l'objet d'un dossier spécifique dans la base hypertextuelle des premières éditions [25].

Dans cette perspective, on peut souligner l'intérêt des Épîtres dédiées au Roi, pour les quatre premières éditions [26] et des Préfaces [27], mais il faudrait ajouter au dossier les textes proposés mais non retenus [28] et donc restés à l'état de proposition imprimée complétés parfois par des documents manuscrits. Nous pensons, par exemple, à l'Épître proposée pour la première édition par Charpentier, mais critiquée et richement annotée par l'Abbé Régnier: ce document, conservé dans les archives de l'Institut de France, aurait sa place dans l'hypertexte de la base Académie 1694 [29]. Dans la même optique, il serait intéressant de développer le dossier des rivalités entre le Parlement et l'Académie française par rapport à la maîtrise de l'éloquence et à l'art du bien dire: on connaît, à cet égard, le rôle particulier des juristes présents au sein de l'Académie française [30].

2.2.2.2. Pour la bibliographie, il faut poser la question des sources utilisées par les premiers rédacteurs du DAF. Vaste question, puisqu'il sera très difficile d'appréhender les richesses bibliographiques individuelles des académiciens. En revanche, il paraît important de connaître les textes présents dans la bibliothèque du Roi dont on sait qu'ils ont été consultés par les Académiciens [31].

2.2.3. Pour les autres éditions, nous retenons le même principe de bases associées concernant les plans linguistiques, littéraires et culturels, l'objectif restant d'adopter, en typologie, les mêmes modalités d'enrichissement du corpus informatisé pour chaque édition. De façon systématique, rayonneront autour de la base du texte dictionnairique, une base de textes littéraires, une base de textes et notes critiques, une base culturelle aux contours plus flous. Les liens hypertextuels entre les différents documents fonctionneront non seulement dans la synchronie correspondant à chaque édition, mais aussi dans la diachronie absolue de la série ou, selon les besoins des consultants, des micro-diachronies.

La série des huit éditions du DAF est véritablement un monument: le DAF constitue la référence par excellence en Europe, dans toute la Francophonie, dans le monde entier et c'est pour cette raison qu'il s'impose comme texte "fédérateur" des autres textes de la langue française.

3. Complémentarité entre différentes synchronies, la micro-diachronie et la diachronie absolue

Il est donc clair que nous ne saurions concevoir un corpus dictionnairique diachronique informatisé sans tenir compte de la complémentarité entre différentes synchronies, la micro-diachronie et la diachronie absolue: de fait, pour ce qui concerne le DAF, chaque édition implique à la fois une relative synchronie (celle des usages linguistiques et littéraires conformes à l'usage consigné dans le dictionnaire) et plusieurs degrés de diachronie; outre son inscription dans la diachronie complète de la série des autres éditions, chaque édition porte en elle-même les étapes de son élaboration, donc une dimension diachronique.

D'autre part, il faut rappeler que le dictionnaire constitue un corpus linguistique ouvert à d'autres corpus associés, du seul fait qu'il est le témoin socio-culturel d'une époque et qu'à ce titre, il est susceptible d'intéresser différentes catégories de lecteurs. Construire une base de données dictionnairique diachronique, c'est aussi prendre en compte les protocoles de communication avec le public susceptible de consulter le corpus de base et ses hypertextes, selon des stratégies de consultations variées, public qui ne se limitera pas à des spécialistes en linguistique.

Certes, l'infini des consultations diversifiées peut donner le vertige, certes, il est difficile de prétendre à l'exhaustivité en matière de construction d'hypertexte, certes, le flou en informatique textuelle peut conduire à des erreurs de lecture, certes l'envergure de bases si lourdes peut produire une forme de dilution de l'information, certes, il est difficile d'envisager de façon absolue les différentes modalités selon lesquelles un lecteur/consultant de bases informatisées aussi vastes peut s'approprier un corpus, certes...

Mais, le propre de la base informatisée est aussi d'être ouverte et dynamique, d'être un lieu d'échanges entre spécialistes et entre lecteurs/consultants: en permettant les dialogues dans l'espace intersidéral [32], les nouvelles technologies qui abolissent les limites du temps et de l'espace, offrent non seulement aux spécialistes un outil extraordinaire de traitement des grands corpus, mais surtout au public intéressé un moyen de les consulter et de les faire vivre au prisme de lectures plurielles plus aisées à réaliser devant un ordinateur personnel qu'en parcourant différents fonds anciens de bibliothèques.


Notes

1. Les huit éditions furent respectivement publiées en 1694, 1718, 1740, 1762, 1798, 1835, 1878, 1932-35. La prétendue "Seconde édition reveüe et corrigée de plusieurs fautes..." ou contrefaçon de 1695 (pourtant publiée par Coignard) avec remise en ordre alphabétique des additions de la première édition n'appartient pas à la série officielle, même si elle a joué un rôle non négligeable pour la préparation de la deuxième édition de 1718.

2. En particulier Académie novembre 1994, Cergy-Pontoise mars 1995, Lyon septembre 1995, Clermont-Ferrand juin 1996, Urbana-Champaign (Illinois) février 1997 et Paris HESO mai 1997: cf. Bibliographie indicative.

3. Il est facile de démontrer pour certaines éditions que la date de parution figurant en première de titre n'est pas suffisante pour apprécier la réalité synchronique ou diachronique: ainsi pour le contraste entre la première édition de 1694 préparée sur plusieurs décennies et la deuxième réalisée en 1718 avec peu de modifications par rapport à la première (ordre alphabétique et prise en compte de quelques corrections formelles signalées dans la fausse seconde édition de 1695).

4. Sur le total de la base Académie estimé par T.R. Wooldridge à 105,98 Mo (soit 17 950 756 mots de texte), la première et la cinquième édition représentent un peu moins du quart avec 22,35 Mo (mesures réalisées sur un échantillonnage: cf. T.R. Wooldridge, "Projet d'informatisation du Dictionnaire de l'Académie (1694-1935)", Actes du Colloque organisé pour le troisième centenaire du Dictionnaire de l'Académie française (Institut de France, novembre 1994), à paraître; version abrégée en ligne).

5. T.R. Wooldridge, Institut de France, novembre 1994: A6 = A5 + 35,99% en mots de texte, soit 4,74 Mo (cf. mesures de la version en ligne).

6. Cf. Leroy-Turcan 1996b.

7. Lors du colloque de Clermont-Ferrand en Juin 1996 sur "Les dictionnaires électroniques du français des XVIe et XVIIe siècles" (cf. Leroy-Turcan à paraître).

8. Un exemplaire du premier tome (A-I) est conservé à la bibliothèque de l'Arsenal et un exemplaire de la contre-façon de Francfort se trouve à la Mazarine.

9. Cf. I. Leroy-Turcan, "L'informatisation de la pré-édition du Dictionnaire de l'Académie française (1687) est-elle à l'ordre du jour?" (à paraître).

10. Cf. Leroy-Turcan 1996a.

11. Le seul fait que ses rédacteurs l'aient détruite au pilon parce qu'elle ne répondait pas à leurs exigences, ne nous permet pas de lui accorder une place officielle dans la série: elle doit garder sa place en second plan dans la perspective d'études sur la genèse du texte définitif.

12. Par exemple, suppression et ajouts d'exemples (s.v. REPENTIR), remplacement d'une partie des exemples (s.v. REPERTOIRE), modification des formulations définitoires (s.v. REPENTANCE), ajouts de définitions (s.v. REPETER, REPERTOIRE), etc. Cf. les exemples du tableau comparatif réalisé à propos de la notion d'enthousiasme (cf. I. Leroy-Turcan, Limoges, 1997) et l'exemple de l'enrichissement de l'article TIMBRE dans les huit éditions complètes du DAF (in Wooldridge 1994).

13. Cf. par exemples, les index proposés par T.R. Wooldridge, pour la base Académie échantillon, "Index des vedettes d'articles", "Index des mots-clés métalinguistiques", "Index des occurrences cachées"... Les indexations ont été faites à l'aide de WordCruncher et de TACT.

14. Cf. Leroy-Turcan 1996b: 3.2.1.

15. Cf. Leroy-Turcan 1994.

16. Auquel s'ajoute évidemment le Thresor de Nicot, déjà informatisé depuis longtemps par les soins de T.R. Wooldridge.

17. Par exemple, pour les remaniements concernant le classement étymologique dans Académie 1687-1694, mis en relation avec les discussions de contemporains comme Ménage; de même pour l'appréciation des termes absents dans certains dictionnaires et parallèlement des différentes façons d'organiser les familles lexicales dans Richelet, Furetière et Académie.

18. Cf. la base Académie échantillon.

19. Cf. les exemples déjà présentés à Clermont-Ferrand (Leroy-Turcan 1996b); cf. Leroy-Turcan 1996a.

20. Par exemple, pour la première édition, on peut mieux comprendre, par l'intermédiaire des usages dans les textes littéraires, certains contrastes (comme les divergences graphiques) entre les articles des premières lettres jusqu'à i et ceux qui suivent, cela en vertu des écarts de générations d'académiciens.

21. Cf. Leroy-Turcan 1996b.

22. Cf. Leroy-Turcan 1996b.

23. Complété par un programme de remaniement de saisies déjà faites, déjà disponibles sur le Web, mais inégalement fiables par rapport aux éditions originales: il est donc impératif de rendre les textes informatisés fidèles aux originaux identifiés comme tels dans les fonds anciens pour offrir aux consultants un outil de travail sérieux.

24. Cf. l'exemple des confrontations entre les articles consacrés au mot globe et les textes relatifs à la construction des globes, sans négliger les représentations.

25. Sous forme de notes critiques introduisant des extraits de textes relatifs à l'élaboration du dictionnaire (cf. les Lettres patentes, les compte-rendus des séances de travail des Académiciens, etc.).

26. Dans la cinquième, un Discours préliminaire tient lieu d'épître.

27. Cf. Les Préfaces du Dictionnaire de l'Académie française 1694-1992. Textes, introductions et notes présentés par Susan Baddeley, Simone Benhamou, Liselotte Biedermann-Pasques, Jean Buffin, Monique Cormier, Michel Dessaint, Henri de Vaulchier, Jean Pruvost, Gabrielle Quemada, Eugénia Roucher, Liliane Tasker; sous la direction de Bernard Quemada. Paris: Honoré Champion, 1997, xi-564.

28. Cf. les nombreuses discussions sur l'Épître au Roi qui, à partir de 1692, auraient retardé la publication définitive du DAF.

29. Nous en préparons une édition commentée qui sera prochaînement intégrée à la base.

30. Cf. L'article de Laurence Depambour-Tarride... in Revue d'Histoire des Facultés de droit.

31. Dans cette perspective, nous soulignons l'intérêt complémentaire de l'édition du catalogue manuscrit de la bibliothèque de Ménage dont nous préparons la publication commentée avec index des ouvrages présents dans la bibliothèque du Roi.

32. La base Académie échantillon donne une adresse électronique où tout lecteur peut adresser un courrier quel qu'il soit.