Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.",
Clermont-Ferrand, 14-15 juin 1996
I. Leroy-Turcan, "Modalités de mise en oeuvre de l'informatisation de la première édition du Dictionnaire de l'Académie française (1694)"

2. Modalités d'informatisation de la base dictionnairique

Les modalités d'exécution du projet telles qu'elles ont été présentées à Paris en novembre 1994 puis à Cergy en mars 1995 restent valables et je vous renvoie aux textes publiés dans les Actes [6]; je me bornerai ici à compléter certains points, à confirmer en les affinant quelques analyses délicates et à insister sur le choix d'un balisage limité.

2.1. Saisie des échantillons

2.1.1. Parties d'un tout

2.1.1.1. Base Échantillon 1694-1935 saisie à Toronto

La Base Échantillon 1694-1935, saisie à Toronto et portée, grâce aux soins de T.R. Wooldridge de 0,53% à 1%, est désormais installée sur Internet; on y trouvera un sommaire et tous les index spécifiques à la base, tout commentaire pouvant être envoyé à l'auteur de la base par courrier électronique. Elle sera également installée sur des sites miroirs qui seront mis en place assez rapidement (par exemple à l'Université Jean Moulin de Lyon, à l'Université de Clermont-Ferrand, à Londres, etc....)

2.1.1.2. Premières bases dictionnairiques de 1694

Si nous avons choisi dans un premier temps, pour la création de bases limitées, les deux corpus des lettres G et R, c'est d'abord par rapport à l'histoire interne de la rédaction du DAF, la lettre G correspondant à une période charnière entre les grandes phases de rédaction du DAF, la période Vaugelas et celle de l'après-Vaugelas; l'étude détaillée du corpus de la lettre G nous permet non seulement de comparer la préédition de 1687 et l'édition de 1694 (cf. l'intérêt des variantes graphiques), mais elle nous offre aussi la possibilité d'introduire dans l'analyse hypertextuelle toutes les remarques critiques rédigées par Furetière: on sait, par le premier Factum, que Furetière a eu entre les mains un cahier de huit pages de la lettre G, les pages 433-440; d'autre part, le premier Factum regroupe de nombreuses omissions et corrections des erreurs de l'Académie; enfin, dans une perspective intertextuelle, la confrontation de ce corpus avec les corpus parallèles d'autres dictionnaires contemporains, comme le Dictionnaire universel de Furetière ou le Dictionnaire Etymologique ou Origines de la Langue Françoise de G. Ménage (= DEOLF), est particulièrement intéressante, notamment pour tout ce qui concerne l'organisation de la nomenclature en vertu des contingences d'ordre socio-culturel (Furetière) ou des considérations liées à l'étymologie (Ménage [7]). L'étude comparée de la lettre G et de la lettre R nous permet, indépendamment des derniers aspects évoqués, d'apprécier les évolutions dans le traitement de la nomenclature entre la première période et la dernière, puisque nous savons qu'en 1683 les feuillets imprimés allaient jusqu'à la lettre M, les cahiers du reste se trouvant en la possession de Mézeray, au moins jusqu'à la lettre P [8]; au premier juillet 1689, les Académiciens travaillaient encore à la lettre S [9].

2.1.1.3. Bases thématiques pour 1694: le vocabulaire de la mort, de la danse et de la marine

L'intérêt des bases thématiques est de couvrir l'ensemble du dictionnaire [10], sans autre limitation que celle des champs sémantiques. Les corpus du vocabulaire de la mort et de la danse ont été saisis par deux étudiantes de maîtrise à l'Université Jean Moulin de Lyon, Christine Grosse et Catherine Verdin, qui travaillent sur ces thèmes respectifs. Ces bases thématiques, qui leur auront donc d'abord servi d'outil de travail, seront ensuite mises à la disposition du public sur Internet après relecture, correction et balisage HTML des textes saisis. De la même façon, nous préparons une base thématique sur le vocabulaire de la marine qui devrait être disponible pour 1997.

2.2. Saisie fidèle à l'original de la bibliothèque de l'Institut de France

2.2.1. La pertinence des exigences, telles qu'elles ont déjà été formulées, est confirmée par les premières opérations de saisie.

2.2.2. Difficultés matérielles posées par l'original: quel original?

Nous tenons ici à rappeler les difficultés d'identification d'un original [11]: plusieurs exemplaires datés de 1694 peuvent présenter de nombreuses différences formelles [12], selon la chronologie des tirages (par exemple, différences de taille des caractères sur la page de titre, différences affectant le chiffre des unités de la date de 1694 donnée en chiffres romains, soit par «IIII» soit par «IV» [13], différences concernant la place de la gravure, en recto ou en verso, etc....); possibilité ou risque de cartons dans le cours du dictionnaire, etc.... c'est pour cette raison que nous avons choisi comme repère de référence faisant autorité l'exemplaire de la bibliothèque de l'Institut de France. En raison du coût de la reproduction papier [14], même à partir d'un microfilm déjà réalisé à la BN et dont la qualité est d'ailleurs inégale, nous nous sommes jusqu'à ce jour contentés de travailler sur des photocopies du reprint de 1901 fait à Lille par l'imprimeur L. Danel, dont le seul inconvénient réside dans les déficiences typographiques de l'"original", notamment pour les accents, qui font partie des premières vérifications à la relecture; sinon, l'utilisation du reprint ne nous a pas posé de problème particulier jusqu'à présent, la taille des caractères étant neutralisée par une bonne loupe! Toutefois, nous effectuerons des vérifications systématiques sur l'exemplaire de l'Institut.

2.2.3. Difficultés liées au texte ancien et à la logique fonctionnelle de 1694

Nous ne signalerons ici que trois faits: la confusion s / f qui n'est pas toujours résolue par les dactylos, même pour le lexique; la difficulté des variantes dans la répartition des majuscules en début de séquences exemplificatrices (d'Un, D'un, d'un Homme, qu'Il, Qu'il, qu'il X); enfin le cas des séquences définitoires qui ne sont pas toujours en romain ou de certaines séquences exemplificatrices qui cumulent l'italique et la majuscule.

2.3. Relectures et premiers balisages

2.3.1. Vérification et corrections

Jusqu'à présent les saisies réalisées par nos étudiantes vacataires pour 1694 nous ont donné ample satisfaction, avec très peu de fautes, toutes faciles à repérer grâce à l'indexation alphabétique réalisée par l'ordinateur (cf. notamment les fautes de fatigue avec interversion de lettres) [15].

2.3.2. Balisage minimal

Dans un premier temps ne feront l'objet d'un balisage que les vedettes (simples ou complexes), les sous-vedettes marquées dans 1694 par les petites capitales, les alinéas, la typographie, les majuscules non commandées par le lexique ou la syntaxe, mais par le début de séquences définitoires et exemplificatrices; dans un second temps, seront ajoutés les balisages de la matérialité du dictionnaire, titres, colonnes, pagination et foliotation, réclames. Enfin, il sera utile de baliser les catégories grammaticales; nous n'opérerons aucun balisage des champs informationnels de la micro-structure, car ils ne sont pas absolument systématiques dans 1694, tout comme ils sont encore parfois ambigus dans les autres éditions: une liste de mots métalinguistiques lemmatisés [16] servira d'outil parallèle à la consultation, qu'il s'agisse des marques d'usages (familier, vieilli ou bas), des marques fonctionnelles concernant les usages préférentiels [17] (ne se dit guere que, surtout, spécialement, particulièrement), des copules définitionnelles ou des copules exemplificatrices.

2.3.3. Ce n'est qu'en fin de correction de la base qu'intervient le basilage HTML destiné à l'installation sur Internet.

2.4. Limitation des balisages

2.4.1. Balisage exhaustif?

Un balisage fin tel que je l'ai proposé pour le DEOLF de Ménage (cf. ma contribution dans ces Actes [à paraître]) est exclu car il risquerait d'être trop subjectif et de trahir la perception du texte. Tel est par exemple le cas des séquences en italique qui peuvent correspondre à des sous-vedettes marquées ailleurs par les petites capitales: ainsi le mot loup-garou qui bénéficie d'un alinéa et qui figure en italique s.v. LOUP dans 1694, alors que dans 1687 il a le statut de sous-vedette marquée par des petites capitales dans un renvoi s.v. GAROU -- imprimé en grandes capitales --; c'est seulement dans 1718 qu'est confirmé le statut de sous-vedette en petites capitales de LOUP GAROU. Tel est aussi le cas de séquences qui ne sont pas en italique dans 1694 alors qu'en vertu de la logique interne du dictionnaire elles devraient l'être (cf. s.v. DOUTE pour l'alinéa consacré à sans doute joint à que, l'exemple commençant par Sans doute qu... n'est pas en italique).

2.4.2. Les deux positions divergentes

Faut-il tenir compte des incohérences et négligences textuelles par rapport au fonctionnement sémiotique global tel qu'il a été analysé? Faut-il rétablir tous les écarts par rapport à cette logique fonctionnelle de l'ouvrage? Le familier du dictionnaire ou le spécialiste doivent-ils, peuvent-ils imposer leur lecture, même solidement argumentée, aux lecteurs et consultants de la base? J'ai tenté, pour ma part d'analyser les fonctionnements implicites du non-dit dans le DEOLF de Ménage, ce qui conduit à mettre au point un système de balisage extrêmement complexe et risque forcément de gêner la lecture spontanée de l'ouvrage. Un même genre de balisage est exclu pour le Dictionnaire de l'Académie.

2.4.3. Conciliation

Entre le balisage limité essentiellement à la matérialité pure du texte tel que T.R. Wooldridge l'a mis en oeuvre pour Nicot[**] -- qui a prouvé son efficacité de consultation -- et un balisage sophistiqué tel que j'ai pu l'expérimenter pour le DEOLF de Ménage [18], il reste un juste milieu qui préserve la dimension plurifonctionnelle de certaines informations, cette sorte de polyphonie énonciative qui fait le charme des vieux dictionnaires. Le balisage tel que nous l'avons présenté et expérimenté pour le DAF signale, au moins par défaut, les divergences formelles, essentiellement typographiques, à l'intérieur du système de fonctionnement sémiotique de ce dictionnaire. Le lecteur ou le consultant intéressé par l'aléatoire de ces variantes pourra toujours consulter la base critique hypertextuelle associée (cf. section 3).

2.4.4. Neutralisation du balisage minimal

De fait, les limites imposées par l'état minimal d'une base dictionnairique statique sont neutralisées, anéanties, dépassées par les avantages qu'offrent les bases hypertextuelles dynamiques.

[Suite] -- [Retour à la Table des matières]


Notes

6. Cf. Bibliographie.

7. Ont été saisis pour le DEOLF les corpus des lettres G et R.

8. Cf. le second Factum, p. 206, 229.

9. Cf. le second Factum, p. 293-5.

10. Avec la réserve qu'en l'absence d'une base informatisée complète correspondant à l'ensemble des dictionnaires concernés, il est difficile de garantir l'exhaustivité des corpus thématiques.

11. Cf., à titre d'exemple, Leroy-Turcan 1995.

12. Cf. notamment les trois exemplaires conservés à la Réserve de la BN et ceux du fonds ancien de la bibliothèque municipale de Lyon.

13. Détail qui peut avoir son importance par rapport à l'existence de la contrefaçon de 1695.

14. À titre de simple support matériel facilitant la saisie.

15. En revanche la saisie de la lettre R en partie faite par une entreprise de saisie à partir des photocopies du reprint de 1901 présente beaucoup d'erreurs d'accentuation et de ponctuation.

16. Cf. Wooldridge & Leroy-Turcan 1995a, Id. 1995b et la mise à jour de la liste sur Internet.

17. Cf. Dagenais 1994.

[Note **: Pour une discussion de la difficulté d'une telle saisie pour un texte ancien de la complexité du Thresor, accompagnée de divers outils concernant les variantes et les mots-clés métalinguistiques notamment, voir l'introduction méthodologique de la Concordance du Thresor (Toronto, Éditions Paratexte, 1985), rééditée sur Internet sur le site Nicot avec l'intitulé "Introduction méthodologique à la saisie philologique des textes anciens".]

18. Cf. le texte de notre communication présentée au séminaire organisé par L. Pasques, Paris, 1994 complété par le texte présentant l'état du dossier concernant l'informatisation du DEOLF joint aux Actes du présent colloque [à paraître].