Catach, "Traitement des textes et graphies anciennes sur ordinateur"

Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.",
Clermont-Ferrand, 14-15 juin 1996

N. Catach, "Pour un meilleur traitement des textes et graphies anciennes sur ordinateur"

5. Leçons de l'édition critique classique et avancées informatiques

On peut fort bien penser que l'édition des dictionnaires anciens sur ordinateur doit se faire avec le minimum d'intervention et de préédition possibles. Mais il y a la question du public. Après bien des déboires, après avoir brutalisé les textes durant des siècles sous prétexte de les donner à lire, on s'achemine à présent pour l'édition papier à des solutions du type Budé: texte au plus près de l'original à gauche, texte "lisible" à droite (version "originale" vérifiée d'une part, et version modernisée d'autre part).

Je pense que l'on peut aisément s'accorder là-dessus, au moins sur le principe de reconnaitre cette méthode comme la meilleure.

5.1. La gauche et la droite

Mais que faire à droite, et à gauche? Quels types d'interventions? Une bonne édition électronique devrait à l'heure actuelle:

À gauche (Texte original 1, édition de base)

résoudre au minimum (sans les perdre) ce que l'on peut appeler les accidents graphiques que l'on s'accorde en général à rejeter (tildes, abréviations, ligatures, coquilles manifestes, remplacement de i/j, u/v, etc.);
résoudre au mieux (de façon explicite, entre crochets) les omissions, agglutinations, ajouts adventices et autres corruptions essentielles qui défigurent le texte;
respecter strictement texte, orthographe et ponctuation;
accompagner le texte original des notes et de l'apparat indispensables.
À droite (Texte critique 2, édition modernisée)
rendre le texte lisible en le modernisant (tout en le respectant);
résoudre (de la même façon) les problèmes de l'organisation des parties du discours, à tous niveaux, c'est-à-dire les mettre suffisamment "en page" et "en texte" pour les rendre abordables au lecteur moderne.
maintenir les liens avec le texte de gauche tout en évitant une copie inutile, bref tous les problèmes de la traduction respectueuse.

5.2. Le texte syntagmatique

Dans l'idéal, il faudrait:

1. Publier toutes les preuves et les expliciter de façon compréhensible pour tous (rappelons-nous les quatre pages de notes nécessaires à une seule page de Flaubert!). Ces preuves évoluent? Quelqu'un veut reprendre les dossiers, les remettre en chantier, recommencer le procès? On peut se le permettre aujourd'hui si on s'en donne la peine, ce qui allègera non seulement l'édition-papier, mais donnera la possibilité de la renouveler régulièrement. On ne peut trancher entre telle ou telle source, telle ou telle variante, l'édition originale ou la dernière revue par l'auteur, la ponctuation d'époque et une autre plus claire, les graphies des noms propres et celles d'aujourd'hui, la conservation ou la modernisation? Il n'est pas nécessaire de choisir, mais tout cela a un cout. Donc, posons au départ à bon escient tout ce que nous sommes susceptibles de vouloir utiliser.

2. Collationner, dans la mesure du possible, tous les exemplaires existants de l'édition choisie comme texte de base.[3] Mais s'en tenir ensuite à un exemplaire unique.

3. Explorer la "littérature" critique de l'édition critique, textologie, bibliographie matérielle, possibilités diverses, stockage d'informations générales, documentation, connaissances sur l'histoire de l'imprimerie et du livre, établissement de fichiers biographiques, données littéraires, stylistiques, linguistiques, graphiques, textuelles, etc. Tout ce qui sera gagné sur l'environnement du livre sera gagné pour le livre;

4. Mettre au point une terminologie commune, nécessaire à la communication entre chercheurs, et surtout un appareil visuel univoque et si possible commun des sigles et symboles utilisés (vaste batterie de signes demandés, mais diversité et pauvreté des claviers traditionnels);

5. Modulariser au maximum les données et informations afin de les atteindre et de les transformer aisément; intégrer si possible en réseau les notes et les ajouts à chaque localisation du texte, supprimer les ruptures mutilantes.

5.3. La puissance paradigmatique

Ces questions de saisie du texte, qui sont celles des meilleures éditions papier, ne sont pas aujourd'hui ce qui nous intéresse au premier chef. Si j'en ai parlé, c'est, comme je l'ai dit, pour mieux illustrer ce principe essentiel, qui devrait selon moi être celui du passage de l'édition à l'électronique dans son ensemble: 1) respecter le texte au maximum; 2) l'entourer de toute la puissance paradigmatique d'approche à présent disponible sur ordinateur.

Que veut dire puissance paradigmatique? C'est là que la notion de "dictionnaire" peut nous aider. Le "dictionnaire", dès l'origine, c'est la "mise en listes", "mise en tris" du discours. Accompagnées de la métalangue orale et surtout écrite (visuelle) adéquate. C'est cette paradigmatique, mise en listes, mise en "autonymie" qui nous intéresse ici.

Les points fragiles du livre ancien sont bien connus: ils se situent au niveau de l'orthographe et surtout de la segmentation des textes (très différente de la nôtre, mots, phrases, emploi d'abréviations, etc.); de l'absence d'éléments de renfort (ponctuation, accents, etc., que l'on a tendance à rajouter), et surtout de risques majeurs de contresens, dus aux lacunes, aux "faux amis", aux homographies, aux télescopages engendrant de fausses lectures, etc.

Les points fragiles de nos outils informatiques sont tout aussi flagrants: en raison de la pauvreté de nos moyens (sous tous leurs aspects), l'excès de "ratio" et l'absence de l'homme entrainent des suppressions, des simplifications, des raccourcis, des effacements et des disparitions que l'on regrette ensuite trop souvent.[4]

5.4. Les outils nécessaires

Si nous voulons, en y touchant le moins possible, entourer le texte du maximum de procédés de traitement et mise en valeur sur machine (ce que ne font malheureusement pas les typographes pour le texte de l'auteur, surtout s'il est absent pour cause de décès...), il nous faut avant tout les outils informatiques nécessaires. L'atelier électronique devrait comprendre, dans l'idéal, à l'avenir (car pour l'essentiel nous n'en disposons pas):

1. Une indexation-lemmatisation semi-automatique des mots, formes et adresses principaux. Cette étape capitale (c'est la "machine-outil" de l'ensemble) suppose elle-même l'élaboration de sous-outils de haut niveau tels que ci-dessous;[5]

2. Catégorisation semi-automatique des mots, parties de mots, parties du discours (à défaut de traitement syntaxique complet);[6]

3. Regroupement semi-automatique des variantes graphiques (je rappelle que la première édition de l'Académie comprend 47,5% de mots à variantes, v. Figure 1);

4. Regroupement semi-automatique des formes fléchies sous le lemme, avec ici deux subdivisions:

lemme et formes modernes;
à un autre niveau, sous-lemmes et formes anciennes, étape supplémentaire indispensable pour comprendre et traiter le texte de gauche (v. plus loin, 6.2. Les formes fléchies, et Figure 2, Cotgrave; Figure 3, Les formes verbales anciennes);

5. [Donc] conjugateurs et déclinateurs modernes et anciens, nécessaires pour réaliser l'étape précédente (d'où aussi nécessité préalable, moins difficile qu'on ne pense, d'aller voir en fin des dictionnaires anciens que l'on traite s'il n'y a pas les conjugaisons des verbes et la déclinaison des noms et adjectifs, et elles s'y trouvent souvent). Il est en effet tout à fait inutile de surcharger les listes de référence internes en y intégrant 400.000 formes répétitives et inutiles;

6. Résolution semi-automatique des ambigüités. Les "notes" d'explication et l'apparat critique peuvent être évités dans beaucoup de cas par simple investigation et détection des ambigüités grâce aux contextes proches (surtout à gauche), type [nous] portions / [que nous les] portions, mais [de, les] portions [nom]. Parmi les ambigüités majeures, naturellement, on aura affaire aux demandes naïves de l'utilisateur du CD-Rom final du dictionnaire, qui voudra lister les formes de savons, et aura ainsi le pluriel de savon mais pas les formes anciennes de savoir, sçavons, scauons, etc. Donc, que fera-t-il avec les homographes du dictionnaire ancien? Ils sont encore plus imprévisibles que les homographes modernes.[7]

7. Dictionnaires électroniques de référence. Enfin et surtout, il faut, pour aborder valablement une édition ancienne d'envergure sous les aspects linguistiques qui nous intéressent ici, un ou plusieurs dictionnaires électroniques intégrés au logiciel de référence. Il est impossible, en effet, de prétendre traiter, regrouper même partiellement ou semi-automatiquement les adresses, mots, phrases et formes d'un dictionnaire ancien, avec toutes les lacunes que nous allons rencontrer (absence d'un ordre alphabétique strict, mots cachés, commentaires en latin, regroupements étymologiques ou analogiques, etc., v. Quemada 1968) sans avoir sous la main au moins deux types d'outils lexicaux de bon niveau, capables de fournir pour l'essentiel les informations manquantes ou lacunaires:

d'une part, un dictionnaire électronique actuel aisément consultable (d'environ 50.000 mots);
d'autre part, l'essentiel de l'adressage de ce dictionnaire ou texte ancien lui-même (et éventuellement d'autres) sous forme abordable et préalablement ordonnée.[8]

Conclusion provisoire: si vous pensez éviter tout ennui en "kilométrant" votre dictionnaire, sachez que, sans précautions ni outils, cela risquerait de vous retomber dessus d'une façon ou d'une autre.

[Suite] -- [Retour à la Table des matières]

Notes

3. Ex. la machine à collationner (Collating machine) de Charlton Hinman (1966), qui avait ainsi collationné 79 exemplaires du premier in-folio de Shakespeare (Kirsop 1970: 25); - P.H. Meyer (Droz, 1965), qui a consulté, à la main, quinze exemplaires différents de la Lettre sur les Sourds et Muets de Diderot (1751); - les onze exemplaires des Méditationes de prima philosophia de Descartes (Michel Soly, 1641), qui ont fait couler beaucoup d'encre (cf. C. Crapulli, Lessico Intellettuale Europeo, 1983); - les quinze exemplaires, identifiables en tout ou en partie, des Précieuses ridicules de Molière, datés de 1660, collationnés par J. Veyrin-Forrer (Veyrin-Forrer 1987), qui propose un regroupement fondé sur des indices externes (fleurons, caractères) ou internes (omissions, graphies, etc.).

4. Pour la segmentation en particulier, pourquoi jugerait-on certaines coupures de mots anciennes comme étant plus "arbitraires" que les nôtres? Pourquoi ne pas respecter des coupures comme la quelle, entant que, empoint, surquoi, nomplus, dont on pourrait aisément retrouver des équivalents aujourd'hui? En revanche, des coupures comme este scrit, end ormiz, etc., seront sans doute erronées.

5. Par procédures semi-automatiques, j'entends traitement avec possibilité d'interactivité et recours en cas de besoin à l'expert-utilisateur pour résoudre (ou décider par choix forcé) les cas les plus difficiles (v. plus loin, Résolution semi-automatique des ambigüités).

6. Une liste de deux à trois cents mots-outils, verbes auxiliaires, etc., permet avantageusement, à son tour, de catégoriser, grâce aux contextes proches, l'essentiel d'un texte français courant (v. N. Catach 1984, N. Catach & Jejcic 1984).

7. Les outils informatiques décrits ici se réfèrent au logiciel GRAPHIST de traitement et de modernisation des graphies anciennes du français (v. N. Catach 1994, L. Catach 1994; v. aussi en Figure 4, GRAPHIST: règles graphies anciennes, des exemples de règles de transformation automatique des graphies anciennes en orthographe moderne). Ce logiciel permet une double lemmatisation: lemmatisation des mots et formes anciennes (avec conjugateur-déclinateur intégrés fondés sur les paradigmes principaux de la langue du XVIe s., tels qu'ils sont répertoriés par ex. dans la Grammaire de R. Estienne 1557, dans les dictionnaires de Palsgrave 1530, Cotgrave 1611 et Nicot 1606); lemmatisation des mots et formes actuelles (les formes anciennes sont rassemblées sous les formes modernes correspondantes, et celles-ci sous le lemme actuel).

8. Voir N. Catach et al. 1994, tableaux initiaux, paragraphes et listes des modifications, ainsi que les travaux de Wooldridge (Wooldridge, 1977, 1992, 1994).