Marie-Luce DEMONET

avec la collaboration de Marie-Hélène ANTONI

Université de Poitiers

http://www.mshs.uni v-poitiers.fr/Forell/Epistemon/Epistemon.htm

 

Du papier au support électronique et inversement: évolutions récentes du corpus rabelaisien

(Version du 15 avril 2000)

I. Historique.

Plutôt que de raconter en détail l’histoire de l’évolution d’un corpus rabelaisien depuis la première édition du Seuil en 1973, ce que nous avons fait ailleurs [1], je présenterai les développements rendus récemment possibles par la mise au point d’un nouvel outil adapté aux différentes formes des textes en moyen français, « Humanistica ». Le choix d’un roman de Rabelais pour la phase exploratoire signifie que si les problèmes sont résolus pour le Pantagruel, ils ont toutes chances de l’être pour des textes dont la langue et les éditions sont moins problématiques.

Pour mémoire, rappelons que l’édition du Seuil des Oeuvres de Rabelais, édition critique réalisée par Guy Demerson et son équipe à Clermont-Ferrand, était la première à présenter une traduction en français moderne en regard. Les principes de transcription de l’original correspondaient aux usages de l’époque, à savoir une honnête moyenne entre le respect des graphies anciennes et des interventions facilitant la lisibilité (accentuation systématique des participes passés, des « à » préposition, modernisation de la ponctuation, insertion de paragraphes et de guillemets, etc.). Toutefois, cette transformation du texte obligeait à des choix éditoriaux que d’autres rabelaisants n’avaient pas suivis; on s’aperçoit aisément, lorsqu’on veut ponctuer Rabelais « à la moderne », que trois ponctuateurs différents prennent des décisions divergentes (nous avons fait des tests très éclairants sur le Tiers Livre). En ce qui concerne la réaccentuation partielle des vocables, le résultat n’est pas non plus uniforme et l’on aboutit parfois à des monstres, ou à des graphies qu’on ne rencontre dans aucun texte de l’époque. Depuis les années 1970, les opinions ont considérablement évolué. Mireille Huchon, dans son édition des Oeuvres complètes de Rabelais (Pléiade, 1993), a pu obtenir de l’éditeur de ne pas moderniser la ponctuation, mais elle a dû réaccentuer à, dès, etc. et introduire une fragmentation étrangère aux originaux. Pour qui veut reproduire un état de la langue et de l’orthographe sans induire une quelconque interprétation en retouchant le texte, ces modifications sont gênantes. Les graphies sont en effet extrêmement variables, mais elles ne sont pas sans cohérence jusque dans leur variation même. Et comment étudier la variation si on la réduit d’avance ?

La seconde édition du Seuil (1995-1996) est reprise de l’édition bilingue publiée en 1973. Procurée par G. Demerson et M. Renaud, elle est parue en format de poche et en volumes séparés, en gardant la riche annotation d’origine mais en corrigeant les erreurs et en revenant à un état plus proche de l’original. Toutefois le lecteur retrouvera une partie des principes éditoriaux antérieurs : distinction de a et à, réaccentuation à la finale, modification de la ponctuation, adjonctions de paragraphes.

Notre travail, dans les années 1991-1997, à Clermont-Ferrand [2], a consisté à revenir à l’état original des exemplaires de référence (ceux de la Bibliothèque Nationale de France, sauf pour la Briefve Declaration), travail considérable qui pouvait apparaître comme une régression. Ce « retour à » pouvait nous créer deux catégories de critiques. Or un nouvel outil logiciel peut réconcilier à la fois les partisans d’une transcription diplomatique (que nous n’avons pas appliquée à dessein) et ceux d’une modernisation raisonnable.

Notre objectif est celui de la facilitation de la requête par une indexation efficace. Le CD-ROM Rabelais de 1995 a été une étape, relativement satisfaisante dans la mesure où le logiciel Hyperbase (créé par Etienne Brunet) est très performant comme outil d’indexation et d’analyse statistique. Toutefois, il n’opérait pas ce qu’on appelle la « lemmatisation » et interprète comme des mots différents les chaînes de caractères idee, idée, ydee, ydée... L’usager est obligé d’imaginer de façon tâtonnante les différentes graphies, parfois bien éloignées de nos usages: qui irait chercher spontanément cymmetrie et filosofe ?

Principes de numérisation de la base Rabelais.

Le labeur de révision sur les originaux a demandé plusieurs années avant que nous n’aboutissions au texte prêt dès 1993 à être enregistré sur le CD-ROM. L’utilisation du disque et de la version Internet a permis en outre de déceler un certain nombre d’erreurs, corrigées pour la version « fac-dissimilé » (Poitiers, 1999) et une deuxième version Internet en préparation.

Le maintien de la ponctuation à l’identique est fondamental. Contrairement à ce que l’on pourrait penser, il n’y a pas encore d’ouvrage consacré entièrement aux systèmes de ponctuation au XVIe siècle, même si les travaux de Nina Catach, de Mireille Huchon et d’André Tournon ont beaucoup fait avancer nos connaissances dans ce domaine. Il manque une comparaison systématique avec les graphies en usage dans les manuscrits, et surtout une vision diachronique qui permette de voir ce qui réellement a changé avec l’apparition de l’imprimerie. Pour la Renaissance, il faudrait poursuivre les travaux de M. B. Parkes, G. Ouy et C. Marchello-Nizia. Dans la dernière version du Rabelais (celle du fac-dissimilé), même l’absence de point à la fin d’un paragraphe est respectée: en effet, certains manuscrits médiévaux montrent que le blanc pouvait marquer une fin de phrase ou de paragraphe, sans signe de ponctuation.

On nous a reproché de dissimiler i/j et u/v selon l’usage moderne. Si nous le faisons, c’est parce que le traitement informatique et l’indexation seraient inutilement compliqués par ce maintien. Ainsi, trois options ont été conservées :

1.- la dissimilation des i/j et u/v, avait déjà été proposée par Alberti et certains humanistes comme Pierre de La Ramée, qui souhaitaient la correspondance entre phonème et graphème; elle n’a guère été pratiquée avant la fin du siècle mais elle n’est pas non plus anachronique; elle permet d’établir sans manipulations supplémentaires un dictionnaire compatible avec les indexations du français moderne.

2.- la résolution des abréviations utilisées alors pour la justification à droite et le gain d’espace facilite aussi le traitement automatique. Si elles sont un critère important pour la bibliographie matérielle, ces abréviations n’ont pas toujours d’intérêt linguistique immédiat. Les travaux engagés dans ce domaine doivent de toute manière recourir au fac-similé ou à la copie exacte de l’exemplaire considéré [3].

3 - la suppression des tirets de continuation, qui ont pu être maintenus dans la version fac-dissimilé.

La consultation du « Corpus Montaigne » et du CD-ROM « Dictionnaires du XVIe et du XVIIe siècles » [4] ne nous a pas convaincus de la nécessité de reproduire informatiquement un texte strictement à l’identique. Les problèmes de police se posent constamment et, pour qui souhaite d’abord la consultation en ligne, l’incompatibilité avec les navigateurs usuels est un obstacle majeur. En revanche, une poly-édition telle qu’elle est préparée pour Chaucer présente tous les atouts d’une édition critique totale. Telle n’est pas notre ambition, qui est d’abord de pratiquer une lemmatisation sur un vaste corpus.

Le CD-ROM des Electro-chronicques en 1994-95 est encore le seul de sa nature sur le marché. Un nouveau CD « Rabelais » est annoncé pour une date imminente, mais il fonctionnera sur un texte modernisé [5]. Depuis 1995, le développement d’Internet a été tel qu’une autre version actualisée nous est apparue plus profitable si elle se faisait en ligne, surtout accompagnée d’un programme de lemmatisation. La diffusion par E. Brunet des Electro-chronicques sur son site de Nice, dès août 1995, a rendu moins urgente à nos yeux la publication d’une version 2 bi-standard.

La version Internet a été le moyen le plus simple et le plus radical de permettre aux utilisateurs de tous les standards d’accéder à la base Rabelais. Par rapport à la version CD-ROM, elle présente moins de possibilités d’analyses statistiques et les images ne sont pas fournies en liens hypertextuels. La procédure d’interrogation est naturellement différente, puisqu’on ne dispose pas de toutes les possibilités sophistiquées d’Hyperbase. Néanmoins, cette version accessible à tous est la seule, à notre connaissance, qui présente des garanties d'une transcription réalisée par des universitaires tout en respectant les exemplaires originaux [6].

La version papier du fac-dissimilé, de ce fait, semblait ne pas s’imposer. Et pourtant, les Oeuvres romanesques que nous venons de publier rencontrent un public qui n’est pas mécontent de pouvoir lire sans trop d’effort les pages « reconstituées » d’une partie du corpus rabelaisien. Les microfilms des très précieux exemplaires restants ne sont pas de bonne qualité et les tirages papier assez mauvais: on en jugera par la reproduction que nous avons donnée des bandeaux et vignettes. Nous n’avons pas eu d’autre prétention que de fournir au lecteur une « simulation » des exemplaires originaux, à partir d’une transcription établie avec soin, résultat d’un véritable travail d’équipe.

L’utilisation d’un logiciel de P.A.O. (Quark Xpress) a amélioré considérablement les possibilités d’imitation des exemplaires d’origine. Chaque page du fac-dissimilé reproduit deux feuillets en vis à vis, c’est-à-dire quatre pages telles qu’elles apparaissent en feuilletant le livre. Le seul bricolage indispensable a été l’insertion du calligramme de la Bouteille issu d’une édition ultérieure, car il ne figurait pas dans l’exemplaire de référence. La pagination, naturellement, est factice : même si nous reproduisons les indications de l’original (parfois fautives), il a fallu numéroter systématiquement toutes les pages pour la constitution de l’index. Les coquilles ne sont corrigées que si elles correspondent à une faute typographique : elles ne sont pas signalées dans le texte mais figurent en fin de volume. L’idée était de ne pas parasiter la lecture avec un quelconque signe supplémentaire, appel de notes ou astérisque.

Ni le CD-ROM ni l’édition en fac-dissimilé n’offrent d’apparat critique, qui représente un autre travail, considérable. Tous les rabelaisants rêvent d’une édition totale, assortie de tous les hypertextes imaginables, compilant les notes intégralement citées des éditions antérieures, donnant tout aussi intégralement les sources et les interprétations, accompagnées d’une riche iconographie, de traductions, de glossaires et de liens avec les dictionnaires d’époque. Penser la navigation d’une telle édition hypercritique n’est pas une petite entreprise, et nous manquons encore d’exemples qui permettent de tester l’ergonomie de la sur-information [7]. On imagine à peu près ce qu’elle peut être sur un écran 20 pouces multi-fenêtres; mais qu’en restera-t-il sur un e-book ou un Palm-Pilot ?

Une deuxième version Internet est en préparation et ne sera probablement pas limitée à Rabelais, puisque les universités de Clermont-Ferrand et de Poitiers disposent d’un assez grand nombre de textes numérisés; des collaborations avec d’autres organismes et éditeurs possédant des textes de même nature s’avèrent possibles. Le projet « Humanistica », mené à Poitiers dans sa phase exploratoire avec la collaboration de la société IBM, et conçu prochainement pour une phase pré-industrielle, a pour objectif de constituer un outil de consultation optimisé.

II. Le projet « Humanistica » et ses implications éditoriales

Il y a plusieurs manières d’aborder le problème de l’hétérographie. L’idée qui préside à l’élaboration de l’outil Humanistica est non pas de partir d’une analyse spécifique de l’état de langue en question, mais d’évaluer les résultats d’un outil existant, conçu pour le français contemporain, et adapté à un corpus à graphie variable. Une autre approche en cours de développement est celle que poursuit le laboratoire de Fontenay-St Cloud (A. Salem, S. Heiden, S. Prévost) sur l’ancien et le moyen français, dont les résultats prometteurs ont été exposés au dernier colloque de la JADT en même temps que les nôtres [8]. Notre objectif étant non pas d’obtenir une analyse syntaxique fine permettant d’aboutir à une typologie des textes littéraires mais de faciliter la consultation et l’extraction de données à partir d’un corpus français, les deux projets sont plus complémentaires que concurrents.

Nous sommes donc partis de l’existant, à savoir des outils informatiques développés depuis une dizaine d’années qui permettent l’exploration de grands corpus. Les plus connus des littéraires sont les concordanciers qui permettent de rechercher des chaînes de caractères, des coocurrences, d’effectuer des tris, etc. Hyperbase a toutes les fonctions d’un concordancier, mais il en existe d’autres (CONC par exemple). Tout le monde connaît les fonctionnalités du logiciel d’interrogation qui gère la base FRANTEXT en ligne: Hyperbase peut désormais tourner sur ce corpus, et dernièrement un lemmatiseur permet des requêtes qui regroupent les formes conjuguées d’un verbe, les variations en genre et en nombre.

Toutefois, ces progrès récents ne permettent toujours pas une interrogation exhaustive: les variations graphiques non morphologiques ne sont pas rapportées à une graphie standard et le verbe traiter apparaît toujours comme différent de traicter. La difficulté peut être contournée en constituant une liste (traicter, traiter, treter) mais le repérage des graphies aura été antérieurement manuel ou intuitif, avec l’aide d’un index ou d’outils de troncature. Les calculs statistiques et la notion de même de « richesse lexicale » en sont quelque peu faussés.

Principes de fonctionnement d’Humanistica.

L’analyseur syntaxique.

La lemmatisation commence par l’identification d’unités linguistiques, avant normalisation des mots (graphiques) rencontrés. Dans un certain nombre de cas, plusieurs rattachements sont possibles : telle unité (voile, porte) pourrait être un verbe aussi bien qu’un nom. Dans ce cas nous nous servons du contexte syntaxique pour lever l’ambiguïté. Même si nous avons souvent l’impression de nous appuyer sur une compréhension globale de la phrase, la désambiguïsation syntaxique suffit le plus souvent. Les cas d’ambiguïté totale sont peu nombreux dans les documents réels (environ 5%).

Un texte analysé par un analyseur syntaxique informatique se présente donc comme le texte d’origine enrichi d’un certain nombre d’informations ; on parle alors de corpus taggé (enrichi de tags) ou annoté :

-1- on trouve des descriptions linguistiques, dans un vocabulaire métalinguistique « codé » ainsi, « Pronom Personnel Sujet 1° Personne » peut s’écrire « PPSUJ1 » ; ces descriptions peuvent être plus ou moins fines selon les objectifs visés par l’étiquetage. On peut parfois se satisfaire d’informations telles que « verbe »; on peut vouloir parfois identifier précisément le mode, le temps, etc. ;

-2- l’autre information que l’étiquetage rend disponible est précisément le lemme de rattachement de la forme rencontrée. Exemple: voluntiers (volontiers, ADV)

-3- enfin, dans les cas où la forme rencontrée n’a pas été identifiée, l’analyseur retourne une information « mot inconnu » dans le corps du texte, et génère par ailleurs un fichier indépendant dans lequel sont recensées toutes les graphies inconnues. Elles sont triées puis rangées par ordre de fréquence décroissante. Ce fichier est source d’information pour les enrichissements de dictionnaire à entreprendre. Il est souvent très intéressant dans la mesure où il contient ce qui est le plus atypique, c’est à dire le plus caractéristique d’un corpus. Dans le cas du corpus rabelaisien, on y retrouvera ses particularités, formes hétérographes et hapax savoureux (par exemple encornifistibuler, matagraboliser). Cette liste est très importante: c’est sur elle que se fondent nos analyses.

La disponibilité de tels outils, largement testés, ayant une bonne couverture de la langue et un bon niveau de fiabilité, est maintenant tout à fait avérée. Des initiatives telles que Grace, opération d’évaluation de ces analyseurs organisée conjointement par l’Aupelf-Uref et le CNRS, en recensent plus d’une vingtaine dont les performances se situent entre 94 et 97% de réussite. Ces outils fonctionnent bien pour le français contemporain.

L'idée fut donc de tester un analyseur du français moderne pour l'adapter à un corpus évolutif et hétérogène d'états de langue divers. Pour ce faire, nous avons contacté l'équipe de la société IBM en charge du développement des ressources linguistiques, afin de travailler à l’adaptation d’outils disponibles pour le français moderne. Nous avons entrepris en juillet 1999 de mettre au point un prototype sur un petit corpus présentant une variabilité extrême (Pantagruel de 1542).

Dans un premier temps, nous avons donc décidé de simplement « faire tourner » un analyseur classique sur le corpus de Rabelais, et d’observer le pourcentage de formes non identifiées. On trouvera le descriptif détaillé de la procédure dans le numéro 38 du Médiéviste et l’ordinateur. Après un premier traitement de ce corpus, il est apparu que près du tiers des mots étaient analysés comme des « mots inconnus » : ce pourcentage est réellement très important. Dans les faits, 3% des formes représentent plus de 60% des occurrences de mots inconnus.

Description des « inconnus ».

C’est donc à partir de l’observation de ces 3% que l’on a pu construire des règles (qui agissent aussi sur les 97% restants). Les cas non traités relèvent alors d’une description lexicographique classique.

On peut distinguer deux grands cas de figure : les expressions de la créativité lexicale d’un auteur en verve (que l’on ne peut résoudre par des règles) et les expressions de l’hétérographie ambiante. Dans les secondes, on déterminera les modes de flexion alternatifs (oit -> ait), et les variantes stables (y-> i).

S’il ne s’agit pas d’un phénomène régulier, le mot va rejoindre la liste des inconnus pour l’incrémentation du fond dictionnairique.

De telles règles ne peuvent cependant être appliquées aveuglément. Il est nécessaire de respecter deux conditions : la première est que cette règle soit caractéristique d’une réalité statistique, et pas seulement de notre connaissance de l’évolution des graphies. La seconde est qu’elle ne provoque pas des catastrophes sur des zones de lexiques qui ne sont pas concernées. Dans les cas où une situation n’est pas soluble par le recours à une règle, les formes rencontrées rejoignent le lot des hapax, et sont renseignées en tant que telles dans le dictionnaire.

L’impact d’une abondance de règles entrant en collusion les unes avec les autres ne doit pas être sous-estimé : ainsi, dans un certain état de notre travail, une forme non identifiée eschollier s’est vue lemmatisée sur « écouler » !

Il faut donc mesurer les conséquences de chacune des règles, mais dans l’ensemble les résultats sont satisfaisants: nos divers sondages dans le corpus nous laissent au dessus de 95% de réussite.

En voici un extrait :

Tres (très,ADV) illustres (illustre, AQ) et (CCOO) Tres (très, ADV) chevaleureux (AQ) champions (champion, AQ), (SEP) gentilz (gentil, AQ) hommes (homme, NM), (SEP) et (CCOO) aultres (autre, AQ), (SEP) qui (PREL) voluntiers (volontiers, ADV) vous (PPSUJ) adonnez (adonner, V) a (à, PREP) toutes (tout, AIND) gentillesses (gentillesse, NF) et (CCOO) honnestetez (honnêteté, NF), (, SEP) vous (PPSUJ) avez (avoir, V) n' (ne, *NE) a (avoir, AUX) gueres (guère, ADV) veu (voir, V), (SEP) leu (NM), (SEP) et (CCOO) sceu (scavoir, V), (SEP) les (le, DDEF) grandes (grand, AQ) et (CCOO) inestimables (inestimable, AQ) Chronicques (chronique, NF) de (*A/DE) l' (le, DDEF) enorme (énorme, AQ) geant (géant, NM) # (Gargantua, NP)Gargantua (NP)  : (SEP) et (CCOO) comme (ADV) vrays (vrai, AQ) fideles (fidèle, NM) les (le, PPOBJ) avez (avoir, AUX) creues (croire, V), (SEP) gualantement (ADV), (SEP) et (CCOO) y (PPOBJ) avez (avoir, V) maintesfoys (ADV) passe (NM) vostre (votre, DPOS) temps (NM) avecques (avec, ADV) les (le, DDEF) honorables (honorable, AQ) Dames (dame, NF) et (CCOO) Damoyselles (damoiselle, NF).

Application 1: Les recherches d’attribution.

Beaucoup de textes sont encore en quête d’auteur. Pour Rabelais, le cas le plus célèbre est celui du Cinquième Livre, paru dix ans après la mort de l’auteur présumé. La méthode utilisée par Mireille Huchon s’appuyait sur les écarts réduits (Charles Müller) et sur une comparaison soignée entre un manuscrit et les éditions de ce texte, relativement aux résultats observés pour les textes authentiques. Les traitements informatiques opérés dans les années 1970 se fondaient de leur côté sur des traits stylistiques (fréquence des adjectifs en -ique ou des adverbes en -ment); Hyperbase (sur le CD-ROM) permet aussi d’analyser et de comparer la richesse lexicale de tous les textes de Rabelais et para-rabelaisiens, mais sur des graphies non regroupées. Donc, si l’on parvient à effectuer la lemmatisation, ce seront bien des mots (des lemmes) qui seront pris en compte et non des graphies soumises, tantôt à la révision soigneuse de l’auteur (cas du Tiers et du Quart Livre) ou aux usages variés des ateliers d’imprimerie (cas du Cinquième Livre).

Naturellement, si l’on part d’un texte en orthographe modernisée, la question ne se pose plus. Elle se repose à nouveau si l’on veut comparer, par exemple, le Cinquième Livre à un corpus appartenant à un autre auteur; si celui-ci n’a pas été également modernisé selon les mêmes principes, la comparaison reste soumise aux variations graphiques, et ainsi de suite. Pour être cohérent, il faudrait moderniser tout le corpus de FRANTEXT.

Application 2: La gestion automatique des variantes.

Plusieurs outils permettent actuellement de comparer deux textes semblables pour en faire apparaître les différences (Compare, par ex.). Mais, une fois encore, les différences qui vont apparaître seront purement graphiques. Soient deux états du corpus rabelaisien:

Après traitement par Humanistica, ne resteront que:

- les variantes de ponctuation

- les variantes significatives (mots en gras)

En revanche, les variantes graphiques seront neutralisées (mots en contour).

On voit l’intérêt d’une telle procédure pour l’établissement d’éditions génétiques, où l’éditeur disposant de différentes versions d’un même texte, est jusqu’à présent obligé de traquer les différences en triant manuellement les types de variantes. Le cas de grand/ grande (en italiques) reste entier : faudra-t-il le traiter comme une variante graphique? [9]

Application 3: l’optimisation des OCR.

Cet aspect peut sembler entièrement prospectif, mais il faut déjà songer qu’un thésaurus de formes lemmatisées manque aux actuels logiciels de reconnaissance de caractères, jusqu’ici associés à des dictionnaires standards. Or le problème de la lecture optique des exemplaires anciens est, comme on sait, un obstacle majeur à l’obtention de textes numérisés automatiquement. Actuellement, la saisie des ouvrages antérieurs au XIXe siècle se fait pour la plupart de façon manuelle. Deux problèmes techniques sont à résoudre: la reconnaissance fine des formes elles-mêmes, qui corrige les imperfections de l’original; la consultation d’un dictionnaire adéquat pour aider le logiciel à compléter un caractère manquant par le recours à une forme connue. Le premier problème est en cours de résolution grâce à l’apparition de puissants lecteurs optiques qui opèrent directement sur les ouvrages sans recourir à un support intermédiaire (microfilm) et sans endommager le document. En outre, les laboratoires travaillant sur l’ingénierie de l’image s’attachent à perfectionner les logiciels de restitution maximale des formes. La résolution du second problème suppose l’articulation du travail sur le perfectionnement de l’image au dictionnaire généré par Humanistica. C’est une étape ultérieure envisageable désormais.

Pour continuer dans la prospective: la gestion automatique des variantes graphiques devrait aider à perfectionner les procédures d’extraction de connaissances à partir d’environnements sémantiques.

Reprenons les objections possibles :

Si l’on tient absolument à partir d’une transcription diplomatique, l’outil pourrait également s’appliquer. L’insertion de tildes serait de toute manière associée à une règle de réécriture qui renverrait à la transcription complète. Par exemple, si on a avõs, le logiciel comprend avons et Humanistica annote selon ce qu’il connaît. Les signes d’abréviation sont aussi interprétables informatiquement. L’édition diplomatique intervient en amont et son maintien demande un travail supplémentaire d’encodage dont on peut faire l’économie, comme pour la fameuse s longue transcrite ƒ. La question est-elle différente si l’on tient à conserver les u, v, i, j tels qu’ils apparaissent dans les éditions anciennes ? Ce sont, on le sait des graphies de positionnement dont le maintien, sur le plan scientifique, est d’intérêt limité: en théorie, il suffirait d’introduire de nouvelles règles dans le logiciel et de lemmatiser beuueur sur buveur; en pratique, il faudrait vérifier si les nouvelles règles ne remettent pas en question le fonctionnement des précédentes, comme dans le cas eschollier/ écouler. Nul doute que certains choix devront être opérés après tests de rentabilité.

Si l’on tient à moderniser partiellement, Humanistica fonctionne de même, comme si les graphies « inventées » par l’éditeur étaient des variantes supplémentaires. L’avantage d’Humanistica est de pouvoir s’appliquer à des états de langues divers, y compris sur des formes modernisées [10].

Conclusion.

Le corpus rabelaisien n’a pas terminé ses métamorphoses. Les prolongements espérés à travers le développement d’Humanistica ouvrent la voie vers la lemmatisation d’un état de langue antérieur au français moderne beaucoup plus vaste et adaptable à différents types de textes. L’intérêt éditorial est assez évident, que l’objet produit soit une édition papier ou une édition électronique. La version papier apparaîtra comme un extrait d’une édition hypertextuelle plus vaste stockée sur un serveur. Au-delà de Rabelais, l’intérêt patrimonial est tout aussi manifeste puisque la procédure mise au point sur ce corpus peut être étendue à l’archivage et à la consultation assistée des textes anciens, quelle que soit leur nature [11]. Le travail effectué sur ce texte ne réduit en rien l’intérêt de sa lecture : les nouveaux modes d’exploration ne font qu’en creuser la singularité.

Bibliographie du corpus considéré:

- Œuvres, éditées par G. Demerson, éditions du Seuil, 1973.

- Les Electro-chronicques de Rabelais (E. Brunet, M.-L. Demonet), CD-ROM pour MacIntosh, Paris, les Temps qui Courent, 1995.

- version Internet (1995) sur http://lolita.unice.fr

- Œuvres, par G. Demerson et M. Renaud, éditions du Seuil, 1996.

- Œuvres romanesques, éd. en « fac-dissimilé » par M.-L. Demonet et le laboratoire EQuIL XVI (Clermont-Ferrand), Poitiers, La Licorne, 1999.

- les oeuvres de Rabelais dans un corpus XVIe-XVIIe siècle (en ligne), avec lemmatisation sur graphies anciennes, projet en cours.

Autres références:

- Œuvres, édition établie et annotée par Mireille Huchon, Paris, Gallimard, « Bibliothèque de la Pléiade », 1994.

- Oeuvres complètes, éd. J. Céard, G. Defaux et M. Simonin, Paris, Le Livre de Poche, 1994.

ANTONI Marie-Hélène, DEMONET Marie-Luce, « Informatisation et lemmatisation du corpus rabelaisien », Le Médiéviste et l’ordinateur, n° 38, février 2000.

DEMONET Marie-Luce, « L’édition électronique d’une oeuvre littéraire : Les Electro-chronicques de Rabelais », dans Banques de données et hypertextes pour l’analyse du roman, édité par Nathalie Ferrand, Paris, Presses Universitaires de France, 1996, p. 119-136.

- « Littérature de la Renaissance et informatique. Sur les Electro-chronicques de Rabelais », dans Éditer et traduire Rabelais à travers les âges, éd. Paul J. Smith, Amsterdam, Atlanta, 1997, p. 233-247.

HUCHON Mireille, Rabelais grammairien, Genève, Droz, 1981.

TOURNON André, Les Essais, Paris, Imprimerie Nationale, 1998-99.


1. En collaboration avec Marie-Hélène Antoni, dans Le Médiéviste et l'ordinateur, nø 38.

2. Dans le cadre du laboratoire EQuIL XVI de l'Université Blaise Pascal.

3. Un groupe de travail sur les abréviations s'est mis en place dernièrement à l'Université Paris III, sous la direction de Nelly Andrieux et Sonia Branca.

4. Champion-Bibliopolis, 1997, et Champion-électronique, 1999. Le lignage des éditions originales n'est cependant pas maintenu.

5. Champion-électronique (gestion réalisée par E. Brunet sur Hyperbase, version Mac et Windows).

6. Les textes rabelaisiens figurant dans FRANTEXT sont issus d'éditions plus anciennes appliquant un aménagement des graphies. La version de F. Bon sur le site Athena mériterait une sérieuse révision, mais elle a le mérite d'être en accès libre.

7. Un projet de collaboration est en cours à l'Université de Poitiers, entre une équipe de littéraires et de linguistes, et un laboratoire de psychologie cognitive.

8. Journées d'analyse de données textuelles, Lausanne, mars 2000.

9. Bien entendu, on peut aller très loin dans la distinction des variantes graphiques (graphétiques ou graphémiques). Sur cette question et l'édition hypertextuelle des Canterbury Tales, voir l'article de Peter M. W. Robinson « Is there a Text in These Variants ? », dans The Literary Text in the Digital Age, Ann Harbor, University of Michigan Press, éd. Richard J., Finneran, 1996, p. 99-115.

10. André Tournon vient de publier une édition des Essais où la ponctuation manuscrite de l'exemplaire de Bordeaux est strictement respectée mais où les graphies sont modernisées.

11. La phase exploratoire du projet Humanistica a été réalisée grâce au soutien de la Maison des Sciences de l'Homme et de la Société (Poitiers) et du CNRS.