Russon Wooldridge

La stratégie de saisie informatique du corpus Estienne-Nicot (1531-1628) [1]

[Exemplier distribué en accompagnement d'une communication faite à un séminaire du laboratoire Histoire et structure des orthographes et des systèmes d'écriture (CNRS-HESO), Ivry-sur-Seine, décembre 1994.]

© 2001 R. Wooldridge

1. Le corpus global Estienne-Nicot : dictionnaires latin-français et français-latin
1.1. (Estienne) Latinae linguae Thesaurus (« Thesaurus »), 1531, 1536, 1543 : les deux premières éditions contiennent du français
1.2. (Estienne) Dictionarium latinogallicum (« DLG »), 1538, 1546, 1552, 1570 ; + réimpressions en 1590, 1591, etc.
1.3. Dictionaire francoislatin (« DFL »), 1539, 1549 (Estienne) ; 1564 (Thierry) ; 1573 (Nicot-Dupuys) : première édition = inversion du DLG
1.4. (Estienne) Dictionariolum puerorum latinogallicum, 1542, etc. (Estienne) : = abrégé du DLG, réédité jusqu'au premier tiers XVIIe s. dans des versions trilingues (surtout latin-français-grec)
1.5. (Estienne) Les mots francois tournez en latin pour les enfanz, 1544, etc. (> Petit dictionaire des mots francois tournez en latin pour les enfants) : = abrégé du DFL, réédité dans des versions trilingues...
1.6. Grand dictionaire françois-latin (« GDFL »), 1593, 1599, 1603, 1606 (Stoer) ; 1607 (Baudoin) ; 1609 (Marquis) ; 1609 (Poille) ; 1612 (Voultier) ; 1614 (de Brosses) : = rééditions augmentées du DFL ; certaines éditions sont réimprimées, par ex. Poille jusqu'en 1628, de Brosses jusqu'en 1625
1.7. (Nicot) Thresor de la langue françoyse (« Thresor »), 1606 : = réédition augmentée du DFL

2. Le corpus d'étude Estienne-Nicot : dictionnaires contenant du français non traité dans une série plus importante (donc exclusion des séries pour enfants)
2.1. Thesaurus 1531, 1536
2.2. DLG 1538, 1546, 1552, 1570
2.3. DFL 1539, 1549, 1564, 1573
2.4. GDFL 1593-1628
2.5. Thresor 1606

3. Filiation des textes du corpus Estienne-Nicot (les textes de la base sont en gras)

4. La base Estienne-Nicot : informatisation des ouvrages clés du corpus (permettant de recréer les autres : principe d'inclusion)
4.1. Thesaurus 1531, 1536 (la majeure partie du français ne passe pas dans le DLG) : texte français + vedettes latines = 1,20 Mo (les neuf dixièmes du texte sont du latin (mais intérêt capital du Thesaurus pour l'histoire de la lexicographie latine médiévale et moderne))
4.2. DLG 1552 (développement en grande partie indépendant par rapport au DFL ; 1552 inclut 1538-46 ; 1570 = 1552 en moins) : items bilingues = 7,80 Mo (environ la moitié du tout)
4.3. GDFL 1593-1628 (série indépendante du Thresor) : additions par rapport à l'édition précédente = 1,54 Mo (il s'agit de Stoer 1593-1599-1603-1606, Baudoin 1607, Marquis 1609, Poille 1609, Voultier 1612, de Brosses 1614)
4.4. Thresor 1606 (l'ouvrage clé du corpus ; inclut la presque totalité du DFL, dont chaque édition ne fait qu'ajouter à l'édition précédente) : le texte intégral = 7,53 Mo

5. Ordre de saisie
5.1. Thresor 1606 (moitié à Toronto, grâce à des subventions du CRSHC ; moitié à Nancy, grâce aux services de saisie de l'INaLF)
5.2. Dictionarium 1552 (Nancy) ; Thesaurus 1531-36 et GDFL 1593-1614 (Toronto)

6. Considérations matérielles, philologiques et pragmatiques
6.1. Choix de l'édition/exemplaire de saisie : autorité, lisibilité, accessibilité
6.2. Le respect de l'utilisateur : maximum de contrôle sur les types d'interrogations de la base, possibilité de contrôler sur l'original la justesse des données de la base -> enregistrement par lecteur optique de l'image graphique des pages de l'original
6.3. Représentation du texte
6.3.1. graphies, dont :
6.3.1.1. abréviations : tilde de consonne nasale, perluette, p/q à queue barrée, etc.
6.3.1.2. s long/court
6.3.1.3. i/j, u/v
6.3.1.4. accent virtuel : ex. A = à majuscule, etc.
6.3.2. mise en pages : jalons structurels : lettre, cahier/feuillet/page, colonne, ligne
6.3.3. mise en lignes : paragraphes, frontières de ligne
6.3.4. mise en mots :
6.3.4.1. variantes syntagmatiques : pource/pour ce, « Rage, Il vient de Rabies, en muant i vocal en i consonant, comme qui diroit Rab jes », etc.
6.3.4.2. apostrophe : d'aujourd'huy, etc.
6.3.4.3. apostrophe virtuelle : ex. jay
6.3.4.4. trait d'union : dit-on/tres-aggreable, etc.
6.3.5. typographie : romain/italique/grec/hébreu et tailles
6.3.6. langue : français, latin, grec, etc. ; cf. Cremasterôn, Rab jes, « Et per katakhrêsin Pour ce que le Latin dit [...] », f. (feminin/foemininus) [Les formes grecques sont translittérées.]
6.3.7. Normes de la base Estienne-Nicot : jalons pour Mise en pages, Adresse, Typographie et Langue ; résolution des abréviations ; modernisation de i/j, u/v ; actualisation des accents virtuels ; perte de la distinction s long/court (s court normalement final) ; respect des graphies et variantes syntagmatiques ; apostrophe indexée comme séparateur-lettre (aujourd'huy = « aujourd » + « ' » + « huy ») ; apostrophe virtuelle représentée par « * » (jay saisi j*ay, indexé « j » + « * » + « ay ») ; trait d'union indexé comme séparateur-lettre (dit-on = « dit » + « - » + « on »)
6.3.8. Normes INaLF-Frantext : graphie originale, sauf : résolution d'abréviations, neutralisation des deux s, modernisation de i/j, u/v ; jalons structurels de division textuelle et page ; mise en lignes originale ; jalons typographiques pour non-romain
6.3.9. Normes internationales actuelles : codage SGML ("Standard General Markup Language") de tous les traits matériels du texte, dont ornements, titres courants, réclames, abréviations, s/i/j/u/v originaux ; pour les deux derniers, l'original est figuré dans le métatexte (SGML), les résolutions/ modernisations peuvent être données en clair dans le texte.

7. Extraits du texte informatisé du Thresor (codés pour WordCruncher ; gras ajouté sur l'exemplier)

7.1. Articles RIBLER, RIBLEUR, RIBLERIE

|aa ·ribler |p569 ‹171› \ [F4] Ribler, [F/L3] acut. neutr. [F1] Est avec port d` armes troller çà et là, et courre ¦ sus à chacun, [L3] Grassari, [F1] Ainsi on dit, Il ne fait que ribler toute la ¦ nuict, [L3] Hac illacque, obuios quosque armis incursando perno¦ctat, [F1] Nicole Gilles en la vie de Loys [F2] XII. [F1] Il fut publié à son· de trom¦pe et cry public, que là où on trouveroit des advanturiers et autres ¦ larrons, riblans et mangeans les povres gens des villages, que sur l` heu¦re et sans appel, fussent pendus et estranglez, tuez, et desconfits.
|aa ·ribleur |p569 ‹178› \ Ribleur, [F/L3] m. acut. [L3] Grassator.
|aa ·riblerie |p569 ‹179› \ [F1] Riblerie, [F/L3] f. penac. {pencac.} [F1] Est course et trollerie avec port d` armes grevant les ¦ uns et les autres, [L3] Grassatio, Grassatura, [F1] Nic. Gilles en la vie de ¦ Louys [F2] XII. [F1] l` applique au fait de guerre legitime, ce qui est contre la ¦ naïfveté du mot. En ce dit an eut grande esmeute de guerre entre les ¦ Rois de France et d` Espagne en Picardie et en Champagne, où se ¦ trouva le Tres-chrestien Roy de France bien accompagné, et y eut plu¦sieurs courses et ribbleries les uns sur les autres, mais il n` y eut batail¦le universelle.

7.2. Article À (extrait)

‹140› \ [F1] Å prenant avec soy l` article du nom qu` elle precede, signifie semblance, fa¦çon, mode et maniere, comme, Il est vestu à l` Italienne, c` est à dire, à la ¦ semblance, mode et façon des Italiens, [L3] Cultu vestituque Italico vti¦tur. Liu. l. 23. [F1] si l'on n` aime mieux dire qu` en telles phrases, il y a elipse ¦ et subaudition de ce mot, façon ou maniere, et que Å signifie lors, ¦ Selon: comme, Il porte l` espée à l` Espagnole, c` est à la façon des Espagnols, ¦ c` est à dire, selon la mode des Espagnols.

7.3. Légende

« |aa ·ribler » Jalon WC Adresse : variable « aa », valeur « ribler ». [« ·ribler » figure dans la Liste des mots de la base dans un deuxième alphabet, celui des Adresses]
« |p569 » Jalon WC Page : variable « p », valeur « 569 »
« ‹171› » Jalon Colonne-ligne : colonne 1, ligne 71
« \ » Jalon Début d'alinéa
« [F4] » Jalon Langue-Typographie : français en grands romains
« [F/L3] » Jalon Langue-Typographie : français ou latin en romains moyens
« [F1] » Jalon Langue-Typographie : français en italique
« [F2] » Jalon Langue-Typographie : français en petits romains
« d` armes » Apostrophe de séparation, donc 2 mots. [Saisie/indexation plus simples : « d'armes » = « d » + « ' » + « armes »]
« l'on » Apostrophe de mot, donc 1 mot (cf. « d` armes »)
« courre ¦ sus » « ¦ » = Frontière de ligne
« trom¦pe » « ¦ » = Frontière de ligne (ligne 1 « ... trom- », ligne 2 «  pe ... »)
« son· » Forme de basse fréquence (son, n.m.) homographe d'une forme de haute fréquence (son, possessif). [Préédition lourde]
« {pencac.} » Forme textuelle fautive (précédée de la forme corrigée penac.)
« Tres-chrestien » Trait d'union de mot, donc 1 mot (cf. « dit -on » avec espace). [Saisie/ indexation plus simples : « dit-on » = « dit » + « - » + « on » ; de même, « Tres-chrestien »...]
« Å » Actualisation d'accent virtuel (« A » textuel = à majuscule)

8. Champs informationnels : informatisables ??? (gras ajouté sur l'exemplier)

« Thresor 1606 : Structures du microarticle Composants : Adresse, Variante, Catégorie grammaticale, Accentuation, Dérivation/Étymologie, Remarque sur l'Orthographe/Prononciation, Sens, Syntagme, Usage, Définition, Synonyme, Analogue, Dérivé, Équivalent, Cognate, Exemple forgé, Exemple signé, Source d'adresse/sens/usage/équivalent, Commentaire encyclopédique, etc. Un microarticle peut contenir entre un et la totalité des composants énumérés ci-dessus et dans un ordre à peu près imprévisible [...].
Comme modèle structural entre mille, prenons le cas relativement simple du microarticle AUMOSNIER. Le texte original est comme suit :

Ce qui pourrait s'analyser de la façon suivante : [...] Dans le premier alinéa de l'article CHAUSSETRAPE, la définition, l'exemple signé, les équivalents et analogues et l'étymologie (du latin) sont imbriqués dans un long commentaire sur la chose. [Mise en lignes modifiée pour l'exemplier.]


Notes

1. Les sections 1-2 et 4 sont prises essentiellement, les sections 3 et 8 textuellement, dans T.R. Wooldridge, « Structures du Corpus et de la Base Estienne-Nicot (1531-1628) », Historical Dictionary Databases. CCH Working Papers (University of Toronto, Centre for Computing in the Humanities), vol. 2 (1992), pp. 21-32; réédition in CH Working Papers, B.8 (1996). Pour une discussion des problèmes évoqués dans la section 6, voir id., Concordance du Thresor de la langue françoyse de Jean Nicot (1606) (Toronto, Éditions Paratexte, 1985), t. 1, pp. 1-8; adaptation en ligne.