3. Un cas de lemmatisation interactive: COGNOISTRE
Si, dans un texte de français moderne, on veut réunir les formes textuelles du verbe
connaître et de ses dérivés préfixaux, on n'a qu'à
chercher les occurrences de la base -conn- suivie de -aI- (ai ou
aî) ou de -U- (u ou û) et éventuellement
précédée de in-, mé- ou re-. Les choses sont
moins simples dans un texte de français préclassique. S'intéressant aux
formes de -COGNOISTRE [10], on doit tenir compte de
plusieurs variantes de la base et de davantage de voyelles initiales des flexions. Dans un corpus
d'étude comprenant Estienne 1531, Martin 1547, Cest la
deduction 1551, Estienne 1552, Vigenere 1586, Stoer 1599,
Stoer 1603, Stoer 1606, Nicot 1606, Marquis 1609,
Poille 1609, Voultier 1612
et de Brosses 1614 (« Corpus
1531-1614 »), la typologie des composantes est la suivante:
- Bases: -congn-/-cogn-/-con-/-conn-
- Flexions: -eu, -eue, -euë, -eüe, -ëue,
-eues, -euës, -eurent, -eus, -eusmes, -eusse,
-eussent, -eussiez, -eust, -eut, -euz; -oi, -ois,
-oissans, -oissant, -oissants, -oissantz, -oisse, -oissent,
-oisses, -oissez, -oissiez, -oissions, -oissoie, -oissoient,
-oissois, -oissoit, -oissons, -oissoy, -oissoye,
-oissoyent, -oissoyt, -oist, -oistra, -oistras, -oistray,
-oistre, -oistrez, -oistrions, -oistroient, -oistroit,
-oistrons, -oistront, -oistroy, -oistroyt, -oit, -oitre,
-oy, -oys; -u, -ue, -uë, -ues, -uës,
-urent, -us, -ust, -ut
- Préfixes: ZÉRO/re-/mes-
Muni de cette typologie, on peut, pour l'examen d'un autre texte X de la même
période, essayer de formuler une règle qui cherche toutes les formes en
-congn-, -cogn-, -con- ou -conn- précédées
de re- ou mes- et suivies de -eu- (diacrisé ou non), -oi-,
-oy- ou -u- de façon à ce que les formés retrouvées
comprennent toutes les réalisations de -COGNOISTRE et rien de plus. Il y a deux
raisons de ne pas procéder ainsi: d'une part la difficulté de formuler une telle
règle et d'autre part le risque de ne pas trouver toutes les formes du verbe
-COGNOISTRE (par exemple connestre dans Poille). Il vaut mieux définir
une règle approximative qui ramasse tout ce que l'on recherche plus quelques autres formes
(encongneure, cicogne, conestable, fauconnerie, etc.) que l'on peut
toujours rejeter par la suite. Dans TACT [11], la
règle
.*congn[eou].*, .*cogn[eou].*, .*con[eou].*, .*conn[eou].*
demande les séquences congn, cogn, con et conn
précédées de quelque chose (dont rien) et suivies de e, o ou
u (diacrisés ou non) plus quelque chose (dont rien). Appliquée au Corpus
1531-1614, cette règle rendra un certain nombre de mots latins (dont différentes
formes de cognosco, recognosco, mais non pas cognitio, cognitor).
Pour ne capter que des formes françaises (dans une base contenant des jalons à
variable « lang » et à valeur « f »,
« l », etc. [12]) tout en élargissant
le champ d'enquête aux mots issus de lat. cognosco, on peut la modifier ainsi:
.*cogn.*, .*congn.*, .*con[eou].*, .*conn.* ; when lang f
Cette requête [13], en plus de ramasser toutes les formes de
cognoistre, mescognoistre, recognoistre et incogneu, permet d'inclure,
outre le nom attendu -COGNOISSANCE, d'autres mots et formes non prévus et
pourtant bien attestés au XVIe siècle: variantes (méconoitre Stoer
1606), verbes (descognoistre Nicot, Poille; entreco(n)gnoistre
Estienne 1531 s.v. ADMODUM et NOS, Estienne 1552
s.v. INTERNOSCO et NOSCO, Nicot;
preco(n)gnoistre Estienne 1552 s.v. PRAECOGNOSCO
et PRAENOSCO, Marquis), noms (descognoissance Nicot;
precongnoissance Estienne 1552 s.v. PRAENOTIO et PRAESENSIO; precognition Estienne 1552 s.v. PRAENOTIO), participes adjectivaux (trescongneu Estienne 1552 s.v. COGNITISSIMUS), adjectifs (cognoissable Poille) [14]. Notre texte X, en l'occurrence la Venerie (traité
de cynégétique) de Jacques du Fouilloux,
ajoute à la liste le substantif cognoisseur, peu attesté au XVIe siècle.
Il ne s'agit pas seulement de trouver mais aussi et surtout de découvrir.
4. De proche en proche (2)
Le vocabulaire thématique d'un texte peut être réuni à partir de la
recherche de mots clés dans un premier temps, et dans un deuxième temps en
examinant les contextes des occurrences de leurs cooccurrents. Pour répertorier le
vocabulaire des plantes chez Estienne (Estienne 1552) et
Nicot, nous avons pris comme point de départ une liste de mots clés établie
d'après notre connaissance fragmentaire du texte (cumul de lectures partielles
linéaires et verticales multiples). Il s'agit de termes génériques
(arbre, fleur, herbe, espece, sorte, etc.), de marques d'usage
spécialisé (apothicaires, herboristes, etc.) ou de
variété linguistique (vulgaire, etc.) et de noms d'auteurs de traités
techniques (Columelle, Pline, etc.). La liste complète est la suivante: arbor,
arbre, arbreau, fleur, flos, fructus, fruict/fruit,
frutex, herba, herbe, noix, nux, plante;
apothicaires/apoticaires, arboristes, architectes, boutiques,
herbarii, herbiers, herboristes, jardiniers, medecins,
officinae, pharmacopolae, rustici, rustiques, villageois,
vulgaire, vulgairement, vulgo, vulgus; Aetius,
Cato/Caton, Celsus, Columella/Columelle,
Dioscoride/Dioscorides, Fuschius, Galenus/Galien,
Matthiole, Pline/Plinius, Ruel/Ruellius,
Theophraste/Theophrastus, Varro/Varron; espece,
genus, sorte, species. Dans le passage suivant, les mots clés sont
herbe, herbiers, jardiniers, architectes et vulgairement; les
cooccurrents thématiques (c'est-à-dire, des noms de plantes) des mots clés
sont branque ursine, patte d'ours, acanthus, acanthe et branche
ursine:
<lang f><typo grom> Branque ursine, <typo ital> Est une herbe ainsi
nommée par les herbiers, Patte d'ours par les jardiniers,
<lang l><typo rom> Acanthus, <lang f><typo ital> Les architectes la
nomment vulgairement Acanthe, voyez <typo rom> Branche ursine.
Les cooccurrents thématiques (noms de plantes, fruits et fleurs) de l'ensemble des deux
dictionnaires comprennent des mots comme abricot, abricotier, absince,
absinthium, absynce, absynse, absynthe, absynthium,
acacia, acacie, acanthe, acanthion, acanthium,
acanthus, ache, aconit, aconitum, acorna, acrifolium,
afrodile, agaric, agaricum, agrifolium, agripaume,
aigremoine, ail, aillade, ailloignon, etc. Nous arrivons ainsi à
recenser chez Estienne et Nicot plus de 3000 noms de plantes, fruits et fleurs, chiffre qui comprend
dénominations françaises, latines et grecques, dont variantes, formes savantes et
populaires, plus quelques dénominations espagnoles, italiennes, allemandes et anglaises. Ce
genre de compilation de proche en proche nécessite en fait plusieurs étapes, puisque
les unités thématiques ne sont pas toujours des cooccurrents de mots clés.
Par exemple, le mot ribes ne s'emploie qu'une fois dans le corpus Estienne-Nicot, comme
cooccurrent de groselier rouge. La piste est la suivante: mot clé Plin. (Pline)
-> « Paliurus [...] Plin. Virg. Les uns dient que c'est
l'aubepin, les autres le groselier: aucuns l'appellent ioncmarin. » (Estienne);
groselier -> « Ribes, c'est le groselier
rouge. » (Nicot).
Nous sommes pleinement conscient du fait que cette liste est compréhensive et non
exhaustive [15]; c'est une approximation du total. On a le choix
entre le relativement rapide et relativement complet dépouillement assisté par
ordinateur et l'ardu dépouillement exhaustif manuel exigeant la lecture totale du texte,
exhaustivité qui est à tout moment ôtage de l'inattention [16].
[Suite] -- [Retour à la table]
Notes
10. Nous donnons comme archilexème la forme canonique, c.-à-d. la plus usuelle,
du XVIe-déb. XVIIe s.
11. Logiciel de recherche de données textuelles interactive pour système MS-DOS
écrit par J. Bradley, L. Presutti et M. Stairs, Université de Toronto.
12. La valeur « f » (français) de la variable
« lang » (langue) s'applique au texte qui suit le jalon
« <lang f> » (le jalon est délimité par des crochets
triangulaires) jusqu'à l'occurrence d'un nouveau jalon à variable
« lang ». Par exemple: « <lang f><typo ital>
Recognoistre son sing, <lang l><typo rom> Chirographum cognoscere. »
(Nicot 1606 s.v. SING).
13. Au demandeur de mesurer le coût/rendement de la formule
« .*con.* ».
14. Descognoistre et descognoissance remontent à Thierry 1564; precongnoistre (precognoistre),
precongnoissance (precognoissance), precognition et trescongneu
(trescogneu) remontent tous à Estienne
1546.
15. Par exemple, il n'y a aucune piste menant de la liste de mots clés à l'item
suivant: « Girofle, ou clou de girofle,
Caryophyllon. » (Nicot).
16. Voir aussi Wooldridge 1985.