3. Un cas de lemmatisation interactive: COGNOISTRE

Si, dans un texte de français moderne, on veut réunir les formes textuelles du verbe connaître et de ses dérivés préfixaux, on n'a qu'à chercher les occurrences de la base -conn- suivie de -aI- (ai ou ) ou de -U- (u ou û) et éventuellement précédée de in-, - ou re-. Les choses sont moins simples dans un texte de français préclassique. S'intéressant aux formes de -COGNOISTRE [10], on doit tenir compte de plusieurs variantes de la base et de davantage de voyelles initiales des flexions. Dans un corpus d'étude comprenant Estienne 1531, Martin 1547, Cest la deduction 1551, Estienne 1552, Vigenere 1586, Stoer 1599, Stoer 1603, Stoer 1606, Nicot 1606, Marquis 1609, Poille 1609, Voultier 1612 et de Brosses 1614 (« Corpus 1531-1614 »), la typologie des composantes est la suivante: Muni de cette typologie, on peut, pour l'examen d'un autre texte X de la même période, essayer de formuler une règle qui cherche toutes les formes en -congn-, -cogn-, -con- ou -conn- précédées de re- ou mes- et suivies de -eu- (diacrisé ou non), -oi-, -oy- ou -u- de façon à ce que les formés retrouvées comprennent toutes les réalisations de -COGNOISTRE et rien de plus. Il y a deux raisons de ne pas procéder ainsi: d'une part la difficulté de formuler une telle règle et d'autre part le risque de ne pas trouver toutes les formes du verbe -COGNOISTRE (par exemple connestre dans Poille). Il vaut mieux définir une règle approximative qui ramasse tout ce que l'on recherche plus quelques autres formes (encongneure, cicogne, conestable, fauconnerie, etc.) que l'on peut toujours rejeter par la suite. Dans TACT [11], la règle demande les séquences congn, cogn, con et conn précédées de quelque chose (dont rien) et suivies de e, o ou u (diacrisés ou non) plus quelque chose (dont rien). Appliquée au Corpus 1531-1614, cette règle rendra un certain nombre de mots latins (dont différentes formes de cognosco, recognosco, mais non pas cognitio, cognitor). Pour ne capter que des formes françaises (dans une base contenant des jalons à variable « lang » et à valeur « f », « l », etc. [12]) tout en élargissant le champ d'enquête aux mots issus de lat. cognosco, on peut la modifier ainsi: Cette requête [13], en plus de ramasser toutes les formes de cognoistre, mescognoistre, recognoistre et incogneu, permet d'inclure, outre le nom attendu -COGNOISSANCE, d'autres mots et formes non prévus et pourtant bien attestés au XVIe siècle: variantes (méconoitre Stoer 1606), verbes (descognoistre Nicot, Poille; entreco(n)gnoistre Estienne 1531 s.v. ADMODUM et NOS, Estienne 1552 s.v. INTERNOSCO et NOSCO, Nicot; preco(n)gnoistre Estienne 1552 s.v. PRAECOGNOSCO et PRAENOSCO, Marquis), noms (descognoissance Nicot; precongnoissance Estienne 1552 s.v. PRAENOTIO et PRAESENSIO; precognition Estienne 1552 s.v. PRAENOTIO), participes adjectivaux (trescongneu Estienne 1552 s.v. COGNITISSIMUS), adjectifs (cognoissable Poille) [14]. Notre texte X, en l'occurrence la Venerie (traité de cynégétique) de Jacques du Fouilloux, ajoute à la liste le substantif cognoisseur, peu attesté au XVIe siècle.

Il ne s'agit pas seulement de trouver mais aussi et surtout de découvrir.

4. De proche en proche (2)

Le vocabulaire thématique d'un texte peut être réuni à partir de la recherche de mots clés dans un premier temps, et dans un deuxième temps en examinant les contextes des occurrences de leurs cooccurrents. Pour répertorier le vocabulaire des plantes chez Estienne (Estienne 1552) et Nicot, nous avons pris comme point de départ une liste de mots clés établie d'après notre connaissance fragmentaire du texte (cumul de lectures partielles linéaires et verticales multiples). Il s'agit de termes génériques (arbre, fleur, herbe, espece, sorte, etc.), de marques d'usage spécialisé (apothicaires, herboristes, etc.) ou de variété linguistique (vulgaire, etc.) et de noms d'auteurs de traités techniques (Columelle, Pline, etc.). La liste complète est la suivante: arbor, arbre, arbreau, fleur, flos, fructus, fruict/fruit, frutex, herba, herbe, noix, nux, plante; apothicaires/apoticaires, arboristes, architectes, boutiques, herbarii, herbiers, herboristes, jardiniers, medecins, officinae, pharmacopolae, rustici, rustiques, villageois, vulgaire, vulgairement, vulgo, vulgus; Aetius, Cato/Caton, Celsus, Columella/Columelle, Dioscoride/Dioscorides, Fuschius, Galenus/Galien, Matthiole, Pline/Plinius, Ruel/Ruellius, Theophraste/Theophrastus, Varro/Varron; espece, genus, sorte, species. Dans le passage suivant, les mots clés sont herbe, herbiers, jardiniers, architectes et vulgairement; les cooccurrents thématiques (c'est-à-dire, des noms de plantes) des mots clés sont branque ursine, patte d'ours, acanthus, acanthe et branche ursine: Les cooccurrents thématiques (noms de plantes, fruits et fleurs) de l'ensemble des deux dictionnaires comprennent des mots comme abricot, abricotier, absince, absinthium, absynce, absynse, absynthe, absynthium, acacia, acacie, acanthe, acanthion, acanthium, acanthus, ache, aconit, aconitum, acorna, acrifolium, afrodile, agaric, agaricum, agrifolium, agripaume, aigremoine, ail, aillade, ailloignon, etc. Nous arrivons ainsi à recenser chez Estienne et Nicot plus de 3000 noms de plantes, fruits et fleurs, chiffre qui comprend dénominations françaises, latines et grecques, dont variantes, formes savantes et populaires, plus quelques dénominations espagnoles, italiennes, allemandes et anglaises. Ce genre de compilation de proche en proche nécessite en fait plusieurs étapes, puisque les unités thématiques ne sont pas toujours des cooccurrents de mots clés. Par exemple, le mot ribes ne s'emploie qu'une fois dans le corpus Estienne-Nicot, comme cooccurrent de groselier rouge. La piste est la suivante: mot clé Plin. (Pline) -> « Paliurus [...] Plin. Virg. Les uns dient que c'est l'aubepin, les autres le groselier: aucuns l'appellent ioncmarin. » (Estienne); groselier -> « Ribes, c'est le groselier rouge. » (Nicot).

Nous sommes pleinement conscient du fait que cette liste est compréhensive et non exhaustive [15]; c'est une approximation du total. On a le choix entre le relativement rapide et relativement complet dépouillement assisté par ordinateur et l'ardu dépouillement exhaustif manuel exigeant la lecture totale du texte, exhaustivité qui est à tout moment ôtage de l'inattention [16].

[Suite] -- [Retour à la table]


Notes

10. Nous donnons comme archilexème la forme canonique, c.-à-d. la plus usuelle, du XVIe-déb. XVIIe s.

11. Logiciel de recherche de données textuelles interactive pour système MS-DOS écrit par J. Bradley, L. Presutti et M. Stairs, Université de Toronto.

12. La valeur « f » (français) de la variable « lang » (langue) s'applique au texte qui suit le jalon « <lang f> » (le jalon est délimité par des crochets triangulaires) jusqu'à l'occurrence d'un nouveau jalon à variable « lang ». Par exemple: « <lang f><typo ital> Recognoistre son sing, <lang l><typo rom> Chirographum cognoscere. » (Nicot 1606 s.v. SING).

13. Au demandeur de mesurer le coût/rendement de la formule « .*con.* ».

14. Descognoistre et descognoissance remontent à Thierry 1564; precongnoistre (precognoistre), precongnoissance (precognoissance), precognition et trescongneu (trescogneu) remontent tous à Estienne 1546.

15. Par exemple, il n'y a aucune piste menant de la liste de mots clés à l'item suivant: « Girofle, ou clou de girofle, Caryophyllon. » (Nicot).

16. Voir aussi Wooldridge 1985.