Nous prendrons pour acquis que le chercheur a une connaissance 'conventionnelle' de son corpus d'étude: par exemple, il en a étudié le contexte socio-historique, la genèse et la réception de l'oeuvre, sa place dans la tradition du genre; il a fait plusieurs lectures du texte imprimé et il en connaît les structures patentes (division de la pièce de théâtre en actes, scènes et personnages; du dictionnaire en macrostructure alphabétique et microstructure récurrente; du roman policier en crime, enquête et élucidation; du traité technique en livres et chapitres thématiques). Il est pourtant conscient du fait que l'imprimé le contraint à des lectures toujours partielles, puisque linéaires, et que la mise à découverte de nombre d'ensembles et de structures textuels ne peut s'obtenir que par une maîtrise globale du texte. L'ordinateur, s'il ne peut lui donner l'omniscience, lui offre néanmoins l'ubiquité, en lui permettant de convertir son corpus en base de données textuelles et ainsi faire des lectures verticales qui traversent tout le texte.
Par mise à découverte nous entendons, et la mise au jour de ce qui était simplement caché par la linéarité du texte imprimé (les occurrences de A connu), et la révélation de ce qui était ignoré ou méconnu (les occurrences de X inconnu ou imprécis). La notion de flou permet de tenir compte de la seconde catégorie, tout en corrigeant souvent les fausses certitudes de la première; nous l'illustrerons ici dans les domaines de la saisie du texte, de la lemmatisation, de la constitution de sous-ensembles et de l'ambigu textuel. Ayant, dans le cadre de nos recherches personnelles, créé des bases de données de plusieurs dictionnaires et textes en prose de la Renaissance française, nous prendrons la plupart de nos exemples dans ceux-ci. Les principes énoncés valent cependant pour tout texte ou corpus d'une certaine étendue.
<4> Chaussetrape, <3> f. penacut. [...] <3> Tribulus, <1> qui est le nom que Vegece audit passage luy donne, le descriuant, <3> Propugnaculum quatuor spiculis confixum, quod quoquomodo abieceris, tribus radiis stat, & erecto quarto infestum est. <1> Et est pur Grec <5> tribolos, <1> auquel Plutarque adiousté <5> bidêros, <1> la raison duquel mot d'icelle ferrée machine de guerre, est tirée de la figure de l'herbe appelée <3> Tribulus, <1> dont est faite mention au 57. chapitre de Saint Matthieu, & 6. de l'Epistre aux Hebrieux, & au 4. liur. chap. 14. de Dioscoride, & au liur. 3. de Theophraste, ou parce (comme dit Dioscoride) que le <3> Tribulus <1> aquatique eleuant le crein, resconce ses picquons, aussi les chaussetrapes (comme feit ledit Darius) se mettent souuent entre deux terres [...] [4] |
Le Thresor dérive d'une tradition de dictionnaires bilingues français-latin et il se pose donc le problème de la détermination de l'appartenance linguistique des mots du texte. La règle générale « italique = français, romain = latin, grand romain = vedette française, caractères grecs = grec » connaît maintes exceptions. Dans la première ligne, « f. penacut. » peut être français (cf. « f. adiectif. » s.v. AAGÉE, « accent penacute » s.v. AISÉEMENT) ou latin (cf. « foem. penacut. » s.v. SOUÏLLONNE, « penacutum » s.v. CLYSTERE); « tribulus », clairement latin dans la première ligne, fonctionne en français à la ligne 9 (« le Tribulus aquatique »); « & » (et) et « est » sont tantôt français, tantôt latins; les mots grecs sont parfois translittéres dans le texte et imprimés soit en italique (cf. s.v. PANDORE), soit en romain (cf. s.v. PARESSE). Les variantes sont plus nombreuses que dans un dictionnaire moderne: « faite » (l. 6) et « feit » (l. 10), « 57. chapitre » (l. 7) et « chap. 14. » (l. 8), « 4. liur. » (l. 7) et « liur. 3. » (l. 8). Sur le plan des unités lexicales complexes, on peut remarquer la non-contiguïté des deux parties de la conjonction parce que (l. 8-9).
On pourrait peut-être élaborer un ensemble de règles qui semblent satisfaire aux cas cités: par exemple, « <3> » = français ou latin (non différenciés) dans les séquences catégorie grammaticale + accentuation (comment les identifier?), latin ailleurs; variantes graphiques ou syntaxiques systémiques. Algorithme qu'il faudrait complexifier à l'extrême pour rendre compte de l'ensemble du texte (cf., pour la question de langue, « /.../ <1> Signifie ores faire l'Aoust <3> metere, & est act. <1> ores secher & meurir /.../ » s.v. AOUSTER, « <1> L'Italien le compose, <3> Ex Duobus integris, <1> disant: <3> Hiersera, pour ce mesme. » s.v. HERSOIR).
Le chercheur doit d'abord et avant tout connaître intimement le texte qu'il saisit et qu'il veut étudier dans les dimensions verticales que lui offre l'accès informatique à toutes les occurrences de tel ou tel phénomène textuel. Ce n'est qu'à ce prix que le texte informatisé aura une valeur scientifique et philologique sûre. À la place d'automates coûteux et pas toujours fiables, il peut néanmoins profiter de la verticalité d'une version informatisée de son texte pour le dépistage des erreurs de saisie [5]. La liste alphabétique des formes que lui rend un logiciel d'indexation lui permet, par exemple, de repérer très rapidement les séquences de lettres impossibles: à l'initiale, « II », « ll », « 11 », etc., pour les deux premières lettres du pronom « Il/Ils »; « joum » pour « journ » de « journal », « ajourner », etc.; « joru » au lieu de « jour » (inversion). Le va-et-vient entre l'affichage des formes et celui des contextes combine les avantages de l'isolement de la forme (en contexte « joumal » risque de passer inaperçu par le fait de la compensation syncrétique du cerveau) et de la vérification par le contexte [6].
Si on n'a pas les moyens de faire une saisie double, on peut tout au moins faire une lecture double, contextuelle (linéaire) et formelle (verticale).
Dans la perspective de l'étude du lexique d'un auteur, une lemmatisation lexématique s'impose à un moment donné (voir l'exemple de l'étude de Muller citée ci-dessus); dans celle de l'investigation du fonctionnement de la langue, elle gomme des distinctions importantes. Comme le dit J. Sinclair:
[Suite] -- [Retour à la table]
Notes
1. Pour une discussion théorique du concept de flou, voir Moles 1990.
2. Par exemple, goût sur pour goût sûr risque de passer
inaperçu.
3. « <1> » = italique, « <3> » = romain,
« <4> » = grand romain, « <5> » =
caractères grecs.
4. Nicot 1606 s.v. CHAUSSETRAPE.
5. Dans l'extrait du Thresor de Nicot, la forme
« adiousté » (pour adiouste, l. 5) est dans l'original.
6. Comme outil de correction 'forme-contexte', le logiciel WordCruncher (Johnston &
Company, Utah) s'avère très efficace: à partir de l'affichage
alphabétique de la liste des formes textuelles, on peut passer directement, par la touche
« Enter », à celui des contextes d'une forme jugée
inexacte ou douteuse, puis revenir au même endroit de la liste des formes par la touche
« Escape ».
7. Muller 1977: 28.
8. Cf. -COGNOISTRE infra.
9. Voir l'exemple de la terminologie botanique exposé dans la section 4.