Le flou en informatique textuelle

Introduction

En tenant compte du fait que le sujet humain s'accommode fort bien de l'à-peu-près en matière de langage naturel -- ellipses, allusions, phrases inachevées ou agrammaticales, vocabulaire approximatif --, nous examinerons, dans les paragraphes qui suivent, quelques aspects de la notion de flou ou d'approximation en informatique textuelle. Plutôt que d'évoquer les stratégies probabilistes de la linguistique quantitative, de la linguistique des corpus ou de l'intelligence artificielle, nous nous intéresserons au cas du chercheur individuel désirant interroger un texte ou un ensemble de textes à l'aide de l'ordinateur [1].

Nous prendrons pour acquis que le chercheur a une connaissance 'conventionnelle' de son corpus d'étude: par exemple, il en a étudié le contexte socio-historique, la genèse et la réception de l'oeuvre, sa place dans la tradition du genre; il a fait plusieurs lectures du texte imprimé et il en connaît les structures patentes (division de la pièce de théâtre en actes, scènes et personnages; du dictionnaire en macrostructure alphabétique et microstructure récurrente; du roman policier en crime, enquête et élucidation; du traité technique en livres et chapitres thématiques). Il est pourtant conscient du fait que l'imprimé le contraint à des lectures toujours partielles, puisque linéaires, et que la mise à découverte de nombre d'ensembles et de structures textuels ne peut s'obtenir que par une maîtrise globale du texte. L'ordinateur, s'il ne peut lui donner l'omniscience, lui offre néanmoins l'ubiquité, en lui permettant de convertir son corpus en base de données textuelles et ainsi faire des lectures verticales qui traversent tout le texte.

Par mise à découverte nous entendons, et la mise au jour de ce qui était simplement caché par la linéarité du texte imprimé (les occurrences de A connu), et la révélation de ce qui était ignoré ou méconnu (les occurrences de X inconnu ou imprécis). La notion de flou permet de tenir compte de la seconde catégorie, tout en corrigeant souvent les fausses certitudes de la première; nous l'illustrerons ici dans les domaines de la saisie du texte, de la lemmatisation, de la constitution de sous-ensembles et de l'ambigu textuel. Ayant, dans le cadre de nos recherches personnelles, créé des bases de données de plusieurs dictionnaires et textes en prose de la Renaissance française, nous prendrons la plupart de nos exemples dans ceux-ci. Les principes énoncés valent cependant pour tout texte ou corpus d'une certaine étendue.

1. De proche en proche (1)

On accepte comme axiome de la transcription informatique d'un texte imprimé ou manuscrit de quelque étendue qu'elle ne peut être parfaite que fortuitement. Il y a la typologie des fautes de saisie manuelle (claviste humain), il y a celle des fautes de saisie optique (lecteur électronique). Le nombre de fautes peut être considérablement limité par la comparaison de deux saisies -- deux saisies manuelles ou une saisie manuelle et une saisie optique --, il n'en reste pas moins que l'on ne peut jamais être sûr que toute faute ait été éliminée [2]. Dans la très grande majorité des cas, on n'a ni le temps ni l'argent pour faire une saisie double. Il existe aussi des logiciels de vérification orthographique ou d'analyse contextuelle permettant, à des degrés de précision variables selon la complexité et donc le coût du système, de filtrer les formes et séquences anormales; selon la nature du texte aussi. C'est une chose d'analyser ce paragraphe, c'en est une autre d'imaginer un automate capable de contrôler la séquence suivante [3]:

<4> Chaussetrape, <3> f. penacut. [...] <3> Tribulus, <1> qui est le nom que Vegece audit passage luy donne, le descriuant, <3> Propugnaculum quatuor spiculis confixum, quod quoquomodo abieceris, tribus radiis stat, & erecto quarto infestum est. <1> Et est pur Grec <5> tribolos, <1> auquel Plutarque adiousté <5> bidêros, <1> la raison duquel mot d'icelle ferrée machine de guerre, est tirée de la figure de l'herbe appelée <3> Tribulus, <1> dont est faite mention au 57. chapitre de Saint Matthieu, & 6. de l'Epistre aux Hebrieux, & au 4. liur. chap. 14. de Dioscoride, & au liur. 3. de Theophraste, ou parce (comme dit Dioscoride) que le <3> Tribulus <1> aquatique eleuant le crein, resconce ses picquons, aussi les chaussetrapes (comme feit ledit Darius) se mettent souuent entre deux terres [...] [4]

Le Thresor dérive d'une tradition de dictionnaires bilingues français-latin et il se pose donc le problème de la détermination de l'appartenance linguistique des mots du texte. La règle générale « italique = français, romain = latin, grand romain = vedette française, caractères grecs = grec » connaît maintes exceptions. Dans la première ligne, « f. penacut. » peut être français (cf. « f. adiectif. » s.v. AAGÉE, « accent penacute » s.v. AISÉEMENT) ou latin (cf. « foem. penacut. » s.v. SOUÏLLONNE, « penacutum » s.v. CLYSTERE); « tribulus », clairement latin dans la première ligne, fonctionne en français à la ligne 9 (« le Tribulus aquatique »); « & » (et) et « est » sont tantôt français, tantôt latins; les mots grecs sont parfois translittéres dans le texte et imprimés soit en italique (cf. s.v. PANDORE), soit en romain (cf. s.v. PARESSE). Les variantes sont plus nombreuses que dans un dictionnaire moderne: « faite » (l. 6) et « feit » (l. 10), « 57. chapitre » (l. 7) et « chap. 14. » (l. 8), « 4. liur. » (l. 7) et « liur. 3. » (l. 8). Sur le plan des unités lexicales complexes, on peut remarquer la non-contiguïté des deux parties de la conjonction parce que (l. 8-9).

On pourrait peut-être élaborer un ensemble de règles qui semblent satisfaire aux cas cités: par exemple, « <3> » = français ou latin (non différenciés) dans les séquences catégorie grammaticale + accentuation (comment les identifier?), latin ailleurs; variantes graphiques ou syntaxiques systémiques. Algorithme qu'il faudrait complexifier à l'extrême pour rendre compte de l'ensemble du texte (cf., pour la question de langue, « /.../ <1> Signifie ores faire l'Aoust <3> metere, & est act. <1> ores secher & meurir /.../ » s.v. AOUSTER, « <1> L'Italien le compose, <3> Ex Duobus integris, <1> disant: <3> Hiersera, pour ce mesme. » s.v. HERSOIR).

Le chercheur doit d'abord et avant tout connaître intimement le texte qu'il saisit et qu'il veut étudier dans les dimensions verticales que lui offre l'accès informatique à toutes les occurrences de tel ou tel phénomène textuel. Ce n'est qu'à ce prix que le texte informatisé aura une valeur scientifique et philologique sûre. À la place d'automates coûteux et pas toujours fiables, il peut néanmoins profiter de la verticalité d'une version informatisée de son texte pour le dépistage des erreurs de saisie [5]. La liste alphabétique des formes que lui rend un logiciel d'indexation lui permet, par exemple, de repérer très rapidement les séquences de lettres impossibles: à l'initiale, « II », « ll », « 11 », etc., pour les deux premières lettres du pronom « Il/Ils »; « joum » pour « journ » de « journal », « ajourner », etc.; « joru » au lieu de « jour » (inversion). Le va-et-vient entre l'affichage des formes et celui des contextes combine les avantages de l'isolement de la forme (en contexte « joumal » risque de passer inaperçu par le fait de la compensation syncrétique du cerveau) et de la vérification par le contexte [6].

Si on n'a pas les moyens de faire une saisie double, on peut tout au moins faire une lecture double, contextuelle (linéaire) et formelle (verticale).

2. Flou et flexibilité de la lemmatisation

À l'époque des concordances imprimées produites à partir d'un traitement par lots fait sur un gros ordinateur, procédé coûteux en temps et en argent, il était d'usage de regrouper les formes textuelles (discours) pour les présenter sous une forme canonique ou lemme (langue). Cette lemmatisation, basée sur le modèle des vedettes du dictionnaire de langue et héritière de traditions glossairiques et indiciaires, était considérée nécessaire si on voulait, par exemple, comparer le vocabulaire des pièces tragiques de Corneille avec celui de son théâtre comique. Cependant, alors qu'une nomenclature consistant en la liste des formes textuelles définies par des paramètres objectifs -- formes délimitées par un espace, la ponctuation, une apostrophe ou un trait d'union, avec, éventuellement, des règles rudimentaires pour le fonctionnement variable des deux derniers -- correspond à l'analyse que fait tout le monde en comptant les mots d'un texte, toute lemmatisation lexicale comporte une large mesure de subjectivité. Si les dictionnaires A et B ayant le même objet de description et les mêmes buts sont d'accord sur le contenu de l'alphabet et l'ordre des lettres, ils ne le sont pas en ce qui concerne la délimitation des unités lexicales à décrire (par exemple, grève, un mot ou deux?). Les linguistes ne s'entendent pas non plus sur la question (problèmes de polysémie, homonymie, syntagmatique, etc.); l'auteur de l'étude du vocabulaire du théâtre de Corneille, Charles Muller, a été très conscient de l'arbitraire subjectif de la lemmatisation traditionnelle:

Muller 1967

Dix ans après, Muller maintient sa position, en ajoutant:

Muller 1977

La constance des décisions prises et leur nécessaire explicitation [7] sont bien évidemment toujours des propriétés essentielles de toute entreprise scientifique.

Dans la perspective de l'étude du lexique d'un auteur, une lemmatisation lexématique s'impose à un moment donné (voir l'exemple de l'étude de Muller citée ci-dessus); dans celle de l'investigation du fonctionnement de la langue, elle gomme des distinctions importantes. Comme le dit J. Sinclair:

Sinclair 1991

Toute concordance actualisée sur papier ou microfiches exige de la part de son auteur que celui-ci prenne toutes les décisions déterminant, et limitant, les possibilités d'utilisation. En revanche, lorsque le corpus réside sur le disque dur d'un microordinateur et qu'il peut être interrogé à tout moment à l'aide d'un logiciel de recherche de données textuelles interactive, le chercheur a à sa disposition un nombre infini de concordances virtuelles; il actualise les unités textuelles qui l'intéressent, en les affichant selon les besoins de chaque question qu'il pose: contexte bref ou long, distribution, cooccurrence, restriction par champs, etc. Dans ces conditions, la lemmatisation devient un concept très souple et correspond au type de regroupement et de désambiguïsation qui convient à chaque cas: regroupements formels (grand, grande, grandes, grands = adjectif grand; + agrandir, grandeur, grandir, etc. = famille lexicale de grand; mots en anti- ou -eure = étude des affixes; etc. [8]), sémantiques (rouge, noir, blanc, etc. = étude des dénominations de la couleur), syntagmatiques (locutions prépositives/conjonctives, expressions idiomatiques, etc.), thématiques [9], etc.

[Suite] -- [Retour à la table]

Notes

1. Pour une discussion théorique du concept de flou, voir Moles 1990.

2. Par exemple, goût sur pour goût sûr risque de passer inaperçu.

3. « <1> » = italique, « <3> » = romain, « <4> » = grand romain, « <5> » = caractères grecs.

4. Nicot 1606 s.v. CHAUSSETRAPE.

5. Dans l'extrait du Thresor de Nicot, la forme « adiousté » (pour adiouste, l. 5) est dans l'original.

6. Comme outil de correction 'forme-contexte', le logiciel WordCruncher (Johnston & Company, Utah) s'avère très efficace: à partir de l'affichage alphabétique de la liste des formes textuelles, on peut passer directement, par la touche « Enter », à celui des contextes d'une forme jugée inexacte ou douteuse, puis revenir au même endroit de la liste des formes par la touche « Escape ».

7. Muller 1977: 28.

8. Cf. -COGNOISTRE infra.

9. Voir l'exemple de la terminologie botanique exposé dans la section 4.