Proust, Bellot-Antony & Demerson, "Des textes aux dictionnaires des XVIe-XVIIe s."

Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.",
Clermont-Ferrand, 14-15 juin 1996

G. Proust, M. Bellot-Antony & G. Demerson, "Des textes aux dictionnaires des XVIe-XVIIe s."

1. Conception de l'analyseur morphologique

Outre le fait de donner l'accès informatisé aux entrées de dictionnaires, l'objectif de cet analyseur était d'aboutir à une catégorisation grammaticale des mots, afin de pouvoir prendre en compte des phénomènes d'hétérographie, de flexion et de conjugaison.

1.1. Principe général d'analyse

Il convenait alors d'adopter un principe d'analyse morphologique susceptible d'aboutir à un tel résultat. Après pas mal d'hésitations et de tâtonnements, il nous est apparu que le plus opératoire était de procéder à un découpage des mots en considérant chacun d'eux comme la concaténation systématique de deux éléments distincts:

la "finale" dont la graphie représente le type de flexion ou de conjugaison (la désinence), cette finale pouvant être de degré zéro;
et la "base" (= partie du mot dont on a extrait la finale) qui représente en général le radical (lexème).

Par exemple, le verbe aimer est défini par: base aim- + finale -er, et appartient à la catégorie grammaticale des verbes réguliers en -er, à laquelle est rattachée la liste de toutes les finales de la conjugaison correspondante.

Remarque: il convient d'apporter, à propos de ce que nous nommons "finale", quelques précisions complémentaires.

La "finale" est choisie dans une liste de graphies associée à une catégorie grammaticale, l'important, pour l'ordinateur, étant que ces graphies permettent au minimum de caractériser les marques de conjugaison et de flexion. Pour éviter la constitution d'une liste trop difficile à maîtriser. et après avoir effectué un recensement sur un échantillon représentatif, nous avons choisi:

de limiter cette liste aux finales simples, retenant, par exemple, -if, -eur, et un grand nombre d'autres (près de 2.000 au total),
de réduire certaines finales complexes à leur seul dernier élément: -ement étant seul pris en compte dans admirablement,
d'enregistrer comme finale certaines lettres (dites finales muettes) en raison de leur suppression possible au pluriel: par exemple la lettre -g dans poing -> poings ou poins.

La finale -e de certains substantifs ou adjectifs a aussi posé problème: elle peut soit appartenir au radical (balle ou agile), soit être une marque de féminin (brun, brune). Pour des raisons de logique informatique, nous avons dans tous ces cas considéré cette voyelle -e comme une finale.

Ce découpage, certes sans grande originalité dans la pratique informatique, ne correspond pas toujours aux descriptions linguistiques traditionnelles reconnues mais il s'est révélé efficace pour une représentation informatisée. Il permet, en particulier, de retrouver très rapidement toutes les interprétations grammaticales potentielles d'une graphie.

1.2. Cas particuliers

De nombreux cas particuliers étaient néanmoins à prendre en considération, et pas seulement parce qu'il s'agissait de la langue du XVIe siècle.

1.2.1. Les hétérographes

Il fallait évidemment pouvoir en rendre compte sous leurs formes les plus diverses. Pour cela, et en application de notre principe général de découpage, nous avons convenu de définir les formes hétérographiques d'un mot par l'ensemble des possibilités de combinaisons des hétérographes de sa base avec l'ensemble des hétérographes de la finale.

Par exemple, aimois et amoys sont liés par le lien hétérographique de leurs bases respectives (aim-/am-) et par le lien hétérographique de leurs finales (1ère pers. du sing. de l'imparfait de l'indicatif des verbes réguliers en -er: -ois/-oys).

Toutes les combinaisons n'étant évidemment pas possibles, l'ensemble des formes d'un mot est en fait constitué par les hétérographes de sa base auxquels on associe les finales autorisées, avec leurs hétérographes, pour un type de conjugaison ou de flexion donné.

Par exemple, dans le verbe aimer, les bases {aim/am} se combinent avec les terminaisons des verbes réguliers en -er {er, e, es, ..., ois/oys/oy, ..., erois/eroys, ...}; tandis que dans l'adjectif aigu, les bases {aig/ag} se joignent aux terminaisons des adjectifs dont la flexion est du type -u {u, us, ue/uë, uës/ues}.

Dans tous les cas, le lien avec les entrées de dictionnaires est obtenu simplement en choisissant parmi les hétérographes une graphie commune à l'analyseur morphologique et aux entrées de dictionnaires.

1.2.2. Mots à radical variable

Il peut se faire qu'une variante dans la "base" ou radical d'un mot intervienne au cours de sa conjugaison ou de sa flexion.

C'est le cas, par exemple, de verbes dits irréguliers où telle base est liée à telle forme temporelle et donc à telle désinence spécifique: ainsi, pour le verbe absoudre où la base absoud peut se lier aux désinences du futur {ray, ras, ra, ..., ront} et non aux désinences de l'imparfait de l'indicatif {ois, ois, oit, ..., oient} qui, elles, se rencontrent avec la base absolv-.

C'est aussi le cas d'adjectifs ou de substantifs dont la flexion est dite faire exception comme blanc/blanche et oeil/yeux; et également celui de certains substantifs ou adjectifs composés, dans lesquels la marque du nombre se trouve exceptionnellement au milieu du mot: gentilhomme/gentilshommes.

Pour ces types d'exemples, il est nécessaire d'enregistrer toutes les variations des bases des mots ainsi que leurs hétérographies correspondantes et de relier chacune aux types de flexions adéquats.

1.2.3. Les graphies exceptionnelles

Il est également souhaitable de repérer les graphies exceptionnelles, notamment dans le cas de régionalismes, voire d'erreurs grammaticales ou de coquilles. Si, par exemple, de telles finales exceptionnelles étaient appliquées à l'ensemble des bases possibles, elles pourraient donner lieu à une généralisation à partir de formes aberrantes ou à une confusion avec d'autres formes. Ainsi la conjugaison de l'hétérographe air du verbe haïr peut provoquer des confusions avec le verbe avoir: la forme ay pouvant ainsi être la 1ère pers. du sing. de l'indicatif présent du verbe haïr/air ou celle du verbe avoir.

1.2.4. Les expressions figées

L'analyseur permet de gérer des expressions figées constituées de plusieurs formes séparées par un espace blanc (ex: ce pendant ou au par avant). Le problème se situe au moment de leur reconnaissance dans le texte. Il peut être résolu de façon simple: nous avons ébauché une liste de ces cas (avec leurs hétérographes) et nous allons écrire un programme qui en repérera les occurrences dans le texte et qui remplacera les espaces par un caractère particulier sous contrôle de l'utilisateur.

1.3. Bilan

Faisons, pour conclure sur ce premier point, le bilan actuel de notre travail.
1.3.1. La structure de la base de données lexicales telle que nous venons de la présenter permet d'enregistrer puis de résoudre des hétérographes, de repérer des homographes et de procéder ainsi à un début de lemmatisation du texte. Elle rend aussi possible, de manière complémentaire, la constitution de listes de conjugaisons ou de flexions pour tous les mots de la base de données.
Nous avons exclu de l'analyseur morphologique, les noms propres, les mots étrangers (patois compris), les abréviations, ainsi que les nombres en chiffres arabes. Dans les deux premiers cas, l'ajout d'un caractère spécial dans la phase de normation permet de distinguer ces formes des mots analysables. Les abréviations sont repérées de la même manière par un point d'abréviation accolé au mot.
1.3.2. Quant aux données actuellement enregistrées, elles se présentent ainsi:

Seules les lettres A et B ont été enregistrées dans l'analyseur morphologique. Ces entrées ont été prises à la fois dans le Huguet, dans le Nicot 1606 et dans l'index des textes de la base d'EQUIL XVI.
Le lexique contient 12.549 entrées, y compris les hétérographes de bases (sur un total estimé à 80.000 entrées) et 1.948 finales (hétérographes compris) réparties dans 11 catégories grammaticales.
Les dictionnaires utilisés à titre expérimental sont:

le Huguet dont on a enregistré les 5.671 définitions des entrées de la lettre A, sans les exemples,
le Nicot 1606, enregistré par T.R. Wooldridge (Université de Toronto), dont nous avons exploité les entrées des lettres A et B. avec les exemples (8.489 définitions).

[Suite] -- [Retour à la Table des matières]