5. La Base de mots-clés métalinguistiques

Jusqu'ici j'ai parlé de bases dictionnairiques, textuelles et bibliographiques, de banques d'images et de notes. Toutes ces composantes sont bien connues et sont utilisées dans beaucoup d'applications. Il me reste à parler d'une dernière composante propre au genre du dictionnaire; il s'agit de la Base de mots-clés métalinguistiques. Le concept de cet outil est essentiellement le même que celui de Thesaurus dans le sens qu'on lui donne dans les classifications thématiques des bases de l'INaLF (Institut national de la langue française). Dans la fonction particulière que je vais vous expliquer, il a été appliqué au Thresor de Nicot dès son informatisation, il y a déjà plus de dix ans.

Dans les dictionnaires anciens, le degré de variation dans la présentation des champs informationnels de la microstructure est souvent suffisant pour en rendre difficile et hasardeux un balisage systématique. Alors qu'on peut réécrire, dans une certaine mesure, un OED ou un TLF pour les informatiser, on n'a pas le droit de le faire pour un dictionnaire du passé, à moins de composer un nouveau Richelet ou un nouveau Littré. L'outil conceptuel dont il convient de se servir est le flou, qui a déjà fait ses preuves dans les sciences naturelles, en physique notamment, et dans des applications technologiques. En gros, le flou2 signifie: plutôt que de dépenser un effort énorme pour obtenir 100% de ce qu'on cherche et rien de plus, on fait mieux et on obtient pratiquement les mêmes résultats en se contentant, avec beaucoup moins d'effort, d'une fourchette de 95% à 105% du total théorique, quitte à rejeter le 5% de bruit. Appliqué à l'outil de recherche qu'est la Base de mots-clés métalinguistiques3, le flou a l'énorme mérite d'offrir à l'auteur de la base d'un dictionnaire ancien une solution autre que celle qui revient à s'ériger en détenteur d'une vérité absolue par l'imposition d'un balisage exhaustif et systématique. Des dictionnaires comme ceux d'Estienne, de Nicot, de Ménage et de l'Académie contiennent suffisamment de flou structurel pour mériter une approche appropriée.

Les occurrences des mots-clés dans la Base de dictionnaires anciens sont reliées à des items de la Base de mots-clés; à leur tour, ceux-ci permettent d'extraire toutes leurs occurrences dans la Base de dictionnaires. Ainsi le mot-clé apothicaires donne accès à toutes les marques d'emploi concernant les termes d'herboriste. Alors que le mot-clé apothicaires est précis -- il a exactement 106 occurrences dans le corpus Dictionarium, Thresor, Grand dictionaire et Académie Échantillon4 --, d'autres mots-clés sont imprécis dans le sens que ce sont des mots polysémiques de haute fréquence dont l'emploi métalinguistique représente au moins 85% de leurs occurrences, ce qui représente un peu plus de bruit à éliminer. Je citerai deux cas, parmi d'autres, caractéristiques à la fois de la lexicographie latine et de la lexicographie française qui en dérive: le mot-clé aussi, en latin etiam, articulateur de propriétés plurielles -- sens, emplois, graphies, etc. -- et dit, qui dans la très grande majorité de ses occurrences se trouve dans les syntagmes on dit, se dit ou dicitur, articulateurs de signes, de signifiés et de précisions d'emploi.

[Retour à la Table] -- [Suite]


Note 2. Cf. Wooldridge, «Le flou en informatique textuelle», Texte, 13/14 (1993), 275-89.

Note 3. Cf. T.R. Wooldridge & I. Leroy-Turcan, «Metalinguistic Keywords as a Structural Retrieval Tool for Early Dictionaries».

Note 4. Une marque d'usage du référent est considérée comme une occurrence d'une marque d'usage du mot correspondant lorsque celui-ci est donné par le contexte.