Brunet, "Les dictionnaires électroniques des temps modernes"

Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.",
Clermont-Ferrand, 14-15 juin 1996

É. Brunet, "Les dictionnaires électroniques des temps modernes"

4. Le TLFI (Trésor de la langue française informatisé)

On pourrait s'en tenir là: prendre l'OED pour modèle et le transposer en français. Ce serait oublier que l'OED est en mouvement, qu'il en est à sa seconde version et que déjà une troisième est à l'épreuve sur Internet. Nous n'avons pu l'expérimenter, faute de posséder la clé dont jouissent certaines universités américaines ou canadiennes. La tentative a avorté que nous avons tentée sur le serveur du MIT. Méfiant sur la validité de notre passeport, nous avions proposé le mot forbidden à l'interrogation, comme précisé dans la Figure 16. Nous avons obtenu le message FORBIDDEN avec le refus du mot demandé -- dont nous ignorerons à jamais la signification.

4.1. L'accès par Internet au TLFI (Trésor de la Langue Française Informatisé) est par contre ouvert, au moins pour la partie traitée (le tome 14). Il ne s'agit encore que d'un prototype, livré à l'appréciation du public scientifique et non nécessairement fixé dans son état définitif. L'adresse WEB est celle de FRANTEXT, soit http://www.ciril.fr/~mastina/FRANTEXT

Si Frantext exige un abonnement préalable, aucune souscription n'est exigée pour le TLFI et l'on est conduit tout de suite au menu principal représenté dans la Figure 17 (Le TLFI sur le WEB).

Le niveau d'utilisation le plus élémentaire consiste à tourner les pages comme on ferait pour la version papier. Le premier item du menu principal (Visualisation simple d'un article) ouvre le dictionnaire à la page qu'on veut (du tome 14). L'article recherché apparaît avec la typographie originale, seuls étant ajoutés des boutons de navigation qui permettent d'explorer les articles trop longs pour être visibles sur un seul écran.

Figure 18. Consultation simple du TLFI.

Ce mode de consultation n'est pas à dédaigner. Si l'on dispose d'un poste d'interrogation relié en permanence à Internet (c'est virtuellement le cas dans les universités ou dans les bibliothèques), on évite ainsi la fatigue musculaire qu'il faut déployer pour aller quérir le tome désiré au haut de son rayonnage. Et pour peu que la recherche se promène à différents endroits de l'alphabet, la peine en sera diminuée et divisée d'autant. On gagnera aussi en rapidité de consultation et même parfois en lisibilité. Car la taille des caractères peut-être modifiée par Netscape pour plus de confort visuel, alors que les contraintes de coût conduisent l'éditeur de la version papier à la miniaturisation des caractères. La fonction FIND du logiciel d'interrogation permet en outre d'explorer le détail de l'article affiché. On appréciera plus encore la possibilité d'imprimer ou de sauvegarder la sélection, dans des conditions très supérieures à celles qu'offre la photocopieuse.

4.2. Mais l'avantage décisif est évidemment ailleurs, dans la vue synthétique que le logiciel offre de toute la base. Derrière un article, c'est tous les autres qu'on voit en perspective. Apparaissent au premier rang ceux que le critère de tri a distingués, selon une logique de sélection analogue à celle de l'OED. Mais là où l'OED offrait une dizaine de types d'objets (voir Figure 16), le TLFI propose jusqu'à 35 objets différents, dont les premiers alphabétiquement dont représentés dans la Figure 19 (Quelques-uns des objets de la recherche dans le TLFI).

Outre ceux que mentionne la figure 19, les objets peuvent être choisis parmi les domaines (techniques ou généraux), les entrées (principales ou dérivées), les indicateurs (grammaticaux, stylistiques ou sémantiques), les exemples et leur source (auteur, titre et date), les synonymes et antonymes, et la segmentation (paragraphe, syntagme). Cette variété des objets reflète la complexité de la structure des articles, dont le lecteur, guidé par la typographie, n'a pas toujours une exacte conscience. Il a fallu aux rédacteurs beaucoup de discipline pour respecter cette structure, d'un article à l'autre. Et il a fallu aux concepteurs de la base beaucoup de perspicacité pour la mettre en évidence, après coup, à travers le voile mi-transparent, mi-brouillé de la typographie. Rarement la rétroconversion a offert autant de noeuds à dénouer et d'ambiguïtés à dissoudre. Sans doute a-t-il fallu quelques retouches manuelles pour parfaire les traitements automatiques. Sans doute le chemin est-il encore long avant que les 16 tomes soient traités comme le tome 14. Mais du moins a-t-on la garantie qu'on ira au bout et qu'aucun obtacle rédhibitoire ne peut plus obstruer le chemin.

Le résultat est presque trop beau et presque effrayant. Alors qu'un article n'est jamais opaque dans un dictionnaire-papier, la structure de l'article apparaissant immédiatement à l'oeil, presque sans effort, c'est une rude opération intellectuelle qui est exigée de l'utilisateur du TLFI, s'il veut tirer pleinement profit de la puissance du moteur de recherche. Car il doit avoir une conscience aiguë des différents éléments qu'on rencontre dans un dictionnaire et de l'assemblage logique qui les constitue en article. On peut toutefois se contenter, pour un premier contact, d'une question simple, qui porte sur la date des exemples et qui permet de vérifier si oui ou non le TLF rend compte d'un état de langue contemporain. On trouvera ci-dessous la question (quels sont les articles qui contiennent un exemple daté de 1960) et la réponse obtenue, d'abord sommaire (figure 20), puis détaillée selon la précision souhaitée, le choix étant offert entre la visualisation globale et juxtaposée (figure 21) et le "zoom" sur un exemple pleinement développé (figure 22).

Figure 20. Exemple d'interrogation simple (un seul objet, un seul contenu).

Figure 21. Visualisation globale.

Figure 22. Affichage détaillé.

En renouvelant la même question pour toutes les années, on obtient une série inégale où les années ne pèsent pas le même poids. De même que les exemples de Littré montrent une préférence marquée pour la langue du grand siècle, de même les rédacteurs du TLF semblent avoir puisé leurs illustrations avec un goût prononcé pour le XXe siècle. Sans doute leur était-il interdit de faire appel à des textes antérieurs à la Révolution, puisque la base était alors limitée aux deux derniers siècles et de fait aucun exemple n'est daté d'avant 1780. Mais les textes les plus éloignés dans le temps leur ont paru donner une image déformée et vieillie de la langue contemporaine et un appel très circonspect est fait à la génération romantique comme à celle qui a suivi. Mais inversement les textes les plus récents n'ont pas paru leur offrir une garantie suffisante et ils ont préféré la sécurité et l'authenticité que donne un recul raisonnable, de l'ordre du demi-siècle. En adoptant le pas de la décennie, on obtient la distribution suivante:

1800 1810 1820 1830 1840 1850 1860 1870 1880 1890

667 405 803 1844 1750 1455 1739 1783 1964 1850

1900 1910 1920 1930 1940 1950 1960 1970 1980 1990

2047 1684 3346 4393 3054 2683 2610 969 575 4

Sans doute les textes du corpus sont-ils plus nombreux dans les tranches qui ont recueilli les suffrages des rédacteurs et une pondération est nécessaire. La courbe obtenue après pondération n'en est pas moins très claire:

Figure 23. Distribution des exemples par décennie dans le TLFI (données pondérées).

Sans doute s'agit-il du tome 14, l'un des derniers de la série. Le centre de gravité se situerait-il au même endroit si l'on avait considéré le tome 1, dont la rédaction est antérieure de vingt ans? Au moins peut-on là-dessus faire la comparaison avec l'OED, dont l'empan est plus large puisque ce dictionnaire historique rend compte de la langue anglaise dans son ensemble, des origines à nos jours. Un sondage au dizième (en ne retenant qu'une année sur 10) est suffisant pour constater l'étalement des références dans le temps.

Figure 24. Distribution des exemples de l'OED (données brutes, lissées par la méthode de la moyenne mobile).

Les rédacteurs de l'OED retiennent nécessairement les exemples anciens, puisque pour chaque mot le dictionnaire note la première apparition et restitue les traces des variations que la langue anglaise a subies au cours des siècles, notamment durant la longue période de gestation qui va de la conquête normande à la guerre de cent ans. L'époque de Shakespeare se reconnaît à un palier haut aux alentours de 1600 mais le sommet de la courbe est atteint à la fin du XIXe siècle. Aucun corpus préalable n'étant imposé, le choix des exemples n'est pas canalisé et le choix des rédacteurs reflète l'évolution de la langue.

4.3. Cette comparaison montre que beaucoup de traitements sont communs à l'OED et au TLFI, ce dont il faut se réjouir. Cependant la formalisation et l'unification de ce dernier ont été poussées plus loin. Et par voie de conséquence la puissance et la sophistication des requêtes y sont nettement plus développées. L'OED ne distingue guère que les grandes divisions de la structure des articles: l'entrée, l'étymologie, la définition et les citations, chacun de ces niveaux ayant une sous-structure. Ainsi l'entrée se décompose en entrée simple, complexe, secondaire, phonétique, à quoi s'ajoutent la date de la première apparition et le code grammatical. L'étymologie propose pour sa part trois champs de recherche et les citations ou exemples quatre rubriques distinctes: la date, l'auteur, le titre et le texte. Pour croiser plusieurs requêtes, un langage est proposé qui utilise les opérateurs booléens et un jeu assez riche de mots-clés, d'abréviations et de fichiers-résultats. Tout langage exige un apprentissage et dans le cas de l'OED la maîtrise des procédures ne va pas sans effort.

L'interrogation du TLFI se fait par le canal du WEB, avec les ressources ordinaires du langage HTML et du "navigateur" (par exemple Netscape ou Mosaic dans leurs versions passe-partout). Sans doute pourrait-on solliciter les fonctions avancées que proposent Java et Javascript, si elles étaient stabilisées et disponibles sur tous les postes d'interrogation, ce qui n'est pas le cas actuellement. Le TLFI se contente donc des simples formulaires du langage HTML. Mais il les superpose en établissant entre eux des liens complexes, en sorte que la question posée qui en résulte peut être aussi précise et aussi sophistiquée que l'on veut. Les critères de sélection peuvent porter en même temps sur l'entrée, le domaine, l'auteur, le code grammatical, l'indicateur stylistique, la date, et bien d'autres éléments de la structure, chacun étant pourvu d'un champ à remplir où l'usager précise le "contenu" de ce qu'il cherche. Il y a évidemment quelques contraintes: si l'usager ignore la liste des domaines, des indicateurs ou des codes grammaticaux, ou s'il propose des événements pour des dates, le résultat sera incertain. Un innocent qui n'aurait jamais ouvert une page du TLF risque de se perdre et de ne pas remplir correctement les zones du contenu. Mais il est si facile de lire d'abord un ou deux articles, comme celui de la Figure 18, et de se familiariser avec la structure du TLF, que les bonnes questions viendront vite avec l'expérience. Les bonnes réponses suivront si l'on franchit la difficulté majeure, qui est relative aux liens. Le programme prévoit deux sortes de liens pour unir deux ou plusieurs formulaires:

-- dans le premier cas l'objet x est inclus dans l'objet y. Ainsi, si l'objet 1 recherche le mot jalousie dans les exemples de la base, et si l'objet 2 circonscrit la recherche d'exemples à un auteur unique, par exemple Proust, il faudra lier la seconde contrainte au premier critère, afin d'obtenir un résultat croisé qui mentionne les exemples, tirés de Proust, qui contiennent le mot jalousie. L'inclusion (marquée par le choix i 1 de l'objet 2) se justifie par le fait que la rubrique auteur fait toujours partie de la rubrique exemple:

Figure 25. Les exemples de Proust contenant le mot jalousie (Question en haut et réponse en bas).

-- dans le second cas la contrainte est plus molle, l'objet x est supposé être dans la portée de l'objet y. Si par exemple on s'intéresse uniquement à un domaine du savoir, par exemple la physique, on pourra relever toutes les définitions où intervient nommément l'atome. On aurait alors deux formulaires ainsi ordonnés (si on inverse l'ordre, le lien p 2 deviendra p 1):

définition

atome

p 2

objet 2 -- type "domaine technique" -- contenu "physique"

Figure 26. Les mentions de l'atome dans les définitions des termes de physique (Question et réponse).

Il faut veiller à ce que l'objet qu'on isole dans chaque formulaire ait au moins un lien avec les autres. Ce lien peut être inopérant et aboutir à une intersection vide, mais il doit être établi formellement. Dans tous les cas la fonction logique est celle du et, jamais du ou. Et cela se produit notamment lorsqu'un même objet est lié à la fois à deux autres (ou à plusieurs). Dans cette situation les résultats délivrés devront satisfaire à la triple contrainte: par exemple pour épingler les citations empruntées à Céline (1), appartenant au domaine médical (2) et au registre populaire (3), on devra lier l'objet 1 aux deux autres par les relations p 2 et p 3.

La seule difficulté est de savoir quand il y a lieu d'envisager la relation d'inclusion plutôt que celle de "portée". Dans la pratique l'inclusion trouve à s'employer dans les structures fortes comme celle de l'entrée (qui comporte toujours un code grammatical) ou de l'exemple (auquel sont associés, un auteur, une date et une localisation). La portée s'applique plutôt aux types d'objets flottants qu'on peut rencontrer à différents niveaux. Les indicateurs et les domaines sont de ce type.

Quant au contenu, ce n'est pas nécessairement un mot unique. On peut y placer une locution, une liste de mots, une cooccurrence et y ajouter des paramètres de placement, relativement au début ou à la fin de l'objet textuel exploré. Les opérateurs qui ont cours dans les meilleurs systèmes documentaires et qui ont fait le succès de Frantext s'appliquent ici à la définition du contenu pour exprimer les schémas les plus divers: négation (&n ou ^), conjugaison (&c), lemmatisation (&m), joker (&q), cooccurrence (|), distance (&d et &f), liste (&l). Il y a là tant d'outils disponibles qu'on ne sait plus lequel choisir. Mais nul n'est tenu à la virtuosité. L'usage minimal est proposé par défaut, et l'on peut fort bien s'en contenter en ignorant jusqu'à l'existence des fonctions complémentaires. De même l'OED se livre à l'exploitation simple, sans exiger la connaissance d'un langage d'interrogation sous-jacent, réservé aux spécialistes. Pour apaiser la frayeur des néophytes peut-être eût-il été judicieux que le TLFI réduise à un ou deux le nombre initial de formulaires, quitte à fournir un supplément à ceux qui en feraient la demande.

Verra-t-on tout cela sur l'étroite surface d'un CD-ROM? Comment y engranger tant de liens entrecroisés dans le TLFI, tant de fichiers associés, tant de fonctions cumulées? La réponse est négative dans le temps présent. L'OED a eu besoin de tous les octets disponibles sur la surface optique et aucun des 632 Mo n'a été gaspillé. Mais une mutation technique se prépare qui mettra bientôt à la disposition du public un CD-Rom nouveau, DVD ou Digital Video-Disc, dont la capacité sera multipliée, ainsi que le débit de transmission. On parle de 3 à 10 milliards d'octets. C'est assez pour contenir en même temps le TLFI et Frantext et bien d'autres choses encore. Et déjà bleuit l'horizon où l'on devine les premières lueurs du laser bleu. Ici comme en d'autres circonstances la technique informatique comblera son retard avant que les données soient prêtes et les outils fabriqués.

[Retour à la Table des matières]