La lexicographie assistée par ordinateur

Russon Wooldridge

University of Toronto

Janvier 2003 ; publication en ligne, septembre 2003. Version anglaise à paraître chez Blackwell.
© 2003 R. Wooldridge

La lexicographie est ici considérée au sens littéral et concret du terme : l'écriture ou l'inscription du lexique, la description ordonnée du lexique d'une langue sous forme d'un ouvrage de référence traditionnellement appelé un dictionnaire.

Ce qui suit se veut un exposé typologique et partiel de l'utilisation de l'informatique en lexicographie, comprenant les applications essentielles et les exemples principaux de produits dictionnairiques assistés par ordinateur dans le domaine de l'anglais et du français. Les dictionnaires pris en compte sont destinés à une diffusion générale ; les dictionnaires pour spécialistes ne sont guère mentionnés.

1. La nature du texte dictionnairique

Le dictionnaire a fondamentalement la même structure que l'annuaire téléphinique, les fichiers médicaux d'un hôpital ou d'un généraliste, ou le catalogue de bibliothèque. Chaque unité de ces collections est une "fiche" (record) contenant un certain nombre de champs, potentiellement les mêmes pour chaque fiche (certains champs sont vides), placés dans le même ordre, la caractéristique essentielle de cette base de données relationnelles étant sa récursivité.

Entrée d'annuaire téléphonique : nom, adresse, numéro de téléphone.

Fiche médicale : nom, coordonnées, histoire médicale, évolution de l'état de santé, consultations, rapports de laboratoire, etc.

Fiche de catalogue de bibliothèque : titre, auteur, lieu et date de publication, sujet, support, numéro ISBN, cote, etc.

Article de dictionnaire : adresse, prononciation, partie du discours, définition, exemples, étymologie, etc.

Exemple de deux articles dictionnairiques (source : Dictionnaire universel francophone) :

dictionnaire

Dictionnaire médical, étymologique

Dictionnaire de la langue ou dictionnaire de langue

Le dictionnaire de l'Académie française

Dictionnaire bilingue

Un dictionnaire français-vietnamien

Dictionnaire encyclopédique

Syn

Fam. dico

informatique n. f. et adj. Technique du traitement automatique de l'information au moyen des calculateurs et des ordinateurs. Informatique de gestion. || adj. Relatif à cette technique. Traitement par des moyens informatiques.
Encycl. L'informatique est apparue avec le développement des calculateurs électroniques à grande capacité, les ordinateurs (le mot informatique date de 1962). La rapidité d'accès et de traitement de l'information, l'automatisme du fonctionnement des ordinateurs et la systématique des résolutions ont ouvert un très vaste champ d'application à l'informatique : recherche scientifique (ex.: contrôle de la trajectoire d'un satellite) ; industrie (conception assistée par ordinateur, contrôle et commande des machines, des processus) ; gestion des entreprises (opérations administratives, simulation, recherche opérationnelle) ; enseignement programmé ; documentation, banques d'informations ; informatique individuelle. La liaison de plusieurs ordinateurs accroît la puissance de leur traitement, la télématique assurant la transmission (V. télématique, ordinateur, réseau).

La récursivité des champs informationnels des deux articles ci-dessus est signifiée par la typographie, la position et l'abréviation : 1) adresse en grandes lettres grasses ; 2) partie du discours conventionnellement abrégée ; 3) définition ; 4) exemples d'emploi en italique. Les champs 1, 3 et 4 sont exprimés en clair à cause de la nature idiosyncratique des unités lexicales ; le champ 2 est exprimé sous forme abrégée puisque ses valeurs appartiennent à une petite classe fermée. La typographie, la position, l'abréviation et l'ellipse (aucun des quatre champs n'est explicitement nommé) sont des traits caractéristiques de l'économie récursive du dictionnaire (le dictionnaire est aussi un produit commercial). Les champs occasionnels tendent à être nommés : "Syn." pour les synonymes ; "Encycl." pour les informations encyclopédiques (les informations normales, systématiques, non étiquetées sont linguistiques) ; "V." pour les renvois.

Même les articles les plus simples, comme ceux cités ci-dessus, tendent à être structuralement complexes. Outre les équations binaires – a) dictionnaire = nom masculin ; b) dictionnaire [signifie] "Ouvrage qui recense et décrit, dans un certain ordre, un ensemble particulier d'éléments du lexique" ; c) [le mot] dictionnaire [s'emploie typiquement dans des expressions telles que] Dictionnaire médical (domaine d'expérience), [dictionnaire] étymologique (domaine linguistique) – on trouve également des équations ternaires : dictionnaire -> [exemplifié dans] Dictionnaire bilingue -> [qui signifie] "[dictionnaire] qui donne les équivalents des mots et expressions d'une langue dans une autre langue". (les copules et autres termes implicites sont ici rendus explicites et entourés de crochets.)

L'idiosyncratique est caractéristique et du lexique et du dictionnaire, lequel, dans la grande majorité de ses réalisations, est composé par des êtres humains (faillibles). De même que le traitement des unités lexicales varie énormément selon la partie du discours, la fréquence d'usage, la monosémie ou la polysémie, le registre et d'autres variables, la rédaction dictionnairique tend aussi à varier selon la chronologie (début, milieu ou fin de l'alphabet ou de la confection du dictionnaire, voire selon le jour de la semaine) et le rédacteur (le rédacteur A et le rédacteur B sont des individus et non des clones ou des machines).

Mise à part la question de la variabilité des unités lexicales et de celle de la confection de dictionnaires (cette dernière s'avérant pourtant un obstacle important dans l'informatisation du Trésor de la langue française – voir ci-dessous), le dictionnaire exige de la part du consulteur trois types de compétence sophistiquée : 1) une compétence linguistique, évidemment ; 2) une compétence dictionnairique, qui est un type particulier de compétence textuelle et qui permet, par exemple, de trouver un mot commençant par m en ouvrant le dictionnaire plus ou moins au milieu, de savoir que adj. veut dire adjectif (et, par la compétence linguistique, de savoir ce qu'est un adjectif), etc. ; 3) une compétence pragmatique permettant de donner un sens à des références au monde : Le dictionnaire de l'Académie française, "calculateurs électroniques", etc.

Une compétence dictionnairique "normale" ne suffit pas toujours. Le dictionnaire peut pousser l'économie elliptique du discours lexicographique très loin ; si, en plus, les formulations varient sans logique apparente, les éventuelles ambiguïtés qui en résultent mettent à l'épreuve les facultés analytiques de l'usager et risquent de rendre inopérant l'analyseur syntaxique de l'ordinateur. Les exemples suivants sont pris dans l'article GAGNER de Lexis (Wooldridge et al. 1992) :

a) Gagner quelque chose (moyen de subsistance, récompense), l'acquérir par son travail
b) Gagner son biftek (pop.) [= gagner tout juste sa vie]
c) Gagner le Pérou (= des sommes énormes)
d) Gagner le maquis (syn. PRENDRE)
e) C'est toujours ça de gagné (fam.) [= c'est toujours ça de pris]
f) Il ne gagne pas lourd (= peu)
g) Je suis sorti par ce froid, j'ai gagné un bon rhume (syn. plus usuels : ATTRAPER, PRENDRE, fam. CHIPER)

Chacun des sept items contient une équation de synonymie, l'équation concernant soit l'ensemble soit une partie du premier terme : le complément du verbe dans a et c, la qualification adverbiale dans f, le verbe dans d et g, l'expression entière dans b et e. La compétence linguistique est nécessaire pour mettre en équation quelque chose et l' (a), ne... pas lourd et peu (f), la forme conjuguée ai gagné et les infinitifs attraper, prendre et chiper (g). L'usager du dictionnaire doit aussi résoudre la variation des délimiteurs employés pour signifier la synonymie (parenthèses, crochets, signe de l'égalité, étiquette syn., lettres majuscules).

Bref, le dictionnaire, en théorie une base de données relationnelles systématique avec articles ordonnés et champs récurrents, peut, dans la pratique humaine, être aussi variable que le lexique qu'il se donne pour tâche de décrire. Les bonnes applications de l'ordinateur à des dictionnaires faits par l'homme sont donc, dans la majorité des cas, modestes dans leurs ambitions. Les dictionnaires machine tendent à être procrustéens dans leur traitement de la langue ou bien se limitent à des domaines lexicaux relativement simples tels que la terminologie.

2. Avant le World Wide Web

La lexicographie moderne n'a pas attendu l'invention de l'ordinateur, ni même celle des machines à calculer de Leibniz et Pascal au XVIIe siècle, pour appliquer des méthodes informatiques au dictionnaire. En 1539, le père de la lexicographie moderne Robert Estienne, imprimeur du roi, libraire, humaniste et lexicographe, publia son Dictionaire francoislatin, version "miroir" de son Dictionarium latinogallicum de l'année précédente. Chaque mot et expression français contenu dans les gloses et équivalents du dictionnaire latin-français avait son propre adresse dans le français-latin ; chaque mot ou expression latin contenu dans les adresses et exemples du latin-français se retrouvait comme équivalent du français correspondant dans le français-latin. Prenons l'exemple des mots aboleo et abolir :

Abolir, Mettre a neant

Abolir

Mettre a neant

Abolir

abolir

Abolir

abolir

Abolir

Quatre siècles et plusieurs décennies plus tard, nous trouvons les premières applications dictionnairiques de l'ordinateur dans les années 1960 et 1970. Dans les années 1960, le Trésor de la langue française de Nancy a commencé la saisie manuelle d'oeuvres littéraires et de traités techniques représentatifs dans le but de créer un corpus de sources pour son dictionnaire imprimé, le Dictionnaire de la langue du XIXe et du XXe siècle, plus familièrement connu sous l'intitulé Trésor de la langue française ou TLF. Vers la fin des années 1970 ont paru en Angleterre deux dictionnaires informatisés, le Oxford Advanced Learners Dictionary et le Longman Dictionary of Contemporary English ; pour la seconde on s'est servi de l'ordinateur non seulement pour imprimer le dictionnaire mais aussi pour assister dans sa composition (Meijs 1992 : 143-5).

Le premier dictionnaire ancien à être informatisé fut le Thresor de la langue françoyse (1606) de Jean Nicot. Le texte a été saisi à Nancy et à Toronto entre 1979 et 1984, indexé à l'Université de Toronto sur grand ordinateur par le programme de concordance COGS, publié sous forme d'une concordance sur microfiches en 1985, indexé sur un ordinateur personnel sous WordCruncher comme base de données interactive en 1988 et finalement mis en ligne dans la Toile en 1994 (voir sections 3 et 4). Il n'est pas sans intérêt de noter qu'au début des années 1980 les agences de subvention s'attendaient à ce que les projets de concordance entreprennent la lemmatisation des mots de texte. Il a fallu présenter un argument démontrant l'absurdité de lemmatiser un texte en partie déjà lemmatisé : les adresses du dictionnaire sont par nature des lemmes. Le projet TIDEN (informatisation des dictionnaires d'Estienne et de Nicot) avait initialement l'ambition de baliser les champs informationnels (Wooldridge 1982) ; il est vite devenu clair cependant que de tels champs, quoique présents et analysables par le cerveau humain, sont impossibles à délimiter systématiquement dans un dictionnaire ancien complexe comme celui de Nicot, dans lequel la position, la typographie et l'abréviation sont variables et la polyvalence fonctionnelle est fréquente. Le défi n'est pas négligeable dans les dictionnaires modernes, dans lesquels le balisage des champs est la règle. Par la suite, d'autres dictionnaires anciens ont été informatisés, notamment le Dictionary of the English Language de Samuel Johnson, publié sur CD-ROM en 1996.

Dans les années 1980 ont apparu deux entreprises de lexicographie assistée par ordinateur de grande envergure. Le projet COBUILD (Collins and Birmingham University International Language Database) a commencé en 1980 avec l'objectif de créer un corpus d'anglais contemporain pour la composition d'un dictionnaire et d'une grammaire entièrement nouveaux. La jeune discipline de la linguistique de corpus et le projet COBUILD se sont entre-nourris dans cet environnement lexicographique innovatif. (Sinclair 1987, Renouf 1994). Le New Oxford English Dictionary Project a été créé dans le but de produire la deuxième édition de l'OED à l'aide de l'informatique. Ce projet international a eu sa conception et direction en Angleterre, la définition et la réalisation du rôle de l'ordinateur au Canada et la saisie manuelle du texte du dictionnaire aux États-Unis. La deuxième édition est sortie sur papier en 1989 et sur CD-ROM en 1992.

Alors qu'à ses débuts le balisage des dictionnaires s'était limité aux codes typographiques permettant l'impression du produit fini, il est vite devenu nécessaire d'ajouter des jalons informationnels pour que le texte puisse être non seulement correctement affiché sur écran ou papier, mais aussi interrogé et référencé par champs. Le dictionnaire n'est qu'un des types de textes dont la structure a été analysée par la Text Encoding Initiative (TEI) (Ide et al. 1992).

La dernière décennie du XXe siècle a connu une prolifération de dictionnaires électroniques diffusés sur CD-ROM. Par exemple, l'édition de 1993 du Random House Unabridged Dictionary s'est vendue à la fois sur papier et sur CD-ROM, les deux ensemble au prix d'un seul des deux formats. Comme on pouvait s'attendre d'un produit gratuit, la fonctionnalité du CD-ROM est rudimentaire. En revanche, la version sur CD-ROM du Petit Robert, publiée en 1996, offre plusieurs avantages par rapport à la version papier : en dehors de la consultation de mots et d'articles fondamentale, l'usager peut rechercher des anagrammes (la requête dome produit mode) des homophones (saint produit sain, saint, sein, seing), des étymologies par langue (familles : langues africaines, amérindiennes, celtiques, etc., ou par idiome : bantou, hottentot, somali, etc.), des citations par auteur, oeuvre ou personnage, ainsi que des interrogations plein-texte, soit dans l'ensemble du texte du dictionnaire (articles intégraux), soit dans les champs particuliers des exemples d'emploi ou des synonymes/antonymes.

Comme c'est souvent le cas, l'accès au texte complet, facilité par une version électronique du dictionnaire, permet de compléter un certain nombre d'articles. Pour prendre l'exemple du Petit Robert, le mot sabotage, limité sous son propre article aux domaines du travail et du fonctionnement d'une entreprise ou d'une machine, s'emploie dans un sens figuré important et courant dans une citation concernant le mot speaker : "Sabotage de la prononciation de notre belle langue par les speakers de la radio". Il est vrai que les dictionnaires sont typiquement plus conservateurs dans leur traitement d'un mot sous son propre article que dans ses occurrences ailleurs.

Mentionnons brièvement le développement d'outils lexicographiques informatisés conçus pour l'usager ordinaire, dont notamment les vérificateurs orthographiques et les dictionnaires de formes lexicales des logiciels de traitement de texte.

On trouve chez Meijs (1992) un bon exposé général de la période 1960-début des années 1990, celle de la lexicographie assistée par ordinateur résultant en des dictionnaires diffusés sur papier ou CD-ROM ; un autre beaucoup plus détaillé est donné par Knowles (1990).

3. La lexicographie à l'ère du WWW

Tout comme d'autres pratiques humaines, la lexicographie – et en particulier la lexicographie – a été transformée par le World Wide Web (à ne pas confondre avec Internet, qui est le réseau virtuel permettant des réalisations comme le WWW, le courrier électronique, etc.). Le Web fonctionne grâce aux mots ; pour citer le titre d'un livre bien connu écrit par la petite-fille de James Murray, le Web, comme le dictionnaire, est un "web of words", une toile tissée de mots. On lit les mots d'un livre, on consulte les mots-adresses du dictionnaire, on navigue le Web à travers des mots-clés. Les millions de documents publiés dans la Toile constituent, par la structuration que leur donnent les mots-clés des moteurs de recherche, un vaste dictionnaire, un dictionnaire encyclopédique fait de concepts et de mots. Les dictionnaires conventionnels, imprimés ou électroniques, perdent de leur importance en comparaison ; quelques-uns des dictionnaires électroniques sont pris dans la toile de mots en ligne.

On trouve une démonstration du Web comme super- ou méta-dictionnaire chez Wooldridge et al. (1999). Une recherche du français canadien enfirouaper (terme de requête : enfirouap*) a réuni des occurrences du verbe et de ses dérivés dans lesquelles le mot est soit employé soit commenté ; les documents en question étaient de toutes sortes : politiques et personnels, article de journal et manifeste, poésie et prose, dialogue et dictionnaire. Les occurrences du mot en usage ont montré l'insuffisance et le caractère vieilli des traitements dictionnairiques et glossairiques (cf. sabotage ci-dessus). Appliquant les principes de création et d'analyse de corpus appris au cours du projet COBUILD, le projet WebCorp de l'université de Liverpool se sert de moteurs de recherche standards comme Google et AltaVista pour rassembler des occurrences d'un terme de recherche et les ranger sous la forme facilement analysable d'une concordance KWIC (Kehoe & Renouf 2002). Par exemple, des expressions telles que one Ave short of a rosary, two leeks short of a harvest supper ou two sheets short of a bog roll, que l'on lit dans les romans de Reginald Hall, sont des réalisations individuelles du paradigme courant "one/two/three/a/an/several X short of a Y" (X étant des parties constituantes d'un ensemble Y), que l'on peut exprimer sous Google par des variantes du terme de recherche "one * short of a". Puisque le logiciel WebCorp est librement accessible dans le Web, la linguistique de corpus est devenue un outil lexicographique à la portée de tout le monde.

Les méta-sites sont une bonne source d'informations sur les dictionnaires en ligne. Pour le français, deux bons sites sont Leximagne - l'Empereur des pages dico de Robert Peckham et ClicNet : Dictionnaires de Carole Netter. Le dernier donne des liens pour les catégories suivantes : Dictionnaires multilingues; Dictionnaires et encyclopédies de langue française; Grammaire, morphologie, orthographe et linguistique; Dictionnaires historiques; Lexiques de Architecture, Arts visuels, Argot, Droit, Économie et finances, Gastronomie et diététique, Histoire, Humour, Jeux, Lexiques multiculturels, Littérature, Médias, Musique, Nature et Environnement, Sciences, Sciences politiques, Services, Sciences humaines, Sports, Techniques, Tourisme, Vocabulaire divers; Lexiques Internet; Listes de diffusion; Chroniques lexicales; Autres serveurs.

La plupart des dictionnaires en ligne ont des fonctionnalités plutôt modestes et sont publiés comme du texte linéaire, tout comme un dictionnaire imprimé. Quelques-uns cependant peuvent être interrogés interactivement comme bases de données relationnelles et offrir d'autres fonctions. Il est intéressant alors de comparer celles de deux dictionnaires en ligne importants, l'OED pour l'anglais et le TLF pour le français.

–– Vers la fin des années 1990, une première version électronique de la deuxième édition de l'OED a été mise en ligne grâce au projet OED de l'université de Waterloo ; une autre édition plus généralement accessible, l'OED Online, a été lancée sur le site Web de l'OED en 2000. Les deux versions, réservées aux seuls abonnés, permettent les types de recherches suivants : consultation du dictionnaire ("lookup", comme dans la version imprimée), recherche plein texte ("entire entry"), plus recherches restreintes aux champs de l'étymologie ("etymology") et de la marque d'usage ("label"). La technologie d'Internet a fait une contribution importante au programme de lecture ("reading programme") de l'OED : à la place des paquets de fiches venant des quatre coins du monde et livrés par la Poste au Scriptorium d'Oxford du temps de James Murray, les lecteurs peuvent maintenant soumettre des mots, références et autres détails via le Web. Le site Web de l'OED donne une historique détaillée du dictionnaire, renforçant ainsi un caractère d'érudition rare sur les sites dictionnairiques.

–– La version complète du TLFI (Trésor de la langue française informatisé), publiée dans le Web en 2002, est d'accès gratuit et permet à l'usager, peut-être de façon un peu ambitieuse, de limiter ses requêtes à un ou plusieurs de 29 champs différents, dont "entrée", "exemple" (avec des sous-catégories de divers types d'exemples), "auteur d'exemple", "date d'exemple", "code grammatical", "définition", "domaine technique", "synonyme/antonyme". Les seize tomes du TLF imprimé ont souffert d'un haut degré de variation rédactionnelle (cf. section 1), rendant ainsi le balisage des champs une tâche extrêmement difficile et obligeant l'équipe de l'INaLF à adopter une approche en partie probabiliste (Henry 1996).

Un des traits caractéristiques de la Toile est l'hyperlien, qui facilite, entre autres, l'association qui relie le texte à la note (lien intratextuel), celle de la référence bibliographique à la bibliothèque (lien intertextuel) ou celle d'un mot A rencontré dans l'article du mot B à l'article du mot A (par ex. "anaptyxis : epenthesis of a vowel" -> epenthesis). Le Dictionnaire universel francophone en ligne (DUF) – une ressource linguistique importante gratuite mise à la disposition des sujets parlants et des apprenants de toutes les variétés du français, l'équivalent en ligne du dictionnaire de langue général imprimé en un volume – a des hyperliens pour chaque mot contenu dans ses articles, ce qui permet à l'usager de consulter l'article de chaque mot en cliquant dessus (ex. "sabotage n. m. 1. TECH Action de saboter (un pieu, une traverse, etc.)" -> nom, masculin, technique, technologie, technologique, action, de, saboter, un, pieu, traverse, et caetera).

À part les dictionnaires de langue contemporaine générale, on trouve dans la Toile un grand nombre de dictionnaires spécialisés. Dans le domaine des dictionnaires anciens, plusieurs dictionnaires du XVIe-début XXe siècle sont librement accessibles sous forme de bases de données interactives dans la section Dictionnaires d'autrefois du site du projet ARTFL (American and French Research on the Treasury of the French Language) de l'université de Chicago : Estienne, Nicot, Bayle, Académie française (également sur un serveur de l'ATILF de Nancy). Un serveur de l'université de Toronto offre aussi plusieurs de ces dictionnaires ainsi que d'autres, toujours sous forme de bases de données interactives. La terminologie, autrefois réservée aux spécialistes payants, est dorénavant librement accessible en ligne. Par exemple, un Glossaire typographique et linguistique ou une Terminology of Pediatric Mastocytosis ; un terme de mastocytose pédiatrique tel que anaphylaxis se trouve dans plusieurs dizaines de milliers de pages Web (69 700 résultats sous Google le 28 sept. 2002 ; le français anaphylaxie dans 1 980 pages le 30 oct. 2002).

La lexicographie du Web offre une variété d'outils, dont notamment la traduction automatique (ex. Babelfish), conçue pour traduire de façon rudimentaire l'essentiel d'un document en ligne dans une langue que l'usager comprend.

Outre les dictionnaires faits par des équipes professionnelles, tels que l'OED, le TLFI ou le DUF, et les lexiques spécialisés, on trouve dans le Web des dictionnaires et glossaires compilés par des amateurs et des particuliers. Si on désire, par exemple, explorer l'argot dublinois de la Barrytown Trilogy de Roddy Doyle, une bonne source d'informations à la portée du doigt fureteur est les O'Byrne Files.

Le mot final est donné à la lexicographie ludique. Les jeux de mots de société, de la radio, télévision, livres, journaux et magazines prolifèrent dans la Toile. Le site de l'OED propose "Word of the Day" ; COBUILD a "Idiom of the Day", "The Definitions Game", et "Cobuild Competition". De nombreux sites offrent "Le Jeu du pendu" ou "Hangman". S'y trouvent divers types de "Mots croisés" ou "Crossword", "Anagrammes" et "Anagrams". Le "Scrabble" en ligne a ses sites de jeu interactif et ses boîtes à outils (dictionnaires).

4. Les changements technologiques : une étude de cas

Dans cette dernière section, nous prenons un projet d'informatisation particulier pour observer les différentes étapes technologiques qu'il a subies au cours des années. Il s'agit du projet de rétroconversion du Thresor de la langue françoyse de Jean Nicot.

a) La mécanographie. Lorsque le présent auteur a commencé à Besançon l'analyse du Thresor de Nicot, la technologie de l'époque mise en oeuvre pour le maniement de données textuelles se servait de matériel mécanographique BULL et de cartes IBM capables de traiter de petits corpus simples comme le théâtre de Corneille ou les poèmes de Baudelaire. L'idée, née dans les années 1960, de mettre le texte du Thresor dans une forme numérique interrogeable devait attendre les progrès technologiques.

b) Saisie sur clavier, perforation de rubans et sauvegarde sur bande magnétique. En 1979, la saisie manuelle d'une moitié du Thresor a été entreprise à l'Institut national de la langue française de Nancy, l'autre moitié commençant à l'université de Toronto en 1980. À Nancy, les données ont été saisies sur ruban papier puis transférées sur bande magnétique ; la saisie torontoise a été transmise directement depuis un clavier via un modem téléphonique sur un grand ordinateur IBM, puis stockée sur bande magnétique. Les données nancéiennes sont parvenues à Toronto sur bande magnétique et ont été rendues compatibles avec la saisie torontoise au moyen de divers programmes écrits dans différents langages dont Wylbur.

c) Concordance sur microfiches. En 1984, le texte complet unifié a été indexé sur grand ordinateur par le programme de concordance COGS, écrit à l'université de Toronto. Les ressources presque entières du service d'informatique central de l'université de Toronto ont été réservées pendant une nuit pour indexer et concorder les environ 900 000 mots de texte du Thresor. Certaines des sorties ont été effectuées par des programmes écrits en Spitbol. Le contenu de la trentaine de bandes magnétiques résultantes constituant les diverses pièces de la concordance a été versé commercialement sur microfiches.

d) WordCruncher sur un ordinateur personnel. En 1988, les données textuelles ont été transférées via un modem et des disquettes 5¼ pouces depuis l'ordinateur central sur un midi-ordinateur puis de là sur un ordinateur personnel IBM AT ayant un disque dur de 20 mégaoctets. Cette fois-ci il n'a fallu que les ressources d'une seule petite machine pour indexer le texte intégral du Thresor et créer une concordance virtuelle interactive.

e) Le World Wide Web. Le Thresor a été mis en ligne dans une première version en 1994 comme base de données interactives au projet ARTFL de l'université de Chicago, après que les fichiers texte en format ASCII ont été convertis pour fonctionner sous le programme Philologic. Une deuxième version faisait partie des Dictionnaires d'autrefois d'ARTFL qui ont été installées en 2000 sur un serveur de l'INaLF de Nancy fonctionnant sous le logiciel Stella. À la même époque, le Thresor a été mis sur un serveur Windows comme base de données interactives sous TACTweb à l'université de Toronto, les fichiers texte ayant d'abord été indexés sous TACT sur un compatible IBM. Les champs informationnels – adresse d'article, page et caractère d'imprimerie – proviennent des balises saisies manuellement lors de la première étape de saisie à Nancy et à Toronto.

Conclusion

La conséquence la plus importante pour la lexicographie de l'avènement de l'informatique – qu'il s'agisse de dictionnaires sur disque dur ou CD-ROM, de dictionnaires en ligne dans la Toile ou du Web comme méga-dictionnaire – a été d'ajouter au nombre limité de chemins de recherche d'informations déterminés à l'avance par l'auteur ou l'éditeur le nombre infini de chemins choisis par l'usager. Ce dernier trouve dorénavant normal de se sentir maître de la recherche d'informations, que ce soit à travers l'accès total au contenu d'un dictionnaire ou au contenu des ressources complètes du Web. Le mot-vedette a été remplacé par le mot-clé.

Bibliographie

(Nota. Toutes les adresses Web fonctionnaient au moment de la publication en ligne, septembre 2003.)

ClicNet : Dictionnaires et lexiques (2002). Carole Netter, Swarthmore College. clicnet.swarthmore.edu/dictionnaires.html.

Collins COBUILD. titania.cobuild.collins.co.uk/.

Dictionnaires d'autrefois. ARTFL, University of Chicago. www.lib.uchicago.edu/efts/ARTFL/projects/dicos/.

Dictionnaire universel francophone en ligne (since 1997). Hachette & AUPELF-UREF. www.francophonie.hachette-livre.fr/.

Estienne, Robert (1538). Dictionarium latinogallicum. Paris : R. Estienne.

Estienne, Robert (1539). Dictionaire francoislatin. Paris : R. Estienne.

Glossaire typographique et linguistique (since 1996-7). Alis Technologies Inc. babel.alis.com:8080/glossaire/index.fr.html.

Henry, Françoise (1996). "Pour une informatisation du TLF". In D. Piotrowski (Ed). Lexicographie et informatique : autour de l'informatisation du Trésor de la langue française (pp. 79-139). Paris : Didier Érudition.

Ide, Nancy, Jean Véronis, Susan Warwick-Armstrong & Nicoletta Calzolari (1992). "Principles for encoding machine readable dictionaries". In H. Tommola, K. Varantola, T. Salmi-Tolonen & J. Schopp (Eds). Euralex '92 Proceedings (pp. 239-46). Tampere : University of Tampere.

Johnson, Samuel (1996). A Dictionary of the English Language on CD-ROM. Anne McDermott (Ed). Cambridge & New York : Cambridge University Press.

Kehoe, Andrew & Antoinette Renouf (2002). "WebCorp : Applying the Web to Linguistics and Linguistics to the Web". In WWW2002 : Eleventh International World Wide Web Conference. www2002.org/CDROM/poster/67/.

Knowles, Francis E. (1990). "The Computer in lexicography". In F.J. Hausamnn, O. Reichmann, H.E. Wiegand & L. Zgusta (Eds). Wörterbucher : Ein Internationales Handbuch zur Lexicographie, vol. 1 (pp. 1645-72). Berlin & New York : Walter de Gruyter.

Leximagne – l'empereur des pages dico. TennesseeBob Peckham, University of Tennessee-Martin. www.utm.edu/departments/french/dico.shtml.

Meijs, Willem (1991). "Computers and dictionaries". In Christopher S. Butler (Ed). Computers and Written Texts (pp. 141-65). Oxford (UK) & Cambridge (USA) : Blackwell.

Murray, K.M. Elisabeth (1977). Caught in the Web of Words. New Haven : Yale University Press.

The O'Byrne Files (since 2000). homepage.tinet.ie/~nobyrne/slang.html.

Oxford English Dictionary. www.oed.com/.

Renouf, Antoinette (1994). "Corpora and historical dictionaries". In I. Lancashire & R. Wooldridge (Eds). Early Dictionary Databases (pp. 219-35). Toronto : Centre for Computing in the Humanities.

Sinclair, John M. (Ed) (1987). Looking Up. London & Glasgow : Collins.

Terminology of Pediatric Mastocytosis. MastoKids.org. www.mastokids.org/index.php?x=terminology.php.

Le Trésor de la langue française informatisé (2002). atilf.atilf.fr/tlf.htm.

WebCorp. www.webcorp.org.uk/.

Wooldridge, Russon (1982). "Projet de traitement informatique des dictionnaires de Robert Estienne et de Jean Nicot". Manfred Höfler (Ed). La Lexicographie française du XVIe au XVIIIe siècle (pp. 21-32). Wolfenbüttel : Herzog August Bibliothek.

Wooldridge, Russon (1985). Concordance du Thresor de la langue françoyse de Jean Nicot (1606). Toronto : Éditions Paratexte.

Wooldridge, Russon (2000). Interactive database of Dictionnaires de la Renaissance. www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm.

Wooldridge, Russon, Astra Ikse-Vitols & Terry Nadasdi (1992). "Le Projet CopuLex". In R. Wooldridge (Ed). Historical Dictionary Databases (pp. 107-24). Toronto : Centre for Computing in the Humanities ; and in CH Working Papers, B.9 (1996). www.chass.utoronto.ca/epc/chwp/copulex/.

Wooldridge, Russon, Maryam McCubben, John Planka & Snejina Sonina (1999). "Enfirouaper dans le World Wide Web". www.chass.utoronto.ca/~wulfric/lexperimenta/enfirouaper/.