Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.",
Clermont-Ferrand, 14-15 juin 1996
É. Brunet, "Les dictionnaires électroniques des temps modernes"

3. L'Oxford English Dictionary 2

3.1. Les liaisons historiques[2] ne font pas défaut par contre à l'Oxford English Dictionary, même si l'on aurait pu souhaiter une mise en oeuvre plus discrète. Toutes les étapes restent en effet présentes, au moins à l'état virtuel, sur l'écran. Et l'encombrement qui en résulte ne va pas parfois sans confusion. Bien entendu toutes les variétés de liaison exploitées par le Robert se retrouvent ici, puissamment enrichies. Les entrées accessibles ne sont plus uniformément les mots-vedettes, mais aussi bien des sous-vedettes, des graphies phonétiques, ou des expressions (comme dans l'exemple de la Figure 10). Les jokers, comme dans le Robert, permettent de regrouper les formes qui respectent un schéma alphabétique.

L'OED ajoute à ces critères formels de sélection ceux de la datation et de la catégorie grammaticale. Les liens hiérarchiques apparaissent lorsqu'on fait apparaître la carte ou structure de l'article (bouton map). Et les liens séquentiels permettent de se déplacer d'un pas en avant ou en arrière, dans la suite des entrées (bouton <word et word>) ou des résultats (<res et res>). Par contre les liens fondés sur l'analogie ne semblent pas avoir fait l'objet d'un traitement particulier, même si les liens de croisement peuvent jouer le même rôle, à la discrétion de l'usager. On active ces derniers en isolant un mot et en sollicitant le bouton Xref, comme dans l'exemple ci-dessus.

3.2. La supériorité éclatante de l'OED ne réside pas dans le simple affichage du dictionnaire papier, ni dans les possibilités d'atteindre sélectivement telle ou telle entrée de la nomenclature. L'avantage décisif de ce produit tient à ses capacités relationnelles. Ces relations sont trop timidement développées dans le Robert, et uniquement dans la version Apple, pour la gestion des exemples. Il est en effet possible d'y consulter la base pour relever tous les exemples qui contiennent tel ou tel mot, par exemple jour et nuit.

Figure 11. Les capacités de la version Apple du Robert électronique (en haut) et le résultat (en bas).

À cet égard l'OED va bien au delà du Robert. Il constitue une véritable base de données structurée, qui certes donne accès à chacun de ses enregistrements, mais autorise aussi des requêtes générales qui embrassent l'ensemble de la base. Tandis que le Robert peut seulement conduire l'usager à l'article vice (et à ses homonymes), l'OED sait reconnaître les entrées où le vice s'est introduit sous une forme ou sous une autre. Mieux même il peut dénoncer le vice dans l'ensemble du texte, ou seulement dans la définition, ou dans les citations, voire même dans l'étymologie. À vrai dire le vice est si répandu, même en Angleterre, que la machine pourrait reculer devant ses débordements. Mais la digue des 8000 occurrences n'est pas rompue et la machine restitue sans broncher les 1785 contextes concernés. En limitant la recherche aux citations empruntées à Oscar Wilde, on verra sur l'écran les 117 contextes où cet auteur parle du vice en connaisseur. Si l'on propose un mot moins courant, comme erotic, la base entière sera explorée en quelques secondes pour livrer le résultat de la Figure 12. Les 120 contextes qui contiennent ce mot sont alors restitués dans la présentation kwic devenue très courante. À chacun une ligne est réservée qui est sensible au clic de la souris, en ouvrant une fenêtre sur le dictionnaire.

3.3. On nous pardonnera de ne pas insister sur les vertus (non plus que sur les vices, s'ils existent) de l'OED. Tout le monde est conscient que l'OED dans sa version 2 représente l'exemple le plus achevé que la lexicographie puisse offrir présentement sur le marché du CD-ROM. Tout au plus peut-on observer que ce produit est bon marché si on le compare au Robert, et plutôt cher si on le confronte à Encarta et à certains CD-ROM encyclopédiques. Mais que ne permet-il pas! Nous en donnerons un ou deux exemples imprévus, qui font appel à la statistique. Toute base de données correctement construite -- et l'OED est de ce nombre -- peut restituer, mais aussi simplement décompter, les enregistrements qui satisfont aux critères d'une requête donnée. On peut se contenter de ces effectifs et construire sans trop d'efforts un tableau à deux dimensions où les lignes seront constituées par les mots différents et les colonnes par les rubriques intéressées. En suivant la mauvaise pente où les mots vice et erotic nous ont entraîné, nous ajouterons les mots sexual et porno à notre méchante série. Voici les résultats exploitables:

On a écarté le vice pour s'en tenir à la même catégorie grammaticale. Nul besoin de calculer de savants écarts réduits pour rendre compte de la réserve que les rédacteurs opposent aux mots trop violemment marqués. Les auteurs auxquels les citations sont empruntées n'ont pas la même pudeur, puisque 15 emplois se rencontrent dans les citations pour le mot le plus inavouable de la série, auquel le minimum est accordé dans la définition (1 mention seulement)[3].

Plus sérieusement on peut s'intéresser à l'étymologie pour laquelle l'OED offre une grille particulière, représentée dans la Figure 13. Comme dans les autres champs, on a accès à la graphie (dans différents jeux de caractères) ou, grâce aux jokers, à un modèle de production, mais on dispose aussi d'une rubrique propre qui mentionne la langue en question. C'est l'occasion de vérifier si de l'autre côté de la Manche on parle aussi franglais. L'effectif relevé pour le français et fourni par la figure 13 (37032 étymologies) prend sens si on le rapproche de ceux qu'on obtient pour les autres langues[4]:

Le résultat est flatteur pour le sentiment national: avec un effectif de 37022, les sources françaises ont un débit trois fois supérieures aux germaniques. Le mot French l'emporte aussi sur tous les autres, pour sa fréquence dans le texte des articles, et surtout dans les citations -- ce qui est un phénomène de culture et de civilisation plutôt que de langue proprement dite. Reste à savoir si le mot est pris en bonne ou mauvaise part, question qu'il est imprudent d'approfondir.

Bien d'autres approches sont possibles qui prennent appui sur le codage grammatical, comme dans la figure 14, ou sur la datation (figure 15).

Figure 14. Les parties du discours dans l'OED.

Figure 15. Interrogation de l'OED sur la date des citations.

[Suite] -- [Retour à la Table des matières]


Notes

2. L'OED offre une aide en ligne dotée de tous les perfectionnements souhaitables. La consultation se fait par mots-clés dont la distribution peut suivre l'ordre alphabétique, ou la séquence structurelle, ou encore les relations analogiques. Les parcours que l'usager entreprend pour combler ses lacunes ou ses incertitudes laissent une trace visible qu'on peut emprunter à rebours.

3. Normalement le rapport entre le volume des définitions et celui des citations est du simple au double dans l'OED.

4. Voici le classement obtenu: