Actes des journées "Dictionnaires électroniques du français
des XVIème et XVIIème siècles"
Université Blaise Pascal, Clermont-Ferrand, 14-15 juin 1996

[Retour à la Table des communications]

De la concordance au dictionnaire

Keith Cameron

Exeter University

[Résumé]


Parler de l'élaboration d'un dictionnaire électronique est pour moi en quelque sorte une nouvelle expérience. Et pourtant, depuis quelques années je me suis occupé de faire des concordances des oeuvres de plusieurs poètes du seizième siècle, à savoir Agrippa d'Aubigné, Louise Labé, Pernette du Guillet, Joachim du Bellay et actuellement, Philippe Desportes. En somme, qu'est-ce qu'une concordance si ce n'est une espèce de dictionnaire?

Malheureusement au cours des vingt dernières années la technique que j'ai utilisée pour faire les concordances n'a pas changé. D'abord je fais le tri du texte entier, les mots sont séparés et classés par ordre alphabétique. Je lis les textes et j'ajoute manuellement des signes descripteurs, ensuite il y a un nouveau tri, une relecture de la concordance, un rajout d'autres signes et un troisième tri est alors opéré. Ensuite je rassemble les mots par catégorie grammaticale en faisant un fichier à part qui classe tous les mots selon l'ordre voulu -- toutes les parties du verbe sont groupées sous la forme de l'infinitif. S'il n'y a pas de forme infinitive dans le texte je l'ajoute ou j'ajoute les lettres qui manquent entre crochets. Je fais suivre la forme singulière de celle du pluriel, quand elle existe! Je dois admettre que je n'insère pas la forme singulière quand elle est absente. Parfois je groupe les différentes formes orthographiques. Et ainsi de suite. Malheureusement je n'ai pas suivi de politique rigoureuse dans ce domaine. Une des raisons pour cette apparente négligence est qu'en tant qu'être humain je suis sujet à des défaillances et que dans une concordance comme celle des Oeuvres poétiques de Du Bellay qui comporte plus de 700 pages, il m'a été impossible d'éviter de faire quelques exceptions à la règle que je m'étais imposée.

Ce fichier des entrées dans l'ordre requis est utilisé par la suite pour un dernier tri et pour la préparation du texte de la concordance définitive. Avant que celle-ci ne soit imprimée il faut, pourtant, la relire et effectuer les dernières corrections manuellement. Malgré une très grande vigilance, il y est toujours resté des erreurs. En parcourant la liste des homographes je me rends compte chaque fois qu'il y a de subtiles nuances entre la signification et l'emploi des mots. C'est une vérité de la Palice mais ce n'est que dans son contexte que le mot prend toute sa signification.

Ce n'est pas ici qu'il faut répéter toute la richesse qu'une concordance peut offrir. Au début, sans doute, la concordance de la Bible a été conçue comme un instrument de travail pour permettre aux exégètes de repérer tout de suite certains thèmes pour mieux préparer leurs sermons ou leurs commentaires et le cas échéant pour combler des trous de mémoire. Depuis quelque temps déjà, les historiens de la langue, les grammairiens, les sociologues, les chercheurs, etc., ont vu que les concordances leur offraient une mine de renseignements car elles leur présentaient un bon moyen de faire non seulement une analyse de l'oeuvre en question mais en même temps de faire une étude socio-linguistique de l'époque où l'oeuvre a été composée. Récemment j'ai dû faire une communication sur la valeur des concordances pour comprendre l'évolution du langage poétique en France au seizième siècle. C'était une étude partielle parce que je n'avais qu'un petit nombre de concordances à ma disposition mais si j'avais eu accès à des concordances de toutes les oeuvres du seizième il se peut que mon travail ait eu une valeur plus scientifique.

Mais imaginez quel serait le corpus de la totalité des oeuvres du seizième et du dix-septième siècles. Il faudrait énormément de temps pour le consulter et pour comparer les emplois des différents lexiques. Enfin nous entrons là dans le domaine du dictionnaire électronique.

Si je me suis attardé sur mes propres expériences de concordancier c'est pour souligner que, malgré l'existence autour de moi de machines puissantes et de logiciels dits performants, j'ai dû peiner longuement sur ma tâche -- et les concordances des Oeuvres de Montaigne ou de Rabelais me font penser que d'autres ont rencontré les mêmes difficultés qu'ils ont parfois choisi d'ignorer plutôt que de surmonter.

Dans ce giron du dictionnaire électronique qu'est Clermont-Ferrand et au moment où sa gestation devient plus complexe, il serait peut-être opportun de nous demander ce que nous voulons comme dictionnaire électronique. Tout dictionnaire doit être le fruit du travail du lexicologue, du linguiste et, de nos jours, de l'informaticien. En principe, tout dictionnaire doit être fait à partir du corpus complet de la langue, prenant comme base, dans une première phase, des concordances qui permettront ainsi l'analyse de chaque lexème et de sa polysémie. Selon un chercheur hollandais qui travaille actuellement en Grande Bretagne, les applications lexicologiques d'un corpus se classent sous cinq rubriques:

  1. il fournit des exemples réels, pris dans des phrases qui ont déjà servi;
  2. il permet aux lexicographes de repérer des nuances sémantiques;
  3. il renseigne sur l'emploi syntaxique et contextuel;
  4. il renseigne sur la fréquence de l'emploi;
    et
  5. il permet d'identifier les néologismes, les nouvelles combinaisons de mots et leurs collocations.[1]
Mais comment consulter ces énormes listes de mots fréquemment employés? Heureusement, un dictionnaire électronique du français sur deux siècles aura affaire à un corpus limité même s'il est toujours très important. Il existe des analyseurs automatiques de textes anglais qui ont, paraît-il, un taux de correction de l'ordre de 97%.[2] Il n'est guère possible de consulter ces listes sur toute leur longueur tout en maintenant l'oeil et l'esprit vifs. On a suggéré la possibilité d'en consulter un échantillon -- soit les mille premières occurrences, soit un exemple pris au hasard -- toutes les vingt ou toutes les cent occurrences, ce qui ne serait guère acceptable si on veut avoir des certitudes. John Sinclair a montré l'utilité de limiter les occurrences en cherchant le lexème en compagnie d'un autre, en remettant un terme dans son contexte.[3] Pour faire cela on établit la concordance d'un terme et par la suite on limite le contexte qui l'entoure afin d'obtenir le recensement du vocabulaire environnant, ce qui permettra de constater si le terme paraît en compagnie d'un autre de façon significative et si oui, avec quelle fréquence.

Fort de cette information, je me suis demandé ce que j'aurais à faire à Clermont-Ferrand. Quand j'ai reçu l'invitation d'assister à ce colloque, je me suis d'abord dit que c'était une excellente idée et que je pourrais m'associer au projet de perfectionnement du dictionnaire électronique, ce qui faciliterait éventuellement non seulement mes propres recherches mais aussi celles d'autrui. Ma première intention était de m'attarder sur les difficultés que j'avais rencontrées au cours de mon travail de concordancier mais au fur et à mesure que je me penchais sur les études les plus récentes, je me rendais compte que beaucoup de travail avait déjà été fait dans ce domaine, ou en tout cas, en principe, beaucoup de travail avait été fait.

Ayant été placé tout au début de ce colloque, je me suis dit que c'était le moment de faire une esquisse des problèmes lexicologiques que je souhaitais résoudre, afin d'accorder à ceux qui les ont déjà résolus le plaisir de me les expliquer. Ainsi ai-je décidé de passer en revue ce qui, à ma connaissance, avait déjà été accompli dans ce domaine, afin d'en tirer des lignes directives pour le projet en train. J'ai donc trouvé utile de rendre compte de certains aspects des projets réalisés pour mieux évaluer ce qui reste à faire.

[Suite]


Notes

1. Meijs 1996: 102-103.

2. Voir Garside 1993 et Marcus et al. 1993.

3. Voir Sinclair 1991: 99 et suiv.