Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.", Clermont-Ferrand, 14-15 juin 1996 | | P. Caron & B.-R. Hwang, "L'informatisation du Dictionaire Critique de la Langue Française (1787)" |
3. L'avenir
Depuis deux ans nous sommes en progression quantitative. C'est la saisie propre des données
qui nous absorbe le plus. Pour la suite des opérations, nous reprenons volontiers aujourd'hui
ce que nous avions dit l'an dernier à Nancy car nous n'avons pas substantiellement
varié:
Afin que nul ne nous taxe ici de simplisme, je voudrais dire qu'une description technique de ce
document est actuellement en cours dans un des laboratoires participant à l'opération
et qu'elle nous conduit à faire d'une façon très carrée les observations
suivantes:
- ce répertoire est une collection presque aléatoire de prédicats
métalinguistiques attachés à des articles à adresses simples ou
multiples, ce dernier cas compliquant davantage encore la syntaxe des composants. La
recherche de séquences récurrentes, prédictibles, est constamment mise
en échec, même si certaines successions sont plus fréquentes que
d'autres. Ce trait distinctif tient à la genèse du document: le
D.C. n'a
jamais été un dictionnaire général. Grammaire alphabétique
au stade du Dictionnaire Grammatical de 1761, il s'est accru en incluant la composante
définitionnelle en 1787 mais il n'a pas perdu son caractère initial de
collection alphabétique de remarques.
les indications typographiques sont très souvent polysémiques et/ou
synonymiques, donc peu récupérables en vue d'un balisage automatique du
contenu. Elles réclament constamment la coopération du lecteur.
les marques d'usage, les sources, les catégories grammaticales, le
métalangage descriptif sont constamment sujets à des phénomènes
de synonymie.
l'un des objets les plus conséquents, à savoir les exemples fabriqués
ou les citations, est annoncé par des guillemets mais n'est pas clôturé.
On voit quelle difficulté il y a à refermer manuellement la chose, aucun
opérateur de saisie n'étant capable de discriminer convenablement certains cas
litigieux où le statut de l'énonciation est labile.
les disjoncteurs ne présentent pas une organisation hiérarchique. Ils sont
largement permutables contextuellement et se combinent entre eux. En outre ils n'annoncent
pas un contenu particulier en aval. Ils sont inertes sémantiquement à quelques
exceptions près (crochets droits, guillemets).
Nous avons donc pris le parti d'offrir déjà une base minimale propre et consultable
commodément en mode "texte" en 1997.
Ensuite nous passerons à une étape d'enrichissement de la version-machine, qui sera
très largement fonction des moyens dégagés à ce moment-là.
Toutefois les grandes lignes de cette opération nous semblent déjà se dessiner
ainsi: il n'est pas possible de relever informatiquement un texte structuralement couché et
peu prédictible. Nous encadrerons donc les objets les mieux circonscrits (adresses,
catégories grammaticales, composant phonético-graphique, exemples, disjoncteurs,
sources) mais nous ne parviendrons sans doute pas à donner aux articles une structure
arborescente qui autorise, elle, des requêtes plus fines et surtout des réponses
exactement triées.
L'avenir dira si nous pouvons faire plus.
[Retour à la Table des matières]