3. Le balisage du texte informatisé

Seront traités dans cette section: le pré-balisage, la faisabilité d'un balisage informationnel complet et le balisage mis en oeuvre.

3.1. Le traitement des fautes formelles

Commençons par la mention d'une opération de pré-balisage: la correction de l'original. Les fautes d'impression manifestes sont corrigées dans la version électronique et la forme originale est donnée entre parenthèses doubles tout de suite après la forme juste. Par exemple: (Voir
Figure 7.)

3.2. Faisabilité d'un balisage informationnel complet

Le jeu des mises en saillie et des mises en retrait des débuts d'alinéas, ainsi que celui des mises en capitales de certaines adresses, dans les deuxième, troisième et quatrième éditions du DAF, peuvent laisser supposer l'existence de hiérarchies informationnelles dans les articles de ces trois éditions, sinon dans ceux de l'ensemble des huit éditions. "Complet" comprendrait alors l'explicitation des différentes dépendances en amont d'une information donnée: l'exemple X relèverait de telle unité de traitement, de telle catégorie grammaticale, de telle marque d'usage, de tel classème, de tel sémème (sens, définition), etc. Il suffit de regarder le texte du DAF pour se rendre compte que cette idée est illusoire. Soit l'article QUEUE de A2 (voir
Figure 8), dont l'articulation formelle principale -- mises en saillie et adresses en capitales -- est la suivante: Or, sous le classème "en parlant des animaux à quatre pieds" (en principe alinéas 1-12), on trouve, entre autres, le diable, des soldats, des pêches et des poires: "Il tire le diable par la queue." (alin. 7), "Tous les Soldats furent passez au fil de l'espée, il n'en resta pas la queue d'un. ils ont derobé toutes mes pesches, toutes mes poires, il n'en est pas demeuré la queue d'une." (alin. 8).

En ramenant le concept de "complet" à celui d'un balisage non-hiérarchisé de tous les champs informationnels, on pourrait envisager le découpage suivant de l'alinéa 7 de l'article QUEUE de A2:

Texte original
     On dit prov. et fig. Brider son cheval par la queue, pour dire, Commencer une affaire par où on devroit la finir; Et on dit aussi proverb. et fig. d'Un homme qui a peine à avoir dequoy vivre, qu'Il tire le diable par la queue.
Découpage possible
Copule On dit
Marque prov. et fig.
Unité de traitement Brider son cheval par la queue,
Copule pour dire,
Définition Commencer une affaire par où on devroit la finir;
Copule Et on dit aussi
Marque proverb. et fig.
Définition d'Un homme qui a peine à avoir dequoy vivre,
Copule qu'
Unité de traitement Il tire le diable par la queue.

Le découpage du texte en unités séquentielles indépendantes n'est cependant pas toujours possible non plus. Soit le premier alinéa de l'article GROS dans A1:

Texte original
GROS, OSSE. adj. Qui a beaucoup de circonference et de volume. Il est opposé à menu. Gros arbre. grosse boule. gros homme. il est gros et gras. gros bras. gros ventre, etc. un gros volume in-folio. grosse teste. grosse jambe. femme grosse d'enfant, signifie enceinte. On dit aussi simplement, Femme grosse, pour dire, Femme enceinte. Elle est grosse de six mois. envie de femme grosse. Toutes les fois que l'adjectif Grosse, est aprés le substantif Femme, il veut dire, enceinte: au lieu que lorsqu'il est mis devant, il n'a point d'autre signification que celle du masculin, Gros.
Analyse
Vedette GROS, GROSSE.
Catégorie adj.
Définition Qui a beaucoup de circonference et de volume.
Copule Il est opposé à
Antonyme menu.
Exemples Gros arbre. grosse boule. gros homme. il est gros et gras. gros bras. gros ventre, etc. un gros volume in-folio. grosse teste. grosse jambe. femme grosse d'enfant,
* Unité de traitement [grosse d'enfant]
Copule signifie
Définition enceinte.
Copule On dit aussi simplement,
Unité de traitement Femme grosse,
Copule pour dire,
Définition Femme enceinte.
Exemples Elle est grosse de six mois. envie de femme grosse.
Distribution Toutes les fois que l'adjectif Grosse, est aprés le substantif Femme, il veut dire, enceinte: au lieu que lorsqu'il est mis devant, il n'a point d'autre signification que celle du masculin, Gros.

Le problème ici est que l'exemple "femme grosse d'enfant" contient implicitement une unité de traitement "grosse d'enfant". L'énoncé explicite serait: "Dans l'exemple femme grosse d'enfant, grosse d'enfant signifie 'enceinte'." Ce genre d'ellipse, problématique pour le découpage séquentiel, est en fait caractéristique non seulement des dictionnaires "anciens" mais aussi, et surtout, des dictionnaires modernes, lesquels exigent de la part de l'utilisateur un degré de compétence dictionnairique à la mesure de leur taux de codification toujours croissant (loi du marché commercial oblige: quantité et qualité des informations vs. coût du papier). Pour prendre un exemple dans un dictionnaire moderne, Lexis 1975, s.v. GAGNER:

Comme dans A1 s.v. GROS (cf. ci-dessus), l'exemple contient, en tout ou en partie, une unité de traitement que l'utilisateur doit découvrir par une analyse syntaxique et sémantique. (Cf. R. Wooldridge, A. Ikse-Vitols & T. Nadasdi, "Le Projet CopuLex", CHWP B.9.)

Dans ces conditions, celui qui entreprend la rétroconversion informatique d'un dictionnaire imprimé est confronté à plusieurs choix: soit il se contente de baliser les objets explicites, univoques et constants (balisage "minimal", objectif); soit il fait un balisage "complet" approximatif (balisage "imparfait", subjectif); soit il réécrit le dictionnaire avant de le rétroconvertir (balisage "complet" et cohérent, mais ce n'est plus le même dictionnaire).

3.3. Le balisage mis en oeuvre pour l'informatisation du DAF

À la lumière des différents problèmes passés en revue dans les paragraphes précédents, on ne s'étonnera pas que le projet d'informatisation du DAF ait opté pour un balisage minimal. Dans la saisie en cours (saisie de la 5e édition achevée, celle de la première en cours), sont balisés les objets suivants: Exemple: deux premiers alinéas de l'article GAGNER de A1: [4]

Original (A1 s.v. GAIN)
GAGNER. v. a. Profiter, faire du gain. Il a beau-
     coup gagné au piquet, à la paume. gagner au com-
     merce, dans les fermes. gagner gros. un bon ouvrier
     peut gagner tant par jour. il a gagné dix mille escus
     sur sa charge.

          On dit, Gagner sa vie à filer, à chanter, pour
     dire, Gagner dequoy vivre en filant, en chantant.
Saisie
<ed="1694">
[...]
<p="I.507"><col="a">
[...]
<pr num="1" tab="s"><hw="gagner:gain"><sc>Gagner</sc>.</hw> <cat="v.a.">v. a.</cat> Profiter, faire du gain. <i>Il a beaucoup gagné au piquet, à la paume. gagner au commerce, dans les fermes. gagner gros. un bon ouvrier peut gagner tant par jour. il a gagné dix mille escus sur sa charge.</i>
<pr num="2" tab="r"> On dit, <i>Gagner sa vie à filer, à chanter,</i> pour dire, Gagner dequoy vivre en filant, en chantant.
[...]

Dans la pratique, l'adéquation romain=définition, italique=exemple fonctionne suffisamment bien pour faire le départ, dans la majorité des cas, entre emploi en langue (exemple) et emploi en métalangue (définition). Ainsi, sur les 50 occurrences de plante, 11 sont en italique (dans les exemples "plante à plusieurs tiges" A1-8 s.v. TIGE et "cette plante demande une terre grasse" A6-8 s.v. GRAS) et 39 en romain, presque toutes utilisées comme terme définisseur ("Plante qu'on nomme..." A4-5, "Plante à fleur labiée..." A6-7, "Plante de la famille des..." A8 s.v. ACANTHE; "Une petite plante qui ressemble..." A2-5, "Petite plante à laquelle..." A6-7 s.v. QUEUE).

3.4. Les outils associés

Une bonne partie des occurrences des champs informationnels peut être récupérée par l'utilisateur de la base au moyen de l'index lemmatisé des mots-clés métalinguistiques, termes clés du discours lexicographique: "on dit", "adjectif", "signifie", "par analogie", "particulièrement", "vieux", "t. de botanique", etc. La Figure 9 donne la liste des mots-clés métalinguistiques actuellement indexés dans la Base Académie Échantillon. [5]

Le DAF informatisé sera également accompagné d'une base critique dont on peut voir un aperçu dans un Hypertexte Académie 1694 en préparation dans la Base Académie Échantillon.

[Suite] -- Retour à la table]


Notes

4. Interventions pour faciliter la lecture présente: balises en caractères non-proportionnels, texte en gras.

5. Cf. aussi R. Wooldridge & I. Leroy-Turcan, "Metalinguistic Keywords as a Structural Retrieval Tool for Early Dictionaries"; id., "Les Mots-clés métalinguistiques comme outil d'interrogation structurante des dictionnaires anciens".