[Texte préparé pour le Colloque ALLC/ACH, Bergen, juin 1996.]
MOTS-CLÉS:
dictionnaires anciens, Académie française, base dictionnairique, base textuelle, base critique
La Base Académie Échantillon (BAE) fait partie du projet international d'informatisation du Dictionnaire de l'Académie française. L'objet principal du projet global est la création d'une base de données des huit éditions complètes du DAF (1694-1935). Les trois composantes principales de la BAE sont la Base dictionnairique, la Base textuelle et la Base critique, cette dernière comprenant des notes d'expert rédigés par des membres du projet et des textes théoriques contemporains des différentes éditions du dictionnaire; en outre, la BAE contiendra une base bibliographique, une base d'images et une base de mots-clés métalinguistiques (Wooldridge 1994; Wooldridge & Leroy-Turcan 1995; Leroy-Turcan 1996a et 1996b). La présente communication concerne la Base dictionnairique et la Base textuelle de la BAE.
La Base dictionnairique (BD) et la Base textuelle (BT) sont complémentaires, l'une représentant une description de la langue, l'autre un échantillonnage de l'usage discursif qui fonde la description dictionnairique. La BAE s'inspire de deux bases du français de la Renaissance: RenDico, qui contient des dictionnaires de Robert Estienne et de Jean Nicot, et RenTexte, où se trouvent quelques textes du XVIe siècle sources des dictionnaires (Wooldridge 1995). Dans le cas du Dictionnaire de l'Académie, les sources sont en principe les Académiciens mêmes: on se félicite de ne pas avoir besoin de citations puisque les meilleurs exemplificateurs du bon français sont les auteurs du dictionnaire!
L'objectif des deux bases échantillons est, d'une part, la mise à l'épreuve du modèle avant que la méthodologie du projet global soit définitement arrêtée et, d'autre part, la création de matériaux utiles pour l'étude des méthodes dictionnairiques et de l'histoire de la langue. Le Dictionnaire de l'Académie est unique en ce qu'il donne huit descriptions synchroniques de la langue sur une période de 240 ans et qu'il constitue la norme linguistique du français.
La BD contient un choix d'articles, les mêmes pour chaque édition, représentant 1% environ de l'ensemble. Les critères de sélection sont l'inclusion de mots sémantiques et de mots outils, la représentativité alphabétique (les divisions physiques de l'oeuvre: début-milieu-fin), l'inclusion de tranches séquentielles et de mots d'importance culturelle. La nomenclature de la BD répond aussi, dans une certaine mesure, aux intérêts particuliers des participants (chercheurs et étudiants). Les articles sélectionnés, tous saisis et installés en ligne (voir section 3), sont les suivants: acanthe, âme, cloche à clochette, douaire à douzil, gagner, gras, gros, loin à loisir, mots en loup- et louv-, que, queue, tige à tintouin, vent, vin, voler.
La BT comprend de courts textes et des extraits écrits par un certain
nombre de prosateurs et de poètes grands et petits, tous membres de
l'Académie. Le choix des textes répond à plusieurs
critères: distribution diachronique (volume de données
comparable pour chaque édition du dictionnaire);
représentativité de l'usage (on essaie de tenir compte du
rôle joué par différents académiciens dans la
préparation de chaque édition du dictionnaire);
présence dans les textes d'un bon nombre des mots retenus pour la BD;
disponiblilité. Parmi les plus connus des plusieurs dizaines
d'auteurs qu'on espère inclure dans la BT, on peut citer les noms
suivants: Balzac (Guez de), Bossuet, Buffon, Chateaubriand, Condorcet,
Corneille, Cuvier, France, Hugo, La Fontaine, Lamartine, Marivaux, Mauriac,
Mérimée, Montesquieu, Musset, Perrault, Racine, Renan,
Romains, Sainte-Beuve, Tocqueville, Valéry, Voltaire.
Le balisage du dictionnaire comprend vedette, co-vedette, vedette-variante,
catégorie grammaticale principale, alinéa, typographie,
édition, page et colonne. Pour les champs informationnels de la
microstructure, souvent ambigus et imprévisibles, nous avons
préféré l'emploi d'une liste de mots-clés
métalinguistiques lemmatisés -- par ex. masculin pour
les références au genre masculin, signifie pour les
copules définitionnelles, familier pour les marques d'usage
familier -- à un balisage systématique, donc subjectif, qui
trahirait le texte, surtout dans les premières éditions. La
discrimination typographique vient compléter les mots-clés:
les définitions sont toujours en romain, les exemples en italique.
Des liens hypertextuels associent les vedettes de la BD aux occurrences de
la BT; d'autres liens à l'endroit des vedettes ou des sous-adresses
renvoient à des notes critiques ou à des images (par ex.
l'histoire de l'unité lexicale feuille d'acanthe ou des images
de la feuille d'acanthe comme motif architectural).
La BD est interrogeable, soit comme texte continu, avec restriction
facultative par champs balisés (édition, vedette, typographie,
etc.), soit comme texte de consultation à partir des têtes
d'articles (les vedettes) -- la liste des mots indexés est en deux
parties: d'abord les mots de texte et ensuite les vedettes; par ex., ...
douce 353, douces 59, doux 717 (occurrences) ...
@doux 8 (vedette).
Les textes de la BT sont jalonnés par division structurale (titre,
section, paragraphe, etc.), division physique (page) et typographie. La base
est interrogeable comme texte continu avec délimitation facultative
par champs balisés.
L'interrogation simultanée des dictionnaires (c.-à-d.
éditions du DAF) et des textes s'effectue au moyen de la
combinaison des deux bases en une base globale. La base globale constitue
le corpus de recherche par défaut; l'utilisateur peut créer
des sous-corpus en limitant les recherches ponctuelles, par exemple, aux
seuls dictionnaires, aux seuls textes, aux dictionnaires et aux textes du
XVIIIe siècle, au dictionnaire A et aux textes X et Y, etc.
La BAE utilise actuellement le World Wide Web comme modèle de
conceptualisation. Les interrogations de la base sont actuellement
simulées par des liens qui renvoient d'un certain nombre d'items
choisis aux occurrences; celles-ci sont affichées dans des contextes
d'une ligne (KWIC); à leur tout, les contextes KWIC renvoient au
texte intégral des articles. On projète d'utiliser une version
du moteur de recherche PAT pour la version en ligne et de diffuser la BAE
achevée dans une version en ligne et sur CD-ROM. La version WWW --
qui comprend actuellement tous les articles sélectionnés,
ainsi que des listes de mots-clés métalinguistiques qui
renvoient aux occurrences en contexte -- peut être consultée
à l'adresse suivante:
http://www.epas.utoronto.ca:8080/~wulfric/academie/.
L'importance première de la base dictionnaires-textes combinée
réside dans la comparaison qu'elle permet de faire entre l'usage
codifié (le dictionnaire) et l'usage naturel (les textes). Puisque
le Dictionnaire de l'Académie est normatif et conservateur,
on peut s'attendre à trouver dans des bases textuelles telles que
Frantext ou ARTFL de nombreux exemples d'usages soit condamnés, soit
passés sous silence par le dictionnaire. On peut s'attendre aussi
à ce que, pour un certain nombre d'items lexicaux, les
Académiciens -- comme tout locuteur, qui a un usage soigné et
un usage familier -- disent une chose dans le dictionnaire et fassent autre
chose dans leurs écrits.
Par exemple, de 1694 jusqu'en 1878 le dictionnaire dit que l'adjectif
timoré "ne se dit guère qu'en parlant de la
crainte d'offenser Dieu". Entre 1694 et 1762 les deux cooccurrents
donnés dans les exemples sont âme et conscience,
tous deux féminins. L'édition de 1762 ajoute la remarque que
le mot "n'est guère en usage au masculin". Les
éditions de 1798, 1835 et 1878 ajoutent le cooccurrent masculin
il. Les Académiciens en tant qu'auteurs individuels offrent des exemples d'emploi qui se conforment
aux dires du dictionnaire et d'autres qui les contredisent. Bossuet (1685)
donne conscience timorée; Montesquieu (1755) emploie le
masculin timoré pour qualifier le pronom vous; Voltaire
(1776), traitant de la Bible, donne deux occurrences de
âme(s) timorée(s). Dans tous ces
cas, timoré réfère à la crainte de Dieu.
Dans un texte antérieur (1755), Voltaire utilise un contexte dans
lequel, comme ce sera de plus en plus le cas, timoré
réfère simplement au caractère ou au comportement de
quelqu'un: main timorée. De même, Sainte-Beuve (1834),
quelque chose de timoré, et Chateaubriand (1848) corruption
timorée.
Dans la sixième édition (1835), le dictionnaire déclare
que tillac "ne se dit guère qu'en parlant Des
bâtiments du commerce". Chateaubriand emploie le mot 11 fois dans
ses Mémoires d'Outre-tombe (1848) en parlant
indifféremment des bâteaux marchands, des paquebots ou des
navires navals.
Le mot timbre acquiert des acceptions nouvelles d'une édition
à l'autre du dictionnaire. Le sens "petit carré de
papier, portant l'effigie du souverain, ou une autre marque, et qui sert
à l'affranchissement des lettres envoyées par la poste"
est exprimé par timbre-poste en 1878; l'édition
suivante (1935) ajoute pour ce sens la forme elliptique timbre. Il
va de soi que le dictionnaire ne fait qu'enregistrer un usage établi
que l'on peut observer dans des textes antérieurs. Dans les 1880
textes de la base ARTFL, la première attestation remonte à
1863 (les frères Goncourt); Hugo s'en sert plusieurs fois dans le
volume de sa correspondance publié en 1866. Dans le même
volume, il emploie une fois la forme elliptique timbre (69 ans avant
l'Académie); dans le volume suivant (1873), c'est cette
dernière forme qui est devenue la plus fréquente.
La Base Académie Échantillon en ligne donne un exemple d'une analyse comparative du dictionnaire et de l'usage discursif individuel: la 6e édition du Dictionnaire (1835) par rapport à des extraits pris dans Lamartine, Voyage en Orient, 1832-3 (éd. 1836) et Villemain, Cours de littérature française (1829).
L'informatisation des dictionnaires anciens est un
phénomène récent (Wooldridge 1985). Pruvost (1995: 17)
note la valeur symbolique du colloque de Toronto d'octobre 1993 sur les
Bases de dictionnaires anciens (Lancashire & Wooldridge 1994).
Lancashire (1992) prépare une Base de connaissances de la Renaissance
anglaise dont les objectifs sont analogues de ceux du projet
Académie. Le soin philologique apporté à la
représentation fidèle des textes originaux allié
à une sophistication technologique devenue la norme en informatique
textuelle rend possible la création de matériaux donnant un
accès exhaustif aux textes anciens sans que l'on soit dependant,
comme dans le passé, de lectures partielles
répétées ou d'interprétations filtrées
et diachroniquement marquées fournies par des dictionnaires
historiques comme l'OED ou le TLF.
2. Structures de la Base Académie Échantillon et typologie de la recherche de données
3. La BAE en ligne
4. La complémentarité de la Base dictionnairique et de la Base textuelle
5. Conclusion
Références