La Base Académie Échantillon

Russon Wooldridge & Isabelle Leroy-Turcan

University of Toronto & Université de Lyon III

© 1996 R. Wooldridge & I. Leroy-Turcan

[Texte préparé pour le Colloque ALLC/ACH, Bergen, juin 1996.]

MOTS-CLÉS:
dictionnaires anciens, Académie française, base dictionnairique, base textuelle, base critique

[English version]


1. Descriptif du projet de recherche

La Base Académie Échantillon (BAE) fait partie du projet international d'informatisation du Dictionnaire de l'Académie française. L'objet principal du projet global est la création d'une base de données des huit éditions complètes du DAF (1694-1935). Les trois composantes principales de la BAE sont la Base dictionnairique, la Base textuelle et la Base critique, cette dernière comprenant des notes d'expert rédigés par des membres du projet et des textes théoriques contemporains des différentes éditions du dictionnaire; en outre, la BAE contiendra une base bibliographique, une base d'images et une base de mots-clés métalinguistiques (Wooldridge 1994; Wooldridge & Leroy-Turcan 1995; Leroy-Turcan 1996a et 1996b). La présente communication concerne la Base dictionnairique et la Base textuelle de la BAE.

La Base dictionnairique (BD) et la Base textuelle (BT) sont complémentaires, l'une représentant une description de la langue, l'autre un échantillonnage de l'usage discursif qui fonde la description dictionnairique. La BAE s'inspire de deux bases du français de la Renaissance: RenDico, qui contient des dictionnaires de Robert Estienne et de Jean Nicot, et RenTexte, où se trouvent quelques textes du XVIe siècle sources des dictionnaires (Wooldridge 1995). Dans le cas du Dictionnaire de l'Académie, les sources sont en principe les Académiciens mêmes: on se félicite de ne pas avoir besoin de citations puisque les meilleurs exemplificateurs du bon français sont les auteurs du dictionnaire!

L'objectif des deux bases échantillons est, d'une part, la mise à l'épreuve du modèle avant que la méthodologie du projet global soit définitement arrêtée et, d'autre part, la création de matériaux utiles pour l'étude des méthodes dictionnairiques et de l'histoire de la langue. Le Dictionnaire de l'Académie est unique en ce qu'il donne huit descriptions synchroniques de la langue sur une période de 240 ans et qu'il constitue la norme linguistique du français.

La BD contient un choix d'articles, les mêmes pour chaque édition, représentant 1% environ de l'ensemble. Les critères de sélection sont l'inclusion de mots sémantiques et de mots outils, la représentativité alphabétique (les divisions physiques de l'oeuvre: début-milieu-fin), l'inclusion de tranches séquentielles et de mots d'importance culturelle. La nomenclature de la BD répond aussi, dans une certaine mesure, aux intérêts particuliers des participants (chercheurs et étudiants). Les articles sélectionnés, tous saisis et installés en ligne (voir section 3), sont les suivants: acanthe, âme, cloche à clochette, douaire à douzil, gagner, gras, gros, loin à loisir, mots en loup- et louv-, que, queue, tige à tintouin, vent, vin, voler.

La BT comprend de courts textes et des extraits écrits par un certain nombre de prosateurs et de poètes grands et petits, tous membres de l'Académie. Le choix des textes répond à plusieurs critères: distribution diachronique (volume de données comparable pour chaque édition du dictionnaire); représentativité de l'usage (on essaie de tenir compte du rôle joué par différents académiciens dans la préparation de chaque édition du dictionnaire); présence dans les textes d'un bon nombre des mots retenus pour la BD; disponiblilité. Parmi les plus connus des plusieurs dizaines d'auteurs qu'on espère inclure dans la BT, on peut citer les noms suivants: Balzac (Guez de), Bossuet, Buffon, Chateaubriand, Condorcet, Corneille, Cuvier, France, Hugo, La Fontaine, Lamartine, Marivaux, Mauriac, Mérimée, Montesquieu, Musset, Perrault, Racine, Renan, Romains, Sainte-Beuve, Tocqueville, Valéry, Voltaire.

2. Structures de la Base Académie Échantillon et typologie de la recherche de données

Le balisage du dictionnaire comprend vedette, co-vedette, vedette-variante, catégorie grammaticale principale, alinéa, typographie, édition, page et colonne. Pour les champs informationnels de la microstructure, souvent ambigus et imprévisibles, nous avons préféré l'emploi d'une liste de mots-clés métalinguistiques lemmatisés -- par ex. masculin pour les références au genre masculin, signifie pour les copules définitionnelles, familier pour les marques d'usage familier -- à un balisage systématique, donc subjectif, qui trahirait le texte, surtout dans les premières éditions. La discrimination typographique vient compléter les mots-clés: les définitions sont toujours en romain, les exemples en italique. Des liens hypertextuels associent les vedettes de la BD aux occurrences de la BT; d'autres liens à l'endroit des vedettes ou des sous-adresses renvoient à des notes critiques ou à des images (par ex. l'histoire de l'unité lexicale feuille d'acanthe ou des images de la feuille d'acanthe comme motif architectural).

La BD est interrogeable, soit comme texte continu, avec restriction facultative par champs balisés (édition, vedette, typographie, etc.), soit comme texte de consultation à partir des têtes d'articles (les vedettes) -- la liste des mots indexés est en deux parties: d'abord les mots de texte et ensuite les vedettes; par ex., ... douce 353, douces 59, doux 717 (occurrences) ... @doux 8 (vedette).

Les textes de la BT sont jalonnés par division structurale (titre, section, paragraphe, etc.), division physique (page) et typographie. La base est interrogeable comme texte continu avec délimitation facultative par champs balisés.

L'interrogation simultanée des dictionnaires (c.-à-d. éditions du DAF) et des textes s'effectue au moyen de la combinaison des deux bases en une base globale. La base globale constitue le corpus de recherche par défaut; l'utilisateur peut créer des sous-corpus en limitant les recherches ponctuelles, par exemple, aux seuls dictionnaires, aux seuls textes, aux dictionnaires et aux textes du XVIIIe siècle, au dictionnaire A et aux textes X et Y, etc.

3. La BAE en ligne

La BAE utilise actuellement le World Wide Web comme modèle de conceptualisation. Les interrogations de la base sont actuellement simulées par des liens qui renvoient d'un certain nombre d'items choisis aux occurrences; celles-ci sont affichées dans des contextes d'une ligne (KWIC); à leur tout, les contextes KWIC renvoient au texte intégral des articles. On projète d'utiliser une version du moteur de recherche PAT pour la version en ligne et de diffuser la BAE achevée dans une version en ligne et sur CD-ROM. La version WWW -- qui comprend actuellement tous les articles sélectionnés, ainsi que des listes de mots-clés métalinguistiques qui renvoient aux occurrences en contexte -- peut être consultée à l'adresse suivante: http://www.epas.utoronto.ca:8080/~wulfric/academie/.

4. La complémentarité de la Base dictionnairique et de la Base textuelle

L'importance première de la base dictionnaires-textes combinée réside dans la comparaison qu'elle permet de faire entre l'usage codifié (le dictionnaire) et l'usage naturel (les textes). Puisque le Dictionnaire de l'Académie est normatif et conservateur, on peut s'attendre à trouver dans des bases textuelles telles que Frantext ou ARTFL de nombreux exemples d'usages soit condamnés, soit passés sous silence par le dictionnaire. On peut s'attendre aussi à ce que, pour un certain nombre d'items lexicaux, les Académiciens -- comme tout locuteur, qui a un usage soigné et un usage familier -- disent une chose dans le dictionnaire et fassent autre chose dans leurs écrits.

Par exemple, de 1694 jusqu'en 1878 le dictionnaire dit que l'adjectif timoré "ne se dit guère qu'en parlant de la crainte d'offenser Dieu". Entre 1694 et 1762 les deux cooccurrents donnés dans les exemples sont âme et conscience, tous deux féminins. L'édition de 1762 ajoute la remarque que le mot "n'est guère en usage au masculin". Les éditions de 1798, 1835 et 1878 ajoutent le cooccurrent masculin il. Les Académiciens en tant qu'auteurs individuels offrent des exemples d'emploi qui se conforment aux dires du dictionnaire et d'autres qui les contredisent. Bossuet (1685) donne conscience timorée; Montesquieu (1755) emploie le masculin timoré pour qualifier le pronom vous; Voltaire (1776), traitant de la Bible, donne deux occurrences de âme(s) timorée(s). Dans tous ces cas, timoré réfère à la crainte de Dieu. Dans un texte antérieur (1755), Voltaire utilise un contexte dans lequel, comme ce sera de plus en plus le cas, timoré réfère simplement au caractère ou au comportement de quelqu'un: main timorée. De même, Sainte-Beuve (1834), quelque chose de timoré, et Chateaubriand (1848) corruption timorée.

Dans la sixième édition (1835), le dictionnaire déclare que tillac "ne se dit guère qu'en parlant Des bâtiments du commerce". Chateaubriand emploie le mot 11 fois dans ses Mémoires d'Outre-tombe (1848) en parlant indifféremment des bâteaux marchands, des paquebots ou des navires navals.

Le mot timbre acquiert des acceptions nouvelles d'une édition à l'autre du dictionnaire. Le sens "petit carré de papier, portant l'effigie du souverain, ou une autre marque, et qui sert à l'affranchissement des lettres envoyées par la poste" est exprimé par timbre-poste en 1878; l'édition suivante (1935) ajoute pour ce sens la forme elliptique timbre. Il va de soi que le dictionnaire ne fait qu'enregistrer un usage établi que l'on peut observer dans des textes antérieurs. Dans les 1880 textes de la base ARTFL, la première attestation remonte à 1863 (les frères Goncourt); Hugo s'en sert plusieurs fois dans le volume de sa correspondance publié en 1866. Dans le même volume, il emploie une fois la forme elliptique timbre (69 ans avant l'Académie); dans le volume suivant (1873), c'est cette dernière forme qui est devenue la plus fréquente.

La Base Académie Échantillon en ligne donne un exemple d'une analyse comparative du dictionnaire et de l'usage discursif individuel: la 6e édition du Dictionnaire (1835) par rapport à des extraits pris dans Lamartine, Voyage en Orient, 1832-3 (éd. 1836) et Villemain, Cours de littérature française (1829).

5. Conclusion

L'informatisation des dictionnaires anciens est un phénomène récent (Wooldridge 1985). Pruvost (1995: 17) note la valeur symbolique du colloque de Toronto d'octobre 1993 sur les Bases de dictionnaires anciens (Lancashire & Wooldridge 1994). Lancashire (1992) prépare une Base de connaissances de la Renaissance anglaise dont les objectifs sont analogues de ceux du projet Académie. Le soin philologique apporté à la représentation fidèle des textes originaux allié à une sophistication technologique devenue la norme en informatique textuelle rend possible la création de matériaux donnant un accès exhaustif aux textes anciens sans que l'on soit dependant, comme dans le passé, de lectures partielles répétées ou d'interprétations filtrées et diachroniquement marquées fournies par des dictionnaires historiques comme l'OED ou le TLF.


Références