Remarques sur la structuration et l'éventuelle informatisation du FEW

Russon Wooldridge

University of Toronto

(Présentées devant l'équipe de rédaction du FEW au Centre du FEW, le 26-27 juillet 1990)

© 1990, 2001 R. Wooldridge


0. Les remarques suivantes sont basées sur deux "états" du Französisches etymologisches Wörterbuch représentés par le tome 10 (étymons latins en r-, 1966, période Wartburg) et le tome 25 (refonte des étymons latins en a-, en cours de publication, période Chambon), et plus spécialement par les articles realis et redigere (rédigés par P. Zumthor, t. 10) et asinus (réd. J.-P. Chambon, t. 25).

1. Les informations sont présentées dans le texte principal de chaque article comme une suite d'items composés de plusieurs composants hiérarchisés.

1.1. Les composants hiérarchiquement supérieurs ne sont explicités qu'une fois, au début de la séquence qu'ils affectent.

1.1.1. Certains types de composants sont toujours hiérarchiquement supérieurs à d'autres (étymon, sens global, sous-sens général, section);

1.1.2. d'autres ne le sont que lorsqu'ils sont communs à plusieurs items (variété linguistique, forme, catégorie grammaticale, acception);

1.1.3. d'autres enfin n'affectent que le seul item qu'ils qualifient (dates, restriction sémantique).

1.2. Schéma d'item (exemple: début redigere)

1.3. Composants occasionnels. Les composants Sous-sens général, Restriction sémantique et Note ne sont qu'occasionnels.

1.3.1. Le Sous-sens général (ex. 'stupidité, ignorance, grossièreté', 'Humains' s.v. asinus) intervient dans les longs articles polysémiques.

1.3.2. La Restriction sémantique (ex. spécialt., fig. s.v. redigere), donnée comme composant à part, semblerait être idéolectale.

1.3.3. La Note n'affecte généralement que le seul item qu'elle qualifie.

1.4. Nature de "Section". Les sections et sous-sections sont signifiées par une adresse d'ordre alpha-numérique (chiffres romains et arabes, lettres latines et grecques), plus éventuellement une adresse de classe lexicale.

1.4.1. Les composants hiérarchiquement supérieurs de l'adresse d'ordre sont tantôt explicités une fois au début, tantôt répétés. Les critères déterminant le choix entre l'économie et la répétition seraient soit la pratique rédactionnelle (p. ex. années 1960 vs. 1980), soit la consultabilité (sections/sous-sections longues ou courtes).

1.4.2. La nomenclature des adresses de classe lexicale semble s'enrichir avec le temps. Dans l'échantillonnage du t. 10 on ne trouve que "Dér.". Dans l'article asinus, on rencontre "Proverbes" et ce qui implicitement serait "Syntagmes lexicalisés qui méthodologiquement aurait dû paraître dans des articles déjà rédigés dans les volumes antérieurs et récupérés ici" et qui explicitement est réalisé par, entre autres, "CAPUT" (445a) et "*BANK-" (448b).

2. Causes de déstructuration du modèle "Items". La structure est ici définie comme une progression parallèle (a) hiérarchie: hyper -> hypo, (b) linéarité du texte; c'est-à-dire qu'à un endroit déterminé du texte les composants d'item qui y sont explicités sont complétés par les composants hiérarchiquement supérieurs se trouvant en amont.

2.1. Précarité du statut hiérarchique de composants occasionnellement supérieurs (ensemble 1.1.2).

2.1.1. Catégorie grammaticale. La portée générale de la cat. gramm. devient inopérante dans le cas des syntagmes (du moins dans t. 10), dont la cat. gr. n'est pas donnée; ex. cas réel, le réel, se derealiser. La catégorisation des verbes pronominaux peut connaître des variantes à l'intérieur d'un même idéolecte rédactionnel: ex. "se derealiser" vs. "réaliser v.r.".

2.1.2. Oublis rédactionnels. Ex. (i) irréalisation - cat. gramm. systémique = "adj." (dernière cat. en amont); (ii) asinus, section I.1.d. - acception systémique = "onagre" (dernier signifié en amont).

2.2. Ambiguïté du statut général/spécifique de la Restriction sémantique (cf. 1.1.3 et 1.3.2).

2.3. Composants généraux donnés en aval: Note générale, Commentaire, Notice bibliographique, Notice renvoi- bibliographie.

2.3.1. La Note générale peut être donnée soit dans la section terminale Notes, soit dans le corps de l'article (nouveauté du t. 25; ex. "pour le type /./ v. ici /./ où l'on ajoutera /./" 448b).

2.3.2. Le Commentaire n'appartient pas à la structure "Items", quoiqu'il ait pour fonction, entre autres, d'en expliquer l'articulation.

2.3.3. La Notice (renvoi-)biblio. est placée à la fin de la section qu'elle concerne (ex. asinus 3.b. et "Proverbes" 451b).

3. Informatisation.

3.1. Types: a) informatisation "riche": on saisit et le texte linéaire et sa structure complète; b) informatisation "pauvre": on saisit le texte linéaire, plus une structure minimale.

3.1.1. Informatisation "riche". Elle demande une préédition importante comportant: a) des consignes précises concernant l'étiquetage des composants (cf. 1.2) et la portée générale des composants hiérarchiquement supérieurs; b) l'annotation ponctuelle d'oublis, d'ambiguïtés et de dérogations au système; c) la création de "ponts" entre les composants généraux en aval et les items qu'ils concernent; d) la correction de coquilles (type "Las 1875" pour "Lar 1875" s.v. réalisabilité).

3.1.2. Informatisation "pauvre". Elle ne requiert comme préédition que l'établissement de consignes minimales pour: a) l'étiquetage* en début de chaque article de sa référence globale; b) l'intégration des notes terminales à leur place dans le texte des items.

3.2. Modes d'interrogation.

3.2.0. On peut distinguer deux types d'interrogation: a) "Fiche-item" (base hautement structurée = base "riche"); b) "Concordance" (base linéaire = base "pauvre").

3.2.1. Base "riche". Elle permet, entre autres: a) pour un élément donné, l'affichage de l'ensemble des composants de l'item ou des items concernés (cf. le modèle donné à 1.2); b) l'interrogation de sous-ensembles tels que Variété linguistique, Dates, etc.; c) l'établissement de statistiques telles que le nombre d'items dans un article donné. Elle permet aussi les types d'interrogation mentionnés à 3.2.2 ci-dessous.

3.2.2. Base "pauvre". Elle permet l'interrogation de tout mot de texte en occurrence ou en cooccurrence; ex:

Elle permet également la distribution (par article, par tome) de tout phénomène (mot, liste de mots, cooccurrence...) demandé.

3.3. Coût et rendement.

3.3.1. Version "riche". Étant donné la complexité des réseaux et l'onéreuse préédition nécessaire pour les expliciter; étant donné le degré de connaissance du texte nécessaire pour faire une préédition correcte; étant donné le relativement peu de valeur commercial (par rapport à un OED, un TLF ou un Robert) que représenterait le FEW aux yeux d'un sponsor industriel, ou même scientifique: il semble peu réaliste de songer à une informatisation riche.

3.3.2. Version "pauvre". Le coût en termes de matière grise serait minimal. Il serait à chiffrer essentiellement en termes d'heures de saisie. Du point de vue de la recherche d'informations, une base "pauvre" permet de répondre à à peu près toutes les questions que l'on poserait à une base "riche": a) la reconstitution en items se ferait par la lecture du texte affiché à l'écran et la connaissance des structures du texte ("affichage-fiche" remplacé par l'intelligence de l'utilisateur); b) sous-ensembles interrogés au moyen de mots clefs (ex. "mfr.", etc.); c) pour ce qui est des statistiques, quoique le calcul du nombre d'items ne soit pas réalisé, celui du nombre et de la distribution de tout phénomène linéaire (cf. 3.2.2) serait toujours faisable.

3.4. Supports informatisés.

3.4.1. "Guide du FEW".
3.4.2. "Beiheft" revu et corrigé.

3.5. Sous-produits.

3.5.1. Index des formes: virtuel dans la base, il pourrait être imprimé au besoin.
3.5.2. Index des étymons-vedettes: ibid.
3.5.3. Index des étymons "cachés", index des concepts "Begriff": possibilité de les extraire par une stratégie d'interrogation de la base.
3.5.4. Index/liste de X, Y, Z: ibid.
3.5.5. Etc.

------------

T.R. Wooldridge, Molsheim le 28 juillet 1990