3.3.2. Patron d'ensemble du champ grammatical

Le champ grammatical est généralement séparé de l'entrée (et de ses variantes) ainsi que de la sous-entrée par un point. Lorsqu'il suit une sous-entrée, il est introduit par une virgule ou par un point, sauf dans certains articles des mots grammaticaux où il semble s'intégrer au champ définitionnel comme on le verra plus loin. Le champ est introduit à deux reprises par une copule dans notre échantillon.

Il arrive parfois, lorsqu'il y a une entrée secondaire, qu'une zone grammaticale distincte apparaisse :

Lorsque les caractéristiques grammaticales sont identiques pour l'entrée principale et la variante, une seule zone grammaticale apparaît à la suite des entrées.

Inversement, plusieurs zones grammaticales peuvent porter sur une entrée lorsqu'elle appartient à plusieurs parties du discours :

Dans ce cas, les zones grammaticales sont séparées par une esperluette. La double catégorisation pour les catégories ouvertes concerne essentiellement l'adjectif et le participe passé (cf. DEBARASSÉ ci-dessus) ou plus rarement, l'adjectif et le substantif, comme ci-dessous :

Pour les mots grammaticaux, qui seront traités par un balisage spécifique, on rencontre d'autres types de doubles catégorisations, moins récurrentes, bien entendu :

Dans notre échantillon, on relève également une triple catégorisation :

Du point de vue distributionnel, le champ grammatical comporte des éléments dont l'ordre est régulier: tout d'abord une partie du discours et des informations morphosyntaxiques facultatives, ainsi, pour les mots grammaticaux que quelques informations sémantiques. On peut schématiser la distribution des champs de l'information grammaticale par le graphe de la figure 5.

Fig. 5 : Schéma de l'organisation du champ grammatical [16]

Nous détaillons maintenant les principales composantes du champ grammatical.

La partie du discours

La partie du discours apparaît en caractères romains et est la plupart du temps codifiée, en tout cas pour les parties du discours les plus productives comme le substantif, le verbe et l'adjectif. Dans quelques cas rares, la terminologie désignant la partie du discours ne semble pas stabilisée. On relève ainsi des dénominations imprécises comme terme de comparaison ou Espece d'Adjectif.

La métalangue est généralement assez cohérente, même si l'on relève plusieurs variantes formelles dans la codification des catégories. Nous les avons consignées dans le tableau ci-dessous.

Partie du discours Variantes formelles
Substantif s. : marque la plus courante.
subst. (rare) (Ex : s.s.v. DAUPHIN, INE)
substantif (rare) (Ex : s.v. D)
Adjectif adj. : marque la plus courante.
adjectif (rare)
Verbe v. : marque la plus courante.
verb. (rare) (Ex : s.v. DECINTRER)
Adverbe adv. : marque la plus courante.
adverb. (rare) (Ex : s.v. D'ABORD)
adverbe (rare) (Ex : s.s.v. D'AUTANT PLUS)
Conjonction conj. (Ex : s.v. D'ABORD-QUE)
Conjonction (Ex : s.s.v. DE CE QUE)
Préposition Preposition (Ex : s.v. DANS)
Participe passé (généralement joint à un adjectif) part. pass. : marque la plus courante.
part. (rare) (Ex : s.s.v. DAMNÉ)
Interjection Interjection (Ex : s.v. DA)
Article Article (Ex : s.v. DE)

Tableau 1 : Marques formelles utilisées pour codifier les parties du discours

Les champs grammaticaux comportant des parties du discours codées comme ci-dessus dans le tableau représentent l'immense majorité des cas. Sur les 409 champs grammaticaux qui apparaissent dans les 350 premiers articles de la lettre D [17] seuls 5 comportent une information catégorielle apparaissant sous une autre forme. Cela témoigne donc d'une certaine stabilité dans la codification de la partie du discours.

Une certaine régularité se manifeste également dans les informations de genre et de nombre et la sous-catégorisation des verbes.

Les informations de genre et de nombre

Ces informations apparaissent à la suite de la partie du discours. Le genre est codifié de façon systématique par les valeurs « m. » « masc. » pour le masculin ou « f. » pour le féminin. Il caractérise bien entendu les noms, mais aussi les adjectifs, dans deux cas :

(i) L'adjectif ne s'applique qu'à un nom d'un genre donné (l'adjectif est généralement un collocatif). Ce cas se rencontre à deux reprises dans le corpus (s.v. DATIVE et DECISOIRE).

(ii) L'adjectif est épicène et les deux genres possibles pour la forme adjectivale sont signalés.

Il arrive néanmoins, mais moins fréquemment, qu'aucun genre ne soit donné dans ce cas.

Le nombre du lemme est bien entendu rarement signalé et apparaît surtout pour les pluralia tantum dont le lemme est au pluriel, le nom ne connaissant pas dans l'usage le singulier. Le pluriel est systématiquement abrégé en « pl. » ou « plur. ».

Dans certains cas, la mention du pluriel apparaît également alors que le statut de pluralia tantum apparaît incertain. C'est par exemple le cas de DAINTIERS.

La question du pluriel est assez importante dans le DU2. Il y a bien des cas où la vedette est au pluriel alors qu'il ne s'agit pas de pluralia tantum. Le pluriel est lié dans ce cas au référent.

La sous-catégorisation des verbes

Des indications de sous-catégorisation sont fournies pour la rection des verbes. L'information est assez succincte et ne peut prendre dans notre corpus que deux valeurs : « act. » pour actif et « n. » ou « neut. » pour neutre, notions proches des notions contemporaines de transitif direct et intransitif.

Nous ne traitons pas ici des problèmes posés par la sous-catégorie des verbes impersonnels et des verbes réfléchis, peu nombreux, qui n'apparaissent pas dans l'échantillon. Ils seront abordés dans la seconde phase des travaux. Cette information de sous-catégorisation est répétée dans certains articles :

La sous-catégorisation des mots grammaticaux

Certains articles de mots grammaticaux, qui seront traités ultérieurement, comportent des descriptions correspondant au trait de sous-catégorie du mot grammatical. Le trait est généralement sémantique. Dans les 100 premiers articles de la lettre D, on relève ainsi :

Les précisions de sous-catégorisation semblent de natures très diverses. Il apparaît parfois difficile de distinguer les informations de sous-catégorisation de la définition qui apparaît dans la même phrase, contrairement aux articles des mots de classes ouvertes.

Utilisant un critère formel, qui peut être discutable mais présente l'avantage d'être facilement reproductible, nous considérerons comme éléments de sous-catégorisation les adjectifs et les compléments prépositionnels qui dépendent du nom de la catégorie. Dans les exemples sus-mentionnés, nous considérons ainsi « de temps et de lieu », « exaggeratif », « indéfini » et « causative » comme des informations de sous-catégorisation pour les parties du discours [18].

3.3.3. Le balisage du champ grammatical

Le champ grammatical, considéré comme obligatoire dans l'article [19], sera balisé par l'élément <GramGrp>. Par ailleurs, lorsque plusieurs catégorisations grammaticales sont proposées pour l'entrée, plusieurs balises grammaticales sont insérées.

La partie du discours, obligatoire, est introduite par <Pos> et comporte un attribut Type obligatoire, qui permet de normaliser l'information catégorielle (qui se présente textuellement sous plusieurs formes), pouvant accepter un ensemble clos de valeurs (adj, adv, art, conj, interj, ppse (participe passé), prep, s (substantif), v). On associe également au genre (<Gen>) et au nombre (<Number>), eux-mêmes facultatifs, des attributs Type obligatoire prenant respectivement les valeurs fem et masc et les valeurs plur et sing.

Les informations de sous-catégorisation sont introduites par <Subc> et normalisées pour les verbes (Attribut facultatif Type prenant les valeurs neutre ou actif), mais cela n'apparaît pas nécessaire pour les mots grammaticaux, les patrons étant peu récurrents.

Nous présentons ci-dessous quelques exemples d'articles balisés.

4. Conclusion

Bien des points restent en suspens. Nous ne prétendons pas, dans cette première tranche des travaux, avoir réglé toutes les questions. Par exemple, nous envisageons pour la suite une réflexion concernant les requêtes. Nous pensons en revanche avoir démontré qu'une informatisation complexe était possible, sinon souhaitable, et qu'elle ne dénaturait en aucune façon le texte support.

Guider l'utilisateur du DU2 informatisé ne signifie pas pour nous imposer une grille de lecture. Notre analyse du texte ne cherche pas à dévoiler de l'implicite, ne cherche en aucune façon à expliquer. Il nous importe peu que tel mot soit entré dans le dictionnaire à la grâce de tel événement extralinguistique. Nous cherchons simplement à favoriser la consultation de textes anciens qui restent encore trop confidentiels. Proposer une grille d'analyse du texte à travers une grammaire nous permet de faire des hypothèses sur la structure des articles. Le processus de balisage est une réflexion permanente sur les champs de l'article. Il infirme ou confirme les premières hypothèses faites sur un petit sous-ensemble d'articles. La méthode du balisage semi-automatique semble viable pour certains champs (on s'aperçoit finalement que le texte présente des régularités intéressantes) et permet de mettre en évidence des structures régulières. Elle permet de développer un outillage rigoureux dans l'étude métalexicographique des articles (les automates) basé sur des marques formelles systématiques.

Bien évidemment, nous n'ignorons pas les difficultés inhérentes aux projets d'envergure. Il reste par exemple encore à savoir dans quelle mesure les méthodes adoptées pour un sous-ensemble d'articles et un sous-ensemble de champs sont extensibles à un échantillon conséquent de l'ouvrage. De plus, dans le cas d'un balisage très fin, nous ne pouvons pas encore estimer les difficultés liées au balisage manuel de ce qui résiste à l'automatisation.

[Table]


Notes

16. La boucle dans le schéma indique un élément répétable.

17. Il y a plus de champs grammaticaux que d'articles, puisque certains sous-articles, en particulier ceux qui comportent une sous-entrée dérivée, comportent une zone grammaticale.

18. La spécificité des articles grammaticaux sera traitée ultérieurement.

19. Nous avons vu en 2.2 qu'en cas d'absence du champ grammatical, un élément vide devait alors être inséré.