Descriptif de "Corpus 56"

"Corpus 56" est un corpus de 56 articles parus dans différents journaux et magazines, dont L'actualité (Montréal), Les Chroniques de Cybérie (WWW), Le Devoir (Montréal), Le Droit (Montréal), Écran noir (WWW), L'Express (Paris), Le Figaro littéraire (Paris), Le Monde (Paris), Le Monde diplomatique (Paris), Le Nouvel Observateur (Paris), La Tribune de Genève.

Les articles sont de longueur très inégale, allant de la demi-page jusqu'à une trentaine de pages pour un des articles "dossier spécial". Ils ont paru surtout au cours des trois dernères années: 1979 (1 article), 1986 (1), 1988 (3), 1993 (1), 1996 (14), 1997 (25), 1998 (10), 1999 (1).

Les genres et les sujets sont variés: le documentaire, la critique, la polémique, l'interview; le bonheur, le cinéma, la danse, le théâtre, la musique, les disques, les livres, la littérature, le sport, la mode, les médias, Internet, le bilinguisme, l'enseignement des langues, l'école, le téléphone scolaire, les jeunes, l'enfance, les personnalités, l'aide sociale, la santé, la génétique, le cerveau, la météorologie, l'énergie, la cuisine, le pain, Venise, les beaux villages du monde, le Canada en Chine, l'Afrique du Sud, le tourisme, les régions dynamiques ou en crise, le mondialisme, la géopolitique, le pouvoir, la politique, la sociologie, la bourse, l'entrepreneurship, les enquêtes policières, la chasse au trésor...

Le corpus contient 109 417 mots de texte (occurrences de mots-formes graphiques). Le trait d'union et l'apostrophe sont traités comme des délimiteurs; ainsi "rue Raymond-Losserand" = trois mots (rue, raymond, losserand), "il s'agit" = 3 mots (il, s, agit).

Le champ de référence des contextes affichés par TACTweb contient les informations suivantes: année, mois, source, numéro d'article (dans le corpus);

Abréviations des noms de sources: Ac (L'actualité); Cy (Les Chroniques de Cybérie); De (Le Devoir); Dr (Le Droit); EN (Écran noir); Ex (L'Express); FL (Le Figaro littéraire); MD (Le Monde diplomatique); Mo (Le Monde); NO (Le Nouvel Observateur); TG (La Tribune de Genève).

À la différence d'une base de textes où les propriétés textuelles sont soigneusement respectées, une base corpus vise la langue par l'accumulation de contextes discursifs. Par conséquent, la masse quantitative entraîne inévitablement une certaine baisse de qualité au niveau du détail: relecture plus schématique (les articles sont passés par un logiciel de vérification orthographique, qui ne capte pas tout), acceptation indifférente de "A" et de "À" pour "à" majuscule (en règle générale – il y a des exceptions – les textes français emploient "A", les textes canadiens "À"), par exemple; autre exemple: les textes saisis par lecteur optique contiennent encore quelques occurrences de dates qui commencent par la lettre "l" au lieu du chiffre "1". L'utilisateur de la présente base jouit au moins d'un outil de contrôle que les bases corpus évolutives n'offrent pas habituellement: les listes de mots de texte (voir ci-après).

Il faut noter aussi que la base est conçue comme un corpus d'occurrences et non comme une base textuelle menant à la lecture du texte. Les contextes affichables ne dépassent pas cinq lignes et les articles ne sont identifiés que par leur numéro d'ordre dans le corpus (avec date de parution et source).

Listes de mots

1. Mots de texte par ordre alphabétique avec fréquences

A | B | C | D | E | F | G | H | I | J | K | L | M

N | O | P | Q | R | S | T | U | V | W | X | Y | Z

2. Mots de texte par ordre des fréquences

f 100+ | f 30-99 | f 10-29 | f 6-9 | f 4-5 | f 3 | f 2

Quelques pistes

Sémantique et syntagmatique
  • Un saint est tout sauf être saint: agglomération (Saint-Irénée-les-Bains, Saint-Laurent-des-Eaux...), lieu en ville (rue Saint-Denis, collège Saint-Damien, quartier Saint-Michel, place Saint-Marc, basilique Saint-Marc, théâtre Saint-Denis) ou naturel (le Saint-Laurent), fêtes (la Saint-Sylvestre), personne (Guy Saint-Pierre); le saint des saints se trouve être la cantine du Berliner Ensemble. Jean est homme (Jean Chrétien, Jean-Philippe Toussaint...), lieu (Saint-Jean-de-Dieu...) ou vêtement (vieux jean). Dieu est un juron (Grand Dieu!), un lieu (La Chaise-Dieu) mais surtout Dieu quand même (recevoir une mission de Dieu, remercier Dieu). Le temps est parfois clair ou beau, mais avant tout il passe: à vous d'explorer la sémantique et la syntagmatique très riches de ce mot qui a 117 occurrences dans le corpus.
    Familles de mots, dérivation et affixation
  • Par exemple, muscle et nerf: il y a les muscles abdominaux et la danse musclée, et aussi, mode de vie moderne oblige, la salle de musculationon fait de la musculation; on dit que l'argent est le nerf de la guerre, qu'une personne est au bord de la crise de nerfs, que le corps de l'être humain a un système nerveux, que les gens sont nerveux ou énervés, qu'on s'énerve, qu'une personne vous énerve. À explorer, entre mille autre possibilés: les mots en myst- et démyst-, en myth- et démyth-; à démêler les familles des mots en dépass-, compass-, impass-, pass-, repass-; à répartir les mots en -ment en noms, verbes et adverbes. Etc.

    © 1999 R. Wooldridge