Une introduction à l'interrogation des bases de FREBase

FREBase est un site contenant des textes utilisés dans divers projets de recherche personnels ou internationaux et, virtuellement ou réellement, dans différents cours du Département d'études françaises de l'Université de Toronto. Ces textes sont accessibles sous forme de bases de données interrogeables au moyen du logiciel de recherche TACTweb. Cette introduction explique les principaux types d'interrogation que l'on peut faire et donne un ou plusieurs exemples de chacun. Tous les exemples sont pris dans Le Chien jaune de Georges Simenon. Le texte des requêtes tapé par l'utilisateur est donné en gras.

1. Types de requêtes I: mot, liste de mots, séquences de lettres communes, mots à lettres accentuées

Case "Requête"

1.1. Un mot.

1.2. Une liste de mots.

Les mots sont séparés par une virgule.

1.3. Tous les mots contenant une même séquence de lettres donnée.

Soit a) chien, chiens, ou b) les mots qui se terminent en -tion, ou c) les mots qui contiennent -tion-. Les parties non spécifiées sont représentées par ".*" (un point suivi d'une astérisque, ce qu'on appelle un joker).

1.4. Mots contenant une ou plusieurs lettres accentuées.

Soit enquête, enquêtes. On a plusieurs possibilités pour la représentation des accents: soit a) on tape directement la lettre accentuée au moyen d'un clavier international/français; soit b) on la tape au moyen de la touche Alt et de la valeur ASCII de la lettre accentuée (ê = Alt-136); soit c) on fait précéder le mot entier (sans accent) par le caractère "\" (backslash): soit d) on utilise la combinaison joker ".*":

2. Types d'affichages

Case "Type d'affichage"

2.1. Liste de mots.

L'affichage des résultats de la requête donne les mots trouvés avec leur fréquence dans le texte.

Ex. 1.1. (chien)

Ex. 1.2. (chien, chiens) et 1.3.a (chien.*) Remarque: ce résultat (une seule occurrence du pluriel) n'est pas surprenant étant donné le titre du roman.

Ex. 1.3.b (.*tion)

Ex. 1.4.d (enquete.*) Remarque: on découvre ainsi le mot enquêteur.

2.2. KWIC ("keyword in context").

Une ligne de contexte est donnée pour chaque occurrence du mot ou des mots recherché(s).

Ex. 1.4.d

Remarque: la référence "I:13 R r" signifie: chapitre I, page 13, niveau du récit, mot-clé en caractère romain.

2.3. Contexte de 5 lignes.

Un contexte de cinq lignes est donné pour chaque occurrence.
(Nota: pour la Base Académie et la base Maupassant, ce contexte est variable; la base L'actualité offre un contexte fixe de 5 lignes, comme pour Le Chien jaune.)

Ex. 1.4.d, enquêtes et enquêteurs

Remarque: contre-enquêtes est indexé comme deux mots, contre et enquête.

2.4. Distribution.

Dans Le Chien jaune cet affichage donne la fréquence du/des mot(s) de la requête dans chaque chapitre.

Ex. 1.1 (chien)

Remarque: le mot chien n'est pas employé dans le chapitre VII.

3. Type de requête II: cooccurrence

Cases "Requête" et "Contexte d'une requête de Cooccurrence"

3.1. La cooccurrence de deux mots dans un contexte défini.

C'est-à-dire, les deux mots se trouvent dans un contexte dont les dimensions sont spécifiées. Soit le verbe allumer et le nom cigare dans un contexte de trois mots. La cooccurrence est demandée au moyen du caractère "&". Les résultats en affichage KWIC sont les suivants:

3.2. Le mot A mais non le mot B dans un contexte défini.

Soit encore le verbe allumer et le nom cigare dans un contexte de trois mots. Cette fois-ci on veut savoir ce qu'on peut allumer à part les cigares. La non-cooccurrence est demandée au moyen du caractère "~" (tilde). Les résultats en affichage KWIC sont maintenant: Remarques: a) le nom allumette vient s'ajouter au verbe allumer; b) on peut allumer une pipe, des lampes, un feu, une bougie, une cigarette et... (si on demande un contexte de 5 lignes pour la dernière occurrence) des lumières.

4. Type de requête III: syntagmes = groupes de 2 ou plusieurs mots

Case "Requête"

4.1. Le syntagme sans rien.

La cooccurrence immédiate est définie par le caractère "|". Les résultats en affichage KWIC sont: Remarque: dans les deux cas, sans rien est suivi d'un verbe à l'infinitif.

4.2. Les syntagmes de deux mots dont le premier est précisé et le second est à découvrir.

Le second est représenté au moyen du caractère ">". Soit le syntagme sans X. Affichage 1: KWIC. Les contextes du chapitre I sont les suivantes: Remarque: sans est immédiatement suivi soit d'un nom (maître, doute, grâce, argent), soit d'un article plus nom (un grain, une certaine gêne), soit d'un infinitif (pouvoir, parvenir), soit d'une conjonction (que + subjonctif)

Affichage 2: Liste de mots. Cet affichage classe les cooccurrents immédiatement à droite de sans par ordre alphabétique. En voici la liste complète:
amour (1/2)
argent (1/9)
avoir (1/29)
broncher (1)
bruit (1/11)
carreaux (1/4)
cesse (2)
cette (1/72)
comprendre (1/5)
compter (1)
déplacer (1)
dessouder (1)
doute (10)
effacer (1)
être (2/87)
faute (1/3)
fièvre (1/2)
grâce (1/2)
jeter (1/4)
l (1/625)
la (2/959)
laisser (1/12)
les (1/497)
lui (1/170)
m (1/131)
maître (1/9)
méfiance (1)
même (1/103)
moi (1/65)
montants (1)
mot (2/8)
musique (1/2)
parvenir (1/3)
peine (1/28)
peur (1/31)
plus (1/173)
pouvoir (2/4)
prononcer (1/2)
qu (3/387)
que (1/496)
quitter (2/6)
raison (1/2)
regarder (1/8)
répondre (1/7)
résistance (1)
rideau (1)
rien (2/55)
risque (1/3)
s (2/230)
se (1/210)
son (1/199)
sympathie (1/2)
trêve (1)
un (2/693)
une (1/449)
valeur (1/7)
vous (1/374)
y (1/176)
Remarques: a) les chiffres entre parenthèses indiquent la fréquence du mot immédiatement précédé de sans et sa fréquence totale dans le texte; donc amour s'emploie deux fois dans Le Chien jaune dont une dans le syntagme sans amour; b) le syntagme le plus significatif est sans doute: le chiffre unique "10" qui suit le mot doute dans la liste signifie que le mot doute s'emploie 10 fois dans le texte, toujours précédé de sans. C'est ce qu'on appelle un syntagme lexicalisé: sans doute est une expression qui veut dire probablement.

Suggestion. Comptez les heures -- elles sont très importantes dans l'investigation d'un crime -- en cherchant les cooccurrents immédiatement à gauche de heure(s): > | heure.*

5. Types de requêtes IV: "span"

Cases "Requête" et "Contexte d'une requête de Cooccurrence".

"Span" fait chercher pour le mot déclaré dans la requête, ou mot-clé, tous les mots qui se trouvent dans un contexte de la taille définie dans la case "Contexte d'une requête de Cooccurrence". L'opérateur "span" doit être précédé d'un point-virgule. Par exemple, pour le mot allum.*, les mots qui se trouvent dans un contexte de trois mots avant ou trois mots après:

L'affichage de la Liste de mots comprend, entre autres: Remarque: si pipe s'emploie plus de fois (22) que cigare (10) et cigarette (6), c'est parce que le commissaire Maigret a toujours sa pipe avec lui sans qu'elle soit nécessairement allumée; en revanche, le fameux cigare de l'histoire est toujours en train d'être allumé -- lisez Le Chien jaune pour savoir pourquoi...

6. Type de requête V: "when"

Case "Requête".

"When" est un autre opérateur qui limite la recherche à une zone du texte; par exemple, dans Le Chien jaune, on peut chercher tel ou tel mot dans des chapitres spécifiques ou dans le récit ou le dialogue. Comme "span", "when" doit être précédé d'un point-virgule.

6.1. Limitation par chapitre.

Ce type de requête est particulièrement utile quand on veut limiter la recherche à la partie du texte qu'on a lue. À supposer, par exemple, que dans le cours on lit un chapitre chaque semaine, qu'on en est à la cinquième semaine (cinq chapitres lus) et qu'on s'intéresse à la communication à distance. Remarque: il faut énumérer les numéros de chapitres (ils sont donnés en chiffres romains dans la base).

L'affichage Liste de mots donne:

Remarque: "télégramme (1/2)" signifie que sur les 2 emplois de télégramme un est dans les 5 premiers chapitres.

6.2. Limitation par niveau de discours.

La base du Chien jaune distingue deux niveaux textuels principaux: le récit (R) et le dialogue (D). Prenons le cas du verbe demander, qui sert, entre autres fonctions, à présenter le discours direct. Les deux affichages KWIC donnent les résultats suivants:

Pour la requête 1:

Pour la requête 2: Remarques pour une typologie du verbe demander: a) le verbe demander est plus fréquent dans le dialogue que dans le récit; b) dans le récit, il est presque exclusivement employé au passé simple ou à l'imparfait (l'histoire est située dans un passé narratif); c) dans le dialogue, on trouve le présent, le futur, le passé composé et l'imparfait (les personnages ont un présent, un avenir et un passé); d) dans le récit on demande surtout quelque chose à quelqu'un, alors que dans le dialogue on demande à quelqu'un de faire quelque chose, on demande à quelqu'un si, on se demande si, qui, comment, pourquoi.

[Retour à la page d'accueil de FreBase]