Le Web comme source et comme corpus
Russon Wooldridge
University of Toronto
Document de travail préparé pour un atelier de licence en Informatique textuelle, Cours: ATLIN01LF, Université de Paris-IV, le 26 novembre 2002.
© 2002 Russon Wooldridge
|
|
Attention : Les pages reliées s'ouvrent dans une deuxième fenêtre.
1. Le Web comme source :
textes littéraires, analyses-critiques, exposés théoriques, bibliographies, informations diverses
1.1. Maupassant
Résumé. Pour les sujets généraux les sites portails sont un bon point de départ. Du côté des moteurs de recherche, Google affiche la plupart des sites importants dans ses premiers résultats.
1.1.1. Portails
WebLettres "Le Portail Web de l'enseignement des lettres" -> L'Annuaire Web: Littérature.
- Accés principaux à trois sites : a) BNF-Gallica : textes de Maupassant en format pdf ; b) Web littéraire (attention: site commercial avec beaucoup de publicités alourdissant le chargement) : pour Maupassant, liens vers deux extraits et deux critiques ; c) Fabula.org : portail littéraire fourni, pas de rubrique Maupassant.
- -> Textes en ligne. Liens vers : a) la Bibliothèque électronique de Lisieux contenant des "nouvelles [...] Guy de Maupassant" ; b) IntraText Digital Library contenant "Quelques oeuvres complètes d'auteurs français ([...] Maupassant)" le site (italien) contient le roman Bel Ami en format texte-concordance (les liens hypertextuels contenus dans le texte renvoient à des affichages KWIC des occurrences du mot-clé). Voir la question posée dans les Travaux pratiques.
- -> Sites sur des auteurs -> Romanciers. Lien vers : Guy de Maupassant: "Un site de Thierry Selva, incontournable pour qui cherche à s'informer sur Maupassant : intégrale de l'œuvre, biographies, études, documents, travaux, liens, souvenirs, bibliographie, photographies."
ClicNet "un site culturel et littéraire francophone" -> Littérature francophone virtuelle
Rubrique Maupassant :
"Maupassant par les textes (Thierry Selva, France).
L'oeuvre complète localisée sur le Web ou mis en ligne par Thierry Selva. Biographies et liens.
Maupassant, un homme énigmatique (Marie-Claire Bancquart , Ministère des Affaires Etrangères de France)
La Parure et autres contes parisiens ; texte établi par Marie-Claire Bancquart,... (Bordas, 1984) (Gallica classique)
Une vie (1883) (ABU)
Bel-ami (1885) (ABU)
Pierre et Jean (1888) (Thierry Selva)
L'Ame étrangère (1894) (Thierry Selva)
L'Angélus (1895) (Thierry Selva)
Sélection d'Athéna
Sélection de la Bibliothèque de Lisieux
ClicNet: Boule de suif, 1880; La femme de Paul; Contes du jour et de la nuit (1882-1884): Le bonheur, Un parricide, Le père, Rose, Le crime au père Boniface - Souvenir
Maupassant, un homme énigmatique (Marie-Claire Bancquart, Ministère des Affaires Étrangères de France)"
1.1.2. Moteurs de recherche
Google général. Requête : maupassant. "1 - 10 résultats, sur un total d'environ 125,000" (9 nov. 2002). Cette première page de résultats contient, entre autres, des liens vers :
- "Maupassant par les textes", le site de Thierry Selva (cf. WebLettres et ClicNet);
- la page-index des textes de Maupassant (sept romans ou recueils de contes) du site de l'ABU (Association des bibliophiles universels) (cf. ClicNet);
- "The French Short Story Writer Guy de Maupassant", une page personnelle d'un universitaire américain contenant plusieurs rubriques dont : "Literary Criticism by Joseph Conrad [...] by Henry James [...] Percy Lubbock [...] Anatole France", lien vers le site de Thierry Selva;
- la page Maupassant de la Bibliothèque électronique de Lisieux (cf. WebLettres et ClicNet);
- "Guy de Maupassant", un site espagnol avec plusieurs rubriques : bibliographie, biographie, contes, nouvelles, critique...;
- la page "Maupassant" du site Athena de l'université de Genève (le site Athena est une des meilleures sources de textes littéraires en mode lecture; principal collaborateur pour Maupassant = Thierry Selva) (cf. ClicNet).
Google pages francophones. Requête : maupassant. "1 - 10 résultats, sur un total d'environ 37,800" (9 nov. 2002). Six sur les dix premiers résultats sont parmi les dix premiers de la requête toutes langues confondues. Sur les quatre autres, un renvoie au texte Boule de suif du site ClicNet et les trois autres sont des pages scolaires.
1.1.3. Deux autres documents Web sur Maupassant
"Maupassant en ligne : un regard critique"
"Maupassant, Œuvres, sous TACTweb" (les textes du site de Thierry Selva en base de données interactive)
1.2. Montaigne et la vanité
Résumé. Pour les sujets pointus, les sites portails ne sont pas très efficaces. Il vaut mieux se servir de moteurs de recherche performants.
1.2.1. La vanité
Le site de la Société Internationale des Amis de Montaigne signale, dans les sommaires de son Bulletin, plusieurs articles traitant de la vanité chez Montaigne. Même chose pour les Montaigne Studies.
WebLettres ne signale pas de revues littéraires concernant Montaigne. ClicNet ne signale pas de sites de revues pour Montaigne. En revanche, le site French and Francophone Studies de l'université d'Albany signale et le site des Montaigne Studies et le site de Trismégiste (voir 1.2.2).
Google général. Requête : montaigne vanité. Les Montaigne Studies sont citées en neuvième position (sur 1180 résultats, 11 nov. 2002), le Bulletin de la Société Internationale des Amis de Montaigne est en 16e position.
1.2.2. Les Essais
Le thème de la vanité est traité dans le Premier Livre, Chapitre LI "De la vanité des paroles" et le Troisième Livre, Chapitre IX "De la vanité".
Un seul site donne le texte complet des Essais en mode texte : l'édition de 1595 est disponible sur "La page de Trismégiste". Voir la question posée dans les Travaux pratiques.
WebLettres ne le signale pas. Pour les oeuvres de Montaigne, il renvoie :
a) au site d'Athena, lequel renvoie (i) à Gallica (Essais en format pdf) et (ii) à la page de Trismégiste ;
b) au Gutenberg Project, qui offre le texte intégral de la traduction anglaise de 1685.
ClicNet signale les Essais chez Trismégiste. De même, le site French and Francophone Studies de l'université d'Albany (cf. 1.2.1).
Google général. Requête : montaigne essais. Le site de Trismégiste est en première position (sur 14 400 résultats, 11 nov. 2002).
1.2.3. Trois études sur Montaigne dans le Web
"Analyse des résultats d'une recherche dans le WWW : "montaigne" + "vanité" dans des documents en français"
"Vers l'exhaustivité : le préconstruit et le ponctuel"
"Autonomisation de l'internaute et diversité fonctionnelle des outils de recherche en ligne".
1.3. La linguistique
Résumé. Les sites portails ne donnent pas beaucoup de pistes. Les moteurs de recherche peuvent en donnent trop si on ne sait pas cibler la requête.
1.3.1. Les portails
Les ressources de WebLettres sont pour l'instant peu nombreuses.
La rubrique Linguistique de ClicNet se réduit à des liens vers des documents généraux : a) Introduction à l'étude du langage (Martin Beaudoin, University of Alberta, Canada) ; b) Introduction à la linguistique française (Greg Lessard, Queen's University, Canada) ; c) Notions de linguistique française. (Marina Yaguello) ; d) Sur les sentiers de la linguistique (Henriette Gezundhajt, Université de Toronto, Canada) ; e) Cours d'introduction à la linguistique (Professeur Moeschler, Département de linguistique de l'Université de Genève).
1.3.2. Google Répertoire / Directory
Pour se donner une idée relative de l'étendue des ressources a) en français, b) en toutes langues confondues.
Google Répertoire : World > Français > Sciences > Sciences humaines et sociales > Linguistique = 63 résultats (11 nov. 2002).
Catégories apparentées : World > Français > Références > Langues (493) ; World > Français > Informatique > Intelligence artificielle (88) ; World > Français > Sciences > Sciences humaines et sociales > Sciences cognitives (77).
Google Directory : Science > Social Sciences > Language and Linguistics = 5988 résultats (11 nov. 2002).
Parmi les sous-catégories : Applied Linguistics (14), Computational Linguistics (90), Historical Linguistics (48), Phonetics and Phonology (76), Semiotics (115)...
1.3.3. Google Web
1.3.3.1. Requêtes modérément ciblées.
1. Google général. Requête : linguistique française lexicologie = 2660 résultats (11 nov. 2002), dont beaucoup de cours et de programmes universitaires :
- "FRN-20441 Linguistique française: lexicologie" (Université Laval, Sainte-Foy)
- "Contenu du programme 2001-2002" (DEA en linguistique, Université catholique de Louvain)
- "Curriculum vitae" (d'un enseignant de l'université York, Toronto)
Le quatrième résultat livré par Google est une page de "Signets de linguistique" créée à l'université de Lyon-III :
- Catégories : "Revues - Phonétique et phonologie - Lexicologie - Sémiotique - Linguistique historique et comparative - Linguistique informatique"
Ciblons un peu plus en excluant les pages de cours et de programmes :
2. Google général. Requête : linguistique française lexicologie -cours -programme = 1010 résultats (11 nov. 2002). Les cinq premiers résultats :
- Liste des directeurs et sujets de mémoires de fin d'études (Louvain)
- "Terminologie : Quelques références à l'usage des étudiants et des néophytes" (TERMISTI, Institut supérieur de traducteurs et interprètes, Bruxelles)
- "Revues de linguistique" (CIEP: Centre international d'études pédagogiques, Paris)
- "Bibliographie nationale française : linguistique, philologie" (BNF, Paris)
- "Bibliographie. Français moderne. Voici une page très complète sur les ouvrages utiles pour préparer à fond l'épreuve de français moderne." = page du site "Le capes de lettres modernes en clair" (site personnel très fourni d'une capésienne de la promotion 2001)
1.3.3.2. Requête très ciblée.
Soit la lexicologie française traitée par Alain Rey ou Josette Rey-Debove, mentions autres que dans des descriptions de cours ou de programmes.
Google général. Requête : lexicologie française rey -cours -programme = 151 résultats (11 nov. 2002). Voir la question posée dans les Travaux pratiques.
Parmi les dix premiers résultats :
- Les pages "Bibliographie. Français moderne" et "Terminologie : Quelques références à l'usage des étudiants et des néophytes" (voir requête précédente)
- Une bibliographie concernant "Lexicologie / lexicographie / métalexicographie" (Université de Trieste)
- Une bibliographie de "Philologie française moderne" (site personnel d'un professeur de lycée)
- "FLL0219 - Lexicologia e Lexicografia I" (Université de São Paulo)
- Une page de bibliographie concernant la littérature médiévale (par une association de spécialistes)
- Une étude sur "La déféminisation du français" (université de Toronto)
- Deux pages de Amazon.fr.
1.3.4. Une étude sur les stratégies de recherche
"Les Groupes, Répertoire et Web (par mots clés) de Google: quelques
stratégies pour rechercher des documents consacrés à la linguistique
française en-ligne"
2. Le Web comme corpus d'étude
Résumé. Le Web constitue un corpus énorme de langue contemporaine (discours et langue) permettant de contrôler le sens ou usage d'un mot ou expression ou d'en vérifier la productivité. C'est un terrain très riche pour la linguistique des corpus.
2.1. "sous les meilleurs auspices/hospices"
Le 6 octobre 2002 sur le site Web de la chaîne de télévision française France 2, on pouvait lire la phrase "Ce résultat laisse donc envisager l'avenir sous les meilleurs hospices.", vite corrigée par la rédaction suite peut-être à des coups de téléphone ou de courriel de la part de quelques lecteurs en "Ce
résultat laisse donc envisager l'avenir sous les meilleurs auspices."
On sent là une faute répandue, due à l'homophonie, impropriété de langage qu'on appelle en anglais un malapropism.
Une interrogation du Web avec Google (20 oct. 2002) confirme rapidement l'hypothèse de la fréquence de la faute :
A. "sous les meilleurs auspices" = c. 2540 documents = 90,39% de A+B
B. "sous les meilleurs hospices" = c. 270 documents = 9,61% de A+B
2.2. "se moquer de X comme de sa première chaussette"
Dans la traduction française de La Carta esférica d'Arturo Pérez-Reverte (Le Cimetière des bateaux sans nom, Seuil, 2001), on lit (p. 104) : "il se moquait de tout ça comme de sa première chaussette". On se dit qu'il s'agit là d'un paradigme courant dans lequel le dernier terme est plus souvent chemise que chaussette. Voir la question posée dans les Travaux pratiques.
Une recherche Google (6 nov. 2002) donne pour les dix premières occurrences pertinentes de première et de premier (requêtes : "comme de * premier", "comme de * première") :
se fout des tendances comme de sa première chemise
femmes qui se fichent du football comme de leur première robe
se fout de son passé comme de sa première chemise
se foutent du documentaire international comme de leur première chemise
je me fous des sectes, de leurs pompes et de leurs œuvres comme de ma première paire de culotte
se moquent, comme de leur première bulle, de cette injonction papale
se fichent catégoriquement de ce genre d'histoire, comme de leur première chemise
Vivaldi, évidemment, s’en fiche comme de sa première perruque
[rubrique: Ym'énarve] je m'en fous comme de ma première paire de bobettes
[en parlant d'homosexuels] affirme se soucier, comme de sa première pipe
[en parlant de films d'action] on s'en soucie comme de son premier tamagochi
[en parlant de musique] S'en fichant comme de leur premier mi majeur
se moquaient d’eux comme de son premier caleçon
[il s'agirait d'entreprises alimentaires] se fichent des employés comme de leur premier Petit Lu
son charmant époux de fonctionnaire s'en moque comme de son premier trombone
s'en fout comme de son premier mensonge électoral
Cegetel se fout comme de son premier réseau de téléphonie
Je me fous du fric comme de mon premier slip
les policiers [...] se moquent, comme de leur premier béret
les commanditaires [d'assassinats] [...] s'en moquent comme de leur premier meurtre
2.3. "X en a dans le pantalon"
Pérez-Reverte, ibid., p. 324 : "Cette fille en a dans le pantalon. Je te jure." Google (7 nov. 2002) : "en a dans le pantalon" = 21 occurrences ; "en a dans le slip" = 8 ; "en a dans la culotte" = 3. Voir la question posée dans les Travaux pratiques.
2.4. Une étude sur l'intertextualité dans le Web
"Syntagmes-clés et intertextualité"