Le Web comme source et comme corpus

Russon Wooldridge

University of Toronto

Document de travail préparé pour un atelier de licence en Informatique textuelle,
Cours: ATLIN01LF, Université de Paris-IV,
le 26 novembre 2002.

© 2002 Russon Wooldridge

 
Travaux pratiques:
1. Que pensez-vous de l'hypertextualité du texte Bel Ami du site de l'IntraText Digital Library ?
2. Un aspect positif et un aspect négatif des Essais sur le site de Trismégiste.
3. Une critique des exclusions de la requête lexicologie française rey -cours -programme.
4. Quels sont les synonymes-variantes de se moquer de et chaussette dans "il se moquait de tout ça comme de sa première chaussette"?
5. a) Quels sont les différents sujets typiques (X) de "X en a dans le pantalon" ? b) Comment formuler une requête pour recueillir les variantes de X et les différentes formes du verbe avoir ?

Attention : Les pages reliées s'ouvrent dans une deuxième fenêtre.

1. Le Web comme source :
textes littéraires, analyses-critiques, exposés théoriques, bibliographies, informations diverses

1.1. Maupassant

Résumé. Pour les sujets généraux les sites portails sont un bon point de départ. Du côté des moteurs de recherche, Google affiche la plupart des sites importants dans ses premiers résultats.

1.1.1. Portails

  • WebLettres "Le Portail Web de l'enseignement des lettres" -> L'Annuaire Web: Littérature.

  • ClicNet "un site culturel et littéraire francophone" -> Littérature francophone virtuelle

    1.1.2. Moteurs de recherche

  • Google général. Requête : maupassant. "1 - 10 résultats, sur un total d'environ 125,000" (9 nov. 2002). Cette première page de résultats contient, entre autres, des liens vers :
  • Google pages francophones. Requête : maupassant. "1 - 10 résultats, sur un total d'environ 37,800" (9 nov. 2002). Six sur les dix premiers résultats sont parmi les dix premiers de la requête toutes langues confondues. Sur les quatre autres, un renvoie au texte Boule de suif du site ClicNet et les trois autres sont des pages scolaires.

    1.1.3. Deux autres documents Web sur Maupassant

  • "Maupassant en ligne : un regard critique"
  • "Maupassant, Œuvres, sous TACTweb" (les textes du site de Thierry Selva en base de données interactive)

    1.2. Montaigne et la vanité

    Résumé. Pour les sujets pointus, les sites portails ne sont pas très efficaces. Il vaut mieux se servir de moteurs de recherche performants.

    1.2.1. La vanité

    Le site de la Société Internationale des Amis de Montaigne signale, dans les sommaires de son Bulletin, plusieurs articles traitant de la vanité chez Montaigne. Même chose pour les Montaigne Studies.

    WebLettres ne signale pas de revues littéraires concernant Montaigne. ClicNet ne signale pas de sites de revues pour Montaigne. En revanche, le site French and Francophone Studies de l'université d'Albany signale et le site des Montaigne Studies et le site de Trismégiste (voir 1.2.2).

    Google général. Requête : montaigne vanité. Les Montaigne Studies sont citées en neuvième position (sur 1180 résultats, 11 nov. 2002), le Bulletin de la Société Internationale des Amis de Montaigne est en 16e position.

    1.2.2. Les Essais

    Le thème de la vanité est traité dans le Premier Livre, Chapitre LI "De la vanité des paroles" et le Troisième Livre, Chapitre IX "De la vanité".

    Un seul site donne le texte complet des Essais en mode texte : l'édition de 1595 est disponible sur "La page de Trismégiste". Voir la question posée dans les Travaux pratiques.

    WebLettres ne le signale pas. Pour les oeuvres de Montaigne, il renvoie :

  • a) au site d'Athena, lequel renvoie (i) à Gallica (Essais en format pdf) et (ii) à la page de Trismégiste ;
  • b) au Gutenberg Project, qui offre le texte intégral de la traduction anglaise de 1685.

    ClicNet signale les Essais chez Trismégiste. De même, le site French and Francophone Studies de l'université d'Albany (cf. 1.2.1).

    Google général. Requête : montaigne essais. Le site de Trismégiste est en première position (sur 14 400 résultats, 11 nov. 2002).

    1.2.3. Trois études sur Montaigne dans le Web

  • "Analyse des résultats d'une recherche dans le WWW : "montaigne" + "vanité" dans des documents en français"
  • "Vers l'exhaustivité : le préconstruit et le ponctuel"
  • "Autonomisation de l'internaute et diversité fonctionnelle des outils de recherche en ligne".

    1.3. La linguistique

    Résumé. Les sites portails ne donnent pas beaucoup de pistes. Les moteurs de recherche peuvent en donnent trop si on ne sait pas cibler la requête.

    1.3.1. Les portails

    Les ressources de WebLettres sont pour l'instant peu nombreuses.

    La rubrique Linguistique de ClicNet se réduit à des liens vers des documents généraux : a) Introduction à l'étude du langage (Martin Beaudoin, University of Alberta, Canada) ; b) Introduction à la linguistique française (Greg Lessard, Queen's University, Canada) ; c) Notions de linguistique française. (Marina Yaguello) ; d) Sur les sentiers de la linguistique (Henriette Gezundhajt, Université de Toronto, Canada) ; e) Cours d'introduction à la linguistique (Professeur Moeschler, Département de linguistique de l'Université de Genève).

    1.3.2. Google Répertoire / Directory

    Pour se donner une idée relative de l'étendue des ressources a) en français, b) en toutes langues confondues.

    Google Répertoire : World > Français > Sciences > Sciences humaines et sociales > Linguistique = 63 résultats (11 nov. 2002).
    Catégories apparentées : World > Français > Références > Langues (493) ; World > Français > Informatique > Intelligence artificielle (88) ; World > Français > Sciences > Sciences humaines et sociales > Sciences cognitives (77).

    Google Directory : Science > Social Sciences > Language and Linguistics = 5988 résultats (11 nov. 2002).
    Parmi les sous-catégories : Applied Linguistics (14), Computational Linguistics (90), Historical Linguistics (48), Phonetics and Phonology (76), Semiotics (115)...

    1.3.3. Google Web

    1.3.3.1. Requêtes modérément ciblées.

    1. Google général. Requête : linguistique française lexicologie = 2660 résultats (11 nov. 2002), dont beaucoup de cours et de programmes universitaires :

    Ciblons un peu plus en excluant les pages de cours et de programmes :

    2. Google général. Requête : linguistique française lexicologie -cours -programme = 1010 résultats (11 nov. 2002). Les cinq premiers résultats :

    1.3.3.2. Requête très ciblée.

    Soit la lexicologie française traitée par Alain Rey ou Josette Rey-Debove, mentions autres que dans des descriptions de cours ou de programmes.

    Google général. Requête : lexicologie française rey -cours -programme = 151 résultats (11 nov. 2002). Voir la question posée dans les Travaux pratiques. Parmi les dix premiers résultats :

    1.3.4. Une étude sur les stratégies de recherche

  • "Les Groupes, Répertoire et Web (par mots clés) de Google: quelques stratégies pour rechercher des documents consacrés à la linguistique française en-ligne"

    2. Le Web comme corpus d'étude

    Résumé. Le Web constitue un corpus énorme de langue contemporaine (discours et langue) permettant de contrôler le sens ou usage d'un mot ou expression ou d'en vérifier la productivité. C'est un terrain très riche pour la linguistique des corpus.

    2.1. "sous les meilleurs auspices/hospices"

    Le 6 octobre 2002 sur le site Web de la chaîne de télévision française France 2, on pouvait lire la phrase "Ce résultat laisse donc envisager l'avenir sous les meilleurs hospices.", vite corrigée par la rédaction – suite peut-être à des coups de téléphone ou de courriel de la part de quelques lecteurs – en "Ce résultat laisse donc envisager l'avenir sous les meilleurs auspices."

    On sent là une faute répandue, due à l'homophonie, impropriété de langage qu'on appelle en anglais un malapropism.

    Une interrogation du Web avec Google (20 oct. 2002) confirme rapidement l'hypothèse de la fréquence de la faute :

  • A. "sous les meilleurs auspices" = c. 2540 documents = 90,39% de A+B
  • B. "sous les meilleurs hospices" = c. 270 documents = 9,61% de A+B

    2.2. "se moquer de X comme de sa première chaussette"

    Dans la traduction française de La Carta esférica d'Arturo Pérez-Reverte (Le Cimetière des bateaux sans nom, Seuil, 2001), on lit (p. 104) : "il se moquait de tout ça comme de sa première chaussette". On se dit qu'il s'agit là d'un paradigme courant dans lequel le dernier terme est plus souvent chemise que chaussette. Voir la question posée dans les Travaux pratiques. Une recherche Google (6 nov. 2002) donne pour les dix premières occurrences pertinentes de première et de premier (requêtes : "comme de * premier", "comme de * première") :

    2.3. "X en a dans le pantalon"

    Pérez-Reverte, ibid., p. 324 : "Cette fille en a dans le pantalon. Je te jure." Google (7 nov. 2002) : "en a dans le pantalon" = 21 occurrences ; "en a dans le slip" = 8 ; "en a dans la culotte" = 3. Voir la question posée dans les Travaux pratiques.

    2.4. Une étude sur l'intertextualité dans le Web

  • "Syntagmes-clés et intertextualité"