Syntagmes-clés et intertextualité

Russon Wooldridge

University of Toronto

Septembre 2002 ; revu et augmenté : 20 oct. 2002 ; 6-7 nov. 2002 ; 29 avril 2003 ; 24 août 2005 ; 14 oct. 2005 ; 1er mai 2007
© 2002 Russon Wooldridge

Nous examinons ici l'utilisation d'un moteur de recherche pour l'étude du phénomène de l'intertextualité à travers des requêtes concernant les syntagmes adressées au grand corpus des textes accessibles en ligne qu'est le World Wide Web. Notre enquête comprend, en plus du français, des syntagmes anglais ; ceci pour des raisons de structure linguistique (le relatif manque de flexions en anglais par rapport au français) et des raisons de taille du corpus (les textes anglais sont beaucoup plus nombreux dans le WWW que les textes français). Les principes de la démonstration – rendue ainsi plus rapidement concluante – s'appliquent cependant tout autant au Web français qu'au Web anglais.

1. Le déjà lu: Don Fernando d'Ibaraa

Nous avons déjà mentionné sous le premier modèle ("Maupassant en ligne: un regard critique") le phénomène du déjà lu, en citant dans la section sur "Lecture et consulation" le cas de Don Fernando d'Ibaraa dans Candide de Voltaire.

Deux ajouts :

1.1. Rôle du concret dans la remémoration

On se rappelle souvent où sur la page (page de droite, vers le haut, par exemple) se situe l'occurrence précédente du nom ou concept déjà lu, mais quelle page? C'est comme la vie : c'etait le soir, mais quel jour? c'était au printemps, mais quelle année? La mémoire humaine (réelle et partielle) ne fonctionne pas de la même façon que la mémoire de la machine (virtuelle et exhaustive).

1.2. Candide en ligne

En plus du site ABU, mentionnons deux autres sites qui donnent l'intégralité de l'oeuvre en mode lecture (transcription html) :
  • www.voltaire-integral.com/
  • voltairex-a.chez.tiscali.fr/

    2. "one/two X short of a Y", "se moquer de X comme de sa première chaussette", "sous les meilleurs auspices/hospices" ...

    Si on voulait couper les cheveux en quatre, on dirait que les occurrences de "Don Fernando d'Ibaraa" concernent non l'intertextualité mais l'intratextualité. Il s'agit en fait de la même chose : les échos, qu'ils soient dans une même oeuvre, chez un même auteur ou dans le bain lexico-culturel d'une langue ou d'une civilisation.

    2.1. On lit à la p. 434 du roman Arms and the Women de Reginald Hill (éd. Seal Books, 2000) : "one Ave short of a rosary" ("Jorge, who was definitely one Ave short of a rosary").

    La matrice "one/two X short of a Y" appartient au répertoire des insultes, dénotant un manque d'intelligence chez la personne en question. Ses réalisations sont libres, le but étant de trouver une image frappante dans laquelle X est une partie constituante de l'ensemble Y.

    Dans le même roman on a déjà rencontré (p. 253) : "two leeks short of a harvest supper" ("She has a son Donald, who is two leeks short of a harvest supper but is excellent for heavy work around the garden"). Dans un autre roman du même auteur, On Beulah Height (éd. HarperCollins, 1999), p. 32, on trouve : "two sheets short of a bog roll" ("I never really fancied him, two sheets short of a bog roll, I reckoned"). Dans Good Morning, Midnight (éd. Seal Books, 2004), Hill écrit, p. 208 : "a few twigs short of a tree" ("The aunt is a few twigs short of a tree, but she's not a nut") ; dans The Stranger House (éd. Seal Books, 2005), on lit, p. 76 : "a snag short of a barbie" ("Mrs Appledore's warning that he was a snag short of a barbie" – la narratrice est australienne). Citons la contribution de Stephen Fry dans The Hippopotamus (éd. Arrow, 1995, p. 162) : "If you mean, is she two faggots short of a corps de ballet, then no, darling."

    Hill et Fry, auteurs anglais, ne font que réaliser, voire répéter, à leur façon un syntagme paradigmatique commun à toutes les variantes de l'anglais : britannique, irlandaise, australienne, canadienne, américaine, etc. On trouve un exemple amusant de l'expression dans Feersum Endjinn (1994 ; éd. Orbit, 2004, p. 277) de l'écrivain écossais Iain M. Banks : "Thi golden hare-and-Is bloak dozen seem 2 ½ chainjed sins thi kaos got in2 thi towrs computirs but then frangli he woz a few fevvirs shot ov a fool wing 2 start wif so no chainje thare."

    À www2002.org/CDROM/poster/67/, on trouve un texte d'Andrew Kehoe & Antoinette Renouf intitulé "WebCorp: Applying the Web to Linguistics and Linguistics to the Web" qui parle de l'utilité du logiciel WebCorp pour l'interrogation textuelle, dont :

    WebCorp se sert de moteurs de recherche courants, mettant les résultats dans différents formats convenant à l'analyse linguistique (concordances KWIC, etc.). La syntaxe de la requête est celle du moteur de recherche, comme, par exemple, Google :
  • Requêtes Google : "one * short of a", "two * short of a", ...
    "one" et "two" sont tous deux très fréquents dans les réalisations du syntagme ; "three" s'y trouve aussi, mais bien moins souvent ; on rencontre aussi "a/an X", "a few X", "several X" et, bien entendu, "an Y".

    Parmi les milliers de résultats et de variantes :

  • "one tinny short of a six-pack", "one chop/sausage short of a barbecue", "one egg short of an omelette", "one slice short of a loaf"
  • "two sandwiches short of a lunchbox", "two biscuits short of a picnic", "two cards short of a deck", "two figs short of an oasis"
  • "one banana short of a bunch" sur une page au sujet des bananes intitulée One Short of a Bunch ; un autre texte intitulé One brick short of a full load... not these guys. The ancient art of making bricks in Manzanillo.

    Chez Ian Rankin, autre auteur écossais, on rencontre la variante "n X shy of a Y" : "Rebus was beginning to suspect that the secretary was a couple of keys short of a typewriter." (Tooth and Nail, Orion, 1992, p. 233), "Sounds to me like he's one domino shy of a set." (Strip Jack, Orion, 1992, p. 175), "Cafferty turned to stare at Hynds, as if offering him the chance to concur that Rebus was a couple of waltzers shy of a fairground." (Resurrection Men, Orion, 2001, p. 291). Parmi les milliers d'occurrences en ligne de "shy of a", le sens est non seulement un manque d'intelligence, mais le manque (l'incomplet, l'inachevé) en général.

    2.2. Dans la traduction française de La Carta esférica d'Arturo Pérez-Reverte, je lis (p. 104) : "il se moquait de tout ça comme de sa première chaussette". Je me dis qu'il s'agit là d'un paradigme courant dans lequel le dernier terme est plus souvent chemise que chaussette. Une recherche Google (WebCorp ne reconnaît pas les lettres diacrisées, du moins au moment de la rédaction de ces lignes) me donne pour les treize premières occurrences pertinentes de première et de premier (requêtes : "comme de * premier", "comme de * première") :

    Remarques :
  • Variantes de s'en moque : s'en fout, s'en fiche, s'en soucie ;
  • Variantes non marquées synonymes de chaussette : chemise (5 fois), culotte, caleçon, slip, plus biberon ;
  • Variantes marquées stylistiques/thématiques : robe, bulle, perruque, bobettes, pipe, Mercédès, pellicule, tamagochi, mi majeur, Petit Lu, trombone, mensonge électoral, réseau de téléphonie, béret, meurtre, sac en plastique, kimono.
    Autrement dit, le syntagme paradigmatique serait aussi productif que "one/two X short of a Y".

  • Dans le même ordre d'idées. Pérez-Reverte, p. 324 : "Cette fille en a dans le pantalon. Je te jure." Google : "en a dans le pantalon" = 21 occurrences ; "en a dans le slip" = 8 ; "en a dans la culotte" = 3. Pour ratisser plus large (bruit à écarter par la suite) : "en * dans le pantalon" = 47 ; "en * dans le slip" = 16 ; "en * dans la culotte" = 396. Redistribution de fréquences intéressante. Pour culotte, on rencontre aussi : "en ont dans la culotte", "en avait dans la culotte", plus des coquilles : "en on dans la culotte" (plusieurs occurrences), "[il] en as dans la culotte". La raison principale de l'augmentation inattendue du nombre d'occurrences de "en * dans la culotte" est l'intitulé des nombreuses pages du site pornographique "www.BananaSplit.com" (en fait à l'adresse ipw2.free.fr/)  : "BananaSlip - Pour ceux qui en ont dans la culotte".

  • Toujours dans le même roman (p. 105) : "Une fois, ça peut être le hasard, dit-il. Deux, une coïncidence. Trois, mon cul!" On se dit : hasard et coïncidence, d'accord, mais mon cul! serait la marque de l'auteur-personnage. Dans les premiers résultats de Google : a) "On dit dans l'armée américaine: 'Une fois, c'est un hasard. Deux fois, c'est une coïncidence. Trois fois, c'est un complot.'" ; b) "'Une fois, c'est un hasard, deux fois, c'est une coïncidence, trois fois, c'est une opération ennemie' Manuel de l'Armée Américaine, 19ème siècle".

    2.3. Le 6 octobre 2002 sur le site Web de la chaîne de télévision française France 2, on pouvait lire la phrase "Ce résultat laisse donc envisager l'avenir sous les meilleurs hospices.", vite corrigée par la rédaction – suite peut-être à des coups de téléphone ou de courriel de la part de quelques lecteurs – en "Ce résultat laisse donc envisager l'avenir sous les meilleurs auspices."

    On sent là une faute répandue, due à l'homophonie, impropriété de langage qu'on appelle en anglais un malapropism, voisin du mondegreen (voir ces mots dans le Web).

    Une interrogation du Web avec Google (20 oct. 2002) confirme rapidement l'hypothèse de la fréquence de la faute :

  • A. "sous les meilleurs auspices" = c. 2540 documents = 90,39% de A+B
  • B. "sous les meilleurs hospices" = c. 270 documents = 9,61% de A+B

    Dans sa version actuelle, WebCorp (cf. 2.1) ne retient qu'une sélection des résultats de Google, sélection procrustéenne de 120 pages Web, quelle que soit la fréquence du terme recherché. Ainsi, la requête "sous les meilleurs auspices" a produit (20 oct. 2002) 105 occurrences ("Using the Google search engine WebCorp accessed 120 web pages, 4 of which returned errors. 105 concordances were generated. ") ; "sous les meilleurs hospices" = 91 ("Using the Google search engine WebCorp accessed 120 web pages, 12 of which returned errors. 91 concordances were generated.").

    Dans le cas présent, on obtient de meilleurs résultats en demandant "sous les meilleurs" ; les résultats (même date) donnent cependant des proportions relatives différentes de celles obtenues directement sous Google :

  • A. "sous les meilleurs auspices" = 87 occurrences = 94,57% de A+B
  • B. "sous les meilleurs hospices" = 5 occurrences = 5,43% de A+B

    La requête "sous les meilleurs [aus|hos]pices" (WebCorp accepte certaines expressions régulières ; celle-ci ne fonctionne pas directement sous Google) a produit, comme on pouvait s'y attendre, des proportions encore différentes :

  • A. "sous les meilleurs auspices" = 97 occurrences = 97,98% de A+B
  • B. "sous les meilleurs hospices" = 2 occurrences = 2,02% de A+B

    3. "donuts in the lobby"

    L'intertextualité se situerait quelque part entre le totalement banal et l'idiosyncratique. Dans quelles conditions le Web est-il pertinent comme corpus d'interrogation pour l'étude de l'intertextualité ? Prenons un extrait textuel un peu plus étendu, soit un paragraphe du roman Memoir from Antproof Case de Mark Helprin (Harcourt Brace, 1995) : Un survol rapide :
  • "wanted to have sex" est banal ; "exploding with sex" l'est bien moins.
  • "down to her fingertips" = imagé mais peut-être banal ? À vérifier.
  • "shaken the train" = vraisemblablement beaucoup moins fréquent que "the train shook".
  • "right off the rails" = moins ou plus fréquent que "down to her fingertips" ?
  • "half the women in Africa" = réalisation du syntagme "half the X in Y".
  • "pounding their manioc" = sûrement moins fréquent que "pounding manioc".
  • "from Newfoundland to Azerbaijan" : ce serait une réalisation idiosyncratique du syntagme "from X to Y" dans lequel X et Y sont deux lieux géographiquement et culturellement éloignés l'un de l'autre.
  • "Einstein's General Theory would have been confirmed" : l'intertextualité est au niveau de l'idée, pas à celui des mots.
  • "donuts in the lobby" : une expression/image répandue.
  • La dernière phrase constitue une accumulation d'idées les unes plus intensives et plus invraisemblables que les précédentes ; la dernière image est celle des valeurs traditionnelles sûres et solides de la vieille Europe, notamment d'une institution corsetée de la mère patrie, contrastées avec l'éphémère de la consommation rapide de la jeune Amérique.

    Contrôles dans le Web (moteur de recherche Google, 10 sept. 2002) :

    1. a) "wanted to have sex", b) "exploding with sex"

    (a) = 19 400 résultats ; (b) = 142.

    2. "down to her fingertips"

    203 résultats. "down to his fingertips" = 205.

    3. "shaken the train"

    4 résultats, quatre textes littéraires : On notera que dans les occurrences 2 et 3, le sujet de "shaken" est dans une phrase, "the train" est le sujet d'une autre phrase (Google ignore la ponctuation).

    4. "right off the rails"

    260 résultats. "off the rails" = 27 000. L'emploi figuré, de loin le plus fréquent, n'a pas besoin de "right", qui serait pléonastique.

    5. "half the X in"

    = 152 000 résultats. Il est difficile de voir comment on pourrait raffiner la requête pour trouver les emplois hyperboliques. On notera que "half the women in Africa" produit 3 résultats, dont deux sont le texte même de Halprin.

    6. "pounding their manioc"

    Exactement le même résultat que pour "half the women in Africa". "pounding manioc" = 22.

    7. "from Newfoundland to"

    = 6 340 résultats, dans lesquels "Newfoundland" et "Y" ont quasiment toujours une association logique. L'emploi hyperbolique du syntagme "from X to Y" semble aussi difficile à étudier dans le Web que "half the X in Y".

    8. "Einstein's General Theory would have been confirmed"

    -> requête : +einstein +"not been confirmed" +"general theory". 35 résultats intéressants à parcourir pour voir que si certains aspects de la théorie auraient été confirmés, d'autres ne l'auraient pas été encore.

    9. "donuts in the lobby"

    = 73 résultats. "doughnuts in the lobby" = 17. La requête moins rigide +"in the lobby" +donuts produit 2 860 résultats (ex. "Coffee and donuts served in the lobby") ; +"in the lobby" +doughnuts = 1 760. Le Web confirme l'hypothèse énoncée ci-dessus.

    Par contraste, il est culturellement cocasse de chercher des occurrences de "croissants in the lobby". Trois résultats :

  • "Kerasotes kept up the art-house fare for another three years, but then switched back to showing big-name commercial films, like Fanny and Alexander, and even sold coffee and croissants in the lobby." sur un site universitaire américain.
  • "There will be coffee and croissants in the lobby starting at 9:00" sur un serveur français hébergeant des documents d'une entreprise techno-industrielle à apparence internationale.
  • "She is in London or Washington or Munich with her boyfriend right now, eating croissants in the lobby of a luxury hotel" dans the nights for agapanthus, roman d'un universitaire-auteur américain.

    Conclusion

    Le Web peut être utile pour l'étude de l'intra/inter-textualité idiosyncratique chez des classiques comme Voltaire (en ligne) mais pas chez des modernes comme Hill (sous copyright). Lorsque l'intertextualité réside dans le domaine public de la langue générale, le Web peut se montrer une bonne ressource pour l'étude du fonctionnement de syntagmes comme "one/two X short of a Y" ou "donuts in the lobby". Mais plus le syntagme tend vers les extrêmes de l'idiosyncratique ou le banal, moins le Web – ou tout autre corpus textuel – est efficace.