Statistiques trompeuses : exemple de sarkoïsation

Russon Wooldridge

University of Toronto

Juillet 2006
© 2006 Russon Wooldridge

Le 20 juillet 2006, je lis dans la presse en ligne (Le Nouvel Observateur, Le Monde, etc.) l'expression "sarkoïsation des esprits" (cf. "lepénisation des esprits", "ségolénisation des esprits" déjà attestés) employée par Lilian Thuram dans une inverview accordée à l'hebdomadaire Les Inrockuptibles et publiée dans ce journal le 18 juillet 2006.

J'interroge le Web pour savoir si le mot sarkoïsation est récent ou non. Google me dit que ce mot se trouve sur environ 139 000 pages en français. Ce chiffre me surprend un peu puisqu'il suggère une certaine épaisseur diachronique, comparable à celle d'autres mots récents comme Sarkoland (Google : 97 000 pages francophones) ou Sarkophage (109 000), par exemple. En fait, les résultats affichés par Google s'arrêtent à la cent-vingt-troisième occurrence et je rencontre le message "Pour limiter les résultats aux pages les plus pertinentes (total : 123), Google a ignoré certaines pages à contenu similaire." Les "certaines pages à contenu similaire" sont presque toutes dues à la répétition par des milliers de pages dynamiques (php) du site Indymedia Paris Île-de-France.

En fait, les documents pertinents, journaux et blogs, parlent presque exclusivement de l'inverview de Thuram. La page du "lexique indispensable pour comprendre Sarkozy" du Sarkozy blog officiel satirique me confirme le statut de sarkoïsation, Sarkoland et Sarkophage : le premier n'y est pas, les deux autres y sont.

Les chiffres peuvent donc être trompeurs. Un des facteurs qui multiplient certains types de résultats est la nature attractive du thème général d'un site, comme la pornographie, entre autres. C'est ce qui, par exemple, a pu expliquer le nombre exagéré d'occurrences de l'expression "en avoir dans la culotte" (cf. aussi le mot picot).