Aspects du Web invisible dans les pages du Web visible

Russon Wooldridge
University of Toronto

avec un
Commentaire
d'Émilie Devriendt
Université de Paris IV

Janvier 2003
© 2003 Russon Wooldridge

Introduction

Les petites capitales dans les documents PDF

Le sort de caractères particuliers au format DOC

Le texte des images

Conclusion

Commentaire

Comme on le sait, le Web invisible comprend, entre autres, a) les pages générées dynamiquement à partir d'une base de données par une requête tapée ou par la sélection d'un item du menu de la page de départ, b) les pages protégées par un mot de passe et c) les pages dont le format n'est pas reconnu par le moteur de recherche utilisé par l'usager. (Voir des descriptions plus détaillées du Web invisible en explorant les premiers résultats de la requête "invisible web" dans Google ou ceux de la requête "web invisible" dans les pages francophones de Google.)

Ce que l'on sait peut-être moins, c'est que certaines parties de pages en principe visibles peuvent néanmoins relever du Web invisible. On reconnaîtra sans difficulté que, dans une page en HTML, le texte des images GIF ou JPEG n'est repérable ni par un moteur de recherche, ni par la fonction Trouver du navigateur – j'en donne un exemple dans la section 3. Je voudrais pourtant parler ici surtout de phénomènes particuliers qui ne répondent pas aux attentes normales et, au lieu de cela, livrent des données inattendues. Il s'agit cette fois de documents PDF ou DOC, formats reconnus depuis quelque temps par Google.

1. Les petites capitales dans les documents PDF

Dans un document HTML, que je tape le nom Dubois tout en majuscules ("DUBOIS") ou que je simule les petites capitales en réduisant la taille des lettres non initiales par <FONT SIZE=-1>...</FONT> ("DUBOIS"), Google trouvera toujours cette occurrence de la chaîne de caractères "dubois".

Il en va autrement des documents PDF. Soit dans un document PDF la séquence

On remarque que dans cette séquence plusieurs lettres sont réalisées en petites capitales et que certains mots contiennent un mélange de grandes capitales (la lettre initiale) et de petites capitales (les autres lettres du mot), en l'occurrence "DIRECTEUR", "HOSPICES", "CIVILS" et "LYON". [Nota : pour bien voir la différence entre grandes et petites capitales, visionner cette page à 100% sous Mozilla ou à Médium/Moyen sous Internet Explorer.]

Cette séquence est introuvable dans le Web par un moteur de recherche (ex. Google) si on demande

"monsieur françois grateau directeur général des hospices civils de lyon"

même si la fonction "Trouver" d'Adobe Acrobat trouve à l'intérieur du document ces occurrences de "directeur", "hospices", "civils" et "lyon".

Elle n'est trouvable comme telle dans le Web que si on demande

"monsieur françois grateau d irecteur général des h ospices c ivils de l yon"

En somme, l'utilisation de petites capitales dans un document PDF a pour conséquences : a) de couper en deux les mots ainsi affectés ("d irecteur", etc.) ; b) de les rendre introuvables dans le Web ; c) de créer des mots fictifs (d, irecteur, h, ospices, c, ivils, l, yon) ; d) de fausser les résultats d'une requête dans le Web.

Sur ce dernier point, on peut remarquer que les occurrences de "ospices" se trouvant dans les 23 documents repérés par Google à la date du 18 janvier 2003 comprennent, non seulement des fautes (confusions homophoniques) du type "sous les ospices de" ou "ne s’annonce pas non plus sous les meilleurs ospices", mais aussi des graphies en fait correctes (hospices) mais mal typographiées comme dans l'exemple examiné ci-dessus.

2. Le sort de caractères particuliers au format DOC

Regardons d'abord les petites capitales d'un document au format Word 97:

La requête dans Google francophone de +"sous les auspices de la bdsf" +inscriptions +"possibilités d'entraînement" retrouve l'occurrence de ces séquences dans le document que l'on vient de citer, ce qui démontre que, contrairement à ce qui se passe dans le format PDF, l'emploi de petites capitales dans un document Word est compatible avec la typographie du Web.

Une recherche dans le Web anglophone a cependant relevé une occurrence curieuse de "ospices", forme en principe étrangère à l'anglais. Il s'agit d'un document au format Word 2000. Nous donnons ici une capture d'écran montrant l'occurrence en question :

Traduites dans la typographie du Web, les cases à cocher deviennent des lettres "o" (par ex. "oSpices"), ce qui fait exister comme mots du Web anglophone les séquences "oinfant", "odairy", "oconfectionery", "ocereals", "onuts", "oedible", "ospices", "opasta", "osauces" et "ocookware". La requète Google +oinfant +odairy +oconfectionery +ocereals +onuts retrouve effectivement le document AVACircular.doc, cité ci-dessus, alors que la requête +infant +dairy +confectionery +cereals +nuts ne le retrouve pas.

3. Le texte des images

Soit une page du site Cafeduweb.com (http://www.cafeduweb.com/nuke/article.php?sid=1654) où on lit dans le texte HTML

Conférence de Thierry Meyssan sous les ospices de la ligue arabe et dans une image GIF en haut de la page (il s'agit d'un hyperlien)

Une recherche Google de "portail sur la ruralité et l'environnement" livre deux résultats :
1) Hebdotop.com - Le classement des sites francophones (http://www.hebdotop.com/cgi-bin/topcat.pl?numcat=15&page=1) :

Le P'tit Monde de l'Agronome (Site n°21987) Portail sur la ruralité et l'environnement 2) Le Dictionnaire de l'Agronome - 1764 (http://www.agronome.com/Dico/) :

Et avant de repartir n'oubliez pas de jeter un coup d'oeil au P'tit Monde de l'Agronome, portail sur la ruralité et l'environnement. C'est-à-dire ni la page citée ci-dessus, ni la page d'accueil du P'tit Monde de l'Agronome. Cette dernière (http://www.agronome.com/) dit dans sa méta-description

Ce site ambitionne de devenir une porte sur la RURALITÉ, l'Environnement... Le logo qui se trouve comme lien sur la page de Cafeduweb.com est différent de celui qui figure sur le site du P'tit Monde de l'Agronome.

Conclusion

La leçon à tirer de cette petite démonstration est que, outre l'impossibilité d'interroger le texte des images, les formats destinés en premier lieu à l'impression sur papier ne sont pas nécessairement compatibles avec la typographie virtuelle du World Wide Web. On pourrait peut-être parler de points aveugles ou de mirages dans l'observation du Web visible.

Commentaire

Je pense que ce type de démonstration est très utile pour mettre l'accent sur les différents facteurs de "silence" (par opposition au "bruit") qui peut caractériser les résultats des moteurs généralistes.

Je trouve que le point 3 sur le texte des images relève d'un aspect différent (du point de vue de la navigation Web) par rapport aux deux premiers points abordés : il est rare en effet que l'intégralité d'un texte soit reproduit dans un format d'image, sauf bien sûr à parler des numérisations de type Gallica. Reste que dans ce cas précis, le caractère "invisible" des documents est aussi dû à leur mode de stockage, dans une base de données. Mais l'exemple du logo à mon avis montre surtout (entre autres) l'inutilité de la pub sur le web (le .gif et le .jpg ne peuvent pas -- ne devraient pas-- à proprement parler véhiculer d'information textuelle parce que contrairement à l'html il ne s'agit pas de formats texte !), alors que les formats .doc et .pdf, que sont abordés dans les points précédents, relèvent d'une logique 1) qui n'est pas celle du web (html) 2) mais qui a ses raisons d'être dans d'autres contextes de diffusion de l'information textuelle (mise en page, impression hors ligne).

De façon plus générale, je pense que les récentes fonctionnalités de Google (recherche d'images, de formats non Web) tendent à brouiller quelque peu la définition de ce qu'est le Web invisible, dans la mesure où grâce à de telles fonctionnalités, ce dernier devient de plus en plus... visible. C'est ce que montre bien ce texte, en soulignant de surcroît différents problèmes liés à une technologie encore balbutiante en matière de compatibilité de formats.

RW, Toronto, le 18-19 janvier 2003
ÉD, Paris, le 20 janvier 2003