par Émilie Devriendt, janvier 2002.
Soit l'internaute qui s'intéresse au concept de la vanité chez Montaigne.
R. Wooldridge, dans son
article, a bien
montré comment un dépouillement scrupuleux des résultats
fournis par un moteur de recherche généraliste (en l'occurrence,
Altavista) permet de dégager plusieurs pistes intéressantes "pour
une recherche en bibliothèque plus approfondie", voire suffisantes
pour satisfaire la curiosité du chercheur.
Son étude présente l'intérêt de décrire et
d'évaluer la nature des informations disponibles par le biais d'un tel
outil. Toutefois, elle apparaît relativement éloignée des
conditions "normales" d'utilisation d'un moteur de recherche, considérée
sous l'angle du tri et de l'exploitation des résultats relatifs à
une requête, quelle qu'elle soit.
Dans des conditions "normales"
en effet, on est en droit de supposer que l'internaute tâche d'évaluer
le contenu des liens qui lui sont présentés dans la ou les premières
pages de résultats, et clique sur ceux qui lui semblent alors les plus
pertinents (et ce, en règle générale, pas plus de 10 fois).
R. Wooldridge ne faisant pas mention de l'ordre d'apparition des résultats
proposés par Altavista lors de son interrogation, on peut penser que
plusieurs références recensées comme pertinentes n'ont
pu l'être que moyennant le traitement exhaustif des réponses qu'il
a choisi d'élaborer (grâce à un logiciel d'analyse).
En d'autres termes, le «bruit» généré par toute
recherche plein-texte dans le Web ne peut être évité sans
une intervention analytique humaine [1].
Ce simple constat nous invite d'emblée à poser la question de
l'utilité d'un accès catégorisé aux informations
susceptibles d'être recherchées sur le Web tel que le proposent
annuaires et répertoires de liens. C'est ce que nous nous proposons de
faire en contrepoint à l'article de R. Wooldridge intitulé «Vers
l'exhaustivité : le préconstruit et le ponctuel».[2].
1.1. Pour ouvrir la discussion, nous avons d'abord tâché de chercher des documents relatifs au concept de la vanité chez Montaigne en utilisant différents types d'outils de recherche non automatiques :
Dans la catégorie
«Littérature française et d'expression française»
des Signets de la BNF, on trouve deux sous-catégories au moins susceptibles
d'aider la recherche : la catégorie Auteurs et la catégorie XVIe-XVIIIe
siècles. Chacune comprend diverses références à
des sites «académiques». Si l'on choisit l'un des liens proposés,
comme par exemple la Société
Internationale des Amis de Montaigne, hébergée par l'Université
de Lyon III, on accèdera notamment à une liste de liens plus affinés
etc. Toutefois, la requête portant sur le concept de la vanité
n'est pas permise par ce type de navigation, où l'on est amené
à suivre la ramification proliférante des liens... et à
perdre patience assez rapidement si l'on est pressé.
La consultation du portail Lettres.net présente les mêmes inconvénients
dans la perspective d'une recherche de ce type. Nous n'avons pas pu tester le
moteur de recherche correspondant
aux sites indexés, en cours de développement.
A priori, l'efficacité de ce type d'outils ne s'applique donc pas à la recherche micro-thématique. Les ressources n'y apparaissent que classées par matière générale.
1.2. Nous avons ensuite complété cette recherche en interrogeant le moteur spécialisé Aleph, qui n'indexe que des sites dédiés à la littérature et à la linguistique : ce moteur, automatique, porte donc sur une sélection non automatique de ressources. Le nombre des résultats s'avère dès lors nécessairement plus restreint que ceux d'un moteur généraliste dans la mesure où les pages indexées par Aleph sont nettement moins nombreuses, étant limitées à une sélection de sites littéraires.
On y remarque notamment la présence de pages mentionnées dans l'article de R. Wooldridge, et plus particulièrement celles relatives à d'autres auteurs que Montaigne (Rousseau, Stendhal) et à d'autres siècles que le XVIe. Le XIXe siècle apparaît ainsi sur-représenté.
On est donc en droit de penser que ce moteur spécialisé, s'il limite le bruit généré par les documents non littéraires, ne présente pas forcément plus de pertinence qu'un moteur généraliste performant dans ses réponses à une requête précise. Pour reprendre l'exemple de R. Wooldridge, le site de Trismégiste où est publiée l'intégralité des Essais n'est mentionné par Aleph ni dans la catégorie Littérature, ni dans la catégorie Linguistique.
Les constats qui précèdent ne sont pas pour nous surprendre, pas plus qu'ils ne contribuent à discréditer les outils de recherche non automatiques en soi.
2. Utilité spécifique des répertoires
de ressources.
2.1. Du fait de la nature générale (voire généraliste) de la catégorisation mise en oeuvre par les répertoires, il est bien évident qu'une recherche thématique semblable à l'interrogation du fichier matière d'un catalogue de bibliothèque, n'est pas réalisable.
Cela étant, même dans le cas d'un site disposant d'un moteur de recherche interne, les requêtes posées ne correspondront jamais qu'à des mots, rendant le rappel des documents toujours partiellement non pertinent. Quand on pose la requête "+Montaigne + vanité" à un moteur de recherche, généraliste ou non, ce sont toujours des documents contenant le mot Montaigne et le mot vanité que l'on retrouve, et non pas forcément des documents relatifs au thème de la vanité chez cet auteur, comme l'a bien montré l'étude de R. Wooldridge.
2.2. En revanche, les répertoires de ressources s'avèrent utiles dans bon nombre de cas où l'interrogation d'un moteur de recherche risque :
Par exemple, rechercher un site spécialisé (dans une discipline, un auteur, une période etc.) paraît plus sûr et efficace par le biais d'un répertoire -- dont par ailleurs il convient de savoir évaluer la qualité documentaire. Si un documentaliste ne peut parvenir sur le Web au degré d'exhaustivité atteint dans l'indexation de ressources imprimées, il n'en reste pas moins compétent en matière de veille documentaire et d'évaluation des informations proposées.
De même, on trouvera plus sûrement une banque de données, textuelle par exemple, mais aussi bien bibliographique ou encyclopédique, par l'intermédiaire d'un répertoire de ressources. Si le site de Trismégiste est aisément repérable sur le moteur Google, il n'en va pas de même, par exemple, des Archives textuelles d'Oxford, qui pourtant permettent de commander gratuitement le texte des Essais.
La raison en est simple : une bonne partie du Web n'est pas accessible aux moteurs de recherche, que l'on appelle généralement «Web invisible» ou «Web caché» [3]. Cette partie du Web représente le contenu interrogeable des diverses bases de données existantes, disponible ponctuellement sur interrogation, et non indexable par les moteurs de recherche.
Si l'on ajoute à cela le fait que même le moteur de recherche le plus puissant n'indexe grosso modo que les pages au format html, et pas plus de 30% des pages Web estimées, on pourra dès lors relativiser l'illusoire exhaustivité des réponses fournies par ce type d'outils à n'importe laquelle des requêtes qui leur sont posées.[4]
La différence majeure entre moteurs de recherche et répertoires ne réside donc pas dans la plus grande exhaustivité des premiers par rapport aux seconds [6] : bien plutôt, ils relèvent d'un type d'outils distinct eu égard à leurs fonctionnalités, adaptées à des types de recherche elles-mêmes spécifiques.
On rejoindra donc R. Wooldridge pour rappeler la nécessité de connaître et de savoir utiliser «les outils les plus performants», ce qui suppose somme toute que l'on puisse évaluer le type d'outils le mieux adapté à la nature de la recherche à entreprendre et... que l'on sache trouver ces outils sur le Web -- ce que permettent entre autres de bons répertoires spécialisés.
Les outils automatiques et les outils non automatiques dédiés à la recherche sur le Web sont donc essentiellement complémentaires. Les spécialistes de la veille le savent bien, dont le savoir-faire repose effectivement sur la maîtrise du large éventail des ressources documentaires disponibles.
Si les moteurs de recherche semblent de fait les plus adaptés à la nature hétérogène et à la croissance exponentielle des données en ligne, leur utilisation quotidienne ne doit pas conduire à minimiser les travaux des cyber-documentalistes, dont l'utilité est plus ciblée, mais qui devraient constituer une boussole appréciable pour la plupart des internautes en quête d'autonomisation et d'exhaustivité.
1. L'efficacité des algorithmes des différents moteurs permet certes de réduire ce bruit dans certains cas.
2. Certains moteurs de recherche généralistes, tel NorthernLight, classent effectivement les résultats de la requête dans des "Custom Search Folders". Toutefois, la requête "Montaigne AND vanité" soumise au mode avancé de ce moteur a engendré un classement relativement peu utile dans ce cas précis.
3. Plusieurs répertoires d'outils de recherche en ligne citent notamment des moteurs dédiés au Web invisible :
4.
Cf. http://www.searchenginewatch.com/reports/sizes.html
et aussi
http://www.searchengineshowdown.com/stats/
5.
L'idée a été expressément développée
par J.-P. Lardy, dans un ouvrage de référence : Recherche d'information
sur l'internet : outils et méthodes. - Paris, ADBS éditions,
mai 2001 [7e édition papier], publié en ligne à l'adresse
suivante :
http://www.adbs.fr/adbs/sitespro/lardy/risi.htm
6. Si R. Wooldridge a indéniablement raison de souligner qu'«un bon moteur généraliste (...) réunit beaucoup plus de ressources utiles qu'aucun être humain, aucune équipe humaine n'est capable de réunir et de tenir à jour manuellement», on peut toutefois penser qu'une initiative telle que l'Open Directory Project pourra adjoindre une exhaustivité accrue à un système de classification utile à de nombreuses recherches.