2.4 Le web

Avant 1996, l’internet restait encore très lié à la culture et aux pratiques des informaticiens, et n’avait aucune raison d’intéresser, si ce n’est à la marge, les spécialistes des sciences humaines: à cause de la culture informatique requise, de la rareté des objets susceptibles d’intéresser ces chercheurs, de la difficulté à repérer de tels objets s’ils existaient.

2.4.1 Bref historique

Pour préciser ces faits trop vite oubliés, nous décrirons brièvement les divers « outils » qui ont permis la socialisation des techniques d’écriture et de lecture propres au web. Ce protocole de l’internet 32 est, comme beaucoup de solutions de mise en réseau, fondé sur une architecture client-serveur, et permet d’éditer, de lire et de manipuler des objets hypertextuels de façon étonnamment aisée 33. Mais surtout, c’est, parmi une longue liste d’inventions, celle qui s’est imposée.

Ce point sera bref, car il existe une abondante littérature sur l’histoire du web et de ses ancêtres 34. Il nous aidera à critiquer les analyses prétendument historiques, qui confondent souvent date d’invention et date de socialisation. Le but est aussi de rappeler comment, en quelques années, les conditions d’un dépassement de l’imprimé ont pu se réaliser: auparavant les productions multimédia étaient réalisées par un petit nombre de personnes (auteurs de textes, graphistes, informaticiens) et n’étaient pas transformables par le lecteur. L’adaptation d’un hypertexte aisé d’emploi à un réseau mondial de machines, et sa rapide appropriation par un grand nombre d’individus, ont été les deux raisons principales d’une transformation massive des techniques de l’écriture, et de la prise de conscience de cette transformation.

On a vu que, jusqu’au début des années 1990, les protocoles les plus connus (telnet, ftp, mail, news) comme le contenu des échanges qu’ils permettaient restaient réservés au monde des informaticiens. Il s’ensuit que le développement des protocoles et des outils qui ont fait le succès de l’internet actuel est somme toute assez récent.

Le premier logiciel permettant de rechercher par mot-clé 35 des fichiers situés sur des machines distantes en interrogeant un ordinateur lui aussi lointain —et sur lequel on ne disposait pas de compte— fut Archie, en 1990. Développé à l’université McGill de Montréal et basé sur le protocole ftp, ce serveur de bases de données était naturellement complété par des logiciels clients 36.

En 1991 paraît Gopher, qui préfigure nos navigations actuelles sur les réseaux: sorte de web en ASCII, avec déjà des pointeurs qui relient des documents divers entre eux. Très vite, sur les NeXT puis sur d’autres machines, une version graphique du client Gopher sera implémentée, et les quelques personnes qui le découvrirent à l’ENS littéraire s’en servirent jusqu’en 1996. Gopher, « conçu par l’université du Minnesota pour bâtir un service d’information de campus, s’est rapidement imposé sur tout l’internet dans des environnements très divers, jusqu’à devenir le produit le plus populaire aux États-Unis ». Veronica, le moteur de recherche qui lui est dédié 37, apparaît en 1992.

En 1991 aussi, le protocole « Z 39.50 » introduit les sites et bases « Wais » (Wide Area Information Service), qui permettent alors d’effectuer des indexations, et donc des requêtes, sur le contenu propre des documents 38. L’innovation est certaine, mais si les utilisateurs y trouvaient leur compte, ceux d’entre eux qui savaient construire et rendre publique une telle base étaient en nombre réduit.

L’outil qui allait populariser l’internet est le « www ». Il est décrit sommairement dans une note interne au CERN 39 par Robert Cailliau et Tim Berners-Lee en mars 1989. En octobre 1990, ce dernier développe son premier programme « WordWideWeb » (sur une machine NeXT) et le premier logiciel client (appelé souvent navigateur, ou encore browser, fureteur, butineur...) est disponible en mars 1991 pour certaines machines Unix. La version stabilisée (numéro 1.1) apparaît en janvier 1992, mais elle reste en « mode ligne » (ASCII, à la manière du logiciel Lynx), donc encore peu commode. Le 3 novembre 1992, 26 serveurs expérimentent ce nouveau protocole; on en compte 50 en janvier 1993. Et si, dans l’historique du W3C 40, il est dit qu’« en juin 1994, ce nombre dépassait 1500 machines » 41, les responsables de tels serveurs apparaissent rétrospectivement comme une minuscule minorité de pionniers à cette date pourtant récente.

Il suffisait alors que le CERN abandonne ses droits sur l’invention de Tim Berners-Lee et laisse en 1994 l’INRIA et le W3C améliorer ce protocole d’écriture dans un esprit de « service public » pour que le web puisse se développer.

2.4.2 Lire, écrire, trouver

Le premier outil de lecture associé —le navigateur— un tant soit peu agréable, c’est-à-dire permettant une mise en forme du texte et des images, apparaît en février 1993: Mosaic, développé au NCSA 42. Cette date est aussi importante pour le développement du web, car il devenait possible de profiter des innovations apportées par le nouveau protocole: lire de façon confortable des pages entières, dotées d’un enrichissement typographique 43 et intégrant des images, passer simplement d’une page à l’autre (grâce au codage « hypertexte »), etc. Ce processus de lecture s’étendait à la consultation du code informatique du texte 44 —en clair—, dont on découvrait alors la simplicité, tant sur le plan de la structure des documents que de leur mise en forme: la juxtaposition des deux formes du texte (texte destiné au lecteur et texte destiné à l’éditeur), et la simplicité du balisage de la seconde permettait d’apprendre à réaliser une page par le simple fait d’en lire le code source. Ce choix, politique et pédagogique, allait inciter de multiples utilisateurs, souvent étudiants des écoles d’ingénieurs, à demander à leur ingénieur système d’installer (ou de les laisser installer) le logiciel serveur qui leur permettrait d’accéder au statut d’éditeur électronique.

Mais il manquait encore un système de repérage. Pour les uns, c’est l’apparition de l’annuaire Yahoo! 45 en 1994 qui allait faciliter la recherche d’information sur le web; mais Yahoo! ne faisait que recenser des pages web qui étaient ensuite regroupées par de nombreux employés suivant des rubriques prédéfinies et trop généralistes. Pour d’autres, c’est celle du moteur de recherche Alta Vista 46 en novembre 1995, qui est déterminante: on pouvait effectuer des requêtes complexes sur une machine 47 et obtenir en retour les adresses des pages web qu’un algorithme avait jugées les plus pertinentes.

En résumé, le protocole http offrait une facilité d’écriture déconcertante; les profanes de l’informatique pouvaient apprendre à réaliser une page en hypertexte en 20 minutes, inclusion d’images comprise. Chaque « page » disposait d’une adresse simple et était rédigée dans un format de fichier universel (indépendant du système d’exploitation) et domaine public (donc gratuit). La lecture des documents (et de leurs sources) était rendue agréable et la « navigation » aisée. Enfin, les systèmes d’indexation permettaient d’effectuer des recherches documentaires sophistiquées.

Ainsi, la date de conception du web date-t-elle de 1989, celle de sa première implémentation de 1991. En 1994, l’invention a convaincu quelques milliers de professionnels, qui expérimentent cet outil éditorial et qui l’améliorent, par exemple en le dotant de logiciels de lecture. Mais il faut attendre 1996 pour disposer d’un outil de recherche qui lui soit adapté, et donc en imaginer un usage qui dépasse celui des professionnels de l’informatique.

On est donc dans la situation d’une « invention qui a réussi » 48, pensée en 1989, qui ne pouvait être socialisée avant 1996. Il n’y aurait pas d’intérêt à préciser ces évidences si la tendance générale des « historiens » de l’informatique n’incitait pas à confondre ces dates, obéissant par là aux exigences du poème épique, parant l’inventeur des vêtement du héros, toujours rattaché à une nation précise 49, et sollicitant la rhétorique la plus simpliste du déterminisme technique pour culpabiliser le lecteur, qui se sent à la fois « en retard » et à l’écart d’un monde dynamique.

2.4.3 Web, écriture, et revues savantes

Ensuite, ces nouvelles techniques de l’écrit avaient, dans le domaine des sciences humaines, à s’enraciner dans des pratiques sociales avant de pouvoir se déployer.

Tout d’abord en termes de contenus. Encore aujourd’hui, la discipline la mieux servie par l’internet reste l’informatique: une requête du type « ps2pcl » adressée à un moteur de recherche comme www.google.com renvoie immédiatement les « scripts » permettant de faire imprimer des fichiers POSTSCRIPT par une imprimante qui ne l’est pas. De plus, on peut être assuré que les 39 réponses à cette requête proposent toutes le même programme, garanti par l’expérience de centaines d’informaticiens. Ainsi, l’existence de nombreuses pages dédiées à l’informatique sur le web et la spécificité des mots clés de cette discipline facilitent la tâche de l’utilisateur. Une requête propre aux sciences humaines doit souvent être beaucoup plus élaborée pour donner aussi vite un résultat aussi précis et réduit: la requête « Jack Goody » renvoie 21 700 réponses.

Par ailleurs, même si tous les renvois à cette requête étaient de la même qualité, son auteur ne leur accorderait pas nécessairement une grande valeur, car les normes d’usage du web sont plus récentes, moins stabilisées que dans le domaine de l’informatique: la confiance est aussi affaire de contruction sociale.

Enfin, les pratiques d’écriture propres aux sciences exactes facilitent l’usage de différents codages, y compris l’html: quand les chercheurs en sciences humaines avaient adopté les wysiwyg, la majorité des auteurs des sciences exactes utilisaient la combinaison LATEX-POSTSCRIPT, qui distingue clairement le code du texte de sa forme 50. Il leur était donc aisé d’assimiler un nouveau codage comme l’html, fonctionnant lui-aussi sur le principe des balises. Certes, des chercheurs en sciences humaines utilis(ai)ent LATEX et des machines Unix. Mais ils constituent une minorité en France 51.

En conclusion, les techniques mises en place par les informaticiens ne pouvaient être appropriées rapidement par l’ensemble des chercheurs et des professionnels: les publications du web couvraient surtout l’informatique et les domaines proches, comme la physique et les mathématiques, et ce n’est que dans ces disciplines que des mécanismes de confiance se mettaient en place 52. Les outils de recherche d’information favorisaient naturellement les disciplines qui proposaient des contenus. Sur le plan de l’écriture, les personnes qui subissaient la dictature des formats de fichiers hétérogènes ne comprenaient pas l’intérêt d’un codage supplémentaire (fût-il aisé à manipuler) et, dans les sciences humaines, l’organisation sociale et politique de la publication imprimée n’avait pas encore prouvé ses limites comme dans les disciplines précédemment évoquées.

En effet, dans les sciences exactes, des chercheurs renommés prenaient conscience du fait que les éditeurs de revues savantes ne tenaient plus leur rôle: les articles étaient rédigés et mis en page par les chercheurs. Leur évaluation était effectuée par d’autres chercheurs. Ainsi, ils ne comprenaient pas pourquoi leurs laboratoires devaient payer très cher des revues savantes, alors que le travail des éditeurs se limitait à l’impression et la diffusion. Par exemple, en 2000, la bibliothèque des DMA et DI 53 de l’ENS payait plus de 900 000 F pour ses abonnements à 166 revues, dont 30 000 F pour la plus coûteuse, qui paraît moins de 12 fois par an 54. L’arrivée du web mettait crûment à jour ces problèmes: les articles étant souvent prépubliés sur l’internet avant leur acceptation par une revue, l’activité de l’éditeur consistait en fait à faire payer très cher une validation sociale, qui survenait, comme le document imprimé, bien tard (souvent un an après la soumission de l’article).

On comprend que l’idée d’une « bibliothèque mondiale décentralisée », qui permettrait d’accéder de façon instantanée à l’ensemble des connaissances, fût déjà établie. Elle n’était pas une utopie, mais correspondait à une réalité vécue par les chercheurs. Les personnes les plus engagées évoquaient déjà un « monde meilleur », qui verrait la disparition des monopoles de l’écrit: chez les éditeurs de revues scientifiques comme chez les éditeurs de logiciels. Elles imaginaient l’avènement des « logiciels libres » 55, en prenant comme exemple l’internet lui-même: quand de nombreuses entreprises avaient essayé de développer des protocoles réseaux « propriétaires », le seul qui s’imposa fut celui construit par des scientifiques enthousiastes et capables d’engager des travaux collaboratifs.

Ces enjeux éditoriaux du web n’étaient pas perçus au sein des sciences humaines. La majorité des membres de l’ENS littéraire ne disposaient pas d’accès à l’internet, et le groupe de pionniers précédemment décrit subissait les effets de la complexité informatique plus qu’il ne pouvait en profiter. Néanmoins, la présence de plusieurs élèves et chercheurs informaticiens créa les conditions minimales d’un débat, souvent informel au commencement, sur ces enjeux: alors que la presse française était étonnamment silencieuse 56, divers groupes de l’ENS, qui finiront par tous se connaître, entamaient —parfois de façon malhabile— une réflexion sur le monopole de Microsoft sur l’écrit, sur l’organisation des bibliothèques, sur l’édition, sur la façon dont l’informatique et l’internet transformaient les méthodes de travail des chercheurs.