NEF - Le Livre 010101 de Marie Lebert - 1993-2003

Le Livre 010101 (2003)
Tome 2 (1998-2003)
6. Une vaste encyclopédie

Moyen de connaissance et de diffusion sans précédent, le web propose de nombreux outils de référence en ligne, en accès libre ou bien sur abonnement gratuit ou payant: dictionnaires et encyclopédies de renom, dictionnaires de langues, bases terminologiques, bases textuelles, archives d’articles scientifiques et médicaux, etc. Si certains organismes facturent l’utilisation de leurs bases de données, d’autres tiennent à ce que les leurs soient en accès libre, l’internet rendant enfin possible à très large échelle la diffusion libre du savoir.

6.1. Dictionnaires en ligne
6.2. Bases textuelles sur le web


6.1. Dictionnaires en ligne

Ouvrages de référence

Un des premiers dictionnaires en accès libre est le Dictionnaire universel francophone en ligne, qui répertorie 45.000 mots et 116.000 définitions en présentant "sur un pied d’égalité, le français dit 'standard' et les mots et expressions en français tel qu’on le parle sur les cinq continents". Issu de la collaboration entre Hachette et l’AUPELF-UREF (devenu depuis l’AUF - Agence universitaire de la francophonie), il correspond à la partie "noms communs" du dictionnaire imprimé du même nom. L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

Fin 1999 apparaissent sur le web plusieurs encyclopédies de renom, parallèlement à leurs versions papier et CD-Rom. En décembre 1999, la première encyclopédie francophone en accès libre est WebEncyclo, publiée par les éditions Atlas. La recherche est possible par mots-clés, thèmes, médias (cartes, liens internet, photos, illustrations) et idées. Un appel à contribution incite les spécialistes d’un sujet donné à envoyer des articles, qui sont regroupés dans la section "WebEncyclo contributif". Après avoir été libre, l’accès est ensuite soumis à une inscription gratuite au préalable.

Mis en ligne à la même date, Britannica.com propose en accès libre l’équivalent numérique des 32 volumes de la 15e édition de l’Encyclopaedia Britannica, parallèlement à la version imprimée et à la version sur CD-Rom, toutes deux payantes. Le site web offre une sélection d’articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d’un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d’un abonnement mensuel ou annuel.

Décembre 1999 est aussi la date de mise en ligne de l’Encyclopaedia Universalis, soit un ensemble de 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur la base d’un abonnement annuel, de nombreux articles sont en accès libre.

La mise en ligne d’encyclopédies de renom se poursuit en 2000 et 2001.

En mars 2000, les 20 volumes de l’Oxford English Dictionary sont mis en ligne par l’Oxford University Press (OUP), grande maison d’édition universitaire avec un siège à l’Université d’Oxford (Royaume-Uni) et un autre à New York. La consultation du site est payante. Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l’OUP met en ligne l’Oxford Reference Online, une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Elle représente l’équivalent d’une centaine d’ouvrages de référence, soit 60.000 pages et un million d’entrées.

Toujours en 2000, le Quid, encyclopédie en un volume actualisée une fois par an depuis 1963, décide de mettre une partie de son contenu en accès libre sur le web.

En septembre 2000, après avoir été payante, la consultation de l’encyclopédie Encarta de Microsoft devient libre.

Dictionnaires de langues

Des dictionnaires de langues sont en accès libre dès les débuts du web. Ils sont répertoriés dans Travlang, un site consacré aux voyages et aux langues créé en 1994 par Michael M. Martin. Mais ces dictionnaires sont le plus souvent sommaires et de qualité inégale.

Fin 1997, la société de traduction Logos décide de mettre en ligne les outils destinés à ses traducteurs. Tous sont en accès libre. Le Logos Dictionary est un dictionnaire multilingue de 8 millions d’entrées. Constituée à partir de milliers de traductions, notamment des romans et des documents techniques, la Wordtheque est une base de données multilingue regroupant 710 millions de mots. Linguistic Resources offre un point d’accès unique à plus de 1.000 glossaires. L’Universal Conjugator propose des tableaux de conjugaison dans 36 langues différentes.

De très bons dictionnaires bilingues et multilingues sont progressivement mis en ligne par des organismes réputés, par exemple Eurodicautom par la Commission européenne, ou encore Le Signet et le Grand dictionnaire terminologique (GDT) par l’Office québécois de la langue française (OQLF).

Géré par le service de traduction de la Commission européenne, Eurodicautom est un dictionnaire multilingue de termes économiques, scientifiques, techniques et juridiques, avec une moyenne de 120.000 consultations quotidiennes. En accès libre, il permet de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais et suédois), ainsi que le latin. Fin 2003, Eurodicautom devrait être intégré dans une base terminologique plus vaste regroupant les bases de plusieurs institutions de l’Union européenne. Cette nouvelle base traiterait non plus douze langues, mais une vingtaine, puisque l’Union européenne passe de 15 à 25 Etats membres. Reste à savoir si l’accès à la future base sera gratuit ou payant.

Géré par l’Office québécois de la langue française (OQLF), Le Signet propose 10.000 fiches bilingues français-anglais dans le secteur des technologies de l’information. Le Signet est également intégré au Grand dictionnaire terminologique (GDT), mis en ligne en septembre 2000. En accès libre, le GDT est un gigantesque dictionnaire bilingue français-anglais de 3 millions de termes du vocabulaire industriel, scientifique et commercial. Il représente l’équivalent de 3.000 ouvrages de référence imprimés. Sa mise en ligne est le résultat d’un partenariat entre l’Office québécois de la langue française (OQLF), auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de très nombreux linguistes, cette mise en ligne est un succès sans précédent. Dès le premier mois, ce dictionnaire est consulté par 1,3 millions de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l’OQLF lui-même, et non plus par une société prestataire.

Par ailleurs, des moteurs spécifiques permettent la recherche simultanée dans plusieurs centaines de dictionnaires. Pour ne prendre qu’un exemple, le site OneLook, créé par Robert Ware, puise dans plus de 5 millions de mots émanant de 950 dictionnaires dans plusieurs langues, aussi bien généralistes que spécialisés.

Des équipes de linguistes gèrent aussi des répertoires de dictionnaires, par exemple Dictionnaires électroniques et yourDictionary.com.

Géré par la section française des services linguistiques centraux de l’Administration fédérale suisse, Dictionnaires électroniques est un excellent répertoire de dictionnaires monolingues (français, allemand, italien, anglais, espagnol), bilingues et multilingues en accès libre sur le web. Ce répertoire est complété par des listes d’abréviations et acronymes et des répertoires géographiques, essentiellement des atlas. Responsable de la section française des services linguistiques, Marcel Grangier précise en janvier 2000: "Les Dictionnaires électroniques ne sont qu’une partie de l’ensemble, et d’autres secteurs documentaires ont trait à l’administration, au droit, à la langue française, etc., sans parler des informations générales. (...) Conçu d’abord comme un service intranet, notre site web se veut en premier lieu au service des traducteurs opérant en Suisse, qui souvent travaillent sur la même matière que les traducteurs de l’Administration fédérale, mais également, par certaines rubriques, au service de n’importe quel autre traducteur où qu’il se trouve. (...) Travailler sans internet est devenu tout simplement impossible. Au-delà de tous les outils et commodités utilisés (messagerie électronique, consultation de la presse électronique, activités de services au profit de la profession des traducteurs), internet reste pour nous une source indispensable et inépuisable d’informations dans ce que j’appellerais le 'secteur non structuré' de la toile. Pour illustrer le propos, lorsqu’aucun site comportant de l’information organisée ne fournit de réponse à un problème de traduction, les moteurs de recherche permettent dans la plupart des cas de retrouver le chaînon manquant quelque part sur le réseau."

Réputé lui aussi pour sa qualité, yourDictionary.com est co-fondé par Robert Beard en 1999, dans le prolongement de son ancien site, A Web of Online Dictionaries, créé dès 1995. Ce portail de référence répertorie plus de 1.800 dictionnaires dans 250 langues différentes, ainsi que de nombreux outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. Soucieux de servir toutes les langues sans exception, yourDictionary.com gère aussi l’Endangered Language Repository, une section importante consacrée aux langues menacées d’extinction.

Publiée par SIL International (SIL: Summer Institute of Linguistics), l’encyclopédie Ethnologue: Languages of the World existe à la fois en version web (gratuite), sur CD-Rom et sur papier (tous deux payants). Barbara Grimes, sa directrice de publication entre 1971 et 2000 (8e-14e éditions), relate en janvier 2000: "Il s’agit d’un catalogue des langues dans le monde, avec des informations sur les endroits où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres termes utilisés pour ces langues, les noms de dialectes, d’autres informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues, un index des familles linguistiques et des cartes géographiques relatives aux langues." Cette encyclopédie répertorie 6.800 langues selon plusieurs critères (pays, nom de la langue, code de la langue attribué par le SIL, famille de langues), avec un moteur de recherche unique.


6.2. Bases textuelles sur le web

Bases textuelles payantes

Des programmes de recherche sur la langue française - principalement son vocabulaire – sont développés par l’INaLF (Institut national de la langue française), puis par l’ATILF (Analyse et traitement informatique de la langue française), qui lui succède en janvier 2001. Traitées par des systèmes informatiques spécifiques, les données lexicales et textuelles portent sur divers registres du français: langue littéraire du 14e au 20e siècle, langue courante écrite et parlée, langue scientifique et technique (terminologies) et régionalismes. L’ATILF gère plusieurs bases textuelles payantes, par exemple Frantext, un corpus à dominante littéraire de textes français allant du 16e au 19e siècle, ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le programme ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, Dictionnaires est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-35, 1992) et enfin le TLFi (Trésor de la langue française informatisé, 1971-1994).

Autre exemple, dû à une initiative individuelle, le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à l'intention des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire d’auteurs. RELINTER (Relations internationales) recense 2.000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.

Interviewé en octobre 2000, Gérard Fourestier relate: "Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but: a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d’établissements). (...)

Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial ui permette de dégager les recettes indispensables; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (...)

Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non 'es-qualité', mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen."

Les recettes générées par Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.

Bases textuelles gratuites

Emilie Devriendt, élève professeure à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001: "L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’'outillage', du travail intellectuel, où internet devrait avoir sa place."

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous? Les outils dont on dispose maintenant pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins quand il existe une véritable volonté dans ce sens.

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve grandement facilitée par TACTweb, un logiciel gratuit pouvant être paramétré pour gérer une base de données sur le web. En mai 2001, il explique: "La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base LexoTor), les oeuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-18e). À la différence de grosses bases comme Frantext ou ARTFL (American and French Research on the Treasury of the French Language) nécessitant l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne."

Autre exemple, pris cette fois dans les sciences humaines, le projet HyperNietzsche est lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS (Centre national de la recherche scientifique). Ce projet expérimental "vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’oeuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots-clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs." Chose peu courante chez les éditeurs français, le texte intégral du: Que sais-je? consacré à la présentation du projet est disponible pendant deux ans en accès libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série: Ecritures électroniques.

L’accès libre au savoir

Problème crucial qui suscite de nombreux débats, l’accès au savoir doit-il être gratuit ou payant? Eduard Hovy, directeur du Natural Language Group de l’USC/ISI (University of Southern California / Information Sciences Institute), donne son sentiment à ce sujet en septembre 2000: "En tant qu’universitaire, je suis bien sûr un des parasites de notre société (remarque à prendre au deuxième degré, ndlr), et donc tout à fait en faveur de l’accès libre à la totalité de l’information. En tant que co-propriétaire d’une petite start-up, je suis conscient du coût représenté par la collecte et le traitement de l’information, et de la nécessité de faire payer ce service d’une manière ou d’une autre. Pour équilibrer ces deux tendances, je pense que l’information à l’état brut et certaines ressources à l’état brut (langages de programmation ou moyens d’accès à l’information de base comme les navigateurs web) doivent être disponibles gratuitement. Ceci crée un marché et permet aux gens de les utiliser. Par contre l’information traitée doit être payante, tout comme les systèmes permettant d’obtenir et de structurer très exactement ce dont on a besoin. Cela permet de financer ceux qui développent ces nouvelles technologies."

En ce qui concerne l’édition spécialisée, à l’heure de l’internet, il paraît assez scandaleux que le résultat des travaux de recherche – travaux originaux et demandant de longues années d’efforts – soit détourné au profit d’éditeurs s’appropriant ce travail et monnayant la diffusion de l’information, sans même une compensation financière pour les auteurs qu’ils publient, ou alors avec une compensation financière ridicule (entre 1 et 3% de droits d’auteur dans certains domaines en France). L'activité des chercheurs est souvent financée par les deniers publics, et de manière substantielle en Amérique du Nord. Il semblerait donc normal que la communauté scientifique et le grand public puissent bénéficier librement du résultat de ces recherches.

C’est ce que pense la Public Library of Science (PLoS), fondée en septembre 2000 par un groupe de chercheurs des universités de Stanford et de Berkeley (Californie) pour contrer les pratiques de l’édition spécialisée. L’association propose de regrouper tous les articles scientifiques et médicaux au sein d’archives en ligne en accès libre. Au lieu d’une information disséminée dans des millions de rapports et des milliers de périodiques en ligne ayant chacun des conditions d’accès différentes, un point d’accès unique permettrait de lire le contenu intégral de ces articles avec moteur de recherche multicritères et système d’hyperliens entre les articles.

Dès sa création, la Public Library of Science fait circuler une lettre ouverte demandant que les articles publiés par les éditeurs spécialisés soient distribués librement dans des services d’archives en ligne, et incitant les signataires de cette lettre à promouvoir les éditeurs prêts à soutenir ce projet. La réponse de la communauté scientifique internationale est remarquable. Au cours des deux années suivantes, la lettre ouverte est signée par plus de 30.000 chercheurs de 180 pays différents. Bien que la réponse des éditeurs soit nettement moins enthousiaste, plusieurs éditeurs donnent également leur accord pour une distribution immédiate des articles publiés par leurs soins, ou alors une distribution dans un délai de six mois.

Un des objectifs de la Public Library of Science est de devenir elle-même éditeur. L’association fonde une maison d’édition scientifique non commerciale qui reçoit en décembre 2002 une subvention de 9 millions de dollars de la part de la Gordon and Betty Moore Foundation. Une équipe éditoriale de haut niveau est constituée début 2003 pour lancer des périodiques de qualité selon un nouveau modèle d’édition en ligne basé sur la diffusion libre du savoir. Les deux premiers titres, PLoS Biology (lancement en octobre 2003) et PLoS Medicine (lancement en 2004) seront suivis d’autres titres couvrant la chimie, l’informatique, la génétique et l’oncologie. Ces périodiques seront également disponibles en version imprimée, cette dernière étant vendue par abonnement au prix coûtant (couvrant les frais de fabrication et de distribution).

La diffusion libre du savoir passe aussi par l’accès aux cours dispensés par les universités et les grands établissements d’enseignement. Interviewé en mai 2001, Christian Vandendorpe, professeur à l’Université d’Ottawa, salue "la décision du MIT (Masachusetts Institute of Technology) de placer tout le contenu de ses cours sur le web d’ici dix ans, en le mettant gratuitement à la disposition de tous. Entre les tendances à la privatisation du savoir et celles du partage et de l’ouverture à tous, je crois en fin de compte que c’est cette dernière qui va l’emporter." Mise en ligne en septembre 2002, la version pilote du MIT OpenCourseWare offre en accès libre le matériel d’enseignement de 32 cours représentatifs des cinq départements du MIT. Les cours (textes, vidéos, travaux pratiques en laboratoire, simulations, etc.) sont régulièrement actualisés. Le lancement officiel du site a lieu en septembre 2003, avec accès à plusieurs centaines de cours. La totalité des 2.000 cours dispensés par le MIT devrait être disponible en septembre 2007. Le MIT espère que cette expérience de publication électronique - la première du genre – permettra de définir un standard et une méthode de publication, et qu’elle incitera d’autres universités à créer des sites semblables pour la mise à disposition gratuite de leurs propres cours.


Chapitre 7: Livres numériques
Table des matières


Vol. 2 (1998-2003)
Vol. 1 & 2 (1993-2003)


© 2003 Marie Lebert