NEF - Le Livre 010101 de Marie Lebert - Articles

Le Projet Gutenberg fête son 5.000e texte électronique

paru dans Edition-actu n° 57, 2 mai 2002

Premier site d'information à être apparu sur l'internet, le Projet Gutenberg débute en juillet 1971 quand Michael Hart, étudiant à l'Université de l'Illinois (Etats-Unis), décide de convertir des oeuvres du domaine public au format électronique pour les mettre gratuitement à la disposition de tous. Les textes électroniques sont au format ASCII, avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus sans problème quels que soient la machine, le système d'exploitation et le logiciel utilisés.

"Nous considérons le texte électronique comme un nouveau médium, sans véritable relation avec le papier, explique Michael Hart. Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne vois pas comment le papier peut concurrencer le texte électronique une fois que les gens y sont habitués, particulièrement dans les établissements d'enseignement. (...) Mon projet est de mettre 10.000 textes électroniques sur l'internet. Si je pouvais avoir des subventions importantes, j'aimerais aller jusqu'à un million et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la population mondiale, ce qui représenterait la diffusion de 1.000 fois un milliard de textes électroniques au lieu d'un milliard seulement. (...) J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible."

Cinquante heures environ sont nécessaires pour scanner, corriger et mettre en page un texte électronique. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est composé de deux fichiers ASCII. Si certains livres anciens sont parfois saisis ligne après ligne, à cause du manque de clarté du texte original, les livres sont en général scannés en utilisant un logiciel OCR (optical character recognition), puis ils sont relus et corrigés à deux reprises, parfois par deux personnes différentes.

Fin 1994 les collections comprennent 100 textes. Le centième texte est l'oeuvre complète de Shakespeare. Fin 1997 les collections atteignent 1.000 textes. Le millième texte est La Divine Comédie de Dante, en italien. Fin 1999 les collections se chiffrent à 2.000 textes. Le 2.000e texte est Don Quichotte de Cervantes, en espagnol. Le 3.000e texte, disponible courant 2000, est le troisième volume de A l'ombre des jeunes filles en fleurs de Proust, en français. Le 4.000e texte, disponible courant 2001, est The French Immortals, version anglaise de la série publiée en 1905 par la Maison Mazarin. Cette série rassemble des fictions d'écrivains couronnés par l'Académie française (Emile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet, etc.). Le 5.000e texte, disponible en avril 2002, est la version anglaise des Carnets de Léonard de Vinci.

Depuis janvier 2002, les collections s'accroissent en moyenne de 100 titres par mois. Elles représentent désormais le quart des oeuvres numérisées appartenant au domaine public, recensées de manière pratiquement exhaustive par l'Internet Public Library (IPL), bibliothèque publique de l'internet sur l'internet. Un beau résultat pour trente ans de travail acharné basé en grande partie sur le volontariat, avec 1.500 volontaires actifs dans le monde entier en 2002. Michael Hart se donne maintenant comme objectif un total de 10.000 textes électroniques à la fin de 2003.


Liste des articles
Page d'accueil du Livre 010101
Page d'accueil du NEF


© 2002 Marie Lebert