NEF - Le Livre 010101 de Marie Lebert - Articles

Cyberbibliothèques. 2. Numérisation en mode texte ou en mode image?

paru dans E-Doc n° 6, 13 juillet 2000

(Des exemples de cyberbibliothèques sont présentés dans l'article précédent.)

La numérisation du document imprimé, c'est-à-dire sa conversion sous une forme chiffrée binaire, peut être effectuée soit en mode texte, soit en mode image. La numérisation en mode texte implique la saisie de l'oeuvre ligne après ligne, ou bien la scannérisation suivie d'une relecture. La numérisation en mode image correspond à la "photographie" du livre page après page. Elle est beaucoup moins coûteuse certes, mais n'offre pas les mêmes avantages au lecteur.

La numérisation en mode texte

Contrairement à la numérisation en mode image, la numérisation en mode texte est longue - et donc nettement plus coûteuse - et la notion de livre ou de page n'est pas conservée, puisque le texte apparaît en continu sur l'écran. Parenthèse qui a son intérêt: on se retrouve en quelque sorte à l'étape précédant la fabrication du livre, à la différence près que le texte apparaissait en continu sur le papier et non sur l'écran (au moins pour les oeuvres antérieures à l'ère informatique). Comme son nom l'indique sans contresens possible, l'intérêt de la numérisation en mode texte est de permettre la recherche textuelle, et donc l'indexation, les recherches séquentielles, les analyses, les comparaisons, etc.

La Bibliothèque électronique de Lisieux a été créée en juin 1996 à l'initiative d'Olivier Bogros, directeur de la bibliothèque municipale. Dès sa création, ce site "pionnier" a suscité beaucoup d'intérêt dans la communauté francophone parce qu'il montrait ce qui était faisable sur le Web avec beaucoup de détermination et des moyens limités. D'abord hébergé sur les pages d'un compte personnel CompuServe, il est depuis juin 1998 installé sur un nouveau serveur où il dispose d'un espace disque plus important et d'un nom de domaine.

Olivier Bogros s'explique sur le choix des textes et la méthode adoptée: "Les oeuvres à diffuser sont choisies à partir d'exemplaires conservés à la bibliothèque municipale de Lisieux ou dans des collections particulières mises à disposition. Les textes sont saisis au clavier et relus par du personnel de la bibliothèque, puis mis en ligne après encodage. La mise à jour est mensuelle (3 à 6 textes nouveaux). Par goût, mais aussi contraints par le mode de production, nous sélectionnons plutôt des textes courts (nouvelles, brochures, tirés à part de revues, articles de journaux...). De même nous laissons à d'autres (bibliothèques ou éditeurs) le soin de mettre en ligne les grands classiques de la littérature française, préférant consacrer le peu de temps et de moyens dont nous disposons à mettre en ligne des textes excentriques et improbables."

Créé par Michael Hart dès 1971 dans le cadre de l'Université de l'Illinois (USA), le Projet Gutenberg est la plus ancienne bibliothèque numérique sur Internet, et la plus importante par le nombre d'oeuvres patiemment numérisées en mode texte par 600 volontaires de nombreux pays. Si certains documents anciens sont parfois saisis ligne après ligne, le plus souvent parce que le texte original manque de clarté, les oeuvres sont en général scannérisées en utilisant un logiciel de reconnaissance optique des caractères (OCR: optical character recognition), puis elles sont relues et corrigées à double reprise, parfois par deux personnes différentes. A ce jour, le Projet Gutenberg permet de télécharger 2.650 oeuvres (chiffre de juin 2000), la plupart étant du domaine public. Les prévisions pour la fin 2001 sont de 3.333 e-texts, à raison de 40 nouveaux textes par mois. Le programme de numérisation est précisément établi - et disponible sur le Web - jusqu'en février 2001.

La numérisation en mode image

La numérisation en mode image correspond à la "photographie" du livre page après page. La notion de livre est conservée, puisque la version informatique est en quelque sorte le fac-similé de la version imprimée et qu'on peut "feuilleter" le texte page après page sur l'écran. C'est la méthode employée pour les numérisations à grande échelle, par exemple pour la plus grande partie du programme de numérisation de la Bibliothèque nationale de France. Les ressources en mode texte (1.241 ouvrages à la date du 5 juillet 2000) proviennent de la base Frantext de l'INaLF (Institut national de la langue française) et d'une coopération avec les éditeurs Acamédia, Bibliopolis et Honoré Champion.

Même si, pour des raisons de coût, la BnF a choisi la numérisation en mode image, elle utilise le mode texte pour les tables des matières et les sommaires, et les légendes des corpus iconographiques, ceci afin de faciliter la recherche plein-texte.

Pourquoi ne pas tout numériser en mode texte? La BnF répond sur le site de Gallica: "Le mode image conserve l'aspect initial de l'original, y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significatice du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ 10 fois supérieurs à la simple numérisation. Ces techniques parfaitement envisageables pour des volumes limités ne pouvaient ici être économiquement justifiables (au vu des 80.000 documents mis en ligne)."

Quels sont les avantages respectifs de la numérisation en mode image et de la numérisation en mode texte? Voici les commentaires de deux spécialistes, Catherine Lupovici et Pierre François Gagnon, recueillis les 4 et 5 juillet 2000 par courriel.

L'avis de Catherine Lupovici, directrice du Département de la bibliothèque numérique de la BnF

ML: Pourquoi - pour l'essentiel de votre programme de numérisation - avoir choisi la numérisation en mode image qui, si elle est d'un coût moindre que la numérisation en mode texte (dix fois moins coûteuse, dites-vous sur votre site), est beaucoup moins pratique pour le lecteur (à ma connaissance, pas de téléchargement des oeuvres possible, pas de recherche textuelle possible, etc.)?

CL: La numérisation en mode image est effectivement un problème d'économie. Le mode fac-similé est aussi la présentation de l'original en terme de mise en page et de typographie et permet à l'utilisateur d'imprimer le résultat comme il aurait pu faire une photocopie à partir de l'original sur place à la bibliothèque. Les documents en mode image sont déchargeables et nous offrons une page de demande de déchargement sur le site qui permet de choisir la page, la séquence de pages ou tout le document à décharger au choix en mode TIFF ou en PDF. Si le fichier est très volumineux et que l'utilisateur a une connexion un peu lente, il peut partitionner l'ouvrage en plusieurs séquences de pages. Des petits fichiers seront également plus faciles à imprimer sur une imprimante ordinaire. Lorsque l'ouvrage a une table des matières, elle est saisie en HTML avec un lien vers l'image de la page. Les tables des matières sont interrogeables directement en mode texte intégral.

ML: On entend parler de recherches en cours pour que la lecture d'un texte en mode image soit également possible en mode texte. Est-ce vraiment le cas? Si oui, où en est-on exactement?

CL: Il existe des outils de traitement de l'image d'un texte pour effectuer la reconnaissance optique des caractères. Ces outils bien qu'assez performants sont satisfaisants sur des textes imprimés récemment. Sur des textes tels que ceux de Gallica, ils donnent un taux de reconnaissance d'une qualité qui ne peut correspondre à une édition. Parmi ces produits on peut citer celui d'Adobe qui est complémentaire du très répandu visualiseur Acrobat et qui permet de voir le résultat en substituant aux mots non reconnus leur image. Tous ces produits ne sont pas gratuits comme l'est le visualiseur Acrobat. De nombreuses équipes de recherche travaillent à régler cette question depuis plus de vingt ans, et nous participons nous-mêmes à des projets de recherche destinés à faire progresser la technique. Cependant les résultats ne permettent pas encore de pouvoir offrir un vrai service pour les 30 millions de pages image que nous avons déjà créées.

L'avis de Pierre François Gagnon, éditeur en ligne

Pierre François Gagnon, éditeur en ligne québécois, se considère comme un des pionniers de l'Internet littéraire francophone. Dès avril 1995, il a créé Editel, le premier site web d'auto-édition collective de langue française, devenu ensuite un site de cyberédition non commerciale, en partenariat avec les auteurs "maison".

ML: Dans votre Lettre littéraire: Qui a peur du livre numérique?, vous semblez assez réticent, en tant qu'utilisateur, sur les services procurés par Gallica. Pouvez-vous nous expliquer pourquoi?

PFG: Pour l'ensemble des collections de Gallica, il nous a été difficile de nous y retrouver rapidement, et même impossible d'accéder à l'intégrale téléchargeable à volonté des ouvrages classiques du domaine public, pourtant libres de droits, je veux dire d'une manière qui soit facile à consulter et à retraiter hors ligne, c'est-à-dire dans un format de traitement de texte grand public (TXT, RTF).

Pour les ouvrages en mode texte (1.241 ouvrages, ndlr), chacun consultable en ligne, tout du long, au lourd format HTM à copier-coller allègrement à même l'écran pour arriver à en faire quelque chose de valable, on aurait gagné à reprendre la philosophie et l'expertise du fameux précurseur bénévole ABU, dont on semble ignorer la mission originale de 1993 qui pourrait enfin atteindre et dépasser ses fabuleux objectifs, indispensables au rayonnement mondial des trésors de la littérature de langue française, compte tenu des fantastiques moyens culturels de l'État français!

ML: Face aux nombreux sites anglophones proposant le téléchargement d'oeuvres numériques en mode texte, vous préconisez la création d'une Bibliothèque internationale de langue française, oeuvre de tous les pays fancophones. Pouvez-vous nous exposer vos vues?

PFG: Il me semble qu'est devenu tout à fait évident et urgent ce fabuleux projet de la numérisation intégrale, en mode texte bien entendu, de nos fonds nationaux respectifs, de tous les livres libres de droits du richissime domaine public, afin d'en garnir les rayonnages virtuels d'un fantastique entrepôt de données, sous la forme du superportail de la Bibliothèque internationale de Langue française, laquelle devrait être la création mutuelle et réciproque de tous les pays francophones, avec le Québec comme tête de pont en Amérique du Nord, et dont l'accès sur le Net devrait être facile et rapide, libre, gratuit et universel, à seule fin de rayonner de tous nos feux dans le monde entier.

***

Une idée à saisir? Une tâche de plus pour l'Agence universitaire de la francophonie (AUF) et/ou l'Organisation internationale de la francophonie (OIF)? L'AUF (connue ausi sous le nom d'Aupelf-Uref) s'attache à renforcer un espace scientifique de langue française animé par ses principaux acteurs : établissements, enseignants, chercheurs et étudiants. L'OIF, qui compte aujourd'hui 51 états membres francophones, se veut "un instrument de coopération multilatérale née d'un idéal, celui de créer une communauté qui fasse entendre sa voix dans le concert des nations".


Liste des articles
Page d'accueil du Livre 010101
Page d'accueil du NEF


© 2000 Marie Lebert