Comment les textes sont-ils faits, comment sont-ils présentés?

L'imprimé et l'électronique

C'est probablement la question la plus importante. On a vite fait le tour de l'identification de l'auteur du site, de son public et du contenu du site; il reste cependant la question de la convivialité du site et, dans le cas de pages littéraires faites avant tout pour la lecture, de la lisibilité du texte.

Ici interviennent dans toute leur force les effets du passage de l'imprimé à l'électronique, du livre papier à l'écran Internet. Plusieurs siècles de métier typographique et d'habitudes de lecture livresque (cf. Alberto Manguel, A History of Reading, Viking, 1996 = Une histoire de la lecture, Actes Sud, 1998) cèdent tout d'un coup à la possibilité qu'a le simple amateur de publier et de diffuser lui-même des documents de toutes sortes, dont des oeuvres littéraires, et cela sans aucune formation préalable nécessaire sauf celle de créer une page html et de la (faire) télécharger sur un site web.

Avec les progrès techniques, il devient possible maintenant de commencer à parler du plaisir de lire sur écran. Si on publie en ligne un conte de Maupassant, qui se lit en quelques minutes, c'est autant pour que le public le lise que pour qu'il le copie sur disque dur ou l'imprime (et pourquoi l'imprimer quand un livre est bien plus agréable à manier?).

Lecture et consultation

Avant de pousser plus loin l'examen de la lisibilité du texte sur écran, il convient de noter que non seulement le texte électronique se lit, comme le texte imprimé, mais il se consulte aussi. Assis dans le métro en train de lire Candide en livre de poche, je rencontre dans le chapitre 27 Don Fernando d'Ibaraa, y Figueora, y Mascarenes, y Lampourdos, y Souza, gouverneur de Buenos-Ayres. J'ai vaguement souvenir de l'avoir rencontré déjà, mais pour en situer l'occasion je n'ai pas d'autre choix que de parcourir les 26 chapitres précédents. Assis devant mon ordinateur, je m'adresse à l'Assocation des Bibliophiles Universels et en quelques secondes, grâce à la fonction "Trouver/Find", j'ai retrouvé Don Fernando (etc.) dans le chapitre 13. FreBase me confirme qu'il y a trois occurrences de "fernando" dans Candide: Ces deux sites, ABU et FreBase, sont tous les deux, chacun à sa façon, conscients du double fonctionnement du texte électronique. Si la plupart des autres sites permettent la recherche d'occurrences au moyen de la fonction "Trouver/Find" du navigateur web, seul ABU pratique la présentation double texte-lecture et texte-consultation (voir ci-dessous); FreBase prévoit la consultation sous forme de base interactive.

La lisibilité

La lisibilité est examinée ici du point de vue des aspects "typographiques" du texte. Sont donnés d'abord des échantillons d'affichages "figés" tirés des différents sites: "figés" dans le sens que nous avons fait des captures d'écran à partir d'une fenêtre Netscape à largeur constante (± 24 cm.), avec comme paramètres de défaut la police Times New Roman 11 pts et une définition d'écran de 1024 x 768 pixels (écran de 19 po.).

Pour ABU (site n° 1), les deux échantillons illustrent, pour l'un, le texte en mode lecture et, pour l'autre, le texte en mode consultation (mode prévu également pour la copie). Pour FreBase "6 contes" (site n° 9a), les deux échantillons illustrent, pour l'un, le texte en mode lecture = transcription html et, pour l'autre, le texte en mode lecture = image de l'original. L'échantillonnage double des sites Approches (n° 2) et ClicNet (n° 6) correspond à des différences de présentation non fonctionnelles. Les deux échantillons de Gallica (site n° 11) sont l'un en mode image (fichiers pdf/tiff), lequel exemplifie l'intérêt de la prise en compte des illustrations (la gravure montrée dans l'échantillon incorpore la première lettre du texte), l'autre en mode html (les deux textes provenant de la société Bibliopolis sont offerts dans ce format); à part les textes de Bibliopolis, tous les textes maupassentiens de Gallica sont en mode image.

Nous mettons sur une page à part des échantillons de résultats provenant de requêtes d'occurrences dans les bases ARTFL (site n° 3), FreBase (site n° 9) et Selva (site n° 12), puisqu'il s'agit de regroupements de contextes et de distributions et non d'affichages de texte suivi. Les affichages de résultats de requêtes sont évidemment de nature tout à fait différente de ce qui est comparé ci-dessous sur la présente page.

Enfin, la Foire aux textes (site n° 8) n'offre rien qui puisse nous intéresser ici puisque ses transcriptions ne sont qu'en format non-web.

Après les échantillons, nous passons à l'examen des polices de caractères, de la largeur du texte, de la couleur et de l'utilisation de cadres.

Échantillons: 1. ABU2. Approches4. Athena5. BE Lisieux6. ClicNet7. Eldritch9. FreBase10. French Online11. Gallica12. Selva13. "Pléiade"14. Cau15. Contes et Poèmes

1a. ABU en mode lecture

1b. ABU en mode consultation/copie


2. Approches
(a)

(b)


4. Athena


5. BE Lisieux


6. ClicNet
(a)

(b)


7. Eldritch


9a. FreBase 6 contes: mode lecture html (transcription)

9b. FreBase 6 contes: mode lecture image (original)


10. French Online


11. Gallica: Clair de lune: mode image

11. Gallica: La parure: mode html


12. Selva


13. "Pléiade"


14. Cau


15. Contes et poèmes

Polices

Depuis l'invention au XVIe siècle du romain à sérif par Alde Manuce et Claude Garamont et sa diffusion en France par Robert Estienne, on s'est habitué à lire dans ce caractère. Aussi de nos jours le Times New Roman s'est imposé et on contrevient à cette norme à ses risques et périls. Lire Maupassant en Arial, cela devrait toujours être le choix du lecteur, jamais l'imposition de l'éditeur. Et cependant...

Approches (site n° 2) ne dicte pas la police de caractères pour "Le vagabond" et "Berthe", mais pour "La folle" le fichier html précise <font face="Arial">. De même, ClicNet (site n° 6) impose pour certains de ses textes <FONT FACE="Genava,verdana,geneva,arial" SIZE=2>. Sous un navigateur dont la police de défaut est le Times New Roman, cela donne les résultats que l'on peut voir ci-dessus.

Normalement le gras est réservé à la mise en relief. Mettre en relief un conte entier ne peut qu'agacer. C'est ce que fait pourtant Approches pour "La folle" (voir ci-dessus).

Largeur du texte

Le livre imprimé soigne le lecteur en lui présentant un texte découpé en morceaux maîtrisables par l'oeil: la page, dont le contenu est arbitraire mais dont les dimensions favorisent le repérage des mots et ainsi la lecture du texte. En revanche, le livre électronique est à la merci des dimensions de l'écran – elles croissent sans cesse – et à la gestion de celui-ci par l'utilisateur, aussi bien que des pratiques de l'auteur de la page html. Quatre sur les 13 sites maupassantiens du présent examen sont conscients de ce type de problème de lecture. Conséquences possibles de la création d'un texte en html à partir d'un fichier en traitement de texte. Prenons un logiciel de traitement de texte tel que Wort ("world's only readily-available text-processor"). Une conversion Wort -> html donne, entre autres, les deux résultats suivants: Les conséquences de ces deux facteurs peuvent être – selon la largeur de l'affichage du texte (définie essentiellement chez l'utilisateur par les dimensions de son écran, la définition en pixels de l'affichage de celui-ci et la taille de la police de caractères de défaut de son navigateur web) – plutôt désagréables pour le lecteur: La correction de l'espacement mou en espacement dur n'est en principe qu'une affaire d'amélioration de l'outil de conversion. La justification de la marge droite, elle, n'a aucune raison d'être dans le livre en format html: d'une part, la césure typographique automatique ou semi-automatique (que l'on a en traitement de texte) n'existe pas, et d'autre part la largeur de la page, c'est-à-dire de la ligne de texte, n'est plus déterminée par un "compositeur"; elle varie selon des paramètres définis en majeure partie par le lecteur.

Couleurs

Tout comme le lecteur est habitué au caractère romain, il a derrière lui plus d'un demi-millénaire de texte noir sur fond blanc. Même si des études modernes montrent que telle ou telle couleur est meilleure pour le texte et que telle ou telle autre est meilleure pour le fond (les spécialistes de la question ne sont pas toujours d'accord sur le choix de la couleur meilleure), les couleurs de défaut des textes littéraires électroniques offerts en lecture devraient être noir sur blanc. Le lecteur lui peut toujours leur substituer ses couleurs préférées (sous Netscape: "Edit" -> "Preferences" -> "Colors"). Les couleurs de défaut des sites maupassantiens sont noir sur blanc, sauf:

Cadres ("frames")

Les sites qui font un usage des cadres manquent généralement de convivialité en ce que l'utilisateur est dans l'impossibilité de faire des signets particuliers, l'adresse unique (URL) étant celle de la page de départ. Pèchent ainsi les sites "Pléiade" (n° 13) et Cau (n° 14). En revanche, Gallica (n° 11), qui utilise des cadres pour les deux textes qui sont offerts en mode html, affiche une adresse unique pour chacun des deux. Il convient de noter une autre différence importante : alors qu'un des deux cadres du site n° 13 n'a de valeur qu'esthétique, les deux cadres des sites n° 11 et 14 sont fonctionnels, celui de gauche contenant un menu permettant de passer facilement d'un texte à l'autre (mais cf. ci-dessus, au sujet de la couleur)

Un dernier point capital, qui différencie cette fois-ci les sites n° 11 et 14, est que les cadres de Gallica ne sont pas seulement utiles (comme ceux de Cau), mais aussi indispensables, puisque l'intégralité du volume est affichée dans le cadre de droite (ce qui en même temps en facilite la copie sur disque dur) et que l'index du cadre gauche permet d'aller directement à un conte (ou à un chapitre, etc., selon la nature du texte) donné.

Provenance des textes

Types de saisie

Les deux méthodes couramment utilisées pour capter un texte sous forme électronique sont la saisie manuelle et la saisie optique. Les fautes pouvant se produire dans l'application de la première méthode sont celles de toute transcription faite par l'être humain; elles sont de nature très variée et sont souvent difficiles à dépister. Celles qui résultent d'une saisie mécanique sont le plus souvent dues à des confusions formelles; elles se révèlent très vite à l'oeil humain dans une liste alphabétique de mots-formes textuels. Ainsi, selon toute vraisemblance, le texte "Le père" du site ClicNet (n° 6) aurait été saisi par lecteur optique. Une recherche d'occurrences du mot "instruction" ne trouve rien dans le premier paragraphe de ce texte, puisque la première lettre de la séquence qui se trouve entre "l'" et "publique" est un L minuscule, cette lettre ressemblant formellement à un I majuscule:

Le plagiat

Athena (site n° 4) offre, à l'adresse http://un2sg4.unige.ch/athena/perroud/plagiary/plagiary.html, un volet très intéressant consacré au plagiat de textes électroniques, comprenant plusieurs pages démontrant le vol de textes saisis et mis en ligne par Athena et reproduits, avec changement de copyright, par d'autres sites dont un de la présente liste de sites maupassantiens!

[Table]