NEF - Le Livre 010101 de Marie Lebert - Articles

La lecture des pages Web dans différentes langues

paru dans E-Doc n° 17, 5 octobre 2000

Un Internet multilingue n'est pas sans poser problème. Quand j'utilisais Hotmail à la fin de 1997, il ne supportait pas les caractères avec accents. A l'arrivée des messages, ceux-ci se retrouvaient traduits par une kyrielle de signes typographiques rendant le texte du message parfaitement incompréhensible. Comme beaucoup de francophones, j'avais pris l'habitude d'écrire mes messages sans accents - et même de me relire afin de supprimer tout accent malencontreux! - afin que ma prose arrive à peu près indemne et n'exige pas du destinataire un effort intellectuel supplémentaire. Tout le monde n'aime pas les devinettes et autres jeux de mots. Quant aux messages reçus à mon adresse CompuServe, jusqu'à une date très récente, lorsque l'expéditeur incluait des caractères accentués dans l'objet de son message (seulement pour l'objet, pour le texte tout va bien), ce titre ressemblait à un rébus.

Moins de hiéroglyphes

Suite à l'augmentation du nombre d'utilisateurs non anglophones (dont les francophones) et aux demandes répétées de ceux-ci, de nombreux systèmes d'encodage de caractères ont été créés pour répondre à la demande de localisation, la localisation étant l'adaptation d'un produit à un pays ou à une communauté linguistique donnée. Les grosses sociétés se sont lancées dans la course à l'obtention de marchés mondiaux pour la traduction des logiciels en plusieurs langues et la localisation des sites Web. Inutile de préciser que ces sociétés sont plus sensibles au développement du commerce électronique qu'à celui d'échanges multilingues à vocation culturelle, si bien qu'un gros effort reste à faire à destination des communautés linguistiques ne représentant pas une clientèle suffisamment intéressante pour le e-commerce.

Dans le cas de systèmes d'écriture non alphabétiques (chinois, japonais, coréen, etc.), à moins d'installer le bon logiciel, parfois difficile à trouver s'il ne s'agit pas d'une langue majeure, on se heurte toujours à des pages remplies de hiéroglyphes parfaitement incompréhensibles dans quelque langue que ce soit. Si la situation s'est sensiblement améliorée depuis l'apparition de l'Unicode en 1998, il reste à davantage l'utiliser. A quand la disparition totale des hiéroglyphes?

De l'ASCII à l'Unicode

Connu aussi sous le nom de "Logos Home Page" ou "Kotoba Home Page", le site "The Languages of the World by Computers and the Internet" (Les langues du monde par ordinateur et Internet) donne, pour chaque langue, son système d'écriture, son jeu de caractères et la configuration du clavier pour l'utilisation de programmes informatiques et d'Internet.

"Ma langue maternelle est le japonais", explique Yoshi Mikami, créateur du site. "Comme j'ai suivi mes études de troisième cycle aux Etats-Unis et que j'ai travaillé dans l'informatique, je suis devenu bilingue japonais/anglais américain. J'ai toujours été intéressé par différentes langues et cultures, aussi j'ai appris le russe, le français et le chinois dans la foulée. A la fin de 1995, j'ai créé sur le Web 'The Languages of the World by Computers and the Internet' et j'ai tenté de donner - en anglais et en japonais - un bref historique de toutes ces langues, ainsi que les caractéristiques propres à chaque langue et à sa phonétique. Suite à l'expérience acquise, j'ai invité mes deux associés (Kenji Sekine et Nobutoshi Kohara, ndlr) à écrire un livre sur la conception, la création et la présentation de pages Web multilingues, livre qui fut publié en août 1997 pour l'édition japonaise, le premier livre au monde sur un tel sujet."

L'ouvrage a depuis été traduit en anglais, en allemand et en français. La version française, "Pour un Web multilingue", a été publiée à Paris par les éditions O'Reilly (ISBN 2-84177-055-9).

Le problème posé par de multiples systèmes d'écriture ne concerne pas seulement le Web, mais toutes les applications informatiques.

A l'origine, les ordinateurs ne pouvaient "lire" que des systèmes d'écriture pouvant être traduits en ASCII, l'ASCII (American standard code for information interchange) étant un standard minimal de 128 caractères alphanumériques utilisé pour les échanges d'information. Binaire, le code ASCII de chaque lettre est composé de sept octets (A=1000001, B=1000010, etc.). L'ASCII permet uniquement la lecture de l'anglais, à savoir 26 lettres sans accent, auxquelles s'ajoutent les signes de ponctuation, les symboles techniques, etc. Ce système de codage ne peut pas reconnaître les lettres avec accents, présentes dans bon nombre de langues européennes, et à plus forte raison les systèmes non alphabétiques (chinois, japonais, coréen, etc.).

Les alphabets européens ont ensuite été représentés par des versions étendues de l'ASCII codées non plus sur sept mais sur huit octets, afin de prendre en compte les caractères accentués. L'extension pour le français est la norme ISO-Latin-1. Le passage de l'ASCII à l'ASCII étendu est vite devenu un véritable casse-tête, y compris au sein de l'Union européenne, les problèmes étant entre autres la multiplication des systèmes d'encodage pour un ordinateur ou un serveur, la corruption des données dans les étapes transitoires, l'incompatibilité des systèmes entre eux, les pages ne pouvant être affichées que dans une seule langue à la fois, etc.

Ces problèmes sont en voie d'être simplifiés sinon résolus avec l'Unicode, apparu en 1998. Ce système de codage traduit chaque caractère en 16 octets, lisible quels que soient la plate-forme, le logiciel et la langue utilisés. Alors que l'Ascii étendu à 8 octets pouvait prendre en compte un maximum de 256 caractères, l'Unicode peut prendre en compte plus de 65.000 caractères uniques, et donc traiter informatiquement tous les systèmes d'écriture de la planète. Il permet aussi la transmission de caractères par des logiciels de diverses provenances.

Peu après la création de l'Unicode, Caoimhín P. Ó Donnaíle, créateur du site "European Minority Languages", écrivait: "La norme Unicode (ISO 10646) pour les jeux de caractères est très importante et elle va grandement favoriser le multilinguisme sur le Web."

De son côté, Brian King, directeur du WorldWide Language Institute, précisait: "Les instruments sont maintenant plus ou moins en place. Ils ne sont pas encore parfaits, mais on peut désormais naviguer sur le Web en utilisant le chinois, le japonais, le coréen, et de nombreuses autres langues qui n'utilisent pas l'alphabet occidental. Comme Internet s'étend à des parties du monde où l'anglais est très peu utilisé, par exemple la Chine, il est naturel que ce soit le chinois et non l'anglais qui soit utilisé. La majorité des usagers en Chine n'a pas d'autre choix que sa langue maternelle."

Il insistait aussi sur l'idée de démocratie linguistique: "Dans un rapport de l'Unesco du début des années 50, l'enseignement dispensé dans sa langue maternelle était considéré comme un droit fondamental de l'enfant. La possibilité de naviguer sur Internet dans sa langue maternelle pourrait bien être son équivalent à l'Age de l'information. Si Internet doit vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient y avoir accès sans problème de langue. Le considérer comme la chasse gardée de ceux qui, par accident historique, nécessité pratique ou privilège politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne connaissent pas cette langue."

Comme expliqué sur le site Web du Consortium Unicode, organisation à but non lucratif ayant pour mission de promouvoir son utilisation, "Unicode a été choisi par les pionniers technologiques tels que Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys et beaucoup d'autres. Unicode est requis par de nombreux standards récents tels que XML, Java, ECMAScript (JavaScript), LDAP, Corba 3.0, WML, etc. Le développement d'Unicode est synchronisé avec celui du standard ISO/IEC 10646, la version 3.0 d'Unicode est identique code pour code avec ISO/IEC 10646:2000 mais contient de nombreux éléments supplémentaires d'implémentation. Unicode est utilisé dans de nombreux systèmes d'exploitation, tous les navigateurs récents, et de nombreux autres produits."


Liste des articles
Page d'accueil du Livre 010101
Page d'accueil du NEF


© 2000 Marie Lebert