NEF - Le Livre 010101 de Marie Lebert - Le multilinguisme sur le Web

Le multilinguisme sur le Web (1999)
4. Traduction

4.1. Services de traduction
4.2. Traduction automatique
4.3. Traduction assistée par ordinateur


4.1. Services de traduction

Créé par Vorontsoff, Wesseling & Partners (Amsterdam, Pays-Bas), Aquarius est un répertoire de traducteurs et interprètes incluant 6.100 traducteurs, 800 sociétés de traduction, 91 domaines d'expertise et 369 combinaisons de langues. Ce site non commercial permet de localiser et de contacter les meilleurs traducteurs directement, sans intermédiaire ni agence. La recherche est possible par lieu, combinaison de langues et spécialité.

Fondé by Bill Dunlap, Euro-Marketing Associates propose Global Reach, une méthode permettant aux sociétés d'étendre leur présence sur Internet dans un contexte international, ce qui comprend la traduction de leur site web dans d'autres langues, le promotion de ce site et l'utilisation de bandeaux publicitaires nationaux pour augmenter la consultation locale. Bill Dunlap précise:

"Promouvoir votre site est aussi important que de le créer, sinon plus. Vous devez être préparé à utiliser au moins autant de temps et d'argent à promouvoir votre site que vous en avez passé à l'origine à le créer. Le programme Global Reach vous permettra de promouvoir votre site dans des pays non anglophones, afin d'atteindre une clientèle plus large... et davantage de ventes. Il existe de nombreuses bonnes raisons pour considérer sérieusement le marché international. Global Reach est pour vous le moyen d'étendre votre site web à de nombreux pays, de le présenter à des visiteurs en ligne dans leur propre langue, et d'atteindre les marchés en ligne de ces pays."

Dans son courrier électronique du 11 décembre 1998, il expliquait aussi comment il en était venu à intégrer Internet dans sa vie professionnelle:

"Depuis 1981, début de ma vie professionnelle, j'ai été impliqué dans la venue de sociétés américaines en Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations commerciales doivent être disponibles dans les langues européennes pour être prises en compte ici, en Europe. Comme le Web est devenu populaire en 1995, j'ai donné à ces activités une dimension 'en ligne', et j'en suis venu à promouvoir le cybercommerce européen auprès de mes compatriotes américains. Récemment, lors de l'Internet World à New York, j'ai parlé du cybercommerce européen et de la manière d'utiliser un site web pour toucher les différents marchés d'Europe."


4.2. Traduction automatique

La traduction automatique (TA) analyse le texte dans la langue-source et génère automatiquement le texte correspondant dans la langue-cible. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur, qui exige une certaine interaction entre l'homme et la machine.

SYSTRAN, société spécialisée dans les logiciels de traduction, explique sur son site web:

"Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue-source (texte à traduire) vers la langue-cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain."

La European Association for Machine Translation (EAMT) (Association européenne pour la traduction automatique) donne la définition suivante:

"La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles."

Voici l'historique donné sur le site de Globalink, société spécialisée dans les logiciels et services de traduction :

"Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle ont progressé de pair avec l'évolution de l'informatique quantitative. Le développement des premiers ordinateurs programmables pendant la Seconde guerre mondiale a été mené et accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procura une base de travail au secteur émergent de la théorie de l'information.

Pendant les années 50, la recherche sur la traduction automatique prit forme dans le sens de traduction littérale, ou traduction mot à mot, sans utiliser de règles linguistiques.

Le projet russe débuté à l'Université de Georgetown au début des années 50 représentait la première tentative systématique pour créer un système de traduction automatique utilisable.Tout au long des années 50 et au début des années 60, un certain nombre de recherches universitaires et recherches financées par les gouvernements furent menées aux Etats-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminaient en 1965 avec la publication de Aspects of the Theory and Syntax (Aspects de la théorie et de la syntaxe) de Noam Chomsky, et transformaient radicalement la structure permettant de discuter et comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.

En 1966, le rapport ALPAC du gouvernement des Etats-Unis faisait une estimation prématurément négative de la valeur et des perspectives des systèmes d'application pratique de la traduction automatique, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. Ce fut seulement à la fin des années 70, avec le développement de la technologie de l'informatique et des langues, que des tentatives sérieuses furent à nouveau entreprises. Cette période d'intérêt renouvelé vit aussi le développement du modèle de transfert de la traduction automatique et l'émergence des premiers systèmes commerciaux de traduction automatique.

Des entreprises commerciales comme SYSTRAN et METAL commençaient à prouver que la traduction automatique était viable et utile. Parallèlement à la mise sur le marché de produits et services de traduction automatique, ces systèmes liés à un processeur central mettaient aussi en lumière de nombreux problèmes. Des coûts élevés de développement, une lexicographie émanant d'un travail intensif et son implémentation linguistique, le lent développement de nouvelles combinaisons de langues, l'inaccessibilité pour l'utilisateur moyen et l'incapacité d'accéder aisément à de nouveaux stades de développement sont les caractéristiques de ces systèmes de la seconde génération."

Un certain nombre de sociétés sont spécialisées dans le développement de la traduction automatique, par exemple Lernout & Hauspie, Globalink, Logos ou SYSTRAN.

Basé à Ypres (Belgique) et Burlington (Massachussets, USA), Lernout & Hauspie (L&H), leader international dans ce domaine, développe une technologie avancée du langage dans diverses applications et produits commerciaux. La société offre quatre technologies de base: la reconnaissance automatique de la langue, la compression numérique de la parole, le passage du texte à la parole et le passage du texte au texte. Les produits émanant des trois premières technologies sont vendus aux grandes sociétés des industries suivantes: télécommunications, informatique, multimédias, électronique grand public et électronique automotrice. Les services de traduction (passage du texte au texte) sont à destination des sociétés de technologie de l'information, des marchés verticaux et des marchés d'automatisation.

Le Machine Translation Group (Groupe de traduction automatique) de Lernout & Hauspie comprend des entreprises qui développent, produisent et vendent des systèmes de traduction automatique hautement sophistiqués: L&H Language Technology, AppTek, AILogic, NeocorTech et Globalink. Chaque entreprise est un leader international dans sa propre partie.

Fondé en 1990, Globalink est une société américaine spécialisée dans les logiciels et services de traduction. Elle offre des solutions sur mesure à partir d'une gamme de logiciels, options en ligne et services de traduction professionnelle. La société diffuse ses logiciels de traduction en allemand, anglais, espagnol, français, italien et portugais, et propose des solutions aux problèmes de traduction à tous niveaux: particuliers, petites sociétés, multinationales et gouvernements, que ce soit pour un produit individuel donnant une traduction préliminaire rapide ou un système complet permettant de gérer des traductions de documents professionnels.

Le site web donne les informations suivantes:

"Avec les logiciels d'application de Globalink, l'ordinateur utilise trois ensembles de données : le texte à traiter, le programme de traduction et un dictionnaire de mots et d'expressions dans la langue-source, ainsi que des informations sur les concepts évoqués par le dictionnaire et les règles applicables à la phrase: règles de syntaxe et de grammaire, y compris des algorithmes gouvernant la conjugaison des verbes, l'adaptation de la syntaxe, les accords de genre et de nombre et la mise en ordre des mots.

Une fois que l'utilisateur a sélectionné le texte et lancé le processus de traduction, le programme commence à comparer les mots du texte à traiter avec ceux qui sont stockés dans le dictionnaire. Une fois l'adéquation trouvée, l'application prépare une notice complète qui inclut des informations sur les significations possibles du mot et, d'après le contexte, ses relations avec les autres mots dans la même phrase. Le temps requis pour la traduction dépend de la longueur du texte. Un document de trois pages et 750 mots demande un traitement de trois minutes environ pour une première traduction."

Randy Hobler est directeur de marketing pour les produits et services Internet de Globalink. Dans son courrier électronique du 3 septembre 1998, il écrivait:

"En 1998, 85 % du contenu du Web est en anglais, et ce chiffre est à la baisse. Il y a non seulement plus de sites web et d'internautes non anglophones, mais aussi une localisation plus grande de sites de sociétés et d'organismes, et un usage accru de la traduction automatique pour traduire des sites web à partir ou vers d'autres langues.

Comme Internet n'a pas de frontières nationales, les internautes s'organisent selon d'autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j'appelle les 'nations des langues', tous ces internautes où qu'ils soient qu'on peut regrouper selon leur langue maternelle. Ainsi la nation de la langue espagnole inclut non seulement les internautes d'Espagne et d'Amérique latine, mais aussi tous les hispanophones vivant aux Etats-Unis, ou encore ceux qui parlent espagnol au Maroc.

Concernant la transparence de la langue, nous arrivons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plate-formes ou même des puces. A ce point, quand le développement d'Internet aura atteint sa vitesse de croisière, que la fidélité de la traduction atteindra plus de 98% et que les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue (toute communication d'une langue à une autre) sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la 'transparence transculturelle et transnationale' dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des sociétés. La lettre O réalisée avec le pouce et l'index signifie 'OK' aux Etats-Unis alors qu'en Argentine c'est un geste obscène.

Quand se produira l'inévitable développement de la vidéoconférence multilingue multimédias, il sera nécessaire de corriger visuellement les gestes. Le Media Lab du MIT [MIT: Massachussets Institute of Technology], Microsoft et bien d'autres travaillent à la reconnaissance informatique des expressions faciales, l'identification des caractéristiques biométriques par le biais du visage, etc. Il ne servira à rien à un homme d'affaires américain de faire une excellente présentation à un Argentin lors d'une vidéoconférence multilingue sur le Web, avec son discours traduit dans un espagnol argentin parfait, s'il fait en même temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter ces types de messages et les corriger visuellement.

Les cultures diffèrent de milliers de façons, et la plupart d'entre elles peuvent être modifiées par voie informatique lorsqu'on passe de l'une à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesures anglophone, etc., etc. Les sociétés dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ceux-ci seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale."

Basée aux Etats-Unis, au Canada et en Europe, Logos est une société internationale spécialisée dans la traduction automatique depuis 25 ans. Elle procure différents outils de traduction, des systèmes de traduction automatique et des services de soutien.

SYSTRAN (acronyme de System Translation) est également une société spécialisée dans les logiciels de traduction automatique. Son siège est situé à Soisy-sous-Montmorency (France). C'est sa succursale, située à La Jolla (Californie), qui assure les ventes, le marketing et le développement des logiciels. Une des réalisations de la société est AltaVista Translation, un service de traduction automatique de pages web de l'anglais vers les langues suivantes : allemand, français, espagnol, italien et portugais, et vice versa. Ce service a été mis en place en décembre 1997 à la demande d'AltaVista, moteur de recherche utilisé par douze millions d'internautes, suite au problème des langues devenu sensible sur Internet.

Basée à Montréal (Québec), Alis Technologies développe et commercialise des solutions et services de traitement linguistique au moyen de logiciels, périphériques et solutions de traduction qui transforment des systèmes informatiques unilingues en outils multilingues.

Une autre réalisation intéressante est SPANAM/ENGSPAN, un système de traduction automatique développé par les linguistes computationnels, les traducteurs et le programmeur systèmes de l'Organisation panaméricaine de la santé (PAHO) (Bureau régional de l'Organisation mondiale de la santé pour les Amériques, situé à Washington, D.C., USA). Depuis 1980, le service de traduction utilise SPANAM (de l'espagnol vers l'anglais) et ENGSPAN (de l'anglais vers l'espagnol), ce qui lui a permis de traiter plus de 25 millions de mots dans les deux langues de travail de la PAHO. Le personnel et les traducteurs extérieurs post-éditent ensuite l'information brute avec un gain de productivité de 30 à 50%. Le système est installé sur le réseau local du siège de l'organisation et dans un certain nombre de bureaux régionaux pour pouvoir être utilisé par le personnel des services techniques et administratifs. Il est également diffusé auprès d'organismes publics et d'organismes à but non lucratif aux Etats-Unis, en Amérique latine et en Espagne.

Des associations contribuent au développement de la traduction automatique.

L'Association for Computational Linguistics (ACL) (Association pour la linguistique computationnelle) est le principal organisme international à la fois scientifique et professionnel rassemblant ceux qui travaillent sur les problèmes de la langue naturelle et de la computation. Publiée par la MIT Press, la revue trimestrielle de l'ACL, Computational Linguistics (ISSN 0891-2017) est un forum de premier plan dans le domaine de la linguistique computationnelle et du traitement de la langue naturelle. Cette revue est complétée par la lettre d'information The Finite String. La branche européenne de l'ACL est l'European Chapter of the Association of Computational Linguistics (EACL).

L'International Association for Machine Translation (IAMT) (Association internationale pour la traduction automatique) regroupe trois associations couvrant les Amériques, l'Europe et l'Asie/Pacifique: l'Association for Machine Translation in the Americas (AMTA), la European Association for Machine Translation (EAMT) et l'Asia-Pacific Association for Machine Translation (AAMT).

L'Association for Machine Translation in the Americas (AMTA) (Association pour la traduction automatique dans les Amériques) est à la disposition de tous ceux s'intéressent à la traduction automatique en Amérique latine, au Canada et aux Etats-Unis. Ses membres comprennent des demandeurs de traductions, des développeurs de systèmes commerciaux, des chercheurs, des sponsors et des personnes impliquées dans la science de la traduction automatique et sa diffusion.

Basée à Genève (Suisse), l'European Association for Machine Translation (EAMT) (Association européenne pour la traduction automatique) est également une organisation à la disposition de ceux qui s'intéressent à la traduction automatique et aux outils de traduction, y compris les utilisateurs de ces techniques, les développeurs et les chercheurs.

Créée en 1991, la Japan Association for Machine Translation, devenue ensuite l'Asia-Pacific Association for Machine Translation (AAMT) (Association de l'Asie et du Pacifique pour la traduction automatique), comprend des chercheurs, des fabricants et des utilisateurs de systèmes de traduction automatique. L'association participe au développement des technologies de traduction automatique, ainsi qu'à leur amélioration, leur enseignement et leur diffusion.

Dans Web embraces language translation (La traduction des langues sur le Web), un article de ZDNN (ZD Network News) paru le 21 juillet 1998, Martha L. Stone expliquait:

"Parmi les nouveaux produits d'un secteur de traduction représentant 10 milliards de dollars [60 milliards de FF], on trouve les traducteurs instantanés de sites web, de groupes de discussion, de courrier électronique et d'intranets d'entreprise.

Les principales sociétés de traduction se mobilisent pour saisir les opportunités du marché. Voici quelques exemples.

SYSTRAN s'est associé avec AltaVista pour produire babelfish.altavista.digital.com, avec 500 à 600 mille visiteurs quotidiens et environ un million de traductions par jour, traductions qui vont des recettes à des pages web complètes.

15.000 sites environ ont un lien vers babelfish, qui peut traduire [de l'anglais] vers le français, l'italien, l'allemand, l'espagnol et le portugais, et vice versa. Le japonais est prévu pour bientôt.

"Cette popularité est simple. Avec Internet, on peut maintenant utiliser l'information provenant des Etats-Unis. Tout ceci contribue à une demande en hausse", déclare de chez lui à Paris Dimitros Sabatakakis, directeur général de SYSTRAN.

Alis a mis au point le système de traduction du Los Angeles Times qui doit bientôt être lancé sur le site et qui proposera des traductions [de l'anglais] vers l'espagnol et le français, et plus tard le japonais. D'un clic de souris, une page web complète peut être traduite dans la langue désirée.

Globalink propose des logiciels, des systèmes de traduction de pages web, un service de messagerie électronique gratuit et des logiciels permettant de traduire le texte des groupes de discussion.

Cependant, alors que ces systèmes de traduction automatique deviennent populaires dans le monde entier, les directeurs des sociétés qui les développent admettent qu'ils ne peuvent répondre à toutes les situations.

Les porte-parole de Globalink, Alis et SYSTRAN utilisent des expressions comme "pas parfait" et "approximatif" quand ils décrivent la qualité des traductions, et précisent bien que les phrases soumises à la traduction doivent être simples, grammaticalement correctes et sans tournures idiomatiques.

"Les progrès réalisés en traduction automatique répondent à la loi de Moore: la qualité double tous les dix-huit mois, déclare Vin Crosbie, un analyste de l'industrie du Web basé à Greenwich, dans le Connecticut [USA]. "Ce n'est pas parfait, mais certains de mes correspondants ne se rendent même pas compte que j'utilise un logiciel de traduction."

Ces traductions font souffrir la syntaxe et l'utilisation des mots à bon escient, parce que les bases de données-dictionnaires ne peuvent déchiffrer la différence entre les homonymes [...].

"La traduction humaine coûterait entre 50 et 60 dollars [300 à 360 FF] par page web, ou environ 20 cents [1,15 FF] par mot", explique Sabatakis, directeur de SYSTRAN.

Alors que cette dernière solution peut convenir pour les pages 'statiques' d'information sur l'entreprise, la traduction automatique, elle, est gratuite sur le Web, et le logiciel coûte souvent moins de 100 dollars [600 FF], selon le nombre de langues disponibles pour traduction et les caractéristiques propres au logiciel."


4.3. Traduction assistée par ordinateur

Contrairemant à la traduction automatique (TA) qui, sans intervention humaine, analyse le texte dans la langue-source et génère automatiquement le texte correspondant dans la langue-cible, la traduction assistée par ordinateur (TAO) exige une certaine interaction entre l'homme et la machine.

Le Bureau des services linguistiques de l'Organisation mondiale de la santé (OMS) (Genève, Suisse) travaille dans les six langues officielles de l'organisation: anglais, arabe, chinois, espagnol, français et russe.

Des expériences de traduction automatique ont été tentées à plusieurs reprises, mais les traductions obtenues demandaient un travail de révision trop important, si bien que, au stade actuel de son développement et compte tenu du type de documents à traduire, cette technologie n'a pas été jugée suffisamment rentable.

L'Unité de Traduction assistée par ordinateur et de Terminologie (CTT) explore donc les possibilités techniques qu'offrent les systèmes les plus récents de traduction assistée par ordinateur, reposant sur la notion de "mémoire de traduction". Comme il est expliqué sur le site web,

"ces systèmes permettent au traducteur d'avoir immédiatement accès au patrimoine du 'déjà traduit' dans lequel il peut puiser, quitte à rejeter ou modifier les solutions retenues par ses prédécesseurs, son choix définitif venant ensuite enrichir la mémoire. Ainsi, en archivant la production quotidienne, le traducteur aurait vite à sa disposition une 'mémoire' colossale de solutions toutes faites à un nombre important de problèmes de traduction."

Le CTT a entrepris l'évaluation de plusieurs applications dans les domaines suivants: archivage électronique et recherche en texte intégral, alignement de textes bilingues et multilingues, traduction assistée par ordinateur, gestion de mémoires de traduction et de bases de données terminologiques, et reconnaissance vocale.

Contrairement aux prévisions optimistes d'il y a cinquante ans annonçant l'apparition imminente de la machine à traduire universelle, les systèmes de traduction automatique ne produisent toujours pas de traductions de bonne qualité. Pourquoi? Pierre Isabelle et Patrick Andries, du Laboratoire de recherche appliquée en linguistique informatique (RALI) (Montréal, Québec) expliquent ce échec dans La traduction automatique, 50 ans après, un article publié dans les Dossiers du cyberquotidien Multimédium:

"L'objectif ultime de construire une machine capable de rivaliser avec le traducteur humain n'a cessé de fuir par devant les lentes avancées de la recherche. Les approches traditionnelles à base de règles ont conduit à des systèmes qui tendent à s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages de l'ambiguïté sémantique. Les aproches récentes à base de gros ensembles de textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques ou les méthodes analogiques - promettent bien de réduire la quantité de travail manuel requise pour construire un système de TA [traduction automatique], mais il est moins sûr qu'elles promettent des améliorations substantielles de la qualité des traductions machine."

Reprenant les idées de Yehochua Bar-Hillel exprimées dans The State of Machine Translation (L'état de la traduction automatique), article publié en 1951, Pierre Isabelle et Patrick Andries définissent trois stratégies d'application de la traduction automatique:

1) une aide pour "balayer" la production écrite et fournir des traductions approximatives,

2) des situations de "sous-langues naturelles simples", comme l'implantation réussie en 1977 du système METEO qui traduit les prévisions météorologiques du ministère de l'Environnement canadien,

3) pour de très bonnes traductions de textes complexes, le couplage de l'humain et de la machine avant, pendant et après le processus de traduction automatique, couplage qui n'est pas forcément économique comparé à la traduction traditionnelle.

Les auteurs penchent plus pour "un poste de travail pour le traducteur humain" que pour un "traducteur robot":

"Les recherches récentes sur les méthodes probabilistes ont en effet permis de démontrer qu'il était possible de modéliser d'une manière extrêmement efficace certains aspects simples du rapport traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui permettent de calculer le bon "appariement" entre les phrases d'un texte et de sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte d'origine correspond chaque phrase de la traduction. Appliquées à grande échelle, ces techniques permettent de constituer, à partir des archives d'un service de traduction, un mémoire de traduction qui permettra souvent de recycler des fragments de traduction antérieures. Des systèmes de ce genre ont déjà commencé à apparaître sur le marché (Translation Manager II de IBM, Translator's Workbench de Trados, TransSearch du RALI, etc.).

Les recherches les plus récentes se concentrent sur des modèles capables d'établir automatiquement les correspondances à un niveau plus fin que celui de la phrase: syntagmes et mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux outils pour le traducteur humain, dont les aides au dépouillement terminologique, les aides à la dictée et à la frappe des traductions ainsi que les détecteurs de fautes de traduction."


Chapitre 5: recherche
Table des matières


Le multilinguisme sur le Web
Page d'accueil du Livre 010101
Page d'accueil du NEF


© 1999 Marie Lebert