NEF - Le Livre 010101 de Marie Lebert - Enquête

Le Livre 010101: Enquête (2001)
15. La traduction automatique

Comme on l'a vu dans le chapitre précédent, si la traduction automatique offre déjà de réels services, on en en attend bien davantage. Voici le point sur le sujet, ainsi que le point de vue de spécialistes travaillant sur les logiciels à venir.

15.1. Définition et historique
15.2. Une qualité médiocre, puis des progrès sensibles


15.1. Définition et historique

La traduction automatique (TA) est un outil pratique, mais elle ne remplace pas et n'est pas destinée à remplacer le professionnel qui traduit. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur (TAO), qui exige une certaine interaction entre l'homme et la machine.

Un logiciel de traduction automatique analyse le texte dans la langue source (texte à traduire) et génère automatiquement le texte correspondant dans la langue cible (texte traduit), en utilisant des règles précises pour le transfert de la structure grammaticale. "Il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique, lit-on sur le site de l'EAMT (European Association for Machine Translation). De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès des organismes professionnels de traduction."

Voici un résumé des informations que donnait le site web de Globalink, disparu depuis, la société ayant été rachetée par Lernout & Hauspie en 1999.

Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Pendant la seconde guerre mondiale, le développement des premiers ordinateurs programmables bénéficie des progrès de la cryptographie et des efforts faits pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent des technologies de l'information.

Dans les années 50, la recherche porte sur la traduction littérale, à savoir la traduction mot à mot sans prise en compte des règles linguistiques. Le projet russe débuté à l'Université de Georgetown en 1950 représente la première tentative systématique visant à créer un système de traduction automatique utilisable. Des recherches sont également menées en Europe et aux Etats-Unis tout au long des années 50 et au début des années 60. Au même moment, les progrès rapides en linguistique théorique culminent en 1965 avec la publication de Aspects of the Theory and Syntax de Noam Chomsky, qui propose une nouvelle définition de la phonologie, de la morphologie, de la syntaxe et de la sémantique du langage humain.

En 1966, aux Etats-Unis, le rapport ALPAC fait une estimation prématurément négative de la valeur des systèmes de traduction automatique, et des perspectives offertes par ceux-ci, mettant fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. C'est seulement à la fin des années 70 que des tentatives sérieuses sont à nouveau entreprises, parallèlement aux progrès de l'informatique et des technologies des langues. Cette période voit aussi le développement de systèmes de transfert et l'émergence des premières tentatives commerciales. Des sociétés comme Systran et Metal sont persuadées que la traduction automatique est un marché viable et utile. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes sont nombreux: des coûts élevés de développement, une lexicographie demandant un énorme travail, des difficultés pour proposer de nouvelles combinaisons de langues, l'inaccessibilité de tels systèmes pour l'utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de développement.


15.2. Une qualité médiocre, puis des progrès sensibles

Le dernier en date des logiciels de traduction automatique est celui d'IBM, le WebSphere Translation Server. Le logiciel est capable de traduire instantanément en plusieurs langues des pages web, des courriers électroniques et des dialogues en direct (chats). Il interprète 500 mots à la seconde et permet d'ajouter des vocabulaires spécifiques (finance, sciences, etc.). Les fournisseurs de services en ligne et les entreprises peuvent proposer en espagnol, en allemand, en français et en italien leurs textes rédigés en anglais, et vice-versa. Les documents en anglais peuvent également être traduits en chinois, en japonais et en coréen, mais l'inverse est impossible. Testé notamment par la Deutsche Bank, le logiciel est commercialisé en mars 2001 pour 10.000 $US (10.500 euros). "Jusqu'à présent, l'industrie de la traduction automatique n'était constituée que de quelques sociétés et ne possédait pas de leader clairement établi. L'entrée d'IBM sur ce marché représente un tournant majeur et permettra d'accélérer l'adoption de la traduction par ordinateur, un marché estimé à 378 millions de dollars (397 millions d'euros, ndlr) à l'horizon 2003", déclare dans un communiqué (cité par l'AFP) Steve McClure, vice-président du Speech and Natural Language Software, une des branches du cabinet de conseil International Data Corporation.

Il n'empêche, les "quelques sociétés" concurrentes d'IBM ont de nombreuses réalisations à leur actif. Softissimo, éditeur de logiciels de traduction automatique et d'apprentissage des langues, est la société créatrice de Reverso, une série de logiciels de traduction. La société est également l'auteur de produits d'écriture multilingue, de dictionnaires électroniques, d'aide à la rédaction et de méthodes de langues. Reverso équipe notamment Voilà, le moteur de recherche de France Télécom. Systran (acronyme de : System Translation) est spécialisé dans la technologie et les logiciels de traduction automatique. Son logiciel est utilisé notamment dans AltaVista World, le service de traduction automatique d'AltaVista. Alis Technologies propose des technologies et des services de consultation en matière de communication linguistique. Lernout & Hauspie (L&H) est le leader mondial des technologies de reconnaissance vocale. La société propose des produits et services en matière de dictée, traduction, compression vocale, synthèse vocale et documentation industrielle automatiques, et ce pour le grand public, les professionnels et les industriels.

Des équipes de recherche sont également très actives. En voici quelques-unes. Financé par le programme HLT (Human Language Technologies) de la Communauté européenne, ELSNET (European Network of Excellence in Human Language Technologies) regroupe 135 universités et sociétés de 26 pays différents spécialisées dans les technologies de la langue et de la parole. Au sein du Laboratoire CLIPS (Communication langagière et interaction personne-système) de l'Institut d'informatique et mathématiques appliquées (IMAG) de Grenoble, le GETA (Groupe d'étude pour la traduction automatique) est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Ses thèmes de recherche concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue. Le GETA participe à l'Universal Networking Language Programme (UNLP), un projet de "métalangage numérique" pour l'encodage, le stockage, la recherche et la communication d'informations multilingues indépendamment d'une langue source - et donc d'un système de pensée - donnée. Ce projet est mené sous l'égide de l'Université des Nations unies (UNU, Tokyo). Dans le cadre de l'Institut des sciences de l'information (ISI) de l'Université de Californie du Sud (USC), le Natural Language Group traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration d'importants lexiques pour plusieurs langues, et communication multimédias.

Recueillis sur trois ans (1998, 1999, 2000), les propos d'Eduard Hovy, directeur du Natural Language Group, sont éclairants sur les progrès récents de la traduction automatique.

Ses commentaires en août 1998: "Dans le contexte de la recherche documentaire et du résumé automatique de texte, le multilinguisme sur le web est un facteur qui ajoute à la complexité du sujet. Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication à l'échelon local, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux ceux qui procurent l'information la plus récente, utilisée ensuite par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de mettre de côté ce qui est sans intérêt et de donner ensuite les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas. Comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis effectuer une traduction automatique rapide à partir du résultat obtenu, en laissant à un être humain ou un classificateur de texte (du type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.

Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des documents dans toutes les langues. Ces documents seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.

En consultant MuST (multilingual information retrieval, summarization, and translation system), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien. Entrez votre demande (par exemple, 'baby', ou tout autre terme) et appuyez sur la touche Retour. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: 'Sp' pour espagnol, 'Id' pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur 'Summarize' pour obtenir le résumé. Cliquez sur 'Translate' pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot). Ce programme de démonstration n'est pas (encore) un produit. Nous avons de nombreuses recherches à mener pour améliorer la qualité de chaque étape. Mais ceci montre la direction dans laquelle nous allons."

Ses commentaires en août 1999: "Durant les douze derniers mois, j'ai été contacté par un nombre surprenant de nouvelles sociétés et start-up en technologies de l'information. La plupart d'entre elles ont l'intention d'offrir des services liés au commerce électronique (vente en ligne, échange, collecte d'information, etc.). Etant donné les faibles résultats des technologies actuelles du traitement de la langue naturelle - ailleurs que dans les centres de recherche - c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement une réponse correcte à une question posée sur le web, sans avoir eu à passer en revue pendant un certain temps des informations n'ayant rien à voir avec votre question? Cependant, à mon avis, tout le monde sent que les nouveaux développements en résumé automatique de texte, analyse des questions, etc., vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas encore arrivés à ce stade.

Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous arriverons à des résultats acceptables, et que l'amélioration se fera ensuite lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de faire en sorte que votre ordinateur 'comprenne' réellement ce que vous voulez dire - ce qui nécessite de notre part la construction informatique d'un réseau de 'concepts' et des relations de ces concepts entre eux - réseau qui, jusqu'à un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la 'surface' n'est pas suffisant - par exemple quand vous tapez: 'capitale de la Suisse', les systèmes actuels n'ont aucun moyen de savoir si vous songez à 'capitale administrative' ou 'capitale financière'. Dans leur grande majorité, les gens préféreraient pourtant un type de recherche basé sur une expression donnée, ou sur une question donnée formulée en langage courant.

Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de 'concepts', ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans, et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à la fois le réseau et les techniques pour construire ces réseaux de manière semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi majeur."

Ses commentaires en septembre 2000: "Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour procurer des recherches, des traductions, des rapports ou d'autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société à l'autre en passant par le marketing.

En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI (Institut des sciences de l'information de l'Université de Californie du Sud, ndlr), ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins (Maryland) a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.

Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci constitue un exploit phénoménal, qui n'avait jamais été réalisé avant. Les détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer une quantité pareille que dans les parlements du Canada, de Hong-Kong ou d'autres pays bilingues. Ils peuvent bien sûr arguer également de la faible qualité du résultat. Mais le fait est que, tous les jours, on met en ligne des textes bilingues au contenu à peu près équivalent, et que la qualité de cette méthode va continuer de s'améliorer pour atteindre au moins celle des logiciels de traduction automatique actuels, qui sont conçus manuellement. J'en suis absolument certain.

D'autres développements sont moins spectaculaires. On observe une amélioration constante des résultats dans les systèmes pouvant décider de la traduction opportune d'un terme (homonyme) qui a des significations différentes (par exemple père, pair et père, ndlr). On travaille beaucoup aussi sur la recherche d'information par recoupement de langues (qui vous permettront bientôt de trouver sur le web des documents en chinois et en français même si vous tapez vos questions en anglais). On voit également un développement rapide des systèmes qui répondent automatiquement à des questions simples (un peu comme le populaire AskJeeves utilisé sur le web, mais avec une gestion par ordinateur et non par des êtres humains). Ces systèmes renvoient à un grand volume de texte permettant de trouver des 'factiodes' (et non des opinions ou des motifs ou des chaînes d'événements) en réponse à des questions telles que: 'Quelle est la capitale de l'Ouganda?', ou bien: 'Quel âge a le président Clinton?', ou bien: 'Qui a inventé le procédé Xerox?', et leurs résultats obtenus sont plutôt meilleurs que ce à quoi je m'attendais."

L'étape suivante est définie par Randy Hobler, consultant en marketing internet: "Nous arriverons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plate-formes ou même des puces, écrit-il. A ce point, quand le développement de l'internet aura atteint sa vitesse de croisière, que la fidélité de la traduction atteindra plus de 98% et que les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue (toute communication d'une langue à une autre) sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la 'transparence transculturelle et transnationale' dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des sociétés. La lettre O réalisée avec le pouce et l'index signifie 'OK' aux Etats-Unis alors qu'en Argentine c'est un geste obscène.

Quand se produira l'inévitable développement de la vidéoconférence multilingue multimédias, il sera nécessaire de corriger visuellement les gestes. Le MediaLab du MIT (Massachussets Institute of Technology), Microsoft et bien d'autres travaillent à la reconnaissance informatique des expressions faciales, l'identification des caractéristiques biométriques par le biais du visage, etc. Il ne servira à rien à un homme d'affaires américain de faire une excellente présentation à un Argentin lors d'une vidéoconférence multilingue sur le web, avec son discours traduit dans un espagnol argentin parfait, s'il fait en même temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter ces types de messages et les corriger visuellement.

Les cultures diffèrent de milliers de façons, et la plupart d'entre elles peuvent être modifiées par voie informatique lorsqu'on passe de l'une à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesure anglophone, etc. Les sociétés dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ceux-ci seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale."


Chapitre 16: Sagas
Table des matières


Page d'accueil du Livre 010101
Page d'accueil du NEF


© 2001 Marie Lebert