NEF - Le Livre 010101 de Marie Lebert - Entretiens 1998-2001 - Christian Boitet
Au sein du Laboratoire CLIPS (Communication langagière et interaction personne-système) de l'IMAG (Institut d'informatique et mathématiques appliquées de Grenoble), le GETA (Groupe d'étude pour la traduction automatique), dirigé par Christian Boitet, est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Les thèmes de recherche du GETA concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue.
Il s'agit non de TAO (traduction assistée par ordinateur) habituelle, mais de communication et recherche d'information multilingue. Quatorze groupes ont commencé le travail sur douze langues (plus deux annexes) depuis début 1997. L'idée est de: - développer un standard, dit UNL (Universal Networking Language), qui serait le HTML du contenu linguistique, - pour chaque langue, développer un générateur (dit "déconvertisseur") accessible sur un ou plusieurs serveurs, et un "enconvertisseur".
L'Université des Nations Unies (UNU) (Tokyo) finance 50% du coût. D'après notre évaluation sur la première année, c'est plutôt 30 à 35%, car le travail (linguistique et informatique) est énorme, et le projet passionnant: les permanents des laboratoires s'y investissent plus que prévu.
Un énoncé en langue naturelle est représenté par un hypergraphe dont chaque noeud contient une "UW" (universal word, comme match_with(icl>event) ou match(icl>thing), formés à partir de mots anglais et dénotant des ensembles plus ou moins fins d'acceptions), ou un autre graphe, le tout muni d'attributs booléens (pluralité, modalité, aspects) - chaque arc porte une relation sémantique (agt, tim, objs). On en est à la version 1.5 de ce standard, il reste pas mal à faire, mais au moins douze groupes ont construit chacun une centaine de graphes pour le tester.
La déconversion tourne pour le japonais, le chinois, l'anglais, le portugais, l'indonésien, et commence à tourner pour le français, l'allemand, le russe, l'italien, l'espagnol, l'hindi, l'arabe, et le mongol.
Chaque langue a une base lexicale de 30.000 à 120.000 liens UW - lexème.
L'enconversion n'est pas (si on veut de la qualité pour du tout venant) une
analyse classique. C'est une méthode de fabrication de graphes UNL qui suppose
une bonne part d'interaction, avec plusieurs possibilités:
- analyse classique multiple suivie d'une désambiguisation interactive en langue
source,
- entrée sous langage contrôlé,
- encore plus séduisant (et encore pas clair, au niveau recherche pour
l'instant), entrée directe via une interface graphique reliée à la base lexicale
et à la base de connaissances.
Les applications possibles sont:
- courriel multilingue,
- informations multilingues,
- dictionnaires actifs pour la lecture de langues étrangères sur le web,
- et bien sûr TA (traduction automatique) de mauvaise qualité (ce qu'on trouve
actuellement, mais pour tous les couples à cause de l'architecture à pivot) pour
le surf web et la veille.
On travaille actuellement sur les informations sportives sur le web, surtout sur le foot. On construit une base de documents, où chaque fichier est structuré (à la HTML) et contient, pour chaque énoncé, l'énoncé original, sa structure UNL, et autant de traductions qu'on en a obtenu. Un tel document peut être recherché dans une base en traduisant la question en UNL, puis affiché (le UNL viewer existe depuis un an) dans autant de fenêtres d'un navigateur web que de langues sélectionnées.
Le projet a un problème de volume: grande surface, pas assez d'épaisseur. Il faudrait trois à cinq fois plus de monde partout pour que ça avance assez vite (pour que Microsoft et d'autres ne finissent par tout reprendre et revendre, alors qu'on vise une utilisation ouverte, du type de ce qu'on fait avec les serveurs et clients web). Les subventions des sociétés japonaises à l'UNU pour ce projet (et d'autres) se tarissent à cause de la crise japonaise. Le groupe central est beaucoup trop petit (quatre personnes qui font le logiciel, le japonais, l'anglais, l'administration, c'est peu même avec de la sous-traitance).
De plus, le plan général est d'ouvrir aux autres langues de l'ONU en 2000. Il faudrait arriver à un état satisfaisant pour les douze autres avant.
Du point de vue politique et culturel, ce projet est très important, en ce qu'il montre pour la première fois une voie possible pour construire divers outils soutenant l'usage de toutes les langues sur internet, qu'elles soient majoritaires ou minoritaires. En particulier, ce devrait être un projet majeur pour la francophonie.
Dans l'état actuel des choses, je pense que l'élan initial a été donné, mais que la première phase (d'ici 2000) risque de retomber comme un soufflé si on ne consolide pas très vite le projet, dans chaque pays participant.
L'UNU cherche donc comment monter un soutien puissant à la mesure de cette ambition. Je pense que, pour la Francophonie par exemple, il faudrait un groupe d'une dizaine de personnes ne se consacrant qu'à ce projet pendant au moins dix ans, plus des stagiaires et des collaborateurs sur le réseau, bénévoles ou intéressés par la mise à disposition gratuite de ressources et d'outils.
Liste des Entretiens
Page d'accueil du Livre 010101
Page d'accueil du NEF
© 1998 Christian Boitet & Marie Lebert