Le multilinguisme sur le Web. 5. Recherche

NEF - Le Livre 010101 de Marie Lebert - Le multilinguisme sur le Web

Le multilinguisme sur le Web (1999)
5. Recherche

5.1. Traduction automatique et recherche
5.2. Linguistique computationnelle
5.3. Ingénierie du langage
5.4. Internationalisation et localisation

5.1. Traduction automatique et recherche

Au sein du Laboratoire CLIPS (Communication langagière et interaction personne-système) de la Fédération IMAG (France), le Groupe d'étude pour la traduction automatique (GETA) est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Les thèmes de recherche du GETA concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue. Le GETA est issu du CETA (1961- 1971), laboratoire pionnier de la traduction automatique en France.

Actuellement, le GETA reste actif en TAO du réviseur, mais réoriente sa recherche, depuis 1988, vers la TAO individuelle, qui comporte deux volets, la TAO du traducteur et celle du rédacteur. Les définitions de ces deux TAO sont données sur le site:

"La TAO du traducteur consiste à offrir des outils de bureautique linguistique à des traducteurs (professionnels ou occasionnels). C'est l'homme qui traduit. Dans ce domaine, nous travaillons en coopération avec d'autres groupes de recherche, qui apportent des données ou outils linguistiques (lexiques, lemmatiseurs), et nous nous intéressons aux problèmes informatiques liés à l'intégration de ces éléments sous une forme utilisable par des traducteurs occasionnels, désireux de les employer depuis leurs applications favorites. Nous avons récemment élaboré et proposé en collaboration avc SITE-Eurolang, le projet Montaigne, qui vise à mettre à disposition de la communauté scientifique le logiciel Eurolang-Optimizer, via Internet, et à l'utiliser pour constituer des grosses bases terminologiques pouvant ensuite aussi alimenter des systèmes automatiques.

La TAO du rédacteur est l'objectif principal des travaux en cours, regroupés dans le projet LIDIA. L'idée de base est d'offrir à un rédacteur unilingue la possibilité de rédiger dans sa langue, et, au prix d'un dialogue de standardisation et de désambiguïsation (qu'il conviendra de rendre le moins lourd et le plus convivial possible), d'être traduit dans plusieurs langues, sans révision ou avec une révision minimale. Il s'agit donc de TAO fondée sur le dialogue (DBMT, pour dialogue-based machine translation) et de préédition indirecte, mais c'est bien la machine qui traduit. Une première maquette, LIDIA-1, partant du français et allant vers l'allemand, le russe et l'anglais, a été spécifiée et réalisée au cours des trois dernières années.

Le GETA participe aussi au projet de l'Universal Networking Language (UNL) sous l'égide de l'Université des Nations Unies (UNU). Voici la présentation du projet préparée en septembre 1998 par Christian Boitet, directeur du GETA:

"Il s'agit non de TAO habituelle, mais de communication et recherche d'information multilingue. 14 groupes ont commencé le travail sur 12 langues (plus 2 annexes) depuis début 97. L'idée est:
- développer un standard, dit UNL, qui serait le HTML du contenu linguistique.
- pour chaque langue, développer un générateur (dit 'déconvertisseur') accessible sur un ou plusieurs serveurs, et un 'enconvertisseur'.

L'UNU (Université des Nations Unies, Tokyo) finance 50% du coût. D'après notre évaluation sur la première année, c'est plutôt 30 à 35%, car le travail (linguistique et informatique) est énorme, et le projet passionnant: les permanents des laboratoires s'y investissent plus que prévu. [...]

La déconversion tourne pour le japonais, le chinois, l'anglais, le portugais, l'indonésien, et commence à tourner pour le français, l'allemand, le russe, l'italien, l'espagnol, l'hindi, l'arabe, et le mongol.

Chaque langue a une base lexicale de 30.000 à 120.000 liens UW [universal word]--lexème.

L'enconversion n'est pas (si on veut de la qualité pour du tout venant) une analyse classique. C'est une méthode de fabrication de graphes UNL qui suppose une bonne part d'interaction, avec plusieurs possibilités :
- analyse classique multiple suivie d'une désambiguïsation interactive en langue source,
- entrée sous langage contrôlé,
- encore plus séduisant (et encore pas clair, au niveau recherche pour l'instant), entrée directe via une interface graphique reliée à la base lexicale et à la base de connaissances.

Applications possibles :
- courriel multilingue
- informations multilingues
- dictionnaires actifs pour la lecture de langues étrangères sur le Web
- et bien sûr TA [traduction automatique] de mauvaise qualité (ce qu'on trouve actuellement, mais pour tous les couples à cause de l'architecture à pivot) pour le surf web et la veille.

On travaille actuellement sur les informations sportives sur le Web, surtout sur le foot. On construit une base de documents, où chaque fichier est structuré (à la HTML) et contient, pour chaque énoncé, l'énoncé original, sa structure UNL, et autant de traductions qu'on en a obtenu. Un tel document peut être recherché dans une base en traduisant la question en UNL, puis affiché (le UNL viewer existe depuis un an) dans autant de fenêtres d'un brauser Web que de langues sélectionnées.

Perspectives:

Le projet a un problème de volume : grande surface, pas assez d'épaisseur. Il faudrait 3 à 5 fois plus de monde partout pour que ça avance assez vite (pour que Microsoft et d'autres ne finissent pas par tout reprendre et revendre, alors qu'on vise une utilisation ouverte, du type de ce qu'on fait avec les serveurs et clients Web). Les subventions des sociétés japonaises à l'UNU pour ce projet (et d'autres) se tarissent à cause de la crise japonaise. Le groupe central est beaucoup trop petit (4 personnes qui font le logiciel, le japonais, l'anglais, l'administration, c'est peu même avec de la sous-traitance).

De plus, le plan général est d'ouvrir aux autres langues de l'ONU en 2000. Il faudrait arriver à un état satisfaisant pour les 13 autres avant.

Du point de vue politique et culturel, ce projet est très important, en ce qu'il montre pour la première fois une voie possible pour construire divers outils soutenant l'usage de toutes les langues sur Internet, qu'elles soient majoritaires ou minoritaires. En particulier, ce devrait être un projet majeur pour la francophonie.

Dans l'état actuel des choses, je pense que l'élan initial a été donné, mais que la première phase (d'ici 2000) risque de retomber comme un soufflé si on ne consolide pas très vite le projet, dans chaque pays participant.

Et donc:

L'UNU cherche comment monter un soutien puissant à la mesure de cette ambition. Je pense que, pour la francophonie par exemple, il faudrait un groupe d'une dizaine de personnes ne se consacrant qu'à ce projet pendant au moins 10 ans, plus des stagiaires et des collaborateurs sur le réseau, bénévoles ou intéressés par la mise à disposition gratuite de ressources et d'outils."

Voici quelques groupes de recherche anglophones.

Créé à la fin des années 80, le CL/MT Research Group (Computational Linguistics (CL) and Machine Translation (MT) Group - Groupe de linguistique computationnelle et de traduction automatique) est un groupe de recherche du Département des langues et de linguistique de l'Université d'Essex (Royaume-Uni).

Fondé en 1986, le Center for Machine Translation (CMT) (Centre pour la traduction automatique) est un centre de recherche inclus dans le nouvel Institut des technologies des langues de l'Université Carnegie Mellon (Pittsburgh, Pennsylvanie, USA). Il est spécialisé dans les technologies de traitement de la langue naturelle, particulièrement la traduction automatique multilingue de haute qualité.

Le Computing Research Laboratory (CRL) (Laboratoire de recherche informatique) à la New Mexico State University (NMSU) (Université d'Etat du Nouveau Mexique - Etats-Unis) est un centre de recherche à but non lucratif qui se consacre à la recherche de base et au développement de logiciels dans les applications informatiques avancées du traitement de la langue naturelle, de l'intelligence artificielle et de la conception d'interfaces graphiques pour les utilisateurs. Les applications développées à partir de cette recherche de base incluent un ensemble de configurations de traduction automatique, extraction d'information, acquisition du savoir, enseignement intelligent, et systèmes de traduction pour poste de travail.

Géré par le Département de linguistique du Groupe de recherche sur la traduction de l'Université Brigham Young (Utah, USA), TTT.org (Translation, Theory and Technology) (Traduction, théorie et technologie) procure des informations sur la théorie et la technologie de la langue, particulièrement dans le domaine de la traduction. La technologie de la traduction inclut les outils de traduction pour poste de travail et la traduction automatique.

TTT.org s'intéresse aussi aux normes d'échanges de données permettant à divers outils de fonctionner en lien les uns avec les autres, ce qui permet l'intégration d'outils de la part de vendeurs multiples dans la chaîne multilingue de production de documents. Dans ce domaine, TTT.org est impliqué dans le développement de MARTIF (machine-readable terminology interchange format - format d'échange de terminologie lisible par la machine), un format permettant de faciliter l'interaction de données terminologiques entre les systèmes de gestion de terminologie. Ce format est le résultat de plusieurs années de collaboration internationale intense entre les terminologues et les experts en bases de données de plusieurs organisations, incluant les organismes universitaires, la Text Encoding Initiative (TEI) (Initiative pour le codage du texte) et la Localisation Industry Standards Association (LISA) (Association pour les normes de l'industrie de la localisation).

Le Natural Language Group (NLG) (Groupe de langue naturelle) de l'USC/ISI (University of Southern California/Information Sciences Institute - Université de la Californie du Sud/Institut des sciences de l'information) traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration de grands lexiques pour plusieurs langues, et communication multimédias.

Eduard Hovy, directeur du Natural Language Group, expliquait dans son courrier électronique du 27 août 1998:

"Le plan de votre étude me paraît très intéressant. Je me demande cependant où vous présentez les applications et fonctionnalités n'ayant pas trait à la traduction, comme la recherche documentaire et le résumé automatique de texte. On ne peut rien trouver sur le Web sans recherche documentaire, et tous les engins de recherche (AltaVista, Yahoo!, etc.) sont basés sur cette technologie. De même, bien que ceci soit plus récent, il y a des chances pour que beaucoup de gens utilisent bientôt des fonctions de résumé automatique pour condenser ou extraire le contenu principal d'un document long ou d'un ensemble de documents. [...]

Dans ce contexte, le multilinguisme sur le Web est un autre facteur de complexité. Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication locale, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons, une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux (ceux qui procurent l'information la plus récente qui sera ensuite utilisée par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de supprimer ce qui est sans intérêt avant de donner les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas; comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis faire une traduction automatique rapide à partir du résultat obtenu, laissant à un être humain ou un classificateur de texte (type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.

Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des textes dans toutes les langues. Ces textes seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.

En consultant le MuST Multilingual Information Retrieval, Summarization, and Translation System (Système MuST de recherche documentaire, résumé et traduction multilingues), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien.

Entrez votre demande (par exemple, 'baby', ou ce que vous voulez) et appuyez sur la touche 'Retour'. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: 'Sp' pour espagnol, 'Id' pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur 'Summarize' pour obtenir le résumé. Cliquez sur 'Translate' pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot).

Ce programme de démonstration n'est pas (encore) un produit. Nous avons de nombreuses recherches à mener pour améliorer la qualité de chaque étape. Mais ceci montre la direction dans laquelle nous allons."

5.2. Linguistique computationnelle

Le Laboratoire de recherche appliquée en linguistique informatique (RALI) (Montréal, Québec) réunit des informaticiens et des linguistes d'expérience dans le traitement automatique de la langue tant par des méthodes symboliques "classiques" que par de nouvelles méthodes probabilistes.

Un rapide historique du RALI est donné sur le site web: grâce au laboratoire Incognito fondé en 1983, le département d'informatique et de recherche opérationnelle (DIRO) de l'Université de Montréal avait acquis une stature de premier plan en matière de recherche en traitement automatique de la langue naturelle. En juin 1997, le DIRO a obtenu du ministère de l'Industrie du gouvernement canadien l'impartition du programme de recherche en traduction assistée par ordinateur (TAO) poursuivi depuis 1984 par le Centre d'innovation en technologie de l'information (CITI). C'est dans ce cadre qu'a été mis sur pied le RALI qui permet de mettre en valeur les résultats de ces recherches.

Les domaines de compétence du RALI sont les suivants: outils d'aide à la traduction, appariement automatique de textes, génération automatique de texte, réaccentuation automatique, recherche d'information aidée par des outils linguistiques, extraction d'information, identification de la langue et du codage, et transducteurs à états finis.

Dans le cadre du Projet TransX, le RALI élabore une nouvelle génération d'outils d'aide aux traducteurs (TransType, TransTalk, TransCheck et TransSearch). Ces outils sont tous fondés sur des modèles de traduction probabilistes qui calculent automatiquement les correspondances entre le texte produit par le traducteur et le texte en langue de départ.

"TransType accélère la saisie de la traduction en anticipant les choix du traducteur et, au besoin, en les critiquant. L'outil propose ses choix en tenant compte à la fois du texte en langue de départ et de la traduction partielle déjà produite par le traducteur.

TransTalk effectue la transcription automatique d'une traduction dictée. Cet outil se sert d'un modèle de traduction probabiliste pour améliorer la performance du module de reconnaissance vocale.

TransCheck détecte automatiquement certaines erreurs de traduction en vérifiant que les correspondances entre les segments d'une ébauche de traduction et les segments du texte en langue de départ respectent les propriétés souhaitées d'une bonne traduction.

TransSearch permet au traducteur d'effectuer des recherches dans des bases de données de traductions pré-existantes pour y retrouver des solutions toutes faites à ses problèmes de traduction. Les bases de données requises nécessitent un appariement entre la traduction et le texte en langue de départ."

Financés par le société XEROX, les projets du Xerox Palo Alto Research Center (PARC) incluent deux projets relatifs aux langues: Inter-Language Unification (ILU) et Natural Language Theory and Technology (NLTT).

L'Inter-Language Unification (ILU) System (Système d'unification inter-langues) est un système d'interface-objet multi-langues. Les interfaces-objet fournis par l'ILU dissimulent les différences d'implémentation entre les différentes langues, les différents espaces d'adresse et les types de systèmes d'exploitation. ILU peut être utilisé pour construire des bibliothèques multilingues orientées vers l'objet ("bibliothèques de catégorie") avec des interfaces bien spécifiés indépendants des langues. Il peut être utilisé aussi pour réaliser des systèmes distribués, ou pour définir et établir les documents des interfaces entre les modules de programmes non distribués.

Le but de la Natural Language Theory and Technology (NLTT) (Théorie et technologie de la langue naturelle) est de développer des théories sur la façon dont l'information est codée dans la langue naturelle et dans la technologie pour organiser l'information vers et à partir des représentations en langue naturelle. Le but est le maniement efficace et intelligent du texte en langue naturelle dans les phases critiques du traitement du document, comme l'identification, le résumé, l'indexation, l'extraction et la présentation des faits, le stockage et la recherche des documents ainsi que la traduction, et permettra également plus de puissance et de commodité dans la communication en langue naturelle avec les machines.

Basé à Cambridge (Royaume-Uni) et Grenoble (France), le Xerox Research Centre Europe (XRCE) est lui aussi un laboratoire de recherche de la société XEROX. Les travaux menés ont pour but d'améliorer la productivité sur le lieu de travail, grâce à la mise en oeuvre de nouvelles technologies centrées sur le document.

Un des projets du XRCE est Théories et technologies multilingues (MLTT), qui étudie l'analyse et la génération de textes pour une grande variété de langues (allemand, anglais, arabe, espagnol, français, italien, russe, etc.). L'équipe du MLTT crée des outils de base pour l'analyse linguistique multilingue, tels que analyseurs morphologiques, étiqueteurs morpho-syntaxiques, plate-formes pour le parsage et la génération, ou encore outils d'analyse de corpus. Ces outils sont utilisés pour décrire diverses langues ainsi que les relations d'une langue à l'autre. Les projets en cours incluent des analyses syntaxiques à états finis pour le français et l'allemand, une grammaire LFG (lexical functional grammar - grammaire fonctionnelle lexicale) du français ainsi que des projets en recherche documentaire multilingue, en génération et en traduction.

Créée en 1979, l'American Association for Artificial Intelligence (AAAI) (Association américaine pour l'intelligence artificielle) est une société scientifique à but non lucratif visant une meilleure compréhension scientifique des mécanismes sous-jacents de la pensée et du comportement intelligent et de leur incorporation dans les machines. L'AAAI a également pour but de favoriser la compréhension de l'intelligence artificielle par le grand public, d'améliorer l'enseignement et la formation des praticiens en intelligence artificielle, et de procurer des conseils aux planificateurs de recherches et financeurs sur l'importance des développements en cours sur l'intelligence artificielle, les possibilités qui en découlent et les orientations futures.

Rattaché à l'Université de Genève (Suisse), l'Institut Dalle Molle pour les études sémantiques et cognitives (ISSCO) mène des recherches théoriques et appliquées en linguistique computationnelle et en intelligence artificielle.

Créé par la Fondation Dalle Molle en 1972 pour mener des recherches en cognition et en sémantique, l'Institut en est venu à se spécialiser dans le traitement de la langue naturelle et, en particulier, dans le traitement multilingue des langues dans un certain nombre de domaines: traduction automatique, environnement linguistique, génération multilingue, traitement du discours, collection de données, etc. Si l'université de Genève procure un soutien administratif et une infrastructure à l'ISSCO, la recherche est uniquement financée par des subventions et des contrats avec des organismes publics et privés.

L'Institut est multidisciplinaire et multinational, avec un petit groupe de permanents complété par un certain nombre de personnes sous contrat (spécialisées en informatique, linguistique, mathématiques, psychologie et philosophie) restant de six mois à deux ans, ce qui permet une grande flexibilité et un échange continuel d'idées.

L'International Committee on Computational Linguistics (ICCL) (Comité international de linguistique computationnelle) organise l'International Conference on Computational Linguistics (COLING) (Conférence internationale de linguistique computationnelle). L'ICCL a été mis sur pied dans les années 60 par David Hays en tant qu'organisme permanent

"pour organiser des conférences internationales en linguistique computationnelle d'une manière originale, sans secrétariat permanent, inscriptions ou financement propre. Pour ces raisons et d'autres, cette démarche était en avance sur son temps. Les COLINGs ont toujours été des lieux de rendez-vous caractérisés par une atmosphère agréable, plutôt que des rassemblements à l'efficacité clinique se déroulant dans un hôtel d'aéroport. [...] Ces dernières années, l'ACL [Association for Computational Linguistics - Association de linguistique computationnelle] a beaucoup contribué à la réalisation des compte-rendus de conférences et à leur diffusion."

5.3. Ingénierie du langage

Lancé en janvier 1999 par la Commission européenne, le site HLTCentral (HLT: Human Languages Technologies - Technologies des langues humaines) propose une courte définition de l'ingénierie du langage:

"L'ingénierie du langage permet de vivre en toute convivialité avec la technologie. Nous pouvons utiliser notre connaissance du langage pour développer des systèmes capables de reconnaître à la fois la parole et l'écrit, de comprendre un texte suffisamment en profondeur pour être capable de sélectionner des informations, de le traduire dans différentes langues et de générer aussi bien un discours oral qu'un texte imprimé.

L'application de ces technologies nous permet de repousser les limites actuelles de notre utilisation du langage. Les systèmes à commande vocale sont appelés à jouer un rôle prépondérant et à faire partie intégrante de notre vie quotidienne."

Une présentation très complète de l'ingénierie du langage est également proposée dans L'ingénierie linguistique, ou comment exploiter la puissance du langage.

Créé par le projet LINGLINK, HLTCentral (HLT: Human Language Technologies - Technologies du langage humain) veut rassembler les ressources en technologies des langues présentes sur le Web: informations, actualités, fichiers à télédécharger, liens, événements, groupes de discussion et études commissionnées (commerce électronique, télécommunications, localisation, etc.).

Le secteur HLT fait partie du programme IST (Information Society Technologies - Technologies de la société de l'information) lancé par la Commission européenne pour la période 1999-2002. Il succède à Ingénierie linguistique, développé entre 1992 et 1998 par le Programme d'applications télématiques. Son but était de faciliter l'utilisation d'applications télématiques et d'augmenter les possibilités de communication entre langues européennes. Les travaux de RTD (recherche et développement technologique) concernaient principalement des projets pilotes intégrant les technologies de la langue dans les applications et services d'information et de communication.

FRANCIL (Réseau francophone de l'ingénierie de la langue) est un programme mis en place en juin 1994 par l'Agence universitaire de la francophonie (AUPELF-UREF) pour renforcer ses activités dans le domaine du génie linguistique, défini ainsi sur le site:

"Le Génie Linguistique est une partie du traitement électronique de l'information. Dans ce contexte, le traitement automatique des langues est un secteur en plein développement. Il comprend les recherches et développement en matière d'analyse et de génération de textes, de reconnaissance, de compréhension et de synthèse de la parole. Il inclut les applications relatives à la gestion de documents, à la communication entre l'humain et la machine, à l'aide à la rédaction, à la traduction assistée par ordinateur. Il comporte des enjeux de type industriel et économique, de type scientifique et technologique mais présente aussi une dimension culturelle très spécifique. Il est toujours préférable de maîtriser la langue qui sert à exprimer les résultats des recherches, surtout si cette recherche porte sur la langue elle-même. La langue française et la francophonie sont donc très directement concernées par cet enjeu."

Comme son nom l'indique, la Multilingual Application Interface for Telematic Services (MAITS) (Interface pour les applications multilingues des services télématiques) est un consortium formé pour développer un API (applications programming interface - interface pour la programmation des applications) pour les applications multilingues des services télématiques.

5.4. Internationalisation et localisation

"Vers la communication sur Internet dans toutes les langues..." Babel est un projet conjoint d'Alis Technologies et de l'Internet Society traitant de l'internationalisation d'Internet. Son site multilingue (allemand, anglais, espagnol, français, italien, portugais et suédois) comprend deux grands secteurs: langues (les langues du monde; glossaire typographique et linguistique; Francophonie), et Internet et multilinguisme (développer votre site web multilingue; le codage des écritures du monde).

La Localisation Industry Standards Association (LISA) (Association pour les normes de l'industrie de la localisation) est une organisation majeure pour l'industrie de localisation et d'internationalisation. Ses 130 membres comprennent des éditeurs de logiciels, des fabricants de matériel, des vendeurs de services de localisation, et un nombre croissant de sociétés venant des secteurs voisins de technologie de l'information. La mission de LISA est de promouvoir l'industrie de la localisation et de l'internationalisation et de procurer un mécanisme et des services permettant aux sociétés d'échanger et de partager l'information dans le développement de processus, outils, technologies et modèles de sociétés en rapport avec la localisation, l'internationalisation et les domaines voisins. Son site est hébergé par l'Université de Genève, en Suisse.

W3C Internationalization/Localization est un secteur du World Wide Web Consortium (W3C), consortium international de l'industrie fondé en 1994 pour développer les protocoles communs du World Wide Web. Le site donne en particulier une définition des protocoles utilisés pour l'internationalisation et la localisation: HTML (hypertext markup language), jeu de base de caractères, nouveaux attributs, HTTP (hypertext transfer protocol), négociation de la langue, URL (uniform resource locator) et autres identificateurs incluant des caractères non-ASCII (American standard code for information interchange). Le site propose aussi une aide pour créer un site multilingue.

Index des sites et pages web
Table des matières

Le multilinguisme sur le Web
Page d'accueil du Livre 010101
Page d'accueil du NEF

Le multilinguisme sur le Web (1999) 5. Recherche

5.1. Traduction automatique et recherche

5.2. Linguistique computationnelle

5.3. Ingénierie du langage

5.4. Internationalisation et localisation

Le multilinguisme sur le Web (1999)
5. Recherche