NEF (Net des études françaises) - Dossiers du NEF
par Marie Lebert, septembre 2003
En 2003, le web, devenu multilingue, permet une très large diffusion des textes électroniques sans contrainte de frontières, mais la barrière de la langue est loin d'avoir disparu. La priorité semble être maintenant la création de passerelles entre les communautés linguistiques pour favoriser la circulation des écrits dans d'autres langues, en poursuivant la mise en ligne, gratuite si possible, de dictionnaires de renom et en améliorant la qualité des logiciels de traduction. Voici quelques ressources de qualité disponibles sur le web.
Statistiques et répertoires
Systèmes de codage
Dictionnaires
* Dictionnaires et encyclopédies en français
* Dictionnaires et encyclopédies en anglais
* Dictionnaires de langues
Portails de dictionnaires
La traduction automatique
Logiciels de traduction
Centres de recherche
Global Internet Statistics by
Language
En été 2000, les internautes non anglophones dépassent la barre des 50%. Ce
pourcentage continue ensuite de progresser, comme le montrent ces statistiques
de la société Global Reach, mises à jour à intervalles réguliers. Le nombre
d'usagers non anglophones est de 52,5% en été 2001, 57% en décembre 2001, 59,8%
en avril 2002 et 63,5% en été 2003 (dont 35,5% d'Européens non anglophones et
28,3% d'Asiatiques).
Ethnologue: Languages of the World
Publié par SIL International (SIL signifiant "Summer Institute of Linguistics"),
cet ouvrage de référence existe à la fois en version web (gratuite), sur CD-Rom
et sur papier (tous deux payants). Cette encyclopédie répertorie 6.800 langues
selon plusieurs critères (pays, nom de la langue, code de la langue attribué par
le SIL, famille de langues), avec un moteur de recherche unique. "Il s'agit d'un
catalogue des langues dans le monde, avec des informations sur les endroits où
elles sont parlées, une estimation du nombre de personnes qui les parlent, la
famille linguistique à laquelle elles appartiennent, les autres noms utilisés
pour ces langues, les noms de dialectes, d'autres informations
socio-linguistiques et démographiques, les dates des Bibles publiées, un index
des noms de langues, un index des familles linguistiques et des cartes
géographiques relatives aux langues." (Barbara Grimes, directrice de
publication)
European Minority
Languages
Sur le site de l'Institut Sabhal Mór Ostaig (Ile de Skye, Ecosse), principal
site d'information sur le gaélique écossais, une liste de langues minoritaires
tenue à jour par Caoimhín P. Ó Donnaíle en gaélique et en anglais. Cette liste
est classée par ordre alphabétique de langues et par famille linguistique.
iLoveLanguages
Mis en ligne au printemps 2001, ce portail résulte de la fusion entre The
Human-Languages Page, site créé en mai 1994 par Tyler Chambers, et le Languages
Catalog, section de la WWW Virtual Library. 2.000 ressources linguistiques dans
100 langues différentes sont réparties dans différentes sections: langues et
littérature, écoles et institutions, ressources linguistiques, produits et
services, organismes, emplois et stages, dictionnaires et cours de langues.
ASCII
L'ASCII est un code standard de 128 caractères traduits en langage binaire sur
sept bits (A=1000001, B=1000010, etc.). Les 128 caractères comprennent 26
lettres sans accent, les chiffres, les signes de ponctuation et les symboles.
L'ASCII permet donc uniquement la lecture de l'anglais. Les alphabets européens
sont ensuite traduits par des variantes de l'ASCII pouvant traiter les
lettres avec accents. La variante pour le français est définie par la norme
ISO-Latin-1
(ISO-8859-1:1998). Mais l'ASCII et ses diverses variantes deviennent vite un
véritable casse-tête, y compris au sein de l'Union européenne, les problèmes
étant entre autres la multiplication des systèmes d'encodage, la corruption des
données dans les étapes transitoires, ou encore l'incompatibilité des systèmes
entre eux, les pages ne pouvant être affichées que dans une seule langue à la
fois.
Unicode
L'Unicode est développé par
l'Unicode Consortium,
fondé en 1991 pour regrouper des sociétés informatiques, des sociétés
commercialisant des bases de données, des concepteurs de logiciels, des
organismes de recherche et différents groupes d'usagers.
L'Unicode est un système d'encodage sur
16 bits spécifiant un nombre unique pour chaque caractère. Il est lisible quels que
soient la plate-forme, le logiciel et la langue utilisés. Il peut traiter
65.000 caractères uniques, et donc prendre en compte tous les systèmes d'écriture
de la planète. L'Unicode (qui, en 2003, en est à sa 4e version) remplace
progressivement l'ASCII. Les versions récentes du système d'exploitation
Windows de Microsoft (Windows NT,
Windows 2000, Windows XP, Windows Server 2003) utilisent l'Unicode pour les
fichiers texte, alors que les versions précédentes utilisaient l'ASCII.
Encyclopédie Voilà / Hachette
Multimédia
50.000 articles encyclopédiques et un dictionnaire de 65.000 définitions,
auxquels il faut ajouter 5.000 photos, cartes et vidéos. Une somme, avec une
version libre et une version payante (à savoir l'inscription à un Espace
membre).
WebEncyclo
La première encyclopédie francophone en accès libre sur le web, mise en ligne en
décembre 1999 par les éditions Atlas. La recherche est possible par mots-clés,
thèmes, médias (cartes, liens internet, photos, illustrations) et idées. Un
appel à contribution incite les spécialistes d'un sujet donné à envoyer des
articles, qui sont regroupés dans la section "WebEncyclo contributif". Après
avoir été libre, l'accès demande maintenant une inscription gratuite au
préalable.
Encyclopædia Universalis
Cette encyclopédie de renom est mise en ligne en décembre 1999 avec un ensemble
de 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur
la base d'un abonnement annuel, de nombreux articles sont en accès libre.
Quid
En 2000, le Quid, encyclopédie en un volume actualisée une fois par an depuis
1963, décide de mettre une partie de son contenu en accès libre sur le web.
Merriam-Webster OnLine
Il s'agit de l'équivalent du Dictionnaire universel francophone pour la langue
anglaise, avec une différence de taille, l'accès rapide aux notices! Le site
donne librement accès au Collegiate Dictionary et au Collegiate
Thesaurus.
Britannica.com
La première encyclopédie anglophone en accès libre sur le web, mise en ligne en
décembre 1999. Britannica.com est l'équivalent numérique des 32 volumes de la
15e édition de l'Encyclopaedia Britannica, qui reste également disponible
sur papier et sur CD-Rom, toutes deux payants. Le site web propose aussi une
sélection d'articles de 70 magazines, un guide des meilleurs sites, un choix de
livres, etc., le tout étant accessible à partir d'un moteur de recherche unique.
Depuis septembre 2000, le site fait partie des cent sites les plus visités au
monde. En juillet 2001, malheureusement (pour les adeptes de la diffusion libre
du savoir), la consultation devient payante sur la base d'un abonnement mensuel
ou annuel.
Oxford English Dictionary
Les 20 volumes du fameux dictionnaire mis en ligne en mars 2000 par
l'Oxford University Press (OUP), grande maison
d'édition universitaire avec un siège à l'Université d'Oxford, au Royaume-Uni,
et un autre à New York. La consultation du site est payante. Le dictionnaire
bénéficie d'une mise à jour trimestrielle d'environ 1.000 entrées nouvelles ou
révisées. Deux ans après cette première expérience, en mars 2002, l'OUP met en
ligne l'Oxford Reference Online,
une vaste encyclopédie conçue directement pour le web et consultable elle aussi
sur abonnement payant. Elle représente l'équivalent d'une centaine d'ouvrages de
référence, soit 60.000 pages et un million d'entrées.
Encarta
En septembre 2000, après avoir été payante, la consultation de l'encyclopédie de
Microsoft devient libre et gratuite.
Travlang
Des dictionnaires de langues sont en accès libre dès les débuts du web. Ils sont
répertoriés dans le portail Travlang, un site consacré aux voyages et aux
langues créé en 1994 par Michael M. Martin. Mais ces dictionnaires sont le plus
souvent sommaires et de qualité inégale.
Les outils de Logos
Fin 1997, la société de traduction Logos décide de mettre en ligne les outils
destinés à ses traducteurs, avec accès libre et gratuit. Le
Logos Dictionary est un
dictionnaire multilingue de 8 millions d'entrées. Constituée à partir de
milliers de traductions, notamment des romans et des documents techniques, la
Wordtheque est une base de données
multilingue regroupant 710 millions de mots.
Linguistic Resources
offre un point d'accès unique à près de 1.000 glossaires.
L'Universal Conjugator propose des tableaux
de conjugaison dans 36 langues différentes.
Eurodicautom
Géré par le service de traduction de la Commission européenne, Eurodicautom est
un dictionnaire multilingue de termes économiques, scientifiques, techniques et
juridiques, avec une moyenne de 120.000 consultations quotidiennes. En accès
libre, il permet de combiner entre elles les onze langues officielles de
l'Union européenne (allemand, anglais, danois, espagnol, finnois, français,
grec, hollandais, italien, portugais et suédois), ainsi que le latin. Fin 2003,
Eurodicautom devrait être intégré dans une base terminologique plus vaste
regroupant les bases de plusieurs institutions de l'Union européenne. Cette
nouvelle base traiterait non plus douze langues, mais une vingtaine, puisque
l'Union européenne passe de 15 à 25 Etats membres. Reste à savoir si l'accès à
la future base sera gratuit ou payant.
Le Signet
Géré par l'Office québécois de la langue française (OQLF), Le Signet propose
10.000 fiches bilingues français-anglais dans le secteur des technologies de
l'information. Il est également intégré au
Grand dictionnaire terminologique
(GDT), mis en ligne en septembre 2000 avec accès libre et gratuit.
Le Grand dictionnaire terminologique (GDT)br> Le GDT est un impressionnant dictionnaire bilingue français-anglais de 3 millions de termes du vocabulaire industriel, scientifique et commercial. Il représente l'équivalent de 3.000 ouvrages de référence imprimés. Sa mise en ligne est le résultat d'un partenariat entre l'Office québécois de la langue française (OQLF), auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de très nombreux linguistes, cette mise en ligne est un succès sans précédent. Dès le premier mois, le GDT est consulté par 1,3 millions de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire.
OneLook
Des moteurs spécifiques permettent la recherche simultanée dans plusieurs
centaines de dictionnaires. Pour ne prendre qu'un exemple, le site OneLook, créé
par Robert Ware, puise dans plus de 5 millions de mots émanant de 910
dictionnaires dans plusieurs langues, aussi bien généralistes que spécialisés.
Dictionnaires
électroniques
Un excellent répertoire établi par la section française des services
linguistiques centraux de l'Administration fédérale suisse. Cette liste très
complète de dictionnaires monolingues (allemand, anglais, espagnol, français,
italien), bilingues et multilingues est complétée par des répertoires
d'abréviations (et acronymes) et des répertoires géographiques, essentiellement
des atlas.
yourDictionary.com
Ce portail est co-fondé par Robert Beard en 1999 dans le prolongement de son
ancien site, A Web of Online Dictionaries, créé en 1995. Réputé pour sa qualité,
yourDictionary.com répertorie 1.800 dictionnaires dans 250 langues, ainsi que
de nombreux outils linguistiques: vocabulaires, glossaires, grammaires, méthodes
de langues, etc.
Endangered Language
Repository
Soucieux de servir toutes les langues sans exception, yourDictionary.com gère
aussi une importante section consacrée aux langues menacées d'extinction. "Les
langues menacées sont essentiellement des langues non écrites. Un tiers
seulement des quelque 6.000 langues existant dans le monde sont à la fois
écrites et parlées. Je ne pense pourtant pas que le web va contribuer à la perte
de l'identité des langues et j'ai même le sentiment que, à long terme, il va
renforcer cette identité. Par exemple, de plus en plus d'Indiens d'Amérique
contactent des linguistes pour leur demander d'écrire la grammaire de leur
langue et de les aider à élaborer des dictionnaires. Pour eux, le web est un
instrument à la fois accessible et très précieux d'expression culturelle."
(Robert Beard, cofondateur de yourDictionary.com)
L'internet étant une source d'information à vocation mondiale, il semble indispensable d'augmenter fortement les activités de traduction. Si toutes les langues sont désormais représentées, on oublie trop souvent que de nombreux usagers sont unilingues, et que même les polyglottes ne peuvent connaître toutes les langues. Il importe aussi d'avoir à l'esprit l'ensemble des langues, et pas seulement les langues dominantes. Si la traduction automatique reste très approximative, les logiciels de traduction sont toutefois très pratiques pour fournir un résultat immédiat et à moindres frais, sinon gratuit. Des logiciels en accès libre sur l'internet permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.
Systran
Cette société pionnière en traitement automatique des langues est l'auteur du
premier logiciel de traduction en accès libre sur le web, utilisé dès décembre
1997 par le moteur de recherche
AltaVista.
Softissimo
Cette société lance la série de logiciels de traduction Reverso, à côté de
produits d'écriture multilingue, de dictionnaires électroniques et de méthodes
de langues. Reverso équipe par exemple Voilà,
le moteur de recherche de France Télécom.
WebSphere Translation Server
Un produit professionnel haut de gamme (et payant) lancé par IBM en mars 2001.
Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais,
chinois, coréen, espagnol, français, italien, japonais) des pages web, des
courriers électroniques et des dialogues en direct (chats). Il interprète
500 mots à la seconde et permet l'ajout de vocabulaires spécifiques.
Wordfast
En juin 2001, Logos et Y.A. Champollion s'associent pour créer Champollion
Wordfast, une société de services d'ingénierie en traduction, localisation et
gestion de contenu multilingue. Wordfast est un logiciel de traduction
automatique avec terminologie disponible en temps réel, contrôle typographique
et compatibilité avec le
WebSphere Translation Server d'IBM, les logiciels de
TMX et ceux de
Trados. Une version simplifiée de Wordfast
est téléchargeable gratuitement, tout comme le manuel d'utilisation, disponible
en 16 langues différentes.
De nombreux centres de recherche publics et privés conçoivent les logiciels de traduction automatique de demain. En voici trois, choisis dans la communauté anglophone, francophone et internationale.
Natural
Language Group (NLG)
Rattaché à l'USC/ISI (University of Southern California / Information Sciences
Institute), le Natural Language Group traite de plusieurs aspects du traitement
de la langue naturelle : traduction automatique, résumé automatique de texte,
gestion multilingue des verbes, développement de taxinomies de concepts
(ontologies), génération de texte, élaboration de gros lexiques multilingues et
communication multimédia.
Groupe d'étude pour la traduction automatique (GETA)br> Au sein du laboratoire CLIPS (Communication langagière et interaction personne-système) de l'Institut d'informatique et mathématiques appliquées (IMAG) de Grenoble, le GETA est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Ses thèmes de recherche concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue.
UNL (Universal Networking Language)
Le GETA participe entre autres à l'élaboration de l'UNL, un métalangage
numérique destiné à l'encodage, au stockage, à la recherche et à la
communication d'informations multilingues indépendamment d'une langue source
donnée. Ce métalangage est développé par l'UNL Program, un programme
international impliquant de nombreux partenaires dans toutes les communautés
linguistiques. Créé dans le cadre de
l'UNU/IAS (United Nations University /
Institute of Advanced Studies), ce programme se poursuit maintenant sous l'égide
de l'UNDL Foundation (UNDL signifiant:
Universal Networking Digital Language).
Page d'accueil des Dossiers du NEF
© 2003 Marie Lebert