NEF - Le Livre 010101 de Marie Lebert - Entretiens 1998-2001 - Steven Krauwer
Interviews in English
Entretiens en français
ELSNET (European Network of Excellence in Human Language Technologies) has 135 European academic and industrial institutions as members. The long-term technological goal which unites the participants of ELSNET is to build multilingual speech and NL (natural language) systems with unrestricted coverage of both spoken and written language. It is funded by the European Commission.
Steven Krauwer, coordinator of ELSNET, is a senior lecturer/researcher in Computational Linguistics at the Utrecht Institute of Linguistics OTS (Utrecht University, Netherlands). His main interests are: machine translation; evaluation of language and speech systems; integration of language, speech and other modalities.
Interview 23/09/1998
Interview 04/08/1999
Interview 06/01/2001
It's my chief way of communicating with others and my main source of information. I'm sure I'll spend the rest of my professional life trying to use it to remove or at least lower the language barriers.
As a European citizen, I think multilingualism on the Web is absolutely essential, because in the long run I don't think it's a healthy situation when only those who have a reasonable command of English can take full advantage of what the Web has to offer.
As a researcher (specialized in machine translation), I see multilingualism as a major challenge: how can we ensure that all information on the Web is accessible to everybody, irrespective of language differences.
I've become more and more convinced we should be careful not to address the multilinguality problem in isolation. I've just returned from a wonderful summer vacation in France, and even if my knowledge of French is modest (to put it mildly), it's surprising to see that I still manage to communicate successfully by combining my poor French with gestures, facial expressions, visual clues and diagrams. I think the Web (as opposed to old-fashioned text-only email) offers excellent opportunities to exploit the fact that transmission of information via different channels (or modalities) can still work, even if the process is only partially successful for each of the channels in isolation.
The baseline is of course "thou shalt not steal, even if it's easy". It's
interesting to note that, however complex it is to define legally, most people
have very good intuition about what counts as stealing:
- if I copy info from the Web and use it for my own purposes, I'm not stealing,
because this is exactly why the information was put on the Web in the first
place;
- if I copy info from the Web and re-transmit it to others, giving credit to the
author, I am not stealing;
- if I copy info from the Web and re-transmit it to others, pretending I'm the
author, I am stealing;
- if I copy info from the Web and sell it to others without permission from the
author, I am stealing.
I realize there are lots of borderline cases where it's not immediately clear
what counts as stealing, but let's leave that to the lawyers to figure out.
I would adopt the following rules of thumb:
- copying info for your own use is always free;
- re-transmission is OK with proper credit to the author (unless the info is
explicitely labeled as public);
- re-sale of info is OK with permission of the author (unless public).
To back this up one could envisage:
- introducing standard labels (for each mime type) which indicate whether the
info is public, and if not, point to the author;
- making browsers "label-aware", so they can show the content of the label when
displaying text, pictures and movies;
- adopting the convention/rule that info cannot be copied without the label;
- (a bit more adventurous) setting up an ISPN (international standard person
number), similar to ISBN (international standard book number) and ISSN
(international standard serial number), which identifies a person, so that
references to authors in the labels are less dependent on changes in e-mail
addresses and home pages (as long as people keep their addresses in the ISPN
database up-to-date, of course).
- At the author end: better education of web authors to use combinations of
modalities to make communication more effective across language barriers (and
not just for cosmetic reasons);
- at the server end: more translation facilities à la AltaVista (quality not
impressive, but always better than nothing);
- at the browser end: more integrated translation facilities (especially for the
smaller languages), and more quick integrated dictionary lookup facilities.
One night I heard on a foreign radio station a fragment of a song and the
name of a person, and using only the Internet I was able to:
- identify the person as the composer;
- find the title of the song;
- confirm that this was actually the song I'd heard;
- discover that it was part of a musical;
- find the title of the CD-set of the musical;
- buy the CDs;
- find the website of the musical;
- find the country and place where the musical was still being performed,
including when;
- find the phone number and opening hours of the booking office;
- get a map of the city, and directions to get to the theatre.
I could've done my hotel and flight bookings via the Internet too, but it wasn't necessary in this case.
The only thing I could not do was the actual booking, because they didn't accept Internet bookings from abroad at the time, for security reasons.
I had a wonderful time at the theatre, and I don't think this would've been possible without the Internet!
Nothing specific, but there are a few repetitive ones:
- unsolicited commercial e-mails;
- web pages full of ads;
- pages overloaded with irrelevant, time-consuming graphics;
- dead links.
I use paper a lot. All important documents are printed out, as they are a lot easier to consult on paper (easier to browse, never a dead battery). I don't think that this is going to change for quite a while.
Still a long way to go before reading from a screen feels as comfortable as reading a book.
For me the cyberspace is the part of the universe (including people, machines and information) that I can reach from behind my desk.
An information society is a society:
- where most of the knowledge and information is no longer stored in people's
brains or books but on electronic media,
- where the information repositories are distributed, interconnected via an
information infrastructure, and accessible from anywhere, and
- where social processes have become so dependent on this information and the
information infrastructure that citizens who are not connected to this
information system cannot fully participate in the functioning of the
society.
Financé par la Commission européenne, ELSNET (European Network of Excellence in Human Language Technologies) regroupe 135 universités et sociétés. L'objectif technologique commun aux participants d'ELSNET est de construire des systèmes multilingues pour la parole et la langue naturelle.
Steven Krauwer, coordinateur d'ELSNET, est professeur et chercheur en linguistique computationnelle à l'Institut de linguistique d'Utrecht. Ses recherches portent principalement sur la traduction automatique et les technologies d'évaluation de la langue et de la parole.
Entretien 23/09/1998
Entretien 04/08/1999
Entretien 01/06/2001
(entretien original en anglais)
L'internet est l'instrument que j'utilise le plus pour communiquer avec les autres, et c'est ma source principale d'information. Je compte passer le reste de ma vie professionnelle à utiliser les technologies de l'information pour supprimer ou réduire les barrières des langues.
En tant que citoyen européen, je pense que le multilinguisme sur le web est absolument essentiel. A mon avis, ce n'est pas une situation saine à long terme que seuls ceux qui ont une bonne maîtrise de l'anglais puissent pleinement exploiter les bénéfices du web.
En tant que chercheur (spécialisé dans la traduction automatique), je vois le multilinguisme comme un défi majeur: pouvoir garantir que l'information sur le web soit accessible à tous, indépendamment des différences de langue.
(entretien original en anglais)
Je suis de plus en plus convaincu que nous devons veiller à ne pas aborder le problème du multilinguisme en l'isolant du reste. Je reviens de France, où j'ai passé de très bonnes vacances d'été. Même si ma connaissance du français est sommaire (c'est le moins que l'on puisse dire), il est surprenant de voir que je peux malgré tout communiquer sans problème en combinant ce français sommaire avec des gestes, des expressions du visage, des indices visuels, des schémas, etc. Je pense que le web (contrairement au système vieillot du courrier électronique textuel) peut permettre de combiner avec succès la transmission des informations par différents canaux (ou moyens), même si ce processus n'est que partiellement satisfaisant pour chacun des canaux pris isolément.
Le point de départ est évidemment: "on ne doit pas voler, même si c'est
facile". Il est intéressant d'observer que, aussi complexe que soit la
définition légale de "vol", dans la plupart des cas les gens arrivent très
bien à la cerner:
- si je copie une information du web et que je l'utilise à des fins personnelles,
je ne commets pas de vol, parce que cette information a été mise sur le web dans
le but premier d'être utilisée;
- si je la copie à partir du web et que je la transmets à d'autres en précisant
le nom de l'auteur, je ne commets pas de vol;
- si je la copie à partir du web et que je la transmets à d'autres en prétendant
que j'en suis l'auteur, je commets un vol;
- si je la copie à partir du web, et que je la vends à d'autres sans avoir
l'autorisation de l'auteur, je commets un vol.
Je réalise qu'il existe de nombreux cas situés dans les zones limites de ces quatre ensembles et pour lesquels il serait difficile de préciser s'il y a vol ou non, mais ces précisions sont du ressort des juristes.
Je préconiserais les règles suivantes:
- la liberté totale pour la copie de l'information à usage personnel;
- la retransmission de l'information uniquement avec l'accréditation de l'auteur
(à moins qu'il ne soit bien précisé que cette information est du domaine
public);
- la revente de cette information uniquement avec l'accord de l'auteur (à moins
que celle-ci ne soit du domaine public).
Pour faire respecter ces règles, on pourrait envisager:
- l'introduction d'"étiquettes normalisées" indiquant si l'information est du
domaine public et, si elle ne l'est pas, renvoyant à l'auteur;
- la lecture de ces "étiquettes" par les navigateurs, qui les afficheraient en
même temps que le document: texte, image, film, etc.;
- l'adoption d'une convention ou d'une règle selon laquelle l'information ne
peut être copiée sans l'"étiquette" correspondante;
- (idée plus audacieuse) la mise en place d'un ISPN (international standard
person number), similaire à l'ISBN (international standard book number) ou
l'ISSN (international standard serial number), qui identifierait une seule
personne, si bien que les références aux auteurs contenues dans les "étiquettes"
seraient moins dépendantes des changements d'adresses électroniques ou
d'adresses de pages web (à condition bien sûr que les gens mettent à jour leurs
coordonnées dans la base de données ISPN).
- En ce qui concerne l'auteur: une meilleure formation des auteurs de sites
web pour exploiter les combinaisons de modalités possibles afin d'améliorer la
communication par-delà les barrières des langues (et pas seulement par un vernis
superficiel);
- en ce qui concerne l'usager, des logiciels de traduction de type AltaVista
Translation, dont la qualité n'est pas frappante, mais qui a le mérite
d'exister;
- en ce qui concerne le navigateur, des logiciels de traduction intégrée,
particulièrement pour les langues non dominantes, et des dictionnaires intégrés
plus rapides.
Une nuit, j'ai entendu le fragment d'une chanson sur une station de radio
étrangère, ainsi que le nom d'une personne, et par le seul biais de l'internet
j'ai été capable de:
- trouver que ce nom était celui du compositeur de la chanson,
- trouver le titre de la chanson,
- vérifier qu'il s'agissait bien de la chanson dont j'avais entendu un
fragment,
- découvrir qu'elle faisait partie d'une comédie musicale,
- trouver le titre du coffret de CD de cette comédie musicale,
- acheter le coffret de CD en question,
- trouver le site web de la comédie musicale,
- trouver le pays et l'endroit dans lesquels cette comédie musicale était
toujours à l'affiche, y compris le détail du programme avec les jours et heures
des représentations,
- trouver le numéro de téléphone et les heures d'ouverture du bureau de
location,
- me procurer un plan de la ville et les indications nécessaires pour trouver le
théâtre.
J'aurais pu également réserver mon hôtel et mon vol par l'internet mais, dans ce cas précis, cela n'a pas été nécessaire. La seule chose que je n'ai pas pu faire fut la réservation elle-même parce que, à l'époque, les réservations par l'internet venant de l'étranger n'étaient pas acceptées, pour des raisons de sécurité. J'ai passé un très bon moment au théâtre, et je ne pense pas que ceci aurait été possible sans l'internet!
Rien de vraiment spécifique, mais plutôt des choses répétitives comme:
- les courriers électroniques non sollicités à caractère commercial,
- les pages web remplies de publicités,
- les pages surchargées de graphiques inutiles et dont le téléchargement prend du
temps,
- les liens cassés.
(entretien original en anglais)
J'utilise le papier en grande quantité. J'imprime tous les documents importants, parce qu'ils sont beaucoup plus faciles à consulter de cette façon (plus faciles à parcourir, et jamais de batterie en panne). Je ne pense pas que ceci change avant longtemps.
Il y a encore un long chemin à parcourir avant que la lecture sur écran soit aussi confortable que la lecture sur papier.
Pour moi, le cyberespace est la partie de l'univers (incluant personnes, machines et information) que je peux atteindre "derrière" ma table de travail.
La société de l'information est une société dans laquelle:
- l'essentiel du savoir et de l'information n'est plus stocké dans des
cerveaux ou des livres mais sur des médias électroniques;
- les dépôts d'information sont distribués et interconnectés au moyen d'une
infrastructure spécifique, et accessibles de partout,
- les processus sociaux sont devenus tellement dépendants de cette information
et de son infrastructure que les citoyens non connectés au système d'information
ne peuvent pleinement participer au fonctionnement de la société.
Liste des Entretiens
Page d'accueil du Livre 010101
Page d'accueil du NEF
© 1998, 1999, 2001 Steven Krauwer & Marie Lebert