Do you speak toutes les langues ?

 

Depuis octobre 2006, l'armée américaine en Irak expérimente un logiciel révolutionnaire permettant la traduction orale et simultanée de l'anglais vers l'arabe. Cette technologie, conçue par IBM, a été imaginée pour que des soldats américains sans formation linguistique puissent communiquer avec leurs homologues irakiens. L'utilisateur parle dans un micro relié à un ordinateur, lequel reconnaît la phrase, la traduit puis la prononce en arabe. Selon le fabricant, chacun des 30 ordinateurs portables équipés connaît 50 000 mots anglais et 100 000 mots arabes.

L'utilisation de ce type de logiciels reste, pour l'heure, expérimentale. Mais la maîtrise des langues par machines interposées, qui relevait jusqu'à présent de la science-fiction, paraît désormais de l'ordre du possible. Début janvier au Consumer Electronics Show de Las Vegas, la société américaine SpeechGear a annoncé la commercialisation d'un logiciel de traduction vocale, utilisable sur PDA, pour une dizaine de langues. "On ne remplacera jamais l'humain. Mais, pour un coût très faible par rapport aux traductions professionnelles, on pourra à terme offrir des outils de compréhension de plus en plus précis et accessibles", pronostique Pierre Bernassau, directeur marketing de Systran, entreprise française, leader au niveau mondial.

Ces perspectives attirent au-delà des acteurs actuels de la traduction. Des multinationales comme Yahoo !, Google ou IBM se sont lancées dans l'expérience en faisant le pari que ce type d'innovations pourrait bousculer la société. Car face à l'explosion de la diffusion de contenus du monde entier, les enjeux sont tout à la fois économiques, géopolitiques et culturels.

Le meilleur exemple reste évidemment Internet. D'ores et déjà, l'anglais ne permet plus de comprendre qu'une part minoritaire du Web : selon les estimations de l'organisation non gouvernementale Funredes, la langue de Shakespeare ne représente plus que 35 % du contenu d'Internet, contre 75 % en 1998 et la quasi-totalité en 1992. L'essor programmé du Web en Asie devrait accentuer la tendance - ce qui signifie un volume gigantesque de pages potentiellement inaccessibles pour les Occidentaux. Avec près de 400 millions d'utilisateurs recensés, le continent asiatique représente déjà un tiers des internautes dans le monde alors que 10 % seulement des habitants sont connectés (contre 70 % des Américains et 40 % des Européens).

Dans le bouillonnement autour de la traduction automatique, l'armée américaine entend jouer un rôle de premier plan. Son principal centre de recherches, la Darpa (Defense Advanced Research Projects Agency), affecte 50 millions de dollars par an aux "technologies des langues". Pour faciliter les communications immédiates avec les alliés sur les champs de bataille, mais aussi, plus largement, pour pouvoir effectuer une veille stratégique efficace face à l'explosion des informations sur Internet, un enjeu jugé essentiel pour la sécurité intérieure.

Google, aux avant-postes de la mondialisation linguistique, s'est également saisi du dossier : le premier moteur de recherche propose déjà des outils de traduction automatique entre l'anglais et 9 langues, à partir du logiciel produit par Systran. L'outil fournit des résultats corrects, encore éloignés de la qualité obtenue par les traducteurs professionnels, mais qui permet, par exemple, la compréhension générale d'articles de journaux, de blogs.

La société cherche à aller plus loin. Elle travaille depuis peu sur son propre logiciel avec une approche innovante. Comme pour son moteur de recherche, Google s'appuie sur une méthode purement statistique : de manière automatique, le logiciel repère dans des corpus de référence (Organisation des Nations unies, Union européenne, Organisation mondiale du commerce, par exemple) la traduction professionnelle la plus fréquente, donc a priori la plus probable, d'un terme ou d'une phrase. Ce procédé, rendu possible par le gigantisme des bases de données, est considéré comme un des plus prometteurs : le NIST (National Institute of Standards and Technology), une agence américaine d'évaluation, a estimé, en novembre 2006, que les résultats obtenus (pour le chinois et l'arabe) étaient les meilleurs, loin devant les logiciels traditionnels du marché.

Les expériences réalisées dans le cadre d'un projet européen, appelé TC-Star, sont également jugées encourageantes. Les logiciels utilisés permettent d'obtenir, simultanément, la reconnaissance vocale des discours prononcés au Parlement européen, leur traduction, puis leur restitution orale par l'ordinateur. "Il est désormais possible d'avoir des traductions de discours compréhensibles", relève Gianni Lazzari, coordonnateur du projet TC-Star. "On obtient des résultats proches de ceux d'interprètes professionnels travaillant dans l'urgence", ajoute Khalid Choukri, délégué général d'ELRA (Association européenne pour les ressources linguistiques).

Les experts envisagent de nouveaux progrès à courte échéance. "J'estime qu'on se trouve à la moitié du chemin par rapport à ce qu'on pourrait faire", indique ainsi Joseph Olive, le spécialiste des "technologies de la langue" à la Darpa, interrogé en 2006 pour le compte d'un rapport officiel. "La prochaine étape, c'est la fusion entre les deux méthodes de traduction : l'approche traditionnelle, où l'on applique des règles, corrigées et modifiées en permanence en fonction des erreurs repérées, et l'approche statistique, plus récente, qui permet d'identifier les traductions les plus probables à partir d'un corpus de traductions", explique Théo Hoffenberg, PDG de Softissimo, qui développe le logiciel Reverso, un des plus utilisés sur le marché.

Alors qu'elle dispose d'une expertise incomparable en matière de diversité linguistique, l'Union européenne reste paradoxalement en retrait : elle investit trois fois moins que la Darpa, soit 15 millions d'euros chaque année. A court terme, son ambition est de réduire les coûts colossaux de la traduction interne (1 % de son budget global).

À moyen terme, pourtant, l'enjeu culturel apparaît essentiel. "Seule la traduction permettra de préserver la diversité des langues en Europe et dans le monde", assène Xavier North, délégué général à la langue française. Pour des langues comme le français, l'espagnol, l'allemand, l'italien, qui ne représentent qu'un petit pourcentage des contenus sur Internet, être accessible, même de manière simplifiée, au plus grand nombre sera essentiel pour espérer exister aux yeux du reste du monde. La traduction automatique pourra être un des moyens d'y parvenir.

 

 

Luc Bronner

 

1950.

De nombreuses recherches sont lancées, généralement financées par les services secrets américain et russe pour surveiller l'ennemi.

 

 

1966.

La National Science Foundation américaine conclut à l'impossibilité de réaliser des traductions de qualité. Abandon de la plupart des recherches.

 

 

1976.

Des sociétés commerciales commencent à se positionner sur le marché de la traduction.

 

 

2001.

Après le 11-Septembre, la Darpa (Agence de recherche militaire américaine) relance ses projets autour de l'« ingénierie de la langue ».

 

 

www.tc-star.org

Projet de recherche européen sur la traduction orale instantanée. À lire, « Human Language Technologies for Europe », un rapport en anglais sur la traduction automatique.

 

 

Source : Le Monde, le dimanche 28 janvier 2007