Cours ILP-CBoitet-110928

Transcription

Cours ILP-CBoitet-110928
Ingénierie des Langues et de la Parole
Notes de cours
(4 séances sur les notions de base et les approches expertes)
M2R-IAW-SLE/ILP, 2011-12
Christian Boitet
Cette partie du cours a pour objectif de présenter aux étudiants la problématique, les formalismes, les
méthodes de base et les outils en traitement automatique des langues naturelles, puis d'appliquer ces
connaissances à une étude en profondeur d'une classe d'applications, en l'occurrence la TAO
(traduction automatisée par ordinateur).
1u correspond à 1h30 de cours ou de TD.
Prévisions : 4 séances de 2u.
Plan
Plan 1!
A.! Notions générales sur le TALN et connaissances linguistiques de base .......................................3!
I.! Problématique du TALN .......................................................................................................... 3!
I.1! Buts : stocker, étudier, et utiliser les connaissances linguistiques
3!
I.2! Bref panorama des applications et des recherches actuelles
4!
I.3! Problèmes spécifiques du TALN : non-déterminisme, flou, et taille des données
4!
II.! Notions linguistiques de base : les niveaux (de la phonologie à la pragmatique)................... 5!
II.1! La langue et ses aspects classiques
5!
II.2! Niveaux de description linguistique
6!
II.3! Autres dimensions de l'analyse linguistique
6!
III.! Les connaissances utilisables en TALN ................................................................................ 7!
III.1! Sources de connaissances dans un système de TALN
7!
III.2! Représentation de ces connaissances
8!
III.3! Enrichissement, réglage, apprentissage : techniques et limites
8!
B.! Bases méthodologiques pour l'analyse et la génération d'énoncés ..............................................10!
I.! Représentations formalisées d'énoncés : surfaciques et profondes, concrètes et abstraites ... 10!
I.1! Paramètres et critères de choix
10!
I.2! Représentations les plus usuelles
10!
I.3! Spécification et de validation
10!
II.! Méthodes de calcul en analyse et en génération ................................................................... 11!
II.1! Méthodes séquentielles et méthodes globales
11!
II.2! Procédés combinatoires (méthode déclarative)
11!
II.3! Stratégies heuristiques (méthode procédurale)
11!
II.4! Techniques mixtes (exemples en TAO et autres)
11!
III.! Interactivité dans les applications de TALN........................................................................ 11!
1/41
Ingénierie des Langues et de la Parole
Ch. Boitet
III.1! Nécessité et possibilité
11!
III.2! Différentes approches
11!
III.3! Exemples sur le projet UNL
11!
C.! Méthodes algorithmiques et outils informatiques pour le TALN ................................................11!
I.! Outils symboliques, algorithmes et langages spécialisés ....................................................... 11!
I.1! Traitements informatiques et ingénierie du linguiciel
11!
I.2! Techniques d'implémentation
11!
I.3! Langages de règles et systèmes de production sous-jacents
12!
I.4! Organisation d’un environnement pour non-informaticiens
12!
D.! Traduction automatisée de l'écrit et de l'oral (TAO)....................................................................12!
Introduction................................................................................................................................... 13!
I.! État de l'art vu par les utilisateurs........................................................................................... 14!
I.1! Variété des situations traductionnelles
14!
I.2! Automatisations possibles des différentes étapes
14!
I.3! Évaluations possibles
19!
II.! Technologie de la TAO « experte » ...................................................................................... 22!
II.1! Caractéristiques essentielles et exemples de systèmes
22!
II.2! Architectures linguistiques possibles
24!
II.3! Sources de connaissances
27!
II.4! Structures de données pour les représentations intermédiaires
27!
II.5! Approches algorithmiques (déterministe, heuristique, combinatoire)
28!
II.6! Langages d'implémentation des données et des processus linguistiques
28!
III.! Paradigmes étudiés et projets en cours : renouveaux et nouveautés.................................... 30!
III.1! Paradigmes étudiés
30!
III.2! Projets en cours
32!
IV.! Commented examples of current translation techniques..................................................... 34!
IV.1! Examples of semi-direct MT (Systran)
34!
IV.2! Examples of HQ transfer MT for revisors (EngSpan & SpanAm)
36!
IV.3! Comparison of outputs from two systems (SpanAm & Reverso)
37!
V.! Perspectives: four keys to generalise MT in the future......................................................... 38!
Bibliography ........................................................................................................................................40!
2/41
Ingénierie des Langues et de la Parole
Ch. Boitet
A. Notions générales sur le TALN et connaissances linguistiques de base
I.
Problématique du TALN
I.1 Buts : stocker, étudier, et utiliser les connaissances linguistiques
1.1 Représentation et traitement des textes et corpus
i.
Systèmes d'écriture et codage
ii.
Concordances et études diverses
iii.
Types de corpus stockés (simples, balisés, annotés, arborés, parallèles, oraux,
multimodaux…)
1.2 Représentation, construction et utilisation des dictionnaires
i.
Représentation des "ressources lexicales"
a.
Dictionnaires (types divers, mono/multilingues)
b.
Lexiques (lien avec la terminologie
c.
Bases lexicales
ii.
Construction des ressources lexicales
a.
Utilisation de ressources existantes
b.
Extraction à partir de corpus (récent)
c.
Coopération via le Web (début)
iii.
Utilisation des ressources lexicales
a.
Consultation "normale"
b.
Filtrage et production de sous-ensembles à la volée
c.
Aides diverses lecture active…)
d.
Extraction de dictionnaires d'applications
1.3 Représentation, construction et utilisation de grammaires
i.
Grammaires et automates
ii.
Mise au point d'un modèle linguistique
iii.
Évaluation de théories et applications diverses
iv.
Utilisations de grammaires et automates
a.
Correction (orthographique, grammaticale, stylistique…)
b.
Indexation
c.
Résumé et extraction d'information
d.
Traduction
e.
Génération multilingue
3/41
Ingénierie des Langues et de la Parole
Ch. Boitet
I.2 Bref panorama des applications et des recherches actuelles
Historiquement, on est parti des applications les plus "dures" comme la TA et la compréhension
(IA), puis on est "descendu" en exigence de qualité et de puissance de traitement : TA-dépistage, RI,
correction…
Puis on est "remonté", par exemple avec le résumé automatique. On a aussi réalisé les difficultés du
tout automatique et on est (re)venu à l'idée de construire des systèmes semi-interactifs pour obtenir la
qualité désirée, faire participer les utilisateurs à l'amélioration du système, etc.
Par contre, on a été plus raisonnable pour les outils liés à l'étude et non au traitement de la langue.
En mettant les applications les plus utilisées en premier, on peut faire un petit tableau :
Écrit
Oral
Correction
Indexation
TAO
RI
Apprentissage/Enseignement
Synthèse de parole
Reco de parole
Multimodalité
Dialogue
Apprentissage/Enseignement
I.3 Problèmes spécifiques du TALN : non-déterminisme, flou, et taille des données
3.1 Non-déterminisme
Inhérent à la nature des langues, tant en analyse (ambiguïtés) qu'en génération (synonymie, et qu'en
correspondance entre langues.
Conduit à un problème majeur d'explosion combinatoire.
Cet aspect distingue très fortement le TALN du traitement des langages formels.
i.
Ambiguïtés
Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une
représentation à un niveau plus élevé.
Exemples.
Sources à tous les niveaux, du signal à la pragmatique. ("La porte !").
Ambiguïtés inhérentes à la langue, et ambiguïtés "parasites" provenant des systèmes de description
et/ou de traitement eux-mêmes.
Caractère fallacieux : les humains ne "voient" pas l'ambiguïté — mais la ressentent quand elle
conduit à des incompréhensions, des contresens, et… des accidents.
ii.
Synonymie
Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une
représentation à un niveau moins élevé.
C'est le pendant de l'ambiguïté.
4/41
Ingénierie des Langues et de la Parole
Ch. Boitet
3.2 Flou
i.
Impossibilité d'une sémantique "totale"
Fait d'expérience : on ne peut jamais "tout exprimer" en langue naturelle, et pas seulement des
sentiments, mais aussi des appréciations, ou des sensations physiques.
Passage du continu au discret ? Peut-être, mais pas seulement.
D'après les travaux de Zadeh, l'inventeur de la "logique floue", il y a un problème central de
définissabilité.
Certains concepts sont "durs" ("crisp"), mais leurs valeurs sont floues, par exemple la couleur des
cheveux (on peut la mesurer physiquement). D'autres sont eux-mêmes flous, comme la longueur des
cheveux (on ne sait pas quoi mesurer ni avec quelle précision…).
Il semble aussi que certains concepts flous, fort utilisés dans les expressions en LN, ne puissent pas
recevoir de fondement probabiliste ou statistique.
ii.
Impossibilité d'une axiomatisation exacte
La langue ne se laisse pas formaliser ou axiomatiser exactement.
Elle est intrinsèquement "productive" : à partir de toute axiomatisation proposée, on peut fabriquer
des contre-exemples, en surgénération ou en sous-génération.
Parallèle avec le caractère productif des formules vraies de l'arithmétique (théorème de Gödel).
Nécessité de travailler dans l'approximatif, et donc de concevoir des applications jamais figées, en
modification constante, et capables de traiter "l'inconnu".
Exemple le plus simple: les "mots inconnus".
II.
Notions linguistiques de base : les niveaux (de la phonologie à la pragmatique)
II.1
La langue et ses aspects classiques
1.1 Peut-on parler de langue ?
1.2 Lexique et grammaire : notions de base
1.3 Diversité des aspects de la langue
5/41
Ingénierie des Langues et de la Parole
II.2
Ch. Boitet
Niveaux de description linguistique
2.1 Phonologie
i.
Sons
ii.
Phones
iii.
Phonèmes
2.2 Morphologie
i.
Morphes et graphèmes
ii.
Flexion: formes et lexèmes (lemmes)
iii.
Dérivation (lexico-sémantique)
iv.
Composition
2.3 Syntaxe
i.
Syntagmes
ii.
Fonctions syntaxiques
iii.
Valences syntaxiques
iv.
Relations de dépendance profonde
2.4 Sémantique
i.
Prédicats et arguments
ii.
Relations sémantiques (cas profonds)
iii.
Valences sémantiques
2.5 Pragmatique
II.3
i.
Assertion et négation
ii.
Impérativité
iii.
Interrogativité
Autres dimensions de l'analyse linguistique
3.1 Actualisation
i.
Nombre
ii.
Personne
iii.
Modalité
iv.
Aspect
v.
Temps
6/41
Ingénierie des Langues et de la Parole
Ch. Boitet
3.2 Quantification
i.
Quantificateurs linguistiques et portée
ii.
Lien avec la déiction
3.3 Désignation
i.
Détermination
ii.
Anaphore et cataphore
iii.
Ellipse
3.4 Rhétorique
i.
Emphase
ii.
Thématisation
3.5 Analyse en triade statutaire de Zemb
III.
i.
Rhème
ii.
Thème
iii.
Phème
Les connaissances utilisables en TALN
III.1 Sources de connaissances dans un système de TALN
1.1 Types de connaissances à considérer dans les applications
i.
Connaissances linguistiques
a.
Langagières
Connaissances sur la langue "standard" (lexique, morphologie, syntaxe…)
b.
Typologiques
Connaissances sur la typologie visée (termes et sens préférés et interdits, tours, expressions,
préférences observées au niveau du style et de la résolution d'ambiguïtés…)
ii.
Connaissances sémantiques
a.
Statiques
Faits et règles d'un domaine formalisé (ontologie)
b.
Dynamiques
Situations, agents et leurs représentations internes. Nécessité ici d'un apprentissage à partir du
contenu des "messages linguistiques".
iii.
Connaissances pragmatiques
a.
Intentions explicites
Actes de parole, force illocutoire…
Fils de discours et de dialogue
7/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Très important pour le traitement du dialogue, en CHM ou en dialogue humain médiatisé.
b.
Intentions implicites
Aspects réflexifs, intentions cachées, ironie, etc.
1.2 Connaissances réellement utilisables dans des systèmes de TALN
On met "ce qu'on peut" et surtout "ce qu'on doit" (étant donné le coût de construction et parfois
l'utilité douteuse vu l'imprécision ou l'incomplétude) des connaissances précédentes dans des "objets
linguistiques" très classiques : dictionnaires, grammaires, thésaurus.
À propos, on ne dit PAS "des thesaurii". Ce pluriel latin existe en anglais (thesauruses/thesaurii,
corpuses/corpora), mais en français TOUS les mots en –us venant du latin sont invariables, sauf
« stimulus » (des stimulus/stimuli). C'est différent pour les mots italiens…
Il faut noter que des connaissances non utilisables en mode totalement automatique le deviennent en
mode interactif. Ainsi, on ne peut pas calculer l'aspect des verbes de façon fiable en français, mais on
peut poser des questions "naïves" pour obtenir la bonne réponse.
Exemple : « le courrier est arrivé ce matin » est soit imperfectif soit perfectif. On peut proposer le
choix :
« le courrier est arrivé ce matin PENDANT que quelque chose se passait »
« le courrier est arrivé ce matin ET PUIS quelque chose s'est passé »
et l'on obtiendra alors l'information permettant de bien traduire dans une langue où l'aspect est
important, comme le russe ou l'anglais :
the mail arrived this morning (while I was shaving).
the mail has arrived this morning (and then I left).
III.2 Représentation de ces connaissances
2.1 Formalismes lexicaux : les premiers langages spécialisés
2.2 Formalismes grammaticaux (ATN, LFG, GPSG, UCG, DCG…)
2.3 Formalismes de type automate (XFST, systèmes de réécriture…)
III.3 Enrichissement, réglage, apprentissage : techniques et limites
3.1 Connaissances lexicales
i.
Acquisition
L'acquisition lexicale à grande échelle est un problème majeur depuis les débuts de la TA, il y a près
de 50 ans. On présente ici les trois approches essentielles, avec leur contexte, leur méthodologie, et
leurs avantages et inconvénients. La première consiste à travailler directement sur les dictionnaires
spécialisés pour la TA, la seconde à créer des bases lexicales spécialisées, en général asymétriques et
propriétaires comme les dictionnaires spécialisés, mais parfois utilisables pour d'autres applications
que la TA, et la troisième à construire des bases lexicales non seulement généralistes, c'est à dire à
usages multiples, tant humains que machinaux, mais aussi intrinsèquement symétriques,
linguistiquement très détaillées, potentiellement très grandes, tant en nombre de vocables qu'en
nombre de langues, et ouvertes. Il semble en effet que la seule solution permettant d'éviter des coûts
prohibitifs soit d'utiliser un modèle à la Linux, c'est à dire de mutualiser la construction et l'utilisation
des ressources lexicales dans un processus de collaboration et d'échange à travers le réseau.
8/41
Ingénierie des Langues et de la Parole
ii.
Ch. Boitet
Réglage
Si on organise le dictionnaire comme un "dictionnaire neuronal", en mettant des poids sur les liens
entre lemmes et lexies, entre lexies, et entre lexies et mots ou lexies figurant dans leurs définitions,
on peut assez facilement faire évoluer ces poids en fonction de corrections ou de réponses de
l'utilisateur à des questions.
3.2 Connaissances grammaticales
Les méthodes symboliques se prêtent mal à des apprentissages automatiques directs. Il est en effet
impossible de "découvrir" de façon algorithmique une grammaire d'une classe "superfinie" de
langages, c'est-à-dire d'une classe contenant au moins un langage infini.
Mais on peut s'y prendre autrement ! Plutôt que de construire une grammaire par pure introspection,
on peut en donner les principes généraux, puis faire construire par des humains un "corpus d'arbres",
avec bien sûr des aides informatiques, comme une grammaire "courante" donnant potentiellement
plusieurs arbres pour chaque énoncé, et un éditeur graphique d'arbres montrant les différences et
permettant de sélectionner facilement le bon, si on le trouve, ou de corriger.
Pour les formalismes "mixtes", on peut bien sûr faire "apprendre les poids" par le système.
Enfin, on peut aussi ne pas apprendre explicitement une grammaire (et ses poids), mais apprendre les
transitions d'un analyseur multiple, à partir d'un grand corpus d'exemples (chaîne, arbre).
9/41
Ingénierie des Langues et de la Parole
Ch. Boitet
B. Bases méthodologiques pour l'analyse et la génération d'énoncés
I.
Représentations formalisées d'énoncés : surfaciques et profondes, concrètes et
abstraites
I.1 Paramètres et critères de choix
1.1 Structures mononiveau et multiniveau
1.2 Partie géométrique:
i.
Chaîne
ii.
Arbre
iii.
Treille
iv.
Graphe
v.
Graphe d'arbres
1.3 Partie algébrique
i.
Symbole "pur"
ii.
Chaîne
iii.
Ajout d'attributs simples
iv.
Ajout d'attributs structurés
v.
Structures de traits et unification
1.4 Structures concrètes et abstraites
i.
Parcours canonique d'une structure
ii.
Types de correspondance texte-structure
I.2 Représentations les plus usuelles
2.1 Représentations syntagmatiques
i.
Arbres "plats" et "profonds"
ii.
Représentations "lexicalisées"
iii.
Formalismes associés
2.2 Représentations dépendancielles
2.3 Représentations interlingues
i.
Structures linguistiques "universelles" ou interlingues
ii.
Exemple des graphes UNL
iii.
Structures logiques et interprétations "ontologiques"
I.3 Spécification et de validation
3.1 Spécification directe pour les structures concrètes
3.2 Grammaires d'arbres pour valider des arbres abstraits
3.3 Grammaires "statiques" correspondancielles pour les arbres abstraits
3.4 Problème ouvert : spécification de la correspondance entre structures
10/41
Ingénierie des Langues et de la Parole
II.
III.
Ch. Boitet
Méthodes de calcul en analyse et en génération
II.1
Méthodes séquentielles et méthodes globales
II.2
Procédés combinatoires (méthode déclarative)
II.3
Stratégies heuristiques (méthode procédurale)
II.4
Techniques mixtes (exemples en TAO et autres)
Interactivité dans les applications de TALN
III.1 Nécessité et possibilité
1.1 Ambiguïté intrinsèque
1.2 Insuffisance des connaissances codées
1.3 Rapports de coûts
III.2 Différentes approches
2.1 En ligne et hors ligne
2.2 Utilisateur naïf ou spécialiste
2.3 Types de dialogue de désambiguïsation
III.3 Exemples sur le projet UNL
3.1 Choix interactif en déconversion
3.2 Possibilité de post-édition indirecte
C. Méthodes algorithmiques et outils informatiques pour le TALN
Cette partie sera essentiellement vue en TD.
I.
Outils symboliques, algorithmes et langages spécialisés
I.1 Traitements informatiques et ingénierie du linguiciel
1.1 Modules d'un système de TALN classique
1.2 Langages et environnements spécialisés
1.3 Traitements morphologiques et lexicaux (analyse, génération, transfert)
1.4 Traitements syntaxico-sémantiques (analyse, génération, transfert)
I.2 Techniques d'implémentation
2.1 Langages de bas niveau
Plus personne ne programme directement à ce niveau.
Possibilité d'étendre un langage comme C en utilisant les "macros".
2.2 Langages de haut niveau
Il s'agit de Pascal, ADA, etc.
11/41
Ingénierie des Langues et de la Parole
Ch. Boitet
2.3 Langages de très haut niveau
Il s'agit de Common-LISP, SmallTalk, Prolog, etc., qui offrent des possibilités de reconnaissance de
forme, de non-déterminisme, d'utilisation d'objets complexes dynamiques comme des arbres et des
listes.
Programmer directement à ce niveau est dangereux, même par extension syntaxique, car les
développeurs finissent toujours par utiliser des particularités du langage, et on ne peut plus ensuite
réaliser une implémentation plus efficace dans un autre langage hôte.
2.4 Langages spécialisés pour la programmation linguistique (LSPL)
C'est la voie la plus répandue et la plus efficace. En effet, on sépare clairement le "compilateur" et le
"moteur", et on peut améliorer l'implémentation sans gêner les développeurs linguistes.
Ces langages offrent des structures de données directement adaptées (arbres décorés, graphes
d'arbres, dictionnaires, grammaires, etc.), et des structures de contrôle très puissantes, et parfois
"gardées" contre l'indécidabilité (les boucles infinies).
I.3 Langages de règles et systèmes de production sous-jacents
3.1 Systèmes de substitution
Systèmes de réécriture sur les chaînes.
Systèmes transformationnels d'arbres décorés (GRADE, GWS, ROBRA, TELESI…)
Nécessité de contrôles pour la résolution de conflits
3.2 Systèmes d’ajout
Exemples typiques : analyseurs "par cartes" chaîne-arbre, et surtout systèmes-Q.
3.3 Systèmes de création
Modèles "à 2 bandes". Transducteurs finis (ATEF, ATN, PILAF, REZO, TOP, TRANSF, XFST…)
de décorations, de chaînes, d'arbres, de graphes…
Les objets d'entrée et de sortie peuvent être de types totalement différents.
I.4 Organisation d’un environnement pour non-informaticiens
4.1 Spécificités (utilisateurs, taille et évolutivité des linguiciels)
4.2 Langages spécialisés
i.
Structures de données fondamentales
ii.
Choix des langages de programmation linguistique
4.3 Aspect “base de données spécialisée”
i.
Composants linguistiques : le “linguiciel”
ii.
Corpus et textes
D. Traduction automatisée de l'écrit et de l'oral (TAO)
Résumé
12/41
Ingénierie des Langues et de la Parole
Ch. Boitet
La traduction automatique (TA) est une sorte de Graal de l'informatique linguistique. C'est la
première application non numérique des ordinateurs envisagée après la seconde guerre mondiale, en
1949, d'abord aux USA, puis en URSS. C'est aussi celle qui, aujourd'hui encore, donne lieu à le plus
de controverses. Que d'idées fausses, que d'exemples apocryphes ! Ce n'est certes pas le lieu ici de
détailler l'histoire de la TA. Il faut cependant savoir un certain nombre de choses pour comprendre
où nous en sommes, quelles sont les approches scientiques et techniques actuelles, et quelles sont les
perspectives pour les dix ans à venir.
Le but initial de la TA n'était pas, et n'est toujours pas, de remplacer les traducteurs humains. Il s'agit
d'automatiser la "fonction traduisante", dans des cas où il n'y a pas de traducteurs pour faire le travail
demandé, et sinon il s'agit d'aider des traducteurs humains à être plus efficaces. On parle de TAO
pour regrouper ces deux aspects.
Il ne s'agit pas non plus de simuler le comportement du cerveau des traducteurs, pas plus qu'on ne
cherche à faire des avions qui battent des ailes. Il faut donc éviter l'anthropomorphisme, et
reconnaître avec humilité que la construction d'artefacts réalisant des approximations utiles de
fonctions humaines complexes ressort de la technologie scientifique, des "sciences de l'ingénieur",
plutôt que de la science pure, même s'il y a toujours des allers et retours fructueux entre les sciences
"pures" (modèles formels pour la linguistique et les automates) et les techniques.
Il s'agit de trouver des moyens efficaces, implémentables sur les ordinateurs du moment, de réaliser
plus ou moins parfaitement certaines fonctions réalisées elles aussi plus ou moins parfaitement par
les traducteurs humains. S'il existe des réviseurs professionnels, c'est bien parce que les traducteurs
professionnels ne sont pas parfaits. On pourrait en dire autant des systèmes de dictée automatique ou
de résumé automatique. Il faut donc aussi éviter l'angélisme, et ne pas mettre la barre
déraisonnablement trop haut.
Avec la globalisation des échanges, l'internationalisation, et la croissance vertigineuse d'Internet, la
TAO est plus que jamais d'actualité. On compte une trentaine de systèmes commerciaux au Japon,
traitant le couple anglais-japonais dans un sens ou deux. Aux USA et en Europe, il y en a moins,
mais chacun traite d'une demi-douzaine à une vingtaine de couples de langues. La sphère d'influence
du chinois n'est pas en reste.
Le grand public ne connait presque que les systèmes totalement automatiques de "veille" à large
spectre, fournissant une traduction grossière permettant l'accès à l'information en langue étrangère
(ex: Systran lié à Altavista). Mais il existe aussi, et depuis longtemps, des systèmes de "diffusion",
spécialisés, et fournissant des traductions brutes révisables par des professionnels, souvent en moins
de temps qu'un premier jet d'un traducteur humain. Quant aux systèmes d'aide aux traducteurs, ils se
développent à grande vitesse, surtout depuis que l'énorme augmentation de puissance des ordinateurs
permet d'utiliser des techniques très gourmandes mais très efficaces de "mémoires de traduction".
Introduction
L'exposé qui suit est organisé en trois parties, les deux premières consacrées à l'état de l'art, et la
troisième aux perspectives. Plus précisément, on commencera par étudier la TAO actuelle vue par les
utilisateurs, dans différentes situations traductionnelles. Dans la seconde partie, on présentera la
TAO actuelle vue par les développeurs, c'est à dire toutes les approches méthodologiques,
linguistiques et informatiques expérimentées dans des systèmes opérationnels ou des prototypes de
grande ampleur. Dans la troisième partie, on présentera les paradigmes actuellement étudiés, et
quelques grands projets significatifs, en TAO de l'écrit comme de l'oral.
13/41
Ingénierie des Langues et de la Parole
I.
Ch. Boitet
État de l'art vu par les utilisateurs
I.1 Variété des situations traductionnelles
Traduire, c’est en premier lieu transmettre le contenu objectif d’un message (ce qui est dit d’une
réalité externe, concrète ou abstraite — contenu propositionnel, et comment cela est dit — modalité,
type de discours, situation de communication…). En second lieu, c’est aussi rendre ses aspects plus
subjectifs (style, tonalité affective, environnement culturel, aspects esthétiques ou rhétoriques,
intentions cachées…). On emploie le terme de “traduction” aussi bien pour la poésie que pour les
romans, les rapports et manuels techniques, et les nomenclatures de pièces détachées, alors qu’il
conviendrait, au moins, de distinguer entre :
• la “traduction rapide”, ou "traduction-assimilation" de textes écrits et l’interprétation
simultanée ;
• la “traduction-diffusion”, en particulier la traduction de documentations techniques dont le
contenu doit être strictement rendu, sans ajout ni omission, même si le style “sent la traduction” ;
dans ce contexte, la traduction brute ("premier jet") d'une page standard de 250 mots (1400
signes) prend en moyenne 1 heure, et la révision 20 mn ;
• la “localisation”, largement pratiquée pour les manuels de micro-ordinateurs, qui vise à
adapter un contenu à un environnement culturel particulier ;
• la “re-création” enfin, par exemple la traduction de poésie ou de publicité, qui vise avant tout
à transmettre l’aspect subjectif, fût-ce au prix d’une transformation du contenu.
La même traduction pourra donc être jugée “bonne” en traduction rapide, et détestable en re-création.
À l’évidence, le traducteur humain qui effectue la localisation d’un manuel informatique comprend
plus profondément qu’un interprète qui traduit des interventions techniques sur la politique agricole
commune.
En traduction de l'oral, il faut distinguer entre :
• interprétation simultanée : l'interprète commence à traduire avant la fin de l'énoncé.
• interprétation de liaison : l'interprète traduit après chaque énoncé ou tour de parole assez court.
• interprétation consécutive : l'interprète écoute assez longtemps, en prenant des notes, puis
reproduit les idées émises. Il s'agit plus de rephrasage ou de truchement que de traduction.
I.2 Automatisations possibles des différentes étapes
Tous les types de traduction de l'écrit et de l'oral, même l'interprétation simultanée, se font en
plusieurs phases : préparation (des connaissances, des ressources, des documents), traduction (en
plusieurs étapes si elle est informatisée), révision.
2.1 Automatisation de la préparation
i.
À quoi ?
a.
Préparation des connaissances : adaptation à une typologie (style, dico, formatage)
Les traducteurs et interprètes se préparent en étudiant le vocabulaire du domaine concerné, ainsi que
le style des énoncés. Par exemple, dans certains manuels d'IBM, il faut traduire « This shows how
to… » par « Apprenons à… ». On parle d'adaptation à une typologie. Pour un système informatique,
il s'agira de préparer des dictionnaires spécialisés, de repérer des constructions ou des interprétations
de constructions particulières à la typologie, et d'établir des règles d'évaluation ou de préférence pour
résoudre au mieux les cas d'ambiguïtés.
14/41
Ingénierie des Langues et de la Parole
b.
Ch. Boitet
Préparation des textes à traduire : correction, normalisation, simplification, annotation
On peut aussi commencer par préparer le texte à traduire. En effet, bien des traductions, même
humaines, sont mauvaises tout simplement parce que l'original est confus, complexe, ou trop ambigu.
Cette préparation a plusieurs aspects : correction, normalisation, simplification et annotation.
ii.
Préparation des ressources/connaissances
Examinons d'abord les aides à la préparation des ressources et des connaissances.
a.
Lexiques spécialisés
On dispose d'abord de plus en plus de lexiques spécialisés sur support informatique ou accessibles
par réseau et de banques terminologiques en ligne comme Termium et Eurodicautom, aides très
précieuses au traducteur humain comme au développeur de systèmes de TA. Ces lexiques suivent
beaucoup plus rapidement l'évolution terminologique que leurs ancêtres sur papier, même s'ils ne
peuvent jamais être parfaitement à jour. De plus, il existe des standards comme MicroMater pour
l'échange de petites terminologies bilingues ou multilingues créées par des individus.
b.
Recherche de textes, documents, dialogues, monologues similaires
D'autre part, la croissance vertigineuse de la puissance des ordinateurs, en rapidité comme en taille
de stockage, permet de stocker tout ce qui est produit et éventuellement traduit (textes, documents,
dialogues, monologues), et de retrouver des fragments similaires aux fragments à traduire, avec leur
traduction si elle existe.
Le traducteur ou l'interprète humain, tout comme le développeur de TA, peuvent alors étudier
l'aspect grammatical et stylistique de la typologie visée, et dégager des règles de traduction adaptées.
Par exemple, on pourra remarquer que, dans telle partie d'une grosse documentation, le passif anglais
doit être rendu par un indéfini français : "the mouse is used for pointing" —> "on utilise la souris
pour pointer" plutôt que "la souris est utilisée pour pointer" ou "la souris s'utilise pour pointer".
Les outils utilisables pour ces recherches combinent des techniques issues des bases de données
(descripteurs formatés) et de la recherche d'information (calcul de distances entre chaînes et de divers
indicateurs numériques comme les fréquences de certains phénomènes et objets linguistiques).
c.
Aligneurs
Les aligneurs permettent de transformer deux textes traduction l'un de l'autre en un bitexte,
présentant en regard les fragments qui se correspondent. (Voir le chapitre 6 sur l'alignement
mutilingue.) L'opération n'est pas du tout triviale, car il est fort rare que la traduction soit un calque
structurel parfait de l'original. Des phrases peuvent être regroupées ou au contraire éclatées. Des
paragraphes ou des sections peuvent être omis ou insérés. Des corrections de fond peuvent avoir été
apportées sur la version source ou cible d'un fragment après la traduction. L'ordre de certaines listes
peut avoir été chamboulé, par exemple par un tri lexicographique. Quoi qu'il en soit, ces outils
existent, et font partie de tous les systèmes d'aide aux traducteurs contenant des "mémoires de
traduction" : c'est grâce à eux qu'on initialise ces mémoires à partir des traductions passées.
d.
Extracteurs terminologiques
Comme on l'a dit, les dictionnaires et lexiques ne peuvent jamais être complets. Avant de (bien)
traduire, il faut donc détecter les néologismes du texte. Ils sont de deux types : mots simples
nouveaux et tournures (expressions) nouvelles composées de plusieurs mots typographiques. Les
analyseurs morphologiques actuels détectent facilement les premiers ("mots inconnus") et sont
souvent capables de produire des hypothèses fiables sur leur nature (nom commun ou nom propre,
15/41
Ingénierie des Langues et de la Parole
Ch. Boitet
éventuellement raffiné en nom de personne, de lieu…, adjectif, verbe, adverbe) et sur leur lemme
("lispifions" —> "lispifer&V" / "lispifier&V" / "lispifion&N").
Les tournures composées sont le plus souvent des termes (groupes nominaux comme "laser de
fréquence" ou "pilule du lendemain"), mais il y a parfois des constructions verbales, comme "coder
pour" en génétique. (Voir le chapitre 9 sur la construction de ressources terminologiques.) Il existe
un certain nombre d'extracteurs terminologiques, comme dans la "suite multilingue" XMS1 de
Xerox. Leur principe repose sur un repérage de schémas de suites d'occurrences, de lemmes ou de
catégories (comme Ncom+de+Ncom), et sur un calcul statistique de leur pertinence. Ainsi, "pilule du
lendemain" ne sera considéré comme une tournure que s'il est assez fréquent dans le texte analysé.
On établit ainsi une ou deux listes des candidats (mots simples et tournures composées) et on les
propose à l'utilisateur, traducteur ou lexicographe, qui peut alors rechercher les équivalents possibles
et les apprendre ou les indexer dans les dictionnaires de TAO.
Certains environnement de TA, comme ETAP-2 de l'IPPI à Moscou, analysent les tournures trouvées
et en proposent des traductions "compositionnelles", qu'on peut ensuite éditer. Par exemple, "pill of
tomorrow" / "pill of the next day" /…
iii.
Préparation des textes à traduire
a.
Correction
La correction est automatisable grâce à divers outils courants : correcteurs orthographiques,
grammaticaux, stylistiques, et nous n'en dirons rien de plus.
b.
Normalisation
La normalisation concerne le choix de termes ou d'acronymes préférés ou imposés dans le cadre du
document à traduire (il ne peut s'agir ici que de l'écrit). Cette fonction est largement automatisable, et
est parfois incluse dans les correcteurs stylistiques. Elle nécessite évidemment une spécialisation du
dictionnaire, car le terme préféré parmi un ensemble de synonymes varie selon le contexte. Par
exemple, "avion", "appareil", "aéronef", "machine", "piège", en aéronautique (langage populaire,
technique, réglementaire, familier, argotique).
c.
Simplification
La simplification vise à rendre un texte plus facile à traduire, en le transformant en une suite de
phrases simples, et en explicitant les éléments élidés. Plusieurs systèmes commerciaux japonaisanglais (Duet-2 de Sharp, AS/Transac de Toshiba…) proposent ainsi de découper les phrases en
phrases simples, et d'expliciter les sujets et objets des verbes, souvent omis. En français, on
proposera de même de découper les phrases en phrases plus simples, d'éliminer le plus possible les
pronoms, d'éviter les constructions compliquées (empilement de modaux, dépendances à longue
distance…) et les énumérations imbriquées.
Plus on pousse la simplification, plus on se rapproche de la technique du "langage contrôlé",
largement répandue dans le cadre de la rédaction technique (ex: norme AECMA pour l'anglais des
manuels des constructeurs aéronautiques). De nombreux outils de simplification existent. Ils aident à
rédiger plus clairement pour les lecteurs humains. En pratique, les rédacteurs n'arrivent pas à
simplifier à 100%. Mais, si 90% des énoncés sont écrits dans un langage contrôlé connu des auteurs
d'un système de TA, le système pourra être spécialisé, il y aura beaucoup moins d'ambiguïtés, et la
qualité de traduction "brute" en sera considérablement améliorée.
1
Xerox Multilingual Suite.
16/41
Ingénierie des Langues et de la Parole
d.
Ch. Boitet
Annotation
On peut enfin annoter le texte, pour supprimer par avance un certain nombre d'ambiguïtés. Les
annotations sur les mots peuvent concerner aussi bien les attributs morphologiques et syntaxiques
comme le genre (mode&F / mode&M) ou la classe (ferme&N / ferme&Adj / ferme&Adv
/ ferme&V) que le sens (ferme_maison / ferme_charpente), grâce à des gloses renvoyant ensuite à
des sens dans le dictionnaire.
Il peut être aussi très utile de marquer les groupes de mots fonctionnant comme des termes ou des
noms propres, en particulier les noms de marque et les valeurs d'items de menus. Par exemple, "pour
enregistrer votre fichier, cliquez sur <NPimp> Enregistrer sous… </NPimp>", ou "He then
switched_change to <NPmark> MicroSoft&Nfirm Office&NP </NPmark> opposé à "He then
switched_dial to MicroSoft office&N".
Enfin, on peut aider puissamment les analyseurs en mettant des annotations structurelles. Par
exemple, "l'école de <C> cuisine grenobloise </C>" opposé à "<C>l'école de cuisine </C>
grenobloise".
L'annotation des textes peut être très largement automatisée, mais comporte nécessairement une
phase interactive dans laquelle l'utilisateur choisit entre plusieurs possibilités présentées dans un
menu, ou manipule directement une représentation arborescente comme la vue "plan" de Word. Des
outils existent, mais ils sont encore très partiels. Dans le futur, on verra certainement apparaître des
éditeurs conviviaux cachant ou montrant ces marques à volonté, et permettant de les insérer
indirectement, comme les éditeurs html si répandus aujourd'hui.
2.2 Automatisations de la traduction proprement dite
Automatisations de la traduction proprement dite
L'automatisation du processus de traduction peut être totale, partielle, ou apparente.
i.
Traduction automatique
La traduction automatique vise à l’automatisation totale : on traite le texte en langue source de façon
totalement automatique, à la façon d’un compilateur classique de langage de programmation.
Malheureusement, il est vite apparu qu’on ne pouvait obtenir l’équivalent d’une traduction brute
professionnelle par cette méthode, sauf sur des typologies très restreintes.
ii.
Traduction semi-automatique & variantes
On a donc construit des systèmes semi-automatiques utilisant des interventions humaines au cours du
traitement. La première idée est d’interroger l’utilisateur dès qu’un problème se présente. C’est le cas
de systèmes comme ITS à BYU (Provo, Utah, 1972-80), CAT de Weidner, Transactive de ALPS,
etc. Mais l’ergonomie est mauvaise : les utilisateurs sont esclaves de la machine, ils doivent répondre
à des questions locales qu’un système devrait résoudre tout seul (ex : "il lit le livre" —> « livre N ou
V ? », comme dans "le grand lit le livre"), et l’ordre des questions, imposé par l’algorithme
implémenté, ne correspond pas à une stratégie "humaine". De plus, les questions utilisent en général
des termes techniques et s'adressent donc à des spécialistes. Parfois, comme dans ITS, il fallait même
un spécialiste bilingue par couple de langues.
La seconde idée, plus récente, est de faire intervenir l'utilisateur uniquement en langue source, après
une analyse aussi complète et robuste que possible, produisant une représentation contenant les
ambiguïtés (syntaxiques et sémantiques) relatives aussi bien à la langue source qu'aux langues cibles
visées. Par exemple, si on traduit à partir du français vers plusieurs langues dont l'allemand,
17/41
Ingénierie des Langues et de la Parole
Ch. Boitet
"capitaine" sera ambigu, et le résultat d'analyse contiendra au moins 4 sens pour ce mot ("Kapitän",
"Hauptmann", "Artilleriechef", "Rittmeister").
La difficulté est de construire un dialogue de désambiguïsation interactive convivial, n'utilisant
aucune connaissance des langues cibles visées, aucune notion spécialisée de grammaire ou de
linguistique, et aucune représentation complexe comme des arbres ou des graphes. Comme l'a
montré le projet LIDIA [Boitet & Blanchon 94], on peut y arriver grâce à des rephrasages simples
construits à partir des mots de l'énoncé source.
iii.
Suggestion par mémoire de traduction
La technique actuelle de mémoire de traduction consiste à retrouver un ou plusieurs énoncés sources
déjà traduits et très voisins de l'énoncé à traduire, à montrer les différences (mots retirés ou ajoutés),
et à proposer leurs traductions. On ne peut donc pas vraiment parler de traduction automatique,
puisqu'aucun processus de traduction n'est mis en œuvre. Évidemment, si la coïncidence est exacte,
le résultat est excellent, puisqu'il s'agit d'une traduction révisée, sauf bien sûr si l'énoncé est ambigu
et si la traduction correspond à une interprétation erronée dans le contexte.
Pour qu'on puisse parler de traduction automatique, il faudrait pouvoir détecter les correspondances
entre les différences entre l'énoncé à traduire et les exemples trouvés, et modifier les traductions des
exemples en conséquence. Cela n'est devenu possible que très récemment, et il faut pour cela utiliser
des mémoires "à étages" (transcription de base comme XML, mots, lemmes et termes, balises…), et
faire l'hypothèse simplificatrice (mais efficace si la mémoire est grande) qu'à un des étages, les
exemples à chercher doivent contenir l'énoncé à traiter [Planas 1999].
2.3 Automatisations de la révision
On peut envisager d'automatiser la révision de trois façons : en réparant les erreurs humaines ou
machinales, en intégrant des fonctions spécialisées au traitement de texte, et, dans de futurs systèmes
de TAO, en intégrant révision humaine et génération automatique.
i.
Réparation d'erreurs humaines ou machinales
Pour réparer les erreurs, on commence par utiliser les correcteurs dont on a parlé plus haut
(orthographiques, terminologiques, grammaticaux, stylistiques).
ii.
Aides au niveau du traitement de texte
a.
Mise en relief de fragments douteux
Au niveau du traitement de texte, il est d'abord possible de mettre en relief les fragments douteux.
Les traducteurs humains le font parfois, en mettant leurs doutes sous forme d'annotations. Un
système de TA peut aussi être construit pour fabriquer des marques de doute. Par exemple, traduisant
en anglais "Dites-moi quelle agence gère ce bureau", on pourra produire "Tell me which <??SujObj>
branch </??> manages this office".
b.
Production de traductions alternatives
Dans d'autres cas, quand l'ordre des mots reste le même dans les traductions possibles, on peut
produire des traductions alternatives présentées de façon conventionnelle. Par exemple, en traduction
du russe en français, on trouve des passifs homographes au présent et au passé : "la fusée est [[a été]]
lancée de Baikonour". Ces traductions alternatives peuvent être présentées de façon spéciale, par
exemple en mettant en relief la traduction principale (surlignage, inversion vidéo…), et en montrant
les autres dans un menu si on clique dessus (systèmes Taifun et Tsunami en JP-EN).
18/41
Ingénierie des Langues et de la Parole
c.
Ch. Boitet
Macros, abréviations…
Enfin, comme cela a été fait pour la première fois à la PAHO2 (systèmes ENGSPAN et SPANAM),
on peut développer des macros adaptées à certaines corrections typiques, par exemple la permutation
de 2 ou 3 groupes de mots, ou le passage de tout un groupe de mots du singulier au pluriel ou
inversement, de façon simpliste (ajout ou retrait du "s" final, les cas différents étant ajustés à la
main).
iii.
Aides intégrées à la génération automatique (possibilité future)
Bien que cela n'ait à notre connaissance pas encore été fait, il semble enfin tout à fait possible, si on
dispose d'un système de TA modulaire avec génération autonome, d'intégrer la génération
automatique à la révision. Par exemple, on pourrait remplacer partout "sentinelle" par "gardien", et
obtenir automatiquement la modification correspondante du genre des articles et adjectifs dépendant
de ce mot, pour une ou plusieurs occurrences bien sûr. Pour cela, il suffit de remplacer un lemme par
un autre dans l'entrée du générateur (en général, un arbre décoré), et de le relancer.
2.4 Organisation globale des travaux de traduction
Toutes les étapes de la traduction peuvent donc être automatisées, totalement ou partiellement. Il en
va de même de l'organisation globale des travaux de traduction.
i.
Serveurs pour différentes étapes
D'abord, les traitements automatiques possibles pour chaque étape peuvent être implémentés sur des
serveurs. Ainsi, la préparation des documents dans des systèmes de THAM comme EuroLang
Optimizer ou XMS est déportée sur un serveur.
ii.
Quelques ateliers de traduction
Ensuite, la traduction de grosses documentations demande la participation de plusieurs traducteurs,
réviseurs, et coordinateurs. C'est pourquoi toutes les offres de systèmes de THAM professionnels
contiennent maintenant un "atelier de traduction" destiné à automatiser la gestion des travaux. On fait
passer les documents par différents processus automatiques, on distribue leus parties à plusieurs
traducteurs et réviseurs, et on peut savoir à tout moment où en est le traitement de chaque partie.
I.3 Évaluations possibles
Du point de vue de l'utilisateur, comment évaluer les systèmes existants ?
3.1 Grande variété des grilles
L'évaluation des systèmes de TAO est un thème qui a déjà fait couler beaucoup d'encre depuis 50
ans. Depuis que les systèmes de TA-dépistage sont devenus des logiciels grand public, on voit
régulièrement des études comparatives dans diverses revues. Il y a en fait une grande variété de
critères possibles.
On peut par exemple distinguer entre critères internes et externes. Les premiers, qui intéressent peu
les utilisateurs, concernent l'architecture linguistique et algorithmique du système. Les seconds sont
statiques ou dynamiques : on juge un état d'un système ou ses possibilités d'évolution. Détaillons les
premiers, qui donnent lieu à des notes subjectives ou objectives.
2
Pan American Health Organization (Washington, D. C.).
19/41
Ingénierie des Langues et de la Parole
Ch. Boitet
3.2 Notes subjectives
Les critères externes subjectifs les plus classiques sont la lisibilité, l'intelligibilité, la fidélité et la
souplesse d'emploi. On ne peut les évaluer que par enquête auprès d'un échantillon d'utilisateurs.
i.
Lisibilité
La lisibilité est assez difficile à définir. Y participent non seulement la grammaticalité, mais aussi la
gravité des erreurs les plus fréquentes, le rendu du formatage initial, la présentation typographique
des annotations (doutes, traductions multiples), et la mise en correspondance avec l'original. Pour
donner une note de lisibilité, il ne suffit pas de mesurer la vitesse de lecture, il faut aussi interroger
sur l'impression d'ensemble.
ii.
Intelligibilité
L'intelligibilité s'entend d'abord énoncé par énoncé, après quoi on calcule une moyenne pour un
texte. Elle reflète l'effort qu'il faut faire pour comprendre l'énoncé lu et être capable de le "rephraser"
de façon correcte, indépendamment du fait qu'il soit une bonne ou une mauvaise traduction de
l'original.
iii.
Fidélité
La fidélité est la qualité de la transmission du "message" exprimé par un énoncé, dans son contenu
comme dans sa forme. Ainsi, une paraphrase exacte sera jugée moins fidèle qu'une traduction
littérale.
iv.
Souplesse d'emploi
Enfin, la souplesse d'emploi relète la facilité d'installation, de paramétrage, d'activation et de
modification du système. Par exemple, s'il y a de multiples dictionnaires dans lesquels on choisit une
liste avec priorités, il s'agit de la qualité de l'interface permettant de construire ces listes, de les
modifier, de les nommer, de les associer à des types de documents, etc. Quant à la modification, il
s'agit de l'environnement qui permet de modifier les dictionnaires, et (cas plus rares) les grammaires
et algorithmes du système.
3.3 Notes objectives
Les critères objectifs sont essentiellement la grammaticalité, l'exactitude terminologique, le coût de
la TA (prix, temps, espace), le temps de révision, et le temps d'ajustement des dictionnaires.
i.
Grammaticalité
Pour noter la grammaticalité, on fait comme les professeurs de langue : on repère les types de fautes,
on attribue un coefficient à chacun, et on compte les erreurs. Soit Sp la somme pondérée ramenée à
100 mots ou à une page de 250 mots. On dira alors qu'il y a Sp fautes sur 100, ou par page. Pour
obtenir une note entre A et B (0 et 20 par exemple), on retire k points par faute pondérée, en
s'arrêtant à 0 : N = max (A, B-k*Sp), k étant choisi pour que les notes obtenues correspondent à
l'impression d'ensemble (sur 20 : 18=excellent, 16=très bien, 14=bien, 12=assez bien, 10=passable,
etc.).
ii.
Exactitude terminologique
L'exactitude terminologique semble un peu moins objective, des termes différents étant utilisés dans
différents contextes. Il faut donc bien préciser de quel contexte il s'agit, et s'assurer que le système
mesuré offre bien un vocabulaire spécialisé adéquat et… utilisé lors de la mesure. Ensuite, on
compte et on note comme précédemment.
20/41
Ingénierie des Langues et de la Parole
iii.
Ch. Boitet
Coût de la TA (prix, temps, espace)
Le coût du système de TA comporte son prix d'achat et de maintenance, et son coût en temps et en
espace.
Le coût en temps, évalué comme le temps de calcul, ou le nombre de mots traduits à l'heure, est
souvent présenté comme très important. Mais cela dépend de la situation traductionnelle. Le "bon"
critère est plutôt le temps d'attente de l'utilisateur, qui comporte aussi le temps de tous les traitements
annexes, souvent au moins aussi longs (filtres, segmentation, gestion, soumission par réseau…). Si
on navigue sur la Toile, le délai doit être de l'ordre de la seconde pour une page, et la qualité produite
peut être basse. Si on traduit une grosse documentation technique, un délai de quelques heures est
acceptable — mais il faut obtenir une qualité bien plus élevée.
Le coût en espace des systèmes de TA est en général très raisonnable, comparé à celui d'utilitaires
classiques comme Microsoft Office. Par contre, la place prise par les mémoires de traduction dans
les systèmes de THAM peut être énorme (plusieurs gigaoctets à l'UE), et le temps de recherche dans
ces mémoires peut aussi être beaucoup plus élevé que le temps de TA sur le même processeur. C'est
pourquoi ces très grosses mémoires sont exploitées par des processeurs parallèles très puissants.
iv.
Temps de révision
Nous appelons souvent "traduction du réviseur" la traduction-diffusion. En effet, le réviseur est
l'utilisateur direct du résultat de la TA, et le coût de révision domine tous les autres. Mais il n'est
évaluable que si la qualité de la TA est assez bonne pour que le réviseur accepte de réviser. À titre
indicatif, sachant qu'un réviseur met en moyenne 20 mn pour réviser une page de 250 mots traduite
en 1 h par un traducteur humain, 30 à 35 mn de révision semble être le seuil d'acceptabilité. Au delà,
le réviseur préfère produire directement la traduction, en s'aidant éventuellement du résultat de la TA
comme d'une aide dictionnairique en contexte.
Dans les situations favorables, le temps de révision de la TA peut descendre en-dessous du temps de
révision de la traduction humaine, après une période d'adaptation au système. En effet, les erreurs de
TA sont en général plus systématiques que les erreurs humaines, et le réviseur a moins de réticence à
corriger une traduction produite par une machine qu'une produite par un collègue, qui reçoit souvent
en retour son texte annoté. Siemens a parlé de 10 à 15 mn de révision par page avec METAL
(allemand-anglais). L'équipe russe du GETA est arrivé au même temps en régime de croisière (russefrançais). Enfin, les réviseurs des bulletins météorologiques traduits par METEO au Canada arrivent,
dans ce cas très favorable, à 1 à 2 mn par bulletin (de 100 à 200 mots).
v.
Temps d'insertion dans les dictionnaires
Enfin, on peut mesurer objectivement le temps d'insertion (ou "indexation") de nouveaux articles
dans les dictionnaires du système, en THAM ou en TA. Dans le cas de la TA, les informations
demandées à l'indexeur sont celles nécessaires à la THAM, augmentées d'autres plus spécialisées
(codes syntaxo-sémantiques, rections).
À titre d'exemple, les projets Esope (ADI, 1982-86) et Eurolang (Eureka, 1992-95) ont évalué à 20
mn le temps passé pour trouver le ou les équivalents d'un terme dans une autre langue et pour leur
associer les codes primaires (classe morphosyntaxique, paradigme), et à 10 mn le temps d'indexation
des informations spécifiques de la TA. On ne parle pas ici des temps d'indexation des éléments des
classes fermées (auxiliaires, articles, prépositions, pronoms, conjonctions, particules…), car ils
appartiennent au modèle de la langue et sont indexés une fois pour toutes par les constructeurs du
système de TA.
21/41
Ingénierie des Langues et de la Parole
II.
Ch. Boitet
Technologie de la TAO « experte »
Après ce bref survol de la TAO du point de vue des utilisateurs, il est intéressant de "soulever le
capot" et de voir comment les systèmes sont construits.
De façon générale, un système de TA doit combattre deux obstacles essentiels, la polysémie et la
synonymie, c'est à dire résoudre les ambiguïtés lors de l'analyse et du transfert (dans les systèmes à
transfert), et choisir entre diverses paraphrases possibles en génération. Dans les systèmes directs,
ces deux opérations sont confondues, mais le problème reste.
On donnera d'abord une vue synthétique des caractéristiques essentielles qui permettent de classer les
systèmes de TA, puis des exemples de systèmes, et enfin des détails sur certaines de ces
caractéristiques.
II.1
Caractéristiques essentielles et exemples de systèmes
On peut distinguer des caractéristiques linguistiques et informatiques.
1.1 Caractéristiques linguistiques
Les caractéristiques linguistiques sont :
• l'architecture linguistique, qui va du direct au pivot interlingue avec ou sans ontologie en
passant par le transfert syntaxique, sémantique ou multiniveau ;
• les sources de connaissances (de la liste de formes à l'ontologie) ;
• les structures de données pour les représentations intermédiaires : liste, arbres, graphes de
chaînes, treilles, ou hypergraphes pour la partie "géométrique", chaînes, étiquettes, attributs,
décorations, structures de traits, formules logiques pour la partie "algébrique".
1.2 Caractéristiques informatiques
Les caractéristiques informatiques sont :
• les approches algorithmiques (déterministe, heuristique, combinatoire, avec éventuellement
usage de préférences, statistiques ou poids) ;
• les langages d'implémentation des données et des processus linguistiques, qui vont du
macroassembleur aux langages spécialisés de règles, tous les systèmes ayant un langage
spécifique pour les dictionnaires ;
• la place et le degré de l'interactivité : pendant ou après certaines phases du traitement.
1.3 Types de systèmes existants ou prototypes
i.
Tableau
22/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Systèmes
complets
Constructeur
Début Archi
LgLing Conn Sdon
Systran
Latsec/Systran
1967 Direct
210
3210 LCB
D
0
AS-TRANSAC
Toshiba
1980 Trans-synt
521
321S ACB
H
0
TransActive
ALPS
1980? Direct
21
3210 LCB
D
1
METEO
TAUM,
Chandioux
5
321
GEB
D
0
CAT
Weidner
1981? Direct
21
3210 LCB
D
1
Logos
Logos
1981? Trans-synt
421
3210 ACB
H
0
PIVOT
NEC
1983? Trans-sém
421
3210 ACB?
D
0
Spanam/Engspan PAHO
1984? Trans-synt
5421
3210 ACB?
H
0
Ariane/RU-FR
81-87 Trans-multiniv
51
321P ATCD
HC
0
GETA
puis 1981 Direct
3
4
5
Algo
6
Inter
Ariane/aero/F-E B’Vital/SITE
85-95
ATLAS-I
Fujitsu
1985 Direct
210
3210 LCB
D
0
METAL
SNI/Austin
1985 Trans-synt
531
321W AEB
HC
0
ATLAS-II
Fujitsu
1986 Pivot-interling
521
321W HE
D
0
DUET
Sharp
1986? Trans-synt
521
321W AEB
C
4
HICAT
Hitachi
1986? Trans-synt
521
321
AED
HC
0
Pensée
OKI
1987? Trans-synt
?
?
?
?
0
Shalt-II
IBM
1988? Trans-synt
521
321W AED
H
0
Power Translator Globalink/ L&H 1991 Direct
21
21
LCEB
D
0
MAJESTIC
JICST
1992 Trans-sém.
521
321
AED
HC
0
KANT
CMU
1992 Pivot-ontol
51
4321P A
HC
12
LMT
IBM
1992? Trans-synt
531
321W AL
HC
2
Reverso
Prompt/
1997 Direct
421
321
D
0
3
LCEB
7
LgLing = langage d'implémentation des données et traitements linguistiques. 0 = bas niveau (macros assembleur), 1 =
langage spécialisé pour dictionnaires, 2 = langage algorithmique général (Pascal, C), 3 = langage de très haut niveau
(Lisp, Prolog), 4 = langage codé de règles, 5 = langage symbolique de règles.
4
Conn = sources de connaissances. 0 = chaînes de caractères, 1 = morphologie, 2 = syntaxe, 3 = sémantique interne, 4 =
sémantique externe (ontologie), S = statistiques, P = préférences, W = poids.
5
Sdon = structures de données. L = liste, A = arbres, G = graphes de chaînes, T = treilles, H = (hyper)graphes, C =
chaînes, E = étiquettes, B = attributs, D = décorations, F = structures de traits, L = formules logiques.
6
Alg = approche algorithmique. D = déterministe, C = combinatoire, H = heuristique, F = filtres, P = préférences, S =
statistiques, W = poids.
7
Inter = interactivité. 0 = aucune, 1 = pendant l'analyse, 2 = après l'analyse, 3 = durant le transfert, 4 = après le transfert,
5 = durant la génération, 6 = après la génération.
23/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Softissimo
Web Translator
?
1995? Direct
421
321
LCEB
D
0?
ALT/JE
NTT
1989? Trans-sém
432
321
AED
HC
0
ALT/Flash
NTT pour Nikkei 1998 2 moteurs: Direct 432
+ Trans
321
LC
AED
+ D+HC 0
Prototypes Labos
Dates Archi
LgLing Conn Sdon
Algo Inter
Ntrans
Projet ALVEY
83-87 Trans-sém
51
321
AEB
C
CAT2
IAI
87-
51
321
AECB HC
0
LIDIA
GETA
90-95 Trans- multi+ acc. IL 51
321
ATCB CP
2
UNL
UNU/IAS & coll. 1996- Pivot-IL (interlg)
51
321W HCB
JETS
IBM-Japon
521
321
Trans-sém
93-98 Trans-synt
H
AEBL C
2
1246
2
(Les groupes participant à UNL mettent actuellement en œuvre des stratégies variées, on peut avoir
plusieurs types d'encodeurs et de décodeurs pour chaque langue.)
ii.
Commentaires sur les systèmes
À développer.
II.2
Architectures linguistiques possibles
2.1 Le triangle de Vauquois : approches directes, à transfert, ± sémantique, à interlingue,
à ontologie
Les architectures possibles se déduisent facilement du "triangle de Vauquois".
i.
TAO directe ou semi-directe
En TAO directe, on effectue des remplacements de chaînes et des réarrangements. Parfois, l'analyse
va jusqu'à produire des arbres syntaxiques (METEO), mais l'essentiel est que l'analyse est faite en
fonction de la langue cible : on remplace dès que possible les lexèmes sources par des lexèmes
cibles. L'algorithme est aussi toujours déterministe : en cas d'ambiguïté, on décide, sans possibilité de
retour en arrière ni de stockage de solutions alternatives, sur la base du contexte immédiat.
24/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Deep understa
nding level
Ontologicalinterlingua
Architekturen: Vauquois Dreieck
(größer)interlingua
Semantico-linguistic
Interlingual le
vel
Conceptual transfer
Semantic transfer
Logico-semant
ic level
Mixing levels
Syntactico-functio
nal level
Syntagmatic
level
SPA-structures (semantic
& predicate-arg
ument)
Ascending transfer
Multilevel transfer
Multilevel descriptio
n
Syntactic transfer (deep)
F-structures (functional)
Syntactic transfer (surface
)
C-structures (constituent)
Morpho-syntac
tic level Semi-direct translatio
n Descending transfers
Graphemic leve
l
Ch.!Boitet
Direct translation
Humboldt 2001 — Zukunft der MÜ, 16/11/2001
Tagged tex
t
Text
6/28
En TAO semi-directe, l'analyse produit un descripteur structural dépendant uniquement de la langue
source, à un niveau d'interprétation linguistique assez bas (au plus syntagmatique), et on ne calcule
pas de descripteur autonome pour l'énoncé cible. Il n'y a donc pas d'étape de génération indépendante
de la langue source. C'est le cas de METAL et de Shalt-II.
ii.
TAO par transfert
Le choix entre les différents types de transfert dépend des couples de langues visés. Si on s'attaque à
des langues de la même famille, romanes par exemple, le transfert syntaxique bas peut suffire. Cela
veut dire qu'on a relativement peu de transformations structurales à effectuer sur les arbres
syntagmatiques. Par contre, si on passe par exemple de langues romanes à des langues slaves ou
germaniques, il faut très souvent traduire un groupe nominal par une proposition, etc. Le transfert
"haut", qui s'appuie sur les relations de dépendance (ou fonctions syntaxiques) comme sujet, objet,
complément… convient souvent. Mais si l'on veut passer à des langues non indo-européennes, ou
réduire à sa plus simple expression le transfert structural, il convient d'analyser jusqu'au niveau
logique (prédicats et arguments) et sémantique (relations sémantiques sur les circonstants au moins).
L'idée du transfert multiniveau, introduite par B. Vauquois, vient de la pratique. Il arrive souvent
qu'on échoue dans l'interprétation fonctionnelle, prédicative ou sémantique des relations entre mots u
groupes de mots. Si on utilise une approche purement séquentielle, on obtient alors en fin d'analyse
un descripteur partiel ou douteux. Garder sur un même graphe (en général arborescent) les niveaux
bas en même temps que les niveaux hauts contitue une sorte de "filet de sécurité". Cela est d'autant
plus important que les unités de traduction sont plus grandes, puisque la probabilité d'échec de
l'analyse au plus haut niveau tend vite vers 1 si on passe d'un énoncé à plusieurs paragraphes ou
plusieurs pages.
25/41
Ingénierie des Langues et de la Parole
Ch. Boitet
D'autre part, on peut alors coder en transfert des règles de préférences stylistiques comme des ordres
ou des conseils au générateur, par le biais d'attributs tactiques. Par exemple, on peut transformer la
voix passive en indéterminé, et le générateur essaiera de produire cette construction. Si cela est
impossible, il tentera de produire l'une des constructions moins prioritaires. Par exemple, si l'attribut
tactique LOCK contient la valeur VOIX, cela voudra dire qu'on impose la voix, et le générateur
pourra fabriquer une périphrase complexe pour satisfaire cette contrainte.
iii.
TAO par pivot
Un "pivot" n'est pas nécessairement un interlingue. Ce peut être un texte, éventuellement annoté et
parenthésé, dans une langue arbitraire (espéranto dans le cas du projet DLT de BSO research). Ce
peut aussi être une représentation plus ou moins abstraite dans une langue particulière, par exemple
un arbre syntaxique, sémantique ou multiniveau de l'anglais. On a alors un "double transfert".
Mais, le plus souvent, on cherche à construire un pivot "interlingue", dans lequel les éléments
lexicaux renvoient à des "sens de mots" ou "acceptions interlingues". C'est le cas du système
ATLAS-II de Fujitsu et du projet UNL. Dans ce cas, on a encore le choix entre n'utiliser que des
attributs universels (logiques et sémantiques) et introduire aussi des attributs également abstraits
mais non universellement nécessaires (comme le sexe, la pluralité, la modalité…).
Enfin, de rares systèmes récents comme KANT/CATALYST (CMU+Caterpillar) et Pangloss (CRL,
New-Mexico) utilisent une "ontologie" (description formalisée du domaine d'interprétation des textes
à traduire). Construire une ontologie est très coûteux, et ne se justifie économiquement pas si
l'ontologie n'est utilisée que pour la traduction. De plus, il y a alors de gros problèmes de
maintenance. Par contre, si l'ontologie est développée et maintenue pour d'autres applications comme
la CFAO ou la génération multilingue de notices, cela vaut vraiment la peine.
2.2 Systèmes multilingues
Choisir une "meilleure" architecture pour un système multilingue dépend de la situation
traductionnelle.
i.
Systèmes monosources et multicibles
Pour un système monosource et multicible, les architectures par transfert conviennent fort bien, à
condition de choisir le bon niveau en fonction de la "distance" des langues cibles. Cela permet aussi
de produire assez facilement des traductions très précises, et tenant compte des contraintes
stylistiques, puisqu'on joue à chaque fois sur le contraste entre deux langues. L'analyse étant partagée
dès qu'on fait au moins du transfert, on peut aussi la travailler dans le détail.
ii.
Systèmes multisources et monocibles
Par contre, pour un système multisource et monocible, on est contraint par des raisons économiques
à produire des analyseurs beaucoup moins sophistiqués. Il vaut alors mieux viser la traductionassimilation (TA du veilleur).
iii.
Systèmes multisources et multicibles
Enfin, dans le cas d'un système multisource et multicible, on a intérêt, à partir d'un certain nombre de
langues, à utiliser une approche par pivot interlingue. Si l'on estime que construire un dictionnaire
entre une langue et le pivot coûte 3 fois plus que construire un dictionnaire de transfert entre deux
langues, ce qui est optimiste au vu des problèmes rencontrés dans les systèmes à pivot interlingue,
cette architecture devient intéressante à partir de 8 langues : l'architecture pivot coûte 6n, et
l'architecture transfert "naïve" (on construit tous les transferts possibles) n(n-1), ce qui est inférieur si
n*(n-7)<0, soit n!8.
26/41
Ingénierie des Langues et de la Parole
Ch. Boitet
2.3 Le faux problème du coût quadratique du transfert multilingue
Profitons-en pour tordre le cou à l'idée selon laquelle l'approche transfert mène nécessairement à un
coût quadratique en fonction du nombre de langues. Ce fut l'un des grands reproches faits au projet
Eurotra de l'UE (1982-1992), qui adopta l'approche naïve. En effet, il suffit de prendre comme pivots
non interlingues les descripteurs structuraux de la langue la plus importante, ou des langues les plus
importantes, du point de vue des flux de traduction, qui ne sont jamais égaux en pratique (ex: anglais,
français, allemand à l'UE), et d'écrire les transferts entre ces langues et entre ces langues et toutes les
autres. Avec p langues utilisées pour ces "pivots structuraux" et n langues au total, on écrit donc
p*(p-1)+2p*(n-p) = p*(2n-p-1) transferts. Le coût d'une architecture pivot est supérieur au coût
précédent si p = 1, 2, 3, 4. Bien sûr, on fait des doubles transferts pour les couples les moins
importants, mais c'est ce qu'on fait toujours avec un pivot interlingue !
II.3
Sources de connaissances
Les sources de connaissances utilisables pour construire un système de TA sont d'abord
symboliques : linguistiques (lexique, grammaire, étude précise d'un typologie), sémantiques
"internes" (propriétés véhiculées par la langue comme les relations sémantiques via les prépositions,
etc.), sémantiques "externes" (ontologie), et pragmatiques (situation et locuteur dans un dialogue).
De plus, on utilise souvent des connaissances "stratégiques" qui permettent d'améliorer la résolution
automatique des ambiguïtés. Elles se présentent soit comme des "préférences" (symboliques), soit
comme des statistiques (fréquences de bigrammes, trigrammes…) ou des poids (coefficients de
confiance). Une direction assez récente consiste à marier les connaissances symboliques et
numériques, ces dernières étant obtenues par apprentissage de de gros corpus.
II.4
Structures de données pour les représentations intermédiaires
Les structures de données utilisées pour les représentations intermédiaires sont assez variées. Le plus
souvent, on a une structure "géométrique" dont certains éléments portent des informations
"algébriques". Par exemple, on utilise souvent des arbres (orientés et ordonnés) étiquetés ou décorés.
Pour la géométrie, outre les arbres, on utilise les listes, les graphes, les réseaux, et les hypergraphes.
Dans la partie algébrique, on trouve des étiquettes simples (AIMER, GN, Art…), des listes de traits
booléens (+plur, -anim…), des attributs structurés ou décorations, et des structures de traits
complexes, typées ou non.
Ce qu'on exprime géométriquement est le plus souvent lié à l'hypotaxe et à la parataxe, car, dans une
liste, on peut avoir des répétitions. Ce qu'on exprime algébriquement est plutôt lié à la théorie des
ensembles. On peut ainsi exprimer des contraintes d'accord (ex: intersection non vide entre une
valence de rection d'un prédicat et une valence d'état d'un régisseur) ou affecter des valeurs
ensemblistes.
Le choix de ces structures est extrêmement important, car il détermine la complexité des opérations
élémentaires et l'aisance de programmation. Il faudrait ici une longue discussion comparative, mais
la place manque. Disons seulement qu'un des meilleurs choix consiste à utiliser un graphe de chaînes
ou une treille d'arbres décorés (réseaux sans circuit à une entrée et une sortie, les arbres étant sur les
arcs dans les graphes et sur les nœuds dans les treilles). L'ambiguïté peut alors être représentée dans
le graphe/treille, dans les structures arborescentes (arbres et/ou), ou dans les décorations (attributs
ensemblistes, valeurs indéterminées). Utiliser des arbres plutôt que des graphes dans les calculs
complexes de reconnaissance de schémas permet de diminuer considérablement la complexité des
calculs, car on peut "diviser pour régner".
27/41
Ingénierie des Langues et de la Parole
II.5
Ch. Boitet
Approches algorithmiques (déterministe, heuristique, combinatoire)
Les systèmes de TA de "première génération" sont entre autres caractérisés par une approche
déterministe. Dès qu'une ambiguïté se présente, on la résout localement, sans possibilité de revenir
plus tard en arrière, ni de développer plusieurs solutions en parallèle pour choisir plus tard. C'est le
cas de tous les traducteurs de parges Web, Systran, Globalink, Reverso, Taifun, Tsunami, etc.
Comme les langues naturelles sont intrinsèquement ambiguës, il est impossible de garantir qu'une
telle suite de décisions locales corresponde à une analyse globale correcte de l'énoncé.
Par contre, les systèmes de deuxième génération et plus cherchent à construire une ou plusieurs
analyses complètes. Historiquement, on a d'abord développé des méthodes combinatoires avec filtres
ou préférences fondées sur des grammaires de dépendance (surtout en URSS) ou sur des grammaires
de constituants (CETA). L'idée est de calculer toutes les structures complètes, si possible de façon
factorisée (par programmation dynamique, algorithmes de Cocke en 1961, d'Earley en 1971), puis de
filtrer par une série de contraintes (ex: accord), ou d'effectuer un "tournoi" entre les structures à l'aide
de règles de préférence. On réduit ainsi l'ensemble des candidats à un petit ensemble, on ordonne
arbitrairemement les ex æquo dans le cas du tournoi, et on retient le meilleur.
L'approche heuristique consiste à ne pas développer toute l'arborescence des calculs possibles, mais
seulement une partie. Beaucoup d'analyseurs spécialisés à des typologies particulières utilisent la
technique classique du retour arrière (à la Prolog), le plus souvent sans mise en mémoire des souscalculs intermédiaires, donc sans programmation dynamique. D'autres pondèrent les sous-calculs et
n'en calculent qu'un "faisceau", en développant seulement une certaine fraction des meilleurs à
chaque étape. L'approche heuristique peut aussi consister à utiliser des "fonctions heuristiques"
influant sur un algorithme de base combinatoire (cas des ATN de W.Woods pour la syntaxe et du
langage ATEF de J.Chauché pour l'analyse morphologique).
II.6
Langages d'implémentation des données et des processus linguistiques
Enfin, on peut caractériser les systèmes de TA par le type des langages utilisés pour implémenter les
données et les processus linguistiques.
6.1 Langages de bas niveau
Les langages de bas niveau comme l'assembleur ou le macroassembleur ont été et sont encore
parfois utilisés dans des systèmes de 1° génération, pour implémenter les traitements linguistiques
(Systran, CAT, systèmes du VCP à Moscou…).
6.2 Langages spécialisés pour les dictionnaires
Cependant, presque dès le début de la TA, on a développé des langages spécialisés pour l'écriture
des dictionnaires. Certains sont assez primitifs, les codes étant numériques ou notant directement des
configurations mémoire (ex: X'2F'). Les autres sont symboliques, les codes (ex: VRB1A2) étant
compilés vers des formes internes.
6.3 Langages impératifs classiques (C, Pascal…)
Les langages impératifs classiques ont aussi et sont encore utilisés pour écrire les traitements. Ainsi,
COBOL fut utilisé par l'équipe de Booth à Saskatoon jusqu'à sa dissolution en 1972, PASCAL était
encore utilisé par l'équipe de O.S.Kulagina à Moscou en 1995, Systran a été converti en C vers 1985,
et les systèmes Reverso de Prompt/Softissimo sont basés sur des ATN déterministes écrits
directement en C.
28/41
Ingénierie des Langues et de la Parole
Ch. Boitet
6.4 Langages de haut niveau (Lisp, Prolog)
Les langages de haut niveau comme Lisp et Prolog, qui contiennent des primitives de contrôle très
élaborées (reconnaissance de schémas et réflexivité pour l'un, non-déterminisme, unification, et
parfois coroutinage et contraintes pour l'autre), ont aussi été utilisés, mais de façon un peu moins
directe. La première voie, consistant à écrire directement dans un tel langage, n'a pas été utilisée pour
de réels systèmes.
La seconde consiste à implémenter un langage spécialisé comme les ATN (W.Woods 1970),
LINGOL (H.Tanaka 1978), les grammaires de métamorphose (Colmerauer 1975) ou les DCG
(Warren & Pereira 1978) dans un tel langage, tout en laissant à l'utilisateur la possibilité de définir
des fonctions ou des prédicats ad libitum. Par exemple, dans le système METAL, l'analyseur
syntaxique utilise un formalisme de grammaires hors-contexte étendues, où les actions associées aux
règles sont des fonctions Lisp arbitraires. Il y a là deux dangers : il est très difficile de réimplémenter
les linguiciels dans un langage plus efficace comme C, car il faut aussi réimplémenter la partie de
Lisp ou de Prolog utilisée par les développeurs linguistes, et la mise au point comme le débogage
nécessitent des compétences avancées en programmation classique comme en programmation
linguistique.
6.5 Langages spécialisés pour la programmation linguistique
La voie la plus fructueuse s'est révélée être celle des langages spécialisés pour la programmation
linguistique ou LSPL, dont le premier exemplaire fut COMIT au MIT vers 1955-65. Le CETA à
Grenoble systématisa cette voie. Ce genre de langage offre des structures de données et de contrôle
directement adaptées aux besoins d'une classe d'applications linguistique : arbres décorés, graphes de
chaînes, dictionnaires, grammaires, automates, règles, non-déterminisme, reconnaissance de
schémas, résolution de conflits, fonctions heuristiques, etc. Par contre, ils n'offrent pas la plupart des
Structures de données et de contrôle des langages algorithmiques généraux : pas de fonction
d'entrée/sortie, pas de tableaux, pas de nombres réels, pas de boucles explicites, etc.
On peut distinguer les LSPL implémentant des théories linguistiques (comme HPSG, LFG, HPSG) et
ceux qui sont des outils plus généraux (comme les ATN, les systèmes-Q, les langages du CETA puis
du GETA, GRADE du projet MU à Tokyo, DeCo et EnCo du projet UNL, etc.). Pour la TA, mieux
vaut des outils. Parmi ces derniers, on peut encore distinguer les LSPL reposant sur une approche
grammaticale classique et sur une approche par transduction. C'est la fameuse distinction de
B. Vauquois entre analyseurs (ou parseurs) et transducteurs. Ces LSPL sont toujours des langages de
règles.
Le "moteur" d'un LSPL détermine la façon d'appliquer les règles et de résoudre les conflits. On
distingue les modèles d'addition, de substitution et de création. En addition, le résultat d'une
occurrence de règle est ajouté à la structure courante, et on effectue un nettoyage final quand plus
rien ne peut être ajouté (ex: systèmes-Q). En substitution, le résultat d'une règle remplace ce qui a
permis de l'obtenir, et il faut résoudre les conflits (ex: remplacer aa par bb dans aaa peut donner bba
ou abb). Enfin, en création (ex: ATN, ATEF, transducteurs de Xerox), le moteur parcourt la structure
d'entrée en lecture, et construit une structure de sortie distincte, éventuellement mise en
correspondonce avec la structure d'entrée.
Le système TAUM-METEO (1976) fut le premier système de TA totalement écrit dans un unique
LSPL. Le système METEO actuel, écrit en GramR, poursuit cette tradition. Les autres systèmes,
visant des typologies moins restreintes et des langues morphologiquement plus riches, utilisent
plusieurs LSPL adaptés à différentes tâches : analyse et synthèse morphologique, analyse et synthèse
suntaxique, transformation d'arbres, passage de chaîne à graphe et graphe à chaîne. Notons pour finir
29/41
Ingénierie des Langues et de la Parole
Ch. Boitet
qu'il manque encore des LSPL permettant la segmentation et l'analyse morphologique des langues à
systèmes d'écriture sans séparateurs de mots (chinois, japonais, thaï…).
III.
Paradigmes étudiés et projets en cours : renouveaux et nouveautés
La recherche actuelle revient à d'anciennes idées et apporte quelques nouveautés.
III.1 Paradigmes étudiés
Ce sont les approches fondées sur les données, sur l'interaction et la personnalisation, et sur la
connaissance.
1.1 Approches fondées sur les données
L'idée est d'abandonner la construction à la main de règles complexes et de dictionnaires très
détaillés, en mettant en œuvre des méthodes statistiques et/ou en utilisant des exemples de
traductions.
i.
TA statistique (IBM)
La TA statistique surtout étudiée par IBM à York Town Heights est en fait un renouveau des
approches par "décodage" d'après guerre. Partant d'exemples de traductions, on a d'abord cherché à
reconstituer des correspondances entre segments, éventuellement discontinus. Cette approche
statistique sur les chaînes semble avoir échoué : après des calculs gigantesques sur le corpus bilingue
Hansard (débats du parlement canadien), le système Candide d'IBM a été largement battu lors de
tests DARPA par un système Systran non entraîné sur ces textes, dont le résultat n'était déjà pas
fameux. Mais les travaux plus récents d'IBM, qui font des statistiques non sur des chaînes mais sur
des arbres, arrivent à des résultats très intéressants en français, anglais et coréen.
ii.
TA par l'exemple (ATR, NTT)
La TA par l'exemple est un paradigme le plus souvent hybride. À ATR et IBM-Japon, par exemple,
on procède à une analyse assez classique produisant une structure de dépendance, puis on utilise une
base d'exemples de correspondances entre morceaux d'arbres, on construit une meilleure couverture
de l'arbre source, et on en déduit un arbre cible qu'on linéarise classiquement.
E. Planas a récemment pu établir un lien avec les mémoires de traduction, en utilisant des "mémoires
à étages", et en restreignant la recherche à des exemples "proches" au sens d'une distance d'édition
adéquate, et contenant le segment à traduire à un certain étage, par exemple à celui des catégories.
On peut alors établir les correspondances aux niveaux inférieurs et utiliser le dictionnaire bilingue
pour proposer une traduction complète (il manque encore la génération flexionnelle).
iii.
TA par analogie
Le terme de TA par analogie a été introduit en 1984 par le Pr. Nagao, mais il s'agissait en fait de TA
par l'exemple "pure", consistant, pour une chaîne à traduire Ts, à trouver dans un corpus de bitextes
analysés une plus proche chaîne Cs et son analyse As, ainsi que son image cible (Cc, Ac), et à
modifier As, puis Ac et Cc en conséquence. Mais on n'a pas de méthode efficace pour calculer ces
modifications.
Y. Lepage à ATR est ensuite reparti de la définition fondamentale de l'analogie, qui fait intervenir 4
objets homogènes et permet, d'en calculer un à partir des trois autres (a::b == c::d). Le paradigme en
cours d'expérimentation consiste alors à faire l'analyse, puis le transfert, puis la génération, par
analogie.
30/41
Ingénierie des Langues et de la Parole
Ch. Boitet
1.2 Approches fondées sur l'interaction et la personnalisation
i.
TAFD
Depuis une dizaine d'années, plusieurs groupes sont repartis sur l'idée introduite dès 1967 par
M. Kay de traduction interactive pouvant généraliser la TA de qualité, avec plusieurs innovations
décisives menant à la "TA fondée sur le dialogue" (TAFD) : interaction sur des données statiques
produites par certaines phases du traitement et pas avec des processus dynamiques, dialogues non
spécialisés et déclenchés à l'initiative de l'humain, et interaction en langue source uniquement. C'est
le cas des projets JETS (IBM-Japon), N-Trans (Manchester), LIDIA (Grenoble), et ITS-2 (Genève).
Le projet LIDIA est déjà arrivé à produire un "désambiguïseur générique", non lié à un système de
TA particulier, tournant sur le micro de l'auteur, les traitements classiques étant effectués sur un
serveur.
Le projet UNL, reposant sur un pivot interlingue, nous a récemment donné l'idée que non seulement
les auteurs pourraient améliorer interactivement la structure pivot à partir de la langue source, mais
que les lecteurs pourraient aussi le faire à partir des diverses langues cibles, surtout en complétant,
grâce à une interface de lecture idoine, les informations peu pertinentes en langue source (ex: nombre
et détermination dans les langues asiatiques), que les auteurs ne désambiguïsent pas volontiers.
ii.
Mariage du symbolique et du numérique
En ce qui concerne la personnalisation, il semble inévitable de marier le symbolique et le numérique.
La désambiguïsation lexicale en analyse et le choix lexical en génération sont ainsi des domaines
d'application privilégiés de techniques de "dictionnaires neuronaux", où les nœuds (entrées, sens)
ainsi que les diverses relations (synonymie, définition…) sont pondérés. Dans ce cadre, Microsoft a
obtenu d'excellents résultats en désambiguïsant automatiquement les mots des définitions dans
l'union (informatisée) du Longman et de l'American Heritage Dictionary.
En analyse syntaxique, on a commencé vers 1980 à utiliser des poids et des calculs de scores
(analyseurs des systèmes METAL de Austin/Siemens, PEG/SHALT-1 et LMT d'IBM). Des
techniques itératives ou statistiques très prometteuses sont aussi utilisées pour ajuster ces poids
(système du Pr SU Key Yi à Taiwan).
1.3 Approches fondées sur la connaissance
Enfin, les approches fondées sur la connaissance sont de trois types :
• spécialisation directe des connaissances linguistiques en grammaires et dictionnaires
"sémantiques", comme dans METEO et TAUM-aviation (UdM, 76-81) ;
• recours à un thésaurus interlingue comme dans ALT/JE de NTT, où 6000 catégories
sémantiques sont organisées en une hiérarchie de 12 à 16 niveaux ;
• construction d'une ontologie plus ou moins spécialisée à un domaine, comme dans les systèmes
de CMU (KANT, CATALYST) destinés à Caterpillar, ou dans Pangloss du CRL (New Mexico),
basé sur ONTOS, ontologie assez générale.
Les première et troisième approches sont efficaces, mais peu portables. La troisième est
intellectuellement séduisante, puisque le système "comprend explicitement" pour traduire, mais très
coûteuse, surtout si l'ontologie est développée et maintenue uniquement pour les besoins de la TAO.
La seconde est plus portable, mais son coût reste élevé à cause de la complexité de l'indexage dans
les dictionnaires.
31/41
Ingénierie des Langues et de la Parole
Ch. Boitet
III.2 Projets en cours
Les projets en cours les plus significatifs visent à la construction rapide de TA bilingue grossière ou
à la TA multilingue de qualité.
2.1 Construction rapide de systèmes de TA grossière
Le besoin de disposer rapidement de TA grossière pour des couples de langues nouveaux est surtout
militaire, comme aux débuts de la TA.
i.
TA de l'écrit
En TA de l'écrit, le CRL mène un tel projet depuis 1998. L'agence qui le finance demande une
nouvelle langue à intervalles rapprochés (il s'agit de version vers l'anglais). IBM-US utilise ses
méthodes statistiques pour développer des systèmes bidirectionnels pour la recherche d'information
multilingue.
ii.
Systèmes pour l'oral
a.
Reconnaissance
En TA de l'oral, être capable de fournir des reconnaisseurs et des synthétiseurs pour de nombreuses
langues est un atout majeur. CMU et d'autres développent des techniques permettant de
"bootstrapper" très rapidement un nouveau reconnaisseur à partir des données d'une autre langue (ex:
1° version d'un reconnaisseur du serbocroate obtenu à partir des phonèmes de l'anglais).
b.
Synthèse
En synthèse, les approches concaténatives permettent aussi de construire un synthésiseur pour la voix
de quelqu'un à partir de 2h d'enregistrement.
iii.
Approches "Quick & Dirty"
En combinant un reconnaisseur, un traducteur et un synthétiseur, même obtenus très rapidement et
donc grossiers ("quick and dirty approach"), on arrive à produire des systèmes de traduction de
dialogues oraux utilisables, à condition de soigner particulièrement l'ergonomie (retour d'information
par affichage du résultat de la reco et d'une "rétrotraduction", éventuellement retour visuel et partage
de document) et d'introduire une interaction, minimale mais essentielle (possibilité de corriger le
résultat de la reconnaissance, de choisir indirectement les équivalents en TA, et de "reprendre"
rapidement un énoncé ("Ooops!", "annulez !").
NEC fait cela depuis 1992 (démonstration récente sur un portable à Telecom'99) avec ses sytèmes
propriétaires. Dans le cadre de CSTAR-II, M. Seligman (CLIPS) a montré qu'on pouvait le faire en
n'utilisant que des composants disponibles sur le marché (expériences avec CompuServe au MTS-VI
à San Diego en 1997 et à CSTAR'98 à Grenoble sur le français-anglais avec Dragon Dictate et
Intergraph, et en parallèle avec les démonstrations publiques de CSTAR-II en juillet 1999 avec Via
Voice, Taifun et Tsunami sur l'anglais-japonais).
2.2 Projets visant à la TA de qualité
i.
Remarques générales
La recherche en TAO de qualité s'est longtemps faite dans le cadre "1-n" (1 source, n cibles).
Actuellement, on vise des situations "n-n". Qu'il s'agisse de texte ou de parole, on utilise l'approche
par pivot interlingue. Toutes les techniques permettant l'augmentation de qualité sont utilisées
(spécialisation, interaction, ontologie).
32/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Une dernière remarque générale est que ces projets utilisent une architecture distribuée (un serveur
par langue) et hétérogène (outils différents).
ii.
Traduction de l'écrit
a.
UNL : communication et RI multilingue
Pour l'écrit, le projet UNL de l'UNU est sans doute le plus important. Il vise à la communication
personnelle et à la recherche d'informations multilingues sur Internet. Le langage UNL veut être "le
html ou le xml du contenu linguistique".
Un graphe UNL "pivot" est un hypergraphe à un nœud d'entrée dont les nœuds portent des "mots
universaux" (UW) fondés sur l'anglais, comme "bill(icl>do, agt>human, obj>human, gol>thing)" et
des attributs, et les arcs des relations sémantiques. Un sous-graphe connexe par arcs peut être
"replié" et vu comme un nœud. Un document UNL est un document html multilingue dans lequel on
utilise des balises spéciales pour délimiter chaque énoncé, et le représenter en UNL et dans chaque
langue. Un visualiseur lié à Internet Explorer permet de voir chaque document dans les langues
choisies. Si un énoncé n'est pas disponible dans une langue L, on appelle le serveur de
"déconversion" de L et on complète le fichier par son résultat.
Le projet a commencé fin 1996 avec les 12 langues de plus de 100 millions de locuteurs : allemand,
anglais, arabe, chinois, espagnol, français, hindi, indonésien, italien, japonais, portugais, russe.
Durant sa première phase de 3 ans, les partenaires ont travaillé sur la spécification du langage UNL
et sur les déconvertisseurs. Trois autres groupes, travaillant sur le mongol, le lithuanien et le thaï, se
sont joints au projet. Les spécifications, à diffusion restreinte, sont devenues publiques lors du
symposium UNL'99 à Bruxelles (18-20/11/99). La phase suivante devrait voir le montage de "centres
langagiers UNL", un par langue, la construction d'enconvertisseurs utilisant diverses méthodes plus
ou moins interactives, le lancement de serveurs de déconversion puis d'enconversion à partir du
1/4/2000, et l'élargissement à de nombreuses autres langues.
Un avantage essentiel de ce projet est de permettre tous les degrés de qualité. Sans aucune
interaction, on obtiendra des traductions grossières du niveau de celles des traducteurs web actuels,
mais pour tous les couples de langues possibles. Avec plus d'interaction (en source et peut-être en
cible), on élèvera le niveau de qualité. Selon que l'usage considérera les graphes UNL comme des
graphes vraiment sémantiques ou comme des représentations abstraites de l'anglais, le niveau
maximum de qualité sera plus ou moins limité. Dans le premier cas, on ne pourra pas espérer un réel
parallélisme de forme, mais l'enconversion sera plus facile.
iii.
Traduction de parole
En traduction de parole, il faut surtout mentionner les projets VerbMobil en Allemagne et CSTAR
(consortium international pour la recherche avancée en TA de parole). Tous deux ont commencé en
1992 et se placent dans des situations où l'approche "quick & dirty" est insuffisante. Il s'agit de
situations finalisées (prise de rendez-vous, organisation de voyages et réservations d'hôtels, de
spectacles, de transports) et non de conversations informelles. Dans chaque cas, on utilise un pivot
interlingue spécialisé aux dialogues concernant la tâche visée, et les analyseurs et générateurs sont
bâtis autour de dictionnaires et grammaires "sémantiques". Les démonstrateurs réalisés sont assez
impressionnants, tant par la rapidité et la qualité des traitements linguistiques que par leur intégration
dans des environnements multimedia (visiophone, partage d'images animées, de vidéos).
2.3 Évolutions
Pour terminer, on peut souligner trois évolutions en cours.
33/41
Ingénierie des Langues et de la Parole
i.
Ch. Boitet
De la traduction à la génération multilingue
D'abord, la génération multilingue prend de plus en plus d'importance, en parallèle avec l'usage
d'architectures "pivot" en TAO, et aussi à cause de l'accroissement du nombre des situations sans
texte source, où on part d'une représentation abstraite déduite d'une base de données (ex:
MultiMETEO).
ii.
Synergie entre TA et outils pour traducteurs
Ensuite, la synergie entre TA et outils pour traducteurs apparaît comme une nécessité qualitative et
économique.
iii.
Mutations prévisibles dues à Internet
Enfin, Internet est en train de provoquer des mutations importantes, en imposant la
"démocratisation" de la TAO au grand public et à toutes les langues, même minoritaires, qu'il
s'agisse d'assimilation, de communication informelle ou finalisée, ou de dissémination.
IV.
Commented examples of current translation techniques
IV.1
Examples of semi-direct MT (Systran)
Here are the 2 versions of the presentation of the HEREIN (European Heritage network) thesaurus,
taken from http://www.european-heritage.net/en/Thesaurus/Contenu.html and http://www.europeanheritage.net/fr/Thesaurus/Contenu.html. These French and English human versions are aligned below
with the output of the French-English Systran Web translator. Observe that, while the "human"
language is of very high lexical and grammatical quality in both languages, some information present
in the French version is totally absent in the English version (it has been striked over by us). If
translation was from English, information has been added, if it was from French, it has been
suppressed. Even if it looks very good, human translation is not always that good as a translation.
Some errors of the MT output (italicised) can be recovered by looking only at the result, but many
cannot. Some are evident because parts of the sentences don't make sense, but others may be quite
hidden.
ENGLISH (human version)
FRENCH (human version)
ENGLISH (Systran FRE-ENG
version)
With around 500 terms in each
language, the thesaurus was
compiled by sifting through the
available printed material, such
as reports on policies and
various existing glossaries or
thesauruses, using methods
which meet the current
international standards.
Fort d'environ 500 termes dans
chacune des langues, le
thesaurus a été compilé
construit
à
partir
de
l'exploitation systématique des
documents papiers disponibles :
rapports sur les politiques et
divers outils -lexiques ou
thesaurus- préexistants, en
suivant une méthodologie qui
respecte
les
normes
internationales en vigueur.
Extremely of approximately 500
terms in each language, the
thesaurus was built starting
from
the
systematic
exploitation of the paper
documents
available:
reports/ratios on the policies
and various tools - lexicons or
preexistent thesaurus, while
following a methodology which
respects
the
international
standards into force.
The
European-Heritage.net
thesaurus covers the fields of
archaeology and architecture as
defined in the Council of
Le
thesaurus
European- The
European-Heritage.net
Heritage.net couvre les champs thesaurus covers the fields of
de
l'archéologie
et
de archaeology and architecture
l'architecture au sens des within
the
meaning
of
34/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Europe conventions signed in conventions du Conseil de conventions of the Council of
Granada (1985) and Malta l'Europe de Grenade (1985) et Europe of Grenade (1985) and
(1992).
de Malte (1992).
Malta (1992).
It encompasses information
ranging from the partners
involved, categories of cultural
assets and legislation, to
activities, skills and funding. It
is supplemented by a number of
specific thesauruses compiled
by each member state on a
particular topic, such as the
thesaurus
on
Andalusian
heritage or the architectural
thesaurus from the Mérimée
database in France.
Il prend en compte des aspects
aussi variés que les acteurs, les
catégories de biens culturels, la
législation ou encore les
interventions, les métiers et les
financements. Il est complété et
prolongé par des thesaurus
spécifiques développés par
chaque Etat membre sur tel ou
tel sujet spécifique, comme le
thesaurus
du
patrimoine
historique andalou ou le
thesaurus d'architecture de la
base de données documentaire
Mérimée en France.
It takes into account aspects as
varied as the actors, the
categories of cultural goods, the
legislation or the interventions,
the trades and the financings. It
is supplemented and prolonged
by thesaurus specific developed
by each Member State on such
or such specific subject, like the
thesaurus of the Andalusian
historical inheritance or the
thesaurus of architecture of the
documentation
data
base
Mérimée in France.
This new, open-ended search
tool will come on line shortly,
together with a management
and administration system
shared among the various
contributors.
Cet instrument de recherche,
forcément évolutif, sera mis
prochainement
en
ligne
accompagné d'un dispositif de
gestion et d'administration
réparti entre les différents
contributeurs.
This instrument of search,
inevitably evolutionary, will be
put soon on line accompanied
by a device of management and
administration
distributed
between
the
various
contributors.
Here are the results of the English-German and French-German Systran Web translators.
GERMAN (Systran ENG-GER version)
GERMAN (Systran FRE-GER version)
Der European-Heritage.netthesaurus umfaßt die
Felder von archaeology und von Architektur,
wie in den Europaratvereinbarungen definiert,
die in Granada (1985) unterzeichnet werden und
in Malta (1992).
Der European-Heritage.net-Thesaurus bedeckt
die Felder der Archäologie und der Architektur
im Sinne der Übereinkommen des Europarats
von Granada (1985) und von Malta (1992).
Er gibt die Informationen um, die von den
betroffenen Partnern, von den Kategorien der
kulturellen Werte und der Gesetzgebung, bis zu
Aktivitäten, von den Fähigkeiten und von der
Finanzierung reichen. Er wird durch eine Anzahl
von den spezifischen Thesauren ergänzt, die
durch jeden Mitgliedsstaat auf einem
bestimmten Thema, wie dem Thesaurus auf
Andalusian Erbe oder dem architektonischen
Thesaurus von der Datenbank Mérimée in
Frankreich kompiliert werden.
Er berücksichtigt Aspekte dermaßen variierte,
daß die Beteiligten, die Kategorien kultureller
Güter, die Gesetzgebung oder noch die
Interventionen,
die
Berufe
und
die
Finanzierungen. Er wird vervollständigt und
wird durch ein spezifische Thesaurus entwickelt
durch jeder Mitgliedstaat über das eines oder
andere spezifische Thema verlängert, als der
Thesaurus des andalusischen historischen
Kulturgutes oder der Thesaurus der Architektur
der urkundlichen Datenbank Mérimée in
Frankreich.
35/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Dieses neue, offene Suchhilfsmittel kommt auf
Zeile kurz, zusammen mit einem Managementund
Leitungssystem,
das
unter
den
verschiedenen Mitwirkenden geteilt wird.
Dieses
notgedrungen
entwicklungsfähige
Forschungsinstrument wird gestellt demnächst
online begleitet von einer Verwaltungs- und
Verwaltungsvorrichtung, die aufgeteilt unter den
verschiedenen Beitragenden.
The errors of the English-German Systran Web translator are slightly more severe, but only the last
paragraph really does not make sense in German. Although the French-German language pair is near
the top of the list of available pairs, ordered by average quality, it is really not adequate for
understanding the content. No translator would really start from it to produce a quality translation by
usual revision, but it is possible to use it as suggestions, from which the translator can pick some
well-translated parts.
IV.2
Examples of HQ transfer MT for revisors (EngSpan & SpanAm)
EngSpan and SpanAm are the two MT systems developed by the Pan American Health Organization
(PAHO) to translate texts concerning health, although they have quite larger vocabularies and can
handle press articles of regular style. The following text has been translated from English into
Spanish by EngSpan, then revised manually, and then translated back into English by SpanAm. We
give first the two "endpoints", and then the raw and revised Spanish versions.
Original English text
SpanAm raw translation of revised Spanish
EngSpan output
A Message from the Director-General, World Message of the Director-General of the World
Health Organization
Health Organization
Since their discovery, antibiotics have
completely transformed humanity’s approach
to infectious disease. Today, the use of
antibiotics combined with improvements in
sanitation, housing, and nutrition alongside the
advent of widespread vaccination programmes,
have led to a dramatic drop in once common
infectious diseases that formerly laid low entire
populations.
From its discovery, antibiotics have completely
transformed the perspective of humankind with
respect to infectious diseases. Today the use of
antibiotics, combined with improvements in
sanitation, housing, and nutrition, together with
the advent of the vaccination programs
generalized, have caused a notable reduction of
infectious diseases that previously were
common and annihilated entire populations.
Scourges that once struck terror into the hearts
of millions – plague, whooping cough, polio
and scarlet fever – have been, or are, on the
verge of being controlled. Now, at the dawn of
a new millennium, humanity is faced with
another crisis.
Scourges that terrified millions of people, as
plague, whooping cough, poliomyelitis, and the
scarlatina, have been controlled or are on the
verge of being controlled. Now, in the dawn of
a new millennium, humankind faces another
crisis.
Formerly curable diseases such as gonorrhoea
and typhoid are rapidly becoming difficult to
treat, while old killers such as tuberculosis and
malaria are now arrayed in the increasingly
impenetrable
armour
of
antimicrobial
resistance.
Previously curable diseases as the gonorrhea
and typhoid fever are becoming rapidly
difficult to treat, while old assassins as
tuberculosis and malaria now are armed of the
increasingly impenetrable resistance to the
antimicrobial drugs.
This phenomenon is potentially containable. It This phenomenon is potentially contenible. The
36/41
Ingénierie des Langues et de la Parole
Ch. Boitet
is a deepening and complex problem
accelerated by the overuse of antibiotics in
developed nations and the paradoxical
underuse of quality antimicrobials in
developing nations owing to poverty and a
resultant dearth of effective health care.
problem is increasingly profound and complex,
accelerated by the abuse of antibiotics in the
developed countries and the paradoxical
underutilization of the quality antimicrobial
drugs in the developing countries due to the
poverty and to the scarcity resulting from an
effective health care.
Spanish EngSpan raw output
Postedited Spanish version
Un mensaje del Director General, Organización Mensaje de la Directora General de la
Mundial de la Salud
Organización Mundial de la Salud
Desde su descubrimiento, los antibióticos
completamente han transformado el enfoque de
la humanidad con respecto a la enfermedad
infecciosa. Hoy, el uso de los antibióticos
combinados con mejoras en el saneamiento, la
vivienda y la nutrición al lado del
advenimiento de los programas de vacunación
generalizada, han conducido a una notable
disminución en una vez que las enfermedades
infecciosas comunes que antes postrado todas
las poblaciones.
Desde su descubrimiento, los antibióticos han
transformado completamente la perspectiva de
la humanidad con respecto a las enfermedades
infecciosas. Hoy día el uso de los antibióticos,
combinado con mejoras en el saneamiento, la
vivienda y la nutrición, junto con el
advenimiento de los programas de vacunación
generalizada, han dado lugar a una notable
disminución de enfermedades infecciosas que
antes eran comunes y aniquilaban a
poblaciones enteras.
Los flagelos que golpearon una vez el terror en
los corazones de millones peste–, la tos ferina,
la poliomielitis y la escarlatina–han sido, o son,
al borde de controlándose. Ahora, en los
albores de un nuevo milenio, la humanidad se
enfrenta con otra crisis.
Flagelos que aterrorizaron a millones de
personas, como la peste, la tos ferina, la
poliomielitis y la escarlatina, se han controlado
o están a punto de controlarse. Ahora, en el
alba de un nuevo milenio, la humanidad se
enfrenta con otra crisis.
Las enfermedades antes curables como la
gonorrea y la fiebre tifoidea están tornando
rápidamente difíciles de tratar, aunque los
asesinos viejos como la tuberculosis y el
paludismo ahora se presentan en la armadura
cada vez más impenetrable de la resistencia a
los antimicrobianos.
Enfermedades antes curables como la gonorrea
y la fiebre tifoidea se están volviendo
rápidamente difíciles de tratar, mientras que
viejos asesinos como la tuberculosis y el
paludismo están ahora armados de la
crecientemente impenetrable resistencia a los
antimicrobianos.
IV.3
Comparison of outputs from two systems (SpanAm & Reverso)
The following illustrates the differences between a specialized system aiming at HQ and a more
generic system aiming at large coverage for accessing information. We have italicized dubious
translations, striked through words to be suppressed, and underlined corresponding correct fragments
in the other translation, if any.
SpanAm
(repeated)
raw
Spanish-English
output Reverso raw Spanish-English output
Message of the Director-General of the World Message of the Chief operating officer of the
37/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Health Organization
World Organization of the Health
From its discovery, antibiotics have completely
transformed the perspective of humankind with
respect to infectious diseases. Today the use of
antibiotics, combined with improvements in
sanitation, housing, and nutrition, together with
the advent of the vaccination programs
generalized, have caused a notable reduction of
infectious diseases that previously were
common and annihilated entire populations.
From his{*its*} discovery, the antibiotics have
transformed completely the perspective of the
humanity with regard to the infectious diseases.
Today the use of the antibiotics, cocktail with
improvements in the reparation, the housing
and the nutrition, together with the advent of
the programs of widespread vaccination, they
have given place to a notable decrease of
infectious diseases that before were common
and were annihilating entire populations.
Scourges that terrified millions of people, as
plague, whooping cough, poliomyelitis, and the
scarlatina, have been controlled or are on the
verge of being controlled. Now, in the dawn of
a new millennium, humankind faces another
crisis. Previously curable diseases as the
gonorrhea and typhoid fever are becoming
rapidly difficult to treat, while old assassins as
tuberculosis and malaria now are armed of the
increasingly impenetrable resistance to the
antimicrobial drugs.
Scourges that terrified million persons, as the
pest, the savage cough, the poliomyelitis and
the scarlatina, they have been controlled or are
on the verge of be controlling. Now, in the
dawn of a new millenium, the humanity faces
with another crisis. Diseases before curable as
the gonorrhea and the fever tifoidea they are
becoming rapidly difficult to treat, whereas
killer old men as the tuberculosis and the
malaria are armed{*assembled*} now with the
increasing
impenetrable
resistance
the
antimicrobial ones.
This phenomenon is potentially contenible. The
problem is increasingly profound and complex,
accelerated by the abuse of antibiotics in the
developed countries and the paradoxical
underutilization of the quality antimicrobial
drugs in the developing countries due to the
poverty and to the scarcity resulting from an
effective health care.
This phenomenon is potentially contenible. The
problem is increasingly deep and complex,
accelerated by the abuse of the antibiotics in
the developed countries and the paradoxical
subutilization of the antimicrobial ones of
quality in the countries in development due to
the poverty and the resultant shortage of an
attention of effective health.
The report on the last year on infectious
diseases titled «Elimination of the obstacles to
the healthy development» has demonstrated
that the communicable diseases continue to be
a significant cause of disability, are responsible
for high continuous mortality, and affect
mainly the most vulnerable populations of the
world.
The report of last year on the infectious
diseases titled « Elimination of the obstacles to
the healthy development » has demonstrated
that the contagious diseases continue being a
significant reason of disability, they are
responsible for the high constant mortality and
affect principally the most vulnerable
populations of the world.
V.
Perspectives: four keys to generalise MT in the future
Despite considerable investment over the past 50 years, only a small number of language pairs is
covered by MT systems designed for information access, and even fewer are capable of quality
translation or speech translation. To open the door toward MT of adequate quality for all languages
(at least in principle), four keys are needed. On the technical side, one should (1) dramatically
increase the use of learning techniques which have demonstrated their potential at the research level,
38/41
Ingénierie des Langues et de la Parole
Ch. Boitet
and (2) use pivot architectures, the most universally usable pivot being UNL. On the organisational
side, the keys are (3) the co-operative development of open source linguistic resources on the Web,
and (4) the construction of systems where quality can be improved "on demand" by users, either a
priori through interactive disambiguation, or a posteriori by correcting the pivot representation
through any language, thereby unifying MT, computer-aided authoring, and multilingual generation.
-o-o-o-o-o-o-o-o-o-o-
39/41
Ingénierie des Langues et de la Parole
Ch. Boitet
Bibliography
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
Blanchon H. (1994) LIDIA-1 : Une première maquette vers la TA interactive "pour tous". Nouvelle thèse, UJF.
Boitet C. & Nédobejkine N. (1981) Recent developments in Russian-French Machine Translation at Grenoble.
Linguistics 19 (1981), pp. 199—271.
Boitet C. (1985) Traduction (assistée) par Ordinateur: ingéniérie logicielle et linguicielle. Proc. Colloque RF&IA,
Grenoble, AFCET.
Boitet C. (1988) PROs and CONs of the pivot and transfer approaches in multilingual Machine Translation. Proc.
Int. Conf. on "New directions in Machine Translation", 18–19 August 1988, BSO, 13 p.
Boitet C. & Zaharin Y. (1988) On representation trees for NLP and static grammars. Document interne, GETA,
décembre 1988, pp. 10.
Boitet C. (1992) On the nature and computer handling of “writing fashions”. Proc. Cours Pre-COLING-92 sur la
portabilité multilingue, 20—22 juillet 1992, IMAG-GETA & Ass. Champollion, C. Boitet ed., pp. 6—28.
Boitet C., ed. (1992) Actes de COLING-92, 14ème colloque international en linguistique informatique (14th
International Congress on Computational Linguistics). ACL, Nantes, 23—28 juillet 1992.
Boitet C. (1993) La TAO comme technologie scientifique : le cas de la TA fondée sur le dialogue. In "La
traductique", A. Clas & P. Bouillon, ed., Presses de l'Université de Montréal, Montréal, pp. 109—148.
Boitet C. & Blanchon H. (1994) Promesses et problèmes de la “TAO pour tous” après LIDIA-1, une première
maquette. (Langages), 116 (1994), pp. 20—47.
Boitet C. & Blanchon H. (1994) Multilingual Dialogue-Based MT for Monolingual Authors: the LIDIA Project
and a First Mockup. (Machine Translation), 9/2 (1994), pp. 99—132.
Boitet C. (1996) (Human-Aided) Machine Translation: a better future? In "Survey of the State of the Art of Human
Language Technology", R. Cole (Editor-in-Chief), J. Mariani, H. Uszkoreit& al., ed., A. Z. G. Varile, Giardini,
Pisa, pp. 251—256. (also available since 1996 at http://www.cse.ogi.edu/CSLU/HLTsurvey/)
Boitet C., ed. (1988) BERNARD VAUQUOIS et la TAO, vingt-cinq ans de Traduction Automatique,
ANALECTES. BERNARD VAUQUOIS and MT, twenty-five years of MT. Ass. Champollion & GETA, Grenoble,
pp. 700.
Boitet C., Réd. (1982) "DSE-1"— Le point sur ARIANE-78 début 1982. Contrat ADI/CAP-Sogeti/Champollion
(3 vol.), GETA, Grenoble, janvier 1982, pp. 616. (200 p. + annexes)
Brown R. D. & Nirenburg S. (1990) Human-Computer Interaction for Semantic Disambiguation. Proc. COLING90, 20-25 août 1990, ACL, H. Karlgren ed., vol. 3/3, pp. 42-47.
Chandioux J. (1988) 10 ans de METEO (MD). In "Traduction Assistée par Ordinateur. Actes du séminaire
international sur la TAO et dossiers complémentaires", A. Abbou, ed., Observatoire des Industries de la Langue
(OFIL), Paris, mars 1988, pp. 169—173.
Colmerauer A. (1970) Les systèmes-Q, un formalisme pour analyser et synthétiser des phrases sur ordinateur.
TAUM, Univ. de Montréal, pp. 46. (2ème annexe par G. Stewart)
Guilbaud J.-P. (1984) Principles and results of a German-French MT system. In "Machine Translation today: the
state of the art (Proc. third Lugano Tutorial, 2–7 April 1984)", M. King, ed., Edinburgh University Press (1987).
Hirakawa H., Nogami H. & Amano S.-Y. (1991) EJ/JE Machine Translation System AS-TRANSAC - Extension
toward Personalization. Proc. MTS-III (MT Summit), 1-4 July 1991, vol. 1/1, pp. 73-80.
Hutchins W. J. (1986) Machine Translation : Past, Present, Future. Ellis Horwood, John Wiley & Sons,
Chichester, England, pp. 382.
Kay M. (1980) The Proper Place of Men and Machines in Language Translation. Research Report, CSL-80-11,
Xerox, Palo Alto Research Center, Oct. 1980.
Klaus S. (1988) The Architecture of DLT - Interlingual or Double Direct? Proc. New Directions in Machine
Translation, 18-19 Aug. 1988, Floris Publications, U. BSO/Research ed., pp. 131-144.
Lehrberger J. & Bourbeau L. (1988) Machine Translation. Linguistic characteristics of MT systems and general
methodology of evaluation. John Benjamins, pp. 240.
Maruyama H., Watanabe H. & Ogino S. (1990) An Interactive Japanese Parser for Machine Translation. Proc.
COLING-90, 20-25 août 1990, ACL, vol. 2/3, pp. 257-262.
40/41
Ingénierie des Langues et de la Parole
Ch. Boitet
[24] Nyberg E. H. & Mitamura T. (1992) The KANT system: Fast, Accurate, High-Quality Translation in Practical
Domains. Proc. COLING-92, 23-28 July 92, ACL, vol. 3/4, pp. 1069—1073.
[25] Pierrel (éd.) J.-M. (2000) Ingénierie des langues. In Hermès, Paris, 354 p. (Ouvrage collectif)
[26] Planas E. (1999) Formalizing Translation Memories. Proc. MT Summit VII, Singapore, 13-17 September 1999,
Asia Pacific Ass. for MT, J.-I. Tsujii ed., vol. 1/1, pp. 331—339.
[27] Sabah G. (1988) L'intelligence artificielle et le langage. Vol.1: Représentation des connaissances. Hermès, Paris.
[28] Sabah G. (1989) L'intelligence artificielle et le langage. Vol.2: Processus de compréhension. Hermès, Paris.
[29] Slocum J. (1985) A Survey of Machine Translation : its History, Curent Status, and Future Prospects.
(Computational Linguistics), 11/1 (1985), pp. 1-17.
[30] Somers H. L., Tsujii J.-I. & Jones D. (1990) Machine Translation without a source text. Proc. COLING-90, 2025 Aug. 1990, ACL, vol. 3/3, pp. 271-276.
[31] Stewart G. (1975) Manuel du langage REZO. TAUM, Univ. de Montréal.
[32] Tong L. C. (1987) The Engineering of a Translator Workstation. (Computers and Translation), 2/4 (1987), pp.
263—273.
[33] Vasconcellos M. & León M. (1988) SPANAM and ENGSPAM : Machine Translation at the Pan American Health
Organization. In "Machine Translation systems", J. Slocum, ed., Cambridge Univ. Press, pp. 187—236.
[34] Vauquois B. & Chappuy S. (1985) Static grammars: a formalism for the description of linguistic models. Proc.
TMI-85 (Conf. on theoretical and metholodogical issues in the Machine Translation of natural languages), Colgate
Univ., Hamilton, N.Y., Aug. 1985, pp. 298-322.
[35] Vauquois B. & Boitet C. (1988) Automated translation at Grenoble University. In "Machine Translation
Systems", J. Slocum, ed., Cambridge University Press, pp. 85—110. (revised from Vauquois & Boitet (1985))
[36] Vauquois B. (1988) BERNARD VAUQUOIS et la TAO, vingt-cinq ans de Traduction Automatique,
ANALECTES. BERNARD VAUQUOIS and MT, twenty-five years of MT. C. Boitet, ed., Ass. Champollion &
GETA, Grenoble, pp. 700.
[37] Wehrli E. (1992) The IPS System. Proc. COLING-92, 23-28 July 1992, vol. 3/4, pp. 870-874.
[38] Whitelock P. J., Wood M. M., Chandler B. J., Holden N. & Horsfall H. J. (1986) Strategies for Interactive
Machine translation : the experience and implications of the UMIST Japanese project. Proc. COLING-86, 25-29
août 1986, IKS, pp. 25-29.
[39] Winograd T. (1983) Language as a cognitive process. Vol 1 : Syntax. Addison Wesley, New-York.
[40] Woods W. (1970) Transition network grammars for natural language analysis. CACM 13/10 (1970), pp. 591-606.
-o-o-o-o-o-o-o-o-o-o-
41/41