Cours ILP-CBoitet-110928
Transcription
Cours ILP-CBoitet-110928
Ingénierie des Langues et de la Parole Notes de cours (4 séances sur les notions de base et les approches expertes) M2R-IAW-SLE/ILP, 2011-12 Christian Boitet Cette partie du cours a pour objectif de présenter aux étudiants la problématique, les formalismes, les méthodes de base et les outils en traitement automatique des langues naturelles, puis d'appliquer ces connaissances à une étude en profondeur d'une classe d'applications, en l'occurrence la TAO (traduction automatisée par ordinateur). 1u correspond à 1h30 de cours ou de TD. Prévisions : 4 séances de 2u. Plan Plan 1! A.! Notions générales sur le TALN et connaissances linguistiques de base .......................................3! I.! Problématique du TALN .......................................................................................................... 3! I.1! Buts : stocker, étudier, et utiliser les connaissances linguistiques 3! I.2! Bref panorama des applications et des recherches actuelles 4! I.3! Problèmes spécifiques du TALN : non-déterminisme, flou, et taille des données 4! II.! Notions linguistiques de base : les niveaux (de la phonologie à la pragmatique)................... 5! II.1! La langue et ses aspects classiques 5! II.2! Niveaux de description linguistique 6! II.3! Autres dimensions de l'analyse linguistique 6! III.! Les connaissances utilisables en TALN ................................................................................ 7! III.1! Sources de connaissances dans un système de TALN 7! III.2! Représentation de ces connaissances 8! III.3! Enrichissement, réglage, apprentissage : techniques et limites 8! B.! Bases méthodologiques pour l'analyse et la génération d'énoncés ..............................................10! I.! Représentations formalisées d'énoncés : surfaciques et profondes, concrètes et abstraites ... 10! I.1! Paramètres et critères de choix 10! I.2! Représentations les plus usuelles 10! I.3! Spécification et de validation 10! II.! Méthodes de calcul en analyse et en génération ................................................................... 11! II.1! Méthodes séquentielles et méthodes globales 11! II.2! Procédés combinatoires (méthode déclarative) 11! II.3! Stratégies heuristiques (méthode procédurale) 11! II.4! Techniques mixtes (exemples en TAO et autres) 11! III.! Interactivité dans les applications de TALN........................................................................ 11! 1/41 Ingénierie des Langues et de la Parole Ch. Boitet III.1! Nécessité et possibilité 11! III.2! Différentes approches 11! III.3! Exemples sur le projet UNL 11! C.! Méthodes algorithmiques et outils informatiques pour le TALN ................................................11! I.! Outils symboliques, algorithmes et langages spécialisés ....................................................... 11! I.1! Traitements informatiques et ingénierie du linguiciel 11! I.2! Techniques d'implémentation 11! I.3! Langages de règles et systèmes de production sous-jacents 12! I.4! Organisation d’un environnement pour non-informaticiens 12! D.! Traduction automatisée de l'écrit et de l'oral (TAO)....................................................................12! Introduction................................................................................................................................... 13! I.! État de l'art vu par les utilisateurs........................................................................................... 14! I.1! Variété des situations traductionnelles 14! I.2! Automatisations possibles des différentes étapes 14! I.3! Évaluations possibles 19! II.! Technologie de la TAO « experte » ...................................................................................... 22! II.1! Caractéristiques essentielles et exemples de systèmes 22! II.2! Architectures linguistiques possibles 24! II.3! Sources de connaissances 27! II.4! Structures de données pour les représentations intermédiaires 27! II.5! Approches algorithmiques (déterministe, heuristique, combinatoire) 28! II.6! Langages d'implémentation des données et des processus linguistiques 28! III.! Paradigmes étudiés et projets en cours : renouveaux et nouveautés.................................... 30! III.1! Paradigmes étudiés 30! III.2! Projets en cours 32! IV.! Commented examples of current translation techniques..................................................... 34! IV.1! Examples of semi-direct MT (Systran) 34! IV.2! Examples of HQ transfer MT for revisors (EngSpan & SpanAm) 36! IV.3! Comparison of outputs from two systems (SpanAm & Reverso) 37! V.! Perspectives: four keys to generalise MT in the future......................................................... 38! Bibliography ........................................................................................................................................40! 2/41 Ingénierie des Langues et de la Parole Ch. Boitet A. Notions générales sur le TALN et connaissances linguistiques de base I. Problématique du TALN I.1 Buts : stocker, étudier, et utiliser les connaissances linguistiques 1.1 Représentation et traitement des textes et corpus i. Systèmes d'écriture et codage ii. Concordances et études diverses iii. Types de corpus stockés (simples, balisés, annotés, arborés, parallèles, oraux, multimodaux…) 1.2 Représentation, construction et utilisation des dictionnaires i. Représentation des "ressources lexicales" a. Dictionnaires (types divers, mono/multilingues) b. Lexiques (lien avec la terminologie c. Bases lexicales ii. Construction des ressources lexicales a. Utilisation de ressources existantes b. Extraction à partir de corpus (récent) c. Coopération via le Web (début) iii. Utilisation des ressources lexicales a. Consultation "normale" b. Filtrage et production de sous-ensembles à la volée c. Aides diverses lecture active…) d. Extraction de dictionnaires d'applications 1.3 Représentation, construction et utilisation de grammaires i. Grammaires et automates ii. Mise au point d'un modèle linguistique iii. Évaluation de théories et applications diverses iv. Utilisations de grammaires et automates a. Correction (orthographique, grammaticale, stylistique…) b. Indexation c. Résumé et extraction d'information d. Traduction e. Génération multilingue 3/41 Ingénierie des Langues et de la Parole Ch. Boitet I.2 Bref panorama des applications et des recherches actuelles Historiquement, on est parti des applications les plus "dures" comme la TA et la compréhension (IA), puis on est "descendu" en exigence de qualité et de puissance de traitement : TA-dépistage, RI, correction… Puis on est "remonté", par exemple avec le résumé automatique. On a aussi réalisé les difficultés du tout automatique et on est (re)venu à l'idée de construire des systèmes semi-interactifs pour obtenir la qualité désirée, faire participer les utilisateurs à l'amélioration du système, etc. Par contre, on a été plus raisonnable pour les outils liés à l'étude et non au traitement de la langue. En mettant les applications les plus utilisées en premier, on peut faire un petit tableau : Écrit Oral Correction Indexation TAO RI Apprentissage/Enseignement Synthèse de parole Reco de parole Multimodalité Dialogue Apprentissage/Enseignement I.3 Problèmes spécifiques du TALN : non-déterminisme, flou, et taille des données 3.1 Non-déterminisme Inhérent à la nature des langues, tant en analyse (ambiguïtés) qu'en génération (synonymie, et qu'en correspondance entre langues. Conduit à un problème majeur d'explosion combinatoire. Cet aspect distingue très fortement le TALN du traitement des langages formels. i. Ambiguïtés Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une représentation à un niveau plus élevé. Exemples. Sources à tous les niveaux, du signal à la pragmatique. ("La porte !"). Ambiguïtés inhérentes à la langue, et ambiguïtés "parasites" provenant des systèmes de description et/ou de traitement eux-mêmes. Caractère fallacieux : les humains ne "voient" pas l'ambiguïté — mais la ressentent quand elle conduit à des incompréhensions, des contresens, et… des accidents. ii. Synonymie Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une représentation à un niveau moins élevé. C'est le pendant de l'ambiguïté. 4/41 Ingénierie des Langues et de la Parole Ch. Boitet 3.2 Flou i. Impossibilité d'une sémantique "totale" Fait d'expérience : on ne peut jamais "tout exprimer" en langue naturelle, et pas seulement des sentiments, mais aussi des appréciations, ou des sensations physiques. Passage du continu au discret ? Peut-être, mais pas seulement. D'après les travaux de Zadeh, l'inventeur de la "logique floue", il y a un problème central de définissabilité. Certains concepts sont "durs" ("crisp"), mais leurs valeurs sont floues, par exemple la couleur des cheveux (on peut la mesurer physiquement). D'autres sont eux-mêmes flous, comme la longueur des cheveux (on ne sait pas quoi mesurer ni avec quelle précision…). Il semble aussi que certains concepts flous, fort utilisés dans les expressions en LN, ne puissent pas recevoir de fondement probabiliste ou statistique. ii. Impossibilité d'une axiomatisation exacte La langue ne se laisse pas formaliser ou axiomatiser exactement. Elle est intrinsèquement "productive" : à partir de toute axiomatisation proposée, on peut fabriquer des contre-exemples, en surgénération ou en sous-génération. Parallèle avec le caractère productif des formules vraies de l'arithmétique (théorème de Gödel). Nécessité de travailler dans l'approximatif, et donc de concevoir des applications jamais figées, en modification constante, et capables de traiter "l'inconnu". Exemple le plus simple: les "mots inconnus". II. Notions linguistiques de base : les niveaux (de la phonologie à la pragmatique) II.1 La langue et ses aspects classiques 1.1 Peut-on parler de langue ? 1.2 Lexique et grammaire : notions de base 1.3 Diversité des aspects de la langue 5/41 Ingénierie des Langues et de la Parole II.2 Ch. Boitet Niveaux de description linguistique 2.1 Phonologie i. Sons ii. Phones iii. Phonèmes 2.2 Morphologie i. Morphes et graphèmes ii. Flexion: formes et lexèmes (lemmes) iii. Dérivation (lexico-sémantique) iv. Composition 2.3 Syntaxe i. Syntagmes ii. Fonctions syntaxiques iii. Valences syntaxiques iv. Relations de dépendance profonde 2.4 Sémantique i. Prédicats et arguments ii. Relations sémantiques (cas profonds) iii. Valences sémantiques 2.5 Pragmatique II.3 i. Assertion et négation ii. Impérativité iii. Interrogativité Autres dimensions de l'analyse linguistique 3.1 Actualisation i. Nombre ii. Personne iii. Modalité iv. Aspect v. Temps 6/41 Ingénierie des Langues et de la Parole Ch. Boitet 3.2 Quantification i. Quantificateurs linguistiques et portée ii. Lien avec la déiction 3.3 Désignation i. Détermination ii. Anaphore et cataphore iii. Ellipse 3.4 Rhétorique i. Emphase ii. Thématisation 3.5 Analyse en triade statutaire de Zemb III. i. Rhème ii. Thème iii. Phème Les connaissances utilisables en TALN III.1 Sources de connaissances dans un système de TALN 1.1 Types de connaissances à considérer dans les applications i. Connaissances linguistiques a. Langagières Connaissances sur la langue "standard" (lexique, morphologie, syntaxe…) b. Typologiques Connaissances sur la typologie visée (termes et sens préférés et interdits, tours, expressions, préférences observées au niveau du style et de la résolution d'ambiguïtés…) ii. Connaissances sémantiques a. Statiques Faits et règles d'un domaine formalisé (ontologie) b. Dynamiques Situations, agents et leurs représentations internes. Nécessité ici d'un apprentissage à partir du contenu des "messages linguistiques". iii. Connaissances pragmatiques a. Intentions explicites Actes de parole, force illocutoire… Fils de discours et de dialogue 7/41 Ingénierie des Langues et de la Parole Ch. Boitet Très important pour le traitement du dialogue, en CHM ou en dialogue humain médiatisé. b. Intentions implicites Aspects réflexifs, intentions cachées, ironie, etc. 1.2 Connaissances réellement utilisables dans des systèmes de TALN On met "ce qu'on peut" et surtout "ce qu'on doit" (étant donné le coût de construction et parfois l'utilité douteuse vu l'imprécision ou l'incomplétude) des connaissances précédentes dans des "objets linguistiques" très classiques : dictionnaires, grammaires, thésaurus. À propos, on ne dit PAS "des thesaurii". Ce pluriel latin existe en anglais (thesauruses/thesaurii, corpuses/corpora), mais en français TOUS les mots en –us venant du latin sont invariables, sauf « stimulus » (des stimulus/stimuli). C'est différent pour les mots italiens… Il faut noter que des connaissances non utilisables en mode totalement automatique le deviennent en mode interactif. Ainsi, on ne peut pas calculer l'aspect des verbes de façon fiable en français, mais on peut poser des questions "naïves" pour obtenir la bonne réponse. Exemple : « le courrier est arrivé ce matin » est soit imperfectif soit perfectif. On peut proposer le choix : « le courrier est arrivé ce matin PENDANT que quelque chose se passait » « le courrier est arrivé ce matin ET PUIS quelque chose s'est passé » et l'on obtiendra alors l'information permettant de bien traduire dans une langue où l'aspect est important, comme le russe ou l'anglais : the mail arrived this morning (while I was shaving). the mail has arrived this morning (and then I left). III.2 Représentation de ces connaissances 2.1 Formalismes lexicaux : les premiers langages spécialisés 2.2 Formalismes grammaticaux (ATN, LFG, GPSG, UCG, DCG…) 2.3 Formalismes de type automate (XFST, systèmes de réécriture…) III.3 Enrichissement, réglage, apprentissage : techniques et limites 3.1 Connaissances lexicales i. Acquisition L'acquisition lexicale à grande échelle est un problème majeur depuis les débuts de la TA, il y a près de 50 ans. On présente ici les trois approches essentielles, avec leur contexte, leur méthodologie, et leurs avantages et inconvénients. La première consiste à travailler directement sur les dictionnaires spécialisés pour la TA, la seconde à créer des bases lexicales spécialisées, en général asymétriques et propriétaires comme les dictionnaires spécialisés, mais parfois utilisables pour d'autres applications que la TA, et la troisième à construire des bases lexicales non seulement généralistes, c'est à dire à usages multiples, tant humains que machinaux, mais aussi intrinsèquement symétriques, linguistiquement très détaillées, potentiellement très grandes, tant en nombre de vocables qu'en nombre de langues, et ouvertes. Il semble en effet que la seule solution permettant d'éviter des coûts prohibitifs soit d'utiliser un modèle à la Linux, c'est à dire de mutualiser la construction et l'utilisation des ressources lexicales dans un processus de collaboration et d'échange à travers le réseau. 8/41 Ingénierie des Langues et de la Parole ii. Ch. Boitet Réglage Si on organise le dictionnaire comme un "dictionnaire neuronal", en mettant des poids sur les liens entre lemmes et lexies, entre lexies, et entre lexies et mots ou lexies figurant dans leurs définitions, on peut assez facilement faire évoluer ces poids en fonction de corrections ou de réponses de l'utilisateur à des questions. 3.2 Connaissances grammaticales Les méthodes symboliques se prêtent mal à des apprentissages automatiques directs. Il est en effet impossible de "découvrir" de façon algorithmique une grammaire d'une classe "superfinie" de langages, c'est-à-dire d'une classe contenant au moins un langage infini. Mais on peut s'y prendre autrement ! Plutôt que de construire une grammaire par pure introspection, on peut en donner les principes généraux, puis faire construire par des humains un "corpus d'arbres", avec bien sûr des aides informatiques, comme une grammaire "courante" donnant potentiellement plusieurs arbres pour chaque énoncé, et un éditeur graphique d'arbres montrant les différences et permettant de sélectionner facilement le bon, si on le trouve, ou de corriger. Pour les formalismes "mixtes", on peut bien sûr faire "apprendre les poids" par le système. Enfin, on peut aussi ne pas apprendre explicitement une grammaire (et ses poids), mais apprendre les transitions d'un analyseur multiple, à partir d'un grand corpus d'exemples (chaîne, arbre). 9/41 Ingénierie des Langues et de la Parole Ch. Boitet B. Bases méthodologiques pour l'analyse et la génération d'énoncés I. Représentations formalisées d'énoncés : surfaciques et profondes, concrètes et abstraites I.1 Paramètres et critères de choix 1.1 Structures mononiveau et multiniveau 1.2 Partie géométrique: i. Chaîne ii. Arbre iii. Treille iv. Graphe v. Graphe d'arbres 1.3 Partie algébrique i. Symbole "pur" ii. Chaîne iii. Ajout d'attributs simples iv. Ajout d'attributs structurés v. Structures de traits et unification 1.4 Structures concrètes et abstraites i. Parcours canonique d'une structure ii. Types de correspondance texte-structure I.2 Représentations les plus usuelles 2.1 Représentations syntagmatiques i. Arbres "plats" et "profonds" ii. Représentations "lexicalisées" iii. Formalismes associés 2.2 Représentations dépendancielles 2.3 Représentations interlingues i. Structures linguistiques "universelles" ou interlingues ii. Exemple des graphes UNL iii. Structures logiques et interprétations "ontologiques" I.3 Spécification et de validation 3.1 Spécification directe pour les structures concrètes 3.2 Grammaires d'arbres pour valider des arbres abstraits 3.3 Grammaires "statiques" correspondancielles pour les arbres abstraits 3.4 Problème ouvert : spécification de la correspondance entre structures 10/41 Ingénierie des Langues et de la Parole II. III. Ch. Boitet Méthodes de calcul en analyse et en génération II.1 Méthodes séquentielles et méthodes globales II.2 Procédés combinatoires (méthode déclarative) II.3 Stratégies heuristiques (méthode procédurale) II.4 Techniques mixtes (exemples en TAO et autres) Interactivité dans les applications de TALN III.1 Nécessité et possibilité 1.1 Ambiguïté intrinsèque 1.2 Insuffisance des connaissances codées 1.3 Rapports de coûts III.2 Différentes approches 2.1 En ligne et hors ligne 2.2 Utilisateur naïf ou spécialiste 2.3 Types de dialogue de désambiguïsation III.3 Exemples sur le projet UNL 3.1 Choix interactif en déconversion 3.2 Possibilité de post-édition indirecte C. Méthodes algorithmiques et outils informatiques pour le TALN Cette partie sera essentiellement vue en TD. I. Outils symboliques, algorithmes et langages spécialisés I.1 Traitements informatiques et ingénierie du linguiciel 1.1 Modules d'un système de TALN classique 1.2 Langages et environnements spécialisés 1.3 Traitements morphologiques et lexicaux (analyse, génération, transfert) 1.4 Traitements syntaxico-sémantiques (analyse, génération, transfert) I.2 Techniques d'implémentation 2.1 Langages de bas niveau Plus personne ne programme directement à ce niveau. Possibilité d'étendre un langage comme C en utilisant les "macros". 2.2 Langages de haut niveau Il s'agit de Pascal, ADA, etc. 11/41 Ingénierie des Langues et de la Parole Ch. Boitet 2.3 Langages de très haut niveau Il s'agit de Common-LISP, SmallTalk, Prolog, etc., qui offrent des possibilités de reconnaissance de forme, de non-déterminisme, d'utilisation d'objets complexes dynamiques comme des arbres et des listes. Programmer directement à ce niveau est dangereux, même par extension syntaxique, car les développeurs finissent toujours par utiliser des particularités du langage, et on ne peut plus ensuite réaliser une implémentation plus efficace dans un autre langage hôte. 2.4 Langages spécialisés pour la programmation linguistique (LSPL) C'est la voie la plus répandue et la plus efficace. En effet, on sépare clairement le "compilateur" et le "moteur", et on peut améliorer l'implémentation sans gêner les développeurs linguistes. Ces langages offrent des structures de données directement adaptées (arbres décorés, graphes d'arbres, dictionnaires, grammaires, etc.), et des structures de contrôle très puissantes, et parfois "gardées" contre l'indécidabilité (les boucles infinies). I.3 Langages de règles et systèmes de production sous-jacents 3.1 Systèmes de substitution Systèmes de réécriture sur les chaînes. Systèmes transformationnels d'arbres décorés (GRADE, GWS, ROBRA, TELESI…) Nécessité de contrôles pour la résolution de conflits 3.2 Systèmes d’ajout Exemples typiques : analyseurs "par cartes" chaîne-arbre, et surtout systèmes-Q. 3.3 Systèmes de création Modèles "à 2 bandes". Transducteurs finis (ATEF, ATN, PILAF, REZO, TOP, TRANSF, XFST…) de décorations, de chaînes, d'arbres, de graphes… Les objets d'entrée et de sortie peuvent être de types totalement différents. I.4 Organisation d’un environnement pour non-informaticiens 4.1 Spécificités (utilisateurs, taille et évolutivité des linguiciels) 4.2 Langages spécialisés i. Structures de données fondamentales ii. Choix des langages de programmation linguistique 4.3 Aspect “base de données spécialisée” i. Composants linguistiques : le “linguiciel” ii. Corpus et textes D. Traduction automatisée de l'écrit et de l'oral (TAO) Résumé 12/41 Ingénierie des Langues et de la Parole Ch. Boitet La traduction automatique (TA) est une sorte de Graal de l'informatique linguistique. C'est la première application non numérique des ordinateurs envisagée après la seconde guerre mondiale, en 1949, d'abord aux USA, puis en URSS. C'est aussi celle qui, aujourd'hui encore, donne lieu à le plus de controverses. Que d'idées fausses, que d'exemples apocryphes ! Ce n'est certes pas le lieu ici de détailler l'histoire de la TA. Il faut cependant savoir un certain nombre de choses pour comprendre où nous en sommes, quelles sont les approches scientiques et techniques actuelles, et quelles sont les perspectives pour les dix ans à venir. Le but initial de la TA n'était pas, et n'est toujours pas, de remplacer les traducteurs humains. Il s'agit d'automatiser la "fonction traduisante", dans des cas où il n'y a pas de traducteurs pour faire le travail demandé, et sinon il s'agit d'aider des traducteurs humains à être plus efficaces. On parle de TAO pour regrouper ces deux aspects. Il ne s'agit pas non plus de simuler le comportement du cerveau des traducteurs, pas plus qu'on ne cherche à faire des avions qui battent des ailes. Il faut donc éviter l'anthropomorphisme, et reconnaître avec humilité que la construction d'artefacts réalisant des approximations utiles de fonctions humaines complexes ressort de la technologie scientifique, des "sciences de l'ingénieur", plutôt que de la science pure, même s'il y a toujours des allers et retours fructueux entre les sciences "pures" (modèles formels pour la linguistique et les automates) et les techniques. Il s'agit de trouver des moyens efficaces, implémentables sur les ordinateurs du moment, de réaliser plus ou moins parfaitement certaines fonctions réalisées elles aussi plus ou moins parfaitement par les traducteurs humains. S'il existe des réviseurs professionnels, c'est bien parce que les traducteurs professionnels ne sont pas parfaits. On pourrait en dire autant des systèmes de dictée automatique ou de résumé automatique. Il faut donc aussi éviter l'angélisme, et ne pas mettre la barre déraisonnablement trop haut. Avec la globalisation des échanges, l'internationalisation, et la croissance vertigineuse d'Internet, la TAO est plus que jamais d'actualité. On compte une trentaine de systèmes commerciaux au Japon, traitant le couple anglais-japonais dans un sens ou deux. Aux USA et en Europe, il y en a moins, mais chacun traite d'une demi-douzaine à une vingtaine de couples de langues. La sphère d'influence du chinois n'est pas en reste. Le grand public ne connait presque que les systèmes totalement automatiques de "veille" à large spectre, fournissant une traduction grossière permettant l'accès à l'information en langue étrangère (ex: Systran lié à Altavista). Mais il existe aussi, et depuis longtemps, des systèmes de "diffusion", spécialisés, et fournissant des traductions brutes révisables par des professionnels, souvent en moins de temps qu'un premier jet d'un traducteur humain. Quant aux systèmes d'aide aux traducteurs, ils se développent à grande vitesse, surtout depuis que l'énorme augmentation de puissance des ordinateurs permet d'utiliser des techniques très gourmandes mais très efficaces de "mémoires de traduction". Introduction L'exposé qui suit est organisé en trois parties, les deux premières consacrées à l'état de l'art, et la troisième aux perspectives. Plus précisément, on commencera par étudier la TAO actuelle vue par les utilisateurs, dans différentes situations traductionnelles. Dans la seconde partie, on présentera la TAO actuelle vue par les développeurs, c'est à dire toutes les approches méthodologiques, linguistiques et informatiques expérimentées dans des systèmes opérationnels ou des prototypes de grande ampleur. Dans la troisième partie, on présentera les paradigmes actuellement étudiés, et quelques grands projets significatifs, en TAO de l'écrit comme de l'oral. 13/41 Ingénierie des Langues et de la Parole I. Ch. Boitet État de l'art vu par les utilisateurs I.1 Variété des situations traductionnelles Traduire, c’est en premier lieu transmettre le contenu objectif d’un message (ce qui est dit d’une réalité externe, concrète ou abstraite — contenu propositionnel, et comment cela est dit — modalité, type de discours, situation de communication…). En second lieu, c’est aussi rendre ses aspects plus subjectifs (style, tonalité affective, environnement culturel, aspects esthétiques ou rhétoriques, intentions cachées…). On emploie le terme de “traduction” aussi bien pour la poésie que pour les romans, les rapports et manuels techniques, et les nomenclatures de pièces détachées, alors qu’il conviendrait, au moins, de distinguer entre : • la “traduction rapide”, ou "traduction-assimilation" de textes écrits et l’interprétation simultanée ; • la “traduction-diffusion”, en particulier la traduction de documentations techniques dont le contenu doit être strictement rendu, sans ajout ni omission, même si le style “sent la traduction” ; dans ce contexte, la traduction brute ("premier jet") d'une page standard de 250 mots (1400 signes) prend en moyenne 1 heure, et la révision 20 mn ; • la “localisation”, largement pratiquée pour les manuels de micro-ordinateurs, qui vise à adapter un contenu à un environnement culturel particulier ; • la “re-création” enfin, par exemple la traduction de poésie ou de publicité, qui vise avant tout à transmettre l’aspect subjectif, fût-ce au prix d’une transformation du contenu. La même traduction pourra donc être jugée “bonne” en traduction rapide, et détestable en re-création. À l’évidence, le traducteur humain qui effectue la localisation d’un manuel informatique comprend plus profondément qu’un interprète qui traduit des interventions techniques sur la politique agricole commune. En traduction de l'oral, il faut distinguer entre : • interprétation simultanée : l'interprète commence à traduire avant la fin de l'énoncé. • interprétation de liaison : l'interprète traduit après chaque énoncé ou tour de parole assez court. • interprétation consécutive : l'interprète écoute assez longtemps, en prenant des notes, puis reproduit les idées émises. Il s'agit plus de rephrasage ou de truchement que de traduction. I.2 Automatisations possibles des différentes étapes Tous les types de traduction de l'écrit et de l'oral, même l'interprétation simultanée, se font en plusieurs phases : préparation (des connaissances, des ressources, des documents), traduction (en plusieurs étapes si elle est informatisée), révision. 2.1 Automatisation de la préparation i. À quoi ? a. Préparation des connaissances : adaptation à une typologie (style, dico, formatage) Les traducteurs et interprètes se préparent en étudiant le vocabulaire du domaine concerné, ainsi que le style des énoncés. Par exemple, dans certains manuels d'IBM, il faut traduire « This shows how to… » par « Apprenons à… ». On parle d'adaptation à une typologie. Pour un système informatique, il s'agira de préparer des dictionnaires spécialisés, de repérer des constructions ou des interprétations de constructions particulières à la typologie, et d'établir des règles d'évaluation ou de préférence pour résoudre au mieux les cas d'ambiguïtés. 14/41 Ingénierie des Langues et de la Parole b. Ch. Boitet Préparation des textes à traduire : correction, normalisation, simplification, annotation On peut aussi commencer par préparer le texte à traduire. En effet, bien des traductions, même humaines, sont mauvaises tout simplement parce que l'original est confus, complexe, ou trop ambigu. Cette préparation a plusieurs aspects : correction, normalisation, simplification et annotation. ii. Préparation des ressources/connaissances Examinons d'abord les aides à la préparation des ressources et des connaissances. a. Lexiques spécialisés On dispose d'abord de plus en plus de lexiques spécialisés sur support informatique ou accessibles par réseau et de banques terminologiques en ligne comme Termium et Eurodicautom, aides très précieuses au traducteur humain comme au développeur de systèmes de TA. Ces lexiques suivent beaucoup plus rapidement l'évolution terminologique que leurs ancêtres sur papier, même s'ils ne peuvent jamais être parfaitement à jour. De plus, il existe des standards comme MicroMater pour l'échange de petites terminologies bilingues ou multilingues créées par des individus. b. Recherche de textes, documents, dialogues, monologues similaires D'autre part, la croissance vertigineuse de la puissance des ordinateurs, en rapidité comme en taille de stockage, permet de stocker tout ce qui est produit et éventuellement traduit (textes, documents, dialogues, monologues), et de retrouver des fragments similaires aux fragments à traduire, avec leur traduction si elle existe. Le traducteur ou l'interprète humain, tout comme le développeur de TA, peuvent alors étudier l'aspect grammatical et stylistique de la typologie visée, et dégager des règles de traduction adaptées. Par exemple, on pourra remarquer que, dans telle partie d'une grosse documentation, le passif anglais doit être rendu par un indéfini français : "the mouse is used for pointing" —> "on utilise la souris pour pointer" plutôt que "la souris est utilisée pour pointer" ou "la souris s'utilise pour pointer". Les outils utilisables pour ces recherches combinent des techniques issues des bases de données (descripteurs formatés) et de la recherche d'information (calcul de distances entre chaînes et de divers indicateurs numériques comme les fréquences de certains phénomènes et objets linguistiques). c. Aligneurs Les aligneurs permettent de transformer deux textes traduction l'un de l'autre en un bitexte, présentant en regard les fragments qui se correspondent. (Voir le chapitre 6 sur l'alignement mutilingue.) L'opération n'est pas du tout triviale, car il est fort rare que la traduction soit un calque structurel parfait de l'original. Des phrases peuvent être regroupées ou au contraire éclatées. Des paragraphes ou des sections peuvent être omis ou insérés. Des corrections de fond peuvent avoir été apportées sur la version source ou cible d'un fragment après la traduction. L'ordre de certaines listes peut avoir été chamboulé, par exemple par un tri lexicographique. Quoi qu'il en soit, ces outils existent, et font partie de tous les systèmes d'aide aux traducteurs contenant des "mémoires de traduction" : c'est grâce à eux qu'on initialise ces mémoires à partir des traductions passées. d. Extracteurs terminologiques Comme on l'a dit, les dictionnaires et lexiques ne peuvent jamais être complets. Avant de (bien) traduire, il faut donc détecter les néologismes du texte. Ils sont de deux types : mots simples nouveaux et tournures (expressions) nouvelles composées de plusieurs mots typographiques. Les analyseurs morphologiques actuels détectent facilement les premiers ("mots inconnus") et sont souvent capables de produire des hypothèses fiables sur leur nature (nom commun ou nom propre, 15/41 Ingénierie des Langues et de la Parole Ch. Boitet éventuellement raffiné en nom de personne, de lieu…, adjectif, verbe, adverbe) et sur leur lemme ("lispifions" —> "lispifer&V" / "lispifier&V" / "lispifion&N"). Les tournures composées sont le plus souvent des termes (groupes nominaux comme "laser de fréquence" ou "pilule du lendemain"), mais il y a parfois des constructions verbales, comme "coder pour" en génétique. (Voir le chapitre 9 sur la construction de ressources terminologiques.) Il existe un certain nombre d'extracteurs terminologiques, comme dans la "suite multilingue" XMS1 de Xerox. Leur principe repose sur un repérage de schémas de suites d'occurrences, de lemmes ou de catégories (comme Ncom+de+Ncom), et sur un calcul statistique de leur pertinence. Ainsi, "pilule du lendemain" ne sera considéré comme une tournure que s'il est assez fréquent dans le texte analysé. On établit ainsi une ou deux listes des candidats (mots simples et tournures composées) et on les propose à l'utilisateur, traducteur ou lexicographe, qui peut alors rechercher les équivalents possibles et les apprendre ou les indexer dans les dictionnaires de TAO. Certains environnement de TA, comme ETAP-2 de l'IPPI à Moscou, analysent les tournures trouvées et en proposent des traductions "compositionnelles", qu'on peut ensuite éditer. Par exemple, "pill of tomorrow" / "pill of the next day" /… iii. Préparation des textes à traduire a. Correction La correction est automatisable grâce à divers outils courants : correcteurs orthographiques, grammaticaux, stylistiques, et nous n'en dirons rien de plus. b. Normalisation La normalisation concerne le choix de termes ou d'acronymes préférés ou imposés dans le cadre du document à traduire (il ne peut s'agir ici que de l'écrit). Cette fonction est largement automatisable, et est parfois incluse dans les correcteurs stylistiques. Elle nécessite évidemment une spécialisation du dictionnaire, car le terme préféré parmi un ensemble de synonymes varie selon le contexte. Par exemple, "avion", "appareil", "aéronef", "machine", "piège", en aéronautique (langage populaire, technique, réglementaire, familier, argotique). c. Simplification La simplification vise à rendre un texte plus facile à traduire, en le transformant en une suite de phrases simples, et en explicitant les éléments élidés. Plusieurs systèmes commerciaux japonaisanglais (Duet-2 de Sharp, AS/Transac de Toshiba…) proposent ainsi de découper les phrases en phrases simples, et d'expliciter les sujets et objets des verbes, souvent omis. En français, on proposera de même de découper les phrases en phrases plus simples, d'éliminer le plus possible les pronoms, d'éviter les constructions compliquées (empilement de modaux, dépendances à longue distance…) et les énumérations imbriquées. Plus on pousse la simplification, plus on se rapproche de la technique du "langage contrôlé", largement répandue dans le cadre de la rédaction technique (ex: norme AECMA pour l'anglais des manuels des constructeurs aéronautiques). De nombreux outils de simplification existent. Ils aident à rédiger plus clairement pour les lecteurs humains. En pratique, les rédacteurs n'arrivent pas à simplifier à 100%. Mais, si 90% des énoncés sont écrits dans un langage contrôlé connu des auteurs d'un système de TA, le système pourra être spécialisé, il y aura beaucoup moins d'ambiguïtés, et la qualité de traduction "brute" en sera considérablement améliorée. 1 Xerox Multilingual Suite. 16/41 Ingénierie des Langues et de la Parole d. Ch. Boitet Annotation On peut enfin annoter le texte, pour supprimer par avance un certain nombre d'ambiguïtés. Les annotations sur les mots peuvent concerner aussi bien les attributs morphologiques et syntaxiques comme le genre (mode&F / mode&M) ou la classe (ferme&N / ferme&Adj / ferme&Adv / ferme&V) que le sens (ferme_maison / ferme_charpente), grâce à des gloses renvoyant ensuite à des sens dans le dictionnaire. Il peut être aussi très utile de marquer les groupes de mots fonctionnant comme des termes ou des noms propres, en particulier les noms de marque et les valeurs d'items de menus. Par exemple, "pour enregistrer votre fichier, cliquez sur <NPimp> Enregistrer sous… </NPimp>", ou "He then switched_change to <NPmark> MicroSoft&Nfirm Office&NP </NPmark> opposé à "He then switched_dial to MicroSoft office&N". Enfin, on peut aider puissamment les analyseurs en mettant des annotations structurelles. Par exemple, "l'école de <C> cuisine grenobloise </C>" opposé à "<C>l'école de cuisine </C> grenobloise". L'annotation des textes peut être très largement automatisée, mais comporte nécessairement une phase interactive dans laquelle l'utilisateur choisit entre plusieurs possibilités présentées dans un menu, ou manipule directement une représentation arborescente comme la vue "plan" de Word. Des outils existent, mais ils sont encore très partiels. Dans le futur, on verra certainement apparaître des éditeurs conviviaux cachant ou montrant ces marques à volonté, et permettant de les insérer indirectement, comme les éditeurs html si répandus aujourd'hui. 2.2 Automatisations de la traduction proprement dite Automatisations de la traduction proprement dite L'automatisation du processus de traduction peut être totale, partielle, ou apparente. i. Traduction automatique La traduction automatique vise à l’automatisation totale : on traite le texte en langue source de façon totalement automatique, à la façon d’un compilateur classique de langage de programmation. Malheureusement, il est vite apparu qu’on ne pouvait obtenir l’équivalent d’une traduction brute professionnelle par cette méthode, sauf sur des typologies très restreintes. ii. Traduction semi-automatique & variantes On a donc construit des systèmes semi-automatiques utilisant des interventions humaines au cours du traitement. La première idée est d’interroger l’utilisateur dès qu’un problème se présente. C’est le cas de systèmes comme ITS à BYU (Provo, Utah, 1972-80), CAT de Weidner, Transactive de ALPS, etc. Mais l’ergonomie est mauvaise : les utilisateurs sont esclaves de la machine, ils doivent répondre à des questions locales qu’un système devrait résoudre tout seul (ex : "il lit le livre" —> « livre N ou V ? », comme dans "le grand lit le livre"), et l’ordre des questions, imposé par l’algorithme implémenté, ne correspond pas à une stratégie "humaine". De plus, les questions utilisent en général des termes techniques et s'adressent donc à des spécialistes. Parfois, comme dans ITS, il fallait même un spécialiste bilingue par couple de langues. La seconde idée, plus récente, est de faire intervenir l'utilisateur uniquement en langue source, après une analyse aussi complète et robuste que possible, produisant une représentation contenant les ambiguïtés (syntaxiques et sémantiques) relatives aussi bien à la langue source qu'aux langues cibles visées. Par exemple, si on traduit à partir du français vers plusieurs langues dont l'allemand, 17/41 Ingénierie des Langues et de la Parole Ch. Boitet "capitaine" sera ambigu, et le résultat d'analyse contiendra au moins 4 sens pour ce mot ("Kapitän", "Hauptmann", "Artilleriechef", "Rittmeister"). La difficulté est de construire un dialogue de désambiguïsation interactive convivial, n'utilisant aucune connaissance des langues cibles visées, aucune notion spécialisée de grammaire ou de linguistique, et aucune représentation complexe comme des arbres ou des graphes. Comme l'a montré le projet LIDIA [Boitet & Blanchon 94], on peut y arriver grâce à des rephrasages simples construits à partir des mots de l'énoncé source. iii. Suggestion par mémoire de traduction La technique actuelle de mémoire de traduction consiste à retrouver un ou plusieurs énoncés sources déjà traduits et très voisins de l'énoncé à traduire, à montrer les différences (mots retirés ou ajoutés), et à proposer leurs traductions. On ne peut donc pas vraiment parler de traduction automatique, puisqu'aucun processus de traduction n'est mis en œuvre. Évidemment, si la coïncidence est exacte, le résultat est excellent, puisqu'il s'agit d'une traduction révisée, sauf bien sûr si l'énoncé est ambigu et si la traduction correspond à une interprétation erronée dans le contexte. Pour qu'on puisse parler de traduction automatique, il faudrait pouvoir détecter les correspondances entre les différences entre l'énoncé à traduire et les exemples trouvés, et modifier les traductions des exemples en conséquence. Cela n'est devenu possible que très récemment, et il faut pour cela utiliser des mémoires "à étages" (transcription de base comme XML, mots, lemmes et termes, balises…), et faire l'hypothèse simplificatrice (mais efficace si la mémoire est grande) qu'à un des étages, les exemples à chercher doivent contenir l'énoncé à traiter [Planas 1999]. 2.3 Automatisations de la révision On peut envisager d'automatiser la révision de trois façons : en réparant les erreurs humaines ou machinales, en intégrant des fonctions spécialisées au traitement de texte, et, dans de futurs systèmes de TAO, en intégrant révision humaine et génération automatique. i. Réparation d'erreurs humaines ou machinales Pour réparer les erreurs, on commence par utiliser les correcteurs dont on a parlé plus haut (orthographiques, terminologiques, grammaticaux, stylistiques). ii. Aides au niveau du traitement de texte a. Mise en relief de fragments douteux Au niveau du traitement de texte, il est d'abord possible de mettre en relief les fragments douteux. Les traducteurs humains le font parfois, en mettant leurs doutes sous forme d'annotations. Un système de TA peut aussi être construit pour fabriquer des marques de doute. Par exemple, traduisant en anglais "Dites-moi quelle agence gère ce bureau", on pourra produire "Tell me which <??SujObj> branch </??> manages this office". b. Production de traductions alternatives Dans d'autres cas, quand l'ordre des mots reste le même dans les traductions possibles, on peut produire des traductions alternatives présentées de façon conventionnelle. Par exemple, en traduction du russe en français, on trouve des passifs homographes au présent et au passé : "la fusée est [[a été]] lancée de Baikonour". Ces traductions alternatives peuvent être présentées de façon spéciale, par exemple en mettant en relief la traduction principale (surlignage, inversion vidéo…), et en montrant les autres dans un menu si on clique dessus (systèmes Taifun et Tsunami en JP-EN). 18/41 Ingénierie des Langues et de la Parole c. Ch. Boitet Macros, abréviations… Enfin, comme cela a été fait pour la première fois à la PAHO2 (systèmes ENGSPAN et SPANAM), on peut développer des macros adaptées à certaines corrections typiques, par exemple la permutation de 2 ou 3 groupes de mots, ou le passage de tout un groupe de mots du singulier au pluriel ou inversement, de façon simpliste (ajout ou retrait du "s" final, les cas différents étant ajustés à la main). iii. Aides intégrées à la génération automatique (possibilité future) Bien que cela n'ait à notre connaissance pas encore été fait, il semble enfin tout à fait possible, si on dispose d'un système de TA modulaire avec génération autonome, d'intégrer la génération automatique à la révision. Par exemple, on pourrait remplacer partout "sentinelle" par "gardien", et obtenir automatiquement la modification correspondante du genre des articles et adjectifs dépendant de ce mot, pour une ou plusieurs occurrences bien sûr. Pour cela, il suffit de remplacer un lemme par un autre dans l'entrée du générateur (en général, un arbre décoré), et de le relancer. 2.4 Organisation globale des travaux de traduction Toutes les étapes de la traduction peuvent donc être automatisées, totalement ou partiellement. Il en va de même de l'organisation globale des travaux de traduction. i. Serveurs pour différentes étapes D'abord, les traitements automatiques possibles pour chaque étape peuvent être implémentés sur des serveurs. Ainsi, la préparation des documents dans des systèmes de THAM comme EuroLang Optimizer ou XMS est déportée sur un serveur. ii. Quelques ateliers de traduction Ensuite, la traduction de grosses documentations demande la participation de plusieurs traducteurs, réviseurs, et coordinateurs. C'est pourquoi toutes les offres de systèmes de THAM professionnels contiennent maintenant un "atelier de traduction" destiné à automatiser la gestion des travaux. On fait passer les documents par différents processus automatiques, on distribue leus parties à plusieurs traducteurs et réviseurs, et on peut savoir à tout moment où en est le traitement de chaque partie. I.3 Évaluations possibles Du point de vue de l'utilisateur, comment évaluer les systèmes existants ? 3.1 Grande variété des grilles L'évaluation des systèmes de TAO est un thème qui a déjà fait couler beaucoup d'encre depuis 50 ans. Depuis que les systèmes de TA-dépistage sont devenus des logiciels grand public, on voit régulièrement des études comparatives dans diverses revues. Il y a en fait une grande variété de critères possibles. On peut par exemple distinguer entre critères internes et externes. Les premiers, qui intéressent peu les utilisateurs, concernent l'architecture linguistique et algorithmique du système. Les seconds sont statiques ou dynamiques : on juge un état d'un système ou ses possibilités d'évolution. Détaillons les premiers, qui donnent lieu à des notes subjectives ou objectives. 2 Pan American Health Organization (Washington, D. C.). 19/41 Ingénierie des Langues et de la Parole Ch. Boitet 3.2 Notes subjectives Les critères externes subjectifs les plus classiques sont la lisibilité, l'intelligibilité, la fidélité et la souplesse d'emploi. On ne peut les évaluer que par enquête auprès d'un échantillon d'utilisateurs. i. Lisibilité La lisibilité est assez difficile à définir. Y participent non seulement la grammaticalité, mais aussi la gravité des erreurs les plus fréquentes, le rendu du formatage initial, la présentation typographique des annotations (doutes, traductions multiples), et la mise en correspondance avec l'original. Pour donner une note de lisibilité, il ne suffit pas de mesurer la vitesse de lecture, il faut aussi interroger sur l'impression d'ensemble. ii. Intelligibilité L'intelligibilité s'entend d'abord énoncé par énoncé, après quoi on calcule une moyenne pour un texte. Elle reflète l'effort qu'il faut faire pour comprendre l'énoncé lu et être capable de le "rephraser" de façon correcte, indépendamment du fait qu'il soit une bonne ou une mauvaise traduction de l'original. iii. Fidélité La fidélité est la qualité de la transmission du "message" exprimé par un énoncé, dans son contenu comme dans sa forme. Ainsi, une paraphrase exacte sera jugée moins fidèle qu'une traduction littérale. iv. Souplesse d'emploi Enfin, la souplesse d'emploi relète la facilité d'installation, de paramétrage, d'activation et de modification du système. Par exemple, s'il y a de multiples dictionnaires dans lesquels on choisit une liste avec priorités, il s'agit de la qualité de l'interface permettant de construire ces listes, de les modifier, de les nommer, de les associer à des types de documents, etc. Quant à la modification, il s'agit de l'environnement qui permet de modifier les dictionnaires, et (cas plus rares) les grammaires et algorithmes du système. 3.3 Notes objectives Les critères objectifs sont essentiellement la grammaticalité, l'exactitude terminologique, le coût de la TA (prix, temps, espace), le temps de révision, et le temps d'ajustement des dictionnaires. i. Grammaticalité Pour noter la grammaticalité, on fait comme les professeurs de langue : on repère les types de fautes, on attribue un coefficient à chacun, et on compte les erreurs. Soit Sp la somme pondérée ramenée à 100 mots ou à une page de 250 mots. On dira alors qu'il y a Sp fautes sur 100, ou par page. Pour obtenir une note entre A et B (0 et 20 par exemple), on retire k points par faute pondérée, en s'arrêtant à 0 : N = max (A, B-k*Sp), k étant choisi pour que les notes obtenues correspondent à l'impression d'ensemble (sur 20 : 18=excellent, 16=très bien, 14=bien, 12=assez bien, 10=passable, etc.). ii. Exactitude terminologique L'exactitude terminologique semble un peu moins objective, des termes différents étant utilisés dans différents contextes. Il faut donc bien préciser de quel contexte il s'agit, et s'assurer que le système mesuré offre bien un vocabulaire spécialisé adéquat et… utilisé lors de la mesure. Ensuite, on compte et on note comme précédemment. 20/41 Ingénierie des Langues et de la Parole iii. Ch. Boitet Coût de la TA (prix, temps, espace) Le coût du système de TA comporte son prix d'achat et de maintenance, et son coût en temps et en espace. Le coût en temps, évalué comme le temps de calcul, ou le nombre de mots traduits à l'heure, est souvent présenté comme très important. Mais cela dépend de la situation traductionnelle. Le "bon" critère est plutôt le temps d'attente de l'utilisateur, qui comporte aussi le temps de tous les traitements annexes, souvent au moins aussi longs (filtres, segmentation, gestion, soumission par réseau…). Si on navigue sur la Toile, le délai doit être de l'ordre de la seconde pour une page, et la qualité produite peut être basse. Si on traduit une grosse documentation technique, un délai de quelques heures est acceptable — mais il faut obtenir une qualité bien plus élevée. Le coût en espace des systèmes de TA est en général très raisonnable, comparé à celui d'utilitaires classiques comme Microsoft Office. Par contre, la place prise par les mémoires de traduction dans les systèmes de THAM peut être énorme (plusieurs gigaoctets à l'UE), et le temps de recherche dans ces mémoires peut aussi être beaucoup plus élevé que le temps de TA sur le même processeur. C'est pourquoi ces très grosses mémoires sont exploitées par des processeurs parallèles très puissants. iv. Temps de révision Nous appelons souvent "traduction du réviseur" la traduction-diffusion. En effet, le réviseur est l'utilisateur direct du résultat de la TA, et le coût de révision domine tous les autres. Mais il n'est évaluable que si la qualité de la TA est assez bonne pour que le réviseur accepte de réviser. À titre indicatif, sachant qu'un réviseur met en moyenne 20 mn pour réviser une page de 250 mots traduite en 1 h par un traducteur humain, 30 à 35 mn de révision semble être le seuil d'acceptabilité. Au delà, le réviseur préfère produire directement la traduction, en s'aidant éventuellement du résultat de la TA comme d'une aide dictionnairique en contexte. Dans les situations favorables, le temps de révision de la TA peut descendre en-dessous du temps de révision de la traduction humaine, après une période d'adaptation au système. En effet, les erreurs de TA sont en général plus systématiques que les erreurs humaines, et le réviseur a moins de réticence à corriger une traduction produite par une machine qu'une produite par un collègue, qui reçoit souvent en retour son texte annoté. Siemens a parlé de 10 à 15 mn de révision par page avec METAL (allemand-anglais). L'équipe russe du GETA est arrivé au même temps en régime de croisière (russefrançais). Enfin, les réviseurs des bulletins météorologiques traduits par METEO au Canada arrivent, dans ce cas très favorable, à 1 à 2 mn par bulletin (de 100 à 200 mots). v. Temps d'insertion dans les dictionnaires Enfin, on peut mesurer objectivement le temps d'insertion (ou "indexation") de nouveaux articles dans les dictionnaires du système, en THAM ou en TA. Dans le cas de la TA, les informations demandées à l'indexeur sont celles nécessaires à la THAM, augmentées d'autres plus spécialisées (codes syntaxo-sémantiques, rections). À titre d'exemple, les projets Esope (ADI, 1982-86) et Eurolang (Eureka, 1992-95) ont évalué à 20 mn le temps passé pour trouver le ou les équivalents d'un terme dans une autre langue et pour leur associer les codes primaires (classe morphosyntaxique, paradigme), et à 10 mn le temps d'indexation des informations spécifiques de la TA. On ne parle pas ici des temps d'indexation des éléments des classes fermées (auxiliaires, articles, prépositions, pronoms, conjonctions, particules…), car ils appartiennent au modèle de la langue et sont indexés une fois pour toutes par les constructeurs du système de TA. 21/41 Ingénierie des Langues et de la Parole II. Ch. Boitet Technologie de la TAO « experte » Après ce bref survol de la TAO du point de vue des utilisateurs, il est intéressant de "soulever le capot" et de voir comment les systèmes sont construits. De façon générale, un système de TA doit combattre deux obstacles essentiels, la polysémie et la synonymie, c'est à dire résoudre les ambiguïtés lors de l'analyse et du transfert (dans les systèmes à transfert), et choisir entre diverses paraphrases possibles en génération. Dans les systèmes directs, ces deux opérations sont confondues, mais le problème reste. On donnera d'abord une vue synthétique des caractéristiques essentielles qui permettent de classer les systèmes de TA, puis des exemples de systèmes, et enfin des détails sur certaines de ces caractéristiques. II.1 Caractéristiques essentielles et exemples de systèmes On peut distinguer des caractéristiques linguistiques et informatiques. 1.1 Caractéristiques linguistiques Les caractéristiques linguistiques sont : • l'architecture linguistique, qui va du direct au pivot interlingue avec ou sans ontologie en passant par le transfert syntaxique, sémantique ou multiniveau ; • les sources de connaissances (de la liste de formes à l'ontologie) ; • les structures de données pour les représentations intermédiaires : liste, arbres, graphes de chaînes, treilles, ou hypergraphes pour la partie "géométrique", chaînes, étiquettes, attributs, décorations, structures de traits, formules logiques pour la partie "algébrique". 1.2 Caractéristiques informatiques Les caractéristiques informatiques sont : • les approches algorithmiques (déterministe, heuristique, combinatoire, avec éventuellement usage de préférences, statistiques ou poids) ; • les langages d'implémentation des données et des processus linguistiques, qui vont du macroassembleur aux langages spécialisés de règles, tous les systèmes ayant un langage spécifique pour les dictionnaires ; • la place et le degré de l'interactivité : pendant ou après certaines phases du traitement. 1.3 Types de systèmes existants ou prototypes i. Tableau 22/41 Ingénierie des Langues et de la Parole Ch. Boitet Systèmes complets Constructeur Début Archi LgLing Conn Sdon Systran Latsec/Systran 1967 Direct 210 3210 LCB D 0 AS-TRANSAC Toshiba 1980 Trans-synt 521 321S ACB H 0 TransActive ALPS 1980? Direct 21 3210 LCB D 1 METEO TAUM, Chandioux 5 321 GEB D 0 CAT Weidner 1981? Direct 21 3210 LCB D 1 Logos Logos 1981? Trans-synt 421 3210 ACB H 0 PIVOT NEC 1983? Trans-sém 421 3210 ACB? D 0 Spanam/Engspan PAHO 1984? Trans-synt 5421 3210 ACB? H 0 Ariane/RU-FR 81-87 Trans-multiniv 51 321P ATCD HC 0 GETA puis 1981 Direct 3 4 5 Algo 6 Inter Ariane/aero/F-E B’Vital/SITE 85-95 ATLAS-I Fujitsu 1985 Direct 210 3210 LCB D 0 METAL SNI/Austin 1985 Trans-synt 531 321W AEB HC 0 ATLAS-II Fujitsu 1986 Pivot-interling 521 321W HE D 0 DUET Sharp 1986? Trans-synt 521 321W AEB C 4 HICAT Hitachi 1986? Trans-synt 521 321 AED HC 0 Pensée OKI 1987? Trans-synt ? ? ? ? 0 Shalt-II IBM 1988? Trans-synt 521 321W AED H 0 Power Translator Globalink/ L&H 1991 Direct 21 21 LCEB D 0 MAJESTIC JICST 1992 Trans-sém. 521 321 AED HC 0 KANT CMU 1992 Pivot-ontol 51 4321P A HC 12 LMT IBM 1992? Trans-synt 531 321W AL HC 2 Reverso Prompt/ 1997 Direct 421 321 D 0 3 LCEB 7 LgLing = langage d'implémentation des données et traitements linguistiques. 0 = bas niveau (macros assembleur), 1 = langage spécialisé pour dictionnaires, 2 = langage algorithmique général (Pascal, C), 3 = langage de très haut niveau (Lisp, Prolog), 4 = langage codé de règles, 5 = langage symbolique de règles. 4 Conn = sources de connaissances. 0 = chaînes de caractères, 1 = morphologie, 2 = syntaxe, 3 = sémantique interne, 4 = sémantique externe (ontologie), S = statistiques, P = préférences, W = poids. 5 Sdon = structures de données. L = liste, A = arbres, G = graphes de chaînes, T = treilles, H = (hyper)graphes, C = chaînes, E = étiquettes, B = attributs, D = décorations, F = structures de traits, L = formules logiques. 6 Alg = approche algorithmique. D = déterministe, C = combinatoire, H = heuristique, F = filtres, P = préférences, S = statistiques, W = poids. 7 Inter = interactivité. 0 = aucune, 1 = pendant l'analyse, 2 = après l'analyse, 3 = durant le transfert, 4 = après le transfert, 5 = durant la génération, 6 = après la génération. 23/41 Ingénierie des Langues et de la Parole Ch. Boitet Softissimo Web Translator ? 1995? Direct 421 321 LCEB D 0? ALT/JE NTT 1989? Trans-sém 432 321 AED HC 0 ALT/Flash NTT pour Nikkei 1998 2 moteurs: Direct 432 + Trans 321 LC AED + D+HC 0 Prototypes Labos Dates Archi LgLing Conn Sdon Algo Inter Ntrans Projet ALVEY 83-87 Trans-sém 51 321 AEB C CAT2 IAI 87- 51 321 AECB HC 0 LIDIA GETA 90-95 Trans- multi+ acc. IL 51 321 ATCB CP 2 UNL UNU/IAS & coll. 1996- Pivot-IL (interlg) 51 321W HCB JETS IBM-Japon 521 321 Trans-sém 93-98 Trans-synt H AEBL C 2 1246 2 (Les groupes participant à UNL mettent actuellement en œuvre des stratégies variées, on peut avoir plusieurs types d'encodeurs et de décodeurs pour chaque langue.) ii. Commentaires sur les systèmes À développer. II.2 Architectures linguistiques possibles 2.1 Le triangle de Vauquois : approches directes, à transfert, ± sémantique, à interlingue, à ontologie Les architectures possibles se déduisent facilement du "triangle de Vauquois". i. TAO directe ou semi-directe En TAO directe, on effectue des remplacements de chaînes et des réarrangements. Parfois, l'analyse va jusqu'à produire des arbres syntaxiques (METEO), mais l'essentiel est que l'analyse est faite en fonction de la langue cible : on remplace dès que possible les lexèmes sources par des lexèmes cibles. L'algorithme est aussi toujours déterministe : en cas d'ambiguïté, on décide, sans possibilité de retour en arrière ni de stockage de solutions alternatives, sur la base du contexte immédiat. 24/41 Ingénierie des Langues et de la Parole Ch. Boitet Deep understa nding level Ontologicalinterlingua Architekturen: Vauquois Dreieck (größer)interlingua Semantico-linguistic Interlingual le vel Conceptual transfer Semantic transfer Logico-semant ic level Mixing levels Syntactico-functio nal level Syntagmatic level SPA-structures (semantic & predicate-arg ument) Ascending transfer Multilevel transfer Multilevel descriptio n Syntactic transfer (deep) F-structures (functional) Syntactic transfer (surface ) C-structures (constituent) Morpho-syntac tic level Semi-direct translatio n Descending transfers Graphemic leve l Ch.!Boitet Direct translation Humboldt 2001 — Zukunft der MÜ, 16/11/2001 Tagged tex t Text 6/28 En TAO semi-directe, l'analyse produit un descripteur structural dépendant uniquement de la langue source, à un niveau d'interprétation linguistique assez bas (au plus syntagmatique), et on ne calcule pas de descripteur autonome pour l'énoncé cible. Il n'y a donc pas d'étape de génération indépendante de la langue source. C'est le cas de METAL et de Shalt-II. ii. TAO par transfert Le choix entre les différents types de transfert dépend des couples de langues visés. Si on s'attaque à des langues de la même famille, romanes par exemple, le transfert syntaxique bas peut suffire. Cela veut dire qu'on a relativement peu de transformations structurales à effectuer sur les arbres syntagmatiques. Par contre, si on passe par exemple de langues romanes à des langues slaves ou germaniques, il faut très souvent traduire un groupe nominal par une proposition, etc. Le transfert "haut", qui s'appuie sur les relations de dépendance (ou fonctions syntaxiques) comme sujet, objet, complément… convient souvent. Mais si l'on veut passer à des langues non indo-européennes, ou réduire à sa plus simple expression le transfert structural, il convient d'analyser jusqu'au niveau logique (prédicats et arguments) et sémantique (relations sémantiques sur les circonstants au moins). L'idée du transfert multiniveau, introduite par B. Vauquois, vient de la pratique. Il arrive souvent qu'on échoue dans l'interprétation fonctionnelle, prédicative ou sémantique des relations entre mots u groupes de mots. Si on utilise une approche purement séquentielle, on obtient alors en fin d'analyse un descripteur partiel ou douteux. Garder sur un même graphe (en général arborescent) les niveaux bas en même temps que les niveaux hauts contitue une sorte de "filet de sécurité". Cela est d'autant plus important que les unités de traduction sont plus grandes, puisque la probabilité d'échec de l'analyse au plus haut niveau tend vite vers 1 si on passe d'un énoncé à plusieurs paragraphes ou plusieurs pages. 25/41 Ingénierie des Langues et de la Parole Ch. Boitet D'autre part, on peut alors coder en transfert des règles de préférences stylistiques comme des ordres ou des conseils au générateur, par le biais d'attributs tactiques. Par exemple, on peut transformer la voix passive en indéterminé, et le générateur essaiera de produire cette construction. Si cela est impossible, il tentera de produire l'une des constructions moins prioritaires. Par exemple, si l'attribut tactique LOCK contient la valeur VOIX, cela voudra dire qu'on impose la voix, et le générateur pourra fabriquer une périphrase complexe pour satisfaire cette contrainte. iii. TAO par pivot Un "pivot" n'est pas nécessairement un interlingue. Ce peut être un texte, éventuellement annoté et parenthésé, dans une langue arbitraire (espéranto dans le cas du projet DLT de BSO research). Ce peut aussi être une représentation plus ou moins abstraite dans une langue particulière, par exemple un arbre syntaxique, sémantique ou multiniveau de l'anglais. On a alors un "double transfert". Mais, le plus souvent, on cherche à construire un pivot "interlingue", dans lequel les éléments lexicaux renvoient à des "sens de mots" ou "acceptions interlingues". C'est le cas du système ATLAS-II de Fujitsu et du projet UNL. Dans ce cas, on a encore le choix entre n'utiliser que des attributs universels (logiques et sémantiques) et introduire aussi des attributs également abstraits mais non universellement nécessaires (comme le sexe, la pluralité, la modalité…). Enfin, de rares systèmes récents comme KANT/CATALYST (CMU+Caterpillar) et Pangloss (CRL, New-Mexico) utilisent une "ontologie" (description formalisée du domaine d'interprétation des textes à traduire). Construire une ontologie est très coûteux, et ne se justifie économiquement pas si l'ontologie n'est utilisée que pour la traduction. De plus, il y a alors de gros problèmes de maintenance. Par contre, si l'ontologie est développée et maintenue pour d'autres applications comme la CFAO ou la génération multilingue de notices, cela vaut vraiment la peine. 2.2 Systèmes multilingues Choisir une "meilleure" architecture pour un système multilingue dépend de la situation traductionnelle. i. Systèmes monosources et multicibles Pour un système monosource et multicible, les architectures par transfert conviennent fort bien, à condition de choisir le bon niveau en fonction de la "distance" des langues cibles. Cela permet aussi de produire assez facilement des traductions très précises, et tenant compte des contraintes stylistiques, puisqu'on joue à chaque fois sur le contraste entre deux langues. L'analyse étant partagée dès qu'on fait au moins du transfert, on peut aussi la travailler dans le détail. ii. Systèmes multisources et monocibles Par contre, pour un système multisource et monocible, on est contraint par des raisons économiques à produire des analyseurs beaucoup moins sophistiqués. Il vaut alors mieux viser la traductionassimilation (TA du veilleur). iii. Systèmes multisources et multicibles Enfin, dans le cas d'un système multisource et multicible, on a intérêt, à partir d'un certain nombre de langues, à utiliser une approche par pivot interlingue. Si l'on estime que construire un dictionnaire entre une langue et le pivot coûte 3 fois plus que construire un dictionnaire de transfert entre deux langues, ce qui est optimiste au vu des problèmes rencontrés dans les systèmes à pivot interlingue, cette architecture devient intéressante à partir de 8 langues : l'architecture pivot coûte 6n, et l'architecture transfert "naïve" (on construit tous les transferts possibles) n(n-1), ce qui est inférieur si n*(n-7)<0, soit n!8. 26/41 Ingénierie des Langues et de la Parole Ch. Boitet 2.3 Le faux problème du coût quadratique du transfert multilingue Profitons-en pour tordre le cou à l'idée selon laquelle l'approche transfert mène nécessairement à un coût quadratique en fonction du nombre de langues. Ce fut l'un des grands reproches faits au projet Eurotra de l'UE (1982-1992), qui adopta l'approche naïve. En effet, il suffit de prendre comme pivots non interlingues les descripteurs structuraux de la langue la plus importante, ou des langues les plus importantes, du point de vue des flux de traduction, qui ne sont jamais égaux en pratique (ex: anglais, français, allemand à l'UE), et d'écrire les transferts entre ces langues et entre ces langues et toutes les autres. Avec p langues utilisées pour ces "pivots structuraux" et n langues au total, on écrit donc p*(p-1)+2p*(n-p) = p*(2n-p-1) transferts. Le coût d'une architecture pivot est supérieur au coût précédent si p = 1, 2, 3, 4. Bien sûr, on fait des doubles transferts pour les couples les moins importants, mais c'est ce qu'on fait toujours avec un pivot interlingue ! II.3 Sources de connaissances Les sources de connaissances utilisables pour construire un système de TA sont d'abord symboliques : linguistiques (lexique, grammaire, étude précise d'un typologie), sémantiques "internes" (propriétés véhiculées par la langue comme les relations sémantiques via les prépositions, etc.), sémantiques "externes" (ontologie), et pragmatiques (situation et locuteur dans un dialogue). De plus, on utilise souvent des connaissances "stratégiques" qui permettent d'améliorer la résolution automatique des ambiguïtés. Elles se présentent soit comme des "préférences" (symboliques), soit comme des statistiques (fréquences de bigrammes, trigrammes…) ou des poids (coefficients de confiance). Une direction assez récente consiste à marier les connaissances symboliques et numériques, ces dernières étant obtenues par apprentissage de de gros corpus. II.4 Structures de données pour les représentations intermédiaires Les structures de données utilisées pour les représentations intermédiaires sont assez variées. Le plus souvent, on a une structure "géométrique" dont certains éléments portent des informations "algébriques". Par exemple, on utilise souvent des arbres (orientés et ordonnés) étiquetés ou décorés. Pour la géométrie, outre les arbres, on utilise les listes, les graphes, les réseaux, et les hypergraphes. Dans la partie algébrique, on trouve des étiquettes simples (AIMER, GN, Art…), des listes de traits booléens (+plur, -anim…), des attributs structurés ou décorations, et des structures de traits complexes, typées ou non. Ce qu'on exprime géométriquement est le plus souvent lié à l'hypotaxe et à la parataxe, car, dans une liste, on peut avoir des répétitions. Ce qu'on exprime algébriquement est plutôt lié à la théorie des ensembles. On peut ainsi exprimer des contraintes d'accord (ex: intersection non vide entre une valence de rection d'un prédicat et une valence d'état d'un régisseur) ou affecter des valeurs ensemblistes. Le choix de ces structures est extrêmement important, car il détermine la complexité des opérations élémentaires et l'aisance de programmation. Il faudrait ici une longue discussion comparative, mais la place manque. Disons seulement qu'un des meilleurs choix consiste à utiliser un graphe de chaînes ou une treille d'arbres décorés (réseaux sans circuit à une entrée et une sortie, les arbres étant sur les arcs dans les graphes et sur les nœuds dans les treilles). L'ambiguïté peut alors être représentée dans le graphe/treille, dans les structures arborescentes (arbres et/ou), ou dans les décorations (attributs ensemblistes, valeurs indéterminées). Utiliser des arbres plutôt que des graphes dans les calculs complexes de reconnaissance de schémas permet de diminuer considérablement la complexité des calculs, car on peut "diviser pour régner". 27/41 Ingénierie des Langues et de la Parole II.5 Ch. Boitet Approches algorithmiques (déterministe, heuristique, combinatoire) Les systèmes de TA de "première génération" sont entre autres caractérisés par une approche déterministe. Dès qu'une ambiguïté se présente, on la résout localement, sans possibilité de revenir plus tard en arrière, ni de développer plusieurs solutions en parallèle pour choisir plus tard. C'est le cas de tous les traducteurs de parges Web, Systran, Globalink, Reverso, Taifun, Tsunami, etc. Comme les langues naturelles sont intrinsèquement ambiguës, il est impossible de garantir qu'une telle suite de décisions locales corresponde à une analyse globale correcte de l'énoncé. Par contre, les systèmes de deuxième génération et plus cherchent à construire une ou plusieurs analyses complètes. Historiquement, on a d'abord développé des méthodes combinatoires avec filtres ou préférences fondées sur des grammaires de dépendance (surtout en URSS) ou sur des grammaires de constituants (CETA). L'idée est de calculer toutes les structures complètes, si possible de façon factorisée (par programmation dynamique, algorithmes de Cocke en 1961, d'Earley en 1971), puis de filtrer par une série de contraintes (ex: accord), ou d'effectuer un "tournoi" entre les structures à l'aide de règles de préférence. On réduit ainsi l'ensemble des candidats à un petit ensemble, on ordonne arbitrairemement les ex æquo dans le cas du tournoi, et on retient le meilleur. L'approche heuristique consiste à ne pas développer toute l'arborescence des calculs possibles, mais seulement une partie. Beaucoup d'analyseurs spécialisés à des typologies particulières utilisent la technique classique du retour arrière (à la Prolog), le plus souvent sans mise en mémoire des souscalculs intermédiaires, donc sans programmation dynamique. D'autres pondèrent les sous-calculs et n'en calculent qu'un "faisceau", en développant seulement une certaine fraction des meilleurs à chaque étape. L'approche heuristique peut aussi consister à utiliser des "fonctions heuristiques" influant sur un algorithme de base combinatoire (cas des ATN de W.Woods pour la syntaxe et du langage ATEF de J.Chauché pour l'analyse morphologique). II.6 Langages d'implémentation des données et des processus linguistiques Enfin, on peut caractériser les systèmes de TA par le type des langages utilisés pour implémenter les données et les processus linguistiques. 6.1 Langages de bas niveau Les langages de bas niveau comme l'assembleur ou le macroassembleur ont été et sont encore parfois utilisés dans des systèmes de 1° génération, pour implémenter les traitements linguistiques (Systran, CAT, systèmes du VCP à Moscou…). 6.2 Langages spécialisés pour les dictionnaires Cependant, presque dès le début de la TA, on a développé des langages spécialisés pour l'écriture des dictionnaires. Certains sont assez primitifs, les codes étant numériques ou notant directement des configurations mémoire (ex: X'2F'). Les autres sont symboliques, les codes (ex: VRB1A2) étant compilés vers des formes internes. 6.3 Langages impératifs classiques (C, Pascal…) Les langages impératifs classiques ont aussi et sont encore utilisés pour écrire les traitements. Ainsi, COBOL fut utilisé par l'équipe de Booth à Saskatoon jusqu'à sa dissolution en 1972, PASCAL était encore utilisé par l'équipe de O.S.Kulagina à Moscou en 1995, Systran a été converti en C vers 1985, et les systèmes Reverso de Prompt/Softissimo sont basés sur des ATN déterministes écrits directement en C. 28/41 Ingénierie des Langues et de la Parole Ch. Boitet 6.4 Langages de haut niveau (Lisp, Prolog) Les langages de haut niveau comme Lisp et Prolog, qui contiennent des primitives de contrôle très élaborées (reconnaissance de schémas et réflexivité pour l'un, non-déterminisme, unification, et parfois coroutinage et contraintes pour l'autre), ont aussi été utilisés, mais de façon un peu moins directe. La première voie, consistant à écrire directement dans un tel langage, n'a pas été utilisée pour de réels systèmes. La seconde consiste à implémenter un langage spécialisé comme les ATN (W.Woods 1970), LINGOL (H.Tanaka 1978), les grammaires de métamorphose (Colmerauer 1975) ou les DCG (Warren & Pereira 1978) dans un tel langage, tout en laissant à l'utilisateur la possibilité de définir des fonctions ou des prédicats ad libitum. Par exemple, dans le système METAL, l'analyseur syntaxique utilise un formalisme de grammaires hors-contexte étendues, où les actions associées aux règles sont des fonctions Lisp arbitraires. Il y a là deux dangers : il est très difficile de réimplémenter les linguiciels dans un langage plus efficace comme C, car il faut aussi réimplémenter la partie de Lisp ou de Prolog utilisée par les développeurs linguistes, et la mise au point comme le débogage nécessitent des compétences avancées en programmation classique comme en programmation linguistique. 6.5 Langages spécialisés pour la programmation linguistique La voie la plus fructueuse s'est révélée être celle des langages spécialisés pour la programmation linguistique ou LSPL, dont le premier exemplaire fut COMIT au MIT vers 1955-65. Le CETA à Grenoble systématisa cette voie. Ce genre de langage offre des structures de données et de contrôle directement adaptées aux besoins d'une classe d'applications linguistique : arbres décorés, graphes de chaînes, dictionnaires, grammaires, automates, règles, non-déterminisme, reconnaissance de schémas, résolution de conflits, fonctions heuristiques, etc. Par contre, ils n'offrent pas la plupart des Structures de données et de contrôle des langages algorithmiques généraux : pas de fonction d'entrée/sortie, pas de tableaux, pas de nombres réels, pas de boucles explicites, etc. On peut distinguer les LSPL implémentant des théories linguistiques (comme HPSG, LFG, HPSG) et ceux qui sont des outils plus généraux (comme les ATN, les systèmes-Q, les langages du CETA puis du GETA, GRADE du projet MU à Tokyo, DeCo et EnCo du projet UNL, etc.). Pour la TA, mieux vaut des outils. Parmi ces derniers, on peut encore distinguer les LSPL reposant sur une approche grammaticale classique et sur une approche par transduction. C'est la fameuse distinction de B. Vauquois entre analyseurs (ou parseurs) et transducteurs. Ces LSPL sont toujours des langages de règles. Le "moteur" d'un LSPL détermine la façon d'appliquer les règles et de résoudre les conflits. On distingue les modèles d'addition, de substitution et de création. En addition, le résultat d'une occurrence de règle est ajouté à la structure courante, et on effectue un nettoyage final quand plus rien ne peut être ajouté (ex: systèmes-Q). En substitution, le résultat d'une règle remplace ce qui a permis de l'obtenir, et il faut résoudre les conflits (ex: remplacer aa par bb dans aaa peut donner bba ou abb). Enfin, en création (ex: ATN, ATEF, transducteurs de Xerox), le moteur parcourt la structure d'entrée en lecture, et construit une structure de sortie distincte, éventuellement mise en correspondonce avec la structure d'entrée. Le système TAUM-METEO (1976) fut le premier système de TA totalement écrit dans un unique LSPL. Le système METEO actuel, écrit en GramR, poursuit cette tradition. Les autres systèmes, visant des typologies moins restreintes et des langues morphologiquement plus riches, utilisent plusieurs LSPL adaptés à différentes tâches : analyse et synthèse morphologique, analyse et synthèse suntaxique, transformation d'arbres, passage de chaîne à graphe et graphe à chaîne. Notons pour finir 29/41 Ingénierie des Langues et de la Parole Ch. Boitet qu'il manque encore des LSPL permettant la segmentation et l'analyse morphologique des langues à systèmes d'écriture sans séparateurs de mots (chinois, japonais, thaï…). III. Paradigmes étudiés et projets en cours : renouveaux et nouveautés La recherche actuelle revient à d'anciennes idées et apporte quelques nouveautés. III.1 Paradigmes étudiés Ce sont les approches fondées sur les données, sur l'interaction et la personnalisation, et sur la connaissance. 1.1 Approches fondées sur les données L'idée est d'abandonner la construction à la main de règles complexes et de dictionnaires très détaillés, en mettant en œuvre des méthodes statistiques et/ou en utilisant des exemples de traductions. i. TA statistique (IBM) La TA statistique surtout étudiée par IBM à York Town Heights est en fait un renouveau des approches par "décodage" d'après guerre. Partant d'exemples de traductions, on a d'abord cherché à reconstituer des correspondances entre segments, éventuellement discontinus. Cette approche statistique sur les chaînes semble avoir échoué : après des calculs gigantesques sur le corpus bilingue Hansard (débats du parlement canadien), le système Candide d'IBM a été largement battu lors de tests DARPA par un système Systran non entraîné sur ces textes, dont le résultat n'était déjà pas fameux. Mais les travaux plus récents d'IBM, qui font des statistiques non sur des chaînes mais sur des arbres, arrivent à des résultats très intéressants en français, anglais et coréen. ii. TA par l'exemple (ATR, NTT) La TA par l'exemple est un paradigme le plus souvent hybride. À ATR et IBM-Japon, par exemple, on procède à une analyse assez classique produisant une structure de dépendance, puis on utilise une base d'exemples de correspondances entre morceaux d'arbres, on construit une meilleure couverture de l'arbre source, et on en déduit un arbre cible qu'on linéarise classiquement. E. Planas a récemment pu établir un lien avec les mémoires de traduction, en utilisant des "mémoires à étages", et en restreignant la recherche à des exemples "proches" au sens d'une distance d'édition adéquate, et contenant le segment à traduire à un certain étage, par exemple à celui des catégories. On peut alors établir les correspondances aux niveaux inférieurs et utiliser le dictionnaire bilingue pour proposer une traduction complète (il manque encore la génération flexionnelle). iii. TA par analogie Le terme de TA par analogie a été introduit en 1984 par le Pr. Nagao, mais il s'agissait en fait de TA par l'exemple "pure", consistant, pour une chaîne à traduire Ts, à trouver dans un corpus de bitextes analysés une plus proche chaîne Cs et son analyse As, ainsi que son image cible (Cc, Ac), et à modifier As, puis Ac et Cc en conséquence. Mais on n'a pas de méthode efficace pour calculer ces modifications. Y. Lepage à ATR est ensuite reparti de la définition fondamentale de l'analogie, qui fait intervenir 4 objets homogènes et permet, d'en calculer un à partir des trois autres (a::b == c::d). Le paradigme en cours d'expérimentation consiste alors à faire l'analyse, puis le transfert, puis la génération, par analogie. 30/41 Ingénierie des Langues et de la Parole Ch. Boitet 1.2 Approches fondées sur l'interaction et la personnalisation i. TAFD Depuis une dizaine d'années, plusieurs groupes sont repartis sur l'idée introduite dès 1967 par M. Kay de traduction interactive pouvant généraliser la TA de qualité, avec plusieurs innovations décisives menant à la "TA fondée sur le dialogue" (TAFD) : interaction sur des données statiques produites par certaines phases du traitement et pas avec des processus dynamiques, dialogues non spécialisés et déclenchés à l'initiative de l'humain, et interaction en langue source uniquement. C'est le cas des projets JETS (IBM-Japon), N-Trans (Manchester), LIDIA (Grenoble), et ITS-2 (Genève). Le projet LIDIA est déjà arrivé à produire un "désambiguïseur générique", non lié à un système de TA particulier, tournant sur le micro de l'auteur, les traitements classiques étant effectués sur un serveur. Le projet UNL, reposant sur un pivot interlingue, nous a récemment donné l'idée que non seulement les auteurs pourraient améliorer interactivement la structure pivot à partir de la langue source, mais que les lecteurs pourraient aussi le faire à partir des diverses langues cibles, surtout en complétant, grâce à une interface de lecture idoine, les informations peu pertinentes en langue source (ex: nombre et détermination dans les langues asiatiques), que les auteurs ne désambiguïsent pas volontiers. ii. Mariage du symbolique et du numérique En ce qui concerne la personnalisation, il semble inévitable de marier le symbolique et le numérique. La désambiguïsation lexicale en analyse et le choix lexical en génération sont ainsi des domaines d'application privilégiés de techniques de "dictionnaires neuronaux", où les nœuds (entrées, sens) ainsi que les diverses relations (synonymie, définition…) sont pondérés. Dans ce cadre, Microsoft a obtenu d'excellents résultats en désambiguïsant automatiquement les mots des définitions dans l'union (informatisée) du Longman et de l'American Heritage Dictionary. En analyse syntaxique, on a commencé vers 1980 à utiliser des poids et des calculs de scores (analyseurs des systèmes METAL de Austin/Siemens, PEG/SHALT-1 et LMT d'IBM). Des techniques itératives ou statistiques très prometteuses sont aussi utilisées pour ajuster ces poids (système du Pr SU Key Yi à Taiwan). 1.3 Approches fondées sur la connaissance Enfin, les approches fondées sur la connaissance sont de trois types : • spécialisation directe des connaissances linguistiques en grammaires et dictionnaires "sémantiques", comme dans METEO et TAUM-aviation (UdM, 76-81) ; • recours à un thésaurus interlingue comme dans ALT/JE de NTT, où 6000 catégories sémantiques sont organisées en une hiérarchie de 12 à 16 niveaux ; • construction d'une ontologie plus ou moins spécialisée à un domaine, comme dans les systèmes de CMU (KANT, CATALYST) destinés à Caterpillar, ou dans Pangloss du CRL (New Mexico), basé sur ONTOS, ontologie assez générale. Les première et troisième approches sont efficaces, mais peu portables. La troisième est intellectuellement séduisante, puisque le système "comprend explicitement" pour traduire, mais très coûteuse, surtout si l'ontologie est développée et maintenue uniquement pour les besoins de la TAO. La seconde est plus portable, mais son coût reste élevé à cause de la complexité de l'indexage dans les dictionnaires. 31/41 Ingénierie des Langues et de la Parole Ch. Boitet III.2 Projets en cours Les projets en cours les plus significatifs visent à la construction rapide de TA bilingue grossière ou à la TA multilingue de qualité. 2.1 Construction rapide de systèmes de TA grossière Le besoin de disposer rapidement de TA grossière pour des couples de langues nouveaux est surtout militaire, comme aux débuts de la TA. i. TA de l'écrit En TA de l'écrit, le CRL mène un tel projet depuis 1998. L'agence qui le finance demande une nouvelle langue à intervalles rapprochés (il s'agit de version vers l'anglais). IBM-US utilise ses méthodes statistiques pour développer des systèmes bidirectionnels pour la recherche d'information multilingue. ii. Systèmes pour l'oral a. Reconnaissance En TA de l'oral, être capable de fournir des reconnaisseurs et des synthétiseurs pour de nombreuses langues est un atout majeur. CMU et d'autres développent des techniques permettant de "bootstrapper" très rapidement un nouveau reconnaisseur à partir des données d'une autre langue (ex: 1° version d'un reconnaisseur du serbocroate obtenu à partir des phonèmes de l'anglais). b. Synthèse En synthèse, les approches concaténatives permettent aussi de construire un synthésiseur pour la voix de quelqu'un à partir de 2h d'enregistrement. iii. Approches "Quick & Dirty" En combinant un reconnaisseur, un traducteur et un synthétiseur, même obtenus très rapidement et donc grossiers ("quick and dirty approach"), on arrive à produire des systèmes de traduction de dialogues oraux utilisables, à condition de soigner particulièrement l'ergonomie (retour d'information par affichage du résultat de la reco et d'une "rétrotraduction", éventuellement retour visuel et partage de document) et d'introduire une interaction, minimale mais essentielle (possibilité de corriger le résultat de la reconnaissance, de choisir indirectement les équivalents en TA, et de "reprendre" rapidement un énoncé ("Ooops!", "annulez !"). NEC fait cela depuis 1992 (démonstration récente sur un portable à Telecom'99) avec ses sytèmes propriétaires. Dans le cadre de CSTAR-II, M. Seligman (CLIPS) a montré qu'on pouvait le faire en n'utilisant que des composants disponibles sur le marché (expériences avec CompuServe au MTS-VI à San Diego en 1997 et à CSTAR'98 à Grenoble sur le français-anglais avec Dragon Dictate et Intergraph, et en parallèle avec les démonstrations publiques de CSTAR-II en juillet 1999 avec Via Voice, Taifun et Tsunami sur l'anglais-japonais). 2.2 Projets visant à la TA de qualité i. Remarques générales La recherche en TAO de qualité s'est longtemps faite dans le cadre "1-n" (1 source, n cibles). Actuellement, on vise des situations "n-n". Qu'il s'agisse de texte ou de parole, on utilise l'approche par pivot interlingue. Toutes les techniques permettant l'augmentation de qualité sont utilisées (spécialisation, interaction, ontologie). 32/41 Ingénierie des Langues et de la Parole Ch. Boitet Une dernière remarque générale est que ces projets utilisent une architecture distribuée (un serveur par langue) et hétérogène (outils différents). ii. Traduction de l'écrit a. UNL : communication et RI multilingue Pour l'écrit, le projet UNL de l'UNU est sans doute le plus important. Il vise à la communication personnelle et à la recherche d'informations multilingues sur Internet. Le langage UNL veut être "le html ou le xml du contenu linguistique". Un graphe UNL "pivot" est un hypergraphe à un nœud d'entrée dont les nœuds portent des "mots universaux" (UW) fondés sur l'anglais, comme "bill(icl>do, agt>human, obj>human, gol>thing)" et des attributs, et les arcs des relations sémantiques. Un sous-graphe connexe par arcs peut être "replié" et vu comme un nœud. Un document UNL est un document html multilingue dans lequel on utilise des balises spéciales pour délimiter chaque énoncé, et le représenter en UNL et dans chaque langue. Un visualiseur lié à Internet Explorer permet de voir chaque document dans les langues choisies. Si un énoncé n'est pas disponible dans une langue L, on appelle le serveur de "déconversion" de L et on complète le fichier par son résultat. Le projet a commencé fin 1996 avec les 12 langues de plus de 100 millions de locuteurs : allemand, anglais, arabe, chinois, espagnol, français, hindi, indonésien, italien, japonais, portugais, russe. Durant sa première phase de 3 ans, les partenaires ont travaillé sur la spécification du langage UNL et sur les déconvertisseurs. Trois autres groupes, travaillant sur le mongol, le lithuanien et le thaï, se sont joints au projet. Les spécifications, à diffusion restreinte, sont devenues publiques lors du symposium UNL'99 à Bruxelles (18-20/11/99). La phase suivante devrait voir le montage de "centres langagiers UNL", un par langue, la construction d'enconvertisseurs utilisant diverses méthodes plus ou moins interactives, le lancement de serveurs de déconversion puis d'enconversion à partir du 1/4/2000, et l'élargissement à de nombreuses autres langues. Un avantage essentiel de ce projet est de permettre tous les degrés de qualité. Sans aucune interaction, on obtiendra des traductions grossières du niveau de celles des traducteurs web actuels, mais pour tous les couples de langues possibles. Avec plus d'interaction (en source et peut-être en cible), on élèvera le niveau de qualité. Selon que l'usage considérera les graphes UNL comme des graphes vraiment sémantiques ou comme des représentations abstraites de l'anglais, le niveau maximum de qualité sera plus ou moins limité. Dans le premier cas, on ne pourra pas espérer un réel parallélisme de forme, mais l'enconversion sera plus facile. iii. Traduction de parole En traduction de parole, il faut surtout mentionner les projets VerbMobil en Allemagne et CSTAR (consortium international pour la recherche avancée en TA de parole). Tous deux ont commencé en 1992 et se placent dans des situations où l'approche "quick & dirty" est insuffisante. Il s'agit de situations finalisées (prise de rendez-vous, organisation de voyages et réservations d'hôtels, de spectacles, de transports) et non de conversations informelles. Dans chaque cas, on utilise un pivot interlingue spécialisé aux dialogues concernant la tâche visée, et les analyseurs et générateurs sont bâtis autour de dictionnaires et grammaires "sémantiques". Les démonstrateurs réalisés sont assez impressionnants, tant par la rapidité et la qualité des traitements linguistiques que par leur intégration dans des environnements multimedia (visiophone, partage d'images animées, de vidéos). 2.3 Évolutions Pour terminer, on peut souligner trois évolutions en cours. 33/41 Ingénierie des Langues et de la Parole i. Ch. Boitet De la traduction à la génération multilingue D'abord, la génération multilingue prend de plus en plus d'importance, en parallèle avec l'usage d'architectures "pivot" en TAO, et aussi à cause de l'accroissement du nombre des situations sans texte source, où on part d'une représentation abstraite déduite d'une base de données (ex: MultiMETEO). ii. Synergie entre TA et outils pour traducteurs Ensuite, la synergie entre TA et outils pour traducteurs apparaît comme une nécessité qualitative et économique. iii. Mutations prévisibles dues à Internet Enfin, Internet est en train de provoquer des mutations importantes, en imposant la "démocratisation" de la TAO au grand public et à toutes les langues, même minoritaires, qu'il s'agisse d'assimilation, de communication informelle ou finalisée, ou de dissémination. IV. Commented examples of current translation techniques IV.1 Examples of semi-direct MT (Systran) Here are the 2 versions of the presentation of the HEREIN (European Heritage network) thesaurus, taken from http://www.european-heritage.net/en/Thesaurus/Contenu.html and http://www.europeanheritage.net/fr/Thesaurus/Contenu.html. These French and English human versions are aligned below with the output of the French-English Systran Web translator. Observe that, while the "human" language is of very high lexical and grammatical quality in both languages, some information present in the French version is totally absent in the English version (it has been striked over by us). If translation was from English, information has been added, if it was from French, it has been suppressed. Even if it looks very good, human translation is not always that good as a translation. Some errors of the MT output (italicised) can be recovered by looking only at the result, but many cannot. Some are evident because parts of the sentences don't make sense, but others may be quite hidden. ENGLISH (human version) FRENCH (human version) ENGLISH (Systran FRE-ENG version) With around 500 terms in each language, the thesaurus was compiled by sifting through the available printed material, such as reports on policies and various existing glossaries or thesauruses, using methods which meet the current international standards. Fort d'environ 500 termes dans chacune des langues, le thesaurus a été compilé construit à partir de l'exploitation systématique des documents papiers disponibles : rapports sur les politiques et divers outils -lexiques ou thesaurus- préexistants, en suivant une méthodologie qui respecte les normes internationales en vigueur. Extremely of approximately 500 terms in each language, the thesaurus was built starting from the systematic exploitation of the paper documents available: reports/ratios on the policies and various tools - lexicons or preexistent thesaurus, while following a methodology which respects the international standards into force. The European-Heritage.net thesaurus covers the fields of archaeology and architecture as defined in the Council of Le thesaurus European- The European-Heritage.net Heritage.net couvre les champs thesaurus covers the fields of de l'archéologie et de archaeology and architecture l'architecture au sens des within the meaning of 34/41 Ingénierie des Langues et de la Parole Ch. Boitet Europe conventions signed in conventions du Conseil de conventions of the Council of Granada (1985) and Malta l'Europe de Grenade (1985) et Europe of Grenade (1985) and (1992). de Malte (1992). Malta (1992). It encompasses information ranging from the partners involved, categories of cultural assets and legislation, to activities, skills and funding. It is supplemented by a number of specific thesauruses compiled by each member state on a particular topic, such as the thesaurus on Andalusian heritage or the architectural thesaurus from the Mérimée database in France. Il prend en compte des aspects aussi variés que les acteurs, les catégories de biens culturels, la législation ou encore les interventions, les métiers et les financements. Il est complété et prolongé par des thesaurus spécifiques développés par chaque Etat membre sur tel ou tel sujet spécifique, comme le thesaurus du patrimoine historique andalou ou le thesaurus d'architecture de la base de données documentaire Mérimée en France. It takes into account aspects as varied as the actors, the categories of cultural goods, the legislation or the interventions, the trades and the financings. It is supplemented and prolonged by thesaurus specific developed by each Member State on such or such specific subject, like the thesaurus of the Andalusian historical inheritance or the thesaurus of architecture of the documentation data base Mérimée in France. This new, open-ended search tool will come on line shortly, together with a management and administration system shared among the various contributors. Cet instrument de recherche, forcément évolutif, sera mis prochainement en ligne accompagné d'un dispositif de gestion et d'administration réparti entre les différents contributeurs. This instrument of search, inevitably evolutionary, will be put soon on line accompanied by a device of management and administration distributed between the various contributors. Here are the results of the English-German and French-German Systran Web translators. GERMAN (Systran ENG-GER version) GERMAN (Systran FRE-GER version) Der European-Heritage.netthesaurus umfaßt die Felder von archaeology und von Architektur, wie in den Europaratvereinbarungen definiert, die in Granada (1985) unterzeichnet werden und in Malta (1992). Der European-Heritage.net-Thesaurus bedeckt die Felder der Archäologie und der Architektur im Sinne der Übereinkommen des Europarats von Granada (1985) und von Malta (1992). Er gibt die Informationen um, die von den betroffenen Partnern, von den Kategorien der kulturellen Werte und der Gesetzgebung, bis zu Aktivitäten, von den Fähigkeiten und von der Finanzierung reichen. Er wird durch eine Anzahl von den spezifischen Thesauren ergänzt, die durch jeden Mitgliedsstaat auf einem bestimmten Thema, wie dem Thesaurus auf Andalusian Erbe oder dem architektonischen Thesaurus von der Datenbank Mérimée in Frankreich kompiliert werden. Er berücksichtigt Aspekte dermaßen variierte, daß die Beteiligten, die Kategorien kultureller Güter, die Gesetzgebung oder noch die Interventionen, die Berufe und die Finanzierungen. Er wird vervollständigt und wird durch ein spezifische Thesaurus entwickelt durch jeder Mitgliedstaat über das eines oder andere spezifische Thema verlängert, als der Thesaurus des andalusischen historischen Kulturgutes oder der Thesaurus der Architektur der urkundlichen Datenbank Mérimée in Frankreich. 35/41 Ingénierie des Langues et de la Parole Ch. Boitet Dieses neue, offene Suchhilfsmittel kommt auf Zeile kurz, zusammen mit einem Managementund Leitungssystem, das unter den verschiedenen Mitwirkenden geteilt wird. Dieses notgedrungen entwicklungsfähige Forschungsinstrument wird gestellt demnächst online begleitet von einer Verwaltungs- und Verwaltungsvorrichtung, die aufgeteilt unter den verschiedenen Beitragenden. The errors of the English-German Systran Web translator are slightly more severe, but only the last paragraph really does not make sense in German. Although the French-German language pair is near the top of the list of available pairs, ordered by average quality, it is really not adequate for understanding the content. No translator would really start from it to produce a quality translation by usual revision, but it is possible to use it as suggestions, from which the translator can pick some well-translated parts. IV.2 Examples of HQ transfer MT for revisors (EngSpan & SpanAm) EngSpan and SpanAm are the two MT systems developed by the Pan American Health Organization (PAHO) to translate texts concerning health, although they have quite larger vocabularies and can handle press articles of regular style. The following text has been translated from English into Spanish by EngSpan, then revised manually, and then translated back into English by SpanAm. We give first the two "endpoints", and then the raw and revised Spanish versions. Original English text SpanAm raw translation of revised Spanish EngSpan output A Message from the Director-General, World Message of the Director-General of the World Health Organization Health Organization Since their discovery, antibiotics have completely transformed humanity’s approach to infectious disease. Today, the use of antibiotics combined with improvements in sanitation, housing, and nutrition alongside the advent of widespread vaccination programmes, have led to a dramatic drop in once common infectious diseases that formerly laid low entire populations. From its discovery, antibiotics have completely transformed the perspective of humankind with respect to infectious diseases. Today the use of antibiotics, combined with improvements in sanitation, housing, and nutrition, together with the advent of the vaccination programs generalized, have caused a notable reduction of infectious diseases that previously were common and annihilated entire populations. Scourges that once struck terror into the hearts of millions – plague, whooping cough, polio and scarlet fever – have been, or are, on the verge of being controlled. Now, at the dawn of a new millennium, humanity is faced with another crisis. Scourges that terrified millions of people, as plague, whooping cough, poliomyelitis, and the scarlatina, have been controlled or are on the verge of being controlled. Now, in the dawn of a new millennium, humankind faces another crisis. Formerly curable diseases such as gonorrhoea and typhoid are rapidly becoming difficult to treat, while old killers such as tuberculosis and malaria are now arrayed in the increasingly impenetrable armour of antimicrobial resistance. Previously curable diseases as the gonorrhea and typhoid fever are becoming rapidly difficult to treat, while old assassins as tuberculosis and malaria now are armed of the increasingly impenetrable resistance to the antimicrobial drugs. This phenomenon is potentially containable. It This phenomenon is potentially contenible. The 36/41 Ingénierie des Langues et de la Parole Ch. Boitet is a deepening and complex problem accelerated by the overuse of antibiotics in developed nations and the paradoxical underuse of quality antimicrobials in developing nations owing to poverty and a resultant dearth of effective health care. problem is increasingly profound and complex, accelerated by the abuse of antibiotics in the developed countries and the paradoxical underutilization of the quality antimicrobial drugs in the developing countries due to the poverty and to the scarcity resulting from an effective health care. Spanish EngSpan raw output Postedited Spanish version Un mensaje del Director General, Organización Mensaje de la Directora General de la Mundial de la Salud Organización Mundial de la Salud Desde su descubrimiento, los antibióticos completamente han transformado el enfoque de la humanidad con respecto a la enfermedad infecciosa. Hoy, el uso de los antibióticos combinados con mejoras en el saneamiento, la vivienda y la nutrición al lado del advenimiento de los programas de vacunación generalizada, han conducido a una notable disminución en una vez que las enfermedades infecciosas comunes que antes postrado todas las poblaciones. Desde su descubrimiento, los antibióticos han transformado completamente la perspectiva de la humanidad con respecto a las enfermedades infecciosas. Hoy día el uso de los antibióticos, combinado con mejoras en el saneamiento, la vivienda y la nutrición, junto con el advenimiento de los programas de vacunación generalizada, han dado lugar a una notable disminución de enfermedades infecciosas que antes eran comunes y aniquilaban a poblaciones enteras. Los flagelos que golpearon una vez el terror en los corazones de millones peste–, la tos ferina, la poliomielitis y la escarlatina–han sido, o son, al borde de controlándose. Ahora, en los albores de un nuevo milenio, la humanidad se enfrenta con otra crisis. Flagelos que aterrorizaron a millones de personas, como la peste, la tos ferina, la poliomielitis y la escarlatina, se han controlado o están a punto de controlarse. Ahora, en el alba de un nuevo milenio, la humanidad se enfrenta con otra crisis. Las enfermedades antes curables como la gonorrea y la fiebre tifoidea están tornando rápidamente difíciles de tratar, aunque los asesinos viejos como la tuberculosis y el paludismo ahora se presentan en la armadura cada vez más impenetrable de la resistencia a los antimicrobianos. Enfermedades antes curables como la gonorrea y la fiebre tifoidea se están volviendo rápidamente difíciles de tratar, mientras que viejos asesinos como la tuberculosis y el paludismo están ahora armados de la crecientemente impenetrable resistencia a los antimicrobianos. IV.3 Comparison of outputs from two systems (SpanAm & Reverso) The following illustrates the differences between a specialized system aiming at HQ and a more generic system aiming at large coverage for accessing information. We have italicized dubious translations, striked through words to be suppressed, and underlined corresponding correct fragments in the other translation, if any. SpanAm (repeated) raw Spanish-English output Reverso raw Spanish-English output Message of the Director-General of the World Message of the Chief operating officer of the 37/41 Ingénierie des Langues et de la Parole Ch. Boitet Health Organization World Organization of the Health From its discovery, antibiotics have completely transformed the perspective of humankind with respect to infectious diseases. Today the use of antibiotics, combined with improvements in sanitation, housing, and nutrition, together with the advent of the vaccination programs generalized, have caused a notable reduction of infectious diseases that previously were common and annihilated entire populations. From his{*its*} discovery, the antibiotics have transformed completely the perspective of the humanity with regard to the infectious diseases. Today the use of the antibiotics, cocktail with improvements in the reparation, the housing and the nutrition, together with the advent of the programs of widespread vaccination, they have given place to a notable decrease of infectious diseases that before were common and were annihilating entire populations. Scourges that terrified millions of people, as plague, whooping cough, poliomyelitis, and the scarlatina, have been controlled or are on the verge of being controlled. Now, in the dawn of a new millennium, humankind faces another crisis. Previously curable diseases as the gonorrhea and typhoid fever are becoming rapidly difficult to treat, while old assassins as tuberculosis and malaria now are armed of the increasingly impenetrable resistance to the antimicrobial drugs. Scourges that terrified million persons, as the pest, the savage cough, the poliomyelitis and the scarlatina, they have been controlled or are on the verge of be controlling. Now, in the dawn of a new millenium, the humanity faces with another crisis. Diseases before curable as the gonorrhea and the fever tifoidea they are becoming rapidly difficult to treat, whereas killer old men as the tuberculosis and the malaria are armed{*assembled*} now with the increasing impenetrable resistance the antimicrobial ones. This phenomenon is potentially contenible. The problem is increasingly profound and complex, accelerated by the abuse of antibiotics in the developed countries and the paradoxical underutilization of the quality antimicrobial drugs in the developing countries due to the poverty and to the scarcity resulting from an effective health care. This phenomenon is potentially contenible. The problem is increasingly deep and complex, accelerated by the abuse of the antibiotics in the developed countries and the paradoxical subutilization of the antimicrobial ones of quality in the countries in development due to the poverty and the resultant shortage of an attention of effective health. The report on the last year on infectious diseases titled «Elimination of the obstacles to the healthy development» has demonstrated that the communicable diseases continue to be a significant cause of disability, are responsible for high continuous mortality, and affect mainly the most vulnerable populations of the world. The report of last year on the infectious diseases titled « Elimination of the obstacles to the healthy development » has demonstrated that the contagious diseases continue being a significant reason of disability, they are responsible for the high constant mortality and affect principally the most vulnerable populations of the world. V. Perspectives: four keys to generalise MT in the future Despite considerable investment over the past 50 years, only a small number of language pairs is covered by MT systems designed for information access, and even fewer are capable of quality translation or speech translation. To open the door toward MT of adequate quality for all languages (at least in principle), four keys are needed. On the technical side, one should (1) dramatically increase the use of learning techniques which have demonstrated their potential at the research level, 38/41 Ingénierie des Langues et de la Parole Ch. Boitet and (2) use pivot architectures, the most universally usable pivot being UNL. On the organisational side, the keys are (3) the co-operative development of open source linguistic resources on the Web, and (4) the construction of systems where quality can be improved "on demand" by users, either a priori through interactive disambiguation, or a posteriori by correcting the pivot representation through any language, thereby unifying MT, computer-aided authoring, and multilingual generation. -o-o-o-o-o-o-o-o-o-o- 39/41 Ingénierie des Langues et de la Parole Ch. Boitet Bibliography [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] Blanchon H. (1994) LIDIA-1 : Une première maquette vers la TA interactive "pour tous". Nouvelle thèse, UJF. Boitet C. & Nédobejkine N. (1981) Recent developments in Russian-French Machine Translation at Grenoble. Linguistics 19 (1981), pp. 199—271. Boitet C. (1985) Traduction (assistée) par Ordinateur: ingéniérie logicielle et linguicielle. Proc. Colloque RF&IA, Grenoble, AFCET. Boitet C. (1988) PROs and CONs of the pivot and transfer approaches in multilingual Machine Translation. Proc. Int. Conf. on "New directions in Machine Translation", 18–19 August 1988, BSO, 13 p. Boitet C. & Zaharin Y. (1988) On representation trees for NLP and static grammars. Document interne, GETA, décembre 1988, pp. 10. Boitet C. (1992) On the nature and computer handling of “writing fashions”. Proc. Cours Pre-COLING-92 sur la portabilité multilingue, 20—22 juillet 1992, IMAG-GETA & Ass. Champollion, C. Boitet ed., pp. 6—28. Boitet C., ed. (1992) Actes de COLING-92, 14ème colloque international en linguistique informatique (14th International Congress on Computational Linguistics). ACL, Nantes, 23—28 juillet 1992. Boitet C. (1993) La TAO comme technologie scientifique : le cas de la TA fondée sur le dialogue. In "La traductique", A. Clas & P. Bouillon, ed., Presses de l'Université de Montréal, Montréal, pp. 109—148. Boitet C. & Blanchon H. (1994) Promesses et problèmes de la “TAO pour tous” après LIDIA-1, une première maquette. (Langages), 116 (1994), pp. 20—47. Boitet C. & Blanchon H. (1994) Multilingual Dialogue-Based MT for Monolingual Authors: the LIDIA Project and a First Mockup. (Machine Translation), 9/2 (1994), pp. 99—132. Boitet C. (1996) (Human-Aided) Machine Translation: a better future? In "Survey of the State of the Art of Human Language Technology", R. Cole (Editor-in-Chief), J. Mariani, H. Uszkoreit& al., ed., A. Z. G. Varile, Giardini, Pisa, pp. 251—256. (also available since 1996 at http://www.cse.ogi.edu/CSLU/HLTsurvey/) Boitet C., ed. (1988) BERNARD VAUQUOIS et la TAO, vingt-cinq ans de Traduction Automatique, ANALECTES. BERNARD VAUQUOIS and MT, twenty-five years of MT. Ass. Champollion & GETA, Grenoble, pp. 700. Boitet C., Réd. (1982) "DSE-1"— Le point sur ARIANE-78 début 1982. Contrat ADI/CAP-Sogeti/Champollion (3 vol.), GETA, Grenoble, janvier 1982, pp. 616. (200 p. + annexes) Brown R. D. & Nirenburg S. (1990) Human-Computer Interaction for Semantic Disambiguation. Proc. COLING90, 20-25 août 1990, ACL, H. Karlgren ed., vol. 3/3, pp. 42-47. Chandioux J. (1988) 10 ans de METEO (MD). In "Traduction Assistée par Ordinateur. Actes du séminaire international sur la TAO et dossiers complémentaires", A. Abbou, ed., Observatoire des Industries de la Langue (OFIL), Paris, mars 1988, pp. 169—173. Colmerauer A. (1970) Les systèmes-Q, un formalisme pour analyser et synthétiser des phrases sur ordinateur. TAUM, Univ. de Montréal, pp. 46. (2ème annexe par G. Stewart) Guilbaud J.-P. (1984) Principles and results of a German-French MT system. In "Machine Translation today: the state of the art (Proc. third Lugano Tutorial, 2–7 April 1984)", M. King, ed., Edinburgh University Press (1987). Hirakawa H., Nogami H. & Amano S.-Y. (1991) EJ/JE Machine Translation System AS-TRANSAC - Extension toward Personalization. Proc. MTS-III (MT Summit), 1-4 July 1991, vol. 1/1, pp. 73-80. Hutchins W. J. (1986) Machine Translation : Past, Present, Future. Ellis Horwood, John Wiley & Sons, Chichester, England, pp. 382. Kay M. (1980) The Proper Place of Men and Machines in Language Translation. Research Report, CSL-80-11, Xerox, Palo Alto Research Center, Oct. 1980. Klaus S. (1988) The Architecture of DLT - Interlingual or Double Direct? Proc. New Directions in Machine Translation, 18-19 Aug. 1988, Floris Publications, U. BSO/Research ed., pp. 131-144. Lehrberger J. & Bourbeau L. (1988) Machine Translation. Linguistic characteristics of MT systems and general methodology of evaluation. John Benjamins, pp. 240. Maruyama H., Watanabe H. & Ogino S. (1990) An Interactive Japanese Parser for Machine Translation. Proc. COLING-90, 20-25 août 1990, ACL, vol. 2/3, pp. 257-262. 40/41 Ingénierie des Langues et de la Parole Ch. Boitet [24] Nyberg E. H. & Mitamura T. (1992) The KANT system: Fast, Accurate, High-Quality Translation in Practical Domains. Proc. COLING-92, 23-28 July 92, ACL, vol. 3/4, pp. 1069—1073. [25] Pierrel (éd.) J.-M. (2000) Ingénierie des langues. In Hermès, Paris, 354 p. (Ouvrage collectif) [26] Planas E. (1999) Formalizing Translation Memories. Proc. MT Summit VII, Singapore, 13-17 September 1999, Asia Pacific Ass. for MT, J.-I. Tsujii ed., vol. 1/1, pp. 331—339. [27] Sabah G. (1988) L'intelligence artificielle et le langage. Vol.1: Représentation des connaissances. Hermès, Paris. [28] Sabah G. (1989) L'intelligence artificielle et le langage. Vol.2: Processus de compréhension. Hermès, Paris. [29] Slocum J. (1985) A Survey of Machine Translation : its History, Curent Status, and Future Prospects. (Computational Linguistics), 11/1 (1985), pp. 1-17. [30] Somers H. L., Tsujii J.-I. & Jones D. (1990) Machine Translation without a source text. Proc. COLING-90, 2025 Aug. 1990, ACL, vol. 3/3, pp. 271-276. [31] Stewart G. (1975) Manuel du langage REZO. TAUM, Univ. de Montréal. [32] Tong L. C. (1987) The Engineering of a Translator Workstation. (Computers and Translation), 2/4 (1987), pp. 263—273. [33] Vasconcellos M. & León M. (1988) SPANAM and ENGSPAM : Machine Translation at the Pan American Health Organization. In "Machine Translation systems", J. Slocum, ed., Cambridge Univ. Press, pp. 187—236. [34] Vauquois B. & Chappuy S. (1985) Static grammars: a formalism for the description of linguistic models. Proc. TMI-85 (Conf. on theoretical and metholodogical issues in the Machine Translation of natural languages), Colgate Univ., Hamilton, N.Y., Aug. 1985, pp. 298-322. [35] Vauquois B. & Boitet C. (1988) Automated translation at Grenoble University. In "Machine Translation Systems", J. Slocum, ed., Cambridge University Press, pp. 85—110. (revised from Vauquois & Boitet (1985)) [36] Vauquois B. (1988) BERNARD VAUQUOIS et la TAO, vingt-cinq ans de Traduction Automatique, ANALECTES. BERNARD VAUQUOIS and MT, twenty-five years of MT. C. Boitet, ed., Ass. Champollion & GETA, Grenoble, pp. 700. [37] Wehrli E. (1992) The IPS System. Proc. COLING-92, 23-28 July 1992, vol. 3/4, pp. 870-874. [38] Whitelock P. J., Wood M. M., Chandler B. J., Holden N. & Horsfall H. J. (1986) Strategies for Interactive Machine translation : the experience and implications of the UMIST Japanese project. Proc. COLING-86, 25-29 août 1986, IKS, pp. 25-29. [39] Winograd T. (1983) Language as a cognitive process. Vol 1 : Syntax. Addison Wesley, New-York. [40] Woods W. (1970) Transition network grammars for natural language analysis. CACM 13/10 (1970), pp. 591-606. -o-o-o-o-o-o-o-o-o-o- 41/41