Article PDF
Transcription
Article PDF
Méta-moteur de traduction automatique Proposition d'une métrique pour le classement de traductions Marion Potet Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues 25 juin 2009 Marion Potet (RECITAL) Méta-traducteur de TA 1 / 30 Travail présenté Création d'un outil web permettant la traduction automatique de phrases. Son originalité est qu'il fait appel aux diérents moteurs de traduction automatiques déjà disponibles sur le web, pour obtenir une liste de traductions, qu'il va ensuite classer. Systran J’effectue un essai. Google Je procéder à un essai. 1. Je réalise un essai. Epals J’emporte un essai. 2. J’effectue un essai. Classement (Modèle de langage) I carry out a try. 3. Je procéder à un essai. N. J’emporte un essai. Promt Marion Potet (RECITAL) Je réalise un essai. Méta-traducteur de TA 2 / 30 Intérêt de l'approche Développement du World Wide Web accès à une énorme quantité d'information dans diverses langues → besoin de traduction "à la volée" Résultats des moteurs de traduction en ligne... peu satisfaisants dépendent fortement du type de phrases entrées ou vocabulaire utilisé et du domaine traité méthodologie diérentes → variabilité entre les systèmes → Idée : tirer parti de cette variabilité inter-systèmes pour sélectionner parmi une liste de traductions proposées celle(s) qui sont les plus pertinentes Marion Potet (RECITAL) Méta-traducteur de TA 3 / 30 Plan 1 Introduction 2 Récupération de traductions 3 Classement des traductions 4 Création d'une interface graphique 5 Conclusion Marion Potet (RECITAL) Méta-traducteur de TA 4 / 30 Introduction 1 Introduction 2 Récupération de traductions 3 Classement des traductions 4 Création d'une interface graphique 5 Conclusion Marion Potet (RECITAL) Méta-traducteur de TA 5 / 30 Introduction La traduction automatique Evaluation de la qualité d'une traduction traducteur 1 Je réalise un essai. traducteur 2 Je procède à un essai. traducteur 3 J’emporte un essai. traducteur 4 J’effectue un but. I carry out a try. Evaluation automatique Mesure utilisé : BLEU Traduction de référence : Je fais un essai. Evaluation subjective Critères : uidité, adéquation, etc. Marion Potet (RECITAL) Méta-traducteur de TA 6 / 30 Introduction Les corpus Notion de corpus Dénition : ensemble de documents dont les textes sont représentatifs d'une langue But : extraire un ensemble d'informations utiles pour des traitements statistiques cette décision cruciale this crucial decision doit vivre en sécurité must be secured le prix des produits laitiers a considérablement augmenté the price of dairy products had significantly increased Marion Potet (RECITAL) Méta-traducteur de TA 7 / 30 Introduction La modélisation statistique du langage La modélisation statistique du langage But : estimer la probabilité de toute séquence de mots P(le chat dort ) = 0,27 → phrase probable P(livre dort le ) = 0,00014 → phrase peu probable Un modèle de langage est appris à partir d'un corpus d'apprentissage donne un score à toute suite de mots LP = K X LP (wk | wk − wk − 2 1 ) k =2 où : K est le nombre de mots de la phrase LP (wk | wk − wk − ) est le logarithme de la probabilité de la séquence de mots wk − wk − wk 2 1 2 Marion Potet (RECITAL) 1 Méta-traducteur de TA 8 / 30 Récupération de traductions 1 Introduction 2 Récupération de traductions 3 Classement des traductions 4 Création d'une interface graphique 5 Conclusion Marion Potet (RECITAL) Méta-traducteur de TA 9 / 30 Récupération de traductions Sélection de moteurs de traduction Traducteurs automatiques disponibles sur le Web Nombreux traducteurs automatiques en ligne BabelFish : http ://fr.babelsh.yahoo.com Google translation : http ://translate.google.fr Voilà : http ://tr.voila.fr Worldlingo : http ://www.worldlingo.com/translate.php ··· Qualités requises Disponible sur le net Gratuit Traite la traduction de l'anglais vers le français Permet la traduction de phrases ou de textes Autorise un nombre susant de requêtes quotidiennes → 22 interfaces de traduction retenues Marion Potet (RECITAL) Méta-traducteur de TA 10 / 30 Récupération de traductions Sélection de moteurs de traduction Regroupement par moteur de traduction Plusieurs interfaces peuvent faire appel à un seul et même moteur de traduction http://www.allwords.com http://www.fr.altavista.com Moteur de traduction http://www.systran.fr http://www.tr.voilà.fr SYSTRAN http://fr.babelfish.yahoo.com http://www.ez2find.com/translate.php → 10 moteurs de traduction retenus Marion Potet (RECITAL) Méta-traducteur de TA 11 / 30 Récupération de traductions Sélection de moteurs de traduction Test de la qualité des moteurs de traduction Moteur BLEU Intertran 0,044 Google Worldlingo Applied language Epals Systran Reverso Promt FreeTranslation Linguatec 0,246 0,244 0,242 0,238 0,235 0,204 0,195 0,193 0,180 Elimination de Intertran → 9 moteurs de traduction retenus Marion Potet (RECITAL) Méta-traducteur de TA 12 / 30 Récupération de traductions Communication avec les moteurs de traduction Protocole Protocole HTTP = protocole de transfert de documents hypertexte 1 2 3 Ouverture de la connexion Envoi d'une requête contenant l'URL, le texte à traduire, la langue source et la langue cible Réception de la page HTML contenant le texte traduit Marion Potet (RECITAL) Méta-traducteur de TA 13 / 30 Récupération de traductions Communication avec les moteurs de traduction Validation Proportions de requêtes réussies sur 163 000 phrases envoyées Moteur Reverso FreeTranslation Epals Google Systran Promt Worldlingo Linguatec AppliedLanguage Marion Potet (RECITAL) Traductions obtenues 99,79 % 99,78 % 99,30 % 99,20 % 97,77 % 96,77 % 96,37 % 95,69 % 94,47 % 97,67 % Méta-traducteur de TA 14 / 30 Classement des traductions 1 Introduction 2 Récupération de traductions 3 Classement des traductions 4 Création d'une interface graphique 5 Conclusion Marion Potet (RECITAL) Méta-traducteur de TA 15 / 30 Classement des traductions Modèle de langage Apprentissage du modèle de langage Corpus d'apprentissage Source Description Nb de mots Période France24 www.france24.com 4 M février - avril 2008 Web données journalistiques du Net 72 M juin 2003 - avril 2008 Le Monde CDRom de ELRA1 23 M janvier - décembre 2003 Corpus monolingue : Français Technique : Aspiration de pages Web (crontab) Normalisation : CLIPS-Text-tk-2.5 Modèle de langage Apprentissage des modèles de langage : outil libre SRILM Interpolation des 3 modèles de langage : 41% France24, 42% Web et 17% LeMonde 1 Association Européenne pour les Ressources Linguistiques. Marion Potet (RECITAL) Méta-traducteur de TA 16 / 30 Classement des traductions Modèle de langage Proposition d'une métrique Modèle de langage : attribue un score à une phrase Il existe plusieurs métriques (ppl , ppl 1, LP ) mais pas directement adaptées à notre application Attention aux mots inconnus : leur attribuer une pénalité adéquate ! Métrique proposée LPOOV = K X k =2 LP (wk | wk − wk − 2 1 ) + OOVs × avec : K = nombre de mots de la phrase = pénalité du mot inconnu OOVs = nombre de mots inconnus dans la phrase Marion Potet (RECITAL) Méta-traducteur de TA 17 / 30 Classement des traductions Validation du système de classement Validation du système de classement Corpus de test Corpus bilingue de 300 phrases alignées anglais/français Extrait du site : www.france24.fr Alignement automatique des documents puis manuel des phrases Expérimentation Envoi des 300 phrases à chacun des 9 moteurs de traduction Classement des 9 traductions obtenues avec notre métrique Sélection de 1stBest, 2ndBest et 3rdBest 1stBest 2ndBest 3rdBest 1. Je réalise un essai. 2. J’effectue un essai. 3. Je procède à un essai. 4. Je fais un essai. N−1. Je procéder à un essai. N. J’emporte un essai. Marion Potet (RECITAL) Méta-traducteur de TA 18 / 30 Classement des traductions Expérimentations/Résultats Evaluation automatique Moteur Google Reverso Systran Promt AppliedLanguage Epals Worldlingo FreeTranslation Linguatec BLEU 0,3107 0,2585 0,2526 0,2513 0,2345 0,2160 0,2307 0,2162 0,2062 Sélection BLEU 2ndBest 3rdBest 0,2857 0,2610 1stBest 0,3175 Evaluation du classement Evaluation des 9 moteurs de traduction → Il est préférable d'utiliser une traduction choisie parmi plusieurs, provenant de moteurs diérents, que d'utiliser systématiquement uniquement celui qui obtient le meilleur score moyen Marion Potet (RECITAL) Méta-traducteur de TA 19 / 30 Classement des traductions Expérimentations/Résultats Apport des diérents moteurs Proportion des diérents moteurs dans les trois premiers résultats (résultats en %) : 1stBest 2ndBest 3rdBest Total Google 64 26 81 80,7 Reverso 25 79 14,7 49,4 Promt 6,3 18 15,3 39,7 AppliedL. 6,7 10,3 14 31 Systran Epals Ling. FreeT. 3,3 5 4 2,3 10 10,3 7,3 7,3 15,7 11 8,3 7,7 29 26,3 19,6 17,3 World. 0 1,6 5,3 6,9 → Les neufs moteurs de traduction sélectionnés apportent tous leur contribution au système Marion Potet (RECITAL) Méta-traducteur de TA 20 / 30 Classement des traductions Expérimentations/Résultats Evaluation subjective But : comparer 1stBest et Google Protocole Nombre de participants : 16 Consigne : choisir parmi les deux phrases celle qui semble la meilleure ou n'eectuer aucun choix Résultats 78 paires de phrases 1stBest 55% Google 33% Indiérent 12% → L'évaluation subjective conrme les résultats de l'évaluation automatique Marion Potet (RECITAL) Méta-traducteur de TA 21 / 30 Création d'une interface graphique 1 Introduction 2 Récupération de traductions 3 Classement des traductions 4 Création d'une interface graphique 5 Conclusion Marion Potet (RECITAL) Méta-traducteur de TA 22 / 30 Création d'une interface graphique Interface graphique Fonctionnalités de l'interface Saisie du texte à traduire Choix des moteurs de traduction à utiliser Option d'achage (classement ou non des traductions) Choix de la langue de l'interface : français, anglais, vietnamien Marion Potet (RECITAL) Méta-traducteur de TA 23 / 30 Création d'une interface graphique Marion Potet (RECITAL) Interface graphique Méta-traducteur de TA 24 / 30 Création d'une interface graphique Marion Potet (RECITAL) Interface graphique Méta-traducteur de TA 25 / 30 Création d'une interface graphique Marion Potet (RECITAL) Interface graphique Méta-traducteur de TA 26 / 30 Conclusion 1 Introduction 2 Récupération de traductions 3 Classement des traductions 4 Création d'une interface graphique 5 Conclusion Marion Potet (RECITAL) Méta-traducteur de TA 27 / 30 Conclusion Conclusion Conclusion Tirer partie de la variabilité inter-systèmes ; mettre à prot, pour chaque situation, les moteurs de traduction qui semblent fournir la meilleure traduction Systran J’effectue un essai. Google Je procéder à un essai. 1. Je réalise un essai. Epals J’emporte un essai. 2. J’effectue un essai. Classement (Modèle de langage) I carry out a try. 3. Je procéder à un essai. N. J’emporte un essai. Promt Marion Potet (RECITAL) Je réalise un essai. Méta-traducteur de TA 28 / 30 Conclusion Perspectives Perspectives Améliorations techniques Ajout de couples de langues Ajout de moteurs de traduction Traduction de documents Perspectives de recherche Collecte automatique de corpus bilingue Génération d'hypothèses de traduction Exemple : Réseau de confusion à partir des 9 traductions obtenues au sujet de lui pas d’ Il n’y a aucune là n’est ambiguité il n’y a aucun doute à son sujet de lui sur lui sans il ne fait de cela à ce sujet Marion Potet (RECITAL) Méta-traducteur de TA 29 / 30 Conclusion Perspectives Merci pour votre attention Marion Potet (RECITAL) Méta-traducteur de TA 30 / 30