Article PDF

Transcription

Article PDF
Méta-moteur de traduction automatique
Proposition d'une métrique pour le classement de traductions
Marion Potet
Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des
Langues
25 juin 2009
Marion Potet
(RECITAL)
Méta-traducteur de TA
1 / 30
Travail présenté
Création d'un outil web permettant la traduction automatique de
phrases. Son originalité est qu'il fait appel aux diérents moteurs de
traduction automatiques déjà disponibles sur le web, pour obtenir une
liste de traductions, qu'il va ensuite classer.
Systran
J’effectue un essai.
Google
Je procéder à un essai.
1. Je réalise un essai.
Epals
J’emporte un essai.
2. J’effectue un essai.
Classement
(Modèle de langage)
I carry out a try.
3. Je procéder à un essai.
N. J’emporte un essai.
Promt
Marion Potet
(RECITAL)
Je réalise un essai.
Méta-traducteur de TA
2 / 30
Intérêt de l'approche
Développement du World Wide Web
accès à une énorme quantité d'information dans diverses langues →
besoin de traduction "à la volée"
Résultats des moteurs de traduction en ligne...
peu satisfaisants
dépendent fortement du type de phrases entrées ou vocabulaire utilisé
et du domaine traité
méthodologie diérentes → variabilité entre les systèmes
→ Idée : tirer parti de cette variabilité inter-systèmes pour sélectionner
parmi une liste de traductions proposées celle(s) qui sont les plus
pertinentes
Marion Potet
(RECITAL)
Méta-traducteur de TA
3 / 30
Plan
1
Introduction
2
Récupération de traductions
3
Classement des traductions
4
Création d'une interface graphique
5
Conclusion
Marion Potet
(RECITAL)
Méta-traducteur de TA
4 / 30
Introduction
1
Introduction
2
Récupération de traductions
3
Classement des traductions
4
Création d'une interface graphique
5
Conclusion
Marion Potet
(RECITAL)
Méta-traducteur de TA
5 / 30
Introduction
La traduction automatique
Evaluation de la qualité d'une traduction
traducteur 1
Je réalise un essai.
traducteur 2
Je procède à un essai.
traducteur 3
J’emporte un essai.
traducteur 4
J’effectue un but.
I carry out a try.
Evaluation automatique
Mesure utilisé : BLEU
Traduction de référence : Je fais un essai.
Evaluation subjective
Critères : uidité, adéquation, etc.
Marion Potet
(RECITAL)
Méta-traducteur de TA
6 / 30
Introduction
Les corpus
Notion de corpus
Dénition : ensemble de documents dont les textes sont représentatifs
d'une langue
But : extraire un ensemble d'informations utiles pour des traitements
statistiques
cette décision cruciale
this crucial decision
doit vivre en sécurité
must be secured
le prix des produits laitiers
a considérablement augmenté
the price of dairy products
had significantly increased
Marion Potet
(RECITAL)
Méta-traducteur de TA
7 / 30
Introduction
La modélisation statistique du langage
La modélisation statistique du langage
But : estimer la probabilité de toute séquence de mots
P(le chat dort ) = 0,27 → phrase probable
P(livre dort le ) = 0,00014 → phrase peu probable
Un modèle de langage
est appris à partir d'un corpus d'apprentissage
donne un score à toute suite de mots
LP =
K
X
LP (wk | wk − wk −
2
1
)
k =2
où :
K est le nombre de mots de la phrase
LP (wk | wk − wk − ) est le logarithme de la probabilité
de la séquence de mots wk − wk − wk
2
1
2
Marion Potet
(RECITAL)
1
Méta-traducteur de TA
8 / 30
Récupération de traductions
1
Introduction
2
Récupération de traductions
3
Classement des traductions
4
Création d'une interface graphique
5
Conclusion
Marion Potet
(RECITAL)
Méta-traducteur de TA
9 / 30
Récupération de traductions
Sélection de moteurs de traduction
Traducteurs automatiques disponibles sur le Web
Nombreux traducteurs automatiques en ligne
BabelFish : http ://fr.babelsh.yahoo.com
Google translation : http ://translate.google.fr
Voilà : http ://tr.voila.fr
Worldlingo : http ://www.worldlingo.com/translate.php
···
Qualités requises
Disponible sur le net
Gratuit
Traite la traduction de l'anglais vers le français
Permet la traduction de phrases ou de textes
Autorise un nombre susant de requêtes quotidiennes
→ 22 interfaces de traduction retenues
Marion Potet
(RECITAL)
Méta-traducteur de TA
10 / 30
Récupération de traductions
Sélection de moteurs de traduction
Regroupement par moteur de traduction
Plusieurs interfaces peuvent faire appel à un seul et même moteur de
traduction
http://www.allwords.com
http://www.fr.altavista.com
Moteur de traduction
http://www.systran.fr
http://www.tr.voilà.fr
SYSTRAN
http://fr.babelfish.yahoo.com
http://www.ez2find.com/translate.php
→ 10 moteurs de traduction retenus
Marion Potet
(RECITAL)
Méta-traducteur de TA
11 / 30
Récupération de traductions
Sélection de moteurs de traduction
Test de la qualité des moteurs de traduction
Moteur
BLEU
Intertran
0,044
Google
Worldlingo
Applied language
Epals
Systran
Reverso
Promt
FreeTranslation
Linguatec
0,246
0,244
0,242
0,238
0,235
0,204
0,195
0,193
0,180
Elimination de Intertran
→ 9 moteurs de traduction retenus
Marion Potet
(RECITAL)
Méta-traducteur de TA
12 / 30
Récupération de traductions
Communication avec les moteurs de traduction
Protocole
Protocole HTTP = protocole de transfert de documents hypertexte
1
2
3
Ouverture de la connexion
Envoi d'une requête contenant l'URL, le texte à traduire, la langue
source et la langue cible
Réception de la page HTML contenant le texte traduit
Marion Potet
(RECITAL)
Méta-traducteur de TA
13 / 30
Récupération de traductions
Communication avec les moteurs de traduction
Validation
Proportions de requêtes réussies sur 163 000 phrases envoyées
Moteur
Reverso
FreeTranslation
Epals
Google
Systran
Promt
Worldlingo
Linguatec
AppliedLanguage
Marion Potet
(RECITAL)
Traductions obtenues
99,79 %
99,78 %
99,30 %
99,20 %
97,77 %
96,77 %
96,37 %
95,69 %
94,47 %
97,67 %
Méta-traducteur de TA
14 / 30
Classement des traductions
1
Introduction
2
Récupération de traductions
3
Classement des traductions
4
Création d'une interface graphique
5
Conclusion
Marion Potet
(RECITAL)
Méta-traducteur de TA
15 / 30
Classement des traductions
Modèle de langage
Apprentissage du modèle de langage
Corpus d'apprentissage
Source
Description
Nb de mots
Période
France24
www.france24.com
4 M
février - avril 2008
Web
données journalistiques du Net
72 M
juin 2003 - avril 2008
Le Monde
CDRom de ELRA1
23 M
janvier - décembre 2003
Corpus monolingue : Français
Technique : Aspiration de pages Web (crontab)
Normalisation : CLIPS-Text-tk-2.5
Modèle de langage
Apprentissage des modèles de langage : outil libre SRILM
Interpolation des 3 modèles de langage :
41% France24, 42% Web et 17% LeMonde
1
Association Européenne pour les Ressources Linguistiques.
Marion Potet
(RECITAL)
Méta-traducteur de TA
16 / 30
Classement des traductions
Modèle de langage
Proposition d'une métrique
Modèle de langage : attribue un score à une phrase
Il existe plusieurs métriques (ppl , ppl 1, LP ) mais pas directement
adaptées à notre application
Attention aux mots inconnus : leur attribuer une pénalité adéquate !
Métrique proposée
LPOOV
=
K
X
k =2
LP (wk | wk − wk −
2
1
) + OOVs × avec :
K = nombre de mots de la phrase
= pénalité du mot inconnu
OOVs = nombre de mots inconnus dans la phrase
Marion Potet
(RECITAL)
Méta-traducteur de TA
17 / 30
Classement des traductions
Validation du système de classement
Validation du système de classement
Corpus de test
Corpus bilingue de 300 phrases alignées anglais/français
Extrait du site : www.france24.fr
Alignement automatique des documents puis manuel des phrases
Expérimentation
Envoi des 300 phrases à chacun des 9 moteurs de traduction
Classement des 9 traductions obtenues avec notre métrique
Sélection de 1stBest, 2ndBest et 3rdBest
1stBest
2ndBest
3rdBest
1. Je réalise un essai.
2. J’effectue un essai.
3. Je procède à un essai.
4. Je fais un essai.
N−1. Je procéder à un essai.
N. J’emporte un essai.
Marion Potet
(RECITAL)
Méta-traducteur de TA
18 / 30
Classement des traductions
Expérimentations/Résultats
Evaluation automatique
Moteur
Google
Reverso
Systran
Promt
AppliedLanguage
Epals
Worldlingo
FreeTranslation
Linguatec
BLEU
0,3107
0,2585
0,2526
0,2513
0,2345
0,2160
0,2307
0,2162
0,2062
Sélection
BLEU
2ndBest
3rdBest
0,2857
0,2610
1stBest 0,3175
Evaluation du classement
Evaluation des 9 moteurs de traduction
→ Il est préférable d'utiliser une traduction choisie parmi plusieurs,
provenant de moteurs diérents, que d'utiliser systématiquement
uniquement celui qui obtient le meilleur score moyen
Marion Potet
(RECITAL)
Méta-traducteur de TA
19 / 30
Classement des traductions
Expérimentations/Résultats
Apport des diérents moteurs
Proportion des diérents moteurs dans les trois premiers résultats
(résultats en %) :
1stBest
2ndBest
3rdBest
Total
Google
64
26
81
80,7
Reverso
25
79
14,7
49,4
Promt
6,3
18
15,3
39,7
AppliedL.
6,7
10,3
14
31
Systran
Epals
Ling.
FreeT.
3,3
5
4 2,3
10 10,3 7,3 7,3
15,7 11 8,3 7,7
29 26,3 19,6 17,3
World.
0
1,6
5,3
6,9
→ Les neufs moteurs de traduction sélectionnés apportent tous leur
contribution au système
Marion Potet
(RECITAL)
Méta-traducteur de TA
20 / 30
Classement des traductions
Expérimentations/Résultats
Evaluation subjective
But : comparer 1stBest et Google
Protocole
Nombre de participants : 16
Consigne : choisir parmi les deux phrases celle qui semble la meilleure
ou n'eectuer aucun choix
Résultats
78 paires de phrases
1stBest 55%
Google 33%
Indiérent
12%
→ L'évaluation subjective conrme les résultats de l'évaluation
automatique
Marion Potet
(RECITAL)
Méta-traducteur de TA
21 / 30
Création d'une interface graphique
1
Introduction
2
Récupération de traductions
3
Classement des traductions
4
Création d'une interface graphique
5
Conclusion
Marion Potet
(RECITAL)
Méta-traducteur de TA
22 / 30
Création d'une interface graphique
Interface graphique
Fonctionnalités de l'interface
Saisie du texte à
traduire
Choix des moteurs
de traduction à
utiliser
Option d'achage
(classement ou non
des traductions)
Choix de la langue
de l'interface :
français, anglais,
vietnamien
Marion Potet
(RECITAL)
Méta-traducteur de TA
23 / 30
Création d'une interface graphique
Marion Potet
(RECITAL)
Interface graphique
Méta-traducteur de TA
24 / 30
Création d'une interface graphique
Marion Potet
(RECITAL)
Interface graphique
Méta-traducteur de TA
25 / 30
Création d'une interface graphique
Marion Potet
(RECITAL)
Interface graphique
Méta-traducteur de TA
26 / 30
Conclusion
1
Introduction
2
Récupération de traductions
3
Classement des traductions
4
Création d'une interface graphique
5
Conclusion
Marion Potet
(RECITAL)
Méta-traducteur de TA
27 / 30
Conclusion
Conclusion
Conclusion
Tirer partie de la variabilité inter-systèmes ; mettre à prot, pour
chaque situation, les moteurs de traduction qui semblent fournir la
meilleure traduction
Systran
J’effectue un essai.
Google
Je procéder à un essai.
1. Je réalise un essai.
Epals
J’emporte un essai.
2. J’effectue un essai.
Classement
(Modèle de langage)
I carry out a try.
3. Je procéder à un essai.
N. J’emporte un essai.
Promt
Marion Potet
(RECITAL)
Je réalise un essai.
Méta-traducteur de TA
28 / 30
Conclusion
Perspectives
Perspectives
Améliorations techniques
Ajout de couples de langues
Ajout de moteurs de traduction
Traduction de documents
Perspectives de recherche
Collecte automatique de corpus bilingue
Génération d'hypothèses de traduction
Exemple : Réseau de confusion à partir des 9 traductions obtenues
au sujet de lui
pas d’
Il n’y a
aucune
là n’est
ambiguité
il n’y a
aucun doute
à son sujet
de lui
sur lui
sans
il ne fait
de cela
à ce sujet
Marion Potet
(RECITAL)
Méta-traducteur de TA
29 / 30
Conclusion
Perspectives
Merci pour votre attention
Marion Potet
(RECITAL)
Méta-traducteur de TA
30 / 30