Combining Domain and Topic Adaptation for SMT
Transcription
Combining Domain and Topic Adaptation for SMT
Combining Domain and Topic Adaptation for SMT Eva Hasler, Barry Haddow, Philipp Koehn ILCC, School of Informatics University of Edinburgh October 25, 2014 Domain vs. Topic Adaptation Cross-domain adaptation I Small sample of parallel in-domain text is available I Build translation models from different corpora I Optimize mixture weights for texts from same domain [Foster and Kuhn, 2007, Sennrich, 2012] or learn corpus/instance weights [Matsoukas et al., 2009, Foster et al., 2010] 2/24 Domain vs. Topic Adaptation Cross-domain adaptation I Small sample of parallel in-domain text is available I Build translation models from different corpora I Optimize mixture weights for texts from same domain [Foster and Kuhn, 2007, Sennrich, 2012] or learn corpus/instance weights [Matsoukas et al., 2009, Foster et al., 2010] Dynamic domain adaptation I No domain information available ahead of time I Adaptation based on current source text [Foster and Kuhn, 2007, Finch, 2008] 2/24 Domain vs. Topic Adaptation Topic adaptation I Learn topical structure of training data automatically I Apply structural information to test data to infer topic mixture [Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012, Hasler et al., 2014a] I Few examples of non-dynamic adaptation [Su et al., 2012] 3/24 Domain vs. Topic Adaptation Topic adaptation I Learn topical structure of training data automatically I Apply structural information to test data to infer topic mixture [Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012, Hasler et al., 2014a] I Few examples of non-dynamic adaptation [Su et al., 2012] Advantages of dynamic topic adaptation I No need for labelled domain boundaries I No need for specific development set 3/24 Overview of the adaptation problem Examples of wrong lexical choice Input le débit est en augmentation très rapide. le débit a augmenté. Reference these flows are increasing very rapidly. the flows have increased. MT output the speed is growing very rapidly. the bitrate has increased. Context in the andes, this glacier is the source of drinking water for this city. the flows have increased. but when they go away, so does much of the drinking water. 4/24 Combining Domain and Topic Adaptation Motivation I Topic modelling useful for finding semantic structure in training data I Domain labels of training documents/sentences available but not used Questions I Does it help to use both domain and topic information? I Do they model different kinds of information, such as style vs. topic? 5/24 Combining Domain and Topic Adaptation Approach: Building on previous work [Hasler et al., 2014b] I Topic Adaptation with Distributional Profiles I Extend with more features I Adapt to each test document Task: Prediction + Adaptation I Old: Need to infer topic mixture of each test document I New: Need to predict domain of test document 6/24 Phrase Pair Topic Model How to learn semantic representations? I I Represent each phrase pair as distributional profile: pseudo document containing all context words Collect all source context words in local training contexts of a phrase pair Train document 2 Le noyau d’un système d’exploitation est lui-même un logiciel, mais ne peut cependant utiliser tous les Le noyau d’un système mécanismes d’abstraction est lui-même qu’il fournit auxd’exploitation autres un logiciel, logiciels. Son rôle central mais ne peut cependant impose par ailleurs des utiliser tous les mécanismes performances élevées. Cela d’abstraction fournit aux autres fait du noyau laqu’il partie la plus logiciels. Son rôle central critique d’un système impose par ailleurs des d’exploitation et rend sa performances élevées. Cela Le noyau d’un systèmeet sa conception ... fait du noyau la partie la plus d’exploitation est lui-même un logiciel, mais ne peut critique d’un système cependant utiliser tous lesd’exploitation et rend sa mécanismes d’abstractionconception et sa ... Train document 3 Train document 1 qu’il fournit aux autres logiciels. Le rôle du noyau central impose par ailleurs des performances élevées. Cela fait du noyau la partie la plus critique d’un système d’exploitation et rend sa conception et sa ... noyau → kernel Le noyau atomique désigne la région située au centre Le noyau atomique désigne nucléons). La taille du noyau la région située au centre (10-15 mètre) est environ d'un atome constituée100 de 000 fois plus petite que protons et de neutrons (lesde l'atome et concentre celle nucléons). La taille duquasiment noyau toute sa masse. (10-15 mètre) est environ Les forces nucléaires qui 100 000 fois plus petite que s'exercent entre les nucléons celle de l'atome et concentre sont à peu près un million quasiment toute sa masse. de fois plus grandes. Les forces nucléaires qui s'exercent entre les nucléons sont à peu près un million de fois plus grandes. noyau → nucleus cellule version défaut Train document 5 d'un atome constituée de Train document 4 protons et de neutrons (les linux recompiler fonctionnel actuel appliquer atomique microscopique matière élémentaires électron correctif 7/24 Phrase Pair Topic Model How to learn semantic representations? noyau → kernel défaut I I I Represent each phrase pair as distributional profile: pseudo document containing all context words Collect all source context words in local training contexts of a phrase pair noyau → nucleus cellule version linux atomique microscopique recompiler fonctionnel actuel matière élémentaires électron correctif noyau → kernel noyau → nucleus θ θ p i p j Learn latent representation θp for each phrase pair 7/24 For each of P phrase pairs ppi in the collection Model for training α0 α θp z w Cs-all β0 φ P β k K 1. Draw a topic distribution from an asymmetric Dirichlet prior, θp ∼ Dirichlet(α0 , α . . . α). 2. For each position c in the distributional profile of ppi , draw a topic from that distribution, zp,c ∼ Multinomial(θp ). 3. Conditioned on topic zp,c , choose a context word wp,c ∼ Multinomial(ψzp,c ). 8/24 Learned topic representations c iti 0.9 0 I IT c iti m l l no noyau →pokernel po co e noyau → nucleus 0.7 IT noyau → core 0.5 0 s ce ic lit po s en ci 0 po s IT ic lit s y ic m lit no po co e Some ambiguity remains: both kernel and core occur in IT contexts as translations of noyau 9/24 Phrase Pair Topic Model with additional features Conditional translation probability p(t|s, context) = X p(t, k|s, context) k p(t, k|s, context) ∝ p(t, s, k|context) = p(t|s, k) · p(s|k) · p(k|context) Joint-conditional probability p(t, context|s) = p(context|t, s) · p(t|s) ≈ p(θcontext |θpp ) · p(t|s) ≈ cos(θcontext |θpp ) · p(t|s) k: topic θ: topic vector 10/24 Phrase Pair Topic Model with additional features Target-unigrams trgUnigramst = |t| Y f( i=1 Pdoc (wi ) Pdoc (wi ) )·f( ) Pbaseline (wi ) Ptopic0 (wi ) Sim-phrasePair similarity = cos(θpp , θcontext ) Sim-targetPhrase similarity = cos(θtp , θcontext ) Sim-targetWord similarity = cos(θtw , θcontext ) 11/24 Dealing with multiple output domains Multi-domain adaptation I Adapt model to each of several (known) target domains Domain classification for multi-domain adaptation I Use perplexity of in-domain LMs [Xu et al., 2007] I Use stemmed word bigrams + SVM [Banerjee et al., 2010] I Use phrase pair provenance + perceptron [Wang et al., 2012] 12/24 Our approach to document classification I Build domain classifiers using topic representations Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation 0.3 sp ee ch he sp alt ee h ch 0 sc ien ce TED conception et sa ... Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne ch tels ee sp ho 0 IT ar ts glish 0.3 CC En la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ... Train document 8 Train Train document 3 document 9 m wary s litic s onno ec litic po po 0 po litic clim s ate 0.3 NC 13/24 Our approach to document classification I For each test document: Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’il fournit aux autres impose par ailleurs des mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation Test document 0.3 sp ee ch he sp alt ee h ch 0 En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux. sc ien ce TED conception et sa ... Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne ch ee 0 ho tels 0.3 sp CC IT ar En ts glish la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). Laettaille du noyau protons de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisie sur la courbe par de contrat sera délimitée solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui la passent par le stock. Selon les courbes d'indifférence qui passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ... Train document 8 Train Train document 3 document 9 s litic s ec onno m wary litic po po 0 po litic clim s ate 0.3 NC 13/24 Our approach to document classification Infer topic mixture → adapt features to topical context Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut Test document En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux. conception et sa ... Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne 0 features ch tels ee sp ho 0 IT ar ts glish 0.3 CC En la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ... 0.3 ien ce sp ee ch he sp alt ee h ch 0 ee ch he sp alt ee h ch 0.3 sp d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation sc ien ce TED sc I Train document 8 Train Train document 3 document 9 m wary s litic s onno ec litic po po 0 po litic clim s ate 0.3 NC 13/24 Our approach to document classification Predict domain → load domain-adapted translation features Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut Test document En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux. conception et sa ... Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne 0 TED features features ch tels ee sp ho 0 IT ar ts glish 0.3 CC En la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ... 0.3 ien ce sp ee ch he sp alt ee h ch 0 ee ch he sp alt ee h ch 0.3 sp d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation sc ien ce TED sc I Train document 8 Train Train document 3 document 9 m wary s litic s onno ec litic po po 0 po litic clim s ate 0.3 NC 13/24 Our approach to document classification I Apply trained Phrase Pair Topic model to all training documents → one topic vector per document Single-prototype Average document vectors of same training domain (→ domain vectors), max cosine similarity of test doc with domain vectors. Single-prototype-threshold Like single-prototype but with prediction threshold of 0.35. For similarities below threshold, predict unknown and fall back to baseline model. 14/24 Experimental setup (French-English) Data Train (condition 1) Train (condition 2) Dev Test Mixed 354K (6450) 2.3M 2453 (39) 5664 (112) CC 110K 110K 818 1892 NC 103K 103K 817 1878 TED 140K 140K 818 1894 Europarl 1.9M - Baseline systems I Unadapted system I DA-TM: linear PT interpolation [Sennrich, 2012] I DA-LM: linear LM interpolation I DA-TM+LM: both TM and LM adaptation Automatic domain prediction I Applied whenever we combine domain + topic adaptation 15/24 Training condition 2 I 2.3M training sentences → many more training contexts per phrase pair I Sample up to 50 contexts per phrase pair I Exclude singletons and frequent phrase pairs (> 20K occurrences) 16/24 Results: Single-prototype-threshold classifier Model # dev+test docs k=10 k=20 k=50 k=100 I correct 0.68 0.76 0.60 0.55 CC 88 other 0.30 0.15 0.19 0.12 unkown 0.02 0.09 0.21 0.33 NC 39 correct 1.0 1.0 1.0 1.0 TED 24 correct 1.0 1.0 1.0 1.0 Accuracy of domain prediction 17/24 Results: training condition 1 (three domains) I Model Baseline Mixed **26.86 CC 19.61 NC 29.42 TED 31.88 DA-TM **27.24 19.61 29.87 32.73 DA-LM **27.16 19.71 29.77 32.46 DA-TM+LM **27.34 19.59 29.92 33.02 Best system: DA-TM + topics (+ domain prediction) 18/24 Results: training condition 1 (three domains) I Model Baseline + topics Mixed **26.86 **27.57 CC 19.61 20.35 NC 29.42 29.68 TED 31.88 33.22 DA-TM + topics **27.24 **27.73 19.61 20.33 29.87 29.88 32.73 33.55 DA-LM + topics **27.16 **27.60 19.71 20.37 29.77 29.80 32.46 33.20 DA-TM+LM + topics **27.34 **27.63 19.59 20.22 29.92 29.90 33.02 33.33 Best system: DA-TM + topics (+ domain prediction) 18/24 Results: training condition 1 (three domains) I Model Baseline + topics Mixed **26.86 **27.57 CC 19.61 20.35 +0.74 NC 29.42 29.68 +0.26 TED 31.88 33.22 +1.34 DA-TM + topics **27.24 **27.73 19.61 20.33 +0.69 29.87 29.88 +0.01 32.73 33.55 +0.82 DA-LM + topics **27.16 **27.60 19.71 20.37 +0.63 29.77 29.80 +0.03 32.46 33.20 +0.74 DA-TM+LM + topics **27.34 **27.63 19.59 20.22 +0.60 29.92 29.90 -0.02 33.02 33.33 +0.31 Best system: DA-TM + topics (+ domain prediction) 18/24 Results: training condition 1 (three domains) Model Baseline + topics Mixed **26.86 **27.57 CC 19.61 20.35 +0.74 NC 29.42 29.68 +0.26 TED 31.88 33.22 +1.34 DA-TM + topics **27.24 **27.73 19.61 20.33 +0.69 29.87 29.88 +0.01 32.73 33.55 +0.82 DA-LM + topics **27.16 **27.60 19.71 20.37 +0.63 29.77 29.80 +0.03 32.46 33.20 +0.74 DA-TM+LM + topics **27.34 **27.63 19.59 20.22 +0.60 29.92 29.90 -0.02 33.02 33.33 +0.31 +0.87 +0.72 +0.46 +1.67 Total gain over baseline I Best system: DA-TM + topics (+ domain prediction) 18/24 Results: training condition 1 (three domains) What do we gain from domain adaptation? I Model DA-TM Mixed **27.24 CC 19.61 NC 29.87 TED 32.73 Baseline+Sim-combine **27.29 20.10 29.49 32.60 Topic similarity features + domain-adapted features yield similar performance to using all features 19/24 Results: training condition 1 (three domains) What do we gain from domain adaptation? I Model DA-TM Mixed **27.24 CC 19.61 NC 29.87 TED 32.73 Baseline+Sim-combine + DA-TM **27.29 **27.69 20.10 20.13 29.49 29.90 32.60 33.37 Topic similarity features + domain-adapted features yield similar performance to using all features 19/24 Results: training condition 1 (three domains) What do we gain from domain adaptation? I Model DA-TM Mixed **27.24 CC 19.61 NC 29.87 TED 32.73 Baseline+Sim-combine + DA-TM **27.29 **27.69 +0.40 20.10 20.13 +0.03 29.49 29.90 +0.41 32.60 33.37 +0.77 Topic similarity features + domain-adapted features yield similar performance to using all features 19/24 Results: training condition 2 (three domains + Europarl) I Model Baseline Mixed **25.74 CC 20.01 NC 29.01 TED 27.82 DA-TM **26.74 20.13 29.53 30.86 DA-LM **27.01 20.26 30.48 30.43 DA-TM+LM **27.70 20.10 30.68 32.70 Best model: DA-TM + DA-LM + topics (+ domain prediction) 20/24 Results: training condition 2 (three domains + Europarl) I Model Baseline + topics Mixed **25.74 **26.54 CC 20.01 20.30 NC 29.01 29.55 TED 27.82 29.97 DA-TM + topics **26.74 **27.21 20.13 20.35 29.53 29.74 30.86 31.96 DA-LM + topics **27.01 **27.36 20.26 20.34 30.48 30.62 30.43 31.34 DA-TM+LM + topics **27.70 **27.91 20.10 20.38 30.68 30.80 32.70 32.98 Best model: DA-TM + DA-LM + topics (+ domain prediction) 20/24 Results: training condition 2 (three domains + Europarl) I Model Baseline + topics Mixed **25.74 **26.54 CC 20.01 20.30 NC 29.01 29.55 TED 27.82 29.97 DA-TM + topics **26.74 **27.21 +0.29 20.13 20.35 +0.54 29.53 29.74 +2.15 30.86 31.96 DA-LM + topics **27.01 **27.36 +0.22 20.26 20.34 +0.21 30.48 30.62 +1.10 30.43 31.34 DA-TM+LM + topics **27.70 **27.91 +0.08 20.10 20.38 +0.14 30.68 30.80 +0.91 32.70 32.98 +0.28 +0.12 +0.28 Best model: DA-TM + DA-LM + topics (+ domain prediction) 20/24 Results: training condition 2 (three domains + Europarl) Model Baseline + topics Mixed **25.74 **26.54 CC 20.01 20.30 NC 29.01 29.55 TED 27.82 29.97 DA-TM + topics **26.74 **27.21 +0.29 20.13 20.35 +0.54 29.53 29.74 +2.15 30.86 31.96 DA-LM + topics **27.01 **27.36 +0.22 20.26 20.34 +0.21 30.48 30.62 +1.10 30.43 31.34 DA-TM+LM + topics **27.70 **27.91 +0.08 20.10 20.38 +0.14 30.68 30.80 +0.91 32.70 32.98 +2.17 +0.28 +0.37 +0.12 +1.79 +0.28 +5.16 Total gain over baseline I Best model: DA-TM + DA-LM + topics (+ domain prediction) 20/24 Comparison of training conditions Best Model Train condition 1 Train condition 2 I Mixed 27.73 27.91 CC 20.33 20.38 NC 29.88 30.80 TED 33.55 32.98 Both domain and topic adaptation could be improved to deal better with unbalanced data 21/24 Input Reference Baseline le débit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. le débit a augmenté. the flows have increased. the bitrate has increased. 22/24 Input Reference Baseline +DA-TM le débit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. le débit a augmenté. the flows have increased. the bitrate has increased. the throughput has increased. 22/24 Input Reference Baseline +DA-TM +topics le débit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. the flow is growing very rapidly. le débit a augmenté. the flows have increased. the bitrate has increased. the throughput has increased. the flow has increased. 22/24 Input Reference Baseline +DA-TM +topics le débit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. the flow is growing very rapidly. débit → speed bitrate throughput flow Baseline P(t|s) 0.830 0.770 0.700 0.700 DA-TM P(t|s) 0.652 0.606 0.892 0.803 le débit a augmenté. the flows have increased. the bitrate has increased. the throughput has increased. the flow has increased. Topic-adapted Sim-trgWord TrgUnigrams 0.960 1.031 0.918 1 0.919 1.026 0.979 1.058 22/24 Conclusions I Measured relative benefit of domain adaptation and topic adaptation I Methods are complementary, depending on text type/domain I Provide adaptation at different levels of granularity I Domains can be accurately predicted with domain vectors Future work I Direct integration of domain information into topic modelling 23/24 Thank you! 24/24 Banerjee, P., Du, J., Li, B., Naskar, S. K., Way, A., and Genabith, J. V. (2010). Combining Multi-Domain Statistical Machine Translation Models using Automatic Classifiers. In Proceedings of AMTA. Eidelman, V., Boyd-Graber, J., and Resnik, P. (2012). Topic Models for Dynamic Translation Model Adaptation. In Proceedings of ACL. Finch, A. (2008). Dynamic Model Interpolation for Statistical Machine Translation. In Proceedings of the Third Workshop on Statistical Machine Translation, pages 208–215. Foster, G., Goutte, C., and Kuhn, R. (2010). Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation. In Proceedings of EMNLP. 24/24 Foster, G. and Kuhn, R. (2007). Mixture-Model Adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation. Gong, Z., Zhang, Y., and Zhou, G. (2010). Statistical Machine Translation based on LDA. In 4th International Universal Communication Symposium (IUCS). Hasler, E., Blunsom, P., Koehn, P., and Haddow, B. (2014a). Dynamic Topic Adaptation for Phrase-based MT. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Hasler, E., Haddow, B., and Koehn, P. (2014b). Dynamic Topic Adaptation for SMT using Distributional Profiles. In Proceedings of the 9th Workshop on Statistical Machine Translation. 24/24 Matsoukas, S., Rosti, A.-V. I., and Zhang, B. (2009). Discriminative corpus weight estimation for machine translation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Sennrich, R. (2012). Perplexity Minimization for Translation Model Domain Adaptation in Statistical Machine Translation. In Proceedings of EACL. Su, J., Wu, H., Wang, H., Chen, Y., Shi, X., Dong, H., and Liu, Q. (2012). Translation Model Adaptation for Statistical Machine Translation with Monolingual Topic Information. In Proceedings of ACL. Wang, W., Macherey, K., Macherey, W., Och, F., and Xu, P. (2012). 24/24 Improved Domain Adaptation for Statistical Machine Translation. In Proceedings of AMTA. Xiao, X., Xiong, D., Zhang, M., Liu, Q., and Lin, S. (2012). A Topic Similarity Model for Hierarchical Phrase-based Translation. In Proceedings of ACL, pages 750–758. Xu, J., Deng, Y., Gao, Y., and Ney, H. (2007). Domain Dependent Statistical Machine Translation. In Proceedings of MT Summit XI, pages 2–7. 24/24