Combining Domain and Topic Adaptation for SMT

Transcription

Combining Domain and Topic Adaptation for SMT
Combining Domain and Topic Adaptation for
SMT
Eva Hasler, Barry Haddow, Philipp Koehn
ILCC, School of Informatics
University of Edinburgh
October 25, 2014
Domain vs. Topic Adaptation
Cross-domain adaptation
I
Small sample of parallel in-domain text is available
I
Build translation models from different corpora
I
Optimize mixture weights for texts from same domain
[Foster and Kuhn, 2007, Sennrich, 2012]
or learn corpus/instance weights
[Matsoukas et al., 2009, Foster et al., 2010]
2/24
Domain vs. Topic Adaptation
Cross-domain adaptation
I
Small sample of parallel in-domain text is available
I
Build translation models from different corpora
I
Optimize mixture weights for texts from same domain
[Foster and Kuhn, 2007, Sennrich, 2012]
or learn corpus/instance weights
[Matsoukas et al., 2009, Foster et al., 2010]
Dynamic domain adaptation
I
No domain information available ahead of time
I
Adaptation based on current source text
[Foster and Kuhn, 2007, Finch, 2008]
2/24
Domain vs. Topic Adaptation
Topic adaptation
I
Learn topical structure of training data automatically
I
Apply structural information to test data to infer topic mixture
[Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012,
Hasler et al., 2014a]
I
Few examples of non-dynamic adaptation [Su et al., 2012]
3/24
Domain vs. Topic Adaptation
Topic adaptation
I
Learn topical structure of training data automatically
I
Apply structural information to test data to infer topic mixture
[Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012,
Hasler et al., 2014a]
I
Few examples of non-dynamic adaptation [Su et al., 2012]
Advantages of dynamic topic adaptation
I
No need for labelled domain boundaries
I
No need for specific development set
3/24
Overview of the adaptation problem
Examples of wrong lexical choice
Input
le débit est en augmentation très rapide.
le débit a augmenté.
Reference
these flows are increasing
very rapidly.
the flows have increased.
MT output
the speed is growing very
rapidly.
the bitrate has increased.
Context
in the andes, this glacier is the source of drinking water for this city.
the flows have increased.
but when they go away, so does much of the drinking water.
4/24
Combining Domain and Topic Adaptation
Motivation
I
Topic modelling useful for finding semantic structure in
training data
I
Domain labels of training documents/sentences available but
not used
Questions
I
Does it help to use both domain and topic information?
I
Do they model different kinds of information, such as style vs.
topic?
5/24
Combining Domain and Topic Adaptation
Approach: Building on previous work [Hasler et al., 2014b]
I
Topic Adaptation with Distributional Profiles
I
Extend with more features
I
Adapt to each test document
Task: Prediction + Adaptation
I
Old: Need to infer topic mixture of each test document
I
New: Need to predict domain of test document
6/24
Phrase Pair Topic Model
How to learn semantic
representations?
I
I
Represent each phrase pair
as distributional profile:
pseudo document containing
all context words
Collect all source context
words in local training
contexts of a phrase pair
Train document 2
Le noyau d’un système
d’exploitation est lui-même
un logiciel, mais ne peut
cependant utiliser tous les
Le noyau d’un système
mécanismes d’abstraction
est lui-même
qu’il fournit auxd’exploitation
autres
un logiciel,
logiciels. Son rôle
central mais ne peut
cependant
impose par ailleurs
des utiliser tous les
mécanismes
performances élevées.
Cela d’abstraction
fournit
aux autres
fait du noyau laqu’il
partie
la plus
logiciels. Son rôle central
critique d’un système
impose
par ailleurs des
d’exploitation et
rend sa
performances
élevées. Cela
Le noyau d’un
systèmeet sa
conception
...
fait du noyau la partie la plus
d’exploitation est lui-même
un logiciel, mais ne peut critique d’un système
cependant utiliser tous lesd’exploitation et rend sa
mécanismes d’abstractionconception et sa ...
Train document 3
Train document 1
qu’il fournit aux autres
logiciels. Le rôle du noyau
central impose par ailleurs
des performances élevées.
Cela fait du noyau la partie
la plus critique d’un système
d’exploitation et rend sa
conception et sa ...
noyau → kernel
Le noyau atomique désigne
la région située au centre
Le noyau atomique désigne
nucléons). La taille du noyau
la région située au centre
(10-15 mètre) est environ
d'un atome constituée100
de 000 fois plus petite que
protons et de neutrons
(lesde l'atome et concentre
celle
nucléons). La taille duquasiment
noyau
toute sa masse.
(10-15 mètre) est environ
Les forces nucléaires qui
100 000 fois plus petite
que
s'exercent
entre les nucléons
celle de l'atome et concentre
sont à peu près un million
quasiment toute sa masse.
de fois plus grandes.
Les forces nucléaires qui
s'exercent entre les nucléons
sont à peu près un million
de fois plus grandes.
noyau → nucleus
cellule
version
défaut
Train document 5
d'un atome constituée de
Train document
4
protons et de neutrons (les
linux
recompiler
fonctionnel
actuel
appliquer
atomique
microscopique
matière
élémentaires
électron
correctif
7/24
Phrase Pair Topic Model
How to learn semantic
representations?
noyau → kernel
défaut
I
I
I
Represent each phrase pair
as distributional profile:
pseudo document containing
all context words
Collect all source context
words in local training
contexts of a phrase pair
noyau → nucleus
cellule
version
linux
atomique
microscopique
recompiler
fonctionnel
actuel
matière
élémentaires
électron
correctif
noyau → kernel
noyau → nucleus
θ
θ
p
i
p
j
Learn latent representation
θp for each phrase pair
7/24
For each of P phrase pairs ppi in
the collection
Model for training
α0
α
θp
z
w
Cs-all
β0
φ
P
β
k
K
1. Draw a topic distribution
from an asymmetric
Dirichlet prior,
θp ∼ Dirichlet(α0 , α . . . α).
2. For each position c in the
distributional profile of ppi ,
draw a topic from that
distribution,
zp,c ∼ Multinomial(θp ).
3. Conditioned on topic zp,c ,
choose a context word
wp,c ∼ Multinomial(ψzp,c ).
8/24
Learned topic representations
c
iti
0.9
0
I
IT
c
iti
m
l
l
no
noyau →pokernel
po co
e
noyau → nucleus
0.7
IT
noyau → core
0.5
0
s
ce
ic
lit
po
s
en
ci
0
po
s IT
ic
lit
s
y
ic
m
lit no
po co
e
Some ambiguity remains: both kernel and core occur in IT
contexts as translations of noyau
9/24
Phrase Pair Topic Model with additional features
Conditional translation probability
p(t|s, context) =
X
p(t, k|s, context)
k
p(t, k|s, context) ∝ p(t, s, k|context)
= p(t|s, k) · p(s|k) · p(k|context)
Joint-conditional probability
p(t, context|s) = p(context|t, s) · p(t|s)
≈ p(θcontext |θpp ) · p(t|s)
≈ cos(θcontext |θpp ) · p(t|s)
k: topic
θ: topic vector
10/24
Phrase Pair Topic Model with additional features
Target-unigrams
trgUnigramst =
|t|
Y
f(
i=1
Pdoc (wi )
Pdoc (wi )
)·f(
)
Pbaseline (wi )
Ptopic0 (wi )
Sim-phrasePair
similarity = cos(θpp , θcontext )
Sim-targetPhrase
similarity = cos(θtp , θcontext )
Sim-targetWord
similarity = cos(θtw , θcontext )
11/24
Dealing with multiple output domains
Multi-domain adaptation
I
Adapt model to each of several (known) target domains
Domain classification for multi-domain adaptation
I
Use perplexity of in-domain LMs [Xu et al., 2007]
I
Use stemmed word bigrams + SVM [Banerjee et al., 2010]
I
Use phrase pair provenance + perceptron
[Wang et al., 2012]
12/24
Our approach to document classification
I
Build domain classifiers using topic representations
Train document 3
Le noyau d’un système
Train
document 1
d’exploitation est lui-même
Train
document
Le noyau
d’un système
un
logiciel,
mais ne1peut
d’exploitation
est
lui-même
cependant
utiliser
tous les
Le noyau
d’un système
un logiciel,
mais
ne
peut
mécanismes
d’abstraction
d’exploitation
est
lui-même
cependant
utiliser
les
qu’ilmais
fournit
auxtous
autres
un logiciel,
ne peut
mécanismes
d’abstraction
logiciels.
rôle
cependant
utiliserSon
tous
lescentral
qu’ilimpose
fournit
auxailleurs
autres des
par
mécanismes
d’abstraction
Sonautres
rôle central
performances
élevées. Cela
qu’illogiciels.
fournit
aux
impose
par
ailleurs
fait
du
noyau
la des
partie la plus
logiciels.
Son
rôle
central
performances
élevées.
Cela
critique
d’un
système
impose
par
ailleurs
des
fait d’exploitation
du noyau
la partie
la plus
etCela
rend
sa
performances
élevées.
critique
d’un
système
conception
et sa
fait du
noyau
la partie
la ...
plus
d’exploitation
et rend sa
critique
d’un système
conceptionetetrend
sa ...sa
d’exploitation
0.3
sp
ee
ch
he
sp alt
ee h
ch
0
sc
ien
ce
TED
conception et sa ...
Train document
4
Train document
5
Train
document
6
Le noyau
atomique
désigne
Le noyau atomique désigne
ch
tels
ee
sp
ho
0
IT
ar
ts
glish
0.3
CC
En
la région
située
au centre
Le noyau
atomique
désigne
la région
située
au centre
d'unlaatome
constituée
de
région
centre
d'unsituée
atomeau
constituée
de
protons
de neutrons
(les de
d'unet
atome
constituée
protons
et de neutrons
(les
nucléons).
La
taille
du noyau
protons
et de neutrons
nucléons).
La taille(les
du noyau
(10-15
mètre) est
environ
nucléons).
Lamètre)
taille
du
(10-15
estnoyau
environ
100 (10-15
000 fois
plus petite
que
mètre)
est environ
100
000 fois
plus petite que
celle100
de l'atome
et concentre
000
fois
petite
celle
deplus
l'atome
et que
concentre
quasiment
toute
sa masse.
celle de
l'atome
et
concentre
quasiment
toute
sa masse.
Les forces
nucléaires
quimasse.
quasiment
toutenucléaires
sa
Les forces
qui
s'exercent
entre
les nucléons
Les forces
nucléaires
s'exercent
entrequi
les nucléons
sonts'exercent
à peu prèsentre
un million
les nucléons
sont à peu près
un million
de fois
plus
grandes.
sont àde
peu
million
foisprès
plusun
grandes.
Comme chaque individu
de fois plus grandes.
Comme
chaque
individu
accepte
un échange
Comme
chaque individu
accepte
un échange
uniquement
le
acceptes'il
unpréfère
échange
uniquement
s'il
préfère
le
nouveau
stock
à l'ancien,
la le
uniquement
s'il préfère
nouveau
stock
à l'ancien,
la
solution
choisie
sur la
courbe
nouveau
stock
à l'ancien,
la
solution
choisiesera
sur délimitée
la courbe par
de contrat
solution choisie
sur la courbe
de contrat
sera d'indifférence
délimitée par qui
les courbes
de contrat
sera délimitée par
les courbes
d'indifférence
qui
passent
le stock.
Selon la qui
les par
courbes
d'indifférence
passent
par
le
stock.
Selon
la
terminologie
passent de
parlalethéorie
stock. Selon la
terminologie
de la théorieles
des jeux
coopératifs,
terminologie
de la théorie
des points
jeux coopératifs,
les limites
entre
deux
des
jeuxces
coopératifs,
les
points
entre cesledeux
limites
constituent
noyau
le limites
points entre
cesou
deux
constituent
noyau ou ...
le
cœurconstituent
dele
l'économie
le noyau ou le
cœur de l'économie ...
cœur de l'économie ...
Train document 8
Train Train
document
3
document
9
m
wary
s
litic
s
onno
ec
litic
po
po
0
po
litic
clim
s
ate
0.3
NC
13/24
Our approach to document classification
I
For each test document:
Train document 3
Le noyau d’un système
Train
document 1
d’exploitation est lui-même
Train
document
Le noyau
d’un système
un
logiciel,
mais ne1peut
d’exploitation
est
lui-même
cependant
utiliser
tous les
Le noyau
d’un système
un logiciel,
mais
ne
peut
mécanismes
d’abstraction
d’exploitation
est
lui-même
cependant
utiliser
les
qu’ilmais
fournit
auxtous
autres
un logiciel,
ne peut
mécanismes
d’abstraction
logiciels.
rôle
cependant
utiliserSon
tous
lescentral
qu’il
fournit
aux
autres
impose
par ailleurs des
mécanismes
d’abstraction
Sonautres
rôle central
performances
élevées. Cela
qu’illogiciels.
fournit
aux
impose
par
ailleurs
fait
du
noyau
la des
partie la plus
logiciels.
Son
rôle
central
performances
élevées.
Cela
critique
d’un
système
impose
par
ailleurs
des
fait d’exploitation
du noyau
la partie
la plus
etCela
rend
sa
performances
élevées.
critique
d’un
système
conception
et sa
fait du
noyau
la partie
la ...
plus
d’exploitation
et rend sa
critique
d’un système
conceptionetetrend
sa ...sa
d’exploitation
Test document
0.3
sp
ee
ch
he
sp alt
ee h
ch
0
En effet, l’écriture en espace
noyau suppose l’absence de
mécanismes tels que la
protection de la mémoire. Il
est donc plus complexe
d’écrire un logiciel
fonctionnant dans l’espace
noyau que dans l’espace
utilisateur, les bugs et failles
de sécurité sont bien plus
dangereux.
sc
ien
ce
TED
conception et sa ...
Train document
4
Train document
5
Train
document
6
Le noyau
atomique
désigne
Le noyau atomique désigne
ch
ee
0
ho
tels
0.3
sp
CC
IT
ar
En ts
glish
la région
située
au centre
Le noyau
atomique
désigne
la région
située
au centre
d'unlaatome
constituée
de
région
centre
d'unsituée
atomeau
constituée
de
protons
de neutrons
(les de
d'unet
atome
constituée
protons
et de neutrons
(les
nucléons).
Laettaille
du noyau
protons
de neutrons
nucléons).
La taille(les
du noyau
(10-15
mètre) est
environ
nucléons).
Lamètre)
taille
du
(10-15
estnoyau
environ
100 (10-15
000 fois
plus petite
que
mètre)
est environ
100
000 fois
plus petite que
celle100
de l'atome
et concentre
000
fois
petite
celle
deplus
l'atome
et que
concentre
quasiment
toute
sa masse.
celle de
l'atome
et
concentre
quasiment
toute
sa masse.
Les forces
nucléaires
quimasse.
quasiment
toutenucléaires
sa
Les forces
qui
s'exercent
entre
les nucléons
Les forces
nucléaires
s'exercent
entrequi
les nucléons
sonts'exercent
à peu prèsentre
un million
les nucléons
sont à peu près
un million
de fois
plus
grandes.
sont
àde
peu
million
foisprès
plusun
grandes.
Comme chaque individu
de fois plus grandes.
Comme
chaque
individu
accepte
un échange
Comme
chaque individu
accepte
un échange
uniquement
le
acceptes'il
unpréfère
échange
uniquement
s'il
préfère
le
nouveau
stock
à l'ancien,
la le
uniquement
s'il préfère
nouveau
stock
à l'ancien,
la
solution
choisie
sur la
courbe
nouveau
stock
à l'ancien,
la
solution
choisie
sur
la courbe par
de contrat
sera
délimitée
solution
choisie
sur la courbe
de contrat
sera d'indifférence
délimitée par qui
les courbes
de contrat sera délimitée par
les courbes
d'indifférence
qui la
passent
par
le
stock.
Selon
les courbes d'indifférence qui
passent
par le stock.
Selon la
terminologie
passent de
parlalethéorie
stock. Selon la
terminologie
de la théorieles
des jeux
coopératifs,
terminologie
de la théorie
des points
jeux coopératifs,
les limites
entre
deux
des
jeuxces
coopératifs,
les
points
entre cesledeux
limites
constituent
noyau
le limites
points entre
cesou
deux
constituent
noyau ou ...
le
cœurconstituent
dele
l'économie
le noyau ou le
cœur de l'économie ...
cœur de l'économie ...
Train document 8
Train Train
document
3
document
9
s
litic
s
ec
onno
m
wary
litic
po
po
0
po
litic
clim
s
ate
0.3
NC
13/24
Our approach to document classification
Infer topic mixture → adapt features to topical context
Train document 3
Le noyau d’un système
Train
document 1
d’exploitation est lui-même
Train
document
Le noyau
d’un système
un
logiciel,
mais ne1peut
Test document
En effet, l’écriture en espace
noyau suppose l’absence de
mécanismes tels que la
protection de la mémoire. Il
est donc plus complexe
d’écrire un logiciel
fonctionnant dans l’espace
noyau que dans l’espace
utilisateur, les bugs et failles
de sécurité sont bien plus
dangereux.
conception et sa ...
Train document
4
Train document
5
Train
document
6
Le noyau
atomique
désigne
Le noyau atomique désigne
0
features
ch
tels
ee
sp
ho
0
IT
ar
ts
glish
0.3
CC
En
la région
située
au centre
Le noyau
atomique
désigne
la région
située
au centre
d'unlaatome
constituée
de
région
centre
d'unsituée
atomeau
constituée
de
protons
de neutrons
(les de
d'unet
atome
constituée
protons
et de neutrons
(les
nucléons).
La
taille
du noyau
protons
et de neutrons
nucléons).
La taille(les
du noyau
(10-15
mètre) est
environ
nucléons).
Lamètre)
taille
du
(10-15
estnoyau
environ
100 (10-15
000 fois
plus petite
que
mètre)
est environ
100
000 fois
plus petite que
celle100
de l'atome
et concentre
000
fois
petite
celle
deplus
l'atome
et que
concentre
quasiment
toute
sa masse.
celle de
l'atome
et
concentre
quasiment
toute
sa masse.
Les forces
nucléaires
quimasse.
quasiment
toutenucléaires
sa
Les forces
qui
s'exercent
entre
les nucléons
Les forces
nucléaires
s'exercent
entrequi
les nucléons
sonts'exercent
à peu prèsentre
un million
les nucléons
sont à peu près
un million
de fois
plus
grandes.
sont àde
peu
million
foisprès
plusun
grandes.
Comme chaque individu
de fois plus grandes.
Comme
chaque
individu
accepte
un échange
Comme
chaque individu
accepte
un échange
uniquement
le
acceptes'il
unpréfère
échange
uniquement
s'il
préfère
le
nouveau
stock
à l'ancien,
la le
uniquement
s'il préfère
nouveau
stock
à l'ancien,
la
solution
choisie
sur la
courbe
nouveau
stock
à l'ancien,
la
solution
choisiesera
sur délimitée
la courbe par
de contrat
solution choisie
sur la courbe
de contrat
sera d'indifférence
délimitée par qui
les courbes
de contrat
sera délimitée par
les courbes
d'indifférence
qui
passent
le stock.
Selon la qui
les par
courbes
d'indifférence
passent
par
le
stock.
Selon
la
terminologie
passent de
parlalethéorie
stock. Selon la
terminologie
de la théorieles
des jeux
coopératifs,
terminologie
de la théorie
des points
jeux coopératifs,
les limites
entre
deux
des
jeuxces
coopératifs,
les
points
entre cesledeux
limites
constituent
noyau
le limites
points entre
cesou
deux
constituent
noyau ou ...
le
cœurconstituent
dele
l'économie
le noyau ou le
cœur de l'économie ...
cœur de l'économie ...
0.3
ien
ce
sp
ee
ch
he
sp alt
ee h
ch
0
ee
ch
he
sp alt
ee h
ch
0.3
sp
d’exploitation
est
lui-même
cependant
utiliser
tous les
Le noyau
d’un système
un logiciel,
mais
ne
peut
mécanismes
d’abstraction
d’exploitation
est
lui-même
cependant
utiliser
les
qu’ilmais
fournit
auxtous
autres
un logiciel,
ne peut
mécanismes
d’abstraction
logiciels.
rôle
cependant
utiliserSon
tous
lescentral
qu’ilimpose
fournit
auxailleurs
autres des
par
mécanismes
d’abstraction
Sonautres
rôle central
performances
élevées. Cela
qu’illogiciels.
fournit
aux
impose
par
ailleurs
fait
du
noyau
la des
partie la plus
logiciels.
Son
rôle
central
performances
élevées.
Cela
critique
d’un
système
impose
par
ailleurs
des
fait d’exploitation
du noyau
la partie
la plus
etCela
rend
sa
performances
élevées.
critique
d’un
système
conception
et sa
fait du
noyau
la partie
la ...
plus
d’exploitation
et rend sa
critique
d’un système
conceptionetetrend
sa ...sa
d’exploitation
sc
ien
ce
TED
sc
I
Train document 8
Train Train
document
3
document
9
m
wary
s
litic
s
onno
ec
litic
po
po
0
po
litic
clim
s
ate
0.3
NC
13/24
Our approach to document classification
Predict domain → load domain-adapted translation features
Train document 3
Le noyau d’un système
Train
document 1
d’exploitation est lui-même
Train
document
Le noyau
d’un système
un
logiciel,
mais ne1peut
Test document
En effet, l’écriture en espace
noyau suppose l’absence de
mécanismes tels que la
protection de la mémoire. Il
est donc plus complexe
d’écrire un logiciel
fonctionnant dans l’espace
noyau que dans l’espace
utilisateur, les bugs et failles
de sécurité sont bien plus
dangereux.
conception et sa ...
Train document
4
Train document
5
Train
document
6
Le noyau
atomique
désigne
Le noyau atomique désigne
0
TED
features features
ch
tels
ee
sp
ho
0
IT
ar
ts
glish
0.3
CC
En
la région
située
au centre
Le noyau
atomique
désigne
la région
située
au centre
d'unlaatome
constituée
de
région
centre
d'unsituée
atomeau
constituée
de
protons
de neutrons
(les de
d'unet
atome
constituée
protons
et de neutrons
(les
nucléons).
La
taille
du noyau
protons
et de neutrons
nucléons).
La taille(les
du noyau
(10-15
mètre) est
environ
nucléons).
Lamètre)
taille
du
(10-15
estnoyau
environ
100 (10-15
000 fois
plus petite
que
mètre)
est environ
100
000 fois
plus petite que
celle100
de l'atome
et concentre
000
fois
petite
celle
deplus
l'atome
et que
concentre
quasiment
toute
sa masse.
celle de
l'atome
et
concentre
quasiment
toute
sa masse.
Les forces
nucléaires
quimasse.
quasiment
toutenucléaires
sa
Les forces
qui
s'exercent
entre
les nucléons
Les forces
nucléaires
s'exercent
entrequi
les nucléons
sonts'exercent
à peu prèsentre
un million
les nucléons
sont à peu près
un million
de fois
plus
grandes.
sont àde
peu
million
foisprès
plusun
grandes.
Comme chaque individu
de fois plus grandes.
Comme
chaque
individu
accepte
un échange
Comme
chaque individu
accepte
un échange
uniquement
le
acceptes'il
unpréfère
échange
uniquement
s'il
préfère
le
nouveau
stock
à l'ancien,
la le
uniquement
s'il préfère
nouveau
stock
à l'ancien,
la
solution
choisie
sur la
courbe
nouveau
stock
à l'ancien,
la
solution
choisiesera
sur délimitée
la courbe par
de contrat
solution choisie
sur la courbe
de contrat
sera d'indifférence
délimitée par qui
les courbes
de contrat
sera délimitée par
les courbes
d'indifférence
qui
passent
le stock.
Selon la qui
les par
courbes
d'indifférence
passent
par
le
stock.
Selon
la
terminologie
passent de
parlalethéorie
stock. Selon la
terminologie
de la théorieles
des jeux
coopératifs,
terminologie
de la théorie
des points
jeux coopératifs,
les limites
entre
deux
des
jeuxces
coopératifs,
les
points
entre cesledeux
limites
constituent
noyau
le limites
points entre
cesou
deux
constituent
noyau ou ...
le
cœurconstituent
dele
l'économie
le noyau ou le
cœur de l'économie ...
cœur de l'économie ...
0.3
ien
ce
sp
ee
ch
he
sp alt
ee h
ch
0
ee
ch
he
sp alt
ee h
ch
0.3
sp
d’exploitation
est
lui-même
cependant
utiliser
tous les
Le noyau
d’un système
un logiciel,
mais
ne
peut
mécanismes
d’abstraction
d’exploitation
est
lui-même
cependant
utiliser
les
qu’ilmais
fournit
auxtous
autres
un logiciel,
ne peut
mécanismes
d’abstraction
logiciels.
rôle
cependant
utiliserSon
tous
lescentral
qu’ilimpose
fournit
auxailleurs
autres des
par
mécanismes
d’abstraction
Sonautres
rôle central
performances
élevées. Cela
qu’illogiciels.
fournit
aux
impose
par
ailleurs
fait
du
noyau
la des
partie la plus
logiciels.
Son
rôle
central
performances
élevées.
Cela
critique
d’un
système
impose
par
ailleurs
des
fait d’exploitation
du noyau
la partie
la plus
etCela
rend
sa
performances
élevées.
critique
d’un
système
conception
et sa
fait du
noyau
la partie
la ...
plus
d’exploitation
et rend sa
critique
d’un système
conceptionetetrend
sa ...sa
d’exploitation
sc
ien
ce
TED
sc
I
Train document 8
Train Train
document
3
document
9
m
wary
s
litic
s
onno
ec
litic
po
po
0
po
litic
clim
s
ate
0.3
NC
13/24
Our approach to document classification
I
Apply trained Phrase Pair Topic model to all training
documents → one topic vector per document
Single-prototype
Average document vectors of same training domain (→ domain
vectors), max cosine similarity of test doc with domain vectors.
Single-prototype-threshold
Like single-prototype but with prediction threshold of 0.35. For
similarities below threshold, predict unknown and fall back to
baseline model.
14/24
Experimental setup (French-English)
Data
Train (condition 1)
Train (condition 2)
Dev
Test
Mixed
354K (6450)
2.3M
2453
(39)
5664
(112)
CC
110K
110K
818
1892
NC
103K
103K
817
1878
TED
140K
140K
818
1894
Europarl
1.9M
-
Baseline systems
I
Unadapted system
I
DA-TM: linear PT interpolation [Sennrich, 2012]
I
DA-LM: linear LM interpolation
I
DA-TM+LM: both TM and LM adaptation
Automatic domain prediction
I
Applied whenever we combine domain + topic adaptation
15/24
Training condition 2
I
2.3M training sentences
→ many more training contexts per phrase pair
I
Sample up to 50 contexts per phrase pair
I
Exclude singletons and frequent phrase pairs
(> 20K occurrences)
16/24
Results: Single-prototype-threshold classifier
Model
# dev+test docs
k=10
k=20
k=50
k=100
I
correct
0.68
0.76
0.60
0.55
CC
88
other
0.30
0.15
0.19
0.12
unkown
0.02
0.09
0.21
0.33
NC
39
correct
1.0
1.0
1.0
1.0
TED
24
correct
1.0
1.0
1.0
1.0
Accuracy of domain prediction
17/24
Results: training condition 1 (three domains)
I
Model
Baseline
Mixed
**26.86
CC
19.61
NC
29.42
TED
31.88
DA-TM
**27.24
19.61
29.87
32.73
DA-LM
**27.16
19.71
29.77
32.46
DA-TM+LM
**27.34
19.59
29.92
33.02
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
I
Model
Baseline
+ topics
Mixed
**26.86
**27.57
CC
19.61
20.35
NC
29.42
29.68
TED
31.88
33.22
DA-TM
+ topics
**27.24
**27.73
19.61
20.33
29.87
29.88
32.73
33.55
DA-LM
+ topics
**27.16
**27.60
19.71
20.37
29.77
29.80
32.46
33.20
DA-TM+LM
+ topics
**27.34
**27.63
19.59
20.22
29.92
29.90
33.02
33.33
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
I
Model
Baseline
+ topics
Mixed
**26.86
**27.57
CC
19.61
20.35
+0.74
NC
29.42
29.68
+0.26
TED
31.88
33.22
+1.34
DA-TM
+ topics
**27.24
**27.73
19.61
20.33
+0.69
29.87
29.88
+0.01
32.73
33.55
+0.82
DA-LM
+ topics
**27.16
**27.60
19.71
20.37
+0.63
29.77
29.80
+0.03
32.46
33.20
+0.74
DA-TM+LM
+ topics
**27.34
**27.63
19.59
20.22
+0.60
29.92
29.90
-0.02
33.02
33.33
+0.31
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
Model
Baseline
+ topics
Mixed
**26.86
**27.57
CC
19.61
20.35
+0.74
NC
29.42
29.68
+0.26
TED
31.88
33.22
+1.34
DA-TM
+ topics
**27.24
**27.73
19.61
20.33
+0.69
29.87
29.88
+0.01
32.73
33.55
+0.82
DA-LM
+ topics
**27.16
**27.60
19.71
20.37
+0.63
29.77
29.80
+0.03
32.46
33.20
+0.74
DA-TM+LM
+ topics
**27.34
**27.63
19.59
20.22
+0.60
29.92
29.90
-0.02
33.02
33.33
+0.31
+0.87
+0.72
+0.46
+1.67
Total gain over baseline
I
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
What do we gain from domain adaptation?
I
Model
DA-TM
Mixed
**27.24
CC
19.61
NC
29.87
TED
32.73
Baseline+Sim-combine
**27.29
20.10
29.49
32.60
Topic similarity features + domain-adapted features yield
similar performance to using all features
19/24
Results: training condition 1 (three domains)
What do we gain from domain adaptation?
I
Model
DA-TM
Mixed
**27.24
CC
19.61
NC
29.87
TED
32.73
Baseline+Sim-combine
+ DA-TM
**27.29
**27.69
20.10
20.13
29.49
29.90
32.60
33.37
Topic similarity features + domain-adapted features yield
similar performance to using all features
19/24
Results: training condition 1 (three domains)
What do we gain from domain adaptation?
I
Model
DA-TM
Mixed
**27.24
CC
19.61
NC
29.87
TED
32.73
Baseline+Sim-combine
+ DA-TM
**27.29
**27.69
+0.40
20.10
20.13
+0.03
29.49
29.90
+0.41
32.60
33.37
+0.77
Topic similarity features + domain-adapted features yield
similar performance to using all features
19/24
Results: training condition 2 (three domains + Europarl)
I
Model
Baseline
Mixed
**25.74
CC
20.01
NC
29.01
TED
27.82
DA-TM
**26.74
20.13
29.53
30.86
DA-LM
**27.01
20.26
30.48
30.43
DA-TM+LM
**27.70
20.10
30.68
32.70
Best model:
DA-TM + DA-LM + topics (+ domain prediction)
20/24
Results: training condition 2 (three domains + Europarl)
I
Model
Baseline
+ topics
Mixed
**25.74
**26.54
CC
20.01
20.30
NC
29.01
29.55
TED
27.82
29.97
DA-TM
+ topics
**26.74
**27.21
20.13
20.35
29.53
29.74
30.86
31.96
DA-LM
+ topics
**27.01
**27.36
20.26
20.34
30.48
30.62
30.43
31.34
DA-TM+LM
+ topics
**27.70
**27.91
20.10
20.38
30.68
30.80
32.70
32.98
Best model:
DA-TM + DA-LM + topics (+ domain prediction)
20/24
Results: training condition 2 (three domains + Europarl)
I
Model
Baseline
+ topics
Mixed
**25.74
**26.54
CC
20.01
20.30
NC
29.01
29.55
TED
27.82
29.97
DA-TM
+ topics
**26.74
**27.21
+0.29
20.13
20.35
+0.54
29.53
29.74
+2.15
30.86
31.96
DA-LM
+ topics
**27.01
**27.36
+0.22
20.26
20.34
+0.21
30.48
30.62
+1.10
30.43
31.34
DA-TM+LM
+ topics
**27.70
**27.91
+0.08
20.10
20.38
+0.14
30.68
30.80
+0.91
32.70
32.98
+0.28
+0.12
+0.28
Best model:
DA-TM + DA-LM + topics (+ domain prediction)
20/24
Results: training condition 2 (three domains + Europarl)
Model
Baseline
+ topics
Mixed
**25.74
**26.54
CC
20.01
20.30
NC
29.01
29.55
TED
27.82
29.97
DA-TM
+ topics
**26.74
**27.21
+0.29
20.13
20.35
+0.54
29.53
29.74
+2.15
30.86
31.96
DA-LM
+ topics
**27.01
**27.36
+0.22
20.26
20.34
+0.21
30.48
30.62
+1.10
30.43
31.34
DA-TM+LM
+ topics
**27.70
**27.91
+0.08
20.10
20.38
+0.14
30.68
30.80
+0.91
32.70
32.98
+2.17
+0.28
+0.37
+0.12
+1.79
+0.28
+5.16
Total gain over baseline
I
Best model:
DA-TM + DA-LM + topics (+ domain prediction)
20/24
Comparison of training conditions
Best Model
Train condition 1
Train condition 2
I
Mixed
27.73
27.91
CC
20.33
20.38
NC
29.88
30.80
TED
33.55
32.98
Both domain and topic adaptation could be improved to deal
better with unbalanced data
21/24
Input
Reference
Baseline
le débit est en augmentation
très rapide.
these flows are increasing very
rapidly.
the speed is growing very
rapidly.
le débit a augmenté.
the flows have increased.
the bitrate has increased.
22/24
Input
Reference
Baseline
+DA-TM
le débit est en augmentation
très rapide.
these flows are increasing very
rapidly.
the speed is growing very
rapidly.
the throughput is rising very
fast.
le débit a augmenté.
the flows have increased.
the bitrate has increased.
the throughput has increased.
22/24
Input
Reference
Baseline
+DA-TM
+topics
le débit est en augmentation
très rapide.
these flows are increasing very
rapidly.
the speed is growing very
rapidly.
the throughput is rising very
fast.
the flow is growing very
rapidly.
le débit a augmenté.
the flows have increased.
the bitrate has increased.
the throughput has increased.
the flow has increased.
22/24
Input
Reference
Baseline
+DA-TM
+topics
le débit est en augmentation
très rapide.
these flows are increasing very
rapidly.
the speed is growing very
rapidly.
the throughput is rising very
fast.
the flow is growing very
rapidly.
débit →
speed
bitrate
throughput
flow
Baseline
P(t|s)
0.830
0.770
0.700
0.700
DA-TM
P(t|s)
0.652
0.606
0.892
0.803
le débit a augmenté.
the flows have increased.
the bitrate has increased.
the throughput has increased.
the flow has increased.
Topic-adapted
Sim-trgWord TrgUnigrams
0.960
1.031
0.918
1
0.919
1.026
0.979
1.058
22/24
Conclusions
I
Measured relative benefit of domain adaptation and topic
adaptation
I
Methods are complementary, depending on text type/domain
I
Provide adaptation at different levels of granularity
I
Domains can be accurately predicted with domain vectors
Future work
I
Direct integration of domain information into topic modelling
23/24
Thank you!
24/24
Banerjee, P., Du, J., Li, B., Naskar, S. K., Way, A., and
Genabith, J. V. (2010).
Combining Multi-Domain Statistical Machine Translation
Models using Automatic Classifiers.
In Proceedings of AMTA.
Eidelman, V., Boyd-Graber, J., and Resnik, P. (2012).
Topic Models for Dynamic Translation Model Adaptation.
In Proceedings of ACL.
Finch, A. (2008).
Dynamic Model Interpolation for Statistical Machine
Translation.
In Proceedings of the Third Workshop on Statistical Machine
Translation, pages 208–215.
Foster, G., Goutte, C., and Kuhn, R. (2010).
Discriminative Instance Weighting for Domain Adaptation in
Statistical Machine Translation.
In Proceedings of EMNLP.
24/24
Foster, G. and Kuhn, R. (2007).
Mixture-Model Adaptation for SMT.
In Proceedings of the Second Workshop on Statistical Machine
Translation.
Gong, Z., Zhang, Y., and Zhou, G. (2010).
Statistical Machine Translation based on LDA.
In 4th International Universal Communication Symposium
(IUCS).
Hasler, E., Blunsom, P., Koehn, P., and Haddow, B. (2014a).
Dynamic Topic Adaptation for Phrase-based MT.
In Proceedings of the 14th Conference of the European
Chapter of the Association for Computational Linguistics.
Hasler, E., Haddow, B., and Koehn, P. (2014b).
Dynamic Topic Adaptation for SMT using Distributional
Profiles.
In Proceedings of the 9th Workshop on Statistical Machine
Translation.
24/24
Matsoukas, S., Rosti, A.-V. I., and Zhang, B. (2009).
Discriminative corpus weight estimation for machine
translation.
In Proceedings of the Conference on Empirical Methods in
Natural Language Processing.
Sennrich, R. (2012).
Perplexity Minimization for Translation Model Domain
Adaptation in Statistical Machine Translation.
In Proceedings of EACL.
Su, J., Wu, H., Wang, H., Chen, Y., Shi, X., Dong, H., and
Liu, Q. (2012).
Translation Model Adaptation for Statistical Machine
Translation with Monolingual Topic Information.
In Proceedings of ACL.
Wang, W., Macherey, K., Macherey, W., Och, F., and Xu, P.
(2012).
24/24
Improved Domain Adaptation for Statistical Machine
Translation.
In Proceedings of AMTA.
Xiao, X., Xiong, D., Zhang, M., Liu, Q., and Lin, S. (2012).
A Topic Similarity Model for Hierarchical Phrase-based
Translation.
In Proceedings of ACL, pages 750–758.
Xu, J., Deng, Y., Gao, Y., and Ney, H. (2007).
Domain Dependent Statistical Machine Translation.
In Proceedings of MT Summit XI, pages 2–7.
24/24