Analyse syntaxique en chunks nominaux d`un corpus oral à l`aide de

Transcription

Analyse syntaxique en chunks nominaux d`un corpus oral à l`aide de
Analyse syntaxique en chunks nominaux d’un
corpus oral à l’aide de SEM, étiqueteur syntaxique
du français
Yoann Dupont1 , Iris Eshkol2 , Isabelle Tellier1 , Ilaine Wang1
(1) Laboratoire LaTTiCe, université Paris 3 - Sorbonne nouvelle
(2) Laboratoire Ligérien de Linguistique (LLL), université d’Orléans
1 / 26
Plan
1
Introduction et problématique
2
Choix linguistiques sur la notion de chunking
3
Évaluation sur ESLO
4
Conclusion et perspectives
2 / 26
Introduction et problématique
Objet de l’étude : le chunking
Chunk : définition
Séquence contigüe et non-récursive d’unités linguistiques avec une
tête forte (Abney, 1991). Il peut être total ou partiel (NP
uniquement).
Types de chunking
(une/DET commande/NC)NP (de/P parfum/NC)PP
(une/DET commande/NC)NP de/P (parfum/NC)NP
Le chunking requiert un étiquetage POS préalable.
3 / 26
Introduction et problématique
SEM : présentation
Segmenteur Etiqueteur Markovien (SEM) propose (Constant,
Tellier & al., 2011) :
segmentation de texte brut en phrases et unités
étiquetage en Part-of-Speech (POS) du français
sortie texte linéaire avec POS
ex: Je/CLS vais/V bien/ADJ ./PONCT
Étiquetage en POS
Appris automatiquement et évalué sur le French Tree Bank ou
FTB (Abeillé & al., 2003)
Disponible librement
http://www.lattice.cnrs.fr/sites/itellier/SEM.html
4 / 26
Introduction et problématique
Formats du chunking
Chunking apprenable automatiquement sous forme d’annotations
(Tellier, Duchier, Eshkol & al., 2012).
Chunking au format linéaire
(Le/DET chat/NC)NP mange/V (la/DET souris/NC)NP ./PONCT
Chunking sous forme d’annotations
Le
chat
mange
la
souris
.
DET
NC
V
DET
NC
PONCT
5 / 26
B-NP
I-NP
O
B-NP
I-NP
O
Introduction et problématique
Axe de l’étude
Problématique
Aucun chunker de l’oral disponible librement.
Idée
Apprentissage sur corpus écrit à disposition (FTB) et évaluation de
l’étiquetage de SEM sur un corpus oral.
Questions
Portabilité sur l’oral ?
Répercussion des erreurs POS sur le chunking ?
notion de chunk pertinente ?
6 / 26
Introduction et problématique
Procédé
7 / 26
Choix linguistiques sur la notion de chunking
Plan
1
Introduction et problématique
2
Choix linguistiques sur la notion de chunking
3
Évaluation sur ESLO
4
Conclusion et perspectives
8 / 26
Choix linguistiques sur la notion de chunking
Notion de chunk
POS : issu du FTB linéaire simplifié. 30 étiquettes
morpho-syntaxiques (Crabbé & Candito, 2008).
Chunking : issu du FTB balisé en constituants (xml). Complet ou
partiel (NP uniquement).
Chunk NP
groupe ayant un nom pour tête forte
pronom relatif
clitique : sujet, objet ou réfléchi
9 / 26
Choix linguistiques sur la notion de chunking
Notion de chunk
SENT
w
SRel
NP
w
w
NP
VN
NP [...]
w
w
w
w
Le chat
qui mange la souris
↓
(Le/DET chat/NC)NP (qui/PROrel)NP mange/V (la/DET souris/NC)NP [...]
(Il/CLS)NP
SENT
w
VN
w w
w .
Il se régale
↓
(se/CLR)NP régale/V ./PONCT
10 / 26
Choix linguistiques sur la notion de chunking
Les adjectifs épithètes
SENT
w
[...]
NP
w
w
une
bonne
w
AP
w
w
.
politique
qualitative
↓
[...] (une/DET bonne/ADJ politique/NC qualitative/ADJ)NP .
11 / 26
Choix linguistiques sur la notion de chunking
Les groupes coordonnés
SENT
NP
w
AP
w
w
w
La
fusion
pure
COORD
w
[...]
w
simple
et
↓
(La/DET fusion/NC pure/ADJ et/CC simple/ADJ)NP [...]
12 / 26
Choix linguistiques sur la notion de chunking
Les groupes prépositionnels
SENT
w
[...]
w
PP
w
pour
NP
w
w
la
qualité
[...]
PP
w
de
NP
w
w
la science
↓
[...] pour/P (la/DET qualité/NC)NP de/P (la/DET science/NC)NP .
13 / 26
Choix linguistiques sur la notion de chunking
Les adjectifs attributs
SENT
NP
VN
AP fct=”ATS”
w
w
.
w
w
w
La
science
est
rustique
↓
(La/DET science/NC)NP est/V rustique/ADJ .
SENT
VN
NP
w
w
w
On
juge
cette
(On/CLS)NP
w
AP fct=”ATO”
w
w
[...]
décision
lourde
↓
juge/V (cette/DET décision/NC)NP lourde/ADJ [...]
14 / 26
Choix linguistiques sur la notion de chunking
Corpus d’apprentissage
SEM appris sur le FTB transformé. Ce dernier contient :
8 562 phrases (FTB avec annotations fonctionnelles)
69 292 chunks NP
Résultats
Chunking intégré à SEM
F1-score : 96.43 (validation croisée) sur POS parfait
La tâche de chunking offre-t-elle un niveau d’analyse pertinent sur
l’oral ?
15 / 26
Évaluation sur ESLO
Plan
1
Introduction et problématique
2
Choix linguistiques sur la notion de chunking
3
Évaluation sur ESLO
4
Conclusion et perspectives
16 / 26
Évaluation sur ESLO
Présentation du corpus ESLO 1
Les Enquêtes Socio-Linguistiques à Orléans (1968)
Un corpus oral conséquent
317 heures de paroles spontanées, 4 500 000 mots
Un corpus sociolinguistique varié
entretiens informels, interviews, débats...
Échantillon de travail
entretiens de 8305 mots, 855 tours de parole, texte brut
non-annoté mais déjà segmenté
17 / 26
Évaluation sur ESLO
Prétraitements
Mise en forme
1 mot par ligne
1 ligne vide entre chaque tour de parole
Segmentation
unités multi-mots? sans doute, de temps en temps...
adaptations minimales à la segmentation de SEM
qu’est-ce qui/PRES
>
qu’
est
-ce
qui
ou
18 / 26
habitez
-/PCT
vous
>
habitez
-vous
Évaluation sur ESLO
Étiquetage Part-Of-Speech: difficultés
Spécificités du corpus oral: disfluences
jeu d’étiquettes de SEM inadapté
usages différents selon le type de corpus
FTB
99% ADJ
1% NC
ESLO
83% I
17% ADJ
Figure: Comparaison de la fréquence des étiquettes POS de “ bon ” dans
le FTB et dans ESLO
19 / 26
Évaluation sur ESLO
Étiquetage Part-Of-Speech: difficultés (suite)
Conventions de transcription
majuscule uniquement aux noms propres
sans ponctuation
Répartition différente des étiquettes
NC
DET
PONCT
P
ADJ
V
FTB
21,6%
14,7%
13,5%
13%
6,7%
5,8%
ESLO
11,5%
10%
8%
4%
14%
Figure: Comparaison de la proportion d’apparition des six étiquettes POS
les plus représentées du FTB
20 / 26
Évaluation sur ESLO
Chunking NP
Qu’est-ce qu’un chunk NP correct...
...pour l’écrit?
(Nous)NP avons (une bonne politique qualitative)NP .
(Cet “ amateurisme intelligent ”)NP (qui)NP a caractérisé (une
génération)NP
...pour l’oral?
Disfluences
amorce, marqueurs discursifs
pauses sonores?
répétition?
21 / 26
Évaluation sur ESLO
Chunking NP: exemples
Les pauses
les
problèmes
euh
littéraires
DET
NC
I
ADJ
B-NP
I-NP
vs.
I-NP
I-NP
quelque
chose
euh
intellectuel
ou
artistique
DET
NC
I
ADJ
CC
ADJ
La répétition
le
le
soir
DET
DET
NC
B-NP
I-NP vs.
I-NP
je
je
crois
CLS
CLS
V
22 / 26
B-NP
B-NP
O
B-NP
I-NP
O
O
O
O
Évaluation sur ESLO
Résultats de SEM
Évaluation (outil de Denys Duchier)
toute
seule
j’
ai
lu
POS de SEM
Chunk NP
(sur POS de SEM)
Chunk NP
(sur POS corrigés)
DET
ADJ
NC
V
VPP
B-NP
I-NP
I-NP
O
O
ADV
ADJ
CLS
V
VPP
O
O
B-NP
O
O
81,6%
70,3
100%
78,6
POS sur les chunks NP : accuracy de 92,5%
23 / 26
Conclusion et perspectives
Plan
1
Introduction et problématique
2
Choix linguistiques sur la notion de chunking
3
Évaluation sur ESLO
4
Conclusion et perspectives
24 / 26
Conclusion et perspectives
Synthèse et conclusions
SEM
disponibilité et rapidité d’application
temps pour corriger et évaluer
résultats du chunking NP (f-mesure):
oral
blog
FTB
70-78 87-92 96,43
Améliorations futures?
intégration de ressources extérieures
évaluer les erreurs dues à la segmentation
adaptation de l’apprentissage aux nouvelles données de l’oral
25 / 26
Conclusion et perspectives
Perspectives linguistiques
élargissement aux autres types de chunks
étude de la notion de chunk pour l’oral: corrélation avec
d’autres phénomènes linguistiques?
26 / 26