Analyse syntaxique en chunks nominaux d`un corpus oral à l`aide de
Transcription
Analyse syntaxique en chunks nominaux d`un corpus oral à l`aide de
Analyse syntaxique en chunks nominaux d’un corpus oral à l’aide de SEM, étiqueteur syntaxique du français Yoann Dupont1 , Iris Eshkol2 , Isabelle Tellier1 , Ilaine Wang1 (1) Laboratoire LaTTiCe, université Paris 3 - Sorbonne nouvelle (2) Laboratoire Ligérien de Linguistique (LLL), université d’Orléans 1 / 26 Plan 1 Introduction et problématique 2 Choix linguistiques sur la notion de chunking 3 Évaluation sur ESLO 4 Conclusion et perspectives 2 / 26 Introduction et problématique Objet de l’étude : le chunking Chunk : définition Séquence contigüe et non-récursive d’unités linguistiques avec une tête forte (Abney, 1991). Il peut être total ou partiel (NP uniquement). Types de chunking (une/DET commande/NC)NP (de/P parfum/NC)PP (une/DET commande/NC)NP de/P (parfum/NC)NP Le chunking requiert un étiquetage POS préalable. 3 / 26 Introduction et problématique SEM : présentation Segmenteur Etiqueteur Markovien (SEM) propose (Constant, Tellier & al., 2011) : segmentation de texte brut en phrases et unités étiquetage en Part-of-Speech (POS) du français sortie texte linéaire avec POS ex: Je/CLS vais/V bien/ADJ ./PONCT Étiquetage en POS Appris automatiquement et évalué sur le French Tree Bank ou FTB (Abeillé & al., 2003) Disponible librement http://www.lattice.cnrs.fr/sites/itellier/SEM.html 4 / 26 Introduction et problématique Formats du chunking Chunking apprenable automatiquement sous forme d’annotations (Tellier, Duchier, Eshkol & al., 2012). Chunking au format linéaire (Le/DET chat/NC)NP mange/V (la/DET souris/NC)NP ./PONCT Chunking sous forme d’annotations Le chat mange la souris . DET NC V DET NC PONCT 5 / 26 B-NP I-NP O B-NP I-NP O Introduction et problématique Axe de l’étude Problématique Aucun chunker de l’oral disponible librement. Idée Apprentissage sur corpus écrit à disposition (FTB) et évaluation de l’étiquetage de SEM sur un corpus oral. Questions Portabilité sur l’oral ? Répercussion des erreurs POS sur le chunking ? notion de chunk pertinente ? 6 / 26 Introduction et problématique Procédé 7 / 26 Choix linguistiques sur la notion de chunking Plan 1 Introduction et problématique 2 Choix linguistiques sur la notion de chunking 3 Évaluation sur ESLO 4 Conclusion et perspectives 8 / 26 Choix linguistiques sur la notion de chunking Notion de chunk POS : issu du FTB linéaire simplifié. 30 étiquettes morpho-syntaxiques (Crabbé & Candito, 2008). Chunking : issu du FTB balisé en constituants (xml). Complet ou partiel (NP uniquement). Chunk NP groupe ayant un nom pour tête forte pronom relatif clitique : sujet, objet ou réfléchi 9 / 26 Choix linguistiques sur la notion de chunking Notion de chunk SENT w SRel NP w w NP VN NP [...] w w w w Le chat qui mange la souris ↓ (Le/DET chat/NC)NP (qui/PROrel)NP mange/V (la/DET souris/NC)NP [...] (Il/CLS)NP SENT w VN w w w . Il se régale ↓ (se/CLR)NP régale/V ./PONCT 10 / 26 Choix linguistiques sur la notion de chunking Les adjectifs épithètes SENT w [...] NP w w une bonne w AP w w . politique qualitative ↓ [...] (une/DET bonne/ADJ politique/NC qualitative/ADJ)NP . 11 / 26 Choix linguistiques sur la notion de chunking Les groupes coordonnés SENT NP w AP w w w La fusion pure COORD w [...] w simple et ↓ (La/DET fusion/NC pure/ADJ et/CC simple/ADJ)NP [...] 12 / 26 Choix linguistiques sur la notion de chunking Les groupes prépositionnels SENT w [...] w PP w pour NP w w la qualité [...] PP w de NP w w la science ↓ [...] pour/P (la/DET qualité/NC)NP de/P (la/DET science/NC)NP . 13 / 26 Choix linguistiques sur la notion de chunking Les adjectifs attributs SENT NP VN AP fct=”ATS” w w . w w w La science est rustique ↓ (La/DET science/NC)NP est/V rustique/ADJ . SENT VN NP w w w On juge cette (On/CLS)NP w AP fct=”ATO” w w [...] décision lourde ↓ juge/V (cette/DET décision/NC)NP lourde/ADJ [...] 14 / 26 Choix linguistiques sur la notion de chunking Corpus d’apprentissage SEM appris sur le FTB transformé. Ce dernier contient : 8 562 phrases (FTB avec annotations fonctionnelles) 69 292 chunks NP Résultats Chunking intégré à SEM F1-score : 96.43 (validation croisée) sur POS parfait La tâche de chunking offre-t-elle un niveau d’analyse pertinent sur l’oral ? 15 / 26 Évaluation sur ESLO Plan 1 Introduction et problématique 2 Choix linguistiques sur la notion de chunking 3 Évaluation sur ESLO 4 Conclusion et perspectives 16 / 26 Évaluation sur ESLO Présentation du corpus ESLO 1 Les Enquêtes Socio-Linguistiques à Orléans (1968) Un corpus oral conséquent 317 heures de paroles spontanées, 4 500 000 mots Un corpus sociolinguistique varié entretiens informels, interviews, débats... Échantillon de travail entretiens de 8305 mots, 855 tours de parole, texte brut non-annoté mais déjà segmenté 17 / 26 Évaluation sur ESLO Prétraitements Mise en forme 1 mot par ligne 1 ligne vide entre chaque tour de parole Segmentation unités multi-mots? sans doute, de temps en temps... adaptations minimales à la segmentation de SEM qu’est-ce qui/PRES > qu’ est -ce qui ou 18 / 26 habitez -/PCT vous > habitez -vous Évaluation sur ESLO Étiquetage Part-Of-Speech: difficultés Spécificités du corpus oral: disfluences jeu d’étiquettes de SEM inadapté usages différents selon le type de corpus FTB 99% ADJ 1% NC ESLO 83% I 17% ADJ Figure: Comparaison de la fréquence des étiquettes POS de “ bon ” dans le FTB et dans ESLO 19 / 26 Évaluation sur ESLO Étiquetage Part-Of-Speech: difficultés (suite) Conventions de transcription majuscule uniquement aux noms propres sans ponctuation Répartition différente des étiquettes NC DET PONCT P ADJ V FTB 21,6% 14,7% 13,5% 13% 6,7% 5,8% ESLO 11,5% 10% 8% 4% 14% Figure: Comparaison de la proportion d’apparition des six étiquettes POS les plus représentées du FTB 20 / 26 Évaluation sur ESLO Chunking NP Qu’est-ce qu’un chunk NP correct... ...pour l’écrit? (Nous)NP avons (une bonne politique qualitative)NP . (Cet “ amateurisme intelligent ”)NP (qui)NP a caractérisé (une génération)NP ...pour l’oral? Disfluences amorce, marqueurs discursifs pauses sonores? répétition? 21 / 26 Évaluation sur ESLO Chunking NP: exemples Les pauses les problèmes euh littéraires DET NC I ADJ B-NP I-NP vs. I-NP I-NP quelque chose euh intellectuel ou artistique DET NC I ADJ CC ADJ La répétition le le soir DET DET NC B-NP I-NP vs. I-NP je je crois CLS CLS V 22 / 26 B-NP B-NP O B-NP I-NP O O O O Évaluation sur ESLO Résultats de SEM Évaluation (outil de Denys Duchier) toute seule j’ ai lu POS de SEM Chunk NP (sur POS de SEM) Chunk NP (sur POS corrigés) DET ADJ NC V VPP B-NP I-NP I-NP O O ADV ADJ CLS V VPP O O B-NP O O 81,6% 70,3 100% 78,6 POS sur les chunks NP : accuracy de 92,5% 23 / 26 Conclusion et perspectives Plan 1 Introduction et problématique 2 Choix linguistiques sur la notion de chunking 3 Évaluation sur ESLO 4 Conclusion et perspectives 24 / 26 Conclusion et perspectives Synthèse et conclusions SEM disponibilité et rapidité d’application temps pour corriger et évaluer résultats du chunking NP (f-mesure): oral blog FTB 70-78 87-92 96,43 Améliorations futures? intégration de ressources extérieures évaluer les erreurs dues à la segmentation adaptation de l’apprentissage aux nouvelles données de l’oral 25 / 26 Conclusion et perspectives Perspectives linguistiques élargissement aux autres types de chunks étude de la notion de chunk pour l’oral: corrélation avec d’autres phénomènes linguistiques? 26 / 26