Le TAL et le traitement de la parole - LaTTiCe

Transcription

Le TAL et le traitement de la parole - LaTTiCe
Traitement Automatique des Langues /
Traitement Automatique de la Parole
Frédéric Béchet
Aix Marseille Université - Laboratoire d’Informatique Fondamentale - LIF-CNRS
Nancy, 15 janvier 2013
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
1 / 16
TAL/TAP, une histoire commune ?
TAP / TAL
Le traitement de l’oral fait partie du traitement des langues
TAL = étude et analyse de la langue écrite ou des transcriptions écrites de l’oral
TAP = étude et analyse des signaux de parole
Spécificités du TAP
Modèles pour la production de signaux de parole à partir d’une description
linguistique
Synthèse vocale, modèles articulatoires
Modèles pour l’analyse de phénomènes acoustiques
Analyse/génération de la prosodie d’un énoncé vocal
Analyse des caractéristiques de la voix d’un locuteur (Reconnaissance du
locuteur, voix pathologique, émotion, etc.)
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
2 / 16
Convergence TAL/TAP
Le TAL a besoin du TAP
Reconnaissance Automatique de la Parole
signal → mots, phrases
Le TAP est un domaine d’application important du TAL
ex : systèmes de dialogue homme-machine (Siri)
Le TAP a besoin d’analyse linguistique
Synthèse vocale
Désambiguisation
les poules du couvent couvent → étiquetage morphosyntaxique
Paris Hilton à Paris → entités nommées
Prosodie
Les experts ont dissocié/analysé la croissance de la consommation → analyse
syntaxique
Transcription Automatique de la Parole
Correction des transcriptions, découpage en phrases, ponctuation
les cours de la bourse s’effondre/ent
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
i
3 / 16
TAL/TAP, une histoire conflictuelle ?
Traitement de la Parole → Traitement du Signal
Reconnaissance Automatique de la Parole (RAP)
Méthodes provenant de la communauté Traitement Signal
Modèles de Markov, Apprentissage sur corpus, méthodes probabilistes
Deux points de vue différents
TAL → analyse d’un objet (texte) à partir de modèles
RAP → estimation de la probabilité d’une séquence de symboles W à partir
d’une séquence d’observations acoustiques A
Points de vue irréconciliables ?
Whenever I fire a linguist our system performance improves (Fred Jelinek,
1988)
Some of my best friends are linguists (Fred Jelinek, 2004)
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
4 / 16
TAL et Reconnaissance Automatique de la Parole
Deux grands contextes d’application
langage = outils de communication
Application aux interfaces homme-machine
Contrainte importante d’application = traitement en temps réel
langage = formalisme de représentation des connaissances
Fouille de données audio (“Speech Analytics”)
Base de grande taille de documents audio-visuels (ex : INA)
Corpus audio collecté dans des centres d’appels
Tâche : indexation, data mining
Contrainte importante = masse et diversité des données
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
5 / 16
Spécificités des transcriptions automatiques
Transcriptions automatiques
Modèle de base
Génération d’une transcription Ŵ à partir d’un signal A
Ŵ = maxW P(W |A) = maxW
P(A|W )×P(W )
P(A)
Ŵ = maxW P(A|W ) × P(W )
P(A|W ) = modèles acoustiques
P(W ) = modèles de langage → Générateur de texte
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
6 / 16
Spécificités des transcriptions automatiques
Flux de mots sans cohérence globale
Aucune ponctuation ni découpage en phrase
Aucune indication de structure du document
Pas d’indications graphiques ou de capitalisations
objet artificiel
Information partielle, manque les niveaux acoustiques et prosodiques
De plus ..
Performance de transcription très corrélées avec le degré de spontanéité de
l’oral
Parole préparée/lue → taux d’erreur mots < 10%
Parole modéremment spontanée → taux d’erreur mots ∈ [10%, 20%]
Parole fortement spontanée → taux d’erreur mots ∈ [20%, inf]
Score attaché à chaque observation (score de confiance RAP)
Parole superposée
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
7 / 16
Spécificités des transcriptions automatiques
Les sorties d’un système de transcription automatique ne sont pas ....
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
8 / 16
Spécificités des transcriptions automatiques
Les sorties d’un système de transcription automatique sont ....
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
9 / 16
TAL et transcription automatique
Le TAL au secours de P(W )
introduction de syntaxe/sémantique dans les modèles de langage
Bilan mitigé
Est-ce bien son rôle ?
oui,
oui,
oui,
oui,
il va la prendre des deux mains
il va l’apprendre dès demain
il va l’apprendre des deux mains
ı̂le val happe rendre dé de m’ hein
Articulation TAP/TAL
Exploitation des sorties ambigües/valuées des systèmes de transcriptions
Etude des phénomènes spécifiques à la langue orale
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
10 / 16
Exploitation des sorties ambigües/valuées des
systèmes de transcriptions
Agrammaticalité, disfluences, erreurs de reconnaissance, manque de structure
Ne pas dépendre d’une analyse syntaxique profonde
Privilégier les analyses locales plutôt que globales
Imprécision, scores de confiance associés aux mots
Modèles numériques (étiquetage et classification)
Gestion d’un ensemble d’hypothèses plutôt qu’une hypothèse unique
Information partielle, “objet artificiel”
Définir le contexte de production d’un message (avec cadre applicatif)
Intégration de ce contexte dans les modèles de compréhension
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
11 / 16
Etude des phénomènes spécifiques à la langue orale
Les corpus oraux pour l’apprentissage des modèles de RAP sont une chance
pour les linguistes et le TAL ! !
Workshop on the Syntax of Spoken French, LORIA Nancy, November 30th,
2012
Différents types de langue, différents corpus, différents cadres d’utilisation
Parole lue et préparée
émissions d’information radio/télé
corpus ESTER - 100h transcrites + annotations entités nommées
diffusion ELDA
Parole spontanée dans un cadre controlé
débats, interviews radio/télé
corpus ETAPE - 100h transcrites + annotations entités nommées
diffusion ELDA
Parole conversationnelle fortement spontanée
conversations dans des centres d’appels
corpus RATP-DECODA - ≈ 80h transcrites et annotées syntaxiquement
diffusion SLDR (avril 2013)
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
i
12 / 16
Description et analyse de l’oral spontané
je sais plus combien et c’était je crois sur la ligne cinq
je suis rentrée dans le bus il me semble sept cent trente-cinq
une paire de lunettes un peu vous savez un peu comme rectangulaires
apparemment elle a été verbalisée je pense dans un bus et elle a pas son PV
en fait on est vingt-cinq et on voudrait prendre euh vous voyez la carte Paris
Visite
j’ai un petit problème euh concernant euh si vous voulez un ticket que j’ai
introduit
moi là je peux le prendre euh comment dirais-je attendez de la petite place
qui est là
donc il y a euh comment dire une marque euh
demain à partir mettons en fait de treize heures s’il vous plaı̂t
on pourrait hum disons attendre le le conducteur
on va lui dire allez d’ici euh une quinzaine de minutes pour arrondir
et je voudrais aller euh attendez voir Crédit Municipal ça se trouve rue des
Francs-Bourgeois
les agents [...] sont pas là pour des raisons euh je sais pas moi de vacances de
maladie
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
13 / 16
Conclusion
Le TAL et le TAP, un mariage évident ! !
. . . pour l’étude du langage oral spontané
description de la langue
adaptation de modèles développés sur l’écrit
. . . pour le TAL et le défi que représente le texte non-natif / non-canonique
Multitude de tâches indépendantes
considérer les tàches conjointement sans retomber dans le piège du modèle
pipeline
générer un espace d’hypothèses et laisser l’application finale choisir la meilleure
hypothèse
Enrichissement semi automatique de données
Modèles peu génériques
Chaque nouvelle application nécessite la collecte et l’annotation de corpus
Données non annotées en grande quantité : comment en tirer parti pour adapter
les modèles
étudier tous les moyens de diminuer la supervision
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
14 / 16
Merci pour votre attention
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
15 / 16
i
F. Béchet (AMU LIF-CNRS)
Journée CNRS TAL - TAP/TAL
Nancy, 15 janvier 2013
16 / 16