Le TAL et le traitement de la parole - LaTTiCe
Transcription
Le TAL et le traitement de la parole - LaTTiCe
Traitement Automatique des Langues / Traitement Automatique de la Parole Frédéric Béchet Aix Marseille Université - Laboratoire d’Informatique Fondamentale - LIF-CNRS Nancy, 15 janvier 2013 i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 1 / 16 TAL/TAP, une histoire commune ? TAP / TAL Le traitement de l’oral fait partie du traitement des langues TAL = étude et analyse de la langue écrite ou des transcriptions écrites de l’oral TAP = étude et analyse des signaux de parole Spécificités du TAP Modèles pour la production de signaux de parole à partir d’une description linguistique Synthèse vocale, modèles articulatoires Modèles pour l’analyse de phénomènes acoustiques Analyse/génération de la prosodie d’un énoncé vocal Analyse des caractéristiques de la voix d’un locuteur (Reconnaissance du locuteur, voix pathologique, émotion, etc.) i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 2 / 16 Convergence TAL/TAP Le TAL a besoin du TAP Reconnaissance Automatique de la Parole signal → mots, phrases Le TAP est un domaine d’application important du TAL ex : systèmes de dialogue homme-machine (Siri) Le TAP a besoin d’analyse linguistique Synthèse vocale Désambiguisation les poules du couvent couvent → étiquetage morphosyntaxique Paris Hilton à Paris → entités nommées Prosodie Les experts ont dissocié/analysé la croissance de la consommation → analyse syntaxique Transcription Automatique de la Parole Correction des transcriptions, découpage en phrases, ponctuation les cours de la bourse s’effondre/ent F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 i 3 / 16 TAL/TAP, une histoire conflictuelle ? Traitement de la Parole → Traitement du Signal Reconnaissance Automatique de la Parole (RAP) Méthodes provenant de la communauté Traitement Signal Modèles de Markov, Apprentissage sur corpus, méthodes probabilistes Deux points de vue différents TAL → analyse d’un objet (texte) à partir de modèles RAP → estimation de la probabilité d’une séquence de symboles W à partir d’une séquence d’observations acoustiques A Points de vue irréconciliables ? Whenever I fire a linguist our system performance improves (Fred Jelinek, 1988) Some of my best friends are linguists (Fred Jelinek, 2004) i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 4 / 16 TAL et Reconnaissance Automatique de la Parole Deux grands contextes d’application langage = outils de communication Application aux interfaces homme-machine Contrainte importante d’application = traitement en temps réel langage = formalisme de représentation des connaissances Fouille de données audio (“Speech Analytics”) Base de grande taille de documents audio-visuels (ex : INA) Corpus audio collecté dans des centres d’appels Tâche : indexation, data mining Contrainte importante = masse et diversité des données i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 5 / 16 Spécificités des transcriptions automatiques Transcriptions automatiques Modèle de base Génération d’une transcription Ŵ à partir d’un signal A Ŵ = maxW P(W |A) = maxW P(A|W )×P(W ) P(A) Ŵ = maxW P(A|W ) × P(W ) P(A|W ) = modèles acoustiques P(W ) = modèles de langage → Générateur de texte i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 6 / 16 Spécificités des transcriptions automatiques Flux de mots sans cohérence globale Aucune ponctuation ni découpage en phrase Aucune indication de structure du document Pas d’indications graphiques ou de capitalisations objet artificiel Information partielle, manque les niveaux acoustiques et prosodiques De plus .. Performance de transcription très corrélées avec le degré de spontanéité de l’oral Parole préparée/lue → taux d’erreur mots < 10% Parole modéremment spontanée → taux d’erreur mots ∈ [10%, 20%] Parole fortement spontanée → taux d’erreur mots ∈ [20%, inf] Score attaché à chaque observation (score de confiance RAP) Parole superposée i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 7 / 16 Spécificités des transcriptions automatiques Les sorties d’un système de transcription automatique ne sont pas .... i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 8 / 16 Spécificités des transcriptions automatiques Les sorties d’un système de transcription automatique sont .... i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 9 / 16 TAL et transcription automatique Le TAL au secours de P(W ) introduction de syntaxe/sémantique dans les modèles de langage Bilan mitigé Est-ce bien son rôle ? oui, oui, oui, oui, il va la prendre des deux mains il va l’apprendre dès demain il va l’apprendre des deux mains ı̂le val happe rendre dé de m’ hein Articulation TAP/TAL Exploitation des sorties ambigües/valuées des systèmes de transcriptions Etude des phénomènes spécifiques à la langue orale i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 10 / 16 Exploitation des sorties ambigües/valuées des systèmes de transcriptions Agrammaticalité, disfluences, erreurs de reconnaissance, manque de structure Ne pas dépendre d’une analyse syntaxique profonde Privilégier les analyses locales plutôt que globales Imprécision, scores de confiance associés aux mots Modèles numériques (étiquetage et classification) Gestion d’un ensemble d’hypothèses plutôt qu’une hypothèse unique Information partielle, “objet artificiel” Définir le contexte de production d’un message (avec cadre applicatif) Intégration de ce contexte dans les modèles de compréhension i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 11 / 16 Etude des phénomènes spécifiques à la langue orale Les corpus oraux pour l’apprentissage des modèles de RAP sont une chance pour les linguistes et le TAL ! ! Workshop on the Syntax of Spoken French, LORIA Nancy, November 30th, 2012 Différents types de langue, différents corpus, différents cadres d’utilisation Parole lue et préparée émissions d’information radio/télé corpus ESTER - 100h transcrites + annotations entités nommées diffusion ELDA Parole spontanée dans un cadre controlé débats, interviews radio/télé corpus ETAPE - 100h transcrites + annotations entités nommées diffusion ELDA Parole conversationnelle fortement spontanée conversations dans des centres d’appels corpus RATP-DECODA - ≈ 80h transcrites et annotées syntaxiquement diffusion SLDR (avril 2013) F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 i 12 / 16 Description et analyse de l’oral spontané je sais plus combien et c’était je crois sur la ligne cinq je suis rentrée dans le bus il me semble sept cent trente-cinq une paire de lunettes un peu vous savez un peu comme rectangulaires apparemment elle a été verbalisée je pense dans un bus et elle a pas son PV en fait on est vingt-cinq et on voudrait prendre euh vous voyez la carte Paris Visite j’ai un petit problème euh concernant euh si vous voulez un ticket que j’ai introduit moi là je peux le prendre euh comment dirais-je attendez de la petite place qui est là donc il y a euh comment dire une marque euh demain à partir mettons en fait de treize heures s’il vous plaı̂t on pourrait hum disons attendre le le conducteur on va lui dire allez d’ici euh une quinzaine de minutes pour arrondir et je voudrais aller euh attendez voir Crédit Municipal ça se trouve rue des Francs-Bourgeois les agents [...] sont pas là pour des raisons euh je sais pas moi de vacances de maladie i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 13 / 16 Conclusion Le TAL et le TAP, un mariage évident ! ! . . . pour l’étude du langage oral spontané description de la langue adaptation de modèles développés sur l’écrit . . . pour le TAL et le défi que représente le texte non-natif / non-canonique Multitude de tâches indépendantes considérer les tàches conjointement sans retomber dans le piège du modèle pipeline générer un espace d’hypothèses et laisser l’application finale choisir la meilleure hypothèse Enrichissement semi automatique de données Modèles peu génériques Chaque nouvelle application nécessite la collecte et l’annotation de corpus Données non annotées en grande quantité : comment en tirer parti pour adapter les modèles étudier tous les moyens de diminuer la supervision i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 14 / 16 Merci pour votre attention i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 15 / 16 i F. Béchet (AMU LIF-CNRS) Journée CNRS TAL - TAP/TAL Nancy, 15 janvier 2013 16 / 16