Sujet de thèse - Parole
Transcription
Sujet de thèse - Parole
Sujet de thèse Motivations Dans le cadre d'une collaboration avec une entreprise qui commercialise des morcea ux de docume n t aire s vidéo (rushes), nous nous intéres so n s à la reconn aiss a n ce auto m a tiq u e des dialogues de ces rushe s afin de pouvoir les indexer. L'équipe parole a développé un systè me de transcription auto ma tiq u e de bulletins d'infor m a tion : ANTS [2,3]. Si les perfor m a n ce s des systèm es de transcription autom a tiq ue actuels sont satisfaisan t es dans le cas de la parole lue ou « préparée » (bulletins d'infor m a tions, discours), elles se dégrade n t forte me n t dans le cas de la parole spont a née [1,4,5]. Par rappo r t à la parole prépa rée, la parole spont a n ée se caractérise par: • des insertions (hésitations, pause s, faux départ s de mots, reprises), • des variations de prononciation s comme la contractio n de mots ou de syllabes (/monsie ur / = > / m' sieu /), • des variations de la vitesse d'élocutio n (réduction de l'articulation de certains phonè m e s et allonge me nt s d'autres phonè m e s), • des environne m e n t s sonore s difficiles (parole superp o sé e, rires, bruits d'ambia nce...). Ces spécificités sont peu ou pas prises en compte par les systè me s de reconn aiss a nce actuels. Tous ces phéno m è ne s provoq ue n t des erreur s de recon nais sa n ce et peuvent entraîner une indexation erronée. Sujet Le but du sujet de thèse est de pren d re en comp te un ou plusieurs des phéno m è n e s spécifiques décrits ci- dessus, afin d'améliorer le taux de reconn aiss a n ce [4,6,7]. Les phéno m è ne s seront choisis et traités au niveau acoustiqu e ou linguistique en fonction du profil du candida t. Le travail consistera à : • compren d r e l'architectur e de ANTS, • pour les phéno m è ne s choisis, faire un état de l'art et propo se r de nouveaux algorith m e s, • réaliser un prototype de reconn aiss a nce de parole sponta n é e et le valider sur un corpus de parole sponta née étiqueté. Cadre du travail Le travail s'effectuer a au sein de l'équipe (http: / / p a r ole.loria.fr). L'étudiant utilisera le autom a tiq ue de la parole développé dans l'équipe. Parole logiciel de l'Inria - Loria à Nancy ANTS de reconn aiss a nce Profil souhaité Les candidat s devront maîtriser le français et l'anglais et savoir progra m m e r en C ou en Java dans un environne m e n t Unix. Des connaissa nces en modélisation stochas tiq ue ou en traite me n t autom a tique de la parole seront un plus. Contacts : [email protected] , [email protected] ou [email protected] [1] S. Galliano, E. Geoffrois, D.Mostefa , K. Choukri, JF. Bonastre and G. Gravier, The ESTER Phase II Evaluation Campaign for Rich Transcription of French broadcast news, EUROSPEECH 2005, [2] I. Irina, D. Fohr, O. Mella and C.Cerisara, The Automatic News Transcription System: ANTS some realtime experime n t s, ISCPL2004 [3] D. Fohr, O. Mella, I. Irina and C. Cerisara, Experiment s on the accuracy of phone models and liaison proces sing in a French broadcas t news transcription systems, ISCPL2004 [4] J.- L Gauvain, G. Adda, L. Lamel, L. F. Lefevre and H. Schwenk, Transcription de la parole conversationnelle Revue TAL vol 45 n° 3 [5] M. Garnier - Rizet, G. Adda, F. Cailliau, J.- L. Gauvain, S. Guillemin - Lanne, L. Lamel, S. Vanni, C. Waaste Richard CallSurf: Autom a tic transcrip tio n, indexing and structuration of call center conversational speech for knowledge extraction and query by conten t. LREC 2008 [6] J.Ogata, M.Goto, The use of acous tically detected filled and silent pauses in sponta neo u s speech recognition ICASSP 2009 [7] F. Stoute n, J. Duchatea u, J.- P. Martens and P. Wambacq, Coping with disfluencies in sponta neou s speech recognition: Acoustic detection and linguistic context manipulation, Speech Commu nication vol 48, 2006