Sujet de thèse - Parole

Transcription

Sujet de thèse - Parole
Sujet de thèse
Motivations
Dans le cadre d'une collaboration avec une entreprise qui commercialise des morcea ux de
docume n t aire s vidéo (rushes), nous nous intéres so n s à la reconn aiss a n ce auto m a tiq u e
des dialogues de ces rushe s afin de pouvoir les indexer.
L'équipe parole a développé un systè me de transcription auto ma tiq u e de bulletins
d'infor m a tion : ANTS [2,3]. Si les perfor m a n ce s des systèm es de transcription
autom a tiq ue actuels sont satisfaisan t es dans le cas de la parole lue ou
« préparée » (bulletins d'infor m a tions, discours), elles se dégrade n t forte me n t dans le cas
de la parole spont a née [1,4,5]. Par rappo r t à la parole prépa rée, la parole spont a n ée se
caractérise par:
•
des insertions (hésitations, pause s, faux départ s de mots, reprises),
•
des variations de prononciation s comme la contractio n de mots ou de syllabes
(/monsie ur / = > / m' sieu /),
•
des variations de la vitesse d'élocutio n (réduction de l'articulation de certains
phonè m e s et allonge me nt s d'autres phonè m e s),
•
des environne m e n t s
sonore s difficiles (parole superp o sé e, rires, bruits
d'ambia nce...).
Ces spécificités sont peu ou pas prises en compte par les systè me s de reconn aiss a nce
actuels. Tous ces phéno m è ne s provoq ue n t des erreur s de recon nais sa n ce et peuvent
entraîner une indexation erronée.
Sujet
Le but du sujet de thèse est de pren d re en comp te un ou plusieurs des phéno m è n e s
spécifiques décrits ci- dessus, afin d'améliorer le taux de reconn aiss a n ce [4,6,7]. Les
phéno m è ne s seront choisis et traités au niveau acoustiqu e ou linguistique en fonction du
profil du candida t. Le travail consistera à :
•
compren d r e l'architectur e de ANTS,
•
pour les phéno m è ne s choisis, faire un état de l'art et propo se r de nouveaux
algorith m e s,
•
réaliser un prototype de reconn aiss a nce de parole sponta n é e et le valider sur un
corpus de parole sponta née étiqueté.
Cadre du travail
Le travail s'effectuer a au sein de l'équipe
(http: / / p a r ole.loria.fr). L'étudiant
utilisera le
autom a tiq ue de la parole développé dans l'équipe.
Parole
logiciel
de l'Inria - Loria à Nancy
ANTS de reconn aiss a nce
Profil souhaité
Les candidat s devront maîtriser le français et l'anglais et savoir progra m m e r en C ou en
Java dans un environne m e n t Unix. Des connaissa nces en modélisation stochas tiq ue ou en
traite me n t autom a tique de la parole seront un plus.
Contacts : [email protected] , [email protected] ou [email protected]
[1] S. Galliano, E. Geoffrois, D.Mostefa , K. Choukri, JF. Bonastre and G. Gravier, The ESTER Phase II Evaluation
Campaign for Rich Transcription of French broadcast news, EUROSPEECH 2005,
[2] I. Irina, D. Fohr, O. Mella and C.Cerisara, The Automatic News Transcription System: ANTS some realtime
experime n t s, ISCPL2004
[3] D. Fohr, O. Mella, I. Irina and C. Cerisara, Experiment s on the accuracy of phone models and liaison
proces sing in a French broadcas t news transcription systems, ISCPL2004
[4] J.- L Gauvain, G. Adda, L. Lamel, L. F. Lefevre and H. Schwenk, Transcription de la parole conversationnelle
Revue TAL vol 45 n° 3
[5] M. Garnier - Rizet, G. Adda, F. Cailliau, J.- L. Gauvain, S. Guillemin - Lanne, L. Lamel, S. Vanni, C. Waaste Richard CallSurf: Autom a tic transcrip tio n, indexing and structuration of call center conversational speech for
knowledge extraction and query by conten t. LREC 2008
[6] J.Ogata, M.Goto, The use of acous tically detected filled and silent pauses in sponta neo u s speech
recognition ICASSP 2009
[7] F. Stoute n, J. Duchatea u, J.- P. Martens and P. Wambacq, Coping with disfluencies in sponta neou s speech
recognition: Acoustic detection and linguistic context manipulation, Speech Commu nication vol 48, 2006