Transcription automatique d`un enregistrement audio issu d
Transcription
Transcription automatique d`un enregistrement audio issu d
Transcription automatique d’un enregistrement audio issu d’un poste de pilotage Contact Jérôme Farinas Equipe SAMOVA IRIT Tél : 05 61 55 74 34 Mèl : [email protected] Contexte de l’étude Lors d’un vol, tous les paramètres sont enregistrés dans deux calculateurs distincts, le DFDR (Digital Flight Data Recorder) et le CVR (Cockpit Voice Recorder). Le DFDR enregistre les paramètres techniques du vol. Le CVR enregistre toutes les conversations entre l’équipage, le personnel de cabine, les centres au sol (navigation aérienne, compagnie…). Sont également enregistrés toutes les alarmes qui peuvent survenir à bord ainsi que tous les bruits qui peuvent être entendus dans le poste de pilotage. Intérêt de l’étude Au sein du département avionique, le contenu du CVR, suite à un vol d’essais et plus particulièrement ceux liés à une certification, est analysé afin de corréler tous les évènements tracés par les pilotes et ingénieurs navigants avec le contenu de l’enregistrement. Cette analyse a aussi pour but d’identifier et de caractériser tous les évènements sonores imprévus. L’analyse et la transcription sont faites par une simple écoute. Afin d’améliorer la fiabilité, la pertinence, l’exhaustivité et la répétitivité des analyses effectuées, l’intérêt de l’étude est de proposer des algorithmes capables d’extraire du bruit ambiant du poste de pilotage, de la voix, des sons synthétiques et des bruits caractéristiques afin de les transcrire automatiquement. Principaux objectifs de l’étude Ce stage adresse à la fois des problématiques liées à la reconnaissance de sons prédéfinis (existence d’une référence audio), la détection de bruits spécifiques et la transcription de la parole spontanée. Ce sujet de stage est lié à une thèse qui sera financée avec un financement CIFRE avec AIRBUS. La thèse est divisée en 3 parties correspondant à l’étude de chacune des trois catégories de sons explorées ; les approches seront de fait différentes : 1. Pour la reconnaissance des sons (alarmes, code morse…), il est possible de définir des prototypes ou références. C’est pourquoi l’étude s’orientera vers l’emploi d’une part d’algorithmes de détection de fréquences caractéristiques en prenant en compte les contraintes d’un environnement hétérogène (bruit, recouvrement…) et d’autre part Page 1 of 4 de méthodes de reconnaissance des formes classiques appliqués à l’audio tels que ceux employés en reconnaissance de motifs sonores [13]. 2. La détection des bruits représentatifs (régime moteur, train d’atterrissage…) ou inattendus (usure anormale, parasite…), passera par une analyse des signatures acoustiques caractéristiques pour en déduire une modélisation. Cette détection nécessitera une phase d’apprentissage. Pour ces deux premières parties, le titulaire s’appuiera sur les résultats d’un stage de fin de cycle d’ingénieur pour lequel un prototype a déjà été développé. Il s’agira d’enrichir la démarche scientifique, puis de compléter et de confirmer les choix techniques qui ont été proposés. 3. La reconnaissance de la parole qui est de loin la plus importante, s’orientera d’abord vers une étude de faisabilité. Les deux principales difficultés sont liées à la production même de la parole qui est quasi « spontanée » et à l’environnement dans lequel la prise de son est faite. Dans un premier temps, le titulaire devra effectuer une analyse très précise de l’environnement, bien plus contraignant que les environnements « conventionnels » dans lesquels sont développés la majorité des systèmes de reconnaissance de la parole (parole téléphonique, journaux d'information en anglais [1], français [2], sessions du parlement européen [3]). Il existe des études sur l'influence de la dégradation due aux environnements bruités : dans le secteur de la construction [4], dans le secteur aéronautique [5]. Les travaux dans ce dernier secteur ont principalement pour objectif depuis les années 1980 de réaliser une simple commande vocale dans les cockpits. L'analyse de la parole à partir d'enregistrements CVR n’a jamais fait l'objet d'étude, seules des recherches sur les sons d'alerte ont été menées [6,7]. Dans un second temps et une fois l’analyse effectuée, le titulaire s’attachera à définir les spécifications du système de reconnaissance automatique, tout en respectant les contraintes suivantes : Contraintes liées à un environnement fortement bruité et altéré par des événements sonores liés à l’exploitation de l’avion (recouvrement). Contraintes liées à une population multiculturelle : langue (capacité à changer de langue pour un même locuteur), accent, vocabulaire. Contraintes liées aux conditions dans lesquelles le locuteur opère : augmentation du débit, stress, fatigue. Les principales pistes de recherche envisagées se déclinent selon deux axes : La compensation au niveau de la paramétrisation : une première analyse des différents bruits des enregistrements CVR permettra de cibler les traitements pour lutter contre le bruit existant (soustraction cepstrale, normalisation de la variance, filtrage ARMA, filtres RASTA...). Un deuxième axe consiste à s’appuyer sur des résultats récents en compensation de bruit dans le domaine cepstral, domaine de paramétrisation le plus performant en reconnaissance de parole. Il s’agit de décomposer l’espace de représentation en une composante utile pour la reconnaissance et une composante dite de nuisance qui rend compte de la variabilité de la session d’enregistrement [14]. Dans le cas présent et le cadre particulier des cockpits, cette variabilité représenterait l’environnement bruité, mais elle pourrait aussi rendre compte des conditions de stress du locuteur. Page 2 of 4 L’adaptation au niveau des modèles acoustiques et linguistiques : les modélisations de la parole devront être adaptées aux différentes formes de parole présentes dans les enregistrements. Il s’agira de regarder plus précisément les vocabulaires employés pour les enrichir éventuellement, et tenir compte de la spontanéité au travers des modèles de langage (le traitement de la spontanéité reste à ce jour un défi très important à relever). Les techniques d'adaptation des lois des modèles acoustiques par Maximum Likelihood Linear Regression (MLLR) [8] et Maximum A Posteriori (MAP) [9] et les techniques d’adaptation au niveau de la modélisation elle-même (analyse factorielle appliquée aux modèles de Markov cachés [10,11]) seront les points de départs. Les adaptations des lexiques et des modèles de langage devront être étendues à ce type de dialogues [12]. Durant le stage, les parties 1 et 2 devront donner lieu à un prototype utilisable. La partie 3 pourra être concrétisé par la mise en place d’un système de reconnaissance de la parole de base. Mots clés Parole spontanée, son, bruit, audio, reconnaissance, transcription, apprentissage. Références 1. Spyros Matsoukas, Jean-Luc Gauvain, Gilles Adda, Thomas Colthurst, Chia-Lin Kao, Owen Kimball, Lori Lamel, Fabrice Lefevre, Jeff Ma, John Makhoul, Long Nguyen, Rohit Prasad, Richard Schwartz, Holger Schwenk, and Bing Xiang. Advances in Transcription of Broadcast News and Conversational Telephone Speech within the Combined EARS BBN/LIMSI System. IEEE Transactions on Audio, Speech and Language Processing, 14(5):1541–1556, 2006. 2. G. Gravier, J.F. Bonastre, S. Galliano, E. Geoffrois, K. Mc Tait and K. Choukri. The ESTER evaluation campaign of Rich Transcription of French Broadcast News , Proc. Language Evaluation and Resources Conference, 2004. 3. Lori Lamel, Jean-Luc Gauvain, Gilles Adda, Claude Barras, Eric Bilinski, Olivier Galibert, Agusti Pujol, Holger Schwenk, and Xuan Zhu. The LIMSI 2006 TC-STAR EPPS Transcription Systems. In Proceedings of ICASSP, pages 997–1000, Honolulu, Hawaii, April 2007. 4. Arash Akbarinia; Javier Valdez Medrano; Rashid Zamani. Erreur ! Référence de lien hypertexte non valide., University of Gothenburg, G oteborg, Sweden, 10 october 2011 5. Williamson, David T. Robust Speech Recognition Interface to the Electronic Crewmember: Progress and Challenges. Air Force Research Lab Wright-Patterson AFB OH, 15 september 1987 6. X. Xiao, H. Yao, and C. Guo, Automatic detection of alarm sounds in cockpit voice recordings, Proceedings of the 2009 IITA International Conference on Control, Automation and Systems Engineering (2009), pp. 599–602. Page 3 of 4 7. T.Sammour Sawaya. Automatic Voice Analysis of Cockpit Voice Recorder Data, Internship report, Airbus SAS, september 2012 8. Leggetter, C., & Woodland, P. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer speech and language, vol.9 (2), pp. 171-185. 1995 9. Gauvain, J., & Lee, C. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Transactions on Speech and Audio Processing, vol.2 (2), pp. 291-298, 1994. 10. Fabrice Lefèvre et Jean-Luc Gauvain. Transformation linéaire discriminante pour l’apprentissage des HMM à analyse factorielle, Journées d'Etude sur la Parole, pp 235-239, Dinard, France, 12-16 juin 2006 11. Wibrow, Mark. Factorial Hidden Markov Models for Spoken Word Recognition. Msc report. University of Sheffield. September 1st 2009 12. H.S. Le, A. Allauzen, G. Wisniewski, F. Yvon , Training Continuous Space Language Models: Some Practical Issues, in Empirical Methods in Natural Language Processing 2010, Boston, USA 13. A. Muscariello, F. Bimbot, G. Gravier, Unsupervised Motif Acquisition in Speech via Seeded Discovery and Template Matching Combination, IEEE Transactions on Audio, Speech and Language Processing, vol.20 (7), pp. 2031-2044, 2012. 14. D. Matrouf, F. Verdet, M. Rouvier, JF. Bonastre, G. Linares, Modeling Nuisance Variabilities with Factor Analysis for GMM-based Audio Pattern Classification, Computer Speech and Language, vol. 25 (3), pp 481-498, 2011 Page 4 of 4