Transcription automatique d`un enregistrement audio issu d

Transcription

Transcription automatique d`un enregistrement audio issu d
Transcription automatique d’un enregistrement audio issu d’un poste de
pilotage
Contact
Jérôme Farinas
Equipe SAMOVA
IRIT
Tél : 05 61 55 74 34
Mèl : [email protected]
Contexte de l’étude
Lors d’un vol, tous les paramètres sont enregistrés dans deux calculateurs distincts, le DFDR
(Digital Flight Data Recorder) et le CVR (Cockpit Voice Recorder). Le DFDR enregistre les
paramètres techniques du vol. Le CVR enregistre toutes les conversations entre l’équipage,
le personnel de cabine, les centres au sol (navigation aérienne, compagnie…). Sont
également enregistrés toutes les alarmes qui peuvent survenir à bord ainsi que tous les
bruits qui peuvent être entendus dans le poste de pilotage.
Intérêt de l’étude
Au sein du département avionique, le contenu du CVR, suite à un vol d’essais et plus
particulièrement ceux liés à une certification, est analysé afin de corréler tous les
évènements tracés par les pilotes et ingénieurs navigants avec le contenu de
l’enregistrement. Cette analyse a aussi pour but d’identifier et de caractériser tous les
évènements sonores imprévus. L’analyse et la transcription sont faites par une simple
écoute.
Afin d’améliorer la fiabilité, la pertinence, l’exhaustivité et la répétitivité des analyses
effectuées, l’intérêt de l’étude est de proposer des algorithmes capables d’extraire du bruit
ambiant du poste de pilotage, de la voix, des sons synthétiques et des bruits caractéristiques
afin de les transcrire automatiquement.
Principaux objectifs de l’étude
Ce stage adresse à la fois des problématiques liées à la reconnaissance de sons prédéfinis
(existence d’une référence audio), la détection de bruits spécifiques et la transcription de la
parole spontanée.
Ce sujet de stage est lié à une thèse qui sera financée avec un financement CIFRE avec
AIRBUS. La thèse est divisée en 3 parties correspondant à l’étude de chacune des trois
catégories de sons explorées ; les approches seront de fait différentes :
1. Pour la reconnaissance des sons (alarmes, code morse…), il est possible de définir
des prototypes ou références. C’est pourquoi l’étude s’orientera vers l’emploi d’une
part d’algorithmes de détection de fréquences caractéristiques en prenant en compte
les contraintes d’un environnement hétérogène (bruit, recouvrement…) et d’autre part
Page 1 of 4
de méthodes de reconnaissance des formes classiques appliqués à l’audio tels que
ceux employés en reconnaissance de motifs sonores [13].
2. La détection des bruits représentatifs (régime moteur, train d’atterrissage…) ou
inattendus (usure anormale, parasite…), passera par une analyse des signatures
acoustiques caractéristiques pour en déduire une modélisation. Cette détection
nécessitera une phase d’apprentissage.
Pour ces deux premières parties, le titulaire s’appuiera sur les résultats d’un stage de
fin de cycle d’ingénieur pour lequel un prototype a déjà été développé. Il s’agira
d’enrichir la démarche scientifique, puis de compléter et de confirmer les choix
techniques qui ont été proposés.
3. La reconnaissance de la parole qui est de loin la plus importante, s’orientera d’abord
vers une étude de faisabilité. Les deux principales difficultés sont liées à la production
même de la parole qui est quasi « spontanée » et à l’environnement dans lequel la
prise de son est faite.
Dans un premier temps, le titulaire devra effectuer une analyse très précise de
l’environnement, bien plus contraignant que les environnements « conventionnels »
dans lesquels sont développés la majorité des systèmes de reconnaissance de la
parole (parole téléphonique, journaux d'information en anglais [1], français [2],
sessions du parlement européen [3]). Il existe des études sur l'influence de la
dégradation due aux environnements bruités : dans le secteur de la construction [4],
dans le secteur aéronautique [5]. Les travaux dans ce dernier secteur ont
principalement pour objectif depuis les années 1980 de réaliser une simple
commande vocale dans les cockpits. L'analyse de la parole à partir d'enregistrements
CVR n’a jamais fait l'objet d'étude, seules des recherches sur les sons d'alerte ont été
menées [6,7].
Dans un second temps et une fois l’analyse effectuée, le titulaire s’attachera à définir
les spécifications du système de reconnaissance automatique, tout en respectant
les contraintes suivantes :

Contraintes liées à un environnement fortement bruité et altéré par des
événements sonores liés à l’exploitation de l’avion (recouvrement).

Contraintes liées à une population multiculturelle : langue (capacité à changer de
langue pour un même locuteur), accent, vocabulaire.

Contraintes liées aux conditions dans lesquelles le locuteur opère : augmentation
du débit, stress, fatigue.
Les principales pistes de recherche envisagées se déclinent selon deux axes :

La compensation au niveau de la paramétrisation : une première analyse
des différents bruits des enregistrements CVR permettra de cibler les
traitements pour lutter contre le bruit existant (soustraction cepstrale,
normalisation de la variance, filtrage ARMA, filtres RASTA...). Un
deuxième axe consiste à s’appuyer sur des résultats récents en
compensation de bruit dans le domaine cepstral, domaine de
paramétrisation le plus performant en reconnaissance de parole. Il s’agit
de décomposer l’espace de représentation en une composante utile pour
la reconnaissance et une composante dite de nuisance qui rend compte
de la variabilité de la session d’enregistrement [14]. Dans le cas présent et
le cadre particulier des cockpits, cette variabilité représenterait
l’environnement bruité, mais elle pourrait aussi rendre compte des
conditions de stress du locuteur.
Page 2 of 4

L’adaptation au niveau des modèles acoustiques et linguistiques : les
modélisations de la parole devront être adaptées aux différentes formes
de parole présentes dans les enregistrements. Il s’agira de regarder plus
précisément les vocabulaires employés pour les enrichir éventuellement,
et tenir compte de la spontanéité au travers des modèles de langage (le
traitement de la spontanéité reste à ce jour un défi très important à
relever). Les techniques d'adaptation des lois des modèles acoustiques
par Maximum Likelihood Linear Regression (MLLR) [8] et Maximum A
Posteriori (MAP) [9] et les techniques d’adaptation au niveau de la
modélisation elle-même (analyse factorielle appliquée aux modèles de
Markov cachés [10,11]) seront les points de départs. Les adaptations des
lexiques et des modèles de langage devront être étendues à ce type de
dialogues [12].
Durant le stage, les parties 1 et 2 devront donner lieu à un prototype utilisable. La partie
3 pourra être concrétisé par la mise en place d’un système de reconnaissance de la
parole de base.
Mots clés
Parole spontanée, son, bruit, audio, reconnaissance, transcription, apprentissage.
Références
1. Spyros Matsoukas, Jean-Luc Gauvain, Gilles Adda, Thomas Colthurst, Chia-Lin Kao,
Owen Kimball, Lori Lamel, Fabrice Lefevre, Jeff Ma, John Makhoul, Long Nguyen,
Rohit Prasad, Richard Schwartz, Holger Schwenk, and Bing Xiang. Advances in
Transcription of Broadcast News and Conversational Telephone Speech within the
Combined EARS BBN/LIMSI System. IEEE Transactions on Audio, Speech and
Language Processing, 14(5):1541–1556, 2006.
2. G. Gravier, J.F. Bonastre, S. Galliano, E. Geoffrois, K. Mc Tait and K. Choukri. The
ESTER evaluation campaign of Rich Transcription of French Broadcast News , Proc.
Language Evaluation and Resources Conference, 2004.
3. Lori Lamel, Jean-Luc Gauvain, Gilles Adda, Claude Barras, Eric Bilinski, Olivier
Galibert, Agusti Pujol, Holger Schwenk, and Xuan Zhu. The LIMSI 2006 TC-STAR
EPPS Transcription Systems. In Proceedings of ICASSP, pages 997–1000, Honolulu,
Hawaii, April 2007.
4.
Arash Akbarinia; Javier Valdez Medrano; Rashid Zamani. Erreur ! Référence de
lien hypertexte non valide., University of Gothenburg, G oteborg, Sweden, 10
october 2011
5. Williamson, David T. Robust Speech Recognition Interface to the Electronic
Crewmember: Progress and Challenges. Air Force Research Lab Wright-Patterson
AFB OH, 15 september 1987
6. X. Xiao, H. Yao, and C. Guo, Automatic detection of alarm sounds in cockpit voice
recordings, Proceedings of the 2009 IITA International Conference on Control,
Automation and Systems Engineering (2009), pp. 599–602.
Page 3 of 4
7. T.Sammour Sawaya. Automatic Voice Analysis of Cockpit Voice Recorder Data,
Internship report, Airbus SAS, september 2012
8. Leggetter, C., & Woodland, P. Maximum likelihood linear regression for speaker
adaptation of continuous density hidden Markov models. Computer speech and
language, vol.9 (2), pp. 171-185. 1995
9. Gauvain, J., & Lee, C. Maximum a posteriori estimation for multivariate Gaussian
mixture observations of Markov chains. IEEE Transactions on Speech and Audio
Processing, vol.2 (2), pp. 291-298, 1994.
10. Fabrice Lefèvre et Jean-Luc Gauvain. Transformation linéaire discriminante pour
l’apprentissage des HMM à analyse factorielle, Journées d'Etude sur la Parole, pp
235-239, Dinard, France, 12-16 juin 2006
11. Wibrow, Mark. Factorial Hidden Markov Models for Spoken Word Recognition. Msc
report. University of Sheffield. September 1st 2009
12. H.S. Le, A. Allauzen, G. Wisniewski, F. Yvon , Training Continuous Space Language
Models: Some Practical Issues, in Empirical Methods in Natural Language
Processing 2010, Boston, USA
13. A. Muscariello, F. Bimbot, G. Gravier, Unsupervised Motif Acquisition in Speech via
Seeded Discovery and Template Matching Combination, IEEE Transactions on
Audio, Speech and Language Processing, vol.20 (7), pp. 2031-2044, 2012.
14. D. Matrouf, F. Verdet, M. Rouvier, JF. Bonastre, G. Linares, Modeling Nuisance
Variabilities with Factor Analysis for GMM-based Audio Pattern Classification,
Computer Speech and Language, vol. 25 (3), pp 481-498, 2011
Page 4 of 4