PROPOSITION DE THESE : Méthodes

Transcription

PROPOSITION DE THESE : Méthodes
PROPOSITION DE THESE :
Méthodes avancées de traitement de la parole et de réduction de bruit pour
les terminaux mobiles
ENCADREMENT DE LA THESE :
Dominique PASTOR (directeur de thèse), Raphaël LE BIDAN, Abdeldjalil AISSA EL BEY
EQUIPE D’ACCUEIL DE LA THESE
Télécom Bretagne (Brest), laboratoire LABSTICC, pôle CID, équipe TOMS (Traitements, Observations et
Méthodes Statistiques)
FINANCEMENT : CDD (financement garanti), salaire net 1450€/mois
DÉBUT DE LA THÈSE : Octobre 2013
PROFIL RECHERCHÉ :
Titulaire d’un Master Recherche ou diplôme d’Ingénieur Grandes Ecoles avec des compétences en
mathématiques et traitement du signal.
MODALITÉS DE CANDIDATURE :
Envoyer dossier complet (CV + lettre de motivation + relevé de notes + nom des encadrants de stage + lettres de
recommandations) par email à [email protected], [email protected]
et [email protected]. Dans le cadre de cet appel, les candidatures seront examinées
er
et traitées au fur et à mesure de leur réception, dans la limite de la date du 1 juin 2013.
MOTS CLES : Traitement de la parole, débruitage, annulation d’écho, séparation de sources, formation de voie
DESCRIPTION :
Le marché des smartphones connaît un succès grandissant qui ne se dément pas depuis le lancement de
l’iPhone d’Apple en 2007. Fin 2011, le point d’inflexion a ainsi été franchi puisque, selon les données récoltées
par le bureau d’études Gfk, le volume de vente de smartphone (> 12 millions d’unité) a atteint celui des
téléphones « classiques ». Ce phénomène a modifié durablement l’écosystème de la téléphonie mobile, en y
installant de nouveaux acteurs (Apple, Samsung, Google) et en rétrogradant d’autres (Nokia), ainsi que notre
usage du téléphone au quotidien. Plus fondamentalement, les smartphones sont des plate-formes
extrêmement sophistiquées, qui ouvrent la voie à de nouvelles façons de concevoir la téléphonie mobile du
point de vue technologique. C’est particulièrement vrai concernant le traitement de la parole et plus
généralement de l’audio. Traditionnellement, dans les téléphones classiques, le traitement de la parole se
résume à des fonctions relativement simples (compression, contrôle de gain, égalisation, annulation d’écho)
directement intégrées au cœur de chaque puce modem 2G/3G(+)/4G équipant le mobile. Avec la
démocratisation des smartphones se dessine progressivement une nouvelle architecture où tous les traitements
audio sont mutualisés et reportés vers un chipset complémentaire dédié, à base de cœur DSP (donc
reprogrammable) et d’accélérateurs matériels adéquats (FFT, etc). Ce dernier peut gérer notamment la
présence de plusieurs micros et permet la mise en œuvre de traitements bien plus avancés que les fonctions
traditionnelles, notamment en ce qui concerne la réduction de bruit [1]. Il ne s’agit plus ici simplement de
permettre l’intelligibilité d’une conversation dans un environnement bruité, mais d’augmenter significativement
la qualité de la conversation (on ne souhaite plus simplement comprendre ce qu’on nous dit, mais pouvoir
reconnaître distinctement qui nous parle). La qualité audio du téléphone devient ainsi un élément
différentiateur clé sur laquelle les fabricants communiquent pour se démarquer de la concurrence, au point de
modifier le téléphone lui-même de manière à proposer des traitements plus performants, tels que l’annulation
active de bruit [2] (technologie similaire à celle équipant les casques hifi haut de gamme ainsi que certaines
protections auditives professionnelles). L’Apple iPhone 5, lancé fin septembre 2012, est ainsi l’un des premiers
smartphones à proposer non plus deux, mais trois micros HD, pour améliorer la réduction de bruit. Certains
fabricants, notamment Qualcomm et Texas Instruments, ont fait le choix de développer chacun leur propre
technologie de réduction de bruit. De nombreux acteurs préfèrent acheter des solutions clé-en-main. Les
performances des puces audio de la société Audience [3] font aujourd’hui référence dans le domaine, et
équipent de nombreux smartphones haut-de-gamme à l’image de l’iPhone 4s ou bien du récent Samsung Galaxy
SIII. L’enjeu est d’autant plus important que le déploiement progressif des codecs audio large-bande à 16 kHz
dits HD Voice dans les réseaux mobiles opérateurs, en remplacement des codecs classiques opérant à 8 kHz,
modifie significativement notre perception de la qualité d’une communication mobile et la rend plus sensible
aux moindres imperfections (communications hachées, bruit musical, etc).
L’objectif de cette thèse consiste à développer des méthodes avancées de traitement de la parole et de
réduction de bruit visant à améliorer de manière significative la qualité d’une conversation mobile dans des
environnements très bruyants tels qu’une station de gare ou de métro, une avenue d’une grande agglomération
aux heures de pointe, un restaurant bondé ou bien une salle de concert. L’utilisation du téléphone en mode
main-libre sera également considérée car elle est, par nature, davantage bruitée que l’utilisation en mode
normal (combiné sur l’oreille). Elle pose par ailleurs des difficultés supplémentaires par rapport à cette dernière
puisque le signal de parole n’est alors plus nécessairement capté de manière privilégiée par le micro et tend
ainsi davantage à se fondre dans le bruit.
Une étude comparative sera menée afin de déterminer la (ou les) transformée(s) la(es) mieux adaptée(s) à ce
problème de débruitage. On s’intéressera notamment à la transformée cochléaire, ainsi qu’à la transformée en
ondelettes. On se penchera également sur la classification des sons perçus en différentes catégories (voix, bruit
ambiant, bruits périodiques, musique, trafic, etc), dans le but de faciliter la rejection des sources sonores autres
que le signal d’intérêt. L’étude considèrera non-seulement le cas mono-capteur classique, mais également le cas
multi-capteurs, pour tenir compte de la présence de plusieurs micros sur les smartphones haut de gamme
dernière génération. Dans ce contexte, on étudiera l’apport des techniques de séparation de source et de
formation de voies aux problèmes de réduction de bruit et d’annulation d’échos. Les méthodes mises en œuvre
s’appuieront sur les compétences développées par le laboratoire dans le domaine du débruitage [4], de la
reconnaissance automatique de la parole [5] et du traitement des signaux parcimonieux, notamment sur
certains résultats récents relatifs à l’estimation robuste du bruit [6] et la séparation de sources audio [7].
RÉFÉRENCES :
[1] P. C. Loizou, Speech Enhancement, CRC Press, 2007.
[2] Audience technology & products. [Online] http://www.audience.com/ .
[3] Y. Kajikawa, W.-S. Gan & S. M. Kuo, « Recent advances on active noise control: open issues and innovative
applications », APSIPA Trans. on Signal and Information Processing, Cambridge University Press, vol. 1, Aug.
2012
[4] A. Amehraye, Débruitage perceptuel de la parole, Thèse Télécom Bretagne, Mai 2009
[5] C.-T. Do, Subband temporal envelopes of speech signal and their central role in robust ASR and perceptuallymotivated speech signal processing, Thèse Télécom Bretagne, Octobre 2010
[6] D. Pastor & F.-X. Socheleau, « Robust estimation of noise standard deviation in the presence of signals with
unknown distribution and occurences», IEEE Trans. Signal Proc., vol. 60, no. 4, April 2012.
[7] S. M. Aziz Sbaï, A. Aïssa-El-Bey & D. Pastor, “Robust underdetermined blind audio source separation of
sparse signals in the time-frequency domain”, Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Proc.
ICASSP 2011, May 22-27, 2011