PROPOSITION DE THESE : Méthodes
Transcription
PROPOSITION DE THESE : Méthodes
PROPOSITION DE THESE : Méthodes avancées de traitement de la parole et de réduction de bruit pour les terminaux mobiles ENCADREMENT DE LA THESE : Dominique PASTOR (directeur de thèse), Raphaël LE BIDAN, Abdeldjalil AISSA EL BEY EQUIPE D’ACCUEIL DE LA THESE Télécom Bretagne (Brest), laboratoire LABSTICC, pôle CID, équipe TOMS (Traitements, Observations et Méthodes Statistiques) FINANCEMENT : CDD (financement garanti), salaire net 1450€/mois DÉBUT DE LA THÈSE : Octobre 2013 PROFIL RECHERCHÉ : Titulaire d’un Master Recherche ou diplôme d’Ingénieur Grandes Ecoles avec des compétences en mathématiques et traitement du signal. MODALITÉS DE CANDIDATURE : Envoyer dossier complet (CV + lettre de motivation + relevé de notes + nom des encadrants de stage + lettres de recommandations) par email à [email protected], [email protected] et [email protected]. Dans le cadre de cet appel, les candidatures seront examinées er et traitées au fur et à mesure de leur réception, dans la limite de la date du 1 juin 2013. MOTS CLES : Traitement de la parole, débruitage, annulation d’écho, séparation de sources, formation de voie DESCRIPTION : Le marché des smartphones connaît un succès grandissant qui ne se dément pas depuis le lancement de l’iPhone d’Apple en 2007. Fin 2011, le point d’inflexion a ainsi été franchi puisque, selon les données récoltées par le bureau d’études Gfk, le volume de vente de smartphone (> 12 millions d’unité) a atteint celui des téléphones « classiques ». Ce phénomène a modifié durablement l’écosystème de la téléphonie mobile, en y installant de nouveaux acteurs (Apple, Samsung, Google) et en rétrogradant d’autres (Nokia), ainsi que notre usage du téléphone au quotidien. Plus fondamentalement, les smartphones sont des plate-formes extrêmement sophistiquées, qui ouvrent la voie à de nouvelles façons de concevoir la téléphonie mobile du point de vue technologique. C’est particulièrement vrai concernant le traitement de la parole et plus généralement de l’audio. Traditionnellement, dans les téléphones classiques, le traitement de la parole se résume à des fonctions relativement simples (compression, contrôle de gain, égalisation, annulation d’écho) directement intégrées au cœur de chaque puce modem 2G/3G(+)/4G équipant le mobile. Avec la démocratisation des smartphones se dessine progressivement une nouvelle architecture où tous les traitements audio sont mutualisés et reportés vers un chipset complémentaire dédié, à base de cœur DSP (donc reprogrammable) et d’accélérateurs matériels adéquats (FFT, etc). Ce dernier peut gérer notamment la présence de plusieurs micros et permet la mise en œuvre de traitements bien plus avancés que les fonctions traditionnelles, notamment en ce qui concerne la réduction de bruit [1]. Il ne s’agit plus ici simplement de permettre l’intelligibilité d’une conversation dans un environnement bruité, mais d’augmenter significativement la qualité de la conversation (on ne souhaite plus simplement comprendre ce qu’on nous dit, mais pouvoir reconnaître distinctement qui nous parle). La qualité audio du téléphone devient ainsi un élément différentiateur clé sur laquelle les fabricants communiquent pour se démarquer de la concurrence, au point de modifier le téléphone lui-même de manière à proposer des traitements plus performants, tels que l’annulation active de bruit [2] (technologie similaire à celle équipant les casques hifi haut de gamme ainsi que certaines protections auditives professionnelles). L’Apple iPhone 5, lancé fin septembre 2012, est ainsi l’un des premiers smartphones à proposer non plus deux, mais trois micros HD, pour améliorer la réduction de bruit. Certains fabricants, notamment Qualcomm et Texas Instruments, ont fait le choix de développer chacun leur propre technologie de réduction de bruit. De nombreux acteurs préfèrent acheter des solutions clé-en-main. Les performances des puces audio de la société Audience [3] font aujourd’hui référence dans le domaine, et équipent de nombreux smartphones haut-de-gamme à l’image de l’iPhone 4s ou bien du récent Samsung Galaxy SIII. L’enjeu est d’autant plus important que le déploiement progressif des codecs audio large-bande à 16 kHz dits HD Voice dans les réseaux mobiles opérateurs, en remplacement des codecs classiques opérant à 8 kHz, modifie significativement notre perception de la qualité d’une communication mobile et la rend plus sensible aux moindres imperfections (communications hachées, bruit musical, etc). L’objectif de cette thèse consiste à développer des méthodes avancées de traitement de la parole et de réduction de bruit visant à améliorer de manière significative la qualité d’une conversation mobile dans des environnements très bruyants tels qu’une station de gare ou de métro, une avenue d’une grande agglomération aux heures de pointe, un restaurant bondé ou bien une salle de concert. L’utilisation du téléphone en mode main-libre sera également considérée car elle est, par nature, davantage bruitée que l’utilisation en mode normal (combiné sur l’oreille). Elle pose par ailleurs des difficultés supplémentaires par rapport à cette dernière puisque le signal de parole n’est alors plus nécessairement capté de manière privilégiée par le micro et tend ainsi davantage à se fondre dans le bruit. Une étude comparative sera menée afin de déterminer la (ou les) transformée(s) la(es) mieux adaptée(s) à ce problème de débruitage. On s’intéressera notamment à la transformée cochléaire, ainsi qu’à la transformée en ondelettes. On se penchera également sur la classification des sons perçus en différentes catégories (voix, bruit ambiant, bruits périodiques, musique, trafic, etc), dans le but de faciliter la rejection des sources sonores autres que le signal d’intérêt. L’étude considèrera non-seulement le cas mono-capteur classique, mais également le cas multi-capteurs, pour tenir compte de la présence de plusieurs micros sur les smartphones haut de gamme dernière génération. Dans ce contexte, on étudiera l’apport des techniques de séparation de source et de formation de voies aux problèmes de réduction de bruit et d’annulation d’échos. Les méthodes mises en œuvre s’appuieront sur les compétences développées par le laboratoire dans le domaine du débruitage [4], de la reconnaissance automatique de la parole [5] et du traitement des signaux parcimonieux, notamment sur certains résultats récents relatifs à l’estimation robuste du bruit [6] et la séparation de sources audio [7]. RÉFÉRENCES : [1] P. C. Loizou, Speech Enhancement, CRC Press, 2007. [2] Audience technology & products. [Online] http://www.audience.com/ . [3] Y. Kajikawa, W.-S. Gan & S. M. Kuo, « Recent advances on active noise control: open issues and innovative applications », APSIPA Trans. on Signal and Information Processing, Cambridge University Press, vol. 1, Aug. 2012 [4] A. Amehraye, Débruitage perceptuel de la parole, Thèse Télécom Bretagne, Mai 2009 [5] C.-T. Do, Subband temporal envelopes of speech signal and their central role in robust ASR and perceptuallymotivated speech signal processing, Thèse Télécom Bretagne, Octobre 2010 [6] D. Pastor & F.-X. Socheleau, « Robust estimation of noise standard deviation in the presence of signals with unknown distribution and occurences», IEEE Trans. Signal Proc., vol. 60, no. 4, April 2012. [7] S. M. Aziz Sbaï, A. Aïssa-El-Bey & D. Pastor, “Robust underdetermined blind audio source separation of sparse signals in the time-frequency domain”, Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Proc. ICASSP 2011, May 22-27, 2011