Evaluation de la synthèse binaurale dynamique
Transcription
Evaluation de la synthèse binaurale dynamique
CFA 2006 Evaluation de la synthèse binaurale dynamique Julien FAURE et Grégory PALLONE France Telecom R&D, TECH/SSTP, Technopole Anticipa - 2 avenue Pierre Marzin 22307 Lannion cedex courriel : [email protected]; [email protected] Résumé Test de localisation La synthèse binaurale consiste à spatialiser des sources sonores monophoniques en leur appliquant des filtres qui correspondent aux fonctions de transferts des oreilles pour différentes positions de l'espace et simuler ainsi un rendu audio 3D. Dans la synthèse binaurale dynamique, la position de la tête est mesurée grâce à un appareillage spécifique appelé "head tracker" et cette information est utilisée pour corriger la restitution binaurale, et plus spécifiquement pour compenser les mouvements de tête. Ainsi, les sources produites par la restitution binaurale dynamique sont perçues à une position fixe dans l'espace par rapport à l'environnement réel de l'auditeur. L'auditeur peut ainsi évoluer physiquement à l'intérieur d'un environnement sonore virtuel réaliste. Le principe du test mené consiste à comparer les performances de localisation en dynamique et en statique. Dans une première condition expérimentale, les sujets sont équipés d'un "head tracker" qui mesure la position et l'orientation de leur tête afin de corriger le rendu audio en conséquence. Dans une deuxième condition expérimentale, les mêmes sujets sont toujours équipés d'un "head tracker" mais ce dernier n'est pas actif. Les sujets entendent un son en une position donnée et doivent reporter cette position dans l'espace à l'aide d'un stylet (dont la position est, elle aussi, mesurée). Le stylet et le "head tracker" sont les capteurs du système Polhemus FASTRACK. L'ensemble du test (émission des sons, mesure des positions reportées, mesure des positions de la tête) est piloté en temps réel sous l'environnement de développement Virtools. Le casque utilisé pour la restitution est un casque AKG K271. Une interface permet aux sujets d'avoir un retour visuel de la position du stylet et de la tête. Des tests subjectifs ont été menés afin d'évaluer l'apport de la prise en compte des mouvements de la tête lors d'une restitution sonore spatialisée par une technique de synthèse binaurale. Ces tests ont été menés sur 4 groupes de sujets différents : des sujets experts et non experts, des sujets dont le rendu binaural est individualisé (via la mesure de leur propre jeu d'HRTF) et non individualisé. Des analyses statistiques ont ainsi permis de mettre en avant les facteurs d'amélioration de la qualité spatiale du rendu binaural. Ces tests permettent aussi de comparer l'intérêt de la prise en compte des mouvements de la tête par rapport à l'individualisation des HRTF ou par rapport au niveau d'expertise des sujets. Introduction Des expériences de Thurlow et Runge [1] dès 1967 ont montré que les mouvements de la tête permettent de réduire efficacement les erreurs de localisation en azimut, mais aussi en élévation de manière significative pour des stimuli composés de bruits à basse fréquence. Algazi et al. [2] se réfèrent à de nombreuses études antérieures démontrant l'utilisation des mouvements de tête pour aider à localiser les sons: la résolution des confusions avant/arrière et l'amélioration de la précision de localisation sont autant de bénéfices tirés des indices dynamiques. Plus récemment, Wightman et Kistler [3] ont vérifié que de légers mouvements de la tête sont suffisants pour lever l'ambiguité avant/arrière, et qu'il n'y a pas de différence de performance apparente dans le taux d'erreur (localisation et confusion) entre des conditions réelles et virtuelles. Figure 1 : inteface graphique du test de localisation Sujets Au total, 16 sujets ont participé à chacune des deux conditions expérimentales (statique et dynamique). Parmi ces sujets, 7 utilisent leurs propres HRTF mesurées en 965 positions de l'espace, et 9 utilisent une HRTF générique. 7 sujets sont experts du domaine dans le sens où ils ont l'habitude d'écouter des contenus binauraux. 9 sujets ne sont pas des experts. Les sujets experts ne sont pas forcément ceux qui ont leurs propres HRTF. La présente étude, dans un contexte virtuel, se propose d'une part de vérifier l'apport des indices dynamiques dans la localisation de sources, et d'autre part d'évaluer l'intérêt de posséder son propre jeu d'HRTF. 957 CFA 2006 sujets non-experts, HRTF individualisées, HRTF non individualisées. Une analyse MANOVA est employée pour faire apparaître les résultats significatifs et pour conclure sur les différents facteurs étudiés. Stimuli Le stimulus employé est une succession d'alternances entre un bruit blanc de 200 ms et un silence de 200 ms. Les sujets entendent le stimulus jusqu'à ce qu'ils positionnent la source. Taux de confusion avant/arrière Un ensemble de 13 positions cibles a été testé (cf. Figure 2 : configuration des 13 positions cibles testées (en rouge)Figure 2). Chaque position est répétée 4 fois. L'ordre de présentation des 13 positions et des 4 répétitions est aléatoire. Trois facteurs ont une influence significative sur le taux de confusions avant/arrière. Ces facteurs sont, par ordre d'importance : l'aspect dynamique/statique, l'individualisation et la position des stimuli. Nous retrouvons ainsi le même résultat que Wightman et Kistler [3] : l'utilisation d'un "head tracker" permet de réduire significativement le taux de confusions avant/arrière (de 19,6% à 5,5 %). Le facteur "position des stimuli" s'explique par le fait que la majorité des inversions avant/arrière a eu lieu de l'avant vers l'arrière. L'étude des moyennes pour chaque sous-groupe de sujets (cf. Figure 3) montre qu'en dynamique, l'influence de l'individualisation n'est pas significative sur le taux de confusions. Par contre, en statique, le groupe de sujets ayant leurs propres HRTF a fait significativement moins de confusions (14 %) que le groupe de sujets ayant l'HRTF générique (23.9%). Cette observation est aussi notée par Mackensen [4] qui a comparé la localisation en écoute naturelle (dynamique) et la localisation en écoute artificielle (statique et dynamique). Dans son test, un mannequin artificiel fixé sur un moteur pas à pas suit les mouvements de la tête de l'auditeur en temps réel. Figure 2 : configuration des 13 positions cibles testées (en rouge) Résultats A partir de l'ensemble des résultats du test, cinq indicateurs pertinents ont été extraits : • Le taux de confusion avant/arrière qui est le pourcentage d'inversion avant vers arrière (ou arrière vers avant) sur le cône de confusion dans les jugements. • L'erreur angulaire totale qui est l'angle moyen entre la vecteur cible et le vecteur réponse. • L'erreur moyenne de localisation en azimut qui est la moyenne de l'angle entre l'azimut cible et l'azimut pointé par le sujet. Le système de coordonnées choisi nécessite de pondérer l'ensemble des azimuts en fonction de l'élévation par la relation linéaire Figure 3 : taux de confusion avant/arrière pour chaque sous-groupe de sujets. suivante : Az = cos( El ) Az , où Az* est l'azimut mesuré transformé, Az et El sont respectivement l'azimut et l'élevation mesurés. Erreur de localisation en azimut * • • L'analyse MANOVA a fait ressortir trois facteurs significatifs qui sont, par ordre d'importance : l'expertise des sujets, les mouvements de la tête et la position cible des stimuli. L'erreur moyenne de localisation en élévation qui est la moyenne de l'angle entre l'élévation cible et l'élévation pointée par le sujet. Cette mesure est fortement corrélée avec l'erreur angulaire totale. L'expertise, apparentée à l'habitude de l'écoute spatiale binaurale, a permis de réduire l'erreur de localisation moyenne des sujets de 11,9 à 9,4°. L'aspect dynamique a surtout permis de réduire l'erreur moyenne de localisation en azimut du groupe de sujets non experts (cf. Figure 4). En effet, pour ce groupe, l'erreur moyenne diminue de 13,3° en statique à 10,4 ° en dynamique (proche de l'erreur moyenne des experts et de l'erreur moyenne de localisation en champ La dispersion des réponses, équivalent à l'écart-type mais en statistique sphérique, qui relate le flou de localisation. Ces indicateurs ont été calculés pour chacune des six conditions expérimentales : statique, dynamique, sujets experts, 958 CFA 2006 libre). Ce résultat montre donc que l'utilisation d'un "head tracker" permet à un sujet non expert d'atteindre les performances de localisation en azimut d'un sujet expert. Figure 4 : erreur de localisation en azimut pour chaque sous-groupe de sujets. Figure 5 : erreurs en élévation en fonctions de l'élévation cible des sources Dispersion des réponses Erreur de localisation en élévation La Figure 6 montre la dispersion moyenne des réponses pour chacun des sous-groupes de sujets en fonction de l'azimut cible. Nous pouvons observer d'une manière générale, que la dispersion est plus importante pour des azimuts frontaux et arrières que pour des azimuts latéraux. L'individualisation réduit considérablement la dispersion des réponses pour des azimuts frontaux (± 60°). La prise en compte des mouvements de la tête réduit aussi la dispersion, de manière moins importante que l'individualisation mais toujours en position frontale (± 60°). Ces observations sont confirmées par les valeurs moyennes de dispersion pour chaque sous-groupe de sujets (cf. Tableau 1). Les résultats de ce paragraphe, qui concernent les erreurs de localisation en élévation, s'appliquent aussi à l'erreur angulaire totale de localisation puisque les deux variables sont corrélées. L'analyse MANOVA montre que le facteur individualisation est prépondérant dans la réduction de l'erreur de localisation en élévation. Un deuxième facteur significatif (mais nettement moins que l'individualisation) est la position des sources. Les sujets avec leurs propres HRTF ont fait une erreur moyenne de 12,7° en élévation tandis que ceux sans leur HRTF ont fait une erreur de 19,8°. La répartition des erreurs en élévation par rapport à la position des sons (cf. Figure 5) montre que plus l'élévation (en valeur absolue) est importante, plus l'erreur commise est importante. Il est à noter que l'individualisation modifie la valeur moyenne des erreurs mais pas la répartition des erreurs en fonction de l'élévation des sons. Nous voyons aussi apparaître sur cette figure la forte erreur de localisation en élévation pour le groupe de sujets ne possédant pas leurs propres HRTF lorsque la source est en position frontale. Figure 6 : dispersion des réponses en fonction de l'azimut cible pour les differents sous-groupes de sujets. 959 CFA 2006 Statique Dynamique Total Avec HRTF 0,0457 0,0382 0,0419 Sans HRTF 0,0690 0,0630 0,0660 Total 0,0588 0,0522 Tableau 1 : dispersion moyenne des réponses suivant les sous-groupes de sujets La moyenne des dispersions de chacun des sujets (0,056) est plus petite que la dispersion moyenne de l'ensemble des sujets (0,099). Nous pouvons donc en déduire que les différences de localisation intra-individuelles sont plus faibles que les différences inter-individuelles. Autrement dit, il existe un décalage systématique entre la position cible et la position jugée, lié à l'adaptation des filtres binauraux pour chaque individu. Conclusions Cette expérience a permis de quantifier conjointement l'apport du "head tracker" (aspect dynamique), de l'expertise et de l'individualisation des HRTF sur la tâche de localisation. Nous avons vu que le principal intérêt du "head tracker" est la forte réduction des confusions avant/arrière et la réduction de la dispersion des réponses pour les azimuts frontaux. L'individualisation des HRTF joue un rôle majeur sur la réduction des erreurs en élévation et aussi sur la dispersion des réponses pour les azimuts frontaux. Ces deux voies d'amélioration sont donc complémentaires et contribuent ensemble à l'amélioration des performances de localisation en synthèse binaurale. En effet, les sujets avec leurs propres HRTF et équipés du "head tracker" ont montré des performances de localisation qui rivalisent avec celles obtenues en écoute réelle en champ libre. Références bibliographiques [1] Thurlow WR, Runge PS. "Effect of induced head movements on localization of direction of sounds", J Acoust Soc Am. 1967 Aug;42(2):480-8 [2] VR Algazi, RO Duda and DM Thompson, "Motion-Tracked Binaural Sound", Paper 6015, AES 116th Convention, Berlin, Germany, May 2004. [3] F. L. Wightman and D. L. Kistler, “Resolution of Front– Back Ambiguity in Spatial Hearing by Listener and Source Movement,” J. Acoust. Soc. Am., vol. 105, pp.2841–2853 (1999 May). [4] Mackensen, P., Auditive Localization.Head Movements, an additional cue in Localization. 2004, Geisteswissenschaften der Technischen Universität Berlin: Berlin. 960