Evaluation de la synthèse binaurale dynamique

Transcription

Evaluation de la synthèse binaurale dynamique
CFA 2006
Evaluation de la synthèse binaurale dynamique
Julien FAURE et Grégory PALLONE
France Telecom R&D, TECH/SSTP, Technopole Anticipa - 2 avenue Pierre Marzin 22307 Lannion cedex
courriel : [email protected]; [email protected]
Résumé
Test de localisation
La synthèse binaurale consiste à spatialiser des sources sonores monophoniques en leur appliquant des filtres qui correspondent aux fonctions de transferts des oreilles pour différentes positions de l'espace et simuler ainsi un rendu audio
3D. Dans la synthèse binaurale dynamique, la position de la
tête est mesurée grâce à un appareillage spécifique appelé
"head tracker" et cette information est utilisée pour corriger
la restitution binaurale, et plus spécifiquement pour compenser les mouvements de tête. Ainsi, les sources produites par
la restitution binaurale dynamique sont perçues à une position fixe dans l'espace par rapport à l'environnement réel de
l'auditeur. L'auditeur peut ainsi évoluer physiquement à
l'intérieur d'un environnement sonore virtuel réaliste.
Le principe du test mené consiste à comparer les performances de localisation en dynamique et en statique. Dans une
première condition expérimentale, les sujets sont équipés
d'un "head tracker" qui mesure la position et l'orientation de
leur tête afin de corriger le rendu audio en conséquence.
Dans une deuxième condition expérimentale, les mêmes
sujets sont toujours équipés d'un "head tracker" mais ce
dernier n'est pas actif.
Les sujets entendent un son en une position donnée et doivent reporter cette position dans l'espace à l'aide d'un stylet
(dont la position est, elle aussi, mesurée). Le stylet et le
"head tracker" sont les capteurs du système Polhemus FASTRACK. L'ensemble du test (émission des sons, mesure des
positions reportées, mesure des positions de la tête) est piloté
en temps réel sous l'environnement de développement Virtools. Le casque utilisé pour la restitution est un casque
AKG K271. Une interface permet aux sujets d'avoir un
retour visuel de la position du stylet et de la tête.
Des tests subjectifs ont été menés afin d'évaluer l'apport de
la prise en compte des mouvements de la tête lors d'une
restitution sonore spatialisée par une technique de synthèse
binaurale. Ces tests ont été menés sur 4 groupes de sujets
différents : des sujets experts et non experts, des sujets dont
le rendu binaural est individualisé (via la mesure de leur
propre jeu d'HRTF) et non individualisé. Des analyses statistiques ont ainsi permis de mettre en avant les facteurs d'amélioration de la qualité spatiale du rendu binaural. Ces tests
permettent aussi de comparer l'intérêt de la prise en compte
des mouvements de la tête par rapport à l'individualisation
des HRTF ou par rapport au niveau d'expertise des sujets.
Introduction
Des expériences de Thurlow et Runge [1] dès 1967 ont montré que les mouvements de la tête permettent de réduire efficacement les erreurs de localisation en azimut, mais aussi en
élévation de manière significative pour des stimuli composés
de bruits à basse fréquence. Algazi et al. [2] se réfèrent à de
nombreuses études antérieures démontrant l'utilisation des
mouvements de tête pour aider à localiser les sons: la résolution des confusions avant/arrière et l'amélioration de la précision de localisation sont autant de bénéfices tirés des indices dynamiques. Plus récemment, Wightman et Kistler [3]
ont vérifié que de légers mouvements de la tête sont suffisants pour lever l'ambiguité avant/arrière, et qu'il n'y a pas de
différence de performance apparente dans le taux d'erreur
(localisation et confusion) entre des conditions réelles et
virtuelles.
Figure 1 : inteface graphique du test de localisation
Sujets
Au total, 16 sujets ont participé à chacune des deux conditions expérimentales (statique et dynamique). Parmi ces
sujets, 7 utilisent leurs propres HRTF mesurées en 965 positions de l'espace, et 9 utilisent une HRTF générique. 7 sujets
sont experts du domaine dans le sens où ils ont l'habitude
d'écouter des contenus binauraux. 9 sujets ne sont pas des
experts. Les sujets experts ne sont pas forcément ceux qui
ont leurs propres HRTF.
La présente étude, dans un contexte virtuel, se propose d'une
part de vérifier l'apport des indices dynamiques dans la localisation de sources, et d'autre part d'évaluer l'intérêt de posséder son propre jeu d'HRTF.
957
CFA 2006
sujets non-experts, HRTF individualisées, HRTF non individualisées. Une analyse MANOVA est employée pour faire
apparaître les résultats significatifs et pour conclure sur les
différents facteurs étudiés.
Stimuli
Le stimulus employé est une succession d'alternances entre
un bruit blanc de 200 ms et un silence de 200 ms. Les sujets
entendent le stimulus jusqu'à ce qu'ils positionnent la source.
Taux de confusion avant/arrière
Un ensemble de 13 positions cibles a été testé (cf. Figure 2 :
configuration des 13 positions cibles testées (en
rouge)Figure 2). Chaque position est répétée 4 fois. L'ordre
de présentation des 13 positions et des 4 répétitions est aléatoire.
Trois facteurs ont une influence significative sur le taux de
confusions avant/arrière. Ces facteurs sont, par ordre d'importance : l'aspect dynamique/statique, l'individualisation et
la position des stimuli.
Nous retrouvons ainsi le même résultat que Wightman et
Kistler [3] : l'utilisation d'un "head tracker" permet de réduire significativement le taux de confusions avant/arrière
(de 19,6% à 5,5 %).
Le facteur "position des stimuli" s'explique par le fait que la
majorité des inversions avant/arrière a eu lieu de l'avant vers
l'arrière.
L'étude des moyennes pour chaque sous-groupe de sujets (cf.
Figure 3) montre qu'en dynamique, l'influence de l'individualisation n'est pas significative sur le taux de confusions.
Par contre, en statique, le groupe de sujets ayant leurs propres HRTF a fait significativement moins de confusions (14
%) que le groupe de sujets ayant l'HRTF générique (23.9%).
Cette observation est aussi notée par Mackensen [4] qui a
comparé la localisation en écoute naturelle (dynamique) et la
localisation en écoute artificielle (statique et dynamique).
Dans son test, un mannequin artificiel fixé sur un moteur pas
à pas suit les mouvements de la tête de l'auditeur en temps
réel.
Figure 2 : configuration des 13 positions cibles testées (en
rouge)
Résultats
A partir de l'ensemble des résultats du test, cinq indicateurs
pertinents ont été extraits :
•
Le taux de confusion avant/arrière qui est le pourcentage d'inversion avant vers arrière (ou arrière
vers avant) sur le cône de confusion dans les jugements.
•
L'erreur angulaire totale qui est l'angle moyen entre
la vecteur cible et le vecteur réponse.
•
L'erreur moyenne de localisation en azimut qui est
la moyenne de l'angle entre l'azimut cible et l'azimut pointé par le sujet. Le système de coordonnées
choisi nécessite de pondérer l'ensemble des azimuts
en fonction de l'élévation par la relation linéaire
Figure 3 : taux de confusion avant/arrière pour chaque
sous-groupe de sujets.
suivante : Az = cos( El ) Az , où Az* est l'azimut
mesuré transformé, Az et El sont respectivement
l'azimut et l'élevation mesurés.
Erreur de localisation en azimut
*
•
•
L'analyse MANOVA a fait ressortir trois facteurs
significatifs qui sont, par ordre d'importance : l'expertise des
sujets, les mouvements de la tête et la position cible des
stimuli.
L'erreur moyenne de localisation en élévation qui
est la moyenne de l'angle entre l'élévation cible et
l'élévation pointée par le sujet. Cette mesure est fortement corrélée avec l'erreur angulaire totale.
L'expertise, apparentée à l'habitude de l'écoute spatiale
binaurale, a permis de réduire l'erreur de localisation
moyenne des sujets de 11,9 à 9,4°. L'aspect dynamique a
surtout permis de réduire l'erreur moyenne de localisation en
azimut du groupe de sujets non experts (cf. Figure 4). En
effet, pour ce groupe, l'erreur moyenne diminue de 13,3° en
statique à 10,4 ° en dynamique (proche de l'erreur moyenne
des experts et de l'erreur moyenne de localisation en champ
La dispersion des réponses, équivalent à l'écart-type
mais en statistique sphérique, qui relate le flou de
localisation.
Ces indicateurs ont été calculés pour chacune des six conditions expérimentales : statique, dynamique, sujets experts,
958
CFA 2006
libre). Ce résultat montre donc que l'utilisation d'un "head
tracker" permet à un sujet non expert d'atteindre les
performances de localisation en azimut d'un sujet expert.
Figure 4 : erreur de localisation en azimut pour chaque
sous-groupe de sujets.
Figure 5 : erreurs en élévation en fonctions de l'élévation
cible des sources
Dispersion des réponses
Erreur de localisation en élévation
La Figure 6 montre la dispersion moyenne des réponses pour
chacun des sous-groupes de sujets en fonction de l'azimut
cible. Nous pouvons observer d'une manière générale, que la
dispersion est plus importante pour des azimuts frontaux et
arrières que pour des azimuts latéraux. L'individualisation
réduit considérablement la dispersion des réponses pour des
azimuts frontaux (± 60°). La prise en compte des mouvements de la tête réduit aussi la dispersion, de manière moins
importante que l'individualisation mais toujours en position
frontale (± 60°). Ces observations sont confirmées par les
valeurs moyennes de dispersion pour chaque sous-groupe de
sujets (cf. Tableau 1).
Les résultats de ce paragraphe, qui concernent les erreurs de
localisation en élévation, s'appliquent aussi à l'erreur
angulaire totale de localisation puisque les deux variables
sont corrélées.
L'analyse MANOVA montre que le facteur individualisation
est prépondérant dans la réduction de l'erreur de localisation
en élévation. Un deuxième facteur significatif (mais
nettement moins que l'individualisation) est la position des
sources. Les sujets avec leurs propres HRTF ont fait une
erreur moyenne de 12,7° en élévation tandis que ceux sans
leur HRTF ont fait une erreur de 19,8°.
La répartition des erreurs en élévation par rapport à la
position des sons (cf. Figure 5) montre que plus l'élévation
(en valeur absolue) est importante, plus l'erreur commise est
importante. Il est à noter que l'individualisation modifie la
valeur moyenne des erreurs mais pas la répartition des
erreurs en fonction de l'élévation des sons.
Nous voyons aussi apparaître sur cette figure la forte erreur
de localisation en élévation pour le groupe de sujets ne
possédant pas leurs propres HRTF lorsque la source est en
position frontale.
Figure 6 : dispersion des réponses en fonction de l'azimut
cible pour les differents sous-groupes de sujets.
959
CFA 2006
Statique
Dynamique
Total
Avec HRTF
0,0457
0,0382
0,0419
Sans HRTF
0,0690
0,0630
0,0660
Total
0,0588
0,0522
Tableau 1 : dispersion moyenne des réponses suivant les
sous-groupes de sujets
La moyenne des dispersions de chacun des sujets (0,056) est
plus petite que la dispersion moyenne de l'ensemble des
sujets (0,099). Nous pouvons donc en déduire que les
différences de localisation intra-individuelles sont plus
faibles que les différences inter-individuelles. Autrement dit,
il existe un décalage systématique entre la position cible et la
position jugée, lié à l'adaptation des filtres binauraux pour
chaque individu.
Conclusions
Cette expérience a permis de quantifier conjointement
l'apport du "head tracker" (aspect dynamique), de l'expertise
et de l'individualisation des HRTF sur la tâche de
localisation. Nous avons vu que le principal intérêt du "head
tracker" est la forte réduction des confusions avant/arrière et
la réduction de la dispersion des réponses pour les azimuts
frontaux. L'individualisation des HRTF joue un rôle majeur
sur la réduction des erreurs en élévation et aussi sur la
dispersion des réponses pour les azimuts frontaux. Ces deux
voies d'amélioration sont donc complémentaires et
contribuent ensemble à l'amélioration des performances de
localisation en synthèse binaurale. En effet, les sujets avec
leurs propres HRTF et équipés du "head tracker" ont montré
des performances de localisation qui rivalisent avec celles
obtenues en écoute réelle en champ libre.
Références bibliographiques
[1] Thurlow WR, Runge PS. "Effect of induced head
movements on localization of direction of sounds", J Acoust
Soc Am. 1967 Aug;42(2):480-8
[2] VR Algazi, RO Duda and DM Thompson, "Motion-Tracked
Binaural Sound", Paper 6015, AES 116th Convention, Berlin,
Germany, May 2004.
[3] F. L. Wightman and D. L. Kistler, “Resolution of Front–
Back Ambiguity in Spatial Hearing by Listener and Source
Movement,” J. Acoust. Soc. Am., vol. 105, pp.2841–2853
(1999 May).
[4] Mackensen, P., Auditive Localization.Head Movements, an
additional cue in Localization. 2004, Geisteswissenschaften der
Technischen Universität Berlin: Berlin.
960