Perception et Réalisation du /R/ standard français en finale de mot.
Transcription
Perception et Réalisation du /R/ standard français en finale de mot.
Perception et Réalisation du /R/ standard français en finale de mot. Cedric Gendrot 1 (1) LPP, ILPGA, 19 rue des bernardins, 75005 Paris. [email protected] RESUME____________________________________________________________________________________________________________ La variabilité du /R/ en français (comme dans d'autres langues) est reconnue dans la littérature, et ses différentes réalisations sont souvent considérées comme des variantes libres. Dans cette étude, afin de mieux appréhender la variabilité du /R/, nous nous concentrons sur le /R/ final de mot, et nous avons choisi de l'étudier à l'aide d'une approche en 2 étapes : (1) au moyen d'un test de perception. Dans un premier temps des séquences de 2 mots séparées par la présence du /R/ (par exemple "par les" / "pas les") ont été sélectionnées afin de constituer un continuum entre un /R/ pleinement réalisé et un /R/ élidé. Ces items ont été soumis à 23 auditeurs pour un test d'identification afin de relever les paramètres pertinents à la perception du /R/ et ainsi proposer une mesure de rhoticité. (2) Cette mesure de rhoticité, une fois utilisée sur de grands corpus de parole continue (spontanée et journalistique) nous permet d'appréhender la variabilité du /R/ d'après des prédicteurs tels que la fréquence de digrammes, le débit, le contexte phonémique, et la position prosodique. ABSTRACT _________________________________________________________________________________________________________ Variability of (French) /R/ is a frequently studied phenomenon showing that /R/ can have multiple realizations. In French, all these studies were undertaken using small read corpora and we have reason to believe that these corpora don't allow to look at the full picture. Indeed factors such as local diphone and digram frequency, as well as speech rate can have almost as much influence as phonemic context in the realization of /R/ According to Ohala's AFP's principle, /R/ would tend to be either an unvoiced fricative or a voiced approximant. We chose to analyze word final /R/s as they tend to embrace the largest spectrum of variation. The study realized here is two-fold: a perception study in a specific phonemic context, between /a/ and /l/, where /R/ is realized as an approximant, so as to better understand the parameters and their thresholds necessary for /R/ identification, and provide a measure of rhoticity. In a second step, keeping the rhoticity measurement in mind, we analyzed the realizations of word final /R/s in two continuous speech corpora (journalistic and spontaneous) and modelized the realization of /R/ using predictors such as diphone and digram frequency, phonemic context and speech rate. MOTS-CLES : /R/, phonétique, production, perception, prédicteurs, grands corpus. KEYWORDS: /R/, phonetics, production, perception, predictors, large corpora. 1 1.1 Introduction Acoustique du /R/ Cette étude est un travail préliminaire au sein de l'ANR REPER visant à comprendre la variabilité du /R/ français standard dans une approche didactique pour les apprenants de Français Langue Etrangère. Walter (1988), Chafcouloff (1980,1983), Fougeron (2007), Meunier (1994) pour le français ont évoqué la variabilité du /R/ qui peut être réalisé de voisé ([ʁ̬]) à dévoisé ([ʁ̥]), fricatif ([ʁ̝]), ou approximant ([ʁ̞]). De nombreuses études ont également mentionné la variabilité du /R/ pour d'autres langues (Maddieson, 1984 et références incluses, Mielke et al. 2010, Lawson et al. 2008), avec une tendance notable à se dérhoticiser. D'un point de vue phonologique, le /R/ pourrait être à la fois considéré comme une fricative ou comme une approximante et les évolutions mentionnées dans les travaux ci-dessus tendent à le faire basculer dans l'une ou l'autre de ces catégories. De même, la spécification de son voisement pourrait être reconsidérée. Le /R/ final de mot, qu'il soit ou non suivi d'une pause, semble particulièrement sujet à variation, d'autant qu'il peut également être élidé. Nous considérons ici que la variabilité du /R/ français évoquée dans la littérature n'est pas parfaitement appréhendée, du fait qu'elle est analysée principalement dans des corpus lus et parfois basée sur des jugements impressionnistes. Nous prônons dans cette étude l'utilisation d'un test de perception ainsi qu'un recours à une analyse sur grands corpus afin de mieux comprendre la variabilité du /R/ en français. L'utilisation de corpus de parole continue peut avoir deux conséquences importantes : (1) observer une variabilité plus importante que pour de la parole lue (2) mais également de meilleures possibilités de comprendre les modulations de ce phonème, par des critères plus variés et de plus haut niveau que ceux fréquemment mentionnés dans les études précédentes. Au delà de critères tels que le contexte phonémique et la position dans le mot, nous pensons que des prédicteurs tels que le débit local, la fréquence (lexicale et/ou de digrammes), ou la position dans la phrase prosodique sont importants. 1.2 Perception du /R/ Les critères d'identification du /R/ restent flous, notamment si l'on prend en compte sa variabilité. Existe-t-il des critères qui restent stables quelque soit la réalisation du /R/ ? Nous pensons qu'il est nécessaire de réaliser un test perceptif qui permettra de mettre en parallèle l'identification du /R/ et des mesures acoustiques. On trouve peu d'études sur la perception du /R/, particulièrement en français. Une des sources de difficultés de mettre en place un test de perception sur le /R/ est qu'il est particulièrement difficile de le réaliser par la synthèse de Klatt. Il apparait hasardeux de contrôler tous les paramètres afin de réaliser un continuum tel que pour la recherche de prototype ou la perception catégorielle. L'utilisation de grands corpus permet de contourner en partie, bien qu'imparfaitement, ce problème en permettant de relever un nombre important d'occurrences diversifiées et de constituer soi-même ce continuum par une sélection appropriée des items. Les détails de cette sélection seront évoqués dans la partie consacrée (2.1.) 1.3 Physiologie du /R/ La variabilité du /R/ pourrait être due à sa réalisation physiologique. En s'inspirant du principe de contrainte aérodynamique de voisement (Ohala, 2013), le statut approximant ou fricatif du /R/ impliquera in fine une dichotomie entre fricative sourde et approximante voisée. Notamment parce que le /R/ est un phonème postérieur (uvulaire) et que la taille de la cavité postérieure est alors très réduite, la pression orale peut arriver rapidement à hauteur de la pression sous-glottique et ainsi "éteindre" le voisement. Le /R/ pourrait ainsi être réalisé comme une fricative sourde ou comme une approximante voisée selon le degré de constriction. C'est ce qui selon nous explique la forte variabilité du /R/, le paramètre de stricture va influencer non seulement le continuum approximante/fricative, mais également le trait de voisement, ces 2 dimensions étant corrélées. 2 2.1 Méthode d'investigation Test d'identification du /R/ Le but de cette expérience est de fournir des digrammes naturels distingués par la présence du /R/ (de type "par les" versus "pas les") à des auditeurs pour qu'ils les identifient. Trois types de séquences de digrammes ont été choisis pour leur fréquence d'usage dans les corpus : "par les" versus "pas les", "par la" vs. "pas la", "par le" vs. "pas le". Il était difficile d'envisager de présenter des monogrammes de par leur courte durée. Quatre locuteurs ont été choisis - au sein des 2 corpus présentés ci-dessous - sur la base du plus grand nombre d'occurrences obtenues et de leur variété. Les digrammes avec une pause entre les deux mots n'ont pas été retenus. Trois hommes et une femme ont été sélectionnés : trois locuteurs (2 hommes, 1 femme) sur le corpus de parole journalistique et le locuteur masculin restant sur le corpus de parole spontanée. Un minimum de trois occurrences (et jusqu'à cinq quand cela était possible) par locuteur et par type de digramme a été retenu avec une occurrence où le /R/ est absent de façon sous-jacente ("pas"), une occurrence où le /R/ est réalisé hyperarticulé ([ʁ]) et une occurrence où le /R/ est jugé réduit ([ʁ̞]) par 3 experts phonéticiens (dont l'auteur). Quand cela était possible, une occurrence où le /R/ a été jugé élidé par les mêmes experts et une autre occurrence où le /R/ est réduit ont été ajoutées. La sélection des items s'est faite en choisissant des items au débit et à la f0 comparables. Au total, 43 items ont été sélectionnés. Le test s'est déroulé sur ordinateur auprès de 23 étudiants de sciences du Langage de 1ère à 3ème année. Un script PRAAT a été écrit pour présenter les différents stimuli aux sujets selon la procédure suivante. Cinq répétitions par item ont été proposées dans ce test, dans un ordre semi-aléatoire afin d'éviter les doublons, et varié pour chaque sujet. L'expérience s'est déroulée en trois parties distinctes ("par les", "par la" et "par le"). Après avoir choisi entre les deux propositions en cliquant sur la case appropriée ("pas les" ou "par les", "pas la" ou "par la" et "pas le" ou "par le"), les sujets devaient indiquer sur une échelle de 1 à 5 le degré de certitude avec lequel ils avaient répondu, 5 étant la certitude maximale. Chaque stimulus était précédé d'un bip et aucune autre écoute n'était possible pour le sujet. Une phase d'entrainement avec des items nouveaux permettait aux sujets de se familiariser à la tâche demandée. FIGURE 1 – Capture d'écran du test d'identification 2.2 Corpus et mesures Deux types de corpus sont utilisés pour cette étude : le corpus ESTER (Galliano et al. 2005), un corpus de parole journalistique considéré comme de la parole préparée plutôt que lue, avec quelques séquences de parole libre ; et le corpus NCCF (Nijmegen Corpus of Casual French), détaillé dans Torreira et al. (2010) et qui s'approche plus de la parole spontanée. Dans les 2 cas, la segmentation et transcription orthographique a été dans un premier temps effectuée par des auditeurs humains et l’alignement en phonèmes et en mots a été réalisée automatiquement par le système d’alignement automatique du LIMSI (Gauvain et al. 2002). La segmentation du /R/ est actuellement en cours de correction manuelle, elle n'a été effectuée que sur 11 heures du corpus de parole journalistique et 7 heures de parole spontanée. Cette correction de segmentation montre que si les frontières de début et de fin de /R/ sont souvent trop longues (environ 15ms au total), la position centrale du /R/ reste bonne, et la position des frontières précédant et suivant le phonème sont également bonnes. L'élision du /R/ est rarement prévue par les systèmes de reconnaissance automatique et la présence du /R/ est ainsi parfois corrigée par les correcteurs. La prise de décision reste cependant difficile puisque des "traces" acoustiques permettent d'identifier auditivement la présence du /R/ sans pour autant être capable de le localiser. Lorsque /R/ est réalisé comme une fricative sourde, l'information spectrale contenue dans le phonème ne pose pas de problème pour sa détection et sa segmentation. Par contre, lorsqu'il est réalisé comme une approximante voisée, il tend à se dérhoticiser et à être difficile à segmenter, voire à identifier, ce qui est fréquemment le cas dans le contexte que nous avons choisi ici (i.e. précédé par une voyelle et suivi par une sonante). Ces difficultés nous ont amené à réaliser le test de perception mentionné en 2.1 et à proposer des mesures dites syntagmatiques, i.e. relatives aux phonèmes environnants, décrites en 3. Des mesures acoustiques ont été effectuées sur les items utilisés lors du test de perception. Celles-ci ont été effectuées automatiquement avec Praat et vérifiées manuellement. Des mesures prosodiques (durée des différents segments, f0 et intensité) et spectrales (fréquence, largeur de bande et amplitude des formants, moments spectraux) ainsi que des mesures de HNR (harmonic-to-noise ratio) ont été choisies afin d'avoir un panel le plus descriptif possible dans notre tentative de corréler les résultats du test perceptif aux mesures acoustiques. Des mesures syntagmatiques (i.e. à partir des segments adjacents) ont été effectuées. Précisément, les mesures ont été prises entre le début du /a/ (de "pas" ou "par") et la fin de /l/ (de "les", "le" ou "la") à 20%, 40%, 60% et 80% de la durée de la séquence /aRl/. Des ratios entre chaque point de mesure ont permis d'obtenir des mesures relatives entre /R/ et son phonème précédent /a/. Le but de ces mesures syntagmatiques est d'obtenir des mesures relatives pour le cas où la variation des valeurs (plutôt que des valeurs absolues) serait plus pertinente. Les mesures relatives effectuées en comparant le /R/ et le /l/ ne se sont pas avérées significatives et ne sont pas développées ci-après. 3 3.1 Résultats Perception de la différence "pas" / "par" Les résultats du test de perception sont détaillés dans la table 1. Dans l'ensemble, les séquences "pas les" sont identifiées comme telles, i.e. sans le /R/ (à 96.25%). Les séquences "par les" où le /R/ avait été jugé pleinement réalisé par les experts sont identifiées comme telles à 97.1%, 87.25% pour les cas où /R/ avait été jugé approximant, et plus surprenant jusqu'à 74.4% pour les /R/ que les experts avaient jugé élidé. Ces premiers résultats, et particulièrement pour le dernier cas, indiquent que des traces acoustiques subsistent dans le signal, quand bien même la présence du /R/ serait considérée comme discutable par les experts phonéticiens. Il est à noter que seul un item "par" (un /R/ jugé comme approximant par les experts) a été identifié comme tel par moins de 50% des sujets. Le second item ayant recueilli le moins d'identifications "par" est un item pour lequel /R/ avait été jugé élidé, et son taux d'identification monte tout de même à 62.5%. Les scores de certitude indiquent une moyenne stable et proche du maximum (autour de 4.5) pour les réponses correspondant à la majorité des votes (en gras dans le tableau 1). pas les /pas le / pas la identification "par" 3.75% (par) 96.25% (pas) par (ø) les / par (ø) le / par (ø) la 74.4% (par) 25.6% (pas) certitude (de 1 à 5) 2.95 (par) 4.48 (pas) 4.14 (par) 3.19 (pas) par (ʁ̞) les / par (ʁ̞) le / par (ʁ̞) la 87.25% (par) 12.75% (pas) par (ʁ) les / par (ʁ) / le par (ʁ) la 97.1% (par) 2.9% (pas) 4.3 (par) 2.87 (pas) 4.5 (par) 2.8 (pas) TABLE 1 – Résumé du nombre d'identifications de "par" (et ses différentes réalisations) et "pas" Dans un premier temps, nous avons effectué une régression logistique entre la forme "pas" et la forme "par" (jugée fricative) pour identifier les critères acoustiques entre les 2 formes sous-jacentes. L'identification du /R/ se caractérise pour tous les locuteurs par une baisse de F2 (p=0.012), et une diminution de la durée de la voyelle précédente (p=0.01) et de la séquence /aRl/ (p=0.04) pour l'item "par" en comparaison de "pas". Une montée de F1 et du HNR ('harmonic-to-noise-ratio'), ainsi qu'une diminution de f0 est observée pour trois locuteurs sur quatre seulement. 3.2 Perception de la différence entre les différents types de "par" Dans un deuxième temps, les différentes formes de /R/ jugées par les experts phonéticiens (élidé, approximant, fricatif) ont été comparées afin d'identifier les critères de variation du /R/. Une régression linéaire a permis de mettre en évidence les facteurs acoustiques impliquant un nombre plus grand de détections du /R/ (i.e. du mot "par"). Seule une baisse de F2 (p=0.005) et de la durée de la séquence /aRl/ (p=0.013) permet de prédire significativement un taux plus important de détections de /R/. La durée de la voyelle précédente s'approche du seuil de significativité sans toutefois l'atteindre. Les 2 items "par" mentionnés en 3.1 ayant recueilli moins d'identification du /R/ lors du test de perception sont d'ailleurs caractérisés par une valeur plus haute de F2 véhiculant un timbre moins postérieur de la voyelle. 3.3 Regroupement de tous les items et calcul d'une mesure de rhoticité Puisque les paramètres récurrents impliqués dans la réalisation et la variation du /R/ sont la durée de la voyelle précédente et de la séquence, et l'abaissement de F2 (ou plus précisément le rapprochement de F1 et F2 depuis la voyelle jusqu'au /R/), nous avons regroupé ces mesures en une mesure de rhoticité calculée de la façon suivante : durée de la voyelle précédente/(variation F2 - variation F1). Dans une travail en cours, nous espérons que cette mesure calculée et affichée sur un diagramme en temps réel permettra à des apprenants du Français Langue Etrangère de s'entrainer à la production du /R/ français. Un arbre de décision (cf. figure 2) calculé dans le logiciel R (version 2.15.1) à l'aide de la fonction ctree a permis de déterminer les seuils d'identification du /R/ à 0.5 pour la mesure de rhoticité (/R/ est détecté au dessus de ce seuil), avec une variation nécessaire de F2 (depuis la voyelle /a/) estimée à 73 Hz et une diminution de durée vocalique d'environ 30ms. FIGURE 2 – Arbre de décision indiquant le seuil de détection du /R/ dans le test de perception 4 4.1 Analyse sur corpus Variations du /R/ en finale de mot Les mesures acoustiques sur corpus ont été effectuées de façon identique à celles effectuées sur les stimuli du test de perception, i.e. en mesurant les variations sur des séquences /aR/ en fin de mot pour les quatre locuteurs du test de perception, soit environ 6000 occurrences au total. La mesure de rhoticité calculée dans la section précédente a été utilisée en variable dépendante afin de tester sa variation en fonction de prédicteurs que l'on peut appréhender sur des corpus de parole continue, à savoir : le débit mesuré comme le nombre de phonèmes en 1 seconde (en incluant les pauses), le contexte phonémique suivant, la position dans le mot et dans la phrase prosodique, le nombre de syllabes dans mot, sa catégorie grammaticale, la fréquence dans le corpus du mot (contenant le /R/ ainsi que le mot suivant). La position du /R/ dans le groupe prosodique a été mesurée d'après une annotation spécifique détaillée dans Gendrot et Gerdes (2011). Deux positions ont été retenues : position finale ou médiane, mais une catégorisation plus fine pourra être envisagée prochainement. FIGURE 3 – Variation du /R/ selon notre mesure de rhoticité en fonction du débit et de la fréquence du mot porteur du /R/. Des régressions linéaires (cf. figure 3) ont été effectuées pour montrer que la fréquence du mot porteur du /R/ (p=0.001), la position dans le groupe prosodique (p=0.012) et le débit (p=0.04) prédisent une variation du /R/ (avec un R² à 40.2 %). La fréquence lexicale recouvre ici la catégorie grammaticale du mot qui serait significative sinon. Les occurrences identifiées comme ayant une valeur de rhoticité basse ont été vérifiées manuellement sur le corpus et apparaissent comme élidées par l'auteur mais devront dans une prochaine étape faire l'objet d'un nouveau test d'identification. 5 Discussion et Conclusion Les conclusions de cette étude restent limitées puisqu'évaluées principalement sur un seul contexte phonémique (entre /a/ et /l/ pour le test de perception ou après /a/ dans l'analyse sur corpus) et ne permettent pas de prendre en considération les réalisations de /R/ en tant que fricatives sourdes par exemple. Le but de ce projet est de poursuivre ces analyses sur d'autres contextes : s'il apparait difficile de demander à des auditeurs naïfs de distinguer des variations de friction et/ou de voisement du /R/, nous envisageons la mise en place d'un test de perception de type AXB qui permettra ainsi de mettre en évidence des regroupements de catégories perceptives sur les différentes réalisations de /R/ (fricative sourde, fricative voisée, approximante voisée, etc). Des mesures et des analyses statistiques - non détaillées ici - ont été effectuées sur d'autres contextes phonémiques que ceux du test de perception, notamment la séquence /ɛʁ/ en position finale de mot (la voyelle /ɛ/ remplaçant /a/) puisque le /a/ est caractérisé par un F1 maximalement élevé pour une voyelle, ce qui a limité l'observation d'une montée de F1 souvent notée dans la littérature. Si les trois prédicteurs mentionnés dans cette étude sont retrouvés dans les régressions linéaires, d'autres prédicteurs telle que la f0 franchissent le seuil de significativité, suggérant une variabilité plus complexe encore que celle mesurée ici. Il sera intéressant de vérifier sur des /R/s réalisés comme fricatives sourdes (où la segmentation entre voyelle et /R/ est plus nette) si les mesures acoustiques observées sont reportées plus franchement sur la voyelle adjacente. Au banc des limitations de cette étude, la prédiction de la variation du /R/ dans nos données n'apparait finalement que peu élevée avec un R² à 40%. Il semble que les mesures acoustiques proposées n'arrivent pas à la hauteur de la précision de l'oreille de nos auditeurs. Nous avions porté certains espoirs sur la mesure de HNR qui selon nous permettrait de mesurer progressivement le degré de friction dans le signal, mais la mesure de HNR est inadaptée en plusieurs points : elle détecte théoriquement le bruit au niveau glottique avant tout et se mesure en principe sur une fenêtre de périodicité proche de 100ms (Severin, 2005), ce qui dans les deux cas n'est pas valable pour le /R/. Nous travaillons donc sur l'élaboration d'une mesure de ratio entre friction et voisement plus appropriée pour notre cas. Toujours est-il que des résultats intéressants sont visibles dès cette étude préliminaire. Pour le /R/ approximant voisé ici visé dans le test des perception, nous avons pu proposer une mesure de rhoticité - valable pour les rhotiques uvulaires seulement caractérisée par une baisse du 2ème formant d'environ 70Hz et une baisse de la durée de la voyelle précédente (d'environ 30ms) permettant de favoriser l'identification du /R/. Cette mesure est à son tour influencée de façon systématique par la fréquence lexicale, le débit et la position dans le groupe prosodique ce qui laisse à penser que la variabilité observée pour le /R/ se rapproche pour beaucoup de la variabilité observée sur d'autres phonèmes. Elle semble seulement plus remarquable perceptivement à cause de contraintes aérodynamiques comme mentionné en 1.3. Remerciements Cette étude a été financée grâce au projet ANR jeunes chercheurs REPER (édition 2013) ANR-13-JSH2-0005-01 et également grâce au Labex EFL CGI. Références CHAFCOULOFF, M. (1980). Les caractéristiques acoustiques de [j, , w, l, r] en français. Dans Travaux de l’Institut de Phonétique d’Aix. CHAFCOULOFF, M. (1983). A propos des indices de distinction /1-R/ en français. Speech Communication. Volume 2. pp. 137–139 FOUGERON, C. (2007) Word boundaries and contrast neutralization in the case of enchaînement dans French. In Cole, J. & Hualde J.I. (eds) Papers in Laboratory Phonology IX: Change in Phonology, Berlin: Mouton de Gruyter, pp. 609--‐642. GALLIANO S., GEOFFROIS E., MOSTEFA D., CHOUKRI K., BONASTRE J.-P., GRAVIER G.(2005), The ESTER Phase II evaluation campaign for the rich transcription of French broadcast news, Proceedings of Eurospeech-Interspeech, Lisbonne, pp. 1149-1152. GAUVAIN, J.L., LAMEL, L. ET ADDA, G. (2002) The Limsi Broadcast News Transcription System, Speech Communication, 37(1-2): pages 89-108. LAWSON, E., STUART-SMITH, J., SCOBBIE, J. (2008) Articulatory Insights into Language Variation and Change: Preliminary Findings from an Ultrasound Study of Derhoticization in Scottish English. University of Pennsylvania Working Papers in Linguistics. Vol. 14(2) MEUNIER, C. (1994) Les groupes de consonnes : problématique de la segmentation et variabilité acoustique. Thèse de Doctorat. Université d'Aix-en-Provence. MADDIESON, I. (1984). Patterns of Sounds. Cambridge: Cambridge University Press MIELKE, J, ADAM BAKER, AND DIANA ARCHANGELI. (2010) Variability and homogeneity in American English allophony and retraction. Variation, Detail, and Representation. LabPhon 10. Berlin: Mouton de Gruyter. 699-719. OHALA, J. J. (1983), The origin of sound patterns in vocal tract constraints. In: MacNeilage, Peter (ed.): The production of speech. New York: 189-216. RUSSELL WEBB, E. (2004a). Explanatory adequacy in phonology: a deductive approach to /R/. Linguistica Atlantica, 25: 77–94. SEVERIN, F., BOZKURT, B., DUTOIT, T. (2005) HNR extraction in voiced speech, oriented towards voice quality analysis. Proceedings of EUSIPCO'05, Antalya,Turkey. TORREIRA, F., ADDA-DECKER, M., & ERNESTUS, M. (2010). The Nijmegen corpus of casual French. Speech Communication, 52, pages 201-212. TRANEL, B. (1987). The Sounds of French: An Introduction. Cambridge: Cambridge University Press. WALTER, H. (1988). Le français dans tous les sens. Paris : Robert Laffont.