Téléchargement du diaporama
Transcription
Téléchargement du diaporama
La synthèse vocale : une brique technologique en pleine évolution Olivier Rosec Orange Labs recherche & développement La synthèse vocale parle à nos clients : exemples SVI Speech Online remplacement des enregistrements studio Annuaires : 118710, 3288, … OBS: @allobiz offre entreprise Messagerie : SMS2VOICE, 3103 Et plus encore (yc respirations:) Accessibilité Assistant vocal: mobile vocalisé pour malvoyants Messages fixes des SVI : 1013 / 1014 / 3900 / 3000 Baratinoo "Les lascars" : (Kagedo-Orange Vallée) "Hello", le PC à 1€ pour les séniors Orange Labs – Synthèse vocale Page 2 Diane, assistance sur Orange.fr Fun Et plus encore… A partir de là, la synthèse vocale : pour faire quoi ? Amuser les enfants (voix fun) Humaniser un robot, un lapin ou encore le domicile Présenter des slides avec une voix pro / sa propre Être l’état de son mobile ScreenReader voix Connaître De la WebRadio / WebTV (animateurs virtuels) Doubler oralement les programmes en langue étrangère Navigation Offrir assistée (GPS & co) une identité vocale à l’entreprise Prononcer Conseiller le nom du client chaleureusement ses clients Surfer / accéder à mes services préférés : résultats sportifs, news, météo, horoscope, trafic urbain, … Personnaliser 3 les sonneries de mes contacts alerté de son prochain rdv, yc en cours de communications téléphonique Expliquer un mode d’emploi Redonner Lire (handicap visuel) leur voix aux patients qui l’ont perdue les SMS, les emails, les flux RSS, … Disposer d’un guide virtuel (visites, musées, réalité augmentée) Lire des e.book (raconter des histoires aux enfants, …) Maquetter (un jeu, un SVI, etc.) Soutien aux séniors (appels d’urgence, rappels type prise de médicaments, voix sur-intelligibles…) Et tant d’autres choses … ! ☺ La synthèse vocale, pour quels bénéfices ? Définition et contrôle de l’identité de l’entreprise, de son Look&Feel Pérennité : disposer de la même voix dans 1 an, 3 ans, 5 ans … Disponibilité : toutes les voix en 24h/24, 7j/7 Réactivité : Création et mise en ligne des messages peuvent devenir immédiates Economie de coût unitaire (message TTS vs studios) Répondre aux besoins d’Accessibilité (web, bornes, guichets) Jusqu’à une relation ludique (Serious games ? Déclinaison des ecards des Lascards aux envois de colis ? …) Orange Labs – Synthèse vocale Page 4 Les acteurs Quatre acteurs principaux : Quelques outsiders Nuance : le mastodonte > 35% Acapela : < 20 % Svox : forte présence sur l’embarqué (automobile) Loquendo : adossé à Telecom Italia Cereproc Cepstral Phonetic Arts Et quelques entreprises qui disposent de leur technologie, pour leurs propres besoins : Apple Nokia Et… France Télécom – Orange Orange Labs – Synthèse vocale Page 5 L’offre Synthèse Vocale du Groupe Orange Synthèse vocale – p6 recherche & développement Groupe France Télécom L'offre en bref un logiciel pour le temps réel La solution automatique la plus performante de lecture de contenus dynamiques architecture client / serveur : en mode hébergé ou intégré Supporte la plupart des environnements serveur / pc / embarqué des speech online : en self service - un véritable home studio en ligne speech offline : en service pro - messages à la demande des messages en qualité “studio” voix sur mesure en catalogue : des voix naturelles en français, anglais et espagnol sur demande : avec engagement qualité / délais / coûts Synthèse vocale – p7 recherche & développement Groupe France Télécom Baratinoo : Un logiciel de synthèse vocale Proposant des voix de haute qualité en Français, Anglais et Espagnol (Arabe en cours) Un logiciel portable multiplateformes, allant des solutions serveur au PC domestique jusqu'aux derniers smartphones. Pleinement compatible avec l’ensemble des standards en vigueur (MRCP, SAPI, SSML, interface HTTP…). Synthèse vocale – p8 recherche & développement Groupe France Télécom Services Vocaux Interactifs Déployer la synthèse vocale dans vos services vocaux vous garantit la qualité de la relation client, tout en minimisant vos coûts. Avantages : L'utilisation de la synthèse vocale apporte flexibilité, disponibilité, qualité de la voix Intégration simple: Compatible aux standards (MRCP, SSML) Serveurs optimisés pour de fortes charges. Développement de prétraitements applicatifs à la demande Champs d'application : Annuaires (118710, 3288…) Messagerie (SMS2VOICE, 840, 3103) Offre entreprise (@llobiz) Services météorologiques Services bancaires Et bien d'autres possibilités s'offrent à vous… Synthèse vocale – p9 recherche & développement Groupe France Télécom Applications Web Intégrer la synthèse vocale dans vos applications web apporte aisément une dynamique et du divertissement à vos pages. Avantages: Large panel de voix sur mesure, typées et expressives. Facilement intégrable (interface HTTP). Informations de synchronisation du signal en sortie. Champs d'application: Avatar: Diane, assistante sur Orange.fr E-cards: "Les Lascars" (Kagedo – Orange Vallée) Vocalisation d'un site web: Mediadico.com chat façon réseaux sociaux Les possibilités sont très larges… Synthèse vocale – p10 recherche & développement Groupe France Télécom Synthèse vocale embarquée La synthèse vocale embarquée vous simplifie l'accès à l'information n'importe où, via votre mobile ou même dans votre voiture. Avantages: Espace requis réduit (moins de 10MB par voix) Portable sur de nombreuses plateformes (Windows Mobile, Symbian, Linux, iPhone OS, Android) Champs d'application: Accessibilité: • Assistant vocal; mobiles pour malvoyants • "Hello" le PC à 1€ pour les seniors • Aide aux déficients de la parole etc. Mobilité: • iPhone, Androïd, … (GPS, lecture SMS, mail, flux RSS, …) Autres: • Alarmes • Chaînes de productions • Bornes automatiques etc. Synthèse vocale – p11 recherche & développement Groupe France Télécom Des messages sur mesure Speech On Line : un véritable home studio en ligne • Des voix disponibles 24h/24, 7j/7 • Autorise la génération instantanée de messages adaptés au contexte applicatif • Facilement intégrable dans l’environnement de développement du client • Possibilité de mixage avec une musique de fond • Contrôle du format de sortie Synthèse vocale – p12 recherche & développement Groupe France Télécom Speech Online : Une alternative à la voix naturelle • Une interface de création et de tuning de messages vocaux expressifs en synthèse vocale • Répond à tout type d'usage grâce à la possibilité de travailler l'intonation (accueillant, accompagnant, directive etc…) • Une vraie alternative à un studio d'enregistrement avec des atouts complémentaires : réactivité, contrôle, coût • Une interface ergonomique et hautement intuitive : la maîtrise de l'outil est quasi instantanée Démo : http://baratinoo.elibel.tm.fr/spo Synthèse vocale – p13 recherche & développement Groupe France Télécom Un catalogue de voix très varié Expressives, au ton maitrisé Identifiables, à la personnalité affirmée De « accueillante » à « institutionnelle » De « dynamique » à « sensuelle » Voix célèbres : porteuses de l’identité propre du locuteur Voix transformées / fun : laissez parler votre imagination Catalogue actuel disponible sur notre démonstrateur : tts.elibel.tm.fr (accès ouvert sur simple demande) Droits de diffusion limités pour certaines voix Synthèse vocale – p14 recherche & développement Groupe France Télécom Quelques références Orange annuaires messagerie "assistant vocal" : offre Orange de mobile vocalisé pour malvoyants PC CRM : 1013 / 1014 / 3900 / 3000 @llobiz – offre entreprise Speech Online, offre de création de messages SVI La voix de la SNCF (Simone) mobile SMS2VOICE, vocalisation de SMS vers le fixe 840 – mail Orange 3103 – messagerie contact diffusion multimédia SVI 118 710 – annuaire d’assistance automatique de France Telecom 32 88 – annuaire inversé de Pages Jaunes AVME – Annuaire Vocal Mobile d’Entreprise « Hello », le PC à 1€ pour les séniors Internet Diane, assistant avatar des nouveaux usages sur Orange.fr Kagedo : Film “Les Lascars” (Studio 37), e-card avec les voix des personnages Synthèse vocale – p15 recherche & développement Groupe France Télécom Synthèse Vocale : Les grands principes Synthèse vocale – p16 recherche & développement Groupe France Télécom Synthèse vocale La synthèse vocale à partir du texte : 3 grandes approches Synthèse articulatoire (approche paramétrique anthropomorphique) • Modélisation des mécanismes de production de la parole Synthèse paramétrique (approche liée à la perception) • Synthèse par règles : modélisation (experte) des transitions formantiques entre valeurs cibles de phonèmes (fréquence centrale, amplitude, largeur de bande) • Synthèse par HMM : apprentissage et génération automatique de cibles acoustiques Synthèse par concaténation • Concaténation d'unités acoustiques acquises par enregistrement d'une « voix » Seule la synthèse par concaténation offre une qualité de restitution satisfaisante pour une mise en œuvre industrielle Synthèse vocale – p17 recherche & développement Groupe France Télécom Orange Labs - Synthèse par concaténation Entrée textuelle Prétraitements Analyses textuelles Traitements symboliques lexicale, syntaxique, sémantique, phonétique Prédictions prosodiques BDD linguistique = "la langue" Pho1[f0,d], …, PhoN[f0,d] Sélection des unités Traitements numériques Modifications prosodiques et lissages BDD acoustique = "la voix" Codage Signal de parole Synthèse vocale – p18 recherche & développement Groupe France Télécom Synthèse par concaténation, par l'exemple " Quatre fois rien " Entrée textuelle Prétraitements Synthèse par diphones : approche déformation # Traitements linguistiques Pho1[f0,d][p], …, PhoN[f0,d][p] Sélection des unités K A T R E F W A R Y IN # #-K K-A A-T T-R R-E E-F F-W W-A A-R R-Y Y-ININ-# Synthèse par sélection d’unités : approche pattern matching # K A #-K-A-T T R E F T-R-E-F W A F-W-A R Y IN # A-R-Y-IN-# Traitements Acoustiques Signal de parole « Etre fictif » « Trois fois plus » « Quatre et trois » « Il n’y a rien » Synthèse vocale – p19 recherche & développement Groupe France Télécom La Synthèse Vocale à partir du Texte Approche par sélection d’unités La synthèse vocale est souvent vue par les utilisateurs, les clients, comme : une voix … qui opère des textes … Constituée d'enregistrements de phrases, souvent lues (jusqu’à 8000 en Fr) Segmentée en une multitude d’unités en contextes annotées de paramètres symboliques (linguistiques) La séquence d’unités de paroles la plus adéquate est sélectionnée, reconstituée puis diffusée Le texte est analysé, lexicalement, syntaxiquement, phonétiquement Une caractérisation prosodique lui est attaché La séquence de phonèmes augmentés sert de cible à la sélection dont les sources peuvent être d’une nature ou d’une autre Un contenu textuel plus ou moins lisible (news, e.mail, sms :) plus ou moins formaté (page web, entrée d’annuaire, etc.) plus ou moins contextualisé (texte enrichi, dialogue, adéquation communicative) Synthèse vocale – p20 recherche & développement Groupe France Télécom Qu'est-ce qu'une voix ? Une voix est un ensemble d'enregistrements d'un même locuteur. Ces enregistrements sont annotés selon des critères anatomiques relatifs à leur fonction communicationnelle. Jusqu’à présent, avant tout linguistiques Cette base acoustique est enrichie d'information symbolique (phonétique, syllabique, prosodique) et d'informations acoustiques (f0, durée, énergie) Synthèse vocale – p21 recherche & développement Groupe France Télécom Création de voix Un processus opérationnel : l'Atelier de Création de Voix Dédiée à la création de voix sur casting Basé sur une supervision experte de l’enregistrement Une chaîne de traitements efficace, du studio au dictionnaire Scalable : de 0,5 jour à 10 jours d’enregistrement, de rien (tout automatique) à 2 mois de traitement Utilisé pour toutes les voix enregistrées Limite principale : prosodie automatique = parole lue, pas très expressive Démos : Voxcards, voix fun sur Facebook Extensions souhaitables Limiter le besoin de supervision Atelier de Rushes : traiter des données acoustiques moins canoniques, voire hétérogènes Tout en réduisant l’impératif de professionnalisme du locuteur « MaVoix » Des approches alternatives ? Se passer de locuteur, autant que faire se peut ! :) Transformation / Conversion de voix Synthèse vocale – p22 recherche & développement Groupe France Télécom Prétraitements "évolués" Le texte reçu en entrée n'est pas toujours académique 1er objectif : atteindre une forme de surface "bien formée" • … voire non-ambiguë. Les nouveaux usages l'imposent • A partir d'un texte "mal formé" : Email vocal, SMS vers le fixe, chat, ... • A partir de données structurées : XML, BDD l'R 2 ri1, L t'M bcp !) Chui la … dan ¾ d heur yoan vien et son pere nous amene repond Démos disponibles sur services déployés : • SMS2Voice, • annuaires (3288, 123, 118710) Synthèse vocale – p23 recherche & développement Groupe France Télécom Prétraitements textuels : exemple des adresses Objectif : atteindre une forme de surface "bien formée" A partir de données abrégées réécriture automatique en vue de vocalisation expertise et lexique Orange sur la vocalisation d'annuaires VIL CHARDIN BAT X 2 ET ALL-DES PLATANES 1G SQ-H BERLIOZ BAT5 E1 9 ALL DES MYOSOTIS D2 RCD CH DR EU BLANC ALL DU PRT J KENNEDY R AL BAUDIN VILLA CHARDIN, BÂTIMENT X, 2E ÉTAGE. ALLÉE DES PLATANES, 1E , À GAUCHE SQUARE HECTOR BERLIOZ, BÂTIMENT 5 E1 9. ALLÉE DES MYOSOTIS D2, REZ-DE-CHAUSSÉE, À DROITE. CHEMIN DU DOCTEUR EUGÈNE BLANC ALLÉE DU PRÉSIDENT JOHN KENNEDY . RUE ALPHONSE BAUDIN ... Synthèse vocale – p24 recherche & développement Groupe France Télécom Prétraitements textuels : exemples de "soucis" Au niveau lexical : Homographes hétérophones : email, chat Acronymes : CRAM / CPAM, ADSL 2+ Locutions : cours limite Abréviations : kg, Mr, svp, rdv Au niveau syntaxique : Désambiguïsation : Les poules du couvent couvent toujours. Synthèse vocale – p25 recherche & développement Groupe France Télécom Traitements linguistiques : exemples de "soucis" Au niveau phonétisation : Patronymes : Blaye, Burger Les liaisons : 1 [n'] avion, 2 [z'] avions Au niveau prosodique : A court terme : « A quel cours limite désirez vous les acheter ? » « l’offre ADSL 2+ … » A long terme : exple « Le petit chaperon rouge » Certes on obtient cela : Mais aussi cela : Synthèse vocale – p26 recherche & développement Groupe France Télécom Traitements acoustiques Lorsque la voix contient une séquence acoustique porteuse de la cible prosodique, on restitue de la voix naturelle. Lorsqu'on détecte la présence d'artefact, on agit, principalement en lissages : • De l’Energie • De F0 • Des formants Synthèse vocale – p27 recherche & développement Groupe France Télécom Synthèse Vocale : Le futur Synthèse vocale – p28 recherche & développement Groupe France Télécom Multilinguisme Les langues majoritaires ne sont pas un vrai problème Fort documentées, elles sont relativement simples à produire => question de coût : Le contexte européen impose les « big 6 » Le contexte Orange impose d’autres langues (polonais, arabe, …) Les langues minoritaires sont un vrai problème Sous documentées, leur développement est une gageure => pourtant dans le footprint Orange du fait de sa forte présence en AMEA => le projet européen VOICES Synthèse vocale – p29 recherche & développement Groupe France Télécom Synthèse expressive Convergence Dialogue / Synthèse et enrichissements pertinents : Info service : contexte sémantique P1 P2 . SERVICE . Via ECS Pi . . Pn Jeu de paramètres Info psycho-ergo : perception Texte enrichi P L S r e y o x n Graph s i Pré / t Info linguistique o traitement q Phon a d u x i e e e Traitements linguistiques BDD linguistique = "la langue" Synthèse vocale – p30 recherche & développement O O O O Modif O Prosodie O O O O O O O O O O O Sélection / Pattern Matching C o d a g e Parole Traitements acoustiques BDD acoustique = "la voix" Groupe France Télécom Synthèse expressive Un système capable de "jouer" un texte Le style prosodique maitrisé : Relève du registre de la lecture … … de phrases isolées. Représente la limite majeure du système de synthèse actuel. Or on ne lit pas une introduction comme une démonstration, Ni une petite annonce comme une lettre d'amour Vers un modèle texte-parole intégrant les notions de genre textuel, de profil de lecteur et de situation discursive. Une véritable recherche de rupture En l'état de recherche amont, avec des sorties à moyen terme Synthèse vocale – p31 recherche & développement Groupe France Télécom Contrôle acoustique Pour une synthèse sans couture au besoin via une interface dédiée Pour transformer des voix au minimum du lissage de la « correction prosodique » et expressive ! homme, femme, enfant, ado, vieillard, … voix claires, rauques, tendues, soufflées, … Pour de la conversion de voix : restituer la voix d’un locuteur à partir de quelques minutes d’enregistrement Synthèse vocale – p32 recherche & développement Groupe France Télécom Contrôle acoustique Transformation de voix Principe : post-traitement du signal de synthèse Modification de la hauteur de voix Déformation du timbre Déformer une voix existante pour en créer de nouvelles, anonymes et de bonne qualité : À partir de Philippe : À partir d'Agnès : Enfant => homme : Synthèse vocale – p33 Effets déjà intégrés dans Baratinoo recherche & développement Groupe France Télécom Contrôle acoustique Contrôle de la tessiture d'une voix Principe : prise en compte explicite des mécanismes de production de la parole Séparation source glottique - conduit vocal Contrôle fin du signal glottique Modification de la structure fine du signal de parole Original Voix chuchotée Voix soufflée Synthèse vocale – p34 recherche & développement Groupe France Télécom Contrôle acoustique Pour aller au-delà, 2 axes de recherche Axe qualité : nécessité de capturer / contrôler le grain fin du signal de parole Modélisation des transitions Modélisation des phénomènes aléatoires (bruit de friction, aspiration) Axe transformation : nécessité d'extraire de l'information Pertinente du point de vue perceptuel Manipulable par un jeu de descripteurs adéquat Contrôlable via une interface de manipulation de signaux de parole Synthèse vocale – p35 recherche & développement Groupe France Télécom Baratinoo par l’exemple Synthèse vocale – p36 recherche & développement Groupe France Télécom Pour essayer Baratinoo dans la vraie vie :) Deux serveurs vocaux Orange : 118710 : Un annuaire France, produit par Orange, entièrement automatique : reconnaissance vocale et synthèse vocale. 1013 : Service phare s'il en est, dont le frontal est tout en synthèse, yc les messages d'urgence nécessaires (cas de la tempète Xynthia par exemple) Deux sites "cœur de métier" http://tts.elibel.tm.fr Le démonstrateur partiellement ouvert au grand public. Un accès restreint offre de nombreuses voix "privées". http://baratinoo.elibel.tm.fr/spo Le service "Speech Online" en ligne de génération de messages en qualité voix naturelle. Qualité, rapidité et faible coût sont au rendez-vous. Deux services ludiques déployés : http://www.lascards-vocales.com/Teaser-lascars.html?origine=les-lascards.com&ecard= Un service web ludique d’accompagnement du film Les Lascards (juin 2009). Permet d'envoyer des e.cards, animations flash à contenu autoproduit. Met en scène les voix des 4 acteurs principaux (Omar, Fred, F. Bel et IZM). http://apps.facebook.com/voxcards/ Un service de la même veine que les Lascards mais avec de très nombreuses voix fun. Les voix Kingston et Géraldine Cokeen peuvent surprendre (elles sont également sur Speech Online) Synthèse vocale – p37 recherche & développement Groupe France Télécom