Téléchargement du diaporama

Transcription

La synthèse vocale :
une brique technologique en
pleine évolution
Olivier Rosec
Orange Labs
recherche & développement
La synthèse vocale parle à nos clients : exemples
SVI
Speech Online
remplacement des enregistrements studio
Annuaires : 118710,
3288, …
OBS: @allobiz offre
entreprise
Messagerie :
SMS2VOICE, 3103
Et plus encore (yc
respirations:)
Accessibilité
Assistant vocal:
mobile vocalisé
pour malvoyants
Messages fixes des
SVI :
1013 / 1014 / 3900 /
3000
Baratinoo
"Les lascars" :
(Kagedo-Orange
Vallée)
"Hello",
le PC à 1€ pour les
séniors
Orange Labs – Synthèse vocale
Page 2
Diane, assistance
sur
Orange.fr
Fun
Et plus encore…
A partir de là, la synthèse vocale : pour faire quoi ?
Amuser
les enfants (voix fun)
Humaniser
un robot, un lapin ou encore le
domicile
Présenter
des slides avec une voix pro / sa propre
Être
l’état de son mobile
ScreenReader
voix
Connaître
De
la WebRadio / WebTV (animateurs virtuels)
Doubler
oralement les programmes en langue
étrangère
Navigation
Offrir
assistée (GPS & co)
une identité vocale à l’entreprise
Prononcer
Conseiller
le nom du client
chaleureusement ses clients
Surfer
/ accéder à mes services préférés :
résultats sportifs, news, météo, horoscope, trafic
urbain, …
Personnaliser
3
les sonneries de mes contacts
alerté de son prochain rdv, yc en cours de
communications téléphonique
Expliquer
un mode d’emploi
Redonner
Lire
(handicap visuel)
leur voix aux patients qui l’ont perdue
les SMS, les emails, les flux RSS, …
Disposer
d’un guide virtuel (visites, musées, réalité
augmentée)
Lire
des e.book (raconter des histoires aux
enfants, …)
Maquetter
(un jeu, un SVI, etc.)
Soutien
aux séniors (appels d’urgence, rappels
type prise de médicaments, voix sur-intelligibles…)
Et
tant d’autres choses … ! ☺
La synthèse vocale, pour quels bénéfices ?
Définition et contrôle de l’identité de l’entreprise, de son Look&Feel
Pérennité : disposer de la même voix dans 1 an, 3 ans, 5 ans …
Disponibilité : toutes les voix en 24h/24, 7j/7
Réactivité : Création et mise en ligne des messages peuvent devenir immédiates
Economie de coût unitaire (message TTS vs studios)
Répondre aux besoins d’Accessibilité (web, bornes, guichets)
Jusqu’à une relation ludique (Serious games ? Déclinaison des ecards des
Lascards aux envois de colis ? …)
Page 4
Les acteurs
Quatre acteurs principaux :
Quelques outsiders
Nuance : le mastodonte > 35%
Acapela : < 20 %
Svox : forte présence sur l’embarqué (automobile)
Loquendo : adossé à Telecom Italia
Cereproc
Cepstral
Phonetic Arts
Et quelques entreprises qui disposent de leur technologie,
pour leurs propres besoins :
Apple
Nokia
Et… France Télécom – Orange
Page 5
L’offre Synthèse Vocale
du Groupe Orange
Synthèse vocale – p6
Groupe France Télécom
L'offre en bref
un
logiciel pour le temps réel
La solution automatique la plus performante de lecture de contenus
dynamiques
architecture client / serveur : en mode hébergé ou intégré
Supporte la plupart des environnements serveur / pc / embarqué
des
speech online : en self service - un véritable home studio en ligne
speech offline : en service pro - messages à la demande
des
messages en qualité “studio”
voix sur mesure
en catalogue : des voix naturelles en français, anglais et espagnol
sur demande : avec engagement qualité / délais / coûts
Baratinoo : Un logiciel de synthèse vocale
Proposant des voix de haute qualité en Français, Anglais et
Espagnol (Arabe en cours)
Un logiciel portable multiplateformes, allant des solutions
serveur au PC domestique jusqu'aux derniers smartphones.
Pleinement compatible avec l’ensemble des standards en
vigueur (MRCP, SAPI, SSML, interface HTTP…).
Services Vocaux Interactifs
Déployer la synthèse vocale dans vos services vocaux
vous garantit la qualité de la relation client, tout en
minimisant vos coûts.
Avantages :
L'utilisation de la synthèse vocale apporte flexibilité, disponibilité,
qualité de la voix
Intégration simple: Compatible aux standards (MRCP, SSML)
Serveurs optimisés pour de fortes charges.
Développement de prétraitements applicatifs à la demande
Champs d'application :
Annuaires (118710, 3288…)
Messagerie (SMS2VOICE, 840, 3103)
Offre entreprise (@llobiz)
Services météorologiques
Services bancaires
Et bien d'autres possibilités s'offrent à vous…
Applications Web
Intégrer la synthèse vocale dans vos applications web
apporte aisément une dynamique et du divertissement
à vos pages.
Avantages:
Large panel de voix sur mesure, typées et expressives.
Facilement intégrable (interface HTTP).
Informations de synchronisation du signal en sortie.
Champs d'application:
Avatar: Diane, assistante sur Orange.fr
E-cards: "Les Lascars" (Kagedo – Orange Vallée)
Vocalisation d'un site web: Mediadico.com
chat façon réseaux sociaux
Les possibilités sont très larges…
Synthèse vocale embarquée
La synthèse vocale embarquée vous simplifie l'accès à
l'information n'importe où, via votre mobile ou même
dans votre voiture.
Avantages:
Espace requis réduit (moins de 10MB par voix)
Portable sur de nombreuses plateformes (Windows Mobile,
Symbian, Linux, iPhone OS, Android)
Champs d'application:
Accessibilité:
• Assistant vocal; mobiles pour malvoyants
• "Hello" le PC à 1€ pour les seniors
• Aide aux déficients de la parole etc.
Mobilité:
• iPhone, Androïd, … (GPS, lecture SMS, mail, flux RSS, …)
Autres:
• Alarmes
• Chaînes de productions
• Bornes automatiques etc.
Des messages sur mesure
Speech On Line : un véritable home studio en ligne
• Des voix disponibles 24h/24, 7j/7
• Autorise la génération instantanée de messages adaptés au contexte
applicatif
• Facilement intégrable dans l’environnement de développement du client
• Possibilité de mixage avec une musique de fond
• Contrôle du format de sortie
Speech Online :
Une alternative à la voix naturelle
• Une interface de création et
de tuning de messages
vocaux
expressifs
en
synthèse vocale
• Répond à tout type d'usage
grâce à la possibilité de
travailler
l'intonation
(accueillant, accompagnant,
directive etc…)
• Une vraie alternative à un
studio d'enregistrement avec
des atouts complémentaires :
réactivité, contrôle, coût
• Une interface ergonomique et
hautement intuitive : la
maîtrise de l'outil est quasi
instantanée
Démo : http://baratinoo.elibel.tm.fr/spo
Un catalogue de voix très varié
Expressives, au ton maitrisé
Identifiables, à la personnalité affirmée
De « accueillante » à « institutionnelle »
De « dynamique » à « sensuelle »
Voix célèbres : porteuses de l’identité propre du locuteur
Voix transformées / fun : laissez parler votre imagination
Catalogue actuel disponible sur notre démonstrateur :
tts.elibel.tm.fr (accès ouvert sur simple demande)
Droits de diffusion limités pour certaines voix
Quelques références Orange
annuaires
messagerie
"assistant vocal" : offre Orange de mobile vocalisé pour malvoyants
PC
CRM : 1013 / 1014 / 3900 / 3000
@llobiz – offre entreprise
Speech Online, offre de création de messages SVI
La voix de la SNCF (Simone)
mobile
SMS2VOICE, vocalisation de SMS vers le fixe
840 – mail Orange
3103 – messagerie
contact diffusion multimédia
SVI
118 710 – annuaire d’assistance automatique de France Telecom
32 88 – annuaire inversé de Pages Jaunes
AVME – Annuaire Vocal Mobile d’Entreprise
« Hello », le PC à 1€ pour les séniors
Internet
Diane, assistant avatar des nouveaux usages sur Orange.fr
Kagedo : Film “Les Lascars” (Studio 37), e-card avec les voix des personnages
Synthèse Vocale :
Les grands principes
Synthèse vocale
La synthèse vocale à partir du texte : 3 grandes approches
Synthèse articulatoire (approche paramétrique anthropomorphique)
• Modélisation des mécanismes de production de la parole
Synthèse paramétrique (approche liée à la perception)
• Synthèse par règles : modélisation (experte) des transitions formantiques entre valeurs
cibles de phonèmes (fréquence centrale, amplitude, largeur de bande)
• Synthèse par HMM : apprentissage et génération automatique de cibles acoustiques
Synthèse par concaténation
• Concaténation d'unités acoustiques acquises par enregistrement d'une « voix »
Seule la synthèse par concaténation offre une qualité
de restitution satisfaisante pour une mise en œuvre industrielle
Orange Labs - Synthèse par concaténation
Entrée textuelle
Prétraitements
Analyses textuelles
Traitements
symboliques
lexicale, syntaxique,
sémantique, phonétique
Prédictions prosodiques
BDD
linguistique
= "la langue"
Pho1[f0,d], …, PhoN[f0,d]
Sélection des unités
Traitements
numériques
Modifications prosodiques
et lissages
BDD acoustique
= "la voix"
Codage
Signal de parole
Synthèse par concaténation, par l'exemple
" Quatre fois rien "
Entrée textuelle
Prétraitements
Synthèse par diphones : approche déformation
#
Traitements
linguistiques
Pho1[f0,d][p], …, PhoN[f0,d][p]
Sélection des unités
K
A
T
R
E
F
W
A
R
Y
IN
#
#-K K-A A-T T-R R-E E-F F-W W-A A-R R-Y Y-ININ-#
Synthèse par sélection d’unités : approche pattern matching
#
K
A
#-K-A-T
T
R
E
F
T-R-E-F
W
A
F-W-A
R
Y
IN
#
A-R-Y-IN-#
Traitements
Acoustiques
Signal de parole
« Etre fictif »
« Trois fois plus »
« Quatre et trois »
« Il n’y a rien »
La Synthèse Vocale à partir du Texte
Approche par sélection d’unités
La synthèse vocale est souvent vue par les utilisateurs, les clients, comme :
une voix …
qui opère des textes …
Constituée d'enregistrements de phrases, souvent lues (jusqu’à 8000 en Fr)
Segmentée en une multitude d’unités en contextes annotées de paramètres symboliques
(linguistiques)
La séquence d’unités de paroles la plus adéquate est sélectionnée, reconstituée puis diffusée
Le texte est analysé, lexicalement, syntaxiquement, phonétiquement
Une caractérisation prosodique lui est attaché
La séquence de phonèmes augmentés sert de cible à la sélection
dont les sources peuvent être d’une nature ou d’une autre
Un contenu textuel plus ou moins lisible (news, e.mail, sms :)
plus ou moins formaté (page web, entrée d’annuaire, etc.)
plus ou moins contextualisé (texte enrichi, dialogue, adéquation communicative)
Qu'est-ce qu'une voix ?
Une voix
est un ensemble d'enregistrements d'un même locuteur. Ces
enregistrements sont annotés selon des critères anatomiques
relatifs à leur fonction communicationnelle. Jusqu’à présent,
avant tout linguistiques
Cette base acoustique est enrichie
d'information symbolique (phonétique, syllabique, prosodique)
et d'informations acoustiques (f0, durée, énergie)
Création de voix
Un processus opérationnel : l'Atelier de Création de Voix
Dédiée à la création de voix sur casting
Basé sur une supervision experte de l’enregistrement
Une chaîne de traitements efficace, du studio au dictionnaire
Scalable :
de 0,5 jour à 10 jours d’enregistrement,
de rien (tout automatique) à 2 mois de traitement
Utilisé pour toutes les voix enregistrées
Limite principale : prosodie automatique = parole lue, pas très expressive
Démos : Voxcards, voix fun sur Facebook
Extensions souhaitables
Limiter le besoin de supervision
Atelier de Rushes : traiter des données acoustiques moins canoniques, voire hétérogènes
Tout en réduisant l’impératif de professionnalisme du locuteur
« MaVoix »
Des approches alternatives ? Se passer de locuteur, autant que faire se peut ! :)
Transformation / Conversion de voix
Prétraitements "évolués"
Le texte reçu en entrée n'est pas toujours académique
1er objectif : atteindre une forme de surface "bien formée"
• … voire non-ambiguë.
Les nouveaux usages l'imposent
• A partir d'un texte "mal formé" : Email vocal, SMS vers le fixe, chat, ...
• A partir de données structurées : XML, BDD
l'R 2 ri1, L t'M bcp !)
Chui la …
dan ¾ d heur yoan vien et son pere nous amene repond
Démos disponibles sur services déployés :
• SMS2Voice,
• annuaires (3288, 123, 118710)
Prétraitements textuels : exemple des adresses
Objectif : atteindre une forme de surface "bien formée"
A partir de données abrégées
réécriture automatique en vue de vocalisation
expertise et lexique Orange sur la vocalisation d'annuaires
VIL CHARDIN BAT X 2 ET
ALL-DES PLATANES 1G
SQ-H BERLIOZ BAT5 E1 9
ALL DES MYOSOTIS D2 RCD
CH DR EU BLANC
ALL DU PRT J KENNEDY
R AL BAUDIN
VILLA CHARDIN, BÂTIMENT X, 2E ÉTAGE.
ALLÉE DES PLATANES, 1E , À GAUCHE
SQUARE HECTOR BERLIOZ, BÂTIMENT 5 E1 9.
ALLÉE DES MYOSOTIS D2, REZ-DE-CHAUSSÉE, À DROITE.
CHEMIN DU DOCTEUR EUGÈNE BLANC
ALLÉE DU PRÉSIDENT JOHN KENNEDY .
RUE ALPHONSE BAUDIN
...
Prétraitements textuels :
exemples de "soucis"
Au niveau lexical :
Homographes hétérophones : email, chat
Acronymes : CRAM / CPAM, ADSL 2+
Locutions : cours limite
Abréviations : kg, Mr, svp, rdv
Au niveau syntaxique :
Désambiguïsation : Les poules du couvent couvent toujours.
Traitements linguistiques :
exemples de "soucis"
Au niveau phonétisation :
Patronymes : Blaye, Burger
Les liaisons : 1 [n'] avion, 2 [z'] avions
Au niveau prosodique :
A court terme :
« A quel cours limite désirez vous les acheter ? »
« l’offre ADSL 2+ … »
A long terme : exple « Le petit chaperon rouge »
Certes on obtient cela :
Mais aussi cela :
Traitements acoustiques
Lorsque la voix contient une séquence acoustique porteuse
de la cible prosodique, on restitue de la voix naturelle.
Lorsqu'on détecte la présence d'artefact, on agit,
principalement en lissages :
• De l’Energie
• De F0
• Des formants
Synthèse Vocale :
Le futur
Multilinguisme
Les langues majoritaires ne sont pas un vrai problème
Fort documentées, elles sont relativement simples à produire
=> question de coût :
Le contexte européen impose les « big 6 »
Le contexte Orange impose d’autres langues (polonais, arabe, …)
Les langues minoritaires sont un vrai problème
Sous documentées, leur développement est une gageure
=> pourtant dans le footprint Orange du fait de sa forte présence en AMEA
=> le projet européen VOICES
Synthèse expressive
Convergence Dialogue / Synthèse et enrichissements pertinents :
Info service :
contexte sémantique
P1
P2
.
SERVICE .
Via ECS Pi
.
.
Pn
Jeu de
paramètres
Info psycho-ergo :
perception
Texte
enrichi
P
L
S
r
e
y
o
x
n Graph
s
i
Pré
/
t
Info linguistique
o
traitement q
Phon
a
d
u
x
i
e
e
e
Traitements
linguistiques
BDD
linguistique
= "la langue"
O
O
O
O Modif
O Prosodie
O
O
O
O
O
O
O
O
O
O
O
Sélection /
Pattern
Matching
C
o
d
a
g
e
Parole
Traitements
acoustiques
BDD acoustique
= "la voix"
Synthèse expressive
Un système capable de "jouer" un texte
Le style prosodique maitrisé :
Relève du registre de la lecture …
… de phrases isolées.
Représente la limite majeure du système de synthèse actuel.
Or on ne lit pas une introduction comme une démonstration,
Ni une petite annonce comme une lettre d'amour
Vers un modèle texte-parole intégrant les notions de genre textuel, de
profil de lecteur et de situation discursive.
Une véritable recherche de rupture
En l'état de recherche amont, avec des sorties à moyen terme
Contrôle acoustique
Pour une synthèse sans couture
au besoin via une interface dédiée
Pour transformer des voix
au minimum du lissage
de la « correction prosodique »
et expressive !
homme, femme, enfant, ado, vieillard, …
voix claires, rauques, tendues, soufflées, …
Pour de la conversion de voix :
restituer la voix d’un locuteur à partir de quelques minutes
d’enregistrement
Transformation de voix
Principe : post-traitement du signal de synthèse
Modification de la hauteur de voix
Déformation du timbre
Déformer une voix existante pour en créer de nouvelles,
anonymes et de bonne qualité :
À partir de Philippe :
À partir d'Agnès :
Enfant => homme :
Effets déjà
intégrés dans
Baratinoo
Contrôle de la tessiture d'une voix
Principe : prise en compte explicite des mécanismes de
production de la parole
Séparation source glottique - conduit vocal
Contrôle fin du signal glottique
Modification de la structure fine du signal de parole
Original
Voix chuchotée
Voix soufflée
Pour aller au-delà, 2 axes de recherche
Axe qualité : nécessité de capturer / contrôler le grain fin du
signal de parole
Modélisation des transitions
Modélisation des phénomènes aléatoires (bruit de friction, aspiration)
Axe transformation : nécessité d'extraire de l'information
Pertinente du point de vue perceptuel
Manipulable par un jeu de descripteurs adéquat
Contrôlable via une interface de manipulation de signaux de parole
Baratinoo
par l’exemple
Pour essayer Baratinoo dans la vraie vie :)
Deux serveurs vocaux Orange :
118710 : Un annuaire France, produit par Orange, entièrement automatique :
reconnaissance vocale et synthèse vocale.
1013 : Service phare s'il en est, dont le frontal est tout en synthèse, yc les messages d'urgence
nécessaires (cas de la tempète Xynthia par exemple)
Deux sites "cœur de métier"
http://tts.elibel.tm.fr
Le démonstrateur partiellement ouvert au grand public.
Un accès restreint offre de nombreuses voix "privées".
http://baratinoo.elibel.tm.fr/spo
Le service "Speech Online" en ligne de génération de messages en qualité voix
naturelle. Qualité, rapidité et faible coût sont au rendez-vous.
Deux services ludiques déployés :
http://www.lascards-vocales.com/Teaser-lascars.html?origine=les-lascards.com&ecard=
Un service web ludique d’accompagnement du film Les Lascards (juin 2009).
Permet d'envoyer des e.cards, animations flash à contenu autoproduit.
Met en scène les voix des 4 acteurs principaux (Omar, Fred, F. Bel et IZM).
http://apps.facebook.com/voxcards/
Un service de la même veine que les Lascards mais avec de très nombreuses voix fun.
Les voix Kingston et Géraldine Cokeen peuvent surprendre (elles sont également sur
Speech Online)

Téléchargement du diaporama

Transcription

Documents pareils

Nouveau Technique vocale pour les Choristes !

L`Enfant et les sortilèges de M.Ravel Une aventure

Transparents

stage Voix et Ecriture 2015/2016 - Psycho

La balance parlante Vox 3000.

Télécharger le guide de démarrage au format PDF

Fiche n° 8 : Logiciels

Aide-mémoire messagerie vocale

Fiche smartphone SmartVision