Thibault Gaudier – Laboratoire d'Informatique de l'Université du Mans

L’objectif principal du projet est de proposer, développer et valider des méthodes qui permettent de :

générer de la parole expressive à partir d’une consigne donnée par l’utilisateur soit à l’aide de systèmes text-to-speech, soit de la conversion de voix ;
interagir avec le système au cours de l’apprentissage et lors de l’inférence pour corriger les sorties audio du système.

Dans un premier temps, nous étudierons la visualisation et l’interprétation des représentations latentes apprises par un modèle neuronal état de l’art (Tacotron + WaveNet) en termes de prosodie, locuteur, expressivité et prononciation. Il faudra définir des éléments de contrôle utilisateur qui pourront prendre la forme d’annotations et seront ensuite intégrés dans le corpus d’apprentissage à l’aide de techniques tels que l’adaptation de paramètres acoustique, les embeddings, les mécanismes d’attention, ou bien l’apprentissage de modèles intermédiaires.

Parallèlement, des architectures neuronales compatibles avec l’apprentissage actif (renforcement des modèles ou adaptation au domaine) seront proposés, et il faudra déterminer les stratégies les plus pertinentes pour l’apprentissage actif. Enfin, une part importante des travaux consistera à évaluer la synthèse produite, dans un contexte de livres audio ou bien de contenu journalistique

Apprentissage actif, interprétation et contrôle pour la synthèse neuronale de parole expressive