Séminaire de Kévin Vythelingum, Voxygen

 

Date: 02/10/2020
Heure: 11h00
Lieu: IC2, Salle des conseils
Intervenant: Kévin Vythelingum

 
Synthèse de parole neuronale et modèles multi-locuteurs : vers le développement de nouvelles voix de synthèse sans apprentissage ?
 

Les progrès récents en synthèse de la parole neuronale ont permis de développer des systèmes capables de générer de la parole de qualité comparable à la voix humaine. Cependant, ils nécessitent un apprentissage sur de grandes quantités de parole du locuteur dont on souhaite reproduire la voix. Il s’agit de modèles mono-locuteur, c’est-à-dire qu’un nouveau modèle doit être entraîné pour chaque nouvelle voix développée. Un moyen de réduire la quantité de données nécessaire à la création d’une nouvelle voix est d’utiliser des enregistrements existants d’autres locuteurs. Nous présentons ici un modèle de synthèse de parole exploitant des données multi-locuteurs et nous discuterons de ses capacités de généralisation à un nouveau locuteur.