Proposition de sujet de thèse en informatique, LIUM

 

Titre : Segmentation et identification automatique en locuteur pour la création de voix de synthèse à partir de données massives

 

Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Site : Le Mans

Directeur de thèse : Sylvain Meignier (sylvain.meignier[at]univ-lemans.fr)
Co-encadrant : Marie Tahon (marie.tahon[at]univ-lemans.fr)

 

Description du sujet :
La synthèse de parole est un enjeu d’avenir pour mieux connaître les mécanismes de production de la parole et du langage, mais également pour améliorer les outils grand public liés au traitement automatique de la parole. Très récemment, une nouvelle génération de synthétiseur basée sur les réseaux de neurones (notamment les méthodes end-to-end) semble apporter un compromis intéressant entre qualité, expressivité et flexibilité. L’inconvénient majeur de ces méthodes réside dans l’obtention de grandes bases de données mono-locuteur et de bonne qualité, nécessaires à la création de la voix de synthèse. L’objectif principal de la thèse est de proposer, développer et valider des méthodes de segmentation et d’identification permettant de constituer un corpus de voix utilisable pour la synthèse de parole à partir de données a priori hétérogènes. Plusieurs aspects seront examinés conjointement : locuteurs différents, contextes expressifs variés et qualité sonore non contrôlée. L’utilisation de données multi-locuteurs extraites dans des sources et des contextes différents, permettra d’ajouter une grande flexibilité à la voix de synthèse.