Proposition de sujet de thèse en informatique, LIUM

 

Titre : Apprentissage actif pour la création de voix de synthèse expressive à partir de données massives.

 

Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Site : Le Mans

Directeur de thèse : Sylvain Meignier (sylvain.meignier[at]univ-lemans.fr)
Co-encadrant : Marie Tahon (marie.tahon[at]univ-lemans.fr)

 

Contexte de la thèse
Le thèse aura lieu au Laboratoire d’Informatique de l’Université du Mans (LIUM) dans l’équipe LST (Language and Speech Technology). Le candidat devra être motivé pour travailler sur le langage écrit et parlé. Il devra avoir des compétences en apprentissage automatique, et montrer un intérêt pour la synthèse de parole.

 

Sujet de thèse
La synthèse de parole à partir du texte (TTS) est un enjeu d’avenir pour mieux connaître les mécanismes de production de la parole et du langage, mais également pour améliorer les outils grand public liés au traitement automatique de la parole. La plupart des approches TTS paramétriques actuelles, basées des modèles de Markov (HMM) ou bien sur le paradigme neuronal (NN) permettent d’obtenir des signaux synthétiques adaptés à un style ou un locuteur donné [1,2]. Actuellement, lorsqu’elle est exploitée (ce qui est rarement le cas), l’expressivité est généralement obtenue de manière implicite à partir des statistiques obtenues sur les données d’apprentissage. La définition explicite de la prosodie reste un défi encore majeur, mais de récents travaux ont montré la possibilité d’une représentation latente de celle-ci à l’aide de réseaux de neurones [3]. L’explicitation de telles représentations latentes pour la synthèse expressive permettra d’introduire une possibilité de contrôle par l’utilisateur.

La nouvelle génération de synthétiseur basée sur les réseaux de neurones (notamment les méthodes end-to-end) semble apporter un compromis intéressant entre qualité, expressivité et flexibilité. La plupart de ces méthodes réside dans l’obtention de grandes bases de données, puis de l’apprentissage a posteriori des modèles nécessaires à la création de la voix de synthèse. Cette méthode implique qu’une fois livrés à l’utilisateur, les modèles n’évoluent plus. En étant capable d’apprendre les modèles de manière incrémentale, c’est-à-dire au fur et à mesure de l’arrivée de nouvelles données, l’apprentissage actif peut soit augmenter les performances des modèles en augmentant le corpus d’apprentissage, soit adapter les modèles à un domaine en particulier. De tels systèmes ont été expérimentés dans le domaine de la reconnaissance vocale [4], ou de la détection des émotions [5], mais à l’heure actuelle, aucun travail n’a été fait pour la synthèse de parole.

 

Objectifs
L’objectif principal de la thèse est de proposer, développer et valider des méthodes de segmentation et d’identification permettant de constituer un corpus de voix utilisable pour la synthèse de parole expressive à partir de données a priori hétérogènes. Dans un premier temps, le candidat étudiera l’analyse, la modélisation et la synthèse de l’expressivité et examinera conjointement le locuteur et la prosodie. Des techniques état de l’art, telles que l’outil SIDEKIT [6], pourront servir de point de départ. Parallèlement, le candidat proposera des architectures neuronales intégrant les différents aspects expressifs et permettant de répondre à la problématique de l’apprentissage actif (renforcement des modèles et adaptation au domaine). Et enfin, une part importante des travaux consistera à évaluer la synthèse produite dans un contexte de livres audio [7,8], ceci afin d’évaluer l’écoute de la synthèse dans la durée.

 

Profil souhaité

  • Master en informatique, si possible dans le domaine du traitement automatique de la parole.
  • Connaissances en statistiques et apprentissage neuronal.
  • Des connaissances en traitement du signal et en synthèse de la parole sont un plus.
  • Bonne expérience de programmation (si possible en Python).

Le candidat enverra CV, lettre de motivation ainsi que notes de Master et publications éventuelles par mail à sylvain.meignier@univ-lemans.fr et marie.tahon@univ-lemans.fr. En plus, une lettre de recommandation de l’encadrant de stage de Master (ou autre projet de recherche) sera envoyée également par mail.

 

Références
[1] Z. Wu, P. Swietojanski, C. Veaux, S. Renals, S. King (2015). A study of speaker adaptation for DNN-based speech synthesis. Proc. INTERSPEECH, pp. 879–883.
[2] W. Ping, K. Peng, A. Gibiansky, S. O. Arik et al. (2018). Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning, arXiv:1710.07654.
[3] RJ Skerry-Ryan et al. (2018). Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron. International Conference on Machine Learning, Stockholm, Sweden, PMLR 80, 2018.
[4] Syed, A. R., Rosenberg, A., Kislal, E., Supervised and unsupervised active learning for automatic speech recognition of low-resource languages. In: Internation Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai, China: IEEE, 2016.
[5] Zhang, Z., Deng, J., Marchi, E., Schuller, B., Active Learning by Label Uncertainty for Acoustic Emotion Recognition. Interspeech (2013).
[6] A. Larcher, K. Aik Lee and S. Meignier, An extensible speaker identification SIDEKIT in Python, in International Conference on Audio Speech and Signal Processing (ICASSP), 2016
[7] A. Sini, D. Lolive, G. Vidal, M. Tahon and E. Delais-Roussarie (2018). SynPaFlex-Corpus: An Expressive French Audiobooks Corpus Dedicated to Expressive Speech Synthesis. Proc. of LREC.
[8] S. King, J. Crumlish, A. Martin and L. Wihlborg. The Blizzard Challenge 2018, in Proc. Blizzard Workshop, Hyderabad, India, Sept. 2018.