Apprentissage actif, interprétation et contrôle pour la synthèse neuronale de parole expressive

Directeur : Sylvain Meignier et Anthony Larcher
Co-Encadrant(s) : Marie Tahon
Mails : prenom.nom@univ-lemans.fr
Date limite de candidature : 22 mai 2020

Contexte de la thèse :

La thèse aura lieu au Laboratoire d’Informatique de l’Université du Mans (LIUM) dans l’équipe LST (Language and Speech Technology). Le candidat devra être motivé pour travailler sur le langage écrit et parlé. Il devra avoir des compétences en apprentissage automatique, et montrer un intérêt pour la synthèse de parole.

Descritpion

La synthèse de parole à partir du texte (TTS) est un enjeu d’avenir pour mieux connaître les mécanismes de production de la parole et du langage, mais également pour améliorer les outils grand public liés au traitement automatique de la parole. La plupart des approches TTS paramétriques actuelles, basées des modèles de Markov (HMM) ou bien sur le paradigme neuronal (NN) permettent d’obtenir des signaux synthétiques adaptés à un style ou un locuteur donné [1,2]. Actuellement, lorsqu’elle est exploitée (ce qui est rarement le cas), l’expressivité est généralement obtenue de manière implicite à partir des statistiques obtenues sur les données d’apprentissage. La définition explicite de la prosodie reste un défi encore majeur, mais de récents travaux ont montré la possibilité d’une représentation latente de celle-ci à l’aide de réseaux de neurones [3]. L’explicitation de telles représentations latentes pour la synthèse expressive permettra d’introduire une possibilité de contrôle par l’utilisateur.

Dans les approches classiques, une fois livrés à l’utilisateur, les modèles n’évoluent plus. En étant capable d’apprendre les modèles de manière incrémentale, c’est-à-dire au fur et à mesure de l’arrivée de nouvelles données, l’apprentissage actif peut soit augmenter les performances des modèles en augmentant le corpus d’apprentissage, soit adapter les modèles à un domaine en particulier. De tels systèmes ont été expérimentés dans le domaine de la reconnaissance vocale [4], ou de la détection des émotions [5], mais à l’heure actuelle, aucun travail n’a été fait pour la synthèse de parole. Les travaux menés au cours de cette thèse permettront d’inclure un contrôle utilisateur sur les sorties de la synthèse, sous la forme de corrections de sorties automatiques ou l’ajout de nouvelles données.

Objectifs

L’objectif principal de la thèse est de proposer, développer et valider des méthodes de permettant à l’utilisateur d’interagir avec un modèle neuronal au cours de l’apprentissage. Dans un premier temps, le candidat étudiera la visualisation et l’interprétation des représentations latentes apprises par un modèle neuronal état de l’art (Tacotron + WaveNet) en termes de prosodie, locuteur, expressivité et prononciation. Il définira des éléments de contrôle utilisateur qui prendront la forme d’annotations et seront ensuite intégrés dans le corpus d’apprentissage à l’aide de techniques tels que l’adaptation de paramètres acoustiques [6], les embeddings [7], les mécanismes d’attention [8], ou bien l’apprentissage de modèles intermédiaires [9]. Parallèlement, le candidat proposera des architectures neuronales compatibles avec l’apprentissage actif (renforcement des modèles ou adaptation au domaine), et déterminera les stratégies les plus pertinentes pour l’apprentissage actif. Enfin, une part importante des travaux consistera à évaluer la synthèse produite dans un contexte de livres audio [10,11].

Bibliographie

[1] Z. Wu, P. Swietojanski, C. Veaux, S. Renals, S. King (2015). A study of speaker adaptation for DNN-based speech synthesis. In proc. Interspeech, pp. 879–883.
[2] W. Ping, K. Peng, A. Gibiansky, S. O. Arik et al. (2018). Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning, arXiv:1710.07654.
[3] RJ Skerry-Ryan et al. (2018). Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron. International Conference on Machine Learning, Stockholm, Sweden, PMLR 80, 2018.
[4] Syed, A. R., Rosenberg, A., Kislal, E. (2016). Supervised and unsupervised active learning for automatic speech recognition of low-resource languages. In proc. ICASSP. Shanghai, China.
[5] Zhang, Z., Deng, J., Marchi, E., Schuller, B. (2013) Active Learning by Label Uncertainty for Acoustic Emotion Recognition. In proc. Interspeech.
[6] Kanagawa, H., Nose, T., Kobayashi, T. (2013). Speaker-independent style conversion for HMMbased expres- sive speech synthesis. In proc. ICASSP. Vancouver, Canada, pp. 7864–7868.
[7] Ping, W., Peng, K., Gibiansky, A., Arik, S. O., Kannan, A., Narang, S., Raiman, J., Miller, J. (2018). Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning. In: International Conference on Learning Representations (ICLR).
[8] Wan, M., Degottex, G., Gales, M. J. (2017). Integrated speaker-adaptive speech synthesis. In: ASRU.
[9] Tahon, M., Lecorvé, G., Lolive, D. (2018). Can we Generate Emotional Pronunciations for Expressive Speech Synthesis? IEEE Transactions on Affective Computing.
[10] A. Sini, D. Lolive, G. Vidal, M. Tahon and E. Delais-Roussarie (2018). SynPaFlex-Corpus: An Expressive French Audiobooks Corpus Dedicated to Expressive Speech Synthesis. Proc. of LREC.
[10]S. King, J. Crumlish, A. Martin and L. Wihlborg (2018). The Blizzard Challenge 2018, in Proc. Blizzard Workshop, Hyderabad, India.