{"id":24029,"date":"2019-03-26T14:09:01","date_gmt":"2019-03-26T13:09:01","guid":{"rendered":"https:\/\/lium.univ-lemans.fr\/?p=24029"},"modified":"2019-03-26T14:20:53","modified_gmt":"2019-03-26T13:20:53","slug":"apprentissage-actif-pour-la-creation-de-voix-de-synthese-expressive-a-partir-de-donnees-massives","status":"publish","type":"post","link":"https:\/\/lium.univ-lemans.fr\/en\/apprentissage-actif-pour-la-creation-de-voix-de-synthese-expressive-a-partir-de-donnees-massives\/","title":{"rendered":"Apprentissage actif pour la cr\u00e9ation de voix de synth\u00e8se expressive \u00e0 partir de donn\u00e9es massives"},"content":{"rendered":"<div class=\"panel-grid\" id=\"pg-24029-0\" ><div class=\"panel-grid-core\"><div class=\"panel-grid-cell\" id=\"pgc-24029-0-0\" ><div class=\"panel-widget-style\" ><h2 style=\"text-align: center;\"><span style=\"color: #e5442d;\">Proposition de sujet de th\u00e8se en informatique, LIUM<\/span><\/h2>\n<p>&nbsp;<\/p>\n<h3 style=\"text-align: justify;\"><span style=\"color: #e5442d;\"><strong>Titre<\/strong> :<\/span> Apprentissage actif pour la cr\u00e9ation de voix de synth\u00e8se expressive \u00e0 partir de donn\u00e9es massives.<\/h3>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Laboratoire d\u2019accueil :<\/strong> Laboratoire d\u2019Informatique de l\u2019Universit\u00e9 du Mans (LIUM)<br \/>\n<strong>Site :<\/strong> Le Mans<\/p>\n<p><strong>Directeur de th\u00e8se :<\/strong> <a href=\"http:\/\/lium.univ-lemans.fr\/team\/sylvain-meignier\" target=\"_blank\" rel=\"noopener\">Sylvain Meignier<\/a> (<a href=\"mailto:sylvain.meignier@univ-lemans.fr\" target=\"_blank\" rel=\"noopener\">sylvain.meignier[at]univ-lemans.fr<\/a>)<br \/>\n<strong>Co-encadrant :<\/strong> <a href=\"http:\/\/lium.univ-lemans.fr\/team\/marie-tahon\" target=\"_blank\" rel=\"noopener\">Marie Tahon<\/a> (<a href=\"mailto:marie.tahon@univ-lemans.fr\" target=\"_blank\" rel=\"noopener\">marie.tahon[at]univ-lemans.fr<\/a>)<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Contexte de la th\u00e8se<br \/>\n<\/strong>Le th\u00e8se aura lieu au Laboratoire d\u2019Informatique de l\u2019Universit\u00e9 du Mans (LIUM) dans l\u2019\u00e9quipe LST (Language and Speech Technology). Le candidat devra \u00eatre motiv\u00e9 pour travailler sur le langage \u00e9crit et parl\u00e9. Il devra avoir des comp\u00e9tences en apprentissage automatique, et montrer un int\u00e9r\u00eat pour la synth\u00e8se de parole.<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Sujet de th\u00e8se<br \/>\n<\/strong>La synth\u00e8se de parole \u00e0 partir du texte (TTS) est un enjeu d\u2019avenir pour mieux conna\u00eetre les m\u00e9canismes de production de la parole et du langage, mais \u00e9galement pour am\u00e9liorer les outils grand public li\u00e9s au traitement automatique de la parole. La plupart des approches TTS param\u00e9triques actuelles, bas\u00e9es des mod\u00e8les de Markov (HMM) ou bien sur le paradigme neuronal (NN) permettent d\u2019obtenir des signaux synth\u00e9tiques adapt\u00e9s \u00e0 un style ou un locuteur donn\u00e9 [1,2]. Actuellement, lorsqu\u2019elle est exploit\u00e9e (ce qui est rarement le cas), l\u2019expressivit\u00e9 est g\u00e9n\u00e9ralement obtenue de mani\u00e8re implicite \u00e0 partir des statistiques obtenues sur les donn\u00e9es d\u2019apprentissage. La d\u00e9finition explicite de la prosodie reste un d\u00e9fi encore majeur, mais de r\u00e9cents travaux ont montr\u00e9 la possibilit\u00e9 d\u2019une repr\u00e9sentation latente de celle-ci \u00e0 l\u2019aide de r\u00e9seaux de neurones [3]. L\u2019explicitation de telles repr\u00e9sentations latentes pour la synth\u00e8se expressive permettra d\u2019introduire une possibilit\u00e9 de contr\u00f4le par l\u2019utilisateur.<\/p>\n<p>La nouvelle g\u00e9n\u00e9ration de synth\u00e9tiseur bas\u00e9e sur les r\u00e9seaux de neurones (notamment les m\u00e9thodes end-to-end) semble apporter un compromis int\u00e9ressant entre qualit\u00e9, expressivit\u00e9 et flexibilit\u00e9. La plupart de ces m\u00e9thodes r\u00e9side dans l\u2019obtention de grandes bases de donn\u00e9es, puis de l\u2019apprentissage a posteriori des mod\u00e8les n\u00e9cessaires \u00e0 la cr\u00e9ation de la voix de synth\u00e8se. Cette m\u00e9thode implique qu\u2019une fois livr\u00e9s \u00e0 l\u2019utilisateur, les mod\u00e8les n\u2019\u00e9voluent plus. En \u00e9tant capable d\u2019apprendre les mod\u00e8les de mani\u00e8re incr\u00e9mentale, c\u2019est-\u00e0-dire au fur et \u00e0 mesure de l\u2019arriv\u00e9e de nouvelles donn\u00e9es, l\u2019apprentissage actif peut soit augmenter les performances des mod\u00e8les en augmentant le corpus d\u2019apprentissage, soit adapter les mod\u00e8les \u00e0 un domaine en particulier. De tels syst\u00e8mes ont \u00e9t\u00e9 exp\u00e9riment\u00e9s dans le domaine de la reconnaissance vocale [4], ou de la d\u00e9tection des \u00e9motions [5], mais \u00e0 l\u2019heure actuelle, aucun travail n\u2019a \u00e9t\u00e9 fait pour la synth\u00e8se de parole.<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Objectifs<br \/>\n<\/strong>L\u2019objectif principal de la th\u00e8se est de proposer, d\u00e9velopper et valider des m\u00e9thodes de segmentation et d\u2019identification permettant de constituer un corpus de voix utilisable pour la synth\u00e8se de parole expressive \u00e0 partir de donn\u00e9es a priori h\u00e9t\u00e9rog\u00e8nes. Dans un premier temps, le candidat \u00e9tudiera l\u2019analyse, la mod\u00e9lisation et la synth\u00e8se de l\u2019expressivit\u00e9 et examinera conjointement le locuteur et la prosodie. Des techniques \u00e9tat de l\u2019art, telles que l\u2019outil SIDEKIT [6], pourront servir de point de d\u00e9part. Parall\u00e8lement, le candidat proposera des architectures neuronales int\u00e9grant les diff\u00e9rents aspects expressifs et permettant de r\u00e9pondre \u00e0 la probl\u00e9matique de l\u2019apprentissage actif (renforcement des mod\u00e8les et adaptation au domaine). Et enfin, une part importante des travaux consistera \u00e0 \u00e9valuer la synth\u00e8se produite dans un contexte de livres audio [7,8], ceci afin d\u2019\u00e9valuer l\u2019\u00e9coute de la synth\u00e8se dans la dur\u00e9e.<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Profil souhait\u00e9<br \/>\n<\/strong><\/p>\n<ul>\n<li>Master en informatique, si possible dans le domaine du traitement automatique de la parole.<\/li>\n<li>Connaissances en statistiques et apprentissage neuronal.<\/li>\n<li>Des connaissances en traitement du signal et en synth\u00e8se de la parole sont un plus.<\/li>\n<li>Bonne exp\u00e9rience de programmation (si possible en Python).<\/li>\n<\/ul>\n<p>Le candidat enverra CV, lettre de motivation ainsi que notes de Master et publications \u00e9ventuelles par mail \u00e0 sylvain.meignier@univ-lemans.fr et marie.tahon@univ-lemans.fr. En plus, une lettre de recommandation de l\u2019encadrant de stage de Master (ou autre projet de recherche) sera envoy\u00e9e \u00e9galement par mail.\n<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>R\u00e9f\u00e9rences<br \/>\n<\/strong>[1] Z. Wu, P. Swietojanski, C. Veaux, S. Renals, S. King (2015). A study of speaker adaptation for DNN-based speech synthesis. Proc. INTERSPEECH, pp. 879\u2013883.<br \/>\n[2] W. Ping, K. Peng, A. Gibiansky, S. O. Arik et al. (2018). Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning, arXiv:1710.07654.<br \/>\n[3] RJ Skerry-Ryan et al. (2018). Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron. International Conference on Machine Learning, Stockholm, Sweden, PMLR 80, 2018.<br \/>\n[4] Syed, A. R., Rosenberg, A., Kislal, E., Supervised and unsupervised active learning for automatic speech recognition of low-resource languages. In: Internation Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai, China: IEEE, 2016.<br \/>\n[5] Zhang, Z., Deng, J., Marchi, E., Schuller, B., Active Learning by Label Uncertainty for Acoustic Emotion Recognition. Interspeech (2013).<br \/>\n[6] A. Larcher, K. Aik Lee and S. Meignier, An extensible speaker identification SIDEKIT in Python, in International Conference on Audio Speech and Signal Processing (ICASSP), 2016<br \/>\n[7] A. Sini, D. Lolive, G. Vidal, M. Tahon and E. Delais-Roussarie (2018). SynPaFlex-Corpus: An Expressive French Audiobooks Corpus Dedicated to Expressive Speech Synthesis. Proc. of LREC.<br \/>\n[8] S. King, J. Crumlish, A. Martin and L. Wihlborg. The Blizzard Challenge 2018, in Proc. Blizzard Workshop, Hyderabad, India, Sept. 2018.<\/p><\/div><\/div><\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Proposition de sujet de th\u00e8se en informatique, LIUM &nbsp; Titre : Apprentissage actif pour la cr\u00e9ation de voix de synth\u00e8se expressive \u00e0 partir de donn\u00e9es massives. &nbsp; Laboratoire d\u2019accueil : Laboratoire d\u2019Informatique de l\u2019Universit\u00e9 du Mans (LIUM) Site : Le Mans Directeur de th\u00e8se : Sylvain Meignier (sylvain.meignier[at]univ-lemans.fr) Co-encadrant : Marie Tahon (marie.tahon[at]univ-lemans.fr) &nbsp; Contexte [&hellip;]<\/p>\n<p class=\"more-link style2\"><a href=\"https:\/\/lium.univ-lemans.fr\/en\/apprentissage-actif-pour-la-creation-de-voix-de-synthese-expressive-a-partir-de-donnees-massives\/\"  class=\"themebutton\"><span class=\"more-text\">READ MORE<\/span><span class=\"more-icon\"><i class=\"fa fa-angle-right fa-lg\"><\/i><\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":22128,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[78],"tags":[],"acf":[],"_links":{"self":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/24029"}],"collection":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/comments?post=24029"}],"version-history":[{"count":0,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/24029\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/media\/22128"}],"wp:attachment":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/media?parent=24029"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/categories?post=24029"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/tags?post=24029"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}