Soutenance de thèse, Kevin Vythelingum

Date : 10/12/2019
Heure : 13h30
Lieu : salle des conseils, bâtiment IC2, LIUM, Université du Mans

Titre : Construction rapide, performante et mutualisée de systèmes de reconnaissance et de synthèse de la parole pour de nouvelles langues

Composition du jury :
Rapporteurs :
– Martine ADDA-DECKER (LPP, Université Paris 3 Sorbonne)
– Denis JOUVET (LORIA, INRIA Nancy)
Examinateurs :
– Sylvain MEIGNER (LIUM, Le Mans Université)

– Jean-François BONASTRE (LIA, Université d’Avignon)
– Damien LOLIVE (IRISA, Enssat Lannion)
Directeur de Thèse : : M. Yannick Estève (LIA, Université d’Avignon)
Co-encadrants :
– Olivier ROSEC (Voxygen)

– Anthony LARCHER (LIUM, Le Mans Université)

Résumé :

Nous étudions dans cette thèse la construction mutualisée de systèmes de reconnaissance et de synthèse de la parole pour de nouvelles langues, avec un objectif de performance et de rapidité de développement. Le développement rapide des technologies vocales pour de nouvelles langues anime des ambitions scientifiques et est aujourd’hui considéré comme stratégique par les acteurs industriels. Cependant, le développement des langues est conduit de manière morcelée par quelques centres de recherche travaillant chacun sur un nombre réduit de langues. Or, ces technologies partagent de nombreux points communs. Notre étude se concentre sur la construction et la mutualisation d’outils pour la création de lexiques, l’apprentissage de règles de phonétisation et l’exploitation de données imparfaites.

Nos contributions portent sur la sélection de données pertinentes pour l’apprentissage de modèles acoustiques, le développement conjoint de phonétiseurs et de lexiques de prononciation pour la reconnaissance et la synthèse de la parole, et l’exploitation de modèles neuronaux pour la transcription phonétique à partir du texte et du signal de parole. De plus, nous présentons une approche de détection automatique des erreurs de transcriptions phonétiques dans les bases de données annotées de signal de parole. Cette étude a montré qu’il était possible de réduire de manière importante la quantité de données à annoter manuellement lors du développement de nouveaux systèmes de synthèse de la parole. Cela contribue naturellement à réduire le temps de collecte de données pour la création de nouveaux systèmes. Finalement, nous étudions un cas applicatif en construisant de façon mutualisée un système de reconnaissance et de synthèse de la parole pour une nouvelle langue.

Mots-clés :

Reconnaissance automatique de la parole, Synthèse de la parole, Transcription phonétique, Détection automatique d’erreurs, Développement de nouvelles langues, Exploitation de données imparfaites