Kevin Vythelingum – Laboratoire d'Informatique de l'Université du Mans

Soutenance de thèse, Kevin Vythelingum

Date : 10/12/2019
Heure : 13h30
Lieu : salle des conseils, bâtiment IC2, LIUM, Université du Mans

Titre : Construction rapide, performante et mutualisée de systèmes de reconnaissance et de synthèse de la parole pour de nouvelles langues

Composition du jury :
Rapporteurs :
– Martine ADDA-DECKER (LPP, Université Paris 3 Sorbonne)
– Denis JOUVET (LORIA, INRIA Nancy)
Examinateurs :
– Sylvain MEIGNER (LIUM, Le Mans Université)
– Jean-François BONASTRE (LIA, Université d’Avignon)
– Damien LOLIVE (IRISA, Enssat Lannion)
Directeur de Thèse : : M. Yannick Estève (LIA, Université d’Avignon)
Co-encadrants :
– Olivier ROSEC (Voxygen)
– Anthony LARCHER (LIUM, Le Mans Université)

Résumé :

Nous étudions dans cette thèse la construction mutualisée de systèmes de reconnaissance et de synthèse de la parole pour de nouvelles langues, avec un objectif de performance et de rapidité de développement. Le développement rapide des technologies vocales pour de nouvelles langues anime des ambitions scientifiques et est aujourd’hui considéré comme stratégique par les acteurs industriels. Cependant, le développement des langues est conduit de manière morcelée par quelques centres de recherche travaillant chacun sur un nombre réduit de langues. Or, ces technologies partagent de nombreux points communs. Notre étude se concentre sur la construction et la mutualisation d’outils pour la création de lexiques, l’apprentissage de règles de phonétisation et l’exploitation de données imparfaites.

Nos contributions portent sur la sélection de données pertinentes pour l’apprentissage de modèles acoustiques, le développement conjoint de phonétiseurs et de lexiques de prononciation pour la reconnaissance et la synthèse de la parole, et l’exploitation de modèles neuronaux pour la transcription phonétique à partir du texte et du signal de parole. De plus, nous présentons une approche de détection automatique des erreurs de transcriptions phonétiques dans les bases de données annotées de signal de parole. Cette étude a montré qu’il était possible de réduire de manière importante la quantité de données à annoter manuellement lors du développement de nouveaux systèmes de synthèse de la parole. Cela contribue naturellement à réduire le temps de collecte de données pour la création de nouveaux systèmes. Finalement, nous étudions un cas applicatif en construisant de façon mutualisée un système de reconnaissance et de synthèse de la parole pour une nouvelle langue.

Mots-clés :

Reconnaissance automatique de la parole, Synthèse de la parole, Transcription phonétique, Détection automatique d’erreurs, Développement de nouvelles langues, Exploitation de données imparfaites