Edwin Simonnet – Laboratoire d'Informatique de l'Université du Mans

Soutenance de thèse, Edwin Simonnet

Date : 12/02/2019
Heure : 13h00
Lieu : amphithéâtre, bâtiment IC2, LIUM, Université du Mans

Titre : Réseaux de neurones profonds appliqués à la compréhension de la parole

Composition du jury :
Rapporteurs :
– Mme Sophie Rosset
– M. Frédéric Béchet
Examinateurs :
– M. Marco Dinarelli
– M. Bassam Jabaian
Directeur de Thèse : M. Yannick Estève
Co-directeur de Thèse : Mme Nathalie Camelin
Invité : M. Paul Deléglise

Résumé :

Cette thèse s’inscrit dans le cadre de l’émergence de l’apprentissage profond et aborde la compréhension de la parole assimilée à l’extraction et à la représentation automatique du sens contenu dans les mots d’une phrase parlée. Nous étudions une tâche d’étiquetage en concepts sémantiques dans un contexte de dialogue oral évaluée sur le corpus français MEDIA. Depuis une dizaine d’années, les modèles neuronaux prennent l’ascendant dans de nombreuses tâches de traitement du langage naturel grâce à des avancées algorithmiques ou à la mise à disposition d’outils de calcul puissants comme les processeurs graphiques. De nombreux obstacles rendent la compréhension complexe, comme l’interprétation difficile des transcriptions automatiques de la parole étant donné que de nombreuses erreurs sont introduites par le processus de reconnaissance automatique en amont du module de compréhension. Nous présentons un état de l’art décrivant la compréhension de la parole puis les méthodes d’apprentissage automatique supervisé pour la résoudre en commençant par des systèmes classiques pour finir avec des techniques d’apprentissage profond. Les contributions sont ensuite exposées suivant trois axes. Premièrement, nous développons une architecture neuronale efficace consistant en un réseau récurent bidirectionnel encodeur-décodeur avec mécanisme d’attention. Puis nous abordons la gestion des erreurs de reconnaissance automatique et des solutions pour limiter leur impact sur nos performances. Enfin, nous envisageons une désambiguïsation de la tâche de compréhension permettant de rendre notre système plus performant.

Mots-clés :
Compréhension de la parole, Corpus MEDIA, Étiquetage en concept sémantiques , Réseaux de neurones profonds, Mécanisme d’attention, Erreurs de reconnaissance automatique, Simulation d’erreurs de reconnaissance, Désambiguïsation de la compréhension, Réseaux neuronaux (informatique), Apprentissage profond, Reconnaissance automatique de la parole