Valentin Pelloin – Laboratoire d'Informatique de l'Université du Mans

Soutenance de thèse, Valentin Pelloin

Date : 24/01/2024
Heure : 9h30
Lieu : Le Mans Université, amphithéâtre bâtiment IC2

Titre : La compréhension de la parole dans les systèmes de dialogues humain-machine à l’heure des modèles pré-entraînés

Composition du jury :

Christophe CERISARA, Chargé de recherche, LORIA, Nancy, Rapporteur
Benoit FAVRE, Professeur des université, LIS, Marseille, Rapporteur
Géraldine DAMNATI, Ingénieure de recherche, Orange Labs, Lannion Examinatrice
Richard DUFOUR, Maître de conférences, LIA, Avignon, Examinateur
Sophie ROSSET, Directrice de recherche, LISN, Orsay Examinatrice
Sylvain MEIGNIER, Professeur, Le Mans Université LIUM, Directeur de thèse
Nathalie CAMELIN, Maitresse de conférences, Le Mans Université LIUM, Encadrante
Antoine LAURENT, Professeur, Le Mans Université LIUM, Encadrant

Résumé :

Dans cette thèse, la compréhension automatique de la parole (SLU) est étudiée dans le cadre applicatif de dialogues téléphoniques à buts définis (réservation de chambres d’hôtel par exemple).

Historiquement, la SLU était réalisée en cascade : un système de reconnaissance de la parole réalisait une transcription en mots, puis un système de compréhension y associait une annotation sémantique. Le développement des méthodes neuronales profondes a fait émerger les architectures de bout-en-bout, où la tâche de compréhension est réalisée par un système unique, appliqué directement à partir du signal de parole pour en extraire l’annotation sémantique. Récemment, les modèles dits pré-entraînés de manière non supervisée (SSL) ont apporté de nouvelles avancées en traitement automatique des langues (TAL). Appris de façon générique sur de très grandes masses de données, ils peuvent ensuite être adaptés pour d’autres applications. À ce jour, les meilleurs résultats SLU sont obtenus avec des systèmes en cascade intégrant des modèles SSL.

Cependant, aucune des architectures, cascade ou bout-en-bout, n’est parfaite. À travers cette thèse, nous étudions ces architectures et proposons des versions hybrides qui tentent de tirer parti des avantages de chacune. Après avoir développé un modèle SLU bout-en-bout à l’état de l’art, nous avons évalué différentes stratégies d’hybridation. Les avancées apportées par les modèles SSL en cours de thèse, nous ont amenés à les intégrer dans notre architecture hybride.

Mots clés :

compréhension de la parole, reconnaissance automatique de la parole, réseaux de neurones, modèles pré-entraînés, modèles auto-supervisés, extraction de concepts sémantiques