Sahar Ghannay

Date : 20/09/2017
Heure : 13h30
Lieu : IC2, Le Mans Université

Titre : "Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole" Composition du jury :
  • Présidente : Mme Martine Adda-Decker,
  • Rapporteurs : Mme Sophie Rosset, M. Frédéric Béchet
  • Examinateur : - M. Benoit Favre, Benjamin Lecouteux
  • Directeur : M. Yannick Estève
  • Co-encadrante : Mme Nathalie Camelin
Résumé : Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. En dépit de la performance des systèmes de reconnaissance automatique de la parole actuels, de nombreuses erreurs sont encore générées. Cela s’explique par leur sensibilité aux diverses variabilités liées à l’environnement acoustique, au locuteur, au style de langage, à la thématique du discours, etc. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. Ces représentations ont révélé être d’un grand atout dans différentes tâches de traitement automatique des langues naturelles (TALN). L’exploitation des représentations continues de mots repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies. Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les word embeddings. Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons, afin de tirer profit de leurs complémentarités. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Nous proposons une approche qui repose sur l’utilisation d’un réseau de neurones convolutif pour construire des embeddings acoustiques de signal, et un réseau de neurones profond pour construire des embeddings acoustiques de mots. De plus, nous présentons deux approches pour évaluer la performance des embeddings acoustiques de mots. Nous proposons également d’enrichir la représentation du mot en entrée d’un système de détection d’erreurs par des descripteurs prosodiques en plus des embeddings linguistiques et acoustiques. L’intégration de ces informations dans notre architecture neuronale apporte un gain significatif en termes de réduction du taux d’erreur de classification, en comparaison à un système état de l’art fondé sur les champs aléatoires conditionnels (CRF). Puis, nous présentons une étude portant sur l’analyse des erreurs de classification, qui a pour objectif de percevoir les erreurs difficiles à détecter. Des perspectives pour améliorer la performance de notre système sont également proposées, en modélisant les erreurs au niveau de la phrase. Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détection d’erreurs dans plusieurs cadres applicatifs.

Gaël Le Lan

Date : 06/10/2017
Heure : 13h30
Lieu : IC2, Université du Mans

J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée "Analyse en locuteurs de collections de documents multimédia", co-encadrée par Orange Labs et le LIUM. Celle-ci aura lieu le vendredi 6 octobre à 13h30 à l'amphi du bâtiment IC2 et sera suivie d'un pot auquel vous êtes chaleureusement conviés (Salle TD1). Composition du jury :
  • M. Guillaume GRAVIER, DR CNRS, IRISA, Président,
  • M. Claude BARRAS, MCF HDR, Paris XI, Rapporteur,
  • M. Jean-François BONASTRE, PR, Université d'Avignon, Rapporteur
  • Mme Corrine FREDOUILLE, MCF HDR, Université d'Avignon,
  • M. Sylvain MEIGNIER, Le Mans Université, Directeur de thèse,
  • Delphine CHARLET, Orange Lab, Co-encadrants,
  • Anthony LARCHER, Le Mans Université, Co-encadrants,
  • Yannick ESTEVE, Le Mans Université
  • Jean-Hugh THOMAS, Le Mans Université
Résumé de la thèse : La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l’échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l’avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l’échelle d’une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue...). Cette thèse propose deux méthodes pour pallier le problème. D’une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d’adaptation non supervisée au domaine est présenté, exploitant l’information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d’analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d’erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d’une quarantaine d’épisodes, pour les architectures de SRL globale ou incrémentale, à l’aide de la modélisation locuteur à l’état de l’art (i-vector).

Guillaume Loup

Date : 04/12/2017
Heure : 13h
Lieu : IUT Laval, Amphi 2

Titre : "Conception et Développement d’interactions immersives pour jeux sérieux". Composition du jury : Philippe Fuchs, Professeur des Mines ParisTech, Examinateur Sébastien George, Professeur des Universités, Directeur de thèse Jean-Pierre Jessel, Professeur des Universités, Rapporteur Domitile Lourdeaux, Maître de Conférences HDR, Rapporteure Daniel Mestre, Directeur de Recherche, Examinateur Audrey Serna, Maître de Conférences, Encadrante de thèse. Résumé : Cette thèse s’inscrit dans le domaine de l’ingénierie des Environnements Virtuels pour l’Apprentissage Humain (EVAH) et a été financée par le projet ANR JEN.lab. Les jeux épistémiques numériques (JEN) sont une catégorie des jeux sérieux dédiés à la résolution de problèmes complexes, pluridisciplinaires et non-déterministes. L’objectif de ces JEN est de proposer des situations d’apprentissage authentiques du point de vue des interactions qu’elles permettent, les apprenants pouvant alors construire et ancrer des connaissances dans leur contexte d’usage. La première partie de la thèse est consacrée à une méthodologie permettant de concevoir des JEN aux interactions enrichies sur le plan spatial, temporel et social, nommés jeux épistémiques numériques pervasifs (JENP). Des expérimentations ont été menées en milieu écologique et ont montré un apport pédagogique par une augmentation de l’engagement des apprenants. La conception des prototypes expérimentés a mis en évidence que le développement informatique des interactions immersives d’un EVAH demeure actuellement réservé à des spécialistes en Réalité Mixte ou Virtuelle (RMV). Ainsi la seconde partie de la thèse a été dédiée à la proposition d’un environnement de développement nommé MIREDGE pouvant être utilisé par des développeurs non spécialistes en interactions immersives. Une interface de programmation visuelle permet aux développeurs de modéliser des interactions sans connaissance spécifique en RMV par réutilisation de blocs. Les principaux blocs sont destinés à représenter visuellement une fonctionnalité ou un algorithme d’un périphérique de RMV. Des blocs logiques permettent aux développeurs d’établir un algorithme d’une interaction particulière par composition. Enfin d’autres blocs permettent de relier le nouvel algorithme à d’autres méthodes existantes dans le projet où l’interaction sera intégrée. Des expérimentations ont permis d’évaluer l’efficacité et l’efficience de MIREDGE pour le profil des développeurs RMV ainsi que celui des développeurs non-initiés à la RMV. Les deux profils de développeurs sont complémentaires dans MIREDGE, les premiers proposant de nouveaux blocs d’interactions à l’ensemble de la communauté, les seconds, en plus grand nombre, pouvant mener à un assemblage optimal. Les développeurs RMV ayant une nécessité à poursuivre leur algorithme au-delà de la programmation visuelle, MIREDGE permet une génération automatique de code fournissant le script correspondant et totalement rééditable dans leur moteur de jeu. L’approche MIREDGE, dans son ensemble, s’inscrit dans une architecture logicielle permettant le partage rapide d’interactions selon un méta-modèle. Son indépendance logicielle permet de garantir une large compatibilité avec les environnements de développement et les périphériques, ouvrant ainsi des perspectives sur l’étude de logiques d’interactions universelles. Mots-clés : Jeux sérieux, Jeux épistémiques numériques, Interactions immersives, Développeur de jeux sérieux, Programmation visuelle, Moteur de jeu, Développeur en réalité virtuelle.

Natalia Tomashenko

Date : 01/12/2017
Heure : 14h00
Lieu : IC2, Université du Mans

Titre de la thèse : " Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole ". Le jury sera composé de : Rapporteurs :
  • Jean-François BONASTRE, Professeur, Université d’Avignon et des Pays de Vaucluse
  • Denis JOUVET, Directeur de Recherche, LORIA-INRIA
Examinateurs :
  • Alexey KARPOV, Professeur, ITMO University
  • Lori LAMEL, Directrice de Recherche, LIMSI-CNRS
Directeur de Thèse : Yannick ESTEVE, Professeur, Le Mans Université Co-directeur de Thèse : Yuri MATVEEV, Professeur, ITMO University Co-encadrant de Thèse : Anthony LARCHER, Maître de conférences, Le Mans Université Résumé : Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire. Mots clés : adaptation au locuteur, apprentissage adaptatif au locuteur (SAT), réseaux de neurones profonds, modèles de mélanges Gaussiens (GMM), paramètres acoustiques dérivés de GMM (GMMD), reconnaissance automatique de la parole (RAP), modèles acoustiques, apprentissage profond