Soutenance de thèse, Théo Mariotte

Date : 11/01/2024
Heure : 14h00
Lieu : Le Mans Université, amphithéâtre bâtiment IC2
 

Titre : Traitement automatique de la parole en réunion par dissémination de capteurs

 

Composition du jury :

  • Jan “Honza” Černocký, Professeur, Brno University of Technology, République Tchèque Rapporteur
  • Emmanuel Vincent, Directeur de Recherche, Inria Nancy – Grand Est, France Rapporteur
  • Julie Mauclair, Maître de Conférences, IRIT, Toulouse, France Examinatrice
  • Gaël Richard, Professeur, Télécom Paris, France Examinateur
  • Jean-Hugh Thomas, Professeur, Le Mans Université LAUM, Directeur de thèse
  • Anthony Larcher, Professeur, Le Mans Université LIUM, Encadrant
  • Silvio Montrésor, Maître de conférences, Le Mans Université LAUM, Encadrant

 

Résumé :

Ces travaux de thèse se concentrent sur le traitement automatique de la parole, et plus particulièrement sur la diarisation en locuteurs. Cette tâche nécessite de segmenter le signal afin d’identifier des évènements tels que la présence de parole, de parole superposée ou de changements de locuteur. Cette recherche se focalise sur le cas où le signal est capté par un dispositif placé au centre d’un groupe de locuteurs, comme lors de réunions. Ces conditions entraînent une dégradation de la qualité des signaux en raison de l’éloignement des sources sonores (parole distante).

Afin de pallier cette dégradation, une approche consiste à enregistrer le signal à l’aide d’un ensemble de microphones formant une antenne acoustique. Le signal multicanal obtenu permet d’obtenir des informations sur la répartition spatiale du champ acoustique. Deux axes de recherche sont explorés pour la segmentation de la parole à l’aide d’antennes de microphones.

Le premier axe introduit une méthode com- binant des caractéristiques acoustiques avec des caractéristiques spatiales. Un nouveau jeu de caractéristiques, basé sur le formalisme des harmoniques circulaires, est proposé. Cette approche améliore les performances de segmentation en conditions dis- tantes, tout en réduisant le nombre de paramètres des modèles et en garantissant une certaine robustesse en cas de désactivation de certains microphones.

Le second axe propose plusieurs approches de combinaison des canaux en utilisant des mécanismes d’auto-attention. Différents modèles, inspirés d’une architecture existante, sont développés. La combinaison de canaux améliore également la segmentation en conditions distantes. Deux de ces approches rendent l’extraction de caractéristiques plus interprétable. Les systèmes de segmentation de la parole distante proposés améliorent également la diarisation en locuteurs.

La combinaison de canaux montre une faible robustesse en cas de changement de géométrie de l’antenne en phase d’évaluation. Pour y remédier, une procédure d’apprentissage est proposée, qui améliore la robustesse en présence d’une antenne non conforme.

Finalement, les travaux menés ont permis d’identifier un manque dans les jeux de données publics disponibles pour le traitement automatique de la parole distante. Un protocole d’acquisition est introduit pour l’acquisition de signaux en réunions et intégrant l’annotation de la position des locuteurs en plus de la segmentation.

En somme, ces travaux visent à améliorer la qualité de la segmentation de la parole distante multicanale. Les méthodes proposées exploitent l’information spatiale fournie par les antennes de microphones en garantissant une certaine robustesse au nombre de microphones disponibles.

 

Mots clés :

parole distante, antennes de microphones, segmentation automatique de la parole, diarisation en locuteurs, apprentissage profond