J’ai le plaisir de vous inviter à ma soutenance de thèse intitulée « Analyse en locuteurs de collections de documents multimédia », co-encadrée par Orange Labs et le LIUM. Celle-ci aura lieu le vendredi 6 octobre à 13h30 à l’amphi du bâtiment IC2 et sera suivie d’un pot auquel vous êtes chaleureusement conviés (Salle TD1).

Composition du jury :

  • M. Guillaume GRAVIER, DR CNRS, IRISA, Président,
  • M. Claude BARRAS, MCF HDR, Paris XI, Rapporteur,
  • M. Jean-François BONASTRE, PR, Université d’Avignon, Rapporteur
  • Mme Corrine FREDOUILLE, MCF HDR, Université d’Avignon,
  • M. Sylvain MEIGNIER, Le Mans Université, Directeur de thèse,
  • Delphine CHARLET, Orange Lab, Co-encadrants,
  • Anthony LARCHER, Le Mans Université, Co-encadrants,
  • Yannick ESTEVE, Le Mans Université
  • Jean-Hugh THOMAS, Le Mans Université

Résumé de la thèse :
La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l’échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l’avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l’échelle d’une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue…). Cette thèse propose deux méthodes pour pallier le problème. D’une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d’adaptation non supervisée au domaine est présenté, exploitant l’information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d’analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d’erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d’une quarantaine d’épisodes, pour les architectures de SRL globale ou incrémentale, à l’aide de la modélisation locuteur à l’état de l’art (i-vector).