Thèses en cours

Analyse en locuteur de collections de documents

Débuté le : :01/12/2014
Student : Gaël Le Lan
Advisor : Sylvain Meignier (LIUM - LST)
Co-advisor : Delphine Charlet (Orange Lab), Anthony Larcher (LIUM LST)
Funding : Orange Lab

La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l’échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l’avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l’échelle d’une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue. . .). Cette thèse propose deux méthodes pour pallier le problème. D’une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d’adaptation non supervisée au domaine est présenté, exploitant l’information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d’analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d’erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d’une quarantaine d’épisodes, pour les architectures de SRL globale ou incrémentale, à l’aide de la modélisation locuteur à l’état de l’art (i-vector ). Mots-Clés : segmentation et regroupement en locuteurs, réseau de neurones, adaptation au domaine, apprentissage supervisé, apprentissage non supervisé

Reconnaissance de locuteurs à large échelle dans des documents audiovisuels, en interaction avec des annotateurs humains

Débuté le : :02/10/2017

La thèse proposée s’articulera autour de la reconnaissance de locuteurs à large échelle dans les archives radio et télévisuelles de l’INA (Institut National de l’Audiovisuel), qui dispose d’une quantité impressionnante de documents. L’annotation manuelle de ces documents représente une source d’information précieuse pour l’exploitation et la commercialisation de ces données, mais nécessite un temps de travail considérable. Les annotations permettent d’enrichir les documents en décrivant notamment l’identité des locuteurs, au fil du document, ou les thèmes abordés. Les objectifs sont alors de tirer partie de ces annotations pour améliorer la reconnaissance des locuteurs, en interrogeant ponctuellement le ou les annotateur(s), afin de confirmer les informations produites par des systèmes de reconnaissance et d’extrapoler éventuellement ces informations à d’autres périodes du document. Ce travail permettra d’aider à la reconnaissance des intervenants dans de grandes quantités de documents. Pour cela une analyse des caractéristiques des différents locuteurs présents dans les documents archivés sera réalisée. Il s’agira de mettre en œuvre des méthodes et outils d’analyse des supports radio et télévisuels pour détecter et suivre les prises de parole des intervenants présents dans l’archive, en s’appuyant notamment sur des requêtes ponctuelles posées à l’annotateur, qui guideront progressivement la reconnaissance tout au long du document. Les méthodes d’apprentissage semi-supervisées et plus spécifiquement d’« active learning » seront particulièrement adaptées à ces objectifs.