Soutenance de thèse, Pierre-Alexandre Broux

Date : 10/01/2020
Heure : 14h00
Lieu : salle 210, bâtiment IC2, LIUM, Université du Mans

Titre : Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains

Composition du jury :
Rapporteurs :
– Jean-François BONASTRE (LIA, Université d’Avignon)
– Nicholas EVANS (EURECOM)
Examinatrice :
– Régine ANDRE-OBRECHT (Université Toulouse 3)
Directeur de Thèse :
– Sylvain MEIGNER (LIUM, Le Mans Université)

Co-encadrants :
– Simon PETITRENAUD (LIUM, Le Mans Université)

– Jean CARRIVE (INA)

Résumé :

La tâche de segmentation et de regroupement en locuteur (SRL) consiste à déterminer le nombre de locuteurs ainsi que leurs interventions dans un document audio. Cette tâche intéresse de nombreuses entreprises qui souhaitent indexer leurs contenus audiovisuels. En particulier, l’institut national de l’audiovisuel (INA) désire appliquer cette tâche sur ses archives afin d’en améliorer l’accessibilité mais également l’annotation. Cependant, les usages de l’institut requièrent une qualité minimum qui n’est, la plupart du temps, pas encore atteinte par les systèmes automatiques de SRL à l’état de l’art. Pour atteindre les performances voulues, un humain peut corriger la sortie d’un système de SRL. Néanmoins, une intervention humaine est généralement chronophage et coûteuse.

Afin de réduire ces coûts, une solution possible est d’utiliser un système assisté par l’humain : un humain donne des informations à un système afin qu’il améliore ses prédictions pour faire décroître son coût de correction. Le présent manuscrit s’articule autour de la SRL assistée par l’humain. Il propose une mesure afin d’évaluer le coût d’intervention humain pour corriger une SRL, un protocole pour évaluer les interactions d’un humain pour la SRL, un automate simulant les corrections humaines à faire pour une SRL et des systèmes de SRL assistés réduisant le coût d’intervention humain total. Plus précisément, les systèmes de SRL assistés présentés réévaluent soit uniquement le regroupement en locuteurs, soit la segmentation et le regroupement en locuteurs.

Mots-clés :

Segmentation et regroupement en locuteurs (SRL), Système assisté, Interaction homme-machine (IHM), Annotation