Soutenance de thèse, Martin Lebourdais
Date : 17/10/2023
Heure : 9h00
Lieu : Le Mans Université, amphithéâtre bâtiment IC2
Titre : Interactions entre locuteurs: de la détection de la parole superposée à la détection des interruptions.
Composition du jury :
- Romain Serizel, MCF HDR, Loria Rapporteur
- Ricard Marxer, Professeur, LIS, Rapporteur
- Martine Adda-Decker, Directrice de recherche, CNRS, Examinatrice
- Hervé Bredin, Chargé de recherche, Université Paris-Scalay Examinateur
- Slim Essid, Professeur, Telecom Paris, Examinateur
- Laetitia Biscarrat, Maîtresse de conférence, LERASS, Invitée
- Marie Tahon, Professeure, Le Mans Université LIUM, Encadrante
- Antoine Laurent, Professeur, Le Mans Université LIUM, Co-Encadrant
- Sylvain Meignier, Professeur, Le Mans Université LIUM, Directeur de thèse
Résumé :
Le projet ANR GEM, à l’initiative de l’institut national de l’audiovisuel, vise à étudier les différences de traitement et de représentation entre les femmes et les hommes dans les médias. Ce projet encourage la collaboration entre la recherche menée en sciences des médias et du langage et celle menée en informatique. Un des objectifs du projet est de favoriser la création d’outils automatiques afin de généraliser et favoriser les études SHS sur de larges corpus.
Dans cette thèse, nous nous focaliserons sur des outils de traitement du signal qui faciliteront la caractérisation des représentations des locuteurs. Plus précisément, nous proposons des méthodes pour détecter et caractériser automatiquement les interruptions au cours d’une conversation issue d’émissions de débats télévisuels.
L’interruption est une notion subjective, dont la définition n’est pas consensuelle. Dans notre domaine du traitement automatique, cette tâche est nouvelle, sans cadre et avec peu de ressources. Nous proposons, dans un premier temps, de réduire la définition des interruptions au cas particulier de la parole superposée conformément à la littérature en sociologie et en sciences du langage. Un outil de détection de la présence d’activité vocale mono et multi-locuteur a été développé dans ce contexte. Le développement d’un tel outil pose la question au-delà d’une évaluation quantitative. À partir des segments multi-locuteurs, plusieurs études ont été réalisées portant sur leur durée ainsi que sur leur contenu linguistique.
Dans un second temps, nous nous sommes intéressés spécifiquement à la détection des interruptions. L’apprentissage de modèles neuronaux dédiés a nécessité la collecte et l’annotation d’un corpus. En guidant les annotateurs, nous avons abouti à une définition de l’interruption par l’exemple. La création d’un tel corpus a permis de développer un modèle de classification binaire d’interruption pour qualifier les segments multi-locuteurs précédemment détectés.
Mots clés :
interruption, parole superposée, traitement de la parole, intelligence artificielle