Towards interpretable representations for audio and speech processing – Laboratoire d'Informatique de l'Université du Mans

Séminaire de Théo Mariotte, Maître de conférence au LIUM

Date : 24/02/2025
Heure : 10h30
Lieu : IC2, Boardroom
Intervenant : Théo Mariotte

Vers des représentations interprétables pour le traitement du son et de la parole

Ce séminaire est structuré en deux parties principales. La première partie passe en revue mes recherches antérieures, tandis que la seconde explore leurs orientations futures.

Dans la première section, je présenterai brièvement les méthodes développées au cours de ma thèse avant d’approfondir mon travail postdoctoral. Plus précisément, je présenterai l’apprentissage par choix multiple recalé (aMCL), un cadre général d’apprentissage avec des applications à la séparation des sources. Cette méthode permet d’entrainer plusieurs hypothèses afin de traiter efficacement les tâches ambiguës. En outre, je discuterai de l’application du regroupement neuronal pour effectuer conjointement la séparation des sources et la diarisation du locuteur dans les enregistrements de réunions de longue durée.

La deuxième partie du séminaire se concentrera sur la segmentation du locuteur dans le scénario multi-microphone. La méthode proposée (WIP) combine le filtrage spatial, la localisation de la source et la détection de l’activité vocale pour prédire l’activité du locuteur. Cette approche vise à être plus interprétable et nécessite moins de paramètres d’entraînement. Je discuterai également des défis posés par la simulation des données d’entraînement et je partagerai mes difficultés. Enfin, je présenterai d’autres axes de recherche, notamment l’apprentissage auto-supervisé de représentations démêlées et la séparation de sources à grande échelle.