Boosting Audio Segmentation Interpretability with Non-negative Matrix Factorization (BASIN-NMF)

Date : 03/2025 - 02/2027
Financement : Région Pays de la Loire
Appel : PULSAR
URL : https://lium.univ-lemans.fr/basin-nmf/


LIUM Participant(s) :
User PicThéo Mariotte

Résumé

Les méthodes de deep learning se développent massivement pour résoudre diverses tâches et sont majoritairement utilisées comme “boîtes noires”. L’explication des décisions de ce type de système est cependant nécessaire, notamment dans certains cas d’application (ex : juridique, médical). Les applications dans le domaine audio restent à ce jour limitées.

La factorisation matricielle non-négative (NMF) a montré son intérêt pour l’explication de modèles audio. Dans nos précédents travaux, nous avons montré qu’elle permettait de reconstruire une interprétation sous forme d’un signal audible et d’extraire des caractéristiques représentatives de chaque classe. Actuellement, un compromis persiste entre la qualité des explications obtenues et la performance du modèle.

Les travaux préliminaires que j’ai menés montrent que la NMF est une approche encourageante pour expliquer les décisions d’un système de segmentation audio. Cependant, plusieurs verrous persistent : (1) la reconstruction de l’explication audible est délicate, notamment en utilisant des modèles auto-supervisés pour représenter le signal. (2) Il est difficile d’associer les explications extraites à des facteurs explicatifs de haut niveau (ex : quel est l’impact du pitch sur la décision ?). (3) Les dépendances temporelles ne sont pas prises en compte dans l’extraction d’explication.

Le projet proposé vise à répondre à ces trois problématiques, (1) en modifiant le schéma d’optimisation du système afin de favoriser la reconstruction lors de l’apprentissage, (2) en contraignant une partie de l’espace de représentation à encoder des informations explicites sur le signal (ex : F0, intonation) pour interpréter les décisions sur ces facteurs, (3) en modifiant l’architecture du système afin d’intégrer des mécanismes d’attention pour prendre en compte les dépendances temporelles dans l’explication de la segmentation.