Séminaire de Théo Mariotte, Maître de conférence au LIUM

 

Date : 20/10/2025
Heure : 10h30
Lieu : IC2, Salle des conseils
Intervenant : Théo Mariotte
 
 

Les Sparse Autoencoders rendent les modèles audio fondamentaux plus explicables

 

Résumé : Les modèles audio pré-entraînés sont largement utilisés pour résoudre diverses tâches dans le traitement de la parole, la détection d’événements sonores ou la recherche d’informations musicales. Cependant, les représentations apprises par ces modèles ne sont pas claires, et leur analyse se limite principalement à l’exploration linéaire des représentations cachées.

Dans cet exposé, nous explorons l’utilisation des auto-encodeurs clairsemés (SAE) pour analyser les représentations cachées des modèles pré-entraînés, en nous concentrant sur une étude de cas dans la classification des techniques de chant. Nous démontrons tout d’abord que les SAE conservent à la fois les informations relatives aux représentations originales et aux étiquettes de classe, ce qui permet à leur structure interne de fournir des informations sur les systèmes d’apprentissage auto-supervisés. En outre, nous montrons que les SAE améliorent la dissociation des attributs vocaux, ce qui en fait un outil efficace pour identifier les facteurs sous-jacents codés dans les représentations.