Système de SRL neuronal vs Système de SRL gaussien

 

Encadrant(s): Sylvain Meignier
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contexte : Un étudiant du parcours ATAL sera plus à même de réaliser ce stage sans toutefois exclure les étudiants du parcours AFD.
Contact : Sylvain.Meignier(at)univ-lemans.fr,

 

 
Sujet :

La tâche de Segmentation et le Regroupement en Locuteurs (SRL) consiste, pour chaque locuteur d’un enregistrement, à détecter de manière non-supervisée les zones temporelles où il parle. Il s’agit de la tâche la plus difficile dans le domaine de la Reconnaissance Automatique du Locuteur nécessitant de travailler sans connaissance a priori pour découvrir les interventions des locuteurs.
Les systèmes classiques utilisent des modèles gaussiens pour représenter des locuteurs. Dernièrement, des méthodes neuronales semblent apporter un gain. L’objectif de ce stage est de comparer et d’analyser ces méthodes sur différents corpus.

 
Bibliographie :

[1] Ruiqing Yin, Hervé Bredin, Claude Barras. Neural speech turn segmentation and affinity propagation for speaker diarization. Annual Conference of the International Speech Communication Association, Sep 2018, Hyderabad, India. ;
[2] Qingjian Lin, Ruiqing Yin, Ming Li, Hervé Bredin, Claude Barras. LSTM based Similarity Measurement with Spectral Clustering for Speaker Diarization. Annual Conference of the International Speech Communication Association, Sep 2019, Graz, Austria. ;
[3] Sun, Lei, et al. “Speaker diarization with enhancing speech for the First DIHARD Challenge.” (2018). Proceedings of INTERSPEECH 2018. 2793-2797.