Evolutive End2End Cross Show Speaker Diarization

 
Encadrant(s): Anthony Larcher, Marie Tahon
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contact : Anthony.Larcher(at)univ-lemans.fr, Marie.Tahon(at)univ-lemans.fr

 

Contexte du stage : Stage ATAL au LIUM (Le Mans) Ce stage s’inscrit dans le cadre des projets ANR EXTENSOR et MSCA RISE ESPERANTO

 

Objectif du stage : La segmentation et regroupement en locuteur incrementale (incremental cross-show diarization) est la tâche qui traite une séquence de documents audio pour déterminer qui parle quand dans la collection de documents. Actuellement, la diarization de collection (cross-show) est effectuée en deux étapes : chaque document est tout d’abord traité indépendamment afin de le segmenter et de regrouper les segments de parole d’un même locuteur. Dans un deuxième temps, le document traité est ajouté à la collection : chaque locuteur détecté est lié à ses précédentes apparitions dans la collection ou ajouté à la base de données des locuteurs connus.

Depuis quelques années des systèmes E2E (de bout en bout) ont été développés pour la diarization intra-document. Ces systèmes reposent sur des approches gloutonnes très couteuses en temps de calcul et qui ne permettent pas actuellement de traiter des collections de documents. En se basant sur les travaux en cours au LIUM pour la diarization en collection nous souhaitons à termes développer un système E2E pour la diarization incrémentale en collection.

Durant le stage, l’étudiant devra étudier les différentes architectures E2E existantes pour la diarization intra-document avant de proposer une architecture adaptable à la diarization de collection. Les performances des différents systèmes seront évalués sur la base de données ALLIES.

 
Bibliographie

  • Coria, Juan M., et al. “Overlap-aware low-latency online speaker diarization based on end-to-end local segmentation.” arXiv preprint arXiv:2109.06483 (2021). https://arxiv.org/pdf/2109.06483.pdf
  • Horiguchi, Shota, et al. “End-to-end speaker diarization for an unknown number of speakers with encoder-decoder based attractors.” arXiv preprint arXiv:2005.09921 (2020). https://arxiv.org/pdf/2005.09921.pdf
  • Le Lan, Gaël, et al. “Speaker diarization with unsupervised training framework.” 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016. https://hal.archives-ouvertes.fr/hal-01433167/document