Extraction d'informations sémantiques end-to-end à partir du signal audio

Débuté le : 01/10/2020
Doctorant : Martin Lebourdais
Directeur(s) de Thèse : Sylvain Meignier
Co-encadrant(s) de Thèse : Antoine Laurent, Marie Tahon
Financement : ANR GEM

Le projet GEM vise à décrire les différences de représentation et de traitement existant entre les femmes et les hommes dans les médias, en se fondant sur l’analyse automatique de gros volumes de données en langue française contenus dans les collections de l’INA et de Deezer : TV, radio, presse écrite et collections musicales. L’ambition de ce projet est d’accomplir la plus vaste étude sur la place des hommes et des femmes dans les médias jamais réalisée, fondée sur l’analyse de plusieurs millions de documents échantillonnés sur une période de plus de 80 ans.

Cette approche quantitative massive vise à créer de nouvelles connaissances en sciences humaines, apprécier l’évolution des différences de représentation des femmes et des hommes dans le temps et entre les différents types de matériaux, pour objectiver une partie des débats citoyens sur l’égalité entre les sexes dans les médias. Cette description automatique de la représentation des hommes et des femmes répond à des enjeux sociétaux, mais aussi industriels : estimation de l’impact des actions visant à une plus juste représentation des sexes dans les programmes diffusés, exploration et valorisation de vastes collections numériques, amélioration des performances des systèmes automatiques et étude des cas limites. L’extraction des indicateurs de différence de traitement entre les sexes nécessite de lever des verrous technologiques et méthodologiques, contribuant à des avancées de l’état de l’art en STIC et SHS.

 
Objectifs

Les travaux menés dans le cadre de cette thèse portent sur l’extraction d’informations sémantiques à partir du signal audio (segmentation thématique, graphes d’interaction, rôle du locuteur, …). Dans un premier temps, le doctorant sera amené à développer un outil de segmentation en locuteur capable d’identifier automatiquement les zones de parole superposée à partir du signal audio. Dans un second temps, à partir de données INA annotées (incivilités, covid-19), une caractérisation automatique des interruptions de parole sera menée à grande échelle en collaboration avec des chercheurs SHS. Cette caractérisation passera par l’utilisation simultanée de représentations acoustiques, linguistiques et éventuellement para-linguistiques.

 
Références

1) A. Caubrière, N. Tomashenko, A. Laurent, E. Morin, N. Camelin, Y. Estève “Curriculum-based transfer learning for an effective end-to-end spoken language understanding and domain portability”. 2019 Interspeech.
2) A. Caubriere, Y. Esteve, N. Camelin, E. Simonnet, A. Laurent, E. Morin. “End- To-End Named Entity and Semantic Concept Extraction from Speech.” 2018 IEEE Spoken Language Technology Workshop (SLT) 2018
3) A. Laurent, N. Camelin, and C. Raymond. (2014). Boosting bonsai trees for efficient features combination: application to speaker role identification, Interspeech
4) D. Doukhan (2019), À la radio et à la télé, les femmes parlent deux fois moins que les hommes. La revue des médias
5) D. Doukhan, J. Carrive, F. Vallet, A. Larcher and S. Meignier, “An Open-Source Speaker Gender Detection Framework for Monitoring Gender Equality,” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, 2018, pp. 5214-5218.
6) L. Bullock, H. Bredin and L. P. Garcia-Perera, “Overlap-Aware Diarization: Resegmentation Using Neural End-to-End Overlapped Speech Detection,” ICASSP 2020 – 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 7114-7118.
7) H. Bredin et al., “Pyannote.Audio: Neural Building Blocks for Speaker Diarization,” ICASSP 2020 – 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 7124-7128.