Extraction of end-to-end semantic information from an audio signal

 
 
Supervisor: Sylvain Meignier
Co-Supervisor(s) : Antoine Laurent, Nathalie Camelin, Nicolas Dugué
Keywords: Speech recognition and understanding, End2End approaches, neural networks, gender

Application deadline : 22 May 2020

Context :

This thesis is part of the research topics of the Language and Speech Technologies (LST) team at the Laboratoire Informatique de l’Université du Mans (LIUM). It will take place in Le Mans, as part of the ANR GEM project.

 

Descritpion

Le projet GEM vise à décrire les différences de représentation et de traitement existant entre les femmes et les hommes dans les médias, en se fondant sur l’analyse automatique de gros volumes de données en langue française contenus dans les collections de l’INA et de Deezer : TV, radio, presse écrite et collections musicales.
L’ambition de ce projet est d’accomplir la plus vaste étude sur la place des hommes et des femmes dans les médias jamais réalisée, fondée sur l’analyse de plusieurs millions de documents échantillonnés sur une période de plus de 80 ans.

Cette approche quantitative massive vise à créer de nouvelles connaissances en sciences humaines, apprécier l’évolution des différences de représentation des femmes et des hommes dans le temps et entre les différents types de matériaux, pour objectiver une partie des débats citoyens sur l’égalité entre les sexes dans les médias. Cette description automatique de la représentation des hommes et des femmes répond à des enjeux sociétaux, mais aussi industriels : estimation de l’impact des actions visant à une plus juste représentation des sexes dans les programmes diffusés, exploration et valorisation de vastes collections numériques, amélioration des performances des systèmes automatiques et étude des cas limites. L’extraction des indicateurs de différence de traitement entre les sexes nécessite de lever des verrous technologiques et méthodologiques, contribuant à des avancées de l’état de l’art en STIC et SHS.

Les travaux menés dans le cadre de cette thèse porteront sur l’extraction d’informations sémantiques à partir du signal audio (segmentation thématique, graphes d’interaction, rôle du locuteur, …).

 
Bibliographie

• Antoine Caubrière, Natalia Tomashenko, Antoine Laurent, Emmanuel Morin, Nathalie Camelin, Yannick Estève “Curriculum-based transfer learning for an effective end-to-end spoken language understanding and domain portability”. 2019 Interspeech.
• Antoine Caubriere, Yannick Esteve, Nathalie Camelin, Edwin Simonnet, Antoine Laurent, and Emmanuel Morin. “End-To-End Named Entity And Semantic Concept Extraction From Speech.” 2018 IEEE Spoken Language Technology Workshop (SLT) 2018
• Laurent, A., Camelin, N., and Raymond, C. (2014). Boosting bonsai trees for efficient features combination : application to speaker role identification, Interspeech
• Hervé Bredin, Antoine Laurent, Sarkar, A., Viet-Bac Le, Claude Barras and Sophie Rosset, Person Instance Graphs for Named Speaker Identification in TV Broadcast, Odyssey 2014
• David Doukhan (2019), À la radio et à la télé, les femmes parlent deux fois moins que les hommes. La revue des médias
• Doukhan, D., Carrive, J., Vallet, F., Larcher, A. & Meignier, S. (2018). An open-source speaker gender detection framework for monitoring gender equality. Acoustics, Speech and Signal Processing