Reconnaissance de dimensions affectives dans la parole, quelle architecture neuronale ?

 

Encadrant(s): Marie Tahon
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contexte : Le candidat devra être motivé pour travailler sur le signal audio. Il devra avoir des compétences en apprentissage automatique, et montrer un intérêt pour les réseaux de neurones.
Contact : Marie.Tahon(at)univ-lemans.fr,

 

 
Sujet :

La reconnaissance d’émotion dans la parole est un domaine particulièrement actif, notamment au travers de différents challenges comme le Audio-Visual Emotion Challenge [1] ou le Interspeech Emotion Challenge [2]. Les applications visées sont multiples que ce soit pour les interactions humainmachine, ou l’analyse de contenu affectif dans des conversations. Du point de vue de la théorie psychologique, les émotions sont généralement modélisées soit par des classes discrètes (colère, joie, tristesse, peur), soit par des dimensions affectives (valence, activation, contrôle). Outre les difficultés liées à la prise en compte du facteur humain dans l’annotation des données, différents modèles régressifs peuvent être évalués pour la prédiction des dimensions continues. Une vue d’ensemble du domaine est présentée dans l’article (et vidéo) [3].

L’objectif du stage sera de reprendre les modèles convolutionnels et récurrents proposés dans l’article [4] et de les implémenter en PyTorch [5] en utilisant les données audio du corpus SEWA [6]. Une fois les résultats présentés dans l’article obtenus, un travail autour des données d’entrée (descripteurs acoustiques) sera réalisé. Une baseline utilisant des modèles non neuronaux sera envisagée (Lasso, Régression linéaire, etc.).

 
Bibliographie :

[1] https://sites.google.com/view/avec2018/home
[2] Schuller, B.W., Batliner, A., Bergler, C., Pokorny, F.B., Krajewski, J., Cychosz, M., Vollmann, R., Roelen, S., Schnieder, S., Bergelson, E., Cristia, A., Seidl, A., Warlaumont, A.S., Yankowitz, L., Nöth, E., Amiriparian, S., Hantke, S., Schmitt, M. (2019) The INTERSPEECH 2019 Computational Paralinguistics Challenge: Styrian Dialects, Continuous Sleepiness, Baby Sounds & Orca Activity. Proc. Interspeech 2019, 2378-2382.
[3] Björn W. Schuller (2018). Speech Emotion Recognition: Two Decades in a Nutshell, Benchmarks, and Ongoing Trends. Communications of the ACM, May 2018, Vol. 61 No. 5, Pages 90-99.(https://www.informatik.uni-augsburg.de/de/lehrstuehle/eihw/pdfs/Schuller18-SER.pdf )
[4] Schmitt, M., Cummins, N., Schuller, B.W. (2019) Continuous Emotion Recognition in Speech — Do We Need Recurrence?. Proc. Interspeech 2019, 2808-2812.
[5] https://pytorch.org
[6] https://sewaproject.eu