Offre de stage M2 : Classification des émotions vocales à l’aide d’un modèle de régression sur la représentation dimensionnelle – Laboratoire d'Informatique de l'Université du Mans

Classification des émotions vocales à l’aide d’un modèle de régression sur la représentation dimensionnelle

Encadrant(e)s: Meysam SHAMSI
Equipe d’accueil : LIUM
Lieu : Le Mans
Contact : Meysam.Shamsi(at)univ-lemans.fr
Candidature : Envoyer CV + lettre de motivation à Meysam Shamsi avant le 18 Novembre 2022

Contexte du stage : Il existe deux approches principales pour modéliser le problème de la reconnaissance des émotions. Les émotions peuvent être classées avec différentes étiquettes [1] comme le bonheur, la tristesse ou la colère, ce qui fait de la reconnaissance une tâche de classification. Une autre approche basée sur les attributs utilise un espace continu [2,3] comme l’éveil (calme ou actif), la valence (négative ou positive) et la dominance (faible ou forte) pour identifier les états émotionnels, faisant de la reconnaissance une tâche de régression.

Bien que l’approche de classification soit plus compréhensible pour l’homme, elle est limitée au dictionnaire lexical. De plus, l’intra-distance et par conséquent la confusion entre les classes ne sont pas égales. Par ailleurs, l’utilisation d’une valeur continue permet une expression/perception plus précise de l’état émotionnel. Le désaccord dans l’attribution d’une étiquette émotionnelle avec des valeurs spécifiques dans l’espace basé sur les attributs est l’un des principaux défis dans l’utilisation de ces deux types d’information pour l’expression/perception des émotions [4].

Objectif du stage : L’objectif de ce projet est d’étudier la performance des modèles qui utilisent des variables cibles continues pour la prédiction de l’état émotionnel multi-classes à partir de signaux vocaux et d’étudier la relation entre ces représentations.

Approche experimentale :Les modèles de réseaux neuronaux profonds peuvent constituer une solution pertinente pour la mise en correspondance des signaux vocaux avec les états émotionnels [5].

L’étude des performances de 3 algorithmes est souhaitée : (1) Modèle de classification classique : la sortie du modèle peut être une étiquette parmi un ensemble d’émotions. (2) Classification par régression : en changeant la sortie du réseau neuronal, il peut être mis en œuvre comme un modèle régresseur pour la prédiction des attributs émotionnels. En plus de la possibilité d’étiquetage doux [6,7], la sortie peut être convertie en étiquette de classe suivant la probabilité d’attribution des attributs émotionnels aux catégories émotionnelles. (3) Modèle de classification et de régression simultanées : une autre approche peut être un apprentissage multitâche en utilisant les deux types d’information simultanément, comme [8] qui a revendiqué l’amélioration des performances de classification sur les données d’expressions faciales.

En disposant des résultats de classification de ces trois approches, l’importance et l’impact des différentes représentations sur des mesures de performance similaires telles que la précision seront étudiés.

Afin d’étudier l’impact de la représentation des émotions sur la reconnaissance des états émotionnels dans la parole, un ensemble de données contenant des annotations continues et catégorielles est nécessaire. L’IEMOCAP [9] et le MSP-Podcast [10] qui ont été annotés avec des émotions catégorielles et des émotions basées sur des attributs (valence, activation, dominance) peuvent fournir l’opportunité d’une investigation. Pour commencer, en simplifiant les attributs multidimensionnels en une seule caractéristique, on peut utiliser les données AlloSat [11] avec l’annotation de satisfaction/frustration.

Résultats attendus :Du point de vue de l’apprentissage automatique, l’étude de la performance des modèles de classification par régression pour les variables subjectives qui sont ordinales. Du point de vue de l’informatique affective, ce modèle peut être une ouverture pour l’étude de la cartographie des étiquettes catégorielles dans l’espace continu également. Il apportera un nouvel éclairage sur l’importance des caractéristiques dimensionnelles dans la reconnaissance des émotions.

Profil de la ou du candidat·e : La ou le candidat·e devra être motivé·e pour travailler sur l’Intelligence artificielle. Elle ou il devra être inscrit·e en Master d’Informatique ou dans un domaine connexe.

Bibliographie

. Ekman, P., (1999). Basic Emotions, pages 301–320. Wiley, New-York.
. Russel, J., (1997). Reading emotions from and into faces: Resurrecting a dimensional-contextual perspective, pages 295–360. Cambridge University Press, U.K.
. Bradley, M. M. and Lang, P. J. (1994). Measuring emotion: The Self-Assessment Manikin and the semantic differential. Journal of Behavior Therapy and Experimental Psychiatry, 25(1):49–59.
. Sethu, V., Provost, E. M., Epps, J., Busso, C., Cummins, N., & Narayanan, S. (2019). The ambiguous world of emotion representation. arXiv preprint arXiv:1909.00360.
. Xu, M., Zhang, F., Cui, X., & Zhang, W. (2021, June). Speech Emotion Recognition with Multiscale Area Attention and Data Augmentation. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6319-6323). IEEE.
. Tarantino, L., Garner, P. N., & Lazaridis, A. (2019). Self-attention for speech emotion recognition. In Interspeech (pp. 2578-2582).
. Lotfian, R., & Busso, C. (2018). Predicting categorical emotions by jointly learning primary and secondary emotions through multitask learning. Interspeech 2018.
. Handrich, Sebastian, et al. “Simultaneous prediction of valence/arousal and emotion categories and its application in an HRC scenario.” Journal of Ambient Intelligence and Humanized Computing 12.1 (2021): 57-73.
. Busso, Carlos, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N. Chang, Sungbok Lee, and Shrikanth S. Narayanan. (2008). “IEMOCAP: Interactive emotional dyadic motion capture database.” Language resources and evaluation 42, no. 4 335-359.
. Reza Lotfian and Carlos Busso, “Building naturalistic emotionally balanced speech corpus by retrieving emotional speech from existing podcast recordings,” IEEE Transactions on Affective Computing, vol. 10, no. 4, pp. 471-483, 2019.
. Macary, Manon, Marie Tahon, Yannick Estève, and Anthony Rousseau. “AlloSat: A new call center french corpus for satisfaction and frustration analysis.” In Proceedings of the 12th Language Resources and Evaluation Conference, pp. 1590-1597. 2020.

Autres support technique :
SER dataset : https://superkogito.github.io/SER-datasets/