Vers une meilleure représentation du langage naturel pour la détection d’opinion

 
Encadrant(s): Amira Barhoumi, Mohamed Ettaleb et Nathalie Camelin
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contact : Amira.Barhoumi(at)univ-lemans.fr, Mohamed.Ettaleb(at)univ-lemans.fr, Nathalie.Camelin(at)univ-lemans.fr

 

Contexte du stage : L’analyse d’opinion est un domaine en plein essor1. Il consiste à étudier la subjectivité et déterminer la polarité globale d’un énoncé textuel donné [Pang et al. 2008]. La polarité reflète l’orientation d’une opinion par rapport à une entité ou à un aspect d’une entité [Hu & Lu, 2004]. Elle peut être positive, neutre, ou négative.

Dans une optique de suivi de la satisfaction de leurs clients, les MMA lancent plusieurs campagnes de sondage via des formulaires web ou des sms. Ces sondages comportent des questions fermées et des questions ouvertes. Cette dernière possibilité permet aux clients d’exprimer leur avis en langage naturel. Ainsi, chaque mois, ce sont plusieurs milliers de retours clients – dits verbatims, que le service marketing des MMA doit analyser afin de faire émerger les informations importantes qui peuvent permettre d’orienter la stratégie marketing.

La quantité de données recueillies est telle que l’analyse ne peut pas se faire manuellement. Nous souhaitons mettre en place un système automatique d’analyse d’opinions. Ce dernier permet d’analyser et détecter la polarité des verbatims écrits en langage naturel altéré (fautes de grammaires et nombreux typos).

 

Objectif du stage : Dans ce projet, une attention particulière est portée sur la représentation de verbatims. Le but est de déterminer la représentation idéale d’un verbatim dans le contexte particulier d’analyse d’opinions.

Il faudra donc réfléchir et tester un ensemble de pré-traitements pertinents dans le cadre de la détection d’opinion sur des messages courts dont l’orthographe et la syntaxe ne sont souvent pas répétés. Afin d’évaluer la pertinence des pré-traitements proposés, il est proposé de développer un outil d’analyse permettant de déterminer la polarité globale d’un verbatim. En effet, les verbatims sont associés à une note de satisfaction globale sur laquelle il serait possiblede s’appuyer pour réaliser une première évaluation quantitative. Une évaluation qualitative pourra aussi être réalisée avec la participation des collaborateurs MMA.

Pour résumer, la tâche peut être découpée en trois points : (1) représentation des verbatims, (2) implémentation d’une méthode automatique permettant de calculer la polarité pour chaque verbatim et (3) évaluation des résultats. Ces points sont détaillés ci-dessous :.

  1. Représentation des verbatims : qui consiste à déterminer la représentation idéale des verbatims dans le cadre de l’analyse d’opinions. Elle peut inclure les prétraitements suivants :
    • nettoyage (lemmatisation, racinisation, élimination de mots vides, etc) [Sharma, 2020]
    • détection des smileys et émojis [Chen et al. 2021]
    • correction des fautes de grammaire et de typos [Damnati et al. 2018, Van der Goot et al. 2017]
    • intégration de descripteurs globaux (nombre de mots porteurs de polarités, VADER, nombre de ponctuations, …)
    • reconnaissance des entités nommées [Suárez et al. 2020]
    • etc.
  2. Détection de la polarité globale : qui consiste à appliquer une méthode d’apprentissage automatique existante. Cette dernière prend en entrée un verbatim et fournit en sortie sa polarité (positive, négative ou neutre). Des systèmes classiques (SVM, Random Forest, …) ou à base de réseaux de neurones pourront être utilisés.
  3. Évaluation des résultats : qui consiste à mettre en place un protocole d’évaluation quantitative et qualitative. L’analyse de cette évaluation devra permettre de guider les choix de l’étape n°1.

 
Bibliographie

  • Chen, Z., Cao, Y., Yao, H., Lu, X., Peng, X., Mei, H., & Liu, X. (2021). Emoji-powered sentiment and emotion detection from software developers’ communication data. ACM Transactions on Software Engineering and Methodology (TOSEM), 30(2), 1-48
  • Damnati, G., Auguste, J., Nasr, A., Charlet, D., Heinecke, J., & Béchet, F. (2018). Handling normalization issues for part-of-speech tagging of online conversational text. In Eleventh International Conference on Language Resources and Evaluation (LREC 2018).
  • Hu M. & Liu B. (2004). Mining and summarizing customer reviews. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, p. 168–177, New York, NY, USA : ACM.
  • Pang B., Lee L. & AL. (2008). Opinion mining and sentiment analysis. Foundations and Trends⃝R in Information Retrieval, 2(1–2), 1–135.
  • Sharma, M. (2020, June). Polarity Detection in a Cross-Lingual Sentiment Analysis using spaCy. In 2020 8th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions)(ICRITO) (pp. 490-496). IEEE.
  • Suárez, P. J. O., Dupont, Y., Muller, B., Romary, L., & Sagot, B. (2020). Establishing a new state-of-the-art for French named entity recognition. arXiv preprint arXiv:2005.13236.
  • Van der Goot, R., Plank, B., & Nissim, M. (2017). To normalize, or not to normalize: The impact of normalization on part-of-speech tagging. arXiv preprint arXiv:1707.05116.