Contrat postdoctoral : Analyse fine de la satisfaction client à l’aide de méthodes d’apprentissage faiblement supervisées

 

Laboratoire d’accueil : Le Mans Université, Laboratoire Informatique de l’Université du Mans,
Partenaire industriel : MMA – Le Mans
Encadrement : Nathalie Camelin et Nicolas Dugué (prenom.nom@univ-lemans.fr)
Durée et salaire : 12 mois, à temps plein, rémunérés entre 3,2k et 3,4 k€ brut mensuel (environ 2,1k€ net/mois)
Prise de fonction : Fin août – début septembre
Candidature : docteur.e en informatique, par mail aux encadrants jusqu’au 5 juillet 2021

 

version PDF

 

Contexte. Dans une optique de suivi de la satisfaction de leurs clients, les MMA lancent plusieurs campagnes de sondage via des formulaires web ou des sms. Ces sondages comportent des questions fermées et des questions ouvertes. Cette dernière possibilité permet aux clients d’exprimer leur avis en langage naturel. Ainsi, chaque mois, ce sont plusieurs milliers de retours clients – dits verbatims, que le service marketing des MMA doit analyser afin de faire émerger les informations importantes qui peuvent permettre d’orienter la stratégie marketing (proposition d’un nouveau type de contrat, aménagement des horaires des bureaux conseils, …). De son côté, l’équipe LST du LIUM développe ses activités de recherche dans le domaine du traitement automatique du langage et de la parole autour de différents thèmes : analyse du locuteur, reconnaissance et synthèse de la parole, traduction automatique, analyse sémantique du langage naturel…. Si historiquement nous avons travaillé avec des approches guidées par les données, l’équipe est maintenant spécialisée dans le deep learning appliqué au traitement du langage.

Automatiser l’analyse des verbatims. La quantité de données recueillies est telle que l’analyse ne peut se faire manuellement. La collaboration entre les MMA et le LIUM doit donc permettre la mise en place d’un système automatique d’analyse des opinions exprimées dans ces messages de quelques mots (en moyenne 10) en langage naturel altéré (fautes de grammaires et nombreuses typos). Pour ce faire, une première piste suivie par l’équipe consiste à mettre en œuvre des techniques faiblement supervisées pour la catégorisation automatique de ces verbatims. Ces approches ne nécessitent pas de disposer de données étiquetées, mais elle permettent néanmoins d’amorcer la catégorisation avec de la connaissance experte. En effet, il s’agit de concevoir une méthode de catégorisation qui se base sur un ensemble d’aspects (les catégories concernées dans les verbatims comme agence, personnel, communication…), chaque aspect étant décrit par une liste de seeds. Ceux-ci sont des mots-clé donnés par les experts et utilisés pour amorcer la découverte des aspects (par exemple les mots bienveillant, performant peuvent être attachés à l’aspect personnel ou encore les mots honnêteté et confiance pour décrire l’aspect confiance.). Grâce à cette faible intervention humaine, la méthode automatique peut être appliquée pour extraire l’information pertinente des verbatims [2].

Objectif. L’objectif de ce post-doc est donc de développer, à travers des travaux de recherche à la croisée des domaines du TAL, de la détection d’opinion et de l’apprentissage automatique (clustering, topic modeling), un outil d’analyse permettant de faire émerger les points saillants du texte récolté. La mission peut être découpée en trois points : préparation des données, implémentation des méthodes automatiques et évaluation des résultats. Premièrement, il s’agit de finaliser les pré-traitements du corpus et la liste des aspects/seeds déjà mis en place en interaction avec les experts métiers de MMA. Dans un second temps, plusieurs pistes pourront être mises en œuvre pour classifier automatiquement les verbatims. Une première méthode de type Teacher/Student [1] a été élaborée et pourra être finalisée mais d’autres méthodes peuvent être envisagées, par exemple inspirées de la dataless classification [3,4] ou du topic modeling [5]. Afin d’évaluer les résultats fournis par cette méthode, il s’agira d’élaborer un protocole d’évaluation s’appuyant sur l’expertise humaine et permettant d’exploiter l’annotation obtenue pour l’intégrer dans la méthode et améliorer la robustesse du système automatique. Le chercheur ou la chercheuse devra également assurer la diffusion des résultats obtenus via des publications scientifiques et la rédaction d’un rapport final à destination de MMA. Il ou elle sera amené.e à collaborer étroitement avec les encadrants de l’équipe et les experts MMA en vue d’assurer la bonne réalisation de ces tâches.

Qualifications et aptitudes requises. Le profil recherché est une personne ayant obtenue un doctorat (Bac+8) en Informatique dans le domaine du TAL ou de l’apprentissage automatique, disposant d’un bon niveau de français (langue des verbatims), et d’une bonne capacité d’écoute et de vulgarisation pour les interactions avec MMA. De bonnes compétences informatiques sont requises : Python (avec la connaissance de scikit-learn, pandas et TensorFlow, PyTorch ou Keras), environnement Linux, travail sur github, connaissance des principaux algorithmes d’apprentissage. Une bonne connaissance des principaux outils et algorithmes du TAL est attendu et la connaissance des réseaux de neurones profonds serait un plus. De plus, autonomie, analyse des besoins, travail en équipe, capacité d’écoute et réactivité seront attendus.

 

Candidature. Un CV détaillé mettant en avant l’expérience du candidat.e dans les domaines recherchés ainsi qu’une lettre de motivation devront être envoyés jusqu’au 5 juillet par mail aux encadrants du poste. Il est attendu que le candidat travaille sur place, au Mans, pendant la durée du post-doctorat. Les candidats retenus seront invités à un entretien en visio-conférence

 
Références.

  • [1] Karamanolakis, Giannis, Daniel Hsu, and Luis Gravano. “Leveraging just a few keywords for fine-grained aspect detection through weakly supervised co-training.” arXiv preprint arXiv:1909.00415 (2019).
  • [2] Angelidis, Stefanos, and Mirella Lapata. “Summarizing opinions: Aspect extraction meets sentiment prediction and they are both weakly supervised.” arXiv preprint arXiv:1808.08858 (2018).
  • [3] Li, Ximing, and Bo Yang. “A pseudo label based dataless naive bayes algorithm for text classification with seed words.” Proceedings of the 27th International Conference on Computational Linguistics. 2018.
  • [4] Zha, Daochen, and Chenliang Li. “Multi-label dataless text classification with topic modeling.” Knowledge and Information Systems 61.1 (2019): 137-160.
  • [5] Li, Chenliang, et al. “Effective document labeling with very few seed words: A topic model approach.” Proceedings of the 25th ACM international on conference on information and knowledge management. 2016.