Évaluation des plongements lexicaux basés graphes par des méthodes extrinsèques

 

Niveau : Master
Gratification : Oui
Durée : 5 à 6 mois
Début : dès que possible à partir de février

Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Encadrant(s): Nicolas Dugué
Contexte :Dans le cadre du projet ANR DIGING
Thèse : Financement disponible pour poursuivre en doctorat

Mots-clés : Plongements lexicaux, traitement automatique de la langue, graphes, interprétabilité, éthique, green computing.
Contact : nicolas.dugue(at)univ-lemans.fr

 

 

Contexte : Les approches récentes d’apprentissage de plongements lexicaux ont mis l’accent sur les résultats, souvent au détriment de l’interprétabilité et de la complexité algorithmique. Pourtant, l’interprétabilité est un prérequis nécessaire à la mise en œuvre de telles technologies lorsqu’elles sont au service de domaines sensibles comme le domaine juridique ou la médecine. Par ailleurs, les impératifs écologiques créent une urgence à réfléchir à des systèmes performants et économes en calculs. Nous proposons avec DIGING une nouvelle approche performante et économe en calculs pour la construction de plongements lexicaux interprétables basée sur la théorie des réseaux complexes. Avec cette approche originale, l’objectif est de construire des vecteurs intégrant la polysémie nativement en plongeant les mots dans un espace aux dimensions interprétables. L’interprétabilité de tels plongements permet ainsi d’envisager des applications liées à des domaines sensibles et des sujets de société. Ainsi, nous proposons notamment d’appliquer les méthodes automatiques développées dans le projet sur les corpus issus de deux projets ANR dont le lium est partenaire : antract et gem, le premier lié à l’évolution de la France à travers son histoire audiovisuelle, et le second étudiant les représentations de genre dans les médias.

Objectifs du stage dans ce cadre : Les travaux récents que nous avons menés dans le cadre de la thèse de Thibault Prouteau montrent la pertinence des approches de plongements basées graphes qui sont économes en calcul, semblent performantes, et doivent aboutir à l’interprétabilité des espaces appris [PCD+21]. Leur interprétabilité est en cours d’évaluation, en les comparant à des approches de l’état de l’art [MTM, SPJ+18]. Et si leur performance a été démontrée face à des approches telles que Word2vec et GloVe [PSM14], elles n’ont été évaluées qu’intrinsèquement via la tâche de similarité. Dans ce stage, il s’agirait d’évaluer leur performance sur des tâches extrinsèques [SLMJ15] comme la détection d’entités nommées, l’étiquetage morpho-syntaxique ou l’analyse de sentiment, et de les comparer à des approches plus récentes à base de réseau transformers [CKLM19, CDC21]. Il s’agira donc de développer et mettre en œuvre des systèmes neuronaux capables d’exploiter en entrée des plongements de toute sorte, afin d’évaluer sur les tâches de traitement automatique de la langue classiques citées ci-dessus.

Profil recherché :

  • Développement en Python, réseaux de neurones ;
  • Connaissances et intérêt pour l’apprentissage automatique et le traitement automatique du langage naturel ;
  • Bon niveau en anglais (langue des publications) ;
  • Intérêt pour l’éthique en IA.

Pour postuler : Prendre contact avec Nicolas Dugué, nicolas.dugue(at)univ-lemans.fr, en joignant un CV et vos motivations.
 
 
Bibliographie:

  • [CDC21] Gaëtan Caillaut, Nicolas Dugué, and Nathalie Camelin. Narcissist! do you need so much attention? In CAP: Conférence sur l’Apprentisage automatique, 2021.
  • [CKLM19] Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D. Manning. What Does BERT Look At? An Analysis of BERT’s Attention. arXiv:1906.04341 [cs], June 2019. arXiv: 1906.04341.
  • [MTM] Brian Murphy, Partha Talukdar, and Tom Mitchell. Learning Effective and Interpretable Semantic Models using Non-Negative Sparse Embedding. page 18.
  • [PCD+21] Thibault Prouteau, Victor Connes, Nicolas Dugué, Anthony Perez, Jean-Charles Lamirel, Nathalie Camelin, and Sylvain Meignier. SINr: Fast Computing of Sparse Interpretable Node Representations is not a Sin! In Advances in Intelligent Data Analysis XIX, 19th International Symposium on Intelligent Data Analysis, IDA 2021, pages 325–337. Springer, Cham, 2021. Issue: 12695.
  • [PSM14] Jeffrey Pennington, Richard Socher, and Christopher D Manning. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empir- ical methods in natural language processing (EMNLP), pages 1532–1543, 2014.
  • [SLMJ15] Tobias Schnabel, Igor Labutov, David Mimno, and Thorsten Joachims. Evaluation methods for unsupervised word embeddings. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 298– 307, 2015.
  • [SPJ+ 18] Anant Subramanian, Danish Pruthi, Harsh Jhamtani, Taylor Berg-Kirkpatrick, and Eduard Hovy. Spine: Sparse interpretable neural embeddings. In Thirty- Second AAAI Conference on Artificial Intelligence, 2018.