Interpretability of embeddings

Starting: 01/10/2022
PhD Student: Simon Guillot
Advisor(s): Antoin Laurent (LIUM)
Co-advisor(s): Nicolas Dugué (LIUM), Mathieu Valette (INALCO)
Funding: ANR DIGING

Descritpion

Les approches de plongements lexicaux (word embedding en anglais) ont pour objectif de représenter le vocabulaire de la langue sous forme de vecteurs intelligibles par la machine. En particulier, l’une des hypothèses derrière le succès de ces méthodes (historiquement Word2vec et GloVe [PSM14], et plus récemment les méthodes à base de transformers [MMS+19, CDC21]) est que le sens des mots du lexiques émerge de leurs co-occurrences dans les corpus et qu’il devient ainsi possible de l’encapsuler dans des vecteurs.

Projet ANR DIGING.

Les approches récentes d’apprentissage de plongements lexicaux ont mis l’accent sur les résultats, souvent au détriment de l’interprétabilité. Afin de favoriser l’adoption des systèmes automatiques par les utilisateurs, l’interprétabilité et l’interaction avec les résultats produits par ces systèmes est pourtant une condition nécessaire. C’est en particulier le cas lors de la mise en œuvre de telles technologies au service de secteurs sensibles comme les domaines juridique ou médicaux. Nous proposons avec DIGING une nouvelle approche performante et économe en calculs pour la construction de plongements lexicaux interprétables [MTM] basée sur la théorie des réseaux complexes [PCD+21]. Avec cette approche originale, l’objectif est de construire des vecteurs intégrant la polysémie et plongeant les mots dans un espace aux dimensions interprétables. L’interprétabilité de tels plongements permettrait ainsi d’envisager des applica- tions liées à des domaines sensibles et des sujets de société clivants.

La thèse.

Si les travaux initiés dans DIGING ont montré la pertinence de l’approche sur le plan de la performance [PCD+21] et de l’interprétabilité [PDCM22], de nombreuses questions subsistent quant à cette dernière. En effet, si ces derniers travaux ont montré que l’interprétabilité de l’espace est au niveau de l’état de l’art [PDCM22, SPJ+18], ils ne démontrent pas l’interprétabilité des vecteurs (en tant qu’ensemble de valeurs sur ces dimensions interprétables) qui symbolisent le lexique. Ainsi, l’hypothèse distributionnelle est parfaitement adaptée à la construction des plongements à partir du corpus, mais elle n’est pas suffisante pour décrire le sens qui en émerge. Afin d’analyser les vecteurs produits par notre approche de plongements, nous souhaitons ainsi créer du lien entre ces vecteurs,l’espace appris, et les théories sémantiques élaborées en linguistique.

 
Bibliographie

  • [CDC21] Gaëtan Caillaut, Nicolas Dugué, and Nathalie Camelin. Narcissist! do you need so much attention? In CAP: Conférence sur l’Apprentisage automatique, 2021.
  • [LLBJ15] Mathieu Lafourcade, Nathalie Le Brun, and Alain Joubert. Jeux et intelligence collective: résolution de problèmes et acquisition de données sur le web. ISTE Group, 2015.
  • [MMS+19] Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Eric Villemonte de La Clergerie, Djamé Seddah, and Benoît Sagot. Camembert: a tasty french language model. arXiv preprint arXiv:1911.03894, 2019.
  • [MTM] Brian Murphy, Partha Talukdar, and Tom Mitchell. Learning Effective and In- terpretable Semantic Models using Non-Negative Sparse Embedding. page 18.
  • [PCD+ 21] Thibault Prouteau, Victor Connes, Nicolas Dugué, Anthony Perez, Jean-Charles Lamirel, Nathalie Camelin, and Sylvain Meignier. SINr: Fast Computing of Sparse Interpretable Node Representations is not a Sin! In Advances in Intelligent Data Analysis XIX, 19th International Symposium on Intelligent Data Analysis, IDA 2021, pages 325–337. Springer, Cham, 2021. Issue: 12695.
  • [PDCM22] Thibault Prouteau, Nicolas Dugué, Nathalie Camelin, and Sylvain Meignier. Are embedding spaces interpretable? results of an intrusion detection evaluation on a large french corpus. In LREC, 2022.
  • [PSM14] Jeffrey Pennington, Richard Socher, and Christopher D Manning. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543, 2014.
  • [SPJ+ 18] Anant Subramanian, Danish Pruthi, Harsh Jhamtani, Taylor Berg-Kirkpatrick, and Eduard Hovy. Spine: Sparse interpretable neural embeddings. In Thirty- Second AAAI Conference on Artificial Intelligence, 2018.