Transformers interprétables

Encadrant(e)s: Nicolas Dugué, Maître de conférences
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Durée : 12 mois
Salaire : Env. 2,2k euros/mois net employeur
Le contrat peut commencer dès que possible.
Équipe projet : vous collaborerez avec deux doctorants et une alternante
Contact : Nicolas.Dugue(at)univ-lemans.fr

 

Contexte : le projet ANR DIGING. Les approches récentes d’apprentissage de plongements lexicaux ont mis l’accent sur les résultats, souvent au détriment de l’interprétabilité et de la complexité algorithmique. Afin de favoriser l’adoption des systèmes automatiques par les utilisateurs, l’interprétabilité et l’interaction avec les résultats produits par ces systèmes est pourtant une condition nécessaire. C’est en particulier le cas lors de la mise en œuvre de telles technologies au service de secteurs sensibles comme les domaines juridiques et médicaux. Mais c’est aussi le cas dans des applications liées aux humanités numériques pour lesquelles il est nécessaire de produire des représentations compréhensibles par les utilisatrices et utilisateurs finaux. Nous avons ainsi proposé avec DIGING une nouvelle approche performante et économe en calculs pour la construction de plongements lexicaux interprétables [PDCM22] basée sur la théorie des graphes [PCD+21, BDGP23] : SINr, pour Sparse Interpretable Node Representations. Cette approche permet d’apprendre des plongements extrêment parcimonieux [MTM12, SPJ+18], conservant de bonnes performances jusqu’à 10 activations seulement par vecteur [GPD23].

 

Objectifs :

En prenant comme première brique les représentations interprétables apprises avec SINr, l’approche de plongements interprétables comme première brique, le ou la candidat·e recruté·e aura la charge des architectures neuronales de classification interprétables de bout-en-bout. L’objectif est de rester dans un espace interprétable tout au long de la classification. Ainsi, des mécanismes profonds pourront être mis en œuvre en se basant sur la structure hiérarchique des plongements produits par SINr, et en s’inspirant par exemple des travaux de Victoria Bourgeais [BZBHH21]. Des mécanismes d’attention de type dot product tels que dans Bahdanau [BCB14], utilisant un vecteur d’attention dédié à la tâche, qui, s’il est dans le même espace que l’entrée sera également interprétable.

Mais d’autres approches sont également envisageables pour exploiter l’interprétabilité
au sein de modèles plus complexes tels que les transformers. Clark et al. [CKLM19] ont mis en évidence les rôles joués par les têtes d’attention, et notamment leur spécialisation. Geva et al. [GSBL20] ont travaillé sur les modules feed-fordward du transformer pour déterminer leur importance. Enfin, Mickus et al. [MPC22] dissèquent le transformer pour mesurer la contribution de chacun de ses modules (attention, biais, feed-forward, embedding de départ) dans les représentations de sortie mais également dans la prédiction du mot masqué. Ainsi, l’état de l’art a progressé sur l’explicabilité des transformers et de leurs mécanismes, permettant ainsi d’envisager des architectures réduites et interprétables s’en inspirant.

Pour l’évaluation de ces architectures, nous envisagerons des tâches de classification telles que la reconnaissance d’entités nommées, l’analyse de polarité ou la détection de contenus haineux. Mais il s’agira également de développer un cadre d’évaluation de l’interprétabilité bout-en-bout.

 
Le profil recherché :

  • Thèse d’informatique ou de linguistique computationnelle ;
  • Intérêt pour l’interprétabilité, la compréhension des systèmes ;
  • Langage Python ;
  • Github et CI/CD ;
  • Expérience de l’apprentissage des réseaux de neurones.

 
Organisation prévisionnelle des travaux de recherche :

Le travail sera réalisé au LIUM. vous collaborerez avec deux doctorants et une alternante. Le salaire sera d’environ 2,2k€ net / mois, pour une durée de 12 mois.

 
Candidature:

Envoyer CV et lettre de motivation à Nicolas Dugué (Nicolas.Dugue(at)univ-lemans.fr)

 
Références

  • [BCB14] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine trans- lation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
  • [BDGP23] Anna Béranger, Nicolas Dugué, Simon Guillot, and Thibault Prouteau. Filtering communities in word co-occurrence networks to foster the emergence of meaning. In Complex Networks and Their Applications, pages 377–388, 2023.
  • [BZBHH21] Victoria Bourgeais, Farida Zehraoui, Mohamed Ben Hamdoune, and Blaise Hanczar. Deep gonet: self-explainable deep neural network based on gene ontol- ogy for phenotype prediction from gene expression data. BMC bioinformatics, 22(10):1–25, 2021.
  • [CKLM19] Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D Manning. What does bert look at? an analysis of bert’s attention. arXiv preprint arXiv:1906.04341, 2019.
  • [GPD23] Simon Guillot, Thibault Prouteau, and Nicolas Dugué. Sparser is better: one step closer to word embedding interpretability. In IWCS, 2023.
  • [GSBL20] Mor Geva, Roei Schuster, Jonathan Berant, and Omer Levy. Transformer feed-forward layers are key-value memories. arXiv preprint arXiv:2012.14913, 2020.
  • [MPC22] Timothee Mickus, Denis Paperno, and Mathieu Constant. How to dissect a muppet: The structure of transformer embedding spaces. Transactions of the Association for Computational Linguistics, 10:981–996, 2022.
  • [MTM12] Brian Murphy, Partha Talukdar, and Tom Mitchell. Learning Effective and Interpretable Semantic Models using Non-Negative Sparse Embedding. pages 1933–1950, 2012.
  • [PCD+ 21]Thibault Prouteau, Victor Connes, Nicolas Dugué, Anthony Perez, Jean-Charles Lamirel, Nathalie Camelin, and Sylvain Meignier. SINr: Fast Computing of Sparse Interpretable Node Representations is not a Sin! In IDA, 2021.
  • [PDCM22]Thibault Prouteau, Nicolas Dugué, Nathalie Camelin, and Sylvain Meignier. Are embedding spaces interpretable? results of an intrusion detection evaluation on a large french corpus. In LREC, 2022.
  • [SPJ+ 18] Anant Subramanian, Danish Pruthi, Harsh Jhamtani, Taylor Berg-Kirkpatrick, and Eduard Hovy. Spine: Sparse interpretable neural embeddings. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.