Séminaire de Simon Guillot et Thibault Prouteau, doctorants au LIUM

 

Date: 12/05/2023
Heure: 11h00
Lieu: IC2, salle des conseils
Intervenants: Simon Guillot et Thibault Prouteau
 
 

Sparser is better: one step closer to word embedding interpretability

 
 

Les modèles d’embedding de mots parcimonieux (SPINE, SINr) sont conçus pour projeter le lexique dans un espace aux dimensions interprétables. Une dimension interprétable est telle qu’un humain peut interpréter les relations sémantiques (ou syntaxiques) entre les mots actifs pour une dimension. Ces modèles sont utiles pour des tâches critiques en traitement automatique du langage naturel (par exemple, le TAL médical ou juridique) et les applications en humanités numériques.

Les travaux présentés lors de ce séminaire tendent vers l’extension de l’interprétabilité au niveau du vecteur en intégrant des contraintes psycholinguistiques à la définition des représentations. Un critère clé d’un modèle interprétable est la parcimonie : pour être interprétable, tous les mots ne doivent pas être représentés par toutes les dimensions du modèle, en particulier si les humains doivent interpréter ces dimensions et leurs relations. Cela soulève une question : dans quelle mesure la parcimonie est-elle viable sur le plan des performances ?

Nous introduisons donc une procédure pour augmenter la parcimonie des modèles et évaluer son impact sur deux méthodes interprétables (SPINE et SINr) afin de tendre vers une interprétabilité du vecteur. Nous introduisons également la stabilité comme nouveau critère d’interprétabilité.