Une approche graphe/réseaux complexes pour modéliser le sens des mots

 

Encadrant(s): Nicolas Dugué
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contexte :Le projet #neo s’intéresse à la détection automatique de néologismes en exploitant de grands corpus textuels. En particulier, il s’agit de détecter des mots qui changent de sens ou dont un nouveau sens apparaît.
Mots-clés : Word embeddings, graphes, réseaux complexes, Corpus textuels, Programmation Python
Contact : nicolas.dugue(at)univ-lemans.fr

 

 

Lors de précédents travaux, nous avons montré que des approches d’apprentissage de plongements lexicaux (word embeddings) basées sur la théorie des réseaux complexes (graphes) peuvent présenter plusieurs avantages :

  • Interprétabilité des dimensions des embeddings appris ;
  • Possibilité d’apprendre rapidement l’embedding d’un mot précédemment inconnu ;
  • Gestion inhérente de la polysémie.

Nous souhaitons expérimenter ces modèles basés théories des réseaux complexes sur de nouveaux corpus affin d’explorer leur propriété et de montrer leur robustesse. Durant le stage, il s’agira de :

  • Apprendre à maîtriser l’état de l’art des word embeddings ;
  • Prendre en main le modèle basé réseaux complexes développé en Python et le mettre à jour, l’améliorer ;
  • Expérimenter le modèle amélioré sur de nouveaux corpus.

 
Bibliographie: