Soutenance de thèse, Thibault Prouteau

Date : 03/07/2024
Heure : 14h00
Lieu : Le Mans Université, amphithéâtre bâtiment IC2
 

Titre : Graphes, mots et communautés : chemins convergents pour l’interprétabilité des représentations par une approche de plongements frugale

 

Composition du jury :

  • Vincent LABATUT, Maître de conférences HDR, Université d’Avignon, Rapporteur
  • Christine LARGERON, Professeur des universités, Université Jean Monnet, Saint-Étienne, Rapportrice
  • Cécile BOTHOREL, Maître de conférences HDR, IMT Atlantique, Brest, Examinatrice
  • Jean-Loup GUILLAUME, Professeur des universités, Université de la Rochelle, Examinateur
  • Anaïs LEFEUVRE-HALFTERMEYER, Maître de conférences, Université d’Orléans, Examinatrice
  • Marie TAHON, Professeur, Le Mans Université LIUM, Examinatrice
  • Sylvain MEIGNIER, Professeur, Le Mans Université LIUM, Directeur de thèse
  • Nicolas DUGUÉ, Maître de conférences, Le Mans Université LIUM, Encadrant
  • Nathalie CAMELIN, Maître de conférences, Le Mans Université LIUM, Invitée

 

Résumé :

L’apprentissage de représentations au travers des méthodes de plongements de mots (word embedding) et de graphes (graph embedding) permet des représentations distribuées de l’information. Ces représentations peuvent à leur tour être utilisées en entrée d’algorithmes d’apprentissage automatique.

Au cours des deux dernières décennies, les tâches de plongement de nœuds et de mots sont passées d’approches par factorisation matricielle qui pouvaient être réalisées en quelques minutes à de grands modèles nécessitant des quantités toujours plus importantes de données d’apprentissage et parfois des semaines sur de grandes architectures matérielles. Toutefois, dans un contexte de réchauffement climatique où la durabilité est une préoccupation essentielle, il peut être souhaitable de revenir à des méthodes plus frugales comme elles pouvaient l’être par le passé. En outre, avec l’implication croissante des plongements dans des applications sensibles de l’apprentissage automatique (système judiciaire, santé), le besoin de représentations plus interprétables et explicables s’est manifesté. Pour favoriser l’apprentissage de représentations efficaces et l’interprétabilité, cette thèse présente Lower Dimension Bipartite Graph Framework (LDBGF), un framework de plongements de nœuds capable d’extraire une représentation vectorielle avec le même pipeline de traitement, à condition que les données proviennent d’un graphe ou de texte issu de grands corpus représentés sous forme de réseaux de cooccurrence.

Dans ce cadre, nous présentons deux implémentations (SINr-NR, SINr-MF) qui tirent parti de la détection des communautés dans les réseaux pour découvrir un espace latent dans lequel les éléments (nœuds/mots) sont représentés en fonction de leurs liens avec les communautés. Nous montrons que SINr-NR et SINr-MF peuvent rivaliser avec des approches de plongements concurrentes sur des tâches telles que la prédiction des liens manquants dans les réseaux (link prediction) ou certaines caractéristiques des nœuds (centralité de degré, score PageRank). En ce qui concerne les plongements de mots, nous montrons que SINr-NR est un bon candidat pour représenter les mots en utilisant les réseaux de cooccurrences de mots. Enfin, nous démontrons l’interprétabilité de SINr-NR sur plusieurs aspects. Tout d’abord, une évaluation humaine montre que les dimensions de SINr-NR sont dans une certaine mesure interprétables. Ensuite, nous étudions la parcimonie des vecteurs. Notamment, combien un nombre réduit de dimensions peut permettre d’interpréter comment ces dernières se combinent et permettent de dégager un sens.

 

Mots clés :

plongements de graphes, plongements de mots, interprétabilité, frugalité, réseaux complexes