Postdoc : Polysemic embeddings

Laboratoire d'accueil : LIUM, équipe LST, Partenaire industriel : SNCF Innovation Recherche Encadrement : Nicolas Dugué (LIUM) Co-encadrement : Nathalie Camelin (LIUM), Luce Lefeuvre (SNCF) Durée : Contrat post-doctoral d'un an, Prise de fonction : dès que possible
Date limite de candidature : lundi 2 Decembre 2019
Le LIUM termine actuellement un projet de collaboration avec la Direction Innovation et Recherche de SNCF autour de la structuration d'un corpus de documents en thématiques. Les ressources lexicales fournies par SNCF ont permis au LIUM de prendre connaissance de la richesse et des spéci ficités du vocabulaire métier utilisé au sein d'entreprises telles que SNCF. Ce vocabulaire est parfois peu fréquent dans les corpus mais d'après les experts, très important pour caractériser les documents. Par ailleurs, ce vocabulaire contient des acronymes qui, pour environ 40%, ne servent pas d'abréviations aux mêmes groupes de mots. Le corpus de ce projet nous a permis de mettre en lumière trois verrous scienti ques majeurs pour le traitement automatique efficace de ce type de documents en utilisant les plongements lexicaux : Comment apprendre des plongements de bonne qualité pour du vocabulaire spéci fique parfois peu fréquent ? Comment apprendre des plongements pour des acronymes spéci fiques ET polysémiques ? Comment évaluer les plongements appris ? ► Lire la suite