PolysEmY – Laboratoire d'Informatique de l'Université du Mans

Les ressources lexicales de la documentation technique SNCF sont le témoignage de la richesse et des spécificités du vocabulaire métier utilisé au sein d’entreprises telles que SNCF. Ce vocabulaire est parfois peu fréquent dans les corpus mais d’après les experts très important pour caractériser les documents. Par ailleurs, dans le cas de SNCF, ce vocabulaire contient des acronymes qui, pour environ 40 % ne servent pas d’abréviations aux mêmes groupes de mots.
À travers l’étude de ce corpus, nous avons lus en lumière trois verrous scientifiques majeurs pour le traitement automatique efficace de ce type de documents en utilisant les plongements lexicaux :

Comment apprendre des plongements de bonne qualité pour du vocabulaire spécifique parfois peu fréquent ?
Comment apprendre des plongements pour des acronymes spécifiques ET polysémiques ?
Comment évaluer les plongements appris ?

Polysemic Embeddings for Industry (PolysEmY)