Apprentissage de représentations continues dans des corpus en langue spécialisée – Laboratoire d'Informatique de l'Université du Mans

Proposition de sujet de thèse en informatique, LIUM

Titre : Apprentissage de représentations continues dans des corpus en langue spécialisée.

Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Site : Le Mans

Directeur de thèse : Sylvain Meignier (sylvain.meignier[at]univ-lemans.fr)
Co-encadrant : Nathalie Camelin (nathalie.camelin[at]univ-lemans.fr)
Co-encadrant : Nicolas Dugué (nicolas.dugue[at]univ-lemans.fr)

Contexte
Le travail de gestion documentaire est depuis plusieurs années en pleine mutation. Les connaissances métier sont de plus en plus digitalisées, sous des formats unifiés, et mises à disposition des utilisateurs ou du grand public. Ainsi par exemple, dans les hôpitaux parisiens, les dossiers des patients deviennent numériques, avec des formats unifiés [3]. Par ailleurs, à travers notre projet en cours avec le partenaire SNCF, nous voyons également émerger ce besoin de proposer un accès aux ressources métiers numérisées. Enfin, avec le lancement récent de la base ISTEX, socle de la bibliothèque scientifique numérique nationale, l’état français a affirmé sa volonté de mettre à disposition des chercheurs des corpus numériques de bonne qualité, organisés et enrichis [2]. Comme dans le cas d’ISTEX, cette digitalisation est en général accompagnée d’une réflexion sur l’organisation de ces corpus, les moyens d’y donner accès, et les méthodes pour en tirer une valeur ajoutée. Ainsi, des outils d’exploration de corpus, de cartographie [1, 9], des moteurs de recherche sont associés aux solutions de gestion documentaire.
Néanmoins, l’indexation et l’organisation (clustering/classification) en base documentaire de telles références métiers soulèvent de nombreux verrous scientifiques. En effet, ce travail passe par une bonne représentation des documents [10]. Il est donc en particulier important d’être capable de représenter le vocabulaire métier employé dans ces documents. Or, les vocabulaires employés dans ces documents sont spécifiques aux métiers. De plus, les données pour apprendre des représentations de ces documents sont bien souvent limitées. Enfin, ces données ne sont pas toujours accompagnées de ressources (lexiques, ontologies, catégorisation) validées par des experts, permettant ainsi de superviser le travail. Nous souhaitons donc dans cette thèse explorer cette problématique de représentation continue des documents dans le cadre de corpus en langue spécialisée. Nous considérerons également dans un second temps l’utilisation des méta-données des documents (citations, auteurs) pour enrichir leur représentation et ainsi améliorer l’organisation des bases documentaires.

Travailler avec peu de ressources
La difficulté principale pour cette tâche est d’apprendre des représentations d’un vocabulaire spécialisé, potentiellement peu fréquent dans le corpus, ou bien sur un corpus de petite taille qui fournit donc peu d’exemples d’occurrences. La tâche d’évaluation qui lui est associée relève de la même difficulté [14]. En effet, si les représentations continues sont bien évaluables sur le vocabulaire courant, il n’existe pas à notre connaissance de banc d’essai standard en considérant le vocabulaire de langue spécialisée. En ce qui concerne les représentations continues, la littérature peut nous fournir des pistes pertinentes dans ce contexte. Tout d’abord, il existe des méthodes qui permettent la construction automatique de dépendances sémantiques, voire de taxonomies [6], qui peuvent permettre de généraliser le vocabulaire [13]. Certains travaux proposent également d’utiliser ces ressources pour superviser l’apprentissage [5]. Ensuite, d’autre approches se penchent sur la combinaison de représentations pour celles des expressions composées [8]. Par ailleurs, il existe également des méthodes basées sur l’apprentissage de représentation pour des n-grams de caractère, de façon à pouvoir représenter des mots inconnus ou peu fréquents, même si ces résultats sont peu évalués dans ce cadre [4]. Une autre piste sérieuse pour utiliser au maximum les ressources à disposition dans de tels corpus, est d’exploiter les méta-données. Par exemple dans le cadre des articles scientifiques les informations d’auteurs et les citations entre articles.

Utiliser les méta-données
Jusque-là, les travaux réalisés sur l’organisation des ressources documentaires (de type scientifiques en particulier) organisaient thématiquement ces bases en utilisant en général séparément le contenu des documents [9], le réseau des citations entre documents, le réseau des collaborations d’auteurs. Ces trois sources de données ont été prouvées pertinentes et des tentatives ont été faites pour les utiliser conjointement [11, 12]. Néanmoins, à notre connaissance, il n’existe aucune approche permettant d’avoir une représentation continue unifiée pour les documents tenant compte de toutes ces informations, bien qu’il existe également des approches pour représenter de façon continue un noeud dans un graphe [7].

Résumé
Dans cette thèse, nous proposons d’étudier différentes représentations continues (de mots, de documents, de graphe) afin d’organiser des corpus en langue spécialisée. Le premier verrou scientifique considéré est celui de la représentation du vocabulaire métier employé dans ces corpus, dans le cas où le corpus est petit, et les fréquences du vocabulaire faibles. Dans un second temps, nous envisageons l’enrichissement de la représentation des documents via l’utilisation des méta-données, notamment les citations entre documents et les informations de collaborations entre auteurs dans le cadre de documents scientifiques par exemple.

Références
[1] Inpi : Cartographie des inventions. https://www.inpi.fr/fr/cartographie-des-inventions.
[2] Istex – socle de la bibliothèque scientifique numérique nationale. https://www.istex.fr/.
[3] Les hôpitaux de paris font leur révolution numérique. http://www.liberation.fr/france/2017/11/13/les-hopitaux-de-paris-font-leur-revolution-numerique_1609749.
[4] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606, 2016.
[5] Danushka Bollegala, Mohammed Alsuhaibani, Takanori Maehara, and Kenichi Kawarabayashi. Joint Word Representation Learning Using a Corpus and a Semantic Lexicon. In AAAI, pages 2690–2696, 2016.
[6] Guillaume Cleuziou, Davide Buscaldi, Gaël Dias, Vincent Levorato, and Christine Largeron. Qassit: A pretopological framework for the automatic construction of lexical taxonomies from raw texts. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), pages 955–959, 2015.
[7] Aditya Grover and Jure Leskovec. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pages 855–864. ACM, 2016.
[8] Sam Henry, Clint Cuffy, and Bridget T. McInnes. Vector representations of multi-word terms for semantic relatedness. Journal of biomedical informatics, 77:111–119, 2018.
[9] Jean-Charles Lamirel, Nicolas Dugué, and Pascal Cuxac. New efficient clustering quality indexes. In Neural Networks (IJCNN), 2016 International Joint Conference on, pages 3649–3657. IEEE, 2016.
[10] Quoc Le and Tomas Mikolov. Distributed representations of sentences and documents. In International Conference on Machine Learning, pages 1188–1196, 2014.
[11] Xinhai Liu, Shi Yu, Frizo Janssens, Wolfgang Glänzel, Yves Moreau, and Bart De Moor. Weighted hybrid clustering by combining text mining and bibliometrics on a large-scale journal database. Journal of the Association for Information Science and Technology, 61(6):1105–1119, 2010.
[12] Abdolreza Momeni and Katja Rost. Identification and monitoring of possible disruptive technologies by patent-development paths and topic modeling. Technological Forecasting and Social Change, 104:16–29, 2016.
[13] Amandine Périnet. Analyse distributionnelle appliquée aux textes despécialité: réduction de la dispersion des données par abstraction des contextes. PhD Thesis, Université Paris 13; Laboratoire d’Informatique Médicale et d’Ingénieurie des Connaissances en e-Santé, 2015.
[14] Muneeb Th, Sunil Sahu, and Ashish Anand. Evaluating distributed word representations for capturing semantics of biomedical concepts. Proceedings of BioNLP 15, pages 158–163, 2015.