{"id":22293,"date":"2018-03-15T13:30:07","date_gmt":"2018-03-15T12:30:07","guid":{"rendered":"https:\/\/lium.univ-lemans.fr\/?p=22293"},"modified":"2018-05-17T11:42:31","modified_gmt":"2018-05-17T09:42:31","slug":"these2-lst-032018","status":"publish","type":"post","link":"https:\/\/lium.univ-lemans.fr\/en\/these2-lst-032018\/","title":{"rendered":"Apprentissage de repr\u00e9sentations continues dans des corpus en langue sp\u00e9cialis\u00e9e"},"content":{"rendered":"<div class=\"panel-grid\" id=\"pg-22293-0\" ><div class=\"panel-grid-core\"><div class=\"panel-grid-cell\" id=\"pgc-22293-0-0\" ><div class=\"panel-widget-style\" ><h2 style=\"text-align: center;\"><span style=\"color: #e5442d;\">Proposition de sujet de th\u00e8se en informatique, LIUM<\/span><\/h2>\n<p>&nbsp;<\/p>\n<h3 style=\"text-align: justify;\"><span style=\"color: #e5442d;\"><strong>Sujet de th\u00e8se<\/strong> :<\/span> Apprentissage de repr\u00e9sentations continues dans des corpus en langue sp\u00e9cialis\u00e9e<\/h3>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Laboratoire d\u2019accueil :<\/strong> Laboratoire d\u2019Informatique de l\u2019Universit\u00e9 du Mans (LIUM)<br \/>\n<strong>Site :<\/strong> Le Mans<br \/>\n<strong>Directeur de th\u00e8se :<\/strong> <a href=\"http:\/\/lium.univ-lemans.fr\/team\/sylvain-meignier\" target=\"_blank\" rel=\"noopener\">Sylvain Meignier<\/a> (<a href=\"mailto:sylvain.meignier@univ-lemans.fr\" target=\"_blank\" rel=\"noopener\">sylvain.meignier[at]univ-lemans.fr<\/a>)<br \/>\n<strong>Co-encadrant :<\/strong> <a href=\"http:\/\/lium.univ-lemans.fr\/team\/nathalie-camelin\" target=\"_blank\" rel=\"noopener\">Nathalie Camelin<\/a> (<a href=\"mailto:nathalie.camelin@univ-lemans.fr\" target=\"_blank\" rel=\"noopener\">nathalie.camelin[at]univ-lemans.fr<\/a>), <a href=\"http:\/\/lium.univ-lemans.fr\/team\/nicolas-dugue\" target=\"_blank\" rel=\"noopener\">Nicolas Dugu\u00e9<\/a> (<a href=\"mailto:nicolas.dugue@univ-lemans.fr\" target=\"_blank\" rel=\"noopener\">nicolas.dugue[at]univ-lemans.fr<\/a>)<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\"><strong>Contexte. <\/strong>Le travail de gestion documentaire est depuis plusieurs ann\u00e9es en pleine mutation. Les connaissances m\u00e9tier sont de plus en plus digitalis\u00e9es, sous des formats unifi\u00e9s, et mises \u00e0 disposition des utilisateurs ou du grand public. Ainsi par exemple, dans les h\u00f4pitaux parisiens, les dossiers des patients deviennent num\u00e9riques, avec des formats unifi\u00e9s [3]. Par ailleurs, \u00e0 travers notre projet en cours avec le partenaire SNCF, nous voyons \u00e9galement \u00e9merger ce besoin de proposer un acc\u00e8s aux ressources m\u00e9tiers num\u00e9ris\u00e9es. Enfin, avec le lancement r\u00e9cent de la base ISTEX, socle de la biblioth\u00e8que scientifique num\u00e9rique nationale, l\u2019\u00e9tat fran\u00e7ais a affirm\u00e9 sa volont\u00e9 de mettre \u00e0 disposition des chercheurs des corpus num\u00e9riques de bonne qualit\u00e9, organis\u00e9s et enrichis [2].<\/p>\n<p style=\"text-align: justify;\">Comme dans le cas d\u2019ISTEX, cette digitalisation est en g\u00e9n\u00e9ral accompagn\u00e9e d\u2019une r\u00e9flexion sur l\u2019organisation de ces corpus, les moyens d\u2019y donner acc\u00e8s, et les m\u00e9thodes pour en tirer une valeur ajout\u00e9e. Ainsi, des outils d\u2019exploration de corpus, de cartographie [1, 9], des moteurs de recherche sont associ\u00e9s aux solutions de gestion documentaire.<\/p>\n<p style=\"text-align: justify;\">N\u00e9anmoins, l\u2019indexation et l\u2019organisation (clustering\/classification) en base documentaire de telles r\u00e9f\u00e9rences m\u00e9tiers soul\u00e8vent de nombreux verrous scientifiques. En effet, ce travail passe par une bonne repr\u00e9sentation des documents [10]. Il est donc en particulier important d\u2019\u00eatre capable de repr\u00e9senter le vocabulaire m\u00e9tier employ\u00e9 dans ces documents. Or, les vocabulaires employ\u00e9s dans ces documents sont sp\u00e9cifiques aux m\u00e9tiers. De plus, les donn\u00e9es pour apprendre des repr\u00e9sentations de ces documents sont bien souvent limit\u00e9es. Enfin, ces donn\u00e9es ne sont pas toujours accompagn\u00e9es de ressources (lexiques, ontologies, cat\u00e9gorisation) valid\u00e9es par des experts, permettant ainsi de superviser le travail. Nous souhaitons donc dans cette th\u00e8se explorer cette probl\u00e9matique de repr\u00e9sentation continue des documents dans le cadre de corpus en langue sp\u00e9cialis\u00e9e. Nous consid\u00e9rerons \u00e9galement dans un second temps l\u2019utilisation des m\u00e9ta-donn\u00e9es des documents (citations, auteurs) pour enrichir leur repr\u00e9sentation et ainsi am\u00e9liorer l\u2019organisation des bases documentaires.<\/p>\n<p style=\"text-align: justify;\"><strong>Travailler avec peu de resources. <\/strong>La difficult\u00e9 principale pour cette t\u00e2che est d\u2019apprendre des repr\u00e9sentations d\u2019un vocabulaire sp\u00e9cialis\u00e9, potentiellement peu fr\u00e9quent dans le corpus, ou bien sur un corpus de petite taille qui fournit donc peu d\u2019exemples d\u2019occurences. La t\u00e2che d\u2019\u00e9valuation qui lui est associ\u00e9e rel\u00e8ve de la m\u00eame difficult\u00e9 [14]. En effet, si les repr\u00e9sentations continues sont bien \u00e9valuables sur le vocabulaire courant, il n\u2019existe pas \u00e0 notre connaissance de banc d\u2019essai standard en consid\u00e9rant le vocabulaire de langue sp\u00e9cialis\u00e9e. En ce qui concerne les repr\u00e9sentations continues, la litt\u00e9rature peut nous fournir des pistes pertinentes dans ce contexte. Tout d\u2019abord, il existe des m\u00e9thodes qui permettent la construction automatique de d\u00e9pendances s\u00e9mantiques, voire de taxonomies [6], qui peuvent permettre de g\u00e9n\u00e9raliser le vocabulaire [13].<br \/>\nCertains travaux proposent \u00e9galement d\u2019utiliser ces ressources pour superviser l\u2019apprentissage [5]. Ensuite, d\u2019autre approches se penchent sur la combinaison de repr\u00e9sentations pour celles des expressions compos\u00e9es [8]. Par ailleurs, il existe \u00e9galement des m\u00e9thodes bas\u00e9es sur l\u2019apprentissage de repr\u00e9sentation pour des n-grams de caract\u00e8re, de fa\u00e7on \u00e0 pouvoir repr\u00e9senter des mots inconnus ou peu fr\u00e9quents, m\u00eame si ces r\u00e9sultats sont peu \u00e9valu\u00e9s dans ce cadre [4].<\/p>\n<p style=\"text-align: justify;\">Une autre piste s\u00e9rieuse pour utiliser au maximum les ressources \u00e0 disposition dans de tels corpus, est d\u2019exploiter les meta-donn\u00e9es. Par exemple dans le cadre des articles scientifiques les informations d\u2019auteurs et les citations entre articles.<\/p>\n<p style=\"text-align: justify;\"><strong>Utiliser les meta-donn\u00e9es. <\/strong>Jusque-l\u00e0, les travaux r\u00e9alis\u00e9s sur l\u2019organisation des ressources documentaires (de type scientifiques en particulier) organisaient th\u00e9matiquement ces bases en utilisant en g\u00e9n\u00e9ral s\u00e9par\u00e9ment le contenu des documents [9], le r\u00e9seau des citations entre documents, le r\u00e9seau des collaborations d\u2019auteurs. Ces trois sources de donn\u00e9es ont \u00e9t\u00e9 prouv\u00e9es pertinentes et des tentatives ont \u00e9t\u00e9 faites pour les utiliser conjointement [11, 12]. N\u00e9anmoins, \u00e0 notre connaissance, il n\u2019existe aucune approche permettant d\u2019avoir une repr\u00e9sentation continue unifi\u00e9e pour les documents tenant compte de toutes ces informations, bien qu\u2019il existe \u00e9galement des approches pour repr\u00e9senter de fa\u00e7on continue un noeud dans un graphe [7].<\/p>\n<p style=\"text-align: justify;\"><strong>R\u00e9sum\u00e9. <\/strong>Dans cette th\u00e8se, nous proposons d\u2019\u00e9tudier diff\u00e9rentes repr\u00e9sentations continues (de mots, de documents, de graphe) afin d\u2019organiser des corpus en langue sp\u00e9cialis\u00e9e. Le premier verrou scientifique consid\u00e9r\u00e9 est celui de la repr\u00e9sentation du vocabulaire m\u00e9tier employ\u00e9 dans ces corpus, dans le cas o\u00f9 le corpus est petit, et les fr\u00e9quences du vocabulaire faibles. Dans un second temps, nous envisageons l\u2019enrichissement de la repr\u00e9sentation des documents via l\u2019utilisation des m\u00e9ta-donn\u00e9es, notamment les citations entre documents et les informations de collaborations entre auteurs dans le cadre de documents scientifiques par exemple.<\/p>\n<h3 style=\"text-align: justify;\"><strong>References<\/strong><\/h3>\n<p style=\"text-align: justify;\">[1] Inpi : Cartographie des inventions. <a href=\"https:\/\/www.inpi.fr\/fr\/cartographie-des-inventions\" target=\"_blank\" rel=\"noopener\">https:\/\/www.inpi.fr\/fr\/cartographie-des-inventions<\/a>.<\/p>\n<p style=\"text-align: justify;\">[2] Istex &#8211; socle de la biblioth\u00e8que scientifique num\u00e9rique nationale. <a href=\"https:\/\/www.istex.fr\/\" target=\"_blank\" rel=\"noopener\">https:\/\/www.istex.fr\/<\/a>.<\/p>\n<p style=\"text-align: justify;\">[3] Les h\u00f4pitaux de paris font leur r\u00e9volution num\u00e9rique. <a href=\"http:\/\/www.liberation.fr\/france\/2017\/11\/13\/les-hopitaux-de-paris-font-leur-revolution-numerique_1609749\" target=\"_blank\" rel=\"noopener\">http:\/\/www.liberation.fr\/france\/2017\/11\/13\/les-hopitaux-de-paris-font-leur-revolution-numerique_1609749<\/a>.<\/p>\n<p style=\"text-align: justify;\">[4] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606, 2016.<\/p>\n<p style=\"text-align: justify;\">[5] Danushka Bollegala, Mohammed Alsuhaibani, Takanori Maehara, and Kenichi Kawarabayashi. Joint Word Representation Learning Using a Corpus and a Semantic Lexicon. In AAAI, pages 2690\u20132696, 2016.<\/p>\n<p style=\"text-align: justify;\">[6] Guillaume Cleuziou, Davide Buscaldi, Ga\u00ebl Dias, Vincent Levorato, and Christine Largeron. Qassit: A pretopological framework for the automatic construction of lexical taxonomies from raw texts. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), pages 955\u2013959, 2015.<\/p>\n<p style=\"text-align: justify;\">[7] Aditya Grover and Jure Leskovec. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pages 855\u2013864. ACM, 2016.<\/p>\n<p style=\"text-align: justify;\">[8] Sam Henry, Clint Cuffy, and Bridget T. McInnes. Vector representations of multi-word terms for semantic relatedness. Journal of biomedical informatics, 77:111\u2013119, 2018.<\/p>\n<p style=\"text-align: justify;\">[9] Jean-Charles Lamirel, Nicolas Dugu\u00e9, and Pascal Cuxac. New efficient clustering quality indexes. In Neural Networks (IJCNN), 2016 International Joint Conference on, pages 3649\u20133657. IEEE, 2016.<\/p>\n<p style=\"text-align: justify;\">[10] Quoc Le and Tomas Mikolov. Distributed representations of sentences and documents. In International Conference on Machine Learning, pages 1188\u20131196, 2014.<\/p>\n<p style=\"text-align: justify;\">[11] Xinhai Liu, Shi Yu, Frizo Janssens, Wolfgang Gl\u00e4nzel, Yves Moreau, and Bart De Moor. Weighted hybrid clustering by combining text mining and bibliometrics on a large-scale journal database. Journal of the Association for Information Science and Technology, 61(6):1105\u20131119, 2010.<\/p>\n<p style=\"text-align: justify;\">[12] Abdolreza Momeni and Katja Rost. Identification and monitoring of possible disruptive technologies by patent-development paths and topic modeling. Technological Forecasting and Social Change, 104:16\u201329, 2016.<\/p>\n<p style=\"text-align: justify;\">[13] Amandine P\u00e9rinet. Analyse distributionnelle appliqu\u00e9e aux textes de sp\u00e9cialit\u00e9: r\u00e9duction de la dispersion des donn\u00e9es par abstraction des contextes. PhD Thesis, Universit\u00e9 Paris 13; Laboratoire d\u2019Informatique M\u00e9dicale et d\u2019Ing\u00e9nieurie des Connaissances en e-Sant\u00e9, 2015.<\/p>\n<p style=\"text-align: justify;\">[14] Muneeb Th, Sunil Sahu, and Ashish Anand. Evaluating distributed word representations for capturing semantics of biomedical concepts. Proceedings of BioNLP 15, pages 158\u2013163, 2015.<\/p><\/div><\/div><\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Proposition de sujet de th\u00e8se en informatique, LIUM &nbsp; Sujet de th\u00e8se : Apprentissage de repr\u00e9sentations continues dans des corpus en langue sp\u00e9cialis\u00e9e &nbsp; Laboratoire d\u2019accueil : Laboratoire d\u2019Informatique de l\u2019Universit\u00e9 du Mans (LIUM) Site : Le Mans Directeur de th\u00e8se : Sylvain Meignier (sylvain.meignier[at]univ-lemans.fr) Co-encadrant : Nathalie Camelin (nathalie.camelin[at]univ-lemans.fr), Nicolas Dugu\u00e9 (nicolas.dugue[at]univ-lemans.fr) &nbsp; Contexte. [&hellip;]<\/p>\n<p class=\"more-link style2\"><a href=\"https:\/\/lium.univ-lemans.fr\/en\/these2-lst-032018\/\"  class=\"themebutton\"><span class=\"more-text\">READ MORE<\/span><span class=\"more-icon\"><i class=\"fa fa-angle-right fa-lg\"><\/i><\/span><\/a><\/p>\n","protected":false},"author":3,"featured_media":22128,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[78],"tags":[],"acf":[],"_links":{"self":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/22293"}],"collection":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/comments?post=22293"}],"version-history":[{"count":13,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/22293\/revisions"}],"predecessor-version":[{"id":22659,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/22293\/revisions\/22659"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/media\/22128"}],"wp:attachment":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/media?parent=22293"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/categories?post=22293"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/tags?post=22293"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}