{"id":25752,"date":"2022-10-11T16:35:15","date_gmt":"2022-10-11T14:35:15","guid":{"rendered":"https:\/\/lium.univ-lemans.fr\/?p=25752"},"modified":"2022-10-11T16:54:46","modified_gmt":"2022-10-11T14:54:46","slug":"simon-guillot","status":"publish","type":"post","link":"https:\/\/lium.univ-lemans.fr\/en\/simon-guillot\/","title":{"rendered":"Simon Guillot"},"content":{"rendered":"<div class=\"panel-grid\" id=\"pg-25752-0\" ><div class=\"panel-grid-core\"><div class=\"panel-grid-cell\" id=\"pgc-25752-0-0\" ><div class=\"panel-widget-style\" ><h2 style=\"color: #e5442d;\">Interpretability of embeddings<br\/><\/h2><p><b>Starting: <\/b> 01\/10\/2022<br\/><b>PhD Student: <\/b> <a href=\"http:\/\/lium.univ-lemans.fr\/team\/simon-guillot-2\/\" target=\"_blank\" >Simon Guillot<\/a><br\/><b>Advisor(s): <\/b> Antoin Laurent (LIUM) <br\/><b>Co-advisor(s): <\/b> Nicolas Dugu\u00e9 (LIUM), Mathieu Valette (INALCO)<br\/><b>Funding: <\/b> ANR DIGING<br\/><\/p><\/div><\/div><\/div><\/div><div class=\"panel-grid\" id=\"pg-25752-1\" ><div class=\"panel-grid-core\"><div class=\"panel-grid-cell\" id=\"pgc-25752-1-0\" ><div class=\"panel-widget-style\" ><p><strong>Descritpion<\/strong><\/p>\n<p align=\"justify\">Les approches de plongements lexicaux (word embedding en anglais) ont pour objectif de repr\u00e9senter le vocabulaire de la langue sous forme de vecteurs intelligibles par la machine. En particulier, l\u2019une des hypoth\u00e8ses derri\u00e8re le succ\u00e8s de ces m\u00e9thodes (historiquement Word2vec et GloVe [PSM14], et plus r\u00e9cemment les m\u00e9thodes \u00e0 base de transformers [MMS+19, CDC21]) est que le sens des mots du lexiques \u00e9merge de leurs co-occurrences dans les corpus et qu\u2019il devient ainsi possible de l\u2019encapsuler dans des vecteurs.<\/p>\n<p align=\"justify\"><strong>Projet ANR DIGING.<\/strong> <\/p>\n<p align=\"justify\">Les approches r\u00e9centes d\u2019apprentissage de plongements lexicaux ont mis l\u2019accent sur les r\u00e9sultats, souvent au d\u00e9triment de l\u2019interpr\u00e9tabilit\u00e9. Afin de favoriser l\u2019adoption des syst\u00e8mes automatiques par les utilisateurs, l\u2019interpr\u00e9tabilit\u00e9 et l\u2019interaction avec les r\u00e9sultats produits par ces syst\u00e8mes est pourtant une condition n\u00e9cessaire. C\u2019est en particulier le cas lors de la mise en \u0153uvre de telles technologies au service de secteurs sensibles comme les domaines juridique ou m\u00e9dicaux. Nous proposons avec DIGING une nouvelle approche performante et \u00e9conome en calculs pour la construction de plongements lexicaux interpr\u00e9tables [MTM] bas\u00e9e sur la th\u00e9orie des r\u00e9seaux complexes [PCD+21]. Avec cette approche originale, l\u2019objectif est de construire des vecteurs int\u00e9grant la polys\u00e9mie et plongeant les mots dans un espace aux dimensions interpr\u00e9tables. L\u2019interpr\u00e9tabilit\u00e9 de tels plongements permettrait ainsi d\u2019envisager des applica- tions li\u00e9es \u00e0 des domaines sensibles et des sujets de soci\u00e9t\u00e9 clivants.<\/p>\n<p><strong>La th\u00e8se.<\/strong> <\/p>\n<p align=\"justify\">Si les travaux initi\u00e9s dans DIGING ont montr\u00e9 la pertinence de l\u2019approche sur le plan de la performance [PCD+21] et de l\u2019interpr\u00e9tabilit\u00e9 [PDCM22], de nombreuses questions subsistent quant \u00e0 cette derni\u00e8re. En effet, si ces derniers travaux ont montr\u00e9 que l\u2019interpr\u00e9tabilit\u00e9 de l\u2019espace est au niveau de l\u2019\u00e9tat de l\u2019art [PDCM22, SPJ+18], ils ne d\u00e9montrent pas l\u2019interpr\u00e9tabilit\u00e9 des vecteurs (en tant qu\u2019ensemble de valeurs sur ces dimensions interpr\u00e9tables) qui symbolisent le lexique. Ainsi, l\u2019hypoth\u00e8se distributionnelle est parfaitement adapt\u00e9e \u00e0 la construction des plongements \u00e0 partir du corpus, mais elle n\u2019est pas suffisante pour d\u00e9crire le sens qui en \u00e9merge. Afin d\u2019analyser les vecteurs produits par notre approche de plongements, nous souhaitons ainsi cr\u00e9er du lien entre ces vecteurs,l\u2019espace appris, et les th\u00e9ories s\u00e9mantiques \u00e9labor\u00e9es en linguistique.<\/p>\n<p>&nbsp;<br \/>\n<strong>Bibliographie<\/strong><\/p>\n<p align=\"justify\">\n<ul>\n<li>[CDC21] Ga\u00ebtan Caillaut, Nicolas Dugu\u00e9, and Nathalie Camelin. Narcissist! do you need so much attention? In CAP: Conf\u00e9rence sur l\u2019Apprentisage automatique, 2021.<\/li>\n<li>[LLBJ15] Mathieu Lafourcade, Nathalie Le Brun, and Alain Joubert. Jeux et intelligence collective: r\u00e9solution de probl\u00e8mes et acquisition de donn\u00e9es sur le web. ISTE Group, 2015.<\/li>\n<li>[MMS+19] Louis Martin, Benjamin Muller, Pedro Javier Ortiz Su\u00e1rez, Yoann Dupont, Laurent Romary, Eric Villemonte de La Clergerie, Djam\u00e9 Seddah, and Beno\u00eet Sagot. Camembert: a tasty french language model. arXiv preprint arXiv:1911.03894, 2019.<\/li>\n<li>[MTM] Brian Murphy, Partha Talukdar, and Tom Mitchell. Learning Effective and In- terpretable Semantic Models using Non-Negative Sparse Embedding. page 18.<\/li>\n<li>[PCD+ 21] Thibault Prouteau, Victor Connes, Nicolas Dugu\u00e9, Anthony Perez, Jean-Charles Lamirel, Nathalie Camelin, and Sylvain Meignier. SINr: Fast Computing of Sparse Interpretable Node Representations is not a Sin! In Advances in Intelligent Data Analysis XIX, 19th International Symposium on Intelligent Data Analysis, IDA 2021, pages 325\u2013337. Springer, Cham, 2021. Issue: 12695.<\/li>\n<li>[PDCM22] Thibault Prouteau, Nicolas Dugu\u00e9, Nathalie Camelin, and Sylvain Meignier. Are embedding spaces interpretable? results of an intrusion detection evaluation on a large french corpus. In LREC, 2022.<\/li>\n<li>[PSM14] Jeffrey Pennington, Richard Socher, and Christopher D Manning. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532\u20131543, 2014.<\/li>\n<li>[SPJ+ 18] Anant Subramanian, Danish Pruthi, Harsh Jhamtani, Taylor Berg-Kirkpatrick, and Eduard Hovy. Spine: Sparse interpretable neural embeddings. In Thirty- Second AAAI Conference on Artificial Intelligence, 2018.<\/li>\n<\/ul><\/div><\/div><\/div><\/div><div class=\"panel-grid\" id=\"pg-25752-2\" ><div class=\"panel-grid-core\"><div class=\"panel-grid-cell\" id=\"pgc-25752-2-0\" >&nbsp;<\/div><div class=\"panel-grid-cell\" id=\"pgc-25752-2-1\" ><div class=\"panel-widget-style\" ><p><img src=\"https:\/\/lium.univ-lemans.fr\/wp-content\/uploads\/2019\/11\/ANR-150x150.jpg\" alt=\"\" \/ ><\/p><\/div><\/div><div class=\"panel-grid-cell\" id=\"pgc-25752-2-2\" >&nbsp;<\/div><\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Interpretability of embeddingsStarting: 01\/10\/2022PhD Student: Simon GuillotAdvisor(s): Antoin Laurent (LIUM) Co-advisor(s): Nicolas Dugu\u00e9 (LIUM), Mathieu Valette (INALCO)Funding: ANR DIGINGDescritpion Les approches de plongements lexicaux (word embedding en anglais) ont pour objectif de repr\u00e9senter le vocabulaire de la langue sous forme de vecteurs intelligibles par la machine. En particulier, l\u2019une des hypoth\u00e8ses derri\u00e8re le succ\u00e8s de [&hellip;]<\/p>\n<p class=\"more-link style2\"><a href=\"https:\/\/lium.univ-lemans.fr\/en\/simon-guillot\/\"  class=\"themebutton\"><span class=\"more-text\">READ MORE<\/span><span class=\"more-icon\"><i class=\"fa fa-angle-right fa-lg\"><\/i><\/span><\/a><\/p>\n","protected":false},"author":14,"featured_media":13249,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[52],"tags":[49],"acf":[],"_links":{"self":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/25752"}],"collection":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/users\/14"}],"replies":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/comments?post=25752"}],"version-history":[{"count":0,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/posts\/25752\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/media\/13249"}],"wp:attachment":[{"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/media?parent=25752"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/categories?post=25752"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lium.univ-lemans.fr\/en\/wp-json\/wp\/v2\/tags?post=25752"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}