Word embeddings temporels : néologismes, biais de genre, corpus des actualités françaises

Débuté le : 01/10/2020
Doctorant : Thibault Prouteau
Directeur(s) de Thèse : Sylvain Meignier
Co-encadrant(s) de Thèse : Nicolas Dugué
Financement : Allocation de recherche du ministère de l'enseignement supérieur

Contexte de la thèse :

La télévision, la production littéraire et internet fournissent des traces de notre utilisation de la langue [6]. Grâce à l’Ina, la mémoire de la télévision perdure, et se replonger dans le passé nous montre à quel point la langue évolue [9]. Avec le Web moderne, les utilisateurs ont un rapport à l’actualité différent : il est possible d’y réagir en ligne, très rapidement et avec une plus grande créativité linguistique (hashtags, acronymes, etc). Internet est donc propice à la création de nouveaux mots, ou à l’émergence de nouveaux sens, réinventant ainsi chaque jour notre langue [10]. Enfin, à travers la numérisation des contenus papiers, la production littéraire est accessible à tous, retraçant l’évolution de la langue depuis le dix-neuvième siècle [7].
Ainsi, ces différents médias permettent de constituer des corpus textuels temporels qui sont autant de ressources pour étudier l’évolution de notre langue et de notre société.

 
Descritpion

Les méthodes de plongements lexicaux (ou word embeddings) offrent de nouvelles possibilités pour l’étude des corpus textuels [8], en particulier concernant la sémantique du vocabulaire utilisé dans ces corpus. à la croisée de l’intelligence artificielle et des humanités numériques, ce projet a pour but de doter la communauté d’outils robustes pour concevoir des plongements lexicaux temporels interprétables [2] et de les appliquer dans des contextes tels que la détection et la caractérisation de néologismes sur de grands corpus textuels [4], dans le cadre de l’évolution du langage télévisé via des corpus Ina transcrits [6] ou encore pour évaluer l’évolution des stéréotypes de genre dans le temps [1, 5, 3].

 
Bibliographie

[1] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, and Adam T Kalai. Man is to computer programmer as woman is to home-maker? debiasing word embeddings. In Advances in neural information processing systems, pages 4349-4357, 2016.
[2] Nicolas Dugué and Victor Connes. Complex networks based word embeddings. arXiv preprint arXiv:1910.01489, 2019.
[3] Hila Gonen and Yoav Goldberg. Lipstick on a pig: Debiasing methods cover up systematic gender biases in word embeddings but do not remove them. arXiv preprint arXiv:1903.03862, 2019.
[4] William L. Hamilton, Jure Leskovec, and Dan Jurafsky. Diachronic word embeddings reveal statistical laws of semantic change. arXiv:1605.09096, 2016.
[5] Keita Kurita, Nidhi Vyas, Ayush Pareek, Alan W Black, and Yulia Tsvetkov. Measuring bias in contextualized word representations. arXiv preprint arXiv:1906.07337, 2019.
[6] Jean Lagane. L’évolution du langage radiophonique. Communication & Langages, 111(1):39-52, 1997.
[7] Zehua Liu. A diachronic study on british and chinese cultural complexity with google books ngrams. Journal of Quantitative Linguistics, 23(4):361-373, 2016.
[8] Jeffrey Pennington, Richard Socher, and Christopher Manning. Glove: Global vectors for word representation. In EMNLP, pages 1532-1543, 2014.
[9] Jane Stuart-Smith, Gwilym Pryce, Claire Timmins, and Barrie Gunter. Television can also be a factor in language change: Evidence from an urban dialect. Language, 89(3):501-536, 2013.
[10] Sali A Tagliamonte et al. So sick or so cool? the language of youth on the internet. Language in Society, 45(1):1-32, 2016.