Des arbres, des chevaliers et des marionnettes : apprentissages par transferts pour le traitement des langues historiques – Laboratoire d'Informatique de l'Université du Mans

Séminaire de Loïc Grobol, MCF à l’Université Paris Nanterre

Date: 29/04/2022
Heure: 11h00
Lieu: IC2, Salle des conseils et en ligne
Intervenant: Loïc Grobol

Des arbres, des chevaliers et des marionnettes : apprentissages par transferts pour le traitement des langues historiques

Au cours des dernières années, le traitement automatique des langues naturelles (TAL) a connu des évolutions extrêmement rapides, les systèmes de TAL atteignant des performances record pour de nombreuses tâches et de nombreux domaines. Ces évolutions sont en grande partie dues aux apports des techniques d’apprentissage profonds, dont les plus récentes et les plus retentissantes reposent sur l’utilisation de pré-entraînements semi-supervisés sur de grandes quantités de données non annotées complétés par des apprentissages ciblés (fine-tuning) pour les tâches cibles (Peters et al., 2018 ; Howard et Ruder, 2018 ; Devlin et al., 2019). La principale force de ces techniques est de permettre l’exploitation des données massives issues de l’omniprésente numérisation du langage sous toutes ses formes. Cependant, pour bon nombre d’applications, l’existence de ces données est loin d’aller de soi — qu’il s’agisse de langues peu dotées (Hedderic et al., 2021) ou de domaines peu documentés (Ramponi et Plank, 2021).

Les langues historiques, et en particulier celles qui représentent des états anciens de langues encore existantes et bien documentées, sont un cas particulièrement intéressant de ce problème. En effet, si les données disponibles sont souvent rares, très hétérogènes, et nécessairement finies, leur proximité avec des langues beaucoup mieux dotées fait qu’il est tentant de leur appliquer des techniques dites d’apprentissage par transfert : utiliser des ressources (données et systèmes) développées pour leurs descendantes bien dotées, et utiliser les données disponibles pour l’état ancien afin d’y adapter ces ressources.

Dans cette intervention, je présenterai des travaux réalisés et encore en cours dans le cadre du projet PROFITEROLE (PRocessing Old French Instrumented TExts for the Representation Of Language Evolution), portant sur l’utilisation de ressources hétérogènes pour l’analyse syntaxique du français médiéval. Nos expériences montrent qu’il est possible d’exploiter des ressources pour le français contemporain (et en particulier des représentations contextuelles des mots) pour améliorer considérablement le traitement d’états anciens du français en utilisant des techniques d’apprentissage par transfert.

Réferences

Devlin, Jacob, Ming-Wei Chang, Kenton Lee, et Kristina Toutanova. « BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ». In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4171‑86. Association for Computational Linguistics, 2019. https://doi.org/10.18653/v1/N19-1423.
Hedderich, Michael A., Lukas Lange, Heike Adel, Jannik Strötgen, et Dietrich Klakow. « A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios ». In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2545‑68. Association for Computational Linguistics, 2021. https://doi.org/10.18653/v1/2021.naacl-main.201.
Howard, Jeremy, et Sebastian Ruder. « Universal Language Model Fine-tuning for Text Classification ». In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 328‑39. Association for Computational Linguistics, 2018. https://doi.org/10.18653/v1/P18-1031.
Peters, Matthew, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, et Luke Zettlemoyer. « Deep Contextualized Word Representations ». In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1:2227‑37. Association for Computational Linguistics, 2018. https://doi.org/10.18653/v1/N18-1202.
Ramponi, Alan, et Barbara Plank. « Neural Unsupervised Domain Adaptation in NLP—A Survey ». In Proceedings of the 28th International Conference on Computational Linguistics, 6838‑55. International Committee on Computational Linguistics, 2020. https://doi.org/10.18653/v1/2020.coling-main.603.