Proposition de sujet de thèse en informatique, LIUM
Sujet de thèse : Traduction Automatique Neuronale Non-Supervisée
Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Site : Le Mans
Contexte. Les systèmes de traduction automatique fondés sur les réseaux de neurones profonds montrent des résultats comparables aux systèmes à l’état de l’art [Bahdanau et al. 2015]. Ces systèmes exploitent l’approche encodeur-décodeur: une séquence d’entrée est projetée dans un espace continu (vecteur ou séquence de vecteurs de taille fixe), puis, à partir de cette représentation, une séquence de sortie est générée.
Néanmoins, l’entrainement de tels systèmes requiert une grande quantité de données annotées (données bilingues) qui n’est pas disponible pour toutes les paires de langues. Un intérêt grandissant est donc porté aux méthodes exploitant des données non-supervisées (i.e. données monolingues).
L’objectif de cette thèse est de développer une approche neuronale non-supervisée pour la raduction automatique.
Des travaux portent déjà sur cette thématiques comme par exemple [He et al. 2016 ], [Wu et al. 2017]. L’idée est donc d’étendre ce paradigme afin de l’exploiter pour plusieurs tâches et/ou plusieurs langues.
Les points à aborder dans cette thèse sont les suivants :
- Prise en main d’une architecture neuronale et mise en place des algorithmes d’apprentissage non-supervisés.
- Extension de l’approche à plusieurs langues.
- Évaluation des contraintes sur les données nécessaires à cet apprentissage : taille, généralité vs. Spécificité du domaine, provenance (extraits du web automatiquement vs. annotation manuelle), type : données monolingues, multilingues.
- Évaluation du pouvoir de généralisation à des paires de langues non rencontrées au cours de l‘apprentissage (cf. zero-shot learning).
Profil recherché :
- Posséder un Master 2 Recherche en Informatique
- Justifier de connaissances théoriques dans le domaine de l’apprentissage automatique
- Maîtriser la lecture de la bibliographie scientifique en langue anglaise
Les candidatures peuvent être envoyées à loic.barrault[at]univ-lemans.fr et fethi.bougares[at]univ-lemans.fr incluant :
- Un CV détaillé
- Les relevés de notes et classements de Master 1 et 2
- Une lettre de motivation pour le projet
Bibliographie
[Bahdanau et al. 2015] Dzmitry Bahdanau, Kyunghyun Cho and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. ICLR 2015.
[He et al. 2016 ] Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, Wei-Ying Ma, Dual Learning for Machine Translation. NIPS 2016
[Wu et al. 2017] Lijun Wu, Yingce Xia, Li Zhao, Fei Tian, Tao Qin, Jianhuang Lai, Tie-Yan Liu: