Traduction multilingue de la parole sous contraintes de ressources

Débuté le : 01/11/2022
Doctorant : Hugo Riguidel
Directeur(s) de Thèse : Antoine Laurent (LIUM)
Co-encadrant(s) de Thèse : Anthony Larcher (LIUM), Josep Crego (Systran)
Financement : CIFRE - ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation

Contexte

Ce travail de thèse s’inscrit dans le domaine du traitement automatique des langues (TAL) et plus particulièrement de la traduction automatique de la parole. L’utilité de la traduction automatique pour la communauté n’est plus à démontrer : permettre aux citoyens de pouvoir dialoguer tout en parlant dans sa langue natale est un moyen de faciliter les interactions entre les humains.

Objectifs

L’objet de recherche de la thèse est la traduction automatique multilingue de la parole sous contraintes de ressources. Il a pour objectif de proposer des stratégies pour la traduction et la transcription de langues pouvant disposer de peu de données annotées en utilisant à la fois les informations phonétiques et sémantiques d’autres langues disposant de plus de ressources. L’un des attendus de la thèse consiste également à montrer l’intérêt d’utiliser un seul modèle pour résoudre la tâche complète par rapport à l’utilisation de modèles en cascade. L’idée derrière l’utilisation d’un seul modèle est de pouvoir bénéficier d’un modèle robuste, qui pourra fonctionner dans un scénario où peu de ressources annotées existent pour une langue donnée.

Le travail se fera en collaboration avec un ingénieur de recherche dont l’un des objectifs sera d’intégrer les travaux dans un démonstrateur de type visio-conférence. Dans sa version finale, le modèle devrait pouvoir être utilisé en direct (streaming). Un intérêt sera donc porté sur la taille de ce dernier.