Traduction Vocale Multilingue Multimodale — Expressive (TV2M-E)

Date : 06/2024 - 06/2026
Financement : Région Pays de la Loire
Appel : PULSAR
URL : https://lium.univ-lemans.fr/tv2m-e/


LIUM Participant(s) :
User PicAghilas Sini

Résumé
Un locuteur bilingue ou polyglotte possède la capacité de communiquer de manière cohérente dans plusieurs langues, s’adaptant aux différents contextes. Transposer cette compétence aux machines pourrait contribuer à la préservation du patrimoine culturel en maintenant les langues moins privilégiées, faciliter les interactions entre personnes de cultures et langues diverses, et renforcer les mesures de sécurité.

La traduction vocale expressive multimodale et multilingue est un domaine de recherche actuel, couvrant divers aspects du traitement automatique du langage et de la parole. Traditionnellement, les domaines tels que la traduction automatique, la reconnaissance vocale et la synthèse vocale étaient abordés séparément, mais les approches neuronales fusionnent ces processus, réduisant ainsi les erreurs. Cependant, l’apprentissage de ces architectures nécessite d’énormes quantités de données et une infrastructure de calcul spécifique, comme les GPU ou TPU.

L’émergence de modèles tels que BERT et GPT-3 a considérablement amélioré les systèmes de génération, de reconnaissance et de compréhension automatique du langage. Les modèles de langage Transformers génératifs ouvrent de nouvelles perspectives, marquant une évolution significative dans le domaine du traitement automatique du langage.

Des projets open source similaires, tels que BLOOM et MEGATRAN, sont en cours de développement. Une nouvelle génération de modèles neuronaux multimodaux et multilingues, comme Data2Vec, SpeechT5, mSLAM, UNIMO et VATLM, vise à créer un cadre d’apprentissage unifié pour le texte et la parole. Le pré-entraînement multimodal ouvre des possibilités de recherche prometteuses, notamment dans la traduction vocale, la traduction inter-modale et d’autres aspects tels que la reconnaissance et la génération de données multimodales.

Dans le cadre de mes travaux de recherche, je souhaite explorer ces paradigmes pour améliorer les algorithmes de traduction vocale expressive. L’objectif est de développer des capacités de traduction qui prennent en compte non seulement le contenu linguistique, mais aussi l’expressivité des énoncés source, offrant ainsi une traduction plus fidèle et complète vers la langue cible.