Système de Traduction Vocale – Langues Peu Dotées Vers Langues Riches

Niveau : Master 2

Encadrants: Aghilas Sini (LIUM), Mohammad Mohammadamini (LIUM)
Equipe d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM) . Le stage se déroulera en présentiel.
Lieu : Le Mans Université
Début du stage : Mars 2025
Contact : Aghilas Sini et Mohammad Mohammadamini (prénom.nom@univ-lemans.fr)

Candidature : Envoyer votre CV, une lettre de motivation adaptée au sujet proposé, possibilité de joindre un avis ou des lettres de recommandations. à l’ensemble des encadrants, avant le 15 novembre 2024

 
Objectif du stage :
Ce stage de Master 2 a pour objectif de concevoir un système de traduction vocale moderne. Les systèmes de traduction vocale traditionnels reposent sur des approches en cascade, incluant un système de reconnaissance vocale, un système de traduction, et un système de synthèse de parole. Cependant, ces approches présentent des inconvénients, notamment une accumulation d’erreurs entre les différents blocs de traitement.

Un des problèmes majeurs concerne les langues peu dotées, pour lesquelles les ressources textuelles nécessaires à la traduction (texte-vers-texte) sont limitées, voire inexistantes en quantité suffisante. Bien que des solutions existent, notamment en traduction parole-vers-texte, ces méthodes ne prennent pas en compte certains aspects de l’information, comme la prosodie.

La traduction de parole à parole (Speech-to-Speech Translation) en approche “end-to-end” (bout-en-bout) représente une solution prometteuse, en intégrant directement les informations de la langue source, sans passer par des étapes intermédiaires. L’objectif de ce stage est d’explorer ce type de traduction pourdes langues sous-dotées vers des langues richement dotées.
 
Langues source et cibles :

Langues sourcesLangues cibles
TamashaqFrançais
TasegwalitFrançais
KurdeAnglais
KabyleFrançais

 
Missions du stage :

Le/la candidat(e) sera amené(e) à :
– Constituer et analyser un corpus de données orales en fonction des langues étudiées.
– Mettre en place une architecture “end-to-end” (encoder-decoder) dédiée à la traduction vocale.
– Interpréter les métriques d’évaluation et optimiser les performances du système.
– Étudier les espaces de représentation pour la traduction de parole à parole.
– Établir un benchmark en comparant différents modèles et approches.

 
Environnement de travail :
Le/la stagiaire sera rattaché(e) à l’équipe Language and Speech Technology (LST) du Laboratoire Informatique de l’Université du Mans (LIUM), spécialisée dans le traitement automatique de la parole et du langage.
Le stage s’inscrit dans le cadre du projet TV2M-E, dont l’objectif est de développer un framework dédié à la traduction vocale multilingue et multimodale. Le/la stagiaire sera encadré(e) par :
– Aghilas Sini (aghilas.sini(at)univ-lemans.fr), Maître de conférences, expert en synthèse vocale expressive et identification vocale.
– Mohammad Mohammadamini (mohammad.mohammadamini(at)univ-lemans.fr), Postdoctorant, spécialiste en traduction automatique et reconnaissance automatique de la parole.
 
Profil recherché :
• Compétences en traitement automatique de la parole.
• Solides connaissances en programmation Python.
• Maîtrise des bibliothèques de deep learning (notamment PyTorch).
• Capacité à travailler de manière autonome et à proposer des solutions innovantes.
 
Références :

[1] – Barrault, L., Chung, Y. A., Meglioli, M. C., Dale, D., Dong, N., Dup- penthaler, M., … & Williamson, M. (2023). Seamless: Multilingual Expressive and Streaming Speech Translation. arXiv preprint arXiv:2312.05187.
[2] – Huang, Z., Ye, R., Ko, T., Dong, Q., Cheng, S., Wang, M., & Li, H. (2023). Speech translation with large language models: An industrial practice. arXiv preprint arXiv:2312.13585.
[3] – Lee, A., Chen, P. J., Wang, C., Gu, J., Popuri, S., Ma, X., … & Hsu, W. N. (2021). Direct speech-to-speech translation with discrete units. arXiv preprint arXiv:2107.05604.
[4] – Lee, A., Gong, H., Duquenne, P. A., Schwenk, H., Chen, P. J., Wang, C., … & Hsu, W. N. (2021). Textless speech-to-speech translation on real data. arXiv preprint arXiv:2112.08352.