Système de traduction de la parole end-to-end

 

Encadrant(s): Loïc Barrault, Antoine Laurent
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contact : Loic.Barrault(at)univ-lemans.fr, Antoine.Laurent(at)univ-lemans.fr

 

Contexte du stage : Le stage se déroulera au LIUM, au Mans, dans l’équipe LST. Il s’inscrit dans le thème de la traduction automatique de la parole. L’objectif est de développer un système end-to-end (du signal dans une langue source vers sa traduction textuelle en langue cible). Ce projet se déroulera dans le cadre d’une collaboration avec Systran et pourra éventuellement déboucher sur une thèse CIFRE.

 

Sujet du stage : Pour la reconnaissance automatique de la parole (RAP) ou pour la traduction automatique (TA), de nouveaux systèmes émergent qui s’appuient sur une architecture neuronale de type « encodeur-décodeur». Dans cette architecture une séquence de symboles (par exemple des mots) ou de valeurs numériques (par exemple des paramètres acoustiques) présentée en entrée est projetée dans un espace continu de faible dimension et la séquence de sortie est générée à partir de cette représentation. Ce type d’architecture a été proposé pour la traduction automatique de texte [Bah15] et pour la transcription automatique de la parole [Cho15] [Zwe16].

Plusieurs tentatives visant à traduire directement un signal de parole en langue source vers un texte en langue cible dont [Duo16] mais les auteurs se concentrent sur l’alignement entre les énoncés de parole et leur traduction textuelle sans proposer une tâche de traduction end-to-end complète. Les mêmes auteurs [Ana16] proposent également d’utiliser conjointement les modèles IBM de traduction (IBM Model 2) et l’alignement dynamique de signaux (DTW) pour aligner de la parole source et du texte cible, mais encore une fois, seules les performances d’alignement sont mesurées dans ces travaux. [Ber16] a proposé une preuve de concept pour la traduction de la parole directe, sans pour autant dépasser les performances d’un système enchaînant RAP et TA. [Wei17][Ana18][Jia19] ont montré que l’utilisation de données non-supervisées permettent d’améliorer grandement les performances (et parfois de dépasser le système en cascade).

Le candidat devra tout d’abord prendre en main le système offline développé dans le cadre du projet ON-TRAC pour la campagne d’évaluation IWSLT 2020 [Elbayad2020] puis plusieurs pistes pourront être explorées :

  • ajouter un second décodeur pour que le système produise la traduction en langue cible, mais également une transcription automatique de la parole de la langue source,
  • réaliser un système online (en flux), ou tout du moins contraindre le système offline à ne pas utiliser la transcription complète pour en produire sa traduction,
  • faire en sorte que le modèle de traduction de la parole soit multi-lingue en le conditionnant avec la langue source et la langue cible visée.

Bibliographie

  • [Ana16] A. Anastasopoulos, D. Chiang, and L. Duong. An Unsupervised Probability Model for Speech-to- Translation Alignment of Low-Resource Languages. arXiv preprint arXiv:1609.08139, 2016.
  • [Ana18] A. Anastasopoulos and D. Chiang (2018). Tied multitask learning for neural speech translation, in Proc. NAACL-HLT’2018
  • [Bah15] D. Bahdanau, K. Cho, and Y. Bengio (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR 2015, pages 3104–3112, San Diego, California, USA.
  • [Ber16] A. Berard, O. Pietquin, C. Servan, and L. Besacier. Listen and translate: A proof of concept for end- to- end speech-to-text translation. In NIPS Workshop on End-to-end Learning for Speech and Audio Processing, Barcelona, Spain, December 2016.
  • [Cho15] J.K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio (2015). Attention-Based Models for Speech Recognition. In NIPS 2015, pages 577–585, Montréal, Canada.
  • [Duo16] L. Duong, A. Anastasopoulos, D. Chiang, S. Bird, T. Cohn (2016), “An Attentional Model for Speech Translation Without Transcription”, Proceedings of the NAACL-HLT’2016
  • [Elbayad2020] M. Elbayad, H. Nguyen, F. Bougares, N. Tomashenko, A. Caubrière, B. Lecouteux, Y. Estève, L. Besacier (2020), ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020, IWSLT 2020.
  • [Jia19] Y. Jia, R. J. Weiss, F. Biadsy, W. Macherey, M. Johnson, Z. Chen, Y. Wu (2019). Direct speech-to- speech translation with a sequence-to-sequence model. In Interspeech’2019
  • [Wei17] R. J. Weiss, J. Chorowski, N. Jaitly, Y. Wu, and Z. Chen (2017). Sequence-to-sequence models can directly translate foreign speech, in Proc. Interspeech’2017.
  • [Zwe16] G Zweig, C Yu, J Droppo, and A Stolcke. Advances in All-Neural Speech Recognition. In ICASSP’16