Traduction multilingue de la parole sous contraintes de ressources

Encadrant(e)s: Antoine Laurent, Professeur des Universités
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contact : Antoine.Laurent(at)univ-lemans.fr

 

Contexte : Ce travail de postdoc s’inscrit dans le domaine du traitement automatique des langues (TAL) et plus particulièrement de la traduction automatique de la parole sous contraintes de ressources dans le cadre d’un projet DGA Rapid avec la société SYSTRAN.

 

Objectifs : Les objectifs de ce postdoc sont multiples.

Des approches récentes d’apprentissage de représentations auto-supersivées telles que Wav2Vec-2.0 [Baevski et al., 2020] et beaucoup d’autres [Chung and Glass, 2020, Khurana et al., 2020, Conneau et al., 2020, Hsu et al., 2021, Babu et al., 2021, Chen et al., 2021, Chung et al., 2021, Bapna et al., 2022] permettent d’obtenir des résultats à l’état de l’art sur plusieurs tâches en langage parlé. Il s’agit de gros modèles basés sur des transformers, entrainés sur d’énorme quantités de données audio non étiquetées, puis affinés sur des données spécifiques à la tâche. Ces modèles s’intéressent principalement à la représentation au niveau acoustique du signal, c’est-à-dire pour de courts segments de parole d’une durée de 10 à 20 millisecondes. Ils ne cherchent pas à capture d’information sémantique, pourtant nécessaire pour les tâches telles que la traduction multilingue.

L’un des objectifs de ce travail est de pouvoir encoder de l’information à la fois sémantique et phonétique, de manière multi-lingue, pour pouvoir réaliser la tâche de traduction de la parole. L’idée derrière l’utilisation d’un seul modèle est de pouvoir bénéficier d’un modèle robuste, qui pourra fonctionner dans un scénario où peu de ressources annotées existent pour une langue donnée.
Le postdoc participera aux campagnes d’évaluation du domaine, et ses travaux seront intégrés dans un démonstrateur.

 
Organisation prévisionnelle des travaux de recherche :

Le travail sera réalisé au LIUM. Le postdoc aura accès aux serveurs du laboratoire pour effectuer ses recherches. Le salaire sera d’environ 42000C brut / an, pour une durée de 1 an renouvelable 1 fois.

 
Candidature:

Envoyer CV et lettre de motivation à Antoine Laurent (Antoine.Laurent(at)univ-lemans.fr)

 
Références

  • [Babu et al., 2021] Babu, A., Wang, C., Tjandra, A., Lakhotia, K., Xu, Q., Goyal, N., Singh, K., von Platen, P., Saraf, Y., Pino, J., Baevski, A., Conneau, A., and Auli, M. (2021). Xls-r: Self-supervised cross-lingual speech representation learning at scale.
  • [Baevski et al., 2020] Baevski, A., Zhou, Y., Mohamed, A., and Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33:12449–12460.
  • [Bapna et al., 2022] Bapna, A., Cherry, C., Zhang, Y., Jia, Y., Johnson, M., Cheng, Y., Khanuja, S., Riesa, J., and Conneau, A. (2022). mslam: Massively multilingual joint pre-training for speech and text. arXiv preprint arXiv:2202.01374.
  • [Chen et al., 2021] Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., et al. (2021). Wavlm: Large-scale self-supervised pre-training for full stack speech processing. arXiv preprint arXiv:2110.13900.
  • [Chung and Glass, 2020] Chung, Y.-A. and Glass, J. (2020). Generative pre-training for speech with autoregressive predictive coding. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 3497–3501. IEEE.
  • [Chung et al., 2021] Chung, Y.-A., Zhang, Y., Han, W., Chiu, C.-C., Qin, J., Pang, R., and Wu, Y. (2021). W2v-bert: Combining contrastive learning and masked language modeling for self-supervised speech pre- training.
  • [Conneau et al., 2020] Conneau, A., Baevski, A., Collobert, R., Mohamed, A., and Auli, M. (2020). Unsupervised cross-lingual representation learning for speech recognition.
  • [Hsu et al., 2021] Hsu, W.-N., Bolte, B., Tsai, Y.-H. H., Lakhotia, K., Salakhutdinov, R., and Mohamed, A. (2021). Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29:3451–3460.
  • [Khurana et al., 2020] Khurana, S., Laurent, A., Hsu, W.-N., Chorowski, J., Lancucki, A., Marxer, R., and Glass, J. (2020). A convolutional deep markov model for unsupervised speech representation learning.