Corpus : Kurdish TED (KUTED)

Licences : CreativeCommons Attribution NonCommercial-ShareAlike 4.0 International License.
URL : https://huggingface.co/datasets/aranemini/kurdishted


Description

Kurdish TED (KUTED) est le premier jeu de données de traduction de la parole en texte (S2TT) pour la langue kurde centrale (CKB) dérivé des TED et TEDx. Le corpus se compose de 91 000 paires, 170 heures d’audio en anglais, 1,65 million de tokens en anglais et 1,40 million de tokens en kurde central. Cet ensemble de données est évalué sur des tâches de parole E2E S2TT, S2TT en cascade et T2TT.

 

KUTED peut être utilisé pour les tâches suivantes :

  • Traduction de la parole en texte (EN->CKB)
  • Traduction de la parole en parole (EN->CKB)
  • Traduction de texte en texte (EN->CKB et CKB->EN)
  • Reconnaissance vocale automatique (EN)

 

Les participants :

  • Aran Emini (LIUM, Université du Mans)
  • Antoine Laurent (LIUM, Université du Mans)
  • Josep Crego (Systran, Paris, France)
  • Daban Jaaf (Université d’Erfurt, Allemagne)