Corpus : Kurdish TED (KUTED)
Licences : CreativeCommons Attribution NonCommercial-ShareAlike 4.0 International License.
URL : https://huggingface.co/datasets/aranemini/kurdishted
Auteur(s) : |
Licences : CreativeCommons Attribution NonCommercial-ShareAlike 4.0 International License.
URL : https://huggingface.co/datasets/aranemini/kurdishted
Auteur(s) : |
Kurdish TED (KUTED) est le premier jeu de données de traduction de la parole en texte (S2TT) pour la langue kurde centrale (CKB) dérivé des TED et TEDx. Le corpus se compose de 91 000 paires, 170 heures d’audio en anglais, 1,65 million de tokens en anglais et 1,40 million de tokens en kurde central. Cet ensemble de données est évalué sur des tâches de parole E2E S2TT, S2TT en cascade et T2TT.
KUTED peut être utilisé pour les tâches suivantes :
Les participants :