Corpus : Données pseudo-étiquetées de kurde central vers l’anglais pour la traduction de la parole (Données pseudo-étiquetées de kurde central vers l’anglais pour la traduction de la parole)

Licences : CC BY 4.0 license


Description

Dans ce dépôt, vous trouverez un ensemble de données pseudo-étiquetées à grande échelle, comprenant de l’audio en kurde central traduit en anglais. Ce jeu de données contient 1,7 million d’exemples, équivalant à 3 000 heures d’audio en kurde, extraites de livres audio et traduites en anglais à l’aide d’un pipeline combinant un système de reconnaissance vocale et un système de traduction automatique. Les échantillons ont été soumis à plusieurs filtres, tels que décrits dans l’article associé.

Ce jeu de données a été élaboré dans le cadre du projet COMMUTE.

Remarque : En raison de la taille du jeu de données, sa publication peut prendre un certain temps. Le lien de téléchargement sera partagé sur cette page dès qu’il sera disponible.