Logiciel : corpus COMMUTE-Kurdish (corpus COMMUTE-Kurdish)


Description

Dans le cadre du projet COMMUTE, 30 heures de données audio en langue kurde central ont été collectées, segmentées, transcrites, et traduites en anglais. L’objectif est de fournir un jeu de données de parole spontanée, polyvalent, pour le développement de technologies de traitement de la langue kurde écrite et parlée. Le jeu de données contient les annotations suivantes :

  • Segmentation manuelle : ces données permettent d’entraîner des modules automatiques de segmentation.
  • Identité du Locuteur : cette annotation rend le jeu de données adapté aux tâches liées au locuteur, telles que la diarisation et la vérification du locuteur.
  • Transcription kurde : les fichiers segmentés sont transcrits automatiquement par un système de reconnaissance vocale kurde développé au LIUM, Université du Mans, puis les transcriptions ont été manuellement révisées pour corriger les erreurs. L’alphabet utilisé est le XX. Cette annotation rend le jeu de données adapté à la reconnaissance automatique de la parole (ASR).
  • Traduction anglaise : les transcriptions kurdes sont traduites en anglais par des traducteurs professionnels natifs, ce qui rend le jeu de données adapté aux tâches de traduction parole-vers-texte, parole-vers parole et texte vers texte.

 

Le jeu de données provient de trois médias kurdes, avec l’autorisation des détenteurs des données.

  • train : 9h10min proviennent de Voice of America. Ce corpus concerne principalement les domaines politique et culturel. Une partie importante des enregistrements provient de canaux difficiles, tels que la téléphonie. Ce sous-ensemble comprend 19 podcasts et 4 951 segments,
  • dev : 9h16min proviennent de Kurdistan 24, comprenant 8 podcasts et 5 676 segments,
  • test : 11h9min proviennent du réseau médiatique Rudaw, comprenant 23 podcasts et 7 248 segments issus de divers domaines (économie, sport, art, science, etc.).

 

Download Data

The train, dev, and test parts of the Kurdish-Commute dataset can be downloaded from the following link.
https://lium.univ-lemans.fr/data-ext/iwslt2026/commute-kurdish-iwslt2026.zip

 

IWSLT 2026 challenge rules

  1. Complementary data
  2. The participants can use the provided resource for training any model in their proposed pipelines and solutions including ASR, TTS, S2TT, MT, LLM models.

  3. Libraries
  4. The Asosoft library including normalization, g2p, number conversion, etc for Central Kurdish can be used.

    Asosoft library https://pypi.org/project/asosoft/

  5. Evaluation protocol
    • BLEU and Chrf++ will be main evaluation metrics
    • A baseline Whisper model is trained giving the following results on the dev and test parts:

  6. Baseline model
  7. The baseline Whisper v3 model can be downloaded from the following link. The baseline model is fine-tuned on the train part of Kurdish-Commute dataset.

  8. Evaluation
  9. L’évaluation finale sera effectuée sur la base des scores BLEU et ChrF++ obtenus sur la partition test. Les transcriptions en kurde et en anglais de la partition dev ont déjà été communiquées aux participants afin qu’ils puissent évaluer les performances de leurs systèmes. Les transcriptions de la partition test seront communiquées ultérieurement. Le lien vers l’évaluation de l’ensemble de test sera communiqué ultérieurement dans cette section.

 

Dates importantes

Les deadlines seront les mêmes que celles de l’IWSLT..

 
Organisateurs:

  • Mohammad Mohammadamini, LIUM, Le Mans University, France
  • Marie Tahon, LIUM, Le Mans University, France
  • Antoine Laurent, PyannoteAI & LIUM, Le Mans University, France

Contact person:

Mohammad Mohammadamini: mohammad.mohammadamini(@)univ-lemans.fr