corpus COMMUTE-Kurdish – Laboratoire d'Informatique de l'Université du Mans

janv. 26, 2026Emmanuelle BillardLogiciels/Corpus, ProductionsLST

Description

Dans le cadre du projet COMMUTE, 30 heures de données audio en langue kurde central ont été collectées, segmentées, transcrites, et traduites en anglais. L’objectif est de fournir un jeu de données de parole spontanée, polyvalent, pour le développement de technologies de traitement de la langue kurde écrite et parlée. Le jeu de données contient les annotations suivantes :

Segmentation manuelle : ces données permettent d’entraîner des modules automatiques de segmentation.
Identité du Locuteur : cette annotation rend le jeu de données adapté aux tâches liées au locuteur, telles que la diarisation et la vérification du locuteur.
Transcription kurde : les fichiers segmentés sont transcrits automatiquement par un système de reconnaissance vocale kurde développé au LIUM, Université du Mans, puis les transcriptions ont été manuellement révisées pour corriger les erreurs. L’alphabet utilisé est le XX. Cette annotation rend le jeu de données adapté à la reconnaissance automatique de la parole (ASR).
Traduction anglaise : les transcriptions kurdes sont traduites en anglais par des traducteurs professionnels natifs, ce qui rend le jeu de données adapté aux tâches de traduction parole-vers-texte, parole-vers parole et texte vers texte.

Le jeu de données provient de trois médias kurdes, avec l’autorisation des détenteurs des données.

train : 9h10min proviennent de Voice of America. Ce corpus concerne principalement les domaines politique et culturel. Une partie importante des enregistrements provient de canaux difficiles, tels que la téléphonie. Ce sous-ensemble comprend 19 podcasts et 4 951 segments,
dev : 9h16min proviennent de Kurdistan 24, comprenant 8 podcasts et 5 676 segments,
test : 11h9min proviennent du réseau médiatique Rudaw, comprenant 23 podcasts et 7 248 segments issus de divers domaines (économie, sport, art, science, etc.).

Download Data

The train, dev, and test parts of the Kurdish-Commute dataset can be downloaded from the following link.
https://lium.univ-lemans.fr/data-ext/iwslt2026/commute-kurdish-iwslt2026.zip

IWSLT 2026 challenge rules

Complementary data

Common Voice: All parts of Common Voice are allowed to be used.
Dataset: https://datacollective.mozillafoundation.org/datasets/cmj8u3oxx004lnxxbfr04zvrt
Giganet TTS : 10 hours of TTS data from one male speaker.
Dataset: https://huggingface.co/datasets/TTS4ALL/Kurdish_TTS
Documentation: https://www.sciencedirect.com/science/article/pii/S2352340924007194
Asosoft Text Corpus:
Dataset: https://github.com/AsoSoft/AsoSoft-Text-Corpus,
Documentation: https://doi.org/10.1093/llc/fqy074

The participants can use the provided resource for training any model in their proposed pipelines and solutions including ASR, TTS, S2TT, MT, LLM models.

Libraries

The Asosoft library including normalization, g2p, number conversion, etc for Central Kurdish can be used.

Asosoft library https://pypi.org/project/asosoft/

Evaluation protocol

BLEU and Chrf++ will be main evaluation metrics
A baseline Whisper model is trained giving the following results on the dev and test parts:

Baseline model

The baseline Whisper v3 model can be downloaded from the following link. The baseline model is fine-tuned on the train part of Kurdish-Commute dataset.

Evaluation

L’évaluation finale sera effectuée sur la base des scores BLEU et ChrF++ obtenus sur la partition test. Les transcriptions en kurde et en anglais de la partition dev ont déjà été communiquées aux participants afin qu’ils puissent évaluer les performances de leurs systèmes. Les transcriptions de la partition test seront communiquées ultérieurement. Le lien vers l’évaluation de l’ensemble de test sera communiqué ultérieurement dans cette section.

Dates importantes

Les deadlines seront les mêmes que celles de l’IWSLT..

Organisateurs:

Mohammad Mohammadamini, LIUM, Le Mans University, France
Marie Tahon, LIUM, Le Mans University, France
Antoine Laurent, PyannoteAI & LIUM, Le Mans University, France

Contact person:

Mohammad Mohammadamini: mohammad.mohammadamini(@)univ-lemans.fr

Logiciel : corpus COMMUTE-Kurdish (corpus COMMUTE-Kurdish)

Description

Download Data

IWSLT 2026 challenge rules

Dates importantes

Contact person: