Logiciel : corpus COMMUTE-Kurdish (corpus COMMUTE-Kurdish)
Auteur(s) : | Mohammad Mohammadamini | Marie Tahon | Antoine Laurent |

Auteur(s) : | Mohammad Mohammadamini | Marie Tahon | Antoine Laurent |
Dans le cadre du projet COMMUTE, 30 heures de données audio en langue kurde central ont été collectées, segmentées, transcrites, et traduites en anglais. L’objectif est de fournir un jeu de données de parole spontanée, polyvalent, pour le développement de technologies de traitement de la langue kurde écrite et parlée. Le jeu de données contient les annotations suivantes :
Le jeu de données provient de trois médias kurdes, avec l’autorisation des détenteurs des données.
The train, dev, and test parts of the Kurdish-Commute dataset can be downloaded from the following link.
https://lium.univ-lemans.fr/data-ext/iwslt2026/commute-kurdish-iwslt2026.zip
The participants can use the provided resource for training any model in their proposed pipelines and solutions including ASR, TTS, S2TT, MT, LLM models.
The Asosoft library including normalization, g2p, number conversion, etc for Central Kurdish can be used.
Asosoft library https://pypi.org/project/asosoft/
The baseline Whisper v3 model can be downloaded from the following link. The baseline model is fine-tuned on the train part of Kurdish-Commute dataset.
L’évaluation finale sera effectuée sur la base des scores BLEU et ChrF++ obtenus sur la partition test. Les transcriptions en kurde et en anglais de la partition dev ont déjà été communiquées aux participants afin qu’ils puissent évaluer les performances de leurs systèmes. Les transcriptions de la partition test seront communiquées ultérieurement. Le lien vers l’évaluation de l’ensemble de test sera communiqué ultérieurement dans cette section.
Les deadlines seront les mêmes que celles de l’IWSLT..
Organisateurs:
Mohammad Mohammadamini: mohammad.mohammadamini(@)univ-lemans.fr
