Corpus : ALLIES (Corpus ALLIES)
Auteur(s) : |
Auteur(s) : |
Le corpus ALLIES a été produit dans le cadre du projet européen CHIST-Era ALLIES. Le projet ALLIES a permis de mener une campagne d’évaluation de la diffusion d’informations à travers des systèmes de diarisation temporelle en utilisant des données françaises. Ce projet est une extension des campagnes d’évaluation ESTER, REPERE et ETAPE qui ont été menées pour la langue française dans ce domaine.
Ce corpus est basé sur le matériel utilisé pour les kits d’évaluation ESTER1&2 (incluant 128 fichiers d’EPAC), REPERE et ETAPE ainsi que de nouvelles données collectées depuis 2014 (voir le catalogue ELRA : http://catalogue.elra.info pour les kits respectifs). Le corpus ALLIES a été construit comme une extension des corpus produits précédemment. Il contient des annotations corrigées provenant des matériaux d’évaluation précédents ainsi que de nouvelles données audio avec les transcriptions correspondantes. Les corrections comprennent la correction des noms des locuteurs et la re-segmentation.
Les tâches de segmentation consistent en la segmentation en événements sonores, le suivi des locuteurs et la segmentation des locuteurs, détaillés comme suit :
Au total, le corpus ALLIES contient environ 900 heures d’émissions d’actualités, y compris des transcriptions orthographiques, des annotations sur le locuteur et une segmentation.
Si vous utilisez ces donnée, merci de citer le papier suivant:
Marie Tahon, Anthony Larcher, Martin Lebourdais, Fethi Bougares, Ana Silnova, Pablo Gimeno. ALLIES: A Speech Corpus for Segmentation, Speaker Diarization Speech Recognition and Speaker Change Detection. In Proc. of LREC-Coling, Torino, Italy, 2024.
Lien de téléchargement via le catalogue ELRA :
https://catalog.elra.info/en-us/repository/browse/ELRA-S0486/
Si vous utilisez ces données, merci de citer l’article suivant:
Martin Lebourdais, Marie Tahon, Antoine Laurent et Sylvain Meignier. Automatic Speech Interruption Detection: Analysis, Corpus, and System, In Proc. of LREC-COLING, Torino, Italy, 2024. Lien: https://hal.science/hal-04576488
Lien pour télécharger les données: lrec_2024_inter_annotations
Format du fichier CSV :
show,split,start,stop,ovtype1,ovtype2,ovtype3,emoA1,emoA2,emoA3,emoB1,emoB2,emoB3,emoC1,emoC2,emoC3,dominance1,dominance2,dominance3
(X is the ID of the speakers 1 and 2, while Y is the ID of the interval 0,1 or 2)
Si vous utilisez ces données, merci de citer l’article suivant :
Rémi Uro, Marie Tahon, Jane Wottawa, David Doukhan, Albert Rillard, Antoine Laurent. Annotation of Transition-Relevance Places and Interruptions for the Description of Turn-Taking in Conversations in French Media Content, In Proc. of LREC-COLING, Torino, Italy, 2024.
Lien pour télécharger les données : lrec_2024_turn_taking_annotations_clean