Corpus ALLIES – Laboratoire d'Informatique de l'Université du Mans

janv. 29, 2024Emmanuelle BillardLogiciels/Corpus, ProductionsLST

Description

Le corpus ALLIES a été produit dans le cadre du projet européen CHIST-Era ALLIES. Le projet ALLIES a permis de mener une campagne d’évaluation de la diffusion d’informations à travers des systèmes de diarisation temporelle en utilisant des données françaises. Ce projet est une extension des campagnes d’évaluation ESTER, REPERE et ETAPE qui ont été menées pour la langue française dans ce domaine.

Ce corpus est basé sur le matériel utilisé pour les kits d’évaluation ESTER1&2 (incluant 128 fichiers d’EPAC), REPERE et ETAPE ainsi que de nouvelles données collectées depuis 2014 (voir le catalogue ELRA : http://catalogue.elra.info pour les kits respectifs). Le corpus ALLIES a été construit comme une extension des corpus produits précédemment. Il contient des annotations corrigées provenant des matériaux d’évaluation précédents ainsi que de nouvelles données audio avec les transcriptions correspondantes. Les corrections comprennent la correction des noms des locuteurs et la re-segmentation.

Les tâches de segmentation consistent en la segmentation en événements sonores, le suivi des locuteurs et la segmentation des locuteurs, détaillés comme suit :

Pour la segmentation en événements sonores, la tâche consiste à repérer les parties qui contiennent de la musique (avec ou sans parole) et les parties qui contiennent de la parole (avec ou sans musique).
La tâche de suivi du locuteur consiste à détecter les parties du document qui correspondent à un locuteur donné.
La segmentation en locuteurs consiste à segmenter le document en locuteurs et à regrouper les parties parlées par un même locuteur.

Contenu

Au total, le corpus ALLIES contient environ 900 heures d’émissions d’actualités, y compris des transcriptions orthographiques, des annotations sur le locuteur et une segmentation.

1176 fichiers WAV (environ 500 heures de parole)
1176 fichiers TRS (tours de parole et transcriptions orthographiques)
1 train/test partition

Train 545 + 128 files
DiarTest-SeenShows 181 fichiers avec des émissions déjà présentes dans la partition train
DiarTest-UnseenShows 286 fichiers avec des émissions non présentes dans la partition train
FullTest-CleanAnnot 35 fichiers vérifiés manuellement, avec des annotations sur la musique et le bruit.

Si vous utilisez ces donnée, merci de citer le papier suivant:
Marie Tahon, Anthony Larcher, Martin Lebourdais, Fethi Bougares, Ana Silnova, Pablo Gimeno. ALLIES: A Speech Corpus for Segmentation, Speaker Diarization Speech Recognition and Speaker Change Detection. In Proc. of LREC-Coling, Torino, Italy, 2024.

Lien de téléchargement via le catalogue ELRA :
https://catalog.elra.info/en-us/repository/browse/ELRA-S0486/

Annotation additionnelles et études associées

1 – Overlapped speech type and emotion annotations in ALLIES

Description

La détection des interruptions est une tâche nouvelle et difficile dans le domaine du traitement de la parole. Nous fournissons des annotations de parole chevauchée sur une sélection de données conversationnelles provenant d’ALLIES.
Cette sélection comprend 4000 segments dans lesquels au moins deux locuteurs sont présents. Les segments annotés couvrent 4 secondes avant le segment de chevauchement et 4 secondes après. Ce corpus constitue une ressource précieuse pour l’évaluation et l’amélioration des techniques de détection des interruptions.

Un premier système de base, qui utilise des méthodes de traitement de la parole pour identifier automatiquement les interruptions dans la parole, et son évaluation sont présentés dans l’article suivant. Nos résultats peuvent non seulement servir de base à d’autres recherches dans ce domaine, mais aussi fournir un point de référence pour évaluer les progrès futurs en matière de détection automatique des interruptions de la parole.

Contenu

Show name, start and stop times of 4000 segments
Split: to which subset belongs the segment (train/test)
Type of overlap (ovtype)
Emotion before (emoA) and after (emoB) the overlap segment
Dominance before (dominance) and after the overlap segment

Si vous utilisez ces données, merci de citer l’article suivant:
Martin Lebourdais, Marie Tahon, Antoine Laurent et Sylvain Meignier. Automatic Speech Interruption Detection: Analysis, Corpus, and System, In Proc. of LREC-COLING, Torino, Italy, 2024. Lien: https://hal.science/hal-04576488

Lien pour télécharger les données: lrec_2024_inter_annotations

Format du fichier CSV :
show,split,start,stop,ovtype1,ovtype2,ovtype3,emoA1,emoA2,emoA3,emoB1,emoB2,emoB3,emoC1,emoC2,emoC3,dominance1,dominance2,dominance3

2 – Transition-Relevance Places and Interruptions in ALLIES

Description

Peu de ressources vocales décrivent les phénomènes d’interruption, en particulier pour les contenus télévisuels et médiatiques. La description de ces phénomènes peut varier d’un auteur à l’autre : cela laisse donc la place à des protocoles d’annotation améliorés.

Nous fournissons des annotations sur les zones de transition et les types d’événements de prise de parole sur le sous-ensemble FullTest-CleanAnnot. 2041 segments audio ont été sélectionnés de manière à ce qu’il y ait un changement de locuteur au milieu. Ce changement de locuteur peut être dû à la présence ou non de paroles qui se chevauchent. Le premier intervalle commence au début d’un énoncé et se termine au changement de locuteur. Le dernier intervalle (deuxième ou troisième) commence après le changement de locuteur ou le chevauchement et se termine à la fin de l’énoncé suivant.

Chaque changement de locuteur est annoté par la présence ou l’absence d’un TRP (Term/NonTerm) et par une classification de la prise de parole du locuteur suivant (douce, backchannel, coopérative ou compétitive, interruption réussie ou tentée). Une analyse de l’accord entre évaluateurs montre que ces annotations ont une fiabilité moyenne à substantielle. Ces résultats soulignent l’importance des caractéristiques de bas niveau comme le TRP pour obtenir une classification des changements de tour qui serait moins sujette à interprétation. L’analyse de la présence de paroles qui se chevauchent met en évidence l’existence d’interruptions sans chevauchement et de transitions douces avec chevauchement.

Contenu

(X is the ID of the speakers 1 and 2, while Y is the ID of the interval 0,1 or 2)

fname: File name
tstart: Timecode (in seconds) of the start of the sample
tstop: Timecode (in seconds) of the end of the sample
spkX: Name of speaker X (X=0 or 1)
n_interval: Total number of intervals (2 or 3)
durY: Duration (in seconds) of interval Y (Y = first, last or ov) . If the number of intervals is 2, there is no overlapping speech and dur_ov=0
activity_Y_X: Does speaker X speaks in interval Y ? (True/False)
term_X_Y: Terminality classification of speaker X in interval Y (Term/NonTerm)
turntype_X_Y: Turn-Taking classification of speaker X in interval Y
comment: Comment made by the annotator (in French)
invalid: Classified as Invalid by the annotator (True/False)

Si vous utilisez ces données, merci de citer l’article suivant :
Rémi Uro, Marie Tahon, Jane Wottawa, David Doukhan, Albert Rillard, Antoine Laurent. Annotation of Transition-Relevance Places and Interruptions for the Description of Turn-Taking in Conversations in French Media Content, In Proc. of LREC-COLING, Torino, Italy, 2024.

Lien pour télécharger les données : lrec_2024_turn_taking_annotations_clean

Corpus : ALLIES (Corpus ALLIES)

Description

Contenu

Annotation additionnelles et études associées

1 – Overlapped speech type and emotion annotations in ALLIES

Description

Contenu

2 – Transition-Relevance Places and Interruptions in ALLIES

Description

Contenu