Corpus : ALLIES (Corpus ALLIES)


    Le corpus ALLIES a été produit dans le cadre du projet européen CHIST-Era ALLIES. Le projet ALLIES a permis de mener une campagne d’évaluation de la diffusion d’informations à travers des systèmes de diarisation temporelle en utilisant des données françaises. Ce projet est une extension des campagnes d’évaluation ESTER, REPERE et ETAPE qui ont été menées pour la langue française dans ce domaine.

    Ce corpus est basé sur le matériel utilisé pour les kits d’évaluation ESTER1&2 (incluant 128 fichiers d’EPAC), REPERE et ETAPE ainsi que de nouvelles données collectées depuis 2014 (voir le catalogue ELRA : http://catalogue.elra.info pour les kits respectifs). Le corpus ALLIES a été construit comme une extension des corpus produits précédemment. Il contient des annotations corrigées provenant des matériaux d’évaluation précédents ainsi que de nouvelles données audio avec les transcriptions correspondantes. Les corrections comprennent la correction des noms des locuteurs et la re-segmentation.

    Les tâches de segmentation consistent en la segmentation en événements sonores, le suivi des locuteurs et la segmentation des locuteurs, détaillés comme suit :

    • Pour la segmentation en événements sonores, la tâche consiste à repérer les parties qui contiennent de la musique (avec ou sans parole) et les parties qui contiennent de la parole (avec ou sans musique).
    • La tâche de suivi du locuteur consiste à détecter les parties du document qui correspondent à un locuteur donné.
    • La segmentation en locuteurs consiste à segmenter le document en locuteurs et à regrouper les parties parlées par un même locuteur.

     
    Contenu

    • 1176 fichiers WAV (environ 500 heures de parole)
    • 1176 fichiers TRS (tours de parole et transcriptions orthographiques)
    • 1 train/test partition
      • Train 545 + 128 files
      • DiarTest-SeenShows 181 fichiers avec des émissions déjà présentes dans la partition train
      • DiarTest-UnseenShows 286 fichiers avec des émissions non présentes dans la partition train
      • FullTest-CleanAnnot 35 fichiers vérifiés manuellement, avec des annotations sur la musique et le bruit.

     

    Au total, le corpus ALLIES contient environ 900 heures d’émissions d’actualités, y compris des transcriptions orthographiques, des annotations sur le locuteur et une segmentation.

    https://www.islrn.org/resources/397-116-696-859-2/