Corpus : Segmentation Thématique (FrNewsLink)

URL : https://hal.archives-ouvertes.fr/hal-01741177

Le package FrNewsLink comprend un ensemble de ressources permettant d’évaluer des tâches de segmentation thématique et titrage sur un corpus varié de journaux télévisés français. En raison de droits de diffusions, ce package ne contient ni les vidéos, ni les audios des journaux télévisés.

Le corpus propose à la fois des transcriptions automatiques de journaux télévisés et des articles de presses issus du web, le tout collecté durant la même période de temps afin que journaux et articles traitent des mêmes sujets d’actualités.

Les ressources de FrNewsLink s’appuient sur 86 journaux télévisés enregistrés durant la 7e semaine de 2014 (du 10 au 16 février) et 26 journaux enregistrés les 26 et 27 janvier 2015. La première période sera référencée par W07_14 et la seconde W05_15.

Ces journaux proviennent de 8 chaines différentes, avec un total de 14 émissions différentes puisque certaines chaines proposent plusieurs journaux dans la journée.

Ainsi on retrouvera, selon les jours, les émissions suivantes :

– Arte : Le journal
– D8 : Le JT
– Euronews
– France 2, les journaux de : 7h, 8h, 13h, 20h
– France 3 : Le 12-13, Le 19-20
– M6 : Le 12-45, Le 19-45
– NT1 : Les infos
– TF1, les journaux de : 13h, 20h

Durant la même période les articles parus sur la page principale de Google News ont été aspirés dans notre base de données toutes les heures. Ainsi, 28 709 entrées ont été saisies avec en moyenne 2,7k articles par jour. Plusieurs articles restent plus d’une heure sur le site et sont donc enregistrés plusieurs fois dans notre base. Lorsque l’on écarte les articles doublons, 22 141 articles sont restants.

Google News présente ses articles sous forme de “clusters thématiques” avec un article principal mis en avant pour chacun des clusters. Seuls ces articles principaux, environ 590 par jour, ont été considérés pour notre titrage thématique.

 

Le package FrNewsLink : [Télécharger ici]

README_FR.txt