Corpus: PASTEL (Corpus PASTEL)


Le corpus PASTEL consiste en une collection de cours de différents domaines informatique (traitement automatique des langues, introduction à l’informatique, etc) en première année de licence d’informatique à l’Université de Nantes. Il est constitué de cours qui proviennent de deux sources : le projet COCo (Comin Open Courseware) et la plateforme Canal-U.
Ce corpus a été créé dans le cadre du projet ANR PASTEL. Le corpus contient le discours de l’enseignant, les supports de présentation du cours (diapositives) et la vidéo. Il s’accompagne d’informations annotées manuellement par des experts humains, à savoir une segmentation thématique des cours, une annotation en expressions clés (à partir des diapositives et à partir de la transcription manuelle), et enfin un alignement des diapositives avec la vidéo.

Salima Mdhaffar, Yannick Estève, Antoine Laurent, Nicolas Hernandez, Delphine Charlet, Géraldine Damnati, Solen Quiniou et Nathalie Camelin (2020). « A Multimodal Educational Corpus of Oral Courses : Annotation, Analysis and Case Study ». In : LREC