Supervision distante d’un système de transcription automatique de la parole

Encadrant(s): Antoine Laurent
Equipe d’accueil : LIUM – LST
Lieu : Le Mans
Contexte : Le stage s’inscrit dans le thème de la reconnaissance automatique de la parole. Il vise à contribuer au développement de systèmes entièrement neuronaux pour l’apprentissage de représentations de manière non supervisée.
Contact : Antoine.Laurent(at)univ-lemans.fr,

Sujet :

De grandes quantités de données annotées sont nécessaires pour le développement d’applications mettant en oeuvre des techniques d’IA.
Obtenir des données étiquetées est une opération qui nécessite l’intervention d’annotateurs humains et qui engendre des coûts importants, alors que les données non étiquetées sont abondantes et facilement accessibles. Des annotations partielles ou des metadonnées ne sont pas suffisantes pour construire des systèmes basés sur un apprentissage supervisé, mais peuvent apporter des informations très utiles pour superviser un système de manière distante.

L’objectif de ce projet est de repartir d’un toolkit (disponible sur le gitlab du LIUM) pour permettre l’apprentissage de représentations pour la parole et la reconnaissance d’écriture manuscrite, capable de séparer le contenu pertinent des autres propriétés (comme le locuteur/l’écrivain, la période historique, le bruit/l’arrière plan).
Le premier travail consistera à prendre en main le toolkit (développé en pytorch), dont l’architechiture est brièvement schématisé ci-dessous, et à travailler sur le Contrastive Predicting Coding [1] et le distribution matching [2].

Bibliographie :

[1] Oord, Aaron van den, Yazhe Li, and Oriol Vinyals. « Representation learning with contrastive predictive coding. » arXiv preprint arXiv:1807.03748 (2018).
[2] Yeh, C. K., Chen, J., Yu, C., & Yu, D. (2019). Unsupervised speech recognition via segmental empirical output distribution matching. ICLR 2019.