Speaker recognition on large scale in audiovisual media, in interaction with human annotator
Starting: 03/10/2016
PhD Student: Pierre-Alexandre Broux
Advisor(s): Sylvain Meignier (LIUM - LST)
Co-advisor(s): David Doukhan, Simon Petitrenaud (LIUM - LST) & Jean Carrive (INA Expert)
Funding: CIFRE (ina EXPERT)
La thèse proposée s’articulera autour de la reconnaissance de locuteurs à large échelle dans les archives radio et télévisuelles de l’INA (Institut National de l’Audiovisuel), qui dispose d’une quantité impressionnante de documents. L’annotation manuelle de ces documents représente une source d’information précieuse pour l’exploitation et la commercialisation de ces données, mais nécessite un temps de travail considérable. Les annotations permettent d’enrichir les documents en décrivant notamment l’identité des locuteurs, au fil du document, ou les thèmes abordés. Les objectifs sont alors de tirer partie de ces annotations pour améliorer la reconnaissance des locuteurs, en interrogeant ponctuellement le ou les annotateur(s), afin de confirmer les informations produites par des systèmes de reconnaissance et d’extrapoler éventuellement ces informations à d’autres périodes du document. Ce travail permettra d’aider à la reconnaissance des intervenants dans de grandes quantités de documents. Pour cela une analyse des caractéristiques des différents locuteurs présents dans les documents archivés sera réalisée. Il s’agira de mettre en œuvre des méthodes et outils d’analyse des supports radio et télévisuels pour détecter et suivre les prises de parole des intervenants présents dans l’archive, en s’appuyant notamment sur des requêtes ponctuelles posées à l’annotateur, qui guideront progressivement la reconnaissance tout au long du document. Les méthodes d’apprentissage semi-supervisées et plus spécifiquement d’« active learning » seront particulièrement adaptées à ces objectifs.