HDR, Anthony Larcher – Laboratoire d'Informatique de l'Université du Mans

Soutenance HDR, Anthony Larcher

Titre : Modèles acoustiques pour la reconnaissance du locuteur.

Composition du jury :

Monsieur BARRAS Claude, Maître de Conférences HDR à LIMSI, Paris
Monsieur GRAVIER Guillaume, Directeur de recherches à l’IRISA/CNRS, Rennes
Monsieur BONASTRE Jean-François, Professeur à l’Université d’Avignon et des Pays de Vaucluse
Monsieur JOUVET Denis, Directeur de recherches au CNRS, LORIA à Nancy
Monsieur MEIGNIER Sylvain, Professeur à l’Université du Mans

Résumé :

Depuis les années 1990, les progrès réalisés en reconnaissance du locuteur ont permis de développer des systèmes automatiques utilisables pour des applications qui ne nécessitent pas un niveau de sécurité critique. La robustesse des systèmes au bruit ambiant, au canal de transmission et au manque de données a été grandement améliorée.

Depuis 15 ans, mes recherches se placent dans le cadre de la vérification du locuteur la plus générique (indépendante du texte), mais surtout de sa version contrainte pour laquelle l’utilisateur doit prononcer un texte déterminé à l’avance : la vérification du locuteur dépendante du texte. La contrainte ergonomique imposée à l’utilisateur se justifie par les performances des technologies actuelles : dans le cas où les échantillons vocaux collectés sont de courte durée (quelques secondes), contraindre le texte prononcé permet d’améliorer grandement les performances en réduisant la variabilité entre l’échantillon de référence appelé échantillon d’enrôlement et l’échantillon à comparer, appelé échantillon de test. Mes travaux menés au Laboratoire d’Informatique d’Avignon (LIA), à l’Institute for Infocomm Research (I2R, A*STAR) et au Laboratoire d’Informatique de l’Université du Mans (LIUM) portent sur l’amélioration et l’optimisation des modélisations acoustiques pour la reconnaissance du locuteur. Ces travaux sont également en lien avec la reconnaissance de la langue, la reconnaissance de la parole adaptée au locuteur et la détection de parole ainsi que la segmentation et le regroupement en locuteurs.