Florent Desnous – Laboratoire d'Informatique de l'Université du Mans

L’objectif de cette thèse est de développer des modèles de locuteur à contexte variable (scalables) qui intègrent l’information phonétique produite par le locuteur. Ces modèles seront appris sur une quantité significative de données d’enrôlement (>30s) et s’adapteront aux données de tests pour garantir la meilleure comparaison possible en fonction du contexte phonétique reconnu dans l’échantillon de test. Ces modèles permettront d’améliorer les performances des systèmes de reconnaissance et d’élargir le cadre applicatif de la reconnaissance du locuteur.

La modélisation acoustique pour des échantillons de courte durée a un intérêt immédiat pour la segmentation en locuteur. Les modèles développés seront également évalués pour cette tâche.

De tels modèles pourraient être étendus pour prendre en compte différent environnements acoustiques, langues parlées ou encore modéliser un même locuteur dans différents contextes de production vocale (effet Lombard ou chuchotement).

Modélisation à contexte variable pour la reconnaissance du locuteur