Soutenance de l’Habilitation à Diriger des Recherches, Marie Tahon
Date : 23/01/2023
Heure : 14h00
Lieu : IC2, amphithéâtre
Titre : Traitement automatique de la parole expressive : retour vers des systèmes interprétables ?
Composition du jury
- Corinne FREDOUILLE, Professeure des Universités – Université d’Avignon, Rapporteure
- Damien LOLIVE, Professeur des Universités – ENSSAT/Université de Rennes 1, Rapporteur
- Emmanuel VINCENT, Directeur de Recherche – INRIA, LORIA, Rapporteur
- Yannick ESTÈVE, Professeur des Universités – Université d’Avignon
- Anthony LARCHER, Professeur des Universités – Université du Mans
- Sylvain MEIGNIER, Professeur des Universités – Université du Mans
Résumé des travaux
La parole est un moyen de communication fondamental qui s’inscrit dans une interaction entre le locuteur et ses auditeurs. En plus du contenu sémantique, le signal de parole nous informe sur des caractéristiques personnelles du locuteur comme son âge, son genre ou son état émotionnel. L’étude de la parole expressive est un champ de recherche pluridisciplinaire allant de la production acoustique de la parole aux mécanismes cognitifs mis en jeu par le locuteur pendant l’interaction pour exprimer sa pensée.
Depuis le début de mes travaux de recherche en 2009, j’ai cherché à expliciter ce qu’on appelle parole expressive en réalisant des aller-retours entre les méthodes d’apprentissage automatique statistiques ou neuronales considérés comme des boîtes noires peu interprétables mais performantes, et l’analyse du phénomène expressif à l’aide d’éléments acoustiques et linguistiques. Mon objectif est d’étudier comment et en quoi les systèmes de traitement automatique peuvent apporter des connaissances sur les différents mécanismes acoustique, cognitif et d’interaction qui induisent la production d’une parole expressive. Ces travaux impliquent de combiner des méthodes d’apprentissage automatique et une analyse fine de l’objet d’étude afin de déterminer les liens entre données, paramètres experts et paramètres latents issus des modèles.
Mes travaux de recherche réalisés au LIMSI, à l’IRISA et au LIUM, couvrent l’analyse de la parole expressive sur plusieurs niveaux : segmentation du signal audio (zones de parole, de silence, de parole superposée, locuteur, etc.), caractérisation haut niveau (interruption, hésitations, émotion, etc.), et génération d’un signal de parole expressif. Le fait d’étudier les deux facettes (analyse et synthèse) permet à la fois de définir finement un phénomène expressif par des caractéristiques acoustiques, prosodiques, phonétiques et linguistiques, et également de valider ces caractéristiques par la synthèse de signaux et leur évaluation perceptive. Ce double point de vue est, à mon sens, très important pour appréhender les comportements oraux des êtres humains dans toute leur diversité et complexité.
Mots-clés
Apprentissage automatique, deep learning, Traitement du signal audio, descripteurs audio, Interprétabilité