Évaluation des systèmes de synthèse de la parole dans un environnement bruyant
Niveau : Master 2
Encadrants: Aghilas Sini (LIUM), Thibault Vicente (LAUM)
Equipes d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM) – Laboratoire d’Acoustique de l’Université du Mans (LAUM). Le stage se déroulera en présentiel.
Lieu : Le Mans Université
Début du stage : Mars 2024
Contact : Aghilas Sini, (aghilas.sini@univ-lemans.fr) et Thibault Vicente, (thibault.vicente@univ-lemans.fr)
Candidature : Envoyer votre CV, une lettre de motivation adaptée au sujet proposé, possibilité de joindre un avis ou des lettres de recommandations. à l’ensemble des encadrants, avant le 20 février 2024
Sujet : L’évaluation perceptive est capitale dans de nombreux domaines liés au technologie de la parole dont la synthèse de la parole. Elle permet d’évaluer la qualité de la synthèse de manière subjective en demandant à un jury[5] de noter la qualité d’un stimuli de parole synthétisée[1, 2]. De récent travaux ont permis de développer un modèle d’intelligence artificielle[3, 4] qui permet de prédire l’évaluation subjective d’un segment de parole synthétisée, ainsi permettant de s’affranchir d’un test par jury.
Le problème majeur de cette évaluation est l’interprétation du mot “qualité”. Certains peuvent baser leur jugement sur les caractéristiques intrinsèques de la parole (tel que le timbre, le débit de parole, la ponctuation, etc) alors que d’autres peuvent baser leur jugement sur les caractéristiques liés au signal audio (comme la présence ou non de distorsion). Ainsi, l’évaluation subjective de la parole peut être biaisée par l’interprétation de la consigne par les auditeurs. Par conséquent, le modèle d’intelligence artificielle mentionné ci-dessus peut être ainsi basé sur des mesures biaisées.
Le projet a pour but de réaliser un travail exploratoire pour évaluer la qualité de la synthèse de la parole d’une manière plus robuste que celle ayant été proposé jusqu’ici. Pour ceci, nous partons de l’hypothèse que la qualité de la synthèse de la parole peut être estimée par le biais de sa détection dans un environnement réel. En d’autre termes, un signal synthétisé parfaitement pour reproduire un signal de parole humaine ne devrait pas être détecté dans un environnement de la vie quotidienne.
Basé sur cette hypothèse, nous proposons donc de monter une expérience de perception de la parole en milieu bruyant. Il existe des méthodes de reproduction de milieu sonore qui permettent de simuler un environnement existant au casque. L’avantage de ces méthodes c’est qu’il est également possible de jouer un enregistrement d’un milieu réel au casque tout en ajoutant des signaux comme s’il avait été présent dans la scène sonore enregistrée.
Ceci implique d’une part une campagne de mesure acoustique dans des environnement bruyant de la vie quotidienne (transport, open space, cantine, etc). Ensuite, une génération de parole synthétisée sera nécessaire tout en prenant en compte le contexte des enregistrements. Il sera également pertinent de faire varier les paramètres de la parole synthétisée tout en gardant la même sémantique. Les enregistrements de la vie quotidienne seront ensuite mixés aux signaux de parole synthétisée pour évaluer la détection de cette dernière. Nous utiliserons le pourcentage de fois que la parole synthétisée sera détectée comme indicateur de qualité. Ces pourcentages de détection seront ensuite comparés au prédiction du modèle d’intelligence artificielle mentionné ci-dessus. Ainsi, nous pourrons conclure (1) si les méthodes sont équivalentes ou complémentaires et (2) quel(s) paramètre(s) de la parole synthétisée engendre une détection de cette dernière en milieu bruyant.
Mots-clés : parole synthétisée, synthèse sonore binaurale, test par jury
Bibliographie
[1] Y.-Y. Chang. Evaluation of tts systems in intelligibility and comprehension tasks. In Proceedings of the 23rd Conference on Computational Linguistics and Speech Processing (ROCLING 2011), pages 64–78, 2011.
[2] J. Chevelu, D. Lolive, S. Le Maguer, and D. Guennec. Se concentrer sur les différences: une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (focus on differences: a subjective evaluation method to efficiently compare tts systems*). In Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1: JEP, pages 137–145, 2016.
[3] C.-C. Lo, S.-W. Fu, W.-C. Huang, X. Wang, J. Yamagishi, Y. Tsao, and H.-M. Wang. MOSNet: Deep Learning-Based Objective Assessment for Voice Conversion. In Proc. Interspeech 2019, pages 1541–1545, 2019
[4] S. Mittag and S. Möller. Deep learning based assessment of synthetic speech naturalness. arXiv preprint arXiv:2104.11673, 2021
[5] M. Wester, C. Valentini-Botinhao, and G. E. Henter. Are we using enough listeners? no!—an empirically-supported critique of interspeech 2014 tts evaluations. In 16th Annu. Conf. Int. Speech Commun. Assoc., 2015