Contexte :

L’objectif premier des systèmes de synthèse vocale Text To Speech (TTS), de conversion de la parole et de traduction de la parole à la parole est de synthétiser ou de générer un signal vocal de bonne qualité. Généralement, la qualité de la parole synthétique est évaluée subjectivement par des auditeurs humains. Ce test d’écoute vise à évaluer le degré de similitude avec la parole humaine plutôt qu’avec celle d’une machine. Le principal défi de l’évaluation de la qualité de la parole synthétique consiste à trouver un équilibre entre le coût et la fiabilité de l’évaluation. Alors que le coût d’un test d’écoute humain est élevé, une évaluation automatique de la qualité peut être moins fiable.

La définition de la qualité peut varier d’un point de vue à l’autre [7]. La qualité de la sortie TTS peut être décrite décrite en divers termes, tels que l’intelligibilité, le naturel, l’expressivité et la présence de bruit. En outre, les différences fines entre deux signaux ne peuvent pas être suivies avec précision au moyen des notes d’opinion moyennes (MOS) [1].
En outre, l’évolution des systèmes TTS a modifié la nature de l’évaluation de la qualité. La qualité de la parole synthétique s’est considérablement améliorée au cours de la dernière décennie [2]; alors que dans le passé, l’accent était mis sur l’intelligibilité de la synthèse vocale, aujourd’hui, l’accent est davantage mis sur l’expressivité de la parole synthétique. Les efforts récents en matière d’évaluation automatique de la parole synthétisée [4] ont démontré le succès des mesures objectives lorsque le domaine, la langue et le système sont limités. Outre l’évolution de la qualité de la synthèse vocale au fil du temps, des études telles que [10] et [8] ont souligné la nécessité de collecter et d’annoter de nouvelles données pour l’adaptation au domaine et à la langue.

 

Objectif :

L’objectif principal de cette thèse est de proposer une approche d’apprentissage actif, où l’intervention humaine devrait être minimale, pour une tâche subjective telle que l’évaluation automatique de la qualité de la parole synthétique. Le fondement de ce cadre serait un modèle objectif comme les prédicteurs de qualité synthétique, qui nécessitent des échantillons d’entraînement diversifiés et efficaces. L’objectif principal est de collecter et d’interroger efficacement les données afin d’améliorer la précision de la prédiction de la qualité synthétique ou d’adapter les prédicteurs de qualité synthétique à de nouveaux domaines et à une nouvelle génération de systèmes. Il est essentiel d’aborder les différents aspects de la qualité, les exigences spécifiques au domaine et les variations linguistiques par l’acquisition de nouvelles données ou le recyclage des modèles en mettant l’accent sur des ensembles d’échantillons ciblés.

Le but est de collecter et d’interroger efficacement les données afin de minimiser les lacunes en matière d’information, en garantissant un ensemble de données complet pour l’adaptation afin de maximiser l’amélioration des performances. Les principales adaptations qui seront étudiées dans ce projet sont la langue (adaptation d’un prédicteur de qualité entraîné à une nouvelle langue) et la synthèse vocale expressive (adaptation d’un prédicteur de naturalité entraîné à un prédicteur de qualité de la parole expressive). Cette adaptation pourrait potentiellement s’étendre à différents auditeurs et types de systèmes, par exemple des systèmes avec différents modèles acoustiques ou vocodeurs.

Dans ce contexte, la collecte de données (synthèse de nouveaux échantillons) est peu coûteuse, ce qui permet de se concentrer uniquement sur l’optimisation des requêtes afin d’identifier les échantillons les plus informatifs. Dans un objectif secondaire, nous nous concentrerons sur la modélisation des désaccords des auditeurs dans l’évaluation de la qualité. Cet objectif vise à prendre en compte les différents points de vue sur la perception de la qualité d’un TTS. En outre, cet objectif permettra de personnaliser la prédiction de la qualité du TTS en fonction des définitions individuelles de la qualité par les auditeurs. Par conséquent, l’analyse de scripts difficiles peut révéler les défis qui subsistent dans le domaine de la synthèse vocale.

 
Référence:
[1] Joshua Camp et al. “MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard Errors”. In: Interspeech. 2023, pp. 1090–1094.
[2] Erica Cooper and Junichi Yamagishi. “How do Voices from Past Speech Synthesis Challenges Compare Today?” In: Proc. 11th ISCA Speech Synthesis Workshop (SSW 11). 2021, pp. 183–188. doi: 10.21437/SSW.2021-32.
[3] Erica Cooper et al. “Generalization ability of MOS prediction networks”. In: ICASSP. IEEE. 2022, pp. 8442–8446.
[4] Wen Chin Huang et al. “The VoiceMOS Challenge 2022”. In: Interspeech. 2022, pp. 4536–4540. doi: 10.21437/Interspeech.2022-970.
[5] Georgia Maniati et al. “SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis”. In: Interspeech. 2022, pp. 2388–2392. doi: 10.21437/Interspeech.2022-10922.
[6] Felix Saget et al. “LIUM-TTS entry for Blizzard 2023”. In: Blizzard Challenge Workshop. 2023. doi: hal.science/hal-04188761.
[7] Fritz Seebauer et al. “Re-examining the quality dimensions of synthetic speech”. In: Proc. 12th ISCA Speech Synthesis Workshop (SSW2023). 2023, pp. 34–40. doi: 10.21437/SSW.2023-6.
[8] Thibault Sellam et al. “SQuId: Measuring speech naturalness in many languages”. In: ICASSP. IEEE. 2023, pp. 1–5. [9] Burr Settles. “Active learning literature survey”. In: (2009).
[10] Wei-Cheng Tseng, Wei-Tsung Kao, and Hung-yi Lee. “DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training and Distribution of Opinion Scores”. In: Interspeech. 2022, pp. 4541–4545.