Apprentissage continu pour l’évaluation objective de la parole synthétique

Encadrant(e)s: Meysam SHAMSI
Equipe d’accueil : LIUM
Lieu : Le Mans
Contact : Meysam.Shamsi(at)univ-lemans.fr
Candidature : Envoyer CV + lettre de motivation à Meysam Shamsi avant le 18 Novembre 2022

 
Contexte et objectifs du stage :

L’objectif principal d’un système de synthèse vocale (TTS) et d’un système de conversion de la parole est de synthétiser ou de générer un signal vocal de haute qualité. La qualité de la parole synthétique est généralement évaluée subjectivement par des auditeurs humains. Ce test d’écoute est un effort pour évaluer le degré de ressemblance avec l’homme (contre à la ressemblance avec la machine). L’une des méthodes d’évaluation les plus populaires est le score d’opinion moyen (MOS), qui attribue un chiffre, souvent entre 1 et 5, à la qualité du signal vocal. Cette évaluation subjective par un humain est coûteuse et prend du temps, mais elle est aussi très subjective et peut donner des résultats différents selon le nombre d’évaluateurs. Récemment, grâce aux progrès des réseaux neuronaux, les chercheur.e.s se sont intéressés à l’évaluation du signal synthétique de la parole en utilisant une mesure automatique.

Le VoiceMOS Challenge [1] a été l’une des étapes vers l’automatisation de l’évaluation de la qualité de la parole. Ils ont recueilli l’évaluation humaine des signaux synthétiques des précédents Blizzard Challenge [2] et Voice Conversion Challenge [3] et ont fourni un modèle de base [4,5] pour l’évaluation automatique de la qualité de la parole synthétique.

 

En plus de l’étude de l’évaluation hors domaine [1] qui vise à adapter un modèle à d’autres domaines tels que la parole synthétique dans une nouvelle langue, l’évolution des systèmes TTS change le problème de l’évaluation de la qualité. L’amélioration de la qualité de la parole synthétique au cours de la dernière décennie est considérable[6]. Cela signifie que le problème de l’évaluation de la qualité du signal synthétique d’aujourd’hui est différent de celui du passé. Par exemple, si dans le passé la priorité de la synthèse de la parole était l’intelligibilité, aujourd’hui la concentration est plus sur l’expressivité de la parole synthétique. L’objectif de ce stage est d’étudier l’opportunité de l’apprentissage tout au long de la vie [7] ou de l’apprentissage continu pour l’évaluation automatique de la parole synthétique. Dans une approche d’apprentissage continu, le modèle devrait être capable de s’adapter aux nouvelles données en prenant des échantillons par ordre chronologique. Le stage se concentrera sur le développement d’un modèle capable de s’entraîner en utilisant la date des systèmes dans le jeu de données fourni.

 

La principale application de ce système est de réduire le coût des auditeurs humains pour l’évaluation de la qualité des systèmes synthétiques et d’avoir une métrique d’évaluation adaptable dans le temps. De plus, le résultat de ce travail puisse finalement être utilisé dans le but d’améliorer la qualité du TTS ou le système de conversion de la parole.

 

Profil de la ou du candidat·e : La ou le candidat·e devra être motivé·e pour travailler sur l’Intelligence artificielle. Elle ou il devra être inscrit·e en Master d’Informatique.

 

Bibliographie
[1]. Huang, W.C., Cooper, E., Tsao, Y., Wang, H.-M., Toda, T., Yamagishi, J. “The VoiceMOS Challenge 2022.” Proc. Interspeech 2022, 2022, pp. 4536-4540
[2]. Z. Wu, Z. Xie, and S. King, “The Blizzard Challenge 2019,” 2019.
[3]. Z. Yi, W.-C. Huang, X. Tian, J. Yamagishi, R. K. Das, T. Kinnunen, Z. Ling, and T. Toda, “Voice Conversion Challenge 2020 — intra-lingual semi-parallel and cross-lingual voice conversion —,” in Proc. Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, 2020, pp. 80–98.
[4]. Cooper, E., Huang, W. C., Toda, T., & Yamagishi, J., Generalization ability of MOS prediction networks. In ICASSP 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 2022, pp. 8442-8446.
[5]. https://github.com/nii-yamagishilab/mos-finetune-ssl
[6]. Cooper, Erica, and Junichi Yamagishi. “How do voices from past speech synthesis challenges compare today?.” arXiv preprint arXiv:2105.02373 (2021).
[7]. Chen, Z. and Liu, B, Lifelong machine learning. Synthesis Lectures on Artificial Intelligence and Machine Learning, 12(3), 2018, pp.1-207.