Représentation de la dimension personnage de la voix actée

 

Date: 26/06/2019

Heure: 11h00

Lieu: IC2, Salle des Conseils

Intervenant(s): Mathias Quillot

 

Le doublage d’une œuvre consiste à remplacer une langue/culture source par une autre langue/culture cible. Dans le cadre de productions audiovisuelles (jeux vidéos, cinéma…), l’une des étapes du doublage consiste à sélectionner manuellement les acteurs qui vont jouer les voix des personnages dans la langue/culture cible. Nos travaux s’inscrivent dans le cadre du projet ANR The Voice. L’un des objectif de ce projet est de fournir des outils d’aide à la décision pour le Casting Vocal, notamment des systèmes de recommandation de voix. Un système de recommandation de voix propose les comédiens les plus adaptés pour jouer la voix du personnage d’origine. Choisir un comédien ne se résume pas à choisir la voix la plus proche acoustiquement de la source, de multiples facteurs artistiques, culturels et humains interviennent. Ces facteurs sont scientifiquement peu connus et ne disposent pas encore d’une nomenclature largement acceptée. En addition de ces questions de définition, seule l’intuition dit que ces différentes caractéristiques se traduisent par des éléments repérables dans le signal acoustique.

Pour répondre à cette question, nous avons choisi dans un premier temps de vérifier l’existence de signes acoustiques caractérisant le personnage dans un contexte multi-langue. Pour cela, nous avons proposé un classifieur binaire à deux entrées, un enregistrement de voix en anglais et un enregistrement de voix en français, et répondant si ces deux voix viennent, ou non, du même personnage. Notre système est basé sur des réseaux de neurones siamois. L’approche a été testée sur des voix provenant de jeux vidéos. Les premiers résultats confirment l’existence de traces acoustiques caractérisant le personnage joué.

Nous avons ensuite cherché à mettre en évidence cette information “personnage” à travers l’apprentissage d’une représentation neuronale adaptée. Celle-ci consiste à modéliser un espace vectoriel représentant la dimension personnage en utilisant un système de classification multi-labels à base de réseaux de neurones. Les premiers résultats sont encourageants mais doivent être confirmés par une confrontation avec l’expertise humaine.