Overview of speech-related topics at ADASP (Télécom Paris) and overseas – Laboratoire d'Informatique de l'Université du Mans

Séminaire de Mathieu Fontaine (Télécom Paris)

Date : 27/11/2023
Heure : 14h00
Lieu : Saint Denis d’Orque
Intervenant : Mathieu Fontaine

Revue des sujets liés à la parole à l’ADASP (Télécom Paris) et à l’étranger

Le premier projet, avec Thomas SERRE (doctorant), se concentre sur l’amélioration personnalisée de la parole. Notre objectif est d’isoler un locuteur cible à partir d’un mélange de sa parole, de la parole parasite et du bruit de fond. Bien que TEA-PSE3.0, un système d’amélioration personnalisée de la parole à deux niveaux, soit exceptionnellement performant, il est complexe et difficilement adaptable à des appareils légers. Nous proposons d’adapter un système léger d’amélioration de la parole en deux étapes (DeepFilterNet2) pour l’amélioration personnalisée de la parole. Nos résultats montrent une amélioration des performances par rapport au DeepFilterNet2 original, bien qu’il ne soit pas à la hauteur de TEA-PSE3.0, malgré un nombre de paramètres nettement inférieur.

Le second projet, avec Elio GRUTTADAURIA (étudiant en doctorat), se concentre sur la diarisation du locuteur guidée par la séparation de la parole en ligne pour les conversations de réunion. En s’appuyant sur des approches en ligne récentes, nous utilisons un système de séparation de la parole en amont pour fournir une activité vocale permettant de mettre à jour le regroupement dans le cadre de la diarisation du locuteur. Notre approche est plus performante que l’état de l’art, en particulier dans les segments de chevauchement, et nous menons des études d’ablation pour déterminer les algorithmes optimaux de séparation des sources.

Le troisième projet, mené avec l’équipe SSU, porte sur l’amélioration des systèmes de reconnaissance automatique de la parole (ASR) dans des conditions réelles à l’aide d’un casque de réalité augmentée. Notre algorithme comprend une étape finale avec un système de séparation des locuteurs interprétable (FastMNMF) et une étape frontale utilisant un formeur de faisceau DNN pour l’affinage. Cette approche combinée fournit une source fiable pour le système ASR, cruciale dans des conditions bruyantes réelles où l’utilisateur du casque (portant Hololens 2) et les haut-parleurs sont en mouvement. Le système est actuellement en cours de développement et devrait être disponible vers 2024 ou 2025.