Approche End-to-End enrichie et à complexité variable pour le Speech-to-Text

Débuté le : 01/10/2023
Doctorant : Youness Dkhissi
Directeur(s) de Thèse : Anthony Larcher
Co-encadrant(s) de Thèse : Stéphane Pateux, Valentin Vielzeuf, Elys Allesiardo (Orange)
Financement : CIFRE

Contexte global et problématique du sujet

La transcription vocale est un outil primordial dans de nombreux services ; elle permet de transcrire une requête d’un utilisateur formulée en langage naturel vers un système de dialogue, mais aussi peut être utilisée pour transcrire les échanges lors de réunions (prise de note, création de résumé, …).
Les premières approches de transcription vocale étaient des systèmes dit hybrides visant à extraire dans un premier temps des unités sonores constitutives de la voix (e.g. des phonèmes) puis à l’aide d’un modèle de langage de proposer une reconstruction des mots prononcés. Avec l’essor du Deep Learning et notamment des Transformers, on voit aujourd’hui apparaitre des approches de bout en bout (End-to-End) qui permettent de réaliser cette transcription avec un unique modèle neuronal.
Les performances de ces outils de transcription s’améliorent continument mais peuvent s’accompagner d’une augmentation de la complexité et de la latence associées du fait de l’utilisation d’approches basées transformers. Un enjeu alors important est d’arriver à trouver une solution permettant d’offrir le meilleur compromis performance/complexité/latence notamment pour un opérateur tel qu’Orange.

Par ailleurs, la transcription textuelle de la voix, s’accompagne d’autres problématiques telles que la détection d’activité vocale, la séparation des tours de paroles (diarisation), l’extraction d’attributs de la voix (accents/langue, sentiments, prosodie, …).
Disposer au sein d’un même modèle de la capacité à pouvoir extraire toutes ces caractéristiques reste aujourd’hui un problème de recherche ouvert et atteindre un tel objectif permettrait également de gagner en complexité. En effet, les systèmes actuels réalisent ces tâches à l’aide de différents outils.

 
Objectif scientifique – résultats et verrous à lever

La valeur ajoutée de cette thèse est de travailler sur les outils de transcription de la voix, et notamment sur les approches actuelles de type End-to-End [1] qui offrent aujourd’hui les meilleures performances dans le monde académique.

Le doctorant sera appelé à développer de nouvelles architectures neuronales visant à proposer une approche multi-sortie permettant d’offrir une palette de compromis performance/complexité/latence afin de pouvoir répondre au mieux aux contraintes applicatives. Il aura l’opportunité de travailler au sein d’une équipe à la pointe sur les solutions de Speech-To-Text, avec la possibilité d’évaluer l’apport de ces solutions dans un cadre applicatif concret.

Durant cette thèse, il s’intéressera aux approches End-to-End basées transformers [2, 3, et plus particulièrement à des approches multi-sorties [4], qui permettent de proposer différentes sorties avec un compromis performance/latence. Mais aussi à des approches visant à fournir une sortie enrichie et capables de traiter plusieurs langues et/ou domaines applicatifs [5]

Bibliographie
[1] Li, Jinyu. “Recent Advances in End-to-End Automatic Speech Recognition.” ArXiv abs/2111.01690
[2] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell,” CoRR, vol. abs/1508.01211, 2015
[3] Anmol Gulati et al « Conformer: Convolution-augmented transformer for Speech Recognition », InterSpeech 2020
[4] Jiahui Yu et al « Dual mode ASR: Unify and improve streaming ASR with full-context modeling », ICLR 2021
[5] Open AI. “Whisper: Robust Speech Recognition via large scale weak supervision”, https://openai.com/research/whisper