Titre : « Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole »

Composition du jury :

  • Présidente : Mme Martine Adda-Decker,
  • Rapporteurs : Mme Sophie Rosset, M. Frédéric Béchet
  • Examinateur : – M. Benoit Favre, Benjamin Lecouteux
  • Directeur : M. Yannick Estève
  • Co-encadrante : Mme Nathalie Camelin

Résumé :

Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. En dépit de la performance des systèmes de reconnaissance automatique de la parole actuels, de nombreuses erreurs sont encore générées. Cela s’explique par leur sensibilité aux diverses variabilités liées à l’environnement acoustique, au locuteur, au style de langage, à la thématique du discours, etc. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. Ces représentations ont révélé être d’un grand atout dans différentes tâches de traitement automatique des langues naturelles (TALN).

L’exploitation des représentations continues de mots repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies.

Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les word embeddings.

Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons, afin de tirer profit de leurs complémentarités. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Nous proposons une approche qui repose sur l’utilisation d’un réseau de neurones convolutif pour construire des embeddings acoustiques de signal, et un réseau de neurones profond pour construire des embeddings acoustiques de mots. De plus, nous présentons deux approches pour évaluer la performance des embeddings acoustiques de mots. Nous proposons également d’enrichir la représentation du mot en entrée d’un système de détection d’erreurs par des descripteurs prosodiques en plus des embeddings linguistiques et acoustiques. L’intégration de ces informations dans notre architecture neuronale apporte un gain significatif en termes de réduction du taux d’erreur de classification, en comparaison à un système état de l’art fondé sur les champs aléatoires conditionnels (CRF).

Puis, nous présentons une étude portant sur l’analyse des erreurs de classification, qui a pour objectif de percevoir les erreurs difficiles à détecter. Des perspectives pour améliorer la performance de notre système sont également proposées, en modélisant les erreurs au niveau de la phrase. Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détection d’erreurs dans plusieurs cadres applicatifs.