Sahar Ghannay – Laboratoire d'Informatique de l'Université du Mans

Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. En dépit de la performance des systèmes de reconnaissance automatique de la parole actuels, de nombreuses erreurs sont encore générées. Cela s’explique par leur sensibilité aux diverses variabilités liées à l’environnement acoustique, au locuteur, au style de langage, à la thématique du discours, etc. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. Ces représentations ont révélé être d’un grand atout dans différentes tâches de traitement automatique des langues naturelles (TALN).

’exploitation des représentations continues de mots repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies.

Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les word embeddings.

Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons, afin de tirer profit de leurs complémentarités. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Nous proposons une approche qui repose sur l’utilisation d’un réseau de neurones convolutif pour construire des embeddings acoustiques de signal, et un réseau de neurones profond pour construire des embeddings acoustiques de mots. De plus, nous présentons deux approches pour évaluer la performance des embeddings acoustiques de mots. Nous proposons également d’enrichir la représentation du mot en entrée d’un système de détection d’erreurs par des descripteurs prosodiques en plus des embeddings linguistiques et acoustiques. L’intégration de ces informations dans notre architecture neuronale apporte un gain significatif en termes de réduction du taux d’erreur de classification, en comparaison à un système état de l’art fondé sur les champs aléatoires conditionnels (CRF).

Puis, nous présentons une étude portant sur l’analyse des erreurs de classification, qui a pour objectif de percevoir les erreurs difficiles à détecter. Des perspectives pour améliorer la performance de notre système sont également proposées, en modélisant les erreurs au niveau de la phrase. Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détection d’erreurs dans plusieurs cadres applicatifs.

Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole.