Intelligence Artificielle pour une compréhension de la parole contrôlée par la sémantique
Débuté le : 01/10/2020
Doctorant : Valentin Pelloin
Directeur(s) de Thèse : Sylvain Meignier
Co-encadrant(s) de Thèse : Nathalie Camelin et Antoine Laurent
Financement : ANR AISSPER
Descritpion
Le projet ANR AISSPER (Artificial Intelligence for Semantically controlled SPEech UndeRstanding) a pour objectif de proposer des nouveaux algorithmes afin de résoudre le difficile problème de la compréhension de la parole. En effet, malgré le développement et la commercialisation des assistants personnels intelligents (Alexa, Google Home,…) la compréhension de la parole reste un domaine où de nombreux verrous scientifiques subsistent. Notamment, la modélisation efficace des variabilités contenues à différents niveaux dans la parole (prosodique, acoustique, lexical, … ), demeure un problème de recherche important pour la reconnaissance et la compréhension de la langue parlée.
AISSPER a pour but d’améliorer la reconnaissance de concepts sémantiques via des méthodes issues de l’intelligence artificielle. Pour ce faire, les partenaires d’AISSPER vont focaliser leur travail sur l’investigation de nouvelles méthodes d’apprentissage profond. L’idée est de se baser sur l’utilisation de la sémantique dans des mécanismes d’attention spécifiques adaptés à différents ensembles de contexte d’informations. Ainsi, AISSPER vise à développer de nouveaux paradigmes modélisant conjointement informations acoustiques et sémantiques pour l’analyse sémantique de documents oraux dans des approches dites End2End ou « de bout en bout », c’est à dire directement du signal vers les concepts.
AISSPER rassemble des chercheurs reconnus dans le domaine de l’intelligence artificielle et du traitement automatique du langage. Ce projet est coordonné par le LIA (Laboratoire Informatique de l’université d’Avignon). Il débute en janvier 2020 avec comme partenaires le LIUM et la société ORKIS. Le travail a été réparti en plusieurs sous-parties (les WP, pour « Work Package »). Le WP1 a pour but de proposer des nouvelles architectures neuronales adaptées spécifiquement au traitement de la compréhension de la parole. Le WP2 doit mettre oeuvre les méthodes issues du WP1 pour la compréhension de la parole au niveau du tour de parole. Il s’agira notamment de proposer des stratégies d’intégration de connaissances a priori dans l’architecture proposée et également d’analyser les informations construites par les couches cachées du réseau de neurones. Le WP3 doit étendre le travail du WP2 pour une compréhension au niveau du document et l’intégration d’informations globales dans le mécanisme d’attention. Il s’agira également de proposer une stratégie d’extraction de caractéristiques efficaces du signal de parole. Le WP4 aura pour objectif d’intégrer, d’appliquer et d’évaluer toutes les découvertes scientifiques des WP précédents dans le cadre applicatif réel proposé par la société ORKIS.
Le travail du doctorant se situe dans les WP 2 et 3. Il devra travailler en collaboration avec les chercheurs du LIUM et du LIA. Les expériences seront menées sur 2 corpus différents : le corpus MEDIA pour le WP2, contenant des dialogues de réservation de restaurant et annotés selon environ 80 concepts sémantiques et le corpus DECODA pour le WP3, contenant des dialogues de la RATP annotés en 8 thèmes généraux.
Bibliographie
• Antoine Caubrière, Natalia Tomashenko, Antoine Laurent, Emmanuel Morin, Nathalie Camelin, Yannick Estève “Curriculum-based transfer learning for an effective end-to-end spoken language understanding and domain portability”. 2019 Interspeech.
• A. Caubriere, Y. Esteve, N. Camelin, E. Simonnet, A. Laurent, and E. Morin. “End-To-End Named Entity And Semantic Concept Extraction From Speech.” 2018 IEEE Spoken Language Technology Workshop (SLT) 2018
• Edwin Simonnet, Nathalie Camelin, Paul Deléglise, Yannick Estève. “Exploring the Use of Attention-Based Recurrent Neural Networks For Spoken Language Understanding. Machine Learning for Spoken Language Understanding and interaction.”, SLUNIPS/NIPS 2018.
• Janod, Killian, Mohamed Morchid, Richard Dufour, Georges Linares, and Renato De Mori. “Denoised Bottleneck Features From Deep Autoencoders for Telephone Conversation Analysis.” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017.
• Bonneau-Maynard, Héléne and Ayache, Christelle and Bechet, Frédéric and Denis, Alexandre and Kuhn, Anne and Lefèvre, Fabrice and Mostefa, Djamel and Quignard, Matthieu and Rosset, Sophie and Servan, Christophe and others. “Results of the French Evalda-Media Evaluation Campaign for Literal Understanding.” In LREC 2006. Ghannay, S., A.
• Yunlong Yu, Zhong Ji, Yanwei Fu, Jichang Guo, Yanwei Pang, Zhongfei (Mark) Zhang. “Stacked Semantics-Guided Attention Model for Fine-Grained Zero-Shot Learning.” In NeurIPS 2018.
• Ashish Vaswani Noam Shazeer Niki Parmar Aidan N. Gomez y Lukasz Kaiser. “Attention Is All You Need.” In NIPS 2017 • [MEDIA] Bonneau-Maynard, Héléne and Ayache, Christelle and Bechet, Frédéric and Denis, Alexandre and Kuhn, Anne and Lefèvre, Fabrice and Mostefa, Djamel and Quignard, Matthieu and Rosset, Sophie and Servan, Christophe and others. “Results of the French Evalda-Media Evaluation Campaign for Literal Understanding.” In LREC 2006
• [DECODA] De Mori Renato and Arbillot Eric, Bechet Frederic And Maza Benjamin And Bigouroux Nicolas And Bazillon Thierry And El-Beze Marc. “DECODA: A Call-Centre Human-Human Spoken Conversation Corpus.” In LREC 2012.
• Titouan Parcollet, Mohamed Morchid Georges Linarès et Renato De Mori. “Bidirectional Quaternion Long Short-Term Memory Recurrent Neural Networks for Speech Recognition.” In ICASSP 2019.