Intelligence Artificielle pour l’extraction d’informations sémantiques dans la parole

Niveau : Master 1
Equipe d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Encadrement : : Nathalie Camelin et Antoine Laurent
Mails : prenom.nom@univ-lemans.fr
Période : de avril à juin (3 mois)
Mots-clés : Détection d’entités nommées, Topic Modeling, Approches neuronales
Candidature : Envoyer votre CV, une lettre de motivation adaptée au sujet proposé avant le 15 décembre 2023

 

Contexte du stage : Ce stage s’inscrit dans les thématiques de recherche de l’équipe Language and Speech Technologies (LST) du Laboratoire Informatique de l’Université du Mans (LIUM). Il se déroulera au Mans, dans le cadre du projet ANR AISSPER. Le projet ANR AISSPER (Artificial Intelligence for Semantically controlled SPEech UndeRstanding) a pour objectif de proposer des nouveaux algorithmes afin de résoudre le difficile problème de la compréhension de la parole. En effet, malgré le développement et la commercialisation de nombreux assistants personnels intelligents (Alexa, Google Home,…) la compréhension de la parole reste un domaine où de nombreux verrous scientifiques restent à lever.

AISSPER rassemble des chercheurs reconnus dans le domaine de l’intelligence artificielle et du traitement automatique du langage. Ce projet est coordonné par le LIA (Laboratoire Informatique de l’université d’Avignon). Il a débuté en janvier 2020 avec comme partenaires le LIUM et la société ORKIS. Le travail a été découpé en plusieurs sous-parties (les WP pour Work Package). Le WP2 se focalise sur la compréhension de la parole au niveau du tour de parole tandis que le WP3 doit étendre le travail du WP2 pour une compréhension au niveau du document.

Description: AISSPER a pour but d’améliorer la reconnaissance de concepts sémantiques via des méthodes issues de l’intelligence artificielle. Pour ce faire, les partenaires d’AISSPER vont focaliser leur travail sur l’investigation de nouvelles méthodes d’apprentissage profond. L’idée est de se baser sur l’utilisation de la sémantique dans des mécanismes d’attention spécifiques [Vaswani 2017] adaptés à différents ensembles de contextes d’information. Ainsi, AISSPER vise à développer de nouveaux paradigmes modélisant conjointement informations acoustiques et sémantiques pour l’analyse sémantique de documents oraux dans des approches neuronales dites End2End, c’est à dire du signal de parole vers des informations sémantiques.

Côté LIUM, le travail du WP2 a été réalisé en grande partie par un doctorant. La compréhension au niveau du tour de parole a été explorée dans un cadre applicatif défini (corpus MEDIA [Bonneau 2006]) avec la proposition d’architectures originales pour l’extraction directe de représentations sémantiques complètes à partir du signal [Pelloin 2021] ou encore l’utilisation conjointe des informations acoustiques, linguistiques et sémantique. Le travail du stage se situe, lui, au niveau du WP3 : compréhension globale d’un dialogue à partir d’extraction plurielle d’informations sémantiques. Il s’agira notamment de mettre en place un système de détection d’entités nommées [Caubrière 2018], à partir de la parole ou du texte. Il sera également question de mettre en œuvre un premier système de modélisation en thèmes (topic modeling) afin d’extraire automatiquement l’ensemble des sujets portés par le dialogue considéré. Ainsi, les méthodes classiques telles que LDA pourront être étudiées ou encore les récents « neural topic models » [Zhao 2021].

Le stagiaire travaillera en collaboration avec les chercheurs du LIUM et pourra également être amené à travailler en collaboration avec les chercheurs du LIA. Les expériences seront menées sur le corpus DECODA [De Mori 2012], contenant des dialogues de la RATP annotés en 8 thèmes généraux.

 

 

Bibliographie

  • [Caubrière 2018] A. Caubriere, Y. Esteve, N. Camelin, E. Simonnet, A. Laurent, and E. Morin. “End-To-End Named Entity And Semantic Concept Extraction From Speech.” 2018 IEEE Spoken Language Technology Workshop (SLT) 2018.

  • [Vaswani 2017] Ashish Vaswani Noam Shazeer Niki Parmar Aidan N. Gomez y Lukasz Kaiser. “Attention Is All You Need.” In NIPS 2017

  • [Bonneau 2006] Bonneau-Maynard, Héléne and Ayache, Christelle and Bechet, Frédéric and Denis, Alexandre and Kuhn, Anne and Lefèvre, Fabrice and Mostefa, Djamel and Quignard, Matthieu and Rosset, Sophie and Servan, Christophe and others. “Results of the French Evalda-Media Evaluation Campaign for Literal Understanding.” In LREC 2006

  • [De Mori 2012] De Mori Renato and Arbillot Eric, Bechet Frederic And Maza Benjamin And Bigouroux Nicolas And Bazillon Thierry And El-Beze Marc. “DECODA: A Call-Centre Human-Human Spoken Conversation Corpus.” In LREC 2012

  • [Zhao 2021] Zhao, H. et al. Topic modelling meets deep neural networks: A survey. arXiv preprint, 2021

  • [Pelloin 2021] Pelloin, V., Camelin, N., Laurent, A., et al. End2end acoustic to semantic transduction. In : ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021. p. 7448-7452.