L’équipe LST développe ses activités de recherche dans le domaine du traitement automatique du langage et de la parole autour de trois axes. Si historiquement nous avons travaillé avec des approches guidées par les données, l'équipe est spécialisée dans le deep learning appliqué au traitement du langage.

Reconnaissance de la parole

La reconnaissance de la parole consiste à transformer un signal en une suite de mots. A partir de la suite de mots, de nombreuses informations peuvent être extraites telles que la détection d'opinion, de concepts applicatifs, d'entités nommées, de speech analytics...

Caractérisation du locuteur

La caractérisation du locuteur couvre plusieurs tâches autour de la voix des locuteurs. Nous nous intéressons à : la segmentation et le regroupement en locuteurs (découpage en locuteurs d'un enregistrements audio), l'identification et la vérification du locuteur (trouver l'identité d'un locuteur), l'identification de la langue et la détection des émotions.

Traduction automatique

La traduction automatique consiste à traduire (passer d'une langue à une autre) un texte ou un enregistrement sonore grâce à un programme informatique, sans intervention humaine.

LST - Membres Permanents

Fethi BougaresFethi Bougares

Nathalie CamelinNathalie Camelin

Paul DeléglisePaul Deléglise

Nicolas DuguéNicolas Dugué

Bruno JacobBruno Jacob

Anthony LarcherAnthony Larcher

Antoine LaurentAntoine Laurent

Jérôme LehuenJérôme Lehuen

Daniel LuzzatiDaniel Luzzati

Sylvain MeignierSylvain Meignier
Professeur
Simon PetitrenaudSimon Petitrenaud

Marie TahonMarie Tahon

Jane WottawaJane Wottawa

LST - Membres Temporaires

Adrien BardetAdrien Bardet
Doctorant
Amira BarhoumiAmira Barhoumi
Doctorant
Emmanuelle BillardEmmanuelle Billard
Ingénieur
Pierre-Alexandre BrouxPierre-Alexandre Broux
Doctorant
Antoine CaubrièreAntoine Caubrière
Doctorant
Florent DesnousFlorent Desnous
Doctorant
Salima MdhaffarSalima Mdhaffar
Doctorant
Manon PinelManon Pinel
Doctorant
Yevhenii ProkopaloYevhenii Prokopalo
Doctorant
Kévin VythelingumKévin Vythelingum
Doctorant

Projets LST

Projets en cours

ASSC

Projet : Analyse fine de Sentiments dans des corpus de Satisfaction Clients
Date : 10/2019 - 10/2022
Financement : Autres
Appel : MMA
Partenaires : MMA (France)
Auteur(s) : Nathalie Camelin, Nicolas Dugué, Sylvain Meignier
URL : https://lium.uni-lemans.fr/assc

Le groupe MMA (Mutuelle du Mans Assurance) est un groupe d’assurance mutuelle française dont le siège est au Mans, dans la Sarthe. Depuis les années 2000, le groupe MMA fait partie du groupe COVEA, premier acteur de l’assurance des biens et des responsabilités sur le territoire français. Le groupe MMA est très investi dans le parcours client. Il s’agit notamment de comprendre ce qui décide le client à rester fidèle au groupe ou ce qui le pousse vers la concurrence. ► Lire la suite

PolysEmY

Projet : Polysemic Embeddings for Industry
Date : 01/2020 - 07/2021
Financement : RFI AltanStic 2020
Appel :
Partenaires : SNCF (France)
Auteur(s) : Nathalie Camelin, Nicolas Dugué
URL : https://lium.uni-lemans.fr/polysemy

Les ressources lexicales de la documentation technique SNCF sont le témoignage de la richesse et des spécificités du vocabulaire métier utilisé au sein d’entreprises telles que SNCF. Ce vocabulaire est parfois peu fréquent dans les corpus mais d’après les experts très important pour caractériser les documents. ► Lire la suite

C3LS

Projet : Clustering et Classification sur un Corpus en Langue de Spécialité
Date : 11/2017 - 10/2019
Financement : Autres
Appel : SNCF
Partenaires : SNCF (France)
Auteur(s) : Nathalie Camelin, Nicolas Dugué
URL : https://lium.uni-lemans.fr/c3ls

Le groupe SNCF connaît actuellement une transformation digitale et se tourne de plus en plus vers des technologies susceptibles de faire appel à de l’intelligence artificielle appliquée au traitement d’informations écrites ou orales. La documentation métier est aujourd’hui en pleine mutation, avec des métiers qui se digitalisent, plus mobiles et de nouveaux modes de consommation de l’information. ► Lire la suite

ON-TRAC

Projet : Outils Neuronaux End-to-End pour la TRAduction des Communications
Date : 01/2019 - 01/2021
Financement : ANR
Appel : Generic
Partenaires : LIA (Avignon) (France), LIG (Grenoble) (France), Airbus (France)
Auteur(s) : Fethi Bougares, Antoine Laurent, Anthony Larcher
URL : https://lium.univ-lemans.fr/on-trac/

Le projet ON-TRAC propose de changer radicalement les architectures utilisées en traduction de parole actuellement. Il s’appuie sur les modèles neuronaux de type end-to-end pour la traduction automatique et vise plus particulièrement les applications légères et portatives de traduction de la parole. Les systèmes de traduction de la parole actuels sont constitués du séquençage de deux modules : le premier effectue la reconnaissance de la parole (parole vers texte en langue source) et le second traduit automatiquement les sorties (sous forme de chaînes ou de graphes de mots en langue source) du premier module vers un texte en langue cible. ON-TRAC propose d’adapter et d’évaluer des architectures end-to-end pour la traduction directe de la parole. ► Lire la suite

DEEP-PRIVACY

Projet : DEEP-PRIVACY
Date : 01/2019 - 12/2021
Financement : ANR
Appel : generic
Partenaires : Multispeech (France), LIA (France), Magnet (France)
Auteur(s) : Anthony Larcher, Antoine Laurent, Marie Tahon
URL : https://lium.univ-lemans.fr/deep-privacy/

DEEP-PRIVACY propose un nouveau paradigme basé sur une approche distribuée, personnalisée et respectueuse de la vie privée pour le traitement de la parole, se focalisant sur les algorithmes d'apprentissage automatique pour la reconnaissance de la parole. Pour ce faire, nous proposons une approche hybride : l'appareil de chaque utilisateur ne partage pas ses données vocales brutes et exécute certains calculs privés en local, tandis que certains calculs inter-utilisateurs se font via un serveur (ou un réseau peer-to-peer). Pour satisfaire aux exigences de confidentialité au niveau acoustique, les données communiquées au serveur ne doivent pas fournir d'informations sensibles sur les locuteurs. Le projet aborde ces défis d'un point de vue théorique, méthodologique et empirique à travers deux objectifs scientifiques majeurs.

► Lire la suite

SIMPÆX

Projet : Segmentation et Identification Multi-locuteur de PArole EXpressive
Date : 02/2018 - 03/2020
Financement : RFI AltanStic 2020
Appel : Amorçage, Défis scientifique 2017
Auteur(s) : Marie Tahon
URL : https://lium.univ-lemans.fr/simpaex/

Le projet SIMPÆX a pour objectif la segmentation et l’identification automatiques de styles expressifs et de locuteurs dans un corpus de parole. En effet, l’extraction d’éléments concernant le locuteur, son état émotionnel et le contexte social, offre des indices très pertinents pour diverses applications comme l’indexation audio, la reconnaissance automatique de parole, la synthèse de parole ou les interactions humain-machine. ► Lire la suite

Néo

Projet : Observatoire de la néologie
Date : 02/2018 - 01/2020
Financement : RFI AltanStic 2020
Appel : Amorçage, Défis scientifique 2017
Partenaires : Laboratoire ERIC (France), CRTT (France)
Auteur(s) : Nicolas Dugué, Nathalie Camelin, Yannick Estève
URL : https://lium.univ-lemans.fr/neo/

Néo est un projet de recherche interdisciplinaire relevant des humanités numériques dont l’objectif est la détection semi-automatique de la néologie contemporaine et son analyse. Il résulte de la convergence des nouvelles pratiques langagières du web moderne (création de nouveaux mots ou émergence de nouveaux sens) et des récentes avancées en matière de traitement automatique des langues, notamment via les méthodes de plongements lexicographiques. Ce projet allie les compétences en fouille de textes de chercheurs en informatique et l’expérience de l’étude des néologismes de chercheurs en linguistique appliquée. ► Lire la suite

ALLIES

Projet : Autonomous Lifelong Learning IntelligEnt Systems
Date : 12/2017 - 11/2020
Financement : EU H2020
Appel : chist-era
Partenaires : IDIAP (Suisse), UPC (Espagne), LNE (France)
Auteur(s) : Anthony Larcher, Loïc Barrault, Fethi Bougares, Sylvain Meignier
URL : https://projets-lium.univ-lemans.fr/allies

L’objectif du projet ALLIES est d’encourager et de démontrer le développement de systèmes autonomes, capables de maintenir une performance durable dans le temps selon un scénario d’apprentissage donné. Un scénario d’apprentissage définit l’importance accordée à la performance sur les données « passées » et « présentes » dans le processus d’optimisation (ou d’évaluation). En définissant le scénario d’apprentissage, un superviseur humain (SH) permet ou interdit au système d’oublier. Dans ALLIES, un système autonome est totalement non supervisé et adapte progressivement ses modèles ainsi que leur structure, afin d’apprendre ou d’oublier des événements en fonction du scénario d’apprentissage donné et des données qu’il collecte automatiquement dans le temps. ► Lire la suite

Antract

Projet : Transdisciplinary Analysis of French Newsreels (1945-1969)
Date : 10/2017 - 09/2020
Financement : ANR
Appel : Generic
Partenaires : INA (France), EURECOM (France), Voxolab (France), CHS (France)
Auteur(s) : Simon Petitrenaud, Antoine Laurent, Sylvain Meignier
URL : https://lium.univ-lemans.fr/antract/

The general objective of the ANTRACT project is the analysis of the images and sounds produced weekly in the framework of an independent company created in 1945, les Actualités françaises (French News), over twenty five years. This major cinematographic vector, already partially worked, has never been the subject of a systematic analysis. ► Lire la suite

MAGMAT

Projet : Méthodologie et Architecture Générique de développement Multilingue Accéléré pour la Traduction parole-parole
Date : 10/2016 - 10/2019
Financement : DGA/DGF
Appel : Rapid
Partenaires : Airbus D&S (France), Voxygen (France)
URL : https://lium.univ-lemans.fr/magmat/

Le projet MAGMAT vise à définir et mettre en œuvre une méthodologie agile et incrémentale de développement en temps contraint d’un système de traduction le la parole vers la parole. Sur le plan du développement de langues, deux objectifs principaux sont à considérer. Le premier objectif est de mutualiser drastiquement les développements de la synthèse, de la transcription et de la traduction avec une mise commun les ressources linguistiques. Le second objectif est de définir une méthodologie rendant le processus de développement de langue adapté au contexte visé. ► Lire la suite

PASTEL

Projet : Transcription Automatique de la Parole pour l'Apprentissage et la Formation
Date : 10/2016 - 04/2020
Financement : ANR
Appel : Interactions, Robotique, Contenus / Automatique, signal 2016
Partenaires : Orange Lab (France), cren (France), LS2N (France)
Auteur(s) : Vincent Bettenfeld, Nathalie Camelin, Christophe Choquet, Christophe Després, Yannick Estève, Madeth May, Salima Mdhaffar, Lahcen Oubahssi, Claudine Piau-Toffolon
URL : https://projets-lium.univ-lemans.fr/pastel

Le projet PASTEL a pour objectif d’explorer le potentiel de la transcription automatique en temps réel pour l’instrumentation de situations pédagogiques mixtes, où les modalités d’interaction sont présentielles ou à distance, synchrones ou asynchrones. Les technologies de reconnaissance de la parole approchent d’un niveau de maturité suffisant qui permet d’envisager de nouvelles possibilités au niveau de l’instrumentation des pratiques pédagogiques et générer de nouveaux usages. ► Lire la suite

Liste de projets passés

Projets passés

News.bridge

Projet : News.bridge
Date : 01/2018 - 06/2019
Financement : Google
Appel : Digital News Innovation Funding
Partenaires : Deutsche Welle, Latvian News Agency, Priberam
Auteur(s) : Sahar Ghannay, Natalia Tomashenko, Yannick Estève
URL : https://lium.univ-lemans.fr/news-bridge/

Le projet NEWS-BRIDGE a pour but de construire un ensemble d’outils exploitables commercialement utilisant les technologies de la langue pour faciliter et améliorer la production d’informations multilingues. Cet outil fournit un système complet de traduction de nouvelles, rendant les contenus existants audio, vidéo et texte dans toutes les langues supportées par les différents outils externes pour la transcription, la traduction, la synthèse vocale. ► Lire la suite

Blackcompass

Projet : Développement d'une solution logicielle pour valoriser le contenu des échanges téléphoniques entre consommateurs et marques
Date : 04/2016 - 04/2018
Financement : Région Pays de la Loire
Appel : Fonds Pays de la Loire Territoires d'Innovation
Partenaires : Dictanova (France), Ville de Nantes (France)
Auteur(s) : Sylvain Meignier, Antoine Laurent
URL : https://lium.univ-lemans.fr/blackcompass/

L'bjectif du projet est de développer une solution logicielle pour valoriser le contenu de ces échanges téléphoniques entre consommateurs et marques en analysant le contenu des conversations. ► Lire la suite

M2CR

Projet : Multilingual Multimodal Continuous Representation for Human Language Understanding
Date : 06/2015 - 06/2019
Financement : Autres
Appel : Chistera
Partenaires : MILA (Canada), CVC (Espagne)
Auteur(s) : Loïc Barrault, Fethi Bougares, Nathalie Camelin, Yannick Estève, Mercedes García Martínez, Sahar Ghannay, Adrien Bardet
URL : https://projets-lium.univ-lemans.fr/m2cr

Le projet M2CR vise à développer une approche révolutionnaire pour combiner plusieurs modalités de la communication humaine et leurs tâches respectives dans une architecture unifiée, basée sur des réseaux neuronaux profonds, en incluant à la fois une composante discriminante et une composante générative grâce à plusieurs niveaux de représentation. Notre système s’appuiera conjointement sur les ressources dans plusieurs modalités, y compris, mais sans s’y limiter, le texte de plusieurs langues (européennes, chinoises et arabes), la parole et les images. Ce faisant, le système connaîtra une représentation sémantique commune de l’information sous-jacente, à la fois à un niveau spécifique de la modalité et à un niveau supérieur indépendant de celle-ci. ► Lire la suite

EUMSSI

Projet : Event Understanding through Multimodal Social
Date : 11/2013 - 10/2016
Financement : EU FP7
Appel : ICT-2013.4.1 Content analytics and language technologies
Partenaires : UPF (Espagne), L3S (Allemagne), VSN (Espagne), GFaI (Allemagne), IDIAP (Suisse)
Auteur(s) : Yannick Estève, Vincent Jousse, Sylvain Meignier, Paul Deléglise
URL : https://www.eumssi.eu/

L’objectif principal de EUMSSI est de développer des technologies d’identification et d’agrégation d’informations non structurées provenant de sources de nature très différente (vidéo, image, audio, texte) et de différentes langues (anglais, allemand, espagnol et français). Je suis responsable de l’analyse en locuteur et nous développons conjointement avec l’IDAP un système d’identification multimodale des personnes. ► Lire la suite