L’équipe LST développe ses activités de recherche dans le domaine du traitement automatique du langage et de la parole autour de trois axes. Si historiquement nous avons travaillé avec des approches guidées par les données, l'équipe est spécialisée dans le deep learning appliqué au traitement du langage.

Reconnaissance de la parole

La reconnaissance de la parole consiste à transformer un signal en une suite de mots. A partir de la suite de mots de nombreux informations peuvent être extraite comme la détection d'opinion, de concepts applicatifs, d'entités nommées, de speech analytics...

Caractérisation du locuteur

La la caractérisation du locuteur couvre plusieurs tâche autour de la voix des locuteurs. Nous nous intéressons à
la segmentation et regroupement en locuteur (découpage en locuteur d'un enregistrements audio), l'identification et la vérification du locuteur (trouver l'identité d'un locuteur), l'identification de la langue et à la détection des émotions.

Traduction automatique

La traduction automatique consiste à traduire (passer d'une langue à une autre) avec un programme informatique un texte ou un enregistrement sonore, sans l'aide d'un humain.

Membres Permanents

Anthony Larcher Anthony Larcher
Maître de Conférences
Antoine Laurent Antoine Laurent
Maître de Conférences
Bruno Jacob Bruno Jacob
Maître de Conférences
Daniel Luzzati Daniel Luzzati
Professeur
Fethi Bougares Fethi Bougares
Maître de Conférences
Jérôme Lehuen Jérôme Lehuen
Maître de Conférences
Loïc Barrault Loïc Barrault
Maître de Conférences
Marie Tahon Marie Tahon
Maître de Conférences
Nathalie Camelin Nathalie Camelin
Maître de Conférences
Nicolas Dugué Nicolas Dugué
Maître de Conférences
Paul Deléglise Paul Deléglise
Professeur
Simon Petitrenaud Simon Petitrenaud
Maître de Conférences
Sylvain Meignier Sylvain Meignier
Professeur
Yannick Estève Yannick Estève
Professeur

Membres Temporaires

Abdessalam Bouchekif Abdessalam Bouchekif
Doctorant
Adrien Bardet Adrien Bardet
Doctorant
Amira Barhoumi Amira Barhoumi
Doctorante
Antoine Caubriere Antoine Caubriere
Doctorant
Edwin Simonnet Edwin Simonnet
Doctorant
Emmanuelle Billard Emmanuelle Billard
Ingénieure
Florent Desnous Florent Desnous
Doctorant
Jihen Karoui Jihen Karoui
ATER
Kévin Vythelingum Kévin Vythelingum
Doctorant
Makrem Ben Jdira Makrem Ben Jdira
Doctorant U. Carthage
Mercedes Garcia-Martinez Mercedes Garcia-Martinez
Doctorante
Mohammed Khlif Mohammed Khlif
Stagiaire Master
Natalia Tomashenko Natalia Tomashenko
Doctorante
Ozan Caglayan Ozan Caglayan
Doctorant
Pierre-Alexandre Broux Pierre-Alexandre Broux
Doctorant
Sahar Ghannay Sahar Ghannay
Doctorante
Salima Mdhaffar Salima Mdhaffar
Doctorante
Senmao Wang Senmao Wang
Doctorant
Vincent Jousse Vincent Jousse
PAST
Walid Aransa Walid Aransa
Post-doctorant

Projets en cours

News.bridge

Date : 11/2017 -- 03/2018
Financeur : Autres
Partenaires : Deutsche Welle, Latvian News Agency, Priberam

Le projet NEWS-BRIDGE a pour but de construire un ensemble d'outils exploitables commercialement utilisant les technologies de la langue pour faciliter et améliorer la production d'informations multilingues. Cet outil fournit un système complet de traduction de nouvelles, rendant les contenus existants audio, vidéo et texte dans toutes les langues supportées par les différents outils externes pour la transcription, la traduction, la synthèse vocale. Il est personnalisable en offrant à l'utilisateur l'option d'obtenir l'audio dans la langue de son choix sous la forme d'un sous-titrage audio ou/et textuel. Les deux principaux défis sont : la fluidité entre les différents composants et technologies et la synchronisation du texte transcrit avec la sortie vidéo.

Antract

Nom : Transdisciplinary Analysis of French Newsreels (1945-1969)
Date : 10/2017 -- 09/2020
Financeur : ANR
Appel : Generique
Partenaires : INA, EURECOM, Voxolab, CHS

The general objective of the ANTRACT project is the analysis of the images and sounds produced weekly in the framework of an independent company created in 1945, les Actualités françaises (French News), over twenty five years. This major cinematographic vector, already partially worked, has never been the subject of a systematic analysis. Thanks to recent technological tools for the analysis of textual and audiovisual contents, image, video and sound analysis, automatic speech transcription and textometry in particular, the aim is to provide the scientific community with new analysis frameworks. The project presents both fundamental research dimensions for historical research and for its transdisciplinary approach, as well as the dimensions of experimental development for technological work, which largely involves adapting the tools of the partners to the uses and the data of the project. The choice is made to deposit it as an experimental development project.

Blackcompass

Nom : Développement d'une solution logicielle pour valoriser le contenu des échanges téléphoniques entre consommateurs et marquesDéveloppement d'une solution logicielle pour valoriser le contenu des échanges téléphoniques entre consommateurs et marques
Date : 04/2016 -- 04/2018
Financeur : Région Pays de la Loire
Appel : Fonds Pays de la Loire Territoires d'Innovation
Partenaires : Dictanova, Ville de Nantes

L’objectif du projet est de développer une solution logicielle pour valoriser le contenu de ces échanges téléphoniques entre consommateurs et marques en analysant le contenu des conversations.

M2CR

Nom : Multilingual Multimodal Continuous Representation for Human Language Understanding
Date : 06/2015 -- 06/2019
Financeur : Autres
Appel : Chistera
Partenaires : MILA (Canada), CVC (Spain)
URL : lien

Le projet M2CR vise à développer une approche révolutionnaire pour combiner plusieurs modalités de la communication humaine et leurs tâches respectives dans une architecture unifiée, basée sur des réseaux neuronaux profonds, en incluant à la fois une composante discriminante et une composante générative grâce à plusieurs niveaux de représentation. Notre système s'appuiera conjointement sur les ressources dans plusieurs modalités, y compris, mais sans s'y limiter, le texte de plusieurs langues (européennes, chinoises et arabes), la parole et les images. Ce faisant, le système connaîtra une représentation sémantique commune de l'information sous-jacente, à la fois à un niveau spécifique de la modalité et à un niveau supérieur indépendant de celle-ci. Pousser ces idées à grande échelle, comme en entraînant les modèles sur de très grands corps, le projet M2CR a l'ambition de faire progresser l'état de l'art dans la compréhension du langage humain (HLU). M2CR abordera toutes les tâches majeures dans HLU par une architecture unifiée : compréhension et traduction de la parole, description multilingue d'image, etc. M2CR system

MAGMAT

Nom : Méthodologie et Architecture Générique de développement Multilingue Accéléré pour la Traduction parole-paroleMéthodologie et Architecture Générique de développement Multilingue Accéléré pour la Traduction parole-parole
Date : 10/2016 -- 10/2019
Financeur : DGA/DGF
Appel : Rapid
Partenaires : Airbus D&S, Voxygen

Le projet MAGMAT vise à définir et mettre en oeuvre une méthodologie agile et incrémentale de développement en temps contraint d’un système de traduction le la parole vers la parole. Sur le plan du développement de langues, deux objectifs principaux sont à considérer. Le premier objectif est de mutualiser drastiquement les développements de la synthèse, de la transcription et de la traduction avec une mise commun les ressources linguistiques. Le second objectif est de définir une méthodologie rendant le processus de développement de langue adapté au contexte visé. Sur le plan du développement logiciel, nous proposons une structure logicielle flexible et générique permettant de faire cohabiter les différents composants nécessaires à un système de traduction parole-parole. Cette interopérabilité permettra notamment, dans une langue donnée, l’utilisation de composants technologiques existants. En outre, un important travail d’optimisation du système de traduction complet est prévu afin de garantir son déploiement sur des dispositifs portables de type tablette. Enfin, le projet porte également un volet évaluation permettant d’étudier et de valider l’ergonomie du système de traduction (facilité d’utilisation, vérification de la qualité, etc.).

PASTEL

Nom : Transcription Automatique de la Parole pour l'Apprentissage et la FormationTranscription Automatique de la Parole pour l'Apprentissage et la Formation
Date : 10/2016 -- 04/2020
Financeur : ANR
Appel : Interactions, Robotique, Contenus / Automatique, signal 2016
Partenaires : Orange Lab, CREN, LS2N

Le projet PASTEL a pour objectif d’explorer le potentiel de la transcription automatique en temps réel pour l’instrumentation de situations pédagogiques mixtes, où les modalités d’interaction sont présentielles ou à distance, synchrones ou asynchrones. Les technologies de reconnaissance de la parole approchent d’un niveau de maturité suffisant qui permet d’envisager de nouvelles possibilités au niveau de l’instrumentation des pratiques pédagogiques et générer de nouveaux usages. Plus spécifiquement, nous développerons (1) une application de transcription temps réel et, sur la base des sorties du système de transcription, (2) des applications à vocation pédagogique. Nous utiliserons ces résultats pour générer automatiquement les matériaux d’un SPOC de base. Nous développerons un ensemble de fonctions d’édition qui permettront à l’enseignant d’adapter et de personnaliser ces contenus selon ses besoins. Les modules développés seront mis à la disposition des établissements publics pour l’enseignement supérieur et la recherche, et pourront également être transférés vers l’industrie à travers Orange ou des starts-ups liées aux laboratoires de recherche impliqués dans PASTEL. Les nouveautés majeures portées par le projet dans le domaine de la structuration du discours à partir de transcriptions automatiques sont liées aux objectifs pédagogiques de cette structuration, ainsi qu’au traitement en flux et en temps réel qu’exige une utilisation en présentiel. Dans ce cadre, PASTEL apportera également de nouvelles solutions d’instrumentation pour la diversification des pratiques pédagogiques et une nouvelle approche de conception et de structuration de contenus pédagogiques en ligne, basée sur l’exploitation des techniques de reconnaissance de la parole.