Projets en cours

Neo

Nom : Observatoire de la néologie
Date : 02/2018 -- 01/2020
Financeur : RFI AltanStic 2020
: Amorçage, Défis scientifique 2017
Partenaires : Laboratoire ERIC, CRTT

Néo est un projet de recherche interdisciplinaire relevant des humanités numériques dont l’objectif est la détection semi-automatique de la néologie contemporaine et son analyse. Il résulte de la convergence des nouvelles pratiques langagières du web moderne (création de nouveaux mots ou émergence de nouveaux sens) et des récentes avancées en matière de traitement automatique des langues, notamment via les méthodes de plongements lexicographiques. Ce projet allie les compétences en fouille de textes de chercheurs en informatique et l’expérience de l’étude des néologismes de chercheurs en linguistique appliquée. Le projet s’appuie par ailleurs sur une étroite collaboration avec la Délégation Générale à la Langue Française et aux Langues de France (DGLFLF) du ministère de la Culture, qui est associée à la Bibliothèque Nationale de France (BNF) pour développer l’exploitation des archives du dépôt légal du web, archives que nous utiliserons pour la constitution de nos corpus d'étude. Le projet s’articule autour de plusieurs tâches :
  1. La mise en place d’une interface permettant d’exploiter les données du dépôt légal du Web ;
  2. La détection des néologismes morphologiques et sémantiques ;
  3. L’interprétation des néologismes.
 

News.bridge

Date : 11/2017 -- 03/2018
Financeur : Autres
Partenaires : Deutsche Welle, Latvian News Agency, Priberam

Le projet NEWS-BRIDGE a pour but de construire un ensemble d'outils exploitables commercialement utilisant les technologies de la langue pour faciliter et améliorer la production d'informations multilingues. Cet outil fournit un système complet de traduction de nouvelles, rendant les contenus existants audio, vidéo et texte dans toutes les langues supportées par les différents outils externes pour la transcription, la traduction, la synthèse vocale. Il est personnalisable en offrant à l'utilisateur l'option d'obtenir l'audio dans la langue de son choix sous la forme d'un sous-titrage audio ou/et textuel. Les deux principaux défis sont : la fluidité entre les différents composants et technologies et la synchronisation du texte transcrit avec la sortie vidéo.

Antract

Nom : Transdisciplinary Analysis of French Newsreels (1945-1969)
Date : 10/2017 -- 09/2020
Financeur : ANR
Appel : Generique
Partenaires : INA, EURECOM, Voxolab, CHS

The general objective of the ANTRACT project is the analysis of the images and sounds produced weekly in the framework of an independent company created in 1945, les Actualités françaises (French News), over twenty five years. This major cinematographic vector, already partially worked, has never been the subject of a systematic analysis. Thanks to recent technological tools for the analysis of textual and audiovisual contents, image, video and sound analysis, automatic speech transcription and textometry in particular, the aim is to provide the scientific community with new analysis frameworks. The project presents both fundamental research dimensions for historical research and for its transdisciplinary approach, as well as the dimensions of experimental development for technological work, which largely involves adapting the tools of the partners to the uses and the data of the project. The choice is made to deposit it as an experimental development project.

Blackcompass

Nom : Développement d'une solution logicielle pour valoriser le contenu des échanges téléphoniques entre consommateurs et marquesDéveloppement d'une solution logicielle pour valoriser le contenu des échanges téléphoniques entre consommateurs et marques
Date : 04/2016 -- 04/2018
Financeur : Région Pays de la Loire
Appel : Fonds Pays de la Loire Territoires d'Innovation
Partenaires : Dictanova, Ville de Nantes

L’objectif du projet est de développer une solution logicielle pour valoriser le contenu de ces échanges téléphoniques entre consommateurs et marques en analysant le contenu des conversations.

M2CR

Nom : Multilingual Multimodal Continuous Representation for Human Language Understanding
Date : 06/2015 -- 06/2019
Financeur : Autres
Appel : Chistera
Partenaires : MILA (Canada), CVC (Spain)
URL : lien

Le projet M2CR vise à développer une approche révolutionnaire pour combiner plusieurs modalités de la communication humaine et leurs tâches respectives dans une architecture unifiée, basée sur des réseaux neuronaux profonds, en incluant à la fois une composante discriminante et une composante générative grâce à plusieurs niveaux de représentation. Notre système s'appuiera conjointement sur les ressources dans plusieurs modalités, y compris, mais sans s'y limiter, le texte de plusieurs langues (européennes, chinoises et arabes), la parole et les images. Ce faisant, le système connaîtra une représentation sémantique commune de l'information sous-jacente, à la fois à un niveau spécifique de la modalité et à un niveau supérieur indépendant de celle-ci. Pousser ces idées à grande échelle, comme en entraînant les modèles sur de très grands corps, le projet M2CR a l'ambition de faire progresser l'état de l'art dans la compréhension du langage humain (HLU). M2CR abordera toutes les tâches majeures dans HLU par une architecture unifiée : compréhension et traduction de la parole, description multilingue d'image, etc. M2CR system

MAGMAT

Nom : Méthodologie et Architecture Générique de développement Multilingue Accéléré pour la Traduction parole-paroleMéthodologie et Architecture Générique de développement Multilingue Accéléré pour la Traduction parole-parole
Date : 10/2016 -- 10/2019
Financeur : DGA/DGF
Appel : Rapid
Partenaires : Airbus D&S, Voxygen

Le projet MAGMAT vise à définir et mettre en oeuvre une méthodologie agile et incrémentale de développement en temps contraint d’un système de traduction le la parole vers la parole. Sur le plan du développement de langues, deux objectifs principaux sont à considérer. Le premier objectif est de mutualiser drastiquement les développements de la synthèse, de la transcription et de la traduction avec une mise commun les ressources linguistiques. Le second objectif est de définir une méthodologie rendant le processus de développement de langue adapté au contexte visé. Sur le plan du développement logiciel, nous proposons une structure logicielle flexible et générique permettant de faire cohabiter les différents composants nécessaires à un système de traduction parole-parole. Cette interopérabilité permettra notamment, dans une langue donnée, l’utilisation de composants technologiques existants. En outre, un important travail d’optimisation du système de traduction complet est prévu afin de garantir son déploiement sur des dispositifs portables de type tablette. Enfin, le projet porte également un volet évaluation permettant d’étudier et de valider l’ergonomie du système de traduction (facilité d’utilisation, vérification de la qualité, etc.).

PASTEL

Nom : Transcription Automatique de la Parole pour l'Apprentissage et la FormationTranscription Automatique de la Parole pour l'Apprentissage et la Formation
Date : 10/2016 -- 04/2020
Financeur : ANR
Appel : Interactions, Robotique, Contenus / Automatique, signal 2016
Partenaires : Orange Lab, CREN, LS2N

Le projet PASTEL a pour objectif d’explorer le potentiel de la transcription automatique en temps réel pour l’instrumentation de situations pédagogiques mixtes, où les modalités d’interaction sont présentielles ou à distance, synchrones ou asynchrones. Les technologies de reconnaissance de la parole approchent d’un niveau de maturité suffisant qui permet d’envisager de nouvelles possibilités au niveau de l’instrumentation des pratiques pédagogiques et générer de nouveaux usages. Plus spécifiquement, nous développerons (1) une application de transcription temps réel et, sur la base des sorties du système de transcription, (2) des applications à vocation pédagogique. Nous utiliserons ces résultats pour générer automatiquement les matériaux d’un SPOC de base. Nous développerons un ensemble de fonctions d’édition qui permettront à l’enseignant d’adapter et de personnaliser ces contenus selon ses besoins. Les modules développés seront mis à la disposition des établissements publics pour l’enseignement supérieur et la recherche, et pourront également être transférés vers l’industrie à travers Orange ou des starts-ups liées aux laboratoires de recherche impliqués dans PASTEL. Les nouveautés majeures portées par le projet dans le domaine de la structuration du discours à partir de transcriptions automatiques sont liées aux objectifs pédagogiques de cette structuration, ainsi qu’au traitement en flux et en temps réel qu’exige une utilisation en présentiel. Dans ce cadre, PASTEL apportera également de nouvelles solutions d’instrumentation pour la diversification des pratiques pédagogiques et une nouvelle approche de conception et de structuration de contenus pédagogiques en ligne, basée sur l’exploitation des techniques de reconnaissance de la parole.

Projets passés

EUMSSI

Nom : Event Understanding through Multimodal Social
Date : 11/2013 -- 10/2016
Financeur : EU FP7
Appel : ICT-2013.4.1 Content analytics and language technologies
Partenaires : UPF (Spain), L3S (Germany), VSN (Spain), GFaI (Germany), IDIAP (Switzerland), Deutsche Welle (Germany)
URL : lien

L’objectif principal de EUMSSI est de développer des technologies d’identification et d’agrégation d'informations non structurées provenant de sources de nature très différente (vidéo, image, audio, texte) et de différentes langues (anglais, allemand, espagnol et français). Je suis responsable de l’analyse en locuteur et nous développons conjointement avec l'IDAP un système d'identification multimodale des personnes.

Liste des projets passés