Régulièrement, le LIUM invite des chercheurs pour qu’ils présentent leurs travaux à l’équipe.

Les séminaires concernent essentiellement les Environnements Informatiques pour l’Apprentissage Humain, la reconnaissance de la parole et la traduction automatique mais l’équipe accueille volontiers des chercheurs d’autre domaine, pouvant mener à des partenariats. Ces séminaires sont aussi l’occasion de discuter de ses travaux et tester ses prototypes avec une équipe de passionnés qui ne manquera pas de vous faire des retours constructifs.

Les séminaires ont lieu soit à Laval, soit au Mans et sont retransmis en direct sur l’autre site.

N’hésitez pas à contacter Iza Marfisi (iza.marfisi@univ-lemans.fr) ou Loïc Barrault (loic.barrault@univ-lemans.fr) si vous souhaitez participer !

Evaluating clustering quality using features salience: a promising approach

Date : 12/01/2018
Heure : 11h00
Lieu : Salle de conseil, IC2, Le Mans Université
Intervenant : Nicolas Dugué

The major concern of this talk is optimal model selection in hard clustering. New quality indexes based on feature maximization will be presented. Feature maximization is an efficient alternative approach for feature selection in high dimensional spaces to usual measures like Chi-square, vector-based measures using Euclidean distance or correlation. The behavior of these feature maximization based indexes is compared with a wide range of usual indexes, and with alternative indexes as well, on different kinds of datasets for which ground truth is available. This comparison highlights the better accuracy and stability of the new indexes on these datasets, their efficiency from low to high dimensional range and their tolerance to noise. Additional experiments are done on ”real life” textual data issued from a bibliographic database for which ground truth is unavailable. Experiments highlight that the accuracy and stability of these new indexes allow to efficiently manage time-based diachronic analysis.

Supervised learning of universal sentence representations

Date : 01/12/2017
Heure : 11h00
Lieu : Salle de conseil, IC2, Le Mans Université
Intervenant : Alexis Conneau

Many modern NLP systems rely on word embeddings, previously trained in an unsupervised manner on large corpora, as base features. Efforts to obtain embeddings for larger chunks of text, such as sentences, have however not been so successful. Several attempts at learning unsupervised representations of sentences have not reached satisfactory enough performance to be widely adopted. In this paper, we show how universal sentence representations trained using the supervised data of the Stanford Natural Language Inference datasets can consistently outperform unsupervised methods like SkipThought vectors on a wide range of transfer tasks. Much like how computer vision uses ImageNet to obtain features, which can then be transferred to other tasks, our work tends to indicate the suitability of natural language inference for transfer learning to other NLP tasks. Our encoder is publicly available.


Détection automatique de l’ironie dans les contenus générés par les utilisateurs

Date : 24/11/2017
Heure : 11h00
Lieu : Salle de conseil, IC2, Le Mans Université
Intervenant : Jihen Karoui

L’analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues (TAL). En effet, ces dernières années ont vu se multiplier les sources de données textuelles porteuses d'opinion disponibles sur le web : avis d'internautes, de plus en plus centralisés par les moteurs de recherche, forums, réseaux sociaux, enquêtes consommateurs effectuées par les grandes marques, etc. Devant cette abondance de données et de sources, l'automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donné. L'intérêt de ces données est considérable pour les sociétés qui souhaitent obtenir un retour client sur leurs produits comme pour les personnes souhaitant se renseigner pour un achat, une sortie, ou un voyage.

Depuis les années 2000, un grand nombre de travaux ont été publiés sur le sujet, faisant de l’extraction d’opinion un domaine très actif dans la recherche en TAL. Globalement, les systèmes actuels ont obtenus de bons résultats sur la classification automatique du caractère subjectif ou objectif d’un document. En revanche, ceux obtenus sur la tâche d’analyse de polarité (qui consiste à classer le document sur une échelle de subjectivité allant du plus positif au plus négatif) restent encore peu concluants. La raison principale de cet échec est l’incapacité des algorithmes actuels à comprendre toutes les subtilités du langage humain, telles que l’usage du langage figuratif.

Contrairement au langage littéral, le langage figuratif exploite quelques dispositifs linguistiques tels que l'ironie, l'humour, le sarcasme, la métaphore, l'analogie, etc., afin de communiquer des significations indirectes qui, habituellement, ne sont pas interprétables en décodant simplement des informations syntaxiques ou sémantiques. Ceci entraîne une difficulté au niveau de la représentation linguistique ainsi qu’au niveau du traitement automatique du langage figuratif. Dans le cadre de cette thèse, nous nous focalisons sur l’ironie et le sarcasme avec un type particulier de données à savoir les tweets.

Dans ce cadre, nous proposons une approche par apprentissage supervisé afin de prédire si un tweet est ironique ou pas. Pour ce faire, nous avons suivi une démarche en trois étapes. Dans un premier temps, nous nous sommes intéressés à l’analyse des phénomènes pragmatiques utilisés pour exprimer l’ironie en nous inspirant des travaux en linguistique afin de définir un schéma d’annotation multi-niveaux pour l’ironie. Ce schéma d’annotation a été exploité dans le cadre d’une campagne d’annotation d’un corpus formé de 2000 tweets français. Dans une deuxième étape, en exploitant l’ensemble des observations faites sur le corpus annoté, nous avons développé un modèle de détection automatique pour les tweets en français qui exploite à la fois le contexte interne du tweet à travers des traits lexicaux et sémantiques et le contexte externe en recherchant des informations disponibles sur le web. Enfin, dans la troisième étape, nous avons étudié la portabilité du modèle pour la détection de l’ironie dans un cadre multilingue (italien, anglais et arabe). Nous avons ainsi testé la performance du schéma d’annotation proposé sur l’italien et l’anglais et nous avons testé la performance du modèle de détection automatique à base de traits sur la langue arabe.

Les résultats obtenus pour cette tâche extrêmement complexe sont très encourageants et sont une piste à explorer pour l'amélioration de la détection de polarité lors de l'analyse de sentiments.

Mot(s)-clé(s) : Opinion, opinion implicite, langage figuratif, ironie, sarcasme, schéma d’annotation.

Virtual reality as a means of re-learning for disabled people and in service of tourism

Date : 16/12/2016
Heure : 10h00
Lieu : LIUM Laval
Intervenant : Heni Cherni (ATER au LIUM) (LIUM - EIAH)

La réalité virtuelle (RV) permet à l’utilisateur de s’extraire de son environnement quotidien et de s’immerger dans un environnement virtuel où il peut observer, interagir, dialoguer mais aussi apprendre de nouvelles habilités. Cette souplesse a ouvert de nouveaux horizons dans plusieurs domaines tels que la robotique, l’urbanisme, l’industrie, l’art, l’éducation, etc. Dans mes travaux de recherche, je me suis intéressé à l’utilisation de la RV pour la rééducation cognitive après accident vasculaire cérébral ou un traumatisme crânien. Cette rééducation a pour objectif l’amélioration de la performance des sujets dans des activités de vie quotidienne simulées en exploitant les différents caractéristiques de l’information délivrée par le système virtuel. J’ai aussi mis en place des environnements virtuels pour la valorisation des patrimoines historiques et des jeux sérieux pour favoriser l’apprentissage en histoire.




Pérégrinations de recherche : de l’Ingénierie des Connaissances au Learning Analytics en direction du Big Data

Date : 11/01/2017
Heure : 10h30
Lieu : LIUM Laval
Intervenant : Olivier Champalle

Les traces numériques d'activités sont le reflet d'une activité ou d'activités en cours ou passées concernant des entités humaines ou non. Elles peuvent être exploitées dans un but d'analyse, de compréhension voir d'apprentissage automatique. Dés lors elles sont "sources de connaissances »... à condition d'utiliser les bons outils et les bons modèles de connaissances ! Ces réflexions sont le centre d'intérêt de l'Ingénierie des Connaissances "Tracées" et le sujet de mes recherches. Dans ce séminaire je présenterais deux aspects de l'IC tracée.

  • Le premier, est mon travail de thèse accomplie à EDF. A la lisière du Learning Analytics, l'objectif était d'exploiter des traces numériques provenant de simulateur pleine échelle pour assister les formateurs dans la conduite des activités d'analyse et de débriefing des sessions de formations.
  • Le deuxième est une ouverture en direction du Big Data via une activité que j'ai eu l'occasion d'exercer dans une startup : la création d'un moteur d'apprentissage et de recommandation basé sur un graphe de données.
J'ai gardé de ces deux expériences un intérêt pour le traitement des données et souhaiterais poursuivre mes recherches dans ce domaine avec une orientation EIAH. Je vous propose d'en discuter par la suite.




Une esquisse de mes travaux, sur l’apprentissage automatique et la segmentation thématique, au PASTEL

Date : 09/11/2016
Heure : 14h00
Lieu : Salle de conseil, IC2, Le Mans Université
Intervenant : Nicolas Dugué

En proposant d'utiliser les résultats de la transcription automatique d'un cours pour la création de plateformes SPOC, le projet PASTEL fédère les deux équipes du LIUM. Dans cet exposé, je propose d'inscrire mes travaux passés dans le cadre du projet PASTEL en créant des passerelles avec certains des enjeux du projet, qu'ils soient liés aux thématiques EIAH ou à celles de LST. Je détaillerai dans une première partie mes travaux liés à la caractérisation des utilisateurs du réseau Twitter. Nous discuterons notamment des attributs qui peuvent être utilisés pour caractériser l'influence d'un utilisateur. Les travaux décrits sont un exemple d'utilisation de l'apprentissage automatique pour étudier des comportements humains, ils peuvent ainsi être transposés à la caractérisation d'un apprenant, notamment en y intégrant des connaissances métiers adaptés. Dans une seconde partie, je détaillerai deux méthodes de segmentations thématiques (un des enjeux de PASTEL) : l'une en mode synchrone pour la détection d'évènements sur Twitter, et l'autre asynchrone utilisée dans le cadre de corpus de publications scientifiques. Nous verrons pourquoi cette dernière est adaptée à l'extraction de mots-clés et au résumé automatique.




Alex Ter-Sarkisov

Date : 09/06/2011
Heure : 15h
Lieu : IC2
Intervenant : Alex Ter-Sarkisov

Une présentation sur les “Long Short-Term Memory” en salle des conseils.