Amira Barhoumi – Laboratoire d'Informatique de l'Université du Mans

Soutenance de thèse, Amira Barhoumi

Date : 23/11/2020
Heure : 10h00
Lieu : bâtiment IC2, LIUM, Université du Mans

Titre : Une approche neuronale pour l’analyse d’opinions en arabe

Composition du jury :
Rapporteurs :
– Kamel Smaïli Professeur, Université de Lorraine, France
– Nadia Essoussi Professeur, Université de Tunis, Tunisie
Examinateurs :
– Emmanuel Morin, Professeur, Université de Nantes, France
– Anthony Larcher, Professeur, Le Mans Université, France
Directeur et Directrice de Thèse :
– Yannick Estève, Professeur, Université d’Avignon, France
– Lamia Hadrich Belguith, Professeur, FSEGS, Université de Sfax, Tunisie
Co-encadrante :
– Nathalie Camelin, Maître de conférences, Le Mans Université, France
Invité :
– Chafik Aloulou, Maître de conférences, FSEGS, Université de Sfax, Tunisie

Résumé :

Cette thèse s’inscrit dans le cadre de l’analyse d’opinions en arabe. Son objectif consiste à déterminer la polarité globale d’un énoncé textuel donné écrit en Arabe standard moderne (ASM) ou dialectes arabes. Cette thématique est un domaine de recherche en plein essor et a fait l’objet de nombreuses études avec une majorité de travaux actuels traitant des langues indo-européennes, en particulier la langue anglaise. Une des difficultés à laquelle se confronte cette thèse est le traitement de la langue arabe qui est une langue morphologiquement riche avec une grande variabilité des formes de surface observables dans les données d’apprentissage. Nous souhaitons pallier ce problème en produisant, de manière totalement automatique et contrôlée, de nouvelles représentations vectorielles continues (en anglais embeddings) spécifiques à la langue arabe.

Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection de polarité, en exploitant la puissance des embeddings. En effet, ceux-ci se sont révélés un atout fondamental dans différentes tâches de traitement automatique des langues naturelles (TALN).

Notre contribution dans le cadre de cette thèse porte plusieurs axes. Nous commençons, d’abord, par une étude préliminaire des différentes ressources d’embeddings de mots pré-entraînés existants en langue arabe.

Ces embeddings considèrent les mots comme étant des unités séparées par des espaces afin de capturer, dans l’espace de projection, des similarités sémantiques et syntaxiques. Ensuite, nous nous focalisons sur les spécificités de la langue arabe en proposant des embeddings spécifiques pour cette langue. Les phénomènes comme l’agglutination et la richesse morphologique de l’arabe sont alors pris en compte. Ces embeddings spécifiques ont été utilisés, seuls et combinés, comme entrée à deux réseaux neuronaux (l’un convolutif et l’autre récurrent) apportant une amélioration des performances dans la détection de polarité sur un corpus de revues.

Nous proposons une analyse poussée des embeddings proposées. Dans une évaluation intrinsèque, nous proposons un nouveau protocole introduisant la notion de la stabilité de polarités (sentiment stability) dans l’espace d’embeddings. Puis, nous proposons une analyse qualitative extrinsèque de nos embeddings en utilisant des méthodes de projection et de visualisation.

Mots-clés :

Analyse d’opinions, Réseaux de neurones convolutifs, Réseaux de neurones récurrents, représentation vectorielle continue, langue arabe.