Séminaire, pré-soutenance de thèse d’Amira Barhoumi, doctorante Lium

 

Date: 18/11/2020
Heure: 11h00
Lieu: online
Intervenante: Amira Barhoumi

 

Une approche neuronale pour l’analyse d’opinions en arabe

 

Résumé:

Cette thèse s’inscrit dans le cadre de l’analyse d’opinions en arabe. Son objectif consiste à déterminer la polarité globale d’un énoncé textuel donné écrit en Arabe standard moderne (ASM) ou dialectes arabes. Cette thématique est un domaine de recherche en plein essor et a fait l’objet de nombreuses études avec une majorité de travaux actuels traitant des langues indo-européennes, en particulier la langue anglaise. Une des difficultés à laquelle se confronte cette thèse est le traitement de la langue arabe qui est une langue morphologiquement riche avec une grande variabilité des formes de surface observables dans les données d’apprentissage. Nous souhaitons pallier ce problème en produisant, de manière totalement automatique et contrôlée, de nouvelles représentations vectorielles continues (en anglais embeddings) spécifiques à la langue arabe.

Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection de polarité, en exploitant la puissance des embeddings. En effet, ceux-ci se sont révélés un atout fondamental dans différentes tâches de traitement automatique des langues naturelles (TALN).

Notre contribution dans le cadre de cette thèse porte plusieurs axes. Nous commençons, d’abord, par une étude préliminaire des différentes ressources d’embeddings de mots pré-entraînés existants en langue arabe.

Ces embeddings considèrent les mots comme étant des unités séparées par des espaces afin de capturer, dans l’espace de projection, des similarités sémantiques et syntaxiques. Ensuite, nous nous focalisons sur les spécificités de la langue arabe en proposant des embeddings spécifiques pour cette langue. Les phénomènes comme l’agglutination et la richesse morphologique de l’arabe sont alors pris en compte. Ces embeddings spécifiques ont été utilisés, seuls et combinés, comme entrée à deux réseaux neuronaux (l’un convolutif et l’autre récurrent) apportant une amélioration des performances dans la détection de polarité sur un corpus de revues.

Nous proposons une analyse poussée des embeddings proposées. Dans une évaluation intrinsèque, nous proposons un nouveau protocole introduisant la notion de la stabilité de polarités (sentiment stability) dans l’espace d’embeddings. Puis, nous proposons une analyse qualitative extrinsèque de nos embeddings en utilisant des méthodes de projection et de visualisation.