L’analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues (TAL). En effet, ces dernières années ont vu se multiplier les sources de données textuelles porteuses d’opinion disponibles sur le web : avis d’internautes, de plus en plus centralisés par les moteurs de recherche, forums, réseaux sociaux, enquêtes consommateurs effectuées par les grandes marques, etc. Devant cette abondance de données et de sources, l’automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d’ensemble des opinions sur un sujet donné. L’intérêt de ces données est considérable pour les sociétés qui souhaitent obtenir un retour client sur leurs produits comme pour les personnes souhaitant se renseigner pour un achat, une sortie, ou un voyage.

Depuis les années 2000, un grand nombre de travaux ont été publiés sur le sujet, faisant de l’extraction d’opinion un domaine très actif dans la recherche en TAL. Globalement, les systèmes actuels ont obtenus de bons résultats sur la classification automatique du caractère subjectif ou objectif d’un document. En revanche, ceux obtenus sur la tâche d’analyse de polarité (qui consiste à classer le document sur une échelle de subjectivité allant du plus positif au plus négatif) restent encore peu concluants. La raison principale de cet échec est l’incapacité des algorithmes actuels à comprendre toutes les subtilités du langage humain, telles que l’usage du langage figuratif.

Contrairement au langage littéral, le langage figuratif exploite quelques dispositifs linguistiques tels que l’ironie, l’humour, le sarcasme, la métaphore, l’analogie, etc., afin de communiquer des significations indirectes qui, habituellement, ne sont pas interprétables en décodant simplement des informations syntaxiques ou sémantiques. Ceci entraîne une difficulté au niveau de la représentation linguistique ainsi qu’au niveau du traitement automatique du langage figuratif. Dans le cadre de cette thèse, nous nous focalisons sur l’ironie et le sarcasme avec un type particulier de données à savoir les tweets.

Dans ce cadre, nous proposons une approche par apprentissage supervisé afin de prédire si un tweet est ironique ou pas. Pour ce faire, nous avons suivi une démarche en trois étapes. Dans un premier temps, nous nous sommes intéressés à l’analyse des phénomènes pragmatiques utilisés pour exprimer l’ironie en nous inspirant des travaux en linguistique afin de définir un schéma d’annotation multi-niveaux pour l’ironie. Ce schéma d’annotation a été exploité dans le cadre d’une campagne d’annotation d’un corpus formé de 2000 tweets français. Dans une deuxième étape, en exploitant l’ensemble des observations faites sur le corpus annoté, nous avons développé un modèle de détection automatique pour les tweets en français qui exploite à la fois le contexte interne du tweet à travers des traits lexicaux et sémantiques et le contexte externe en recherchant des informations disponibles sur le web. Enfin, dans la troisième étape, nous avons étudié la portabilité du modèle pour la détection de l’ironie dans un cadre multilingue (italien, anglais et arabe). Nous avons ainsi testé la performance du schéma d’annotation proposé sur l’italien et l’anglais et nous avons testé la performance du modèle de détection automatique à base de traits sur la langue arabe.

Les résultats obtenus pour cette tâche extrêmement complexe sont très encourageants et sont une piste à explorer pour l’amélioration de la détection de polarité lors de l’analyse de sentiments.

Mot(s)-clé(s) : Opinion, opinion implicite, langage figuratif, ironie, sarcasme, schéma d’annotation.

Leave a comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *