Corpus: ArSentimentAnalysis (ArSentimentAnalysis)

GitHub: https://github.com/amirabaroumi/ArSentimentAnalysis


Le package ArSentimentAnalysis comprend un ensemble de ressources permettant de concevoir et évaluer un système d’analyse d’opinions en arabe.

Le package contient:

  1. Des ensembles d’embeddings spécifiques à l’arabe pré-entrainés
  2. Le lexique polarisé ArSentLex

1/ Ensembles d’embeddings spécifiques à l’arabe :

Les embeddings pré-entrainés existants représentent un mot arabe sans considération des caractéristiques d’agglutination et de la richesse morphologique de l’arabe. Ce package contient un ensemble d’embeddings spécifiques à la langue arabe.

L’arabe est une langue caractérisée par son agglutination et sa richesse morphologique. Si on considère que la définition d’un mot, au sens graphique, est une séquence de caractères délimitée par deux séparateurs (blanc ou autre marqueur de séparation, tel que la ponctuation), alors un mot en arabe peut avoir une structure très complexe. En effet, ce mot peut être décomposable en proclitique(s), forme fléchie et enclitique(s). Dans cette perspective, nous supposons qu’une décomposition en éléments simples du mot complexe pourrait réduire améliorer la qualité des embeddings.

Or, l’application d’outils TAL semble réduire la fausse diversité du vocabulaire arabe et construire des espaces d’embeddings: de tokens, de lemmes et de light stemmes. Ainsi, nous mettons à la disponibilité des embeddings spécifiques à la langue arabe.
La dimension des embeddings est égale à 300. Pour plus d’information sur les différents espaces d’embeddings, merci de vous référer à l’article [1].

2/ Le Lexique polarisé ArSentLex

Il représente une fusion de tous les lexiques de sentiment disponibles à notre connaissance. Cela représente un ensemble de 15 lexiques construits avec différentes méthodes.
ArSentLex est défini comme un 5-uplet défini (w, pos, ps, ns, p), où: w est un mot, pos : son étiquette morphosyntaxique, ps : son score de positivité, ns: son score de négativité et p : sa polarité (positive ou négative). Autrement dit, chaque w est décrit par quatre descripteurs : pos, ps, ns et p.
ArSentLex contient 51968 mots positifs et 45638 mots négatifs.

Références

Ce package a fait l’objet d’une publication aux conférences ICALP2019. Vous trouverez dans l’article de plus amples informations.

Si vous utilisez une des ressources de ce package, merci de citer l’article suivant :

Barhoumi A., Camelin N., Aloulou C., Estève Y., Hadrich Belguith L. (2019) An Empirical Evaluation of Arabic-Specific Embeddings for Sentiment Analysis. In: Smaïli K. (eds) Arabic Language Processing: From Theory to Practice. ICALP 2019. Communications in Computer and Information Science, vol 1108. Springer, Cham