Système de détection extrinsèque et intrinsèque de plagiat dans les manuscrits rédigés en langue française
Date: 26/04/2019
Heure: 11h00
Lieu: IC2, Salle des Conseils
Intervenant(s): Maryam Elamine
Cette thèse propose une méthode hybride de détection de plagiat. Nous recourons à la détection extrinsèque de plagiat qui permet de comparer deux documents (un document source et un document suspect). En effet, cette méthode s’articule autour des fonctions de comparaison de segments (chaines de caractères). Toutefois, en cas d’absence du document source (documents appartenant au Web invisible, documents protégés, documents payants, etc.) nous recourons à la détection intrinsèque de plagiat. Cette dernière, à travers l’analyse stylistique, permet d’analyser localement un document afin de cerner les fluctuations stylistiques dans les passages suspects. L’amalgame entre la détection extrinsèque et celle intrinsèque offrira la possibilité de remédier aux limites de ces deux méthodes. Comme techniques, nous exploitons les réseaux de neurones et en particulier les embeddings pour la détection de similarité entre documents. Nous nous basons aussi sur les outils d’analyse de Big Data pour améliorer l’efficience.