Investigating Audio-Visual DeepFakes Detection

Niveau : Master 1
Encadrement : Aghilas Sini, Meysam Shamsi
Equipe d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Lieu : Le Mans
Début du stage : Mai 2025
Contact : Aghilas Sini, Meysam Shamsi (prénom.nom@univ-lemans.fr)
Candidature : Envoyer votre CV, une lettre de motivation adaptée au sujet proposé, ainsi que le relevé de notes le plus récent, possibilité de joindre un avis ou des lettres de recommandations. à l’ensemble des encadrants, avant le 28 février 2025
 

Introduction

Les « deepfakes » constituent une préoccupation croissante à l’ère des médias numériques, car ils peuvent miner la confiance en créant des contenus audiovisuels modifiés de manière convaincante. Le développement de méthodes efficaces pour identifier les médias manipulés est essentiel pour lutter contre la désinformation et garantir l’intégrité de la communication numérique. Ce stage se concentre sur les techniques de détection de deepfake en exploitant les données audiovisuelles et les méthodologies de pointe.

 

Objectifs

L’obectif final est d’entrainer un modèle capable de prédire l’originalité d’un segment de vidéo/parole donné. Ce projet de divise en deux parties principales :

Analyse bibliographique (4 semaines) :

  • Étudier les ensembles de données existants, en mettant l’accent sur la compréhension des caractéristiques de l’ensemble de données « AV-Deepfake1M » [1], qui contient des segments vidéo/parole étiquetés et marqués comme réels ou faux.
  • Analyser les architectures de modèles de pointe pour la détection de deepfake, y compris les approches qui intègrent les modalités audio et visuelles [2,3,4].

Reproduire et tester les méthodes (6 semaines) :

  • Reproduire les modèles de détection de deepfake existants en utilisant le « AV-Deepfake1M » [3,4]
  • Évaluer ces méthodes en termes de précision, d’efficacité et de généralisation [5]
  • Identifier les limites potentielles et proposer des modifications ou des améliorations pour accroître les performances

 

Perspectives

Les résultats de ce stage contribueront au développement de systèmes de détection de deepfake fiables et évolutifs, ouvrant la voie à des publications et à d’autres initiatives de recherche dans ce domaine essentiel.

Ce stage sert de base à une collaboration à long terme avec le laboratoire CENATAV (La Havane, Cuba), un groupe de recherche qui possède une grande expertise dans la détection de deepfake basée sur la vidéo. Le partenariat vise à aller au-delà du projet actuel, en encourageant l’innovation dans la détection des médias manipulés et en relevant les défis émergents de l’analyse multimodale.

 

Profil recherché

Master 1 en informatique
 

References

[1]. Cai, Zhixi, et al. “AV-Deepfake1M: A large-scale LLM-driven audio-visual deepfake dataset.” Proceedings of the 32nd ACM International Conference on Multimedia. 2024.
[2]. Audio-Visual Deepfake Detection [https://github.com/qiqitao77/Awesome-Comprehensive-Deepfake-Detection?tab=readme-ov-file#multi-modal-deepfake-detection]
[3]. Zhang, Rui, et al. “Ummaformer: A universal multimodal-adaptive transformer framework for temporal forgery localization.” Proceedings of the 31st ACM International Conference on Multimedia. 2023. [https://github.com/ymhzyj/UMMAFormer]
[4]. Liu, Weifeng, et al. “Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes.” arXiv preprint arXiv:2401.15668 (2024). [https://github.com/AaronComo/LipFD]
[5]. Baseline code audio-visual-deepfake [https://github.com/vcbsl/audio-visual-deepfake/tree/main]