SAVID – Speaker and Audiovisual Interpretable Deepfake Detection
Encadrant(e)s :
Marie Tahon (direction) et Aghilas Sini (co-encadrement) au LIUM et
Arnaud Delhay (co-direction) et Damien Lolive (co-encadrement) à l’IRISA
Equipe d’accueil : LST-LIUM et EXPRESSION-IRISA
Lieu : Le Mans
Début de la thèse : Octobre 2025
Contact : aghilas.sini(at)univ-lemans.fr, arnaud.delhay(at)irisa.fr
Descriptif de la thèse :
La prolifération des modèles de synthèse vocale et faciale a entraîné une augmentation significative des attaques par spoofing, où des identités audio-visuelles sont falsifiées. Cette question pose des enjeux majeurs en matière de sécurité et de confiance dans les com- munications numériques. Les techniques actuelles de détection, fondées sur des modèles neuronaux exploitant des représentations spectrales ou visuelles, présentent des limites en termes d’interprétabilité, ce qui entrave la compréhension des facteurs qui conduisent à l’échec des systèmes de détection et de localisation.
Objectifs :
Cette thèse vise à créer un système de vérification d’identité audiovisuelle efficace qui détectera les deepfakes et localise les segments corrompus, peu importe la langue parlée. Pour atteindre cet objectif, la thèse est composée de trois phases principales :
Phase 1 : Vérification du locuteur et détection de deepfakes multimodales
Cette phase a pour but d’établir une base de référence en testant diverses combinaisons audio/vidéo (authentique/falsifié) afin d’évaluer les performances initiales de l’existant présenter dans [CGA+24]. Elle comprend aussi la qualification des données par l’analyse des erreurs du système, la détection des données mal annotées et l’analyse des facteurs d’erreur associés aux locuteurs et aux types d’attaques.
Phase 2 : Analyse fine des échantillons partiellement corrompus
Il s’agit de segmenter les enregistrements audiovisuels afin de localiser les segments falsifiés. Deux façons de segmentation seront abordées : a) l’utilisation de plongements de locuteur atemporels (x-vecteurs [SGRS+18]) pour une segmentation globale-b) l’utilisation de représentations SSL (WavLM [CWC+22]) pour une segmentation plus fine au niveau de la trame.
Phase 3 : Construction d’un espace latent interprétable et explicable
Pour structurer l’espace latent du système, nous souhaiterions utiliser des méthodes de prototypage [AMO+24] pour encoder des facteurs déterminants (qualité vocale, mouvements des lèvres) et améliorer l’explicabilité du système en identifiant les éléments qui contribuent à la prise de décision.
Les avancées escomptées de cette thèse comprennent :
- Un système de vérification d’identité audiovisuelle robuste et interprétable.
- Une meilleure compréhension des facteurs conduisant à l’échec des systèmes de détection de deepfakes.
- Des techniques de segmentation et de localisation précises des segments falsifiés.
- Un espace latent structuré et explicable, permettant d’identifier les éléments contribuant à la prise de décision.
Profil recherché:
Niveau : Bac+5 (master ou école ingénieur) en Informatique parcours IA, traitement automatique des langues ou Cybersecurité.
Candidature:
Si vous souhaitez postuler pour cette thèse, veuillez envoyer votre candidature (CV et lettre de motivation) à Aghilas SINI (aghilas.sini(at)univ-lemans.fr), Arnaud DELHAY (arnaud.delhay(at)irisa.fr) avant le 4 avril 2025.
Les candidatures seront examinées au fil du temps.
L’appel à projets de financement de thèse s’adresse exclusivement aux étudiants ressortissants de l’Union Européenne, du Royaume-Uni ou de la Suisse
Références
- [AMO+24] Antonio Almudévar, Théo Mariotte, Alfonso Ortega, Marie Tahon, Luis Vi- cente, Antonio Miguel, and Eduardo Lleida. Predefined prototypes for intra- class separation and disentanglement. arXiv preprint arXiv :2406.16145, 2024.
- [CGA+24] Zhixi Cai, Shreya Ghosh, Aman Pankaj Adatia, Munawar Hayat, Abhinav Dhall, Tom Gedeon, and Kalin Stefanov. Av-deepfake1m : A large-scale llm-driven audio-visual deepfake dataset. In Proceedings of the 32nd ACM International Conference on Multimedia, pages 7414–7423, 2024.
- [CWC+22] Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, et al. Wavlm : Large-scale self-supervised pre-training for full stack speech processing. IEEE Journal of Selected Topics in Signal Processing, 16(6) :1505–1518, 2022.
- [SGRS+18] David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey, and San- jeev Khudanpur. X-vectors : Robust dnn embeddings for speaker recognition. In 2018 IEEE International Conference on Acoustics, Speech and Signal Pro- cessing (ICASSP), pages 5329–5333, 2018.