Séminaire de Meysam Shamsi, Maître de conférence, Natacha Miniconi, doctorante, et Matthieu François, doctorant
Date : 08 décembre 2025
Heure : 09h00
Lieu : IC2, Salle du Conseil
Intervenants : Meysam Shamsi, Natacha Miniconi, Matthieu François
Active Machine Learning: Strategies for Efficient Data Selection, Annotation, and Model Improvement (by Meysam Shamsi):
Cette présentation introduit les principes fondamentaux de l’apprentissage automatique actif, dans lequel le modèle participe activement à la sélection des données plutôt que de consommer passivement un ensemble de données fixe. Elle met en évidence les limites de l’apprentissage supervisé traditionnel, en particulier dans les applications à grande échelle et dans le monde réel, où l’annotation est coûteuse et peu pratique. Les principales stratégies d’échantillonnage (diversité (exploration des zones sous-représentées de l’espace de données), incertitude (exploitation de la confusion du modèle près des limites de décision) et minimisation des erreurs (apprentissage du modèle à reconnaître ce qu’il ne connaît pas)) sont expliquées à l’aide de méthodes pratiques telles que le clustering, la détection des outliers, l’incertitude basée sur la perturbation, les comités de modèles et les prédicteurs auxiliaires de familiarité ou d’exactitude.
La présentation aborde également la qualité des annotations, les interfaces d’annotation efficaces, l’étiquetage semi-supervisé et les défis liés à la mise à jour des modèles avec de nouvelles données. Enfin, elle met l’accent sur les protocoles d’évaluation et la nature itérative de l’apprentissage actif, démontrant comment une sélection plus intelligente des échantillons peut réduire considérablement les coûts d’annotation tout en améliorant les performances des modèles dans des domaines en constante évolution.
Active Learning for Speech Synthesis Quality Prediction (by Natacha Miniconi) :
Ce travail explore la possibilité de réduire l’effort humain dans l’évaluation de la synthèse vocale en combinant l’apprentissage actif et des métriques proxy automatiques. Dans la première étude, des stratégies de sélection basées sur l’incertitude (MC-Dropout, bruit antagoniste) et axées sur la diversité ont été testées afin d’identifier les échantillons les plus informatifs pour l’annotation MOS. Ces méthodes permettent une interrogation plus intelligente des données, en donnant la priorité aux échantillons pour lesquels le prédicteur est incertain ou dont les caractéristiques acoustiques s’écartent du matériel précédemment annoté. Les expériences démontrent qu’une telle sélection ciblée accélère l’adaptation du modèle, améliore la prédiction MOS dans toutes les langues et tous les domaines, et réduit la quantité de données étiquetées requises par rapport à l’échantillonnage aléatoire.
La deuxième étude examine des alternatives au MOS, en utilisant des scores de détection des deepfakes et des métriques basées sur les formants phonétiques. Les résultats montrent que les classificateurs de deepfakes sont corrélés au MOS et permettent un classement évolutif de la qualité de la synthèse vocale dans des contextes à faibles ressources, tandis que les mesures de l’espace vocalique fournissent des indices diagnostiques interprétables sur la qualité de la synthèse. Dans l’ensemble, cette approche tend vers une évaluation plus automatisée et plus efficace de la qualité de la synthèse vocale, réduisant ainsi la dépendance à l’égard de l’étiquetage subjectif par l’homme.
Using Active Learning for the Study of Online Environmental Controversies (by Matthieu François)
Les réseaux sociaux constituent le principal espace de discussion en ligne, où les discours sont « libres » et spontanés. Les méthodes d’apprentissage supervisées et non supervisées ont été largement utilisées pour leur étude. Aujourd’hui, les modèles de langue génératifs (LLM) sont explorés dans de nombreux travaux sur l’annotation automatique et, en particulier, sur leur application dans les sciences sociales. Cependant, plusieurs articles ont montré leurs limites et les risques liés à une utilisation trop large. Le compromis entre ces différentes approches fait donc toujours l’objet de recherches. Dans tous les cas, l’annotation des données reste nécessaire pour adapter et évaluer un modèle.
À travers le cas réel de la classification des médias sociaux en collaboration avec des spécialistes en sciences sociales, cette présentation montrera une approche complète pour construire un corpus et un modèle de classification de textes multi-labels, à partir d’un large ensemble de données non étiquetées. Ce travail a impliqué la participation d’annotateurs experts et la comparaison de différentes stratégies d’apprentissage actif pour l’annotation des données. La classification est étudiée à l’aide de classificateurs de type Bert et LLMs. Notre travail met en lumière les défis pratiques liés à la résolution de projets complexes de classification multi-labels avec une équipe interdisciplinaire.

English
