Yevhenii Prokopalo – Laboratoire d'Informatique de l'Université du Mans

Soutenance de thèse, Yevhenii Prokopalo

Date : 20/10/2022
Heure : 14h00
Lieu : IC2, salle des conseils, en ligne

Titre : Corrections assistées par l’humain pour la diarisation incrementale de collection

Composition du jury :

Claude BARRAS, Chercheur, HDR, Vocapia, Rapporteur
Corinne FREDOUILLE, Professeur, LIA, Avignon, Rapportrice
Sophie ROSSSET, Professeur, Université Paris Saclay, Examinatrice
Hervé BREDIN, Chargé de Recherche, IRIT, Toulouse, Examinateur
Gaël LE LAN, Chercheur, META FASTAI, Examinateur
Anthony LARCHER, Professeur, LIUM, Université du Mans, Directeur de thèse
Loïc BARRAULT , Chercheur, META AI, Co-encadrant

Résumé :

La tâche de diarisation des locuteurs, également appelée segmentation et regroupement en locuteurs, consiste à déterminer le nombre de locuteurs et le moment où ils parlent dans un document audio ou un ensemble de documents audio. Cette tâche intéresse de nombreuses entreprises souhaitant indexer leurs contenus audiovisuels, améliorer l’accessibilité et fournir des annotations pour leur contenu audio. De plus, la diarisation du locuteur est utilisée comme étape de prétraitement pour de nombreuses autres tâches de traitement de la parole telles que la reconnaissance de parole, la reconnaissance du locuteur et des émotions, etc.

Pour être valable, la qualité des annotations des documents audio doit atteindre un niveau suffisant qui n’est, la plupart du temps, pas encore atteint par les systèmes de diarisation automatiques du locuteur à l’état de l’art. Pour atteindre les performances souhaitées, de nombreuses entreprises emploient des annotateurs humains pour produire des annotations manuelles à partir de zéro ou, afin de réduire le coût du processus d’annotation, demandent à l’expert du domaine humain de corriger la sortie d’un système de diarisation automatique. Néanmoins, l’intervention humaine est généralement chronophage et très coûteuse en raison de la difficulté de la tâche et de l’énorme quantité de données à traiter.

Même lors de la correction d’une annotation automatique existante, le processus manuel est extrêmement long, coûteux et fastidieux pour plusieurs raisons. Tout d’abord, l’expert du domaine humain ne sait pas quelle partie de l’annotation corriger et doit souvent écouter l’intégralité du document audio pour vérifier l’exactitude des annotations. Ce processus est très sous optimal. La deuxième raison est qu’un système automatique est susceptible d’effectuer de nombreuses erreurs du même type que l’expert du domaine humain devra corriger une par une au fil du temps. Cela rend la tâche répétitive et peut-être très frustrante pour l’annotateur.

Cette recherche a été réalisée dans le cadre du projet européen ChistERA ALLIES, qui vise à jeter les bases du développement de systèmes intelligents autonomes maintenant leurs performances dans le temps. Un tel système non supervisé devrait être capable de se mettre à jour automatiquement et d’effectuer une auto-évaluation pour être au courant de l’évolution de sa propre acquisition de connaissances. Il doit s’adapter à un environnement changeant en suivant un scénario d’apprentissage donné qui équilibre l’importance de la performance sur les données passées et présentes pour éviter une régression indésirable. De tels systèmes ne pourraient être développés sans des métriques et des protocoles adaptés permettant leur évaluation objective et reproductible. Cette évaluation doit évaluer en continu la performance sur la tâche donnée et quantifier l’effort requis pour l’atteindre en matière de données non supervisées collectées par le système et d’interaction avec les humains dans le cas de l’apprentissage actif. Le projet ALLIES vise à développer, évaluer et diffuser ces métriques et protocoles. Notre objectif dans le projet était d’appliquer le concept d’apprentissage tout au long de la vie assistée par l’humaine à la tâche de diarisation du locuteur. Plus précisément, notre travail vise à fournir un moyen efficace d’interagir entre le système de diarisation et un expert du domaine humain afin d’améliorer la qualité de la diarisation tout en limitant la quantité d’effort humain nécessaire.

Pour mener à bien la tâche de diarisation des locuteurs d’apprentissage tout au long de la vie, nous avons dû trouver des solutions à plusieurs problèmes.

Le premier problème auquel nous avons été confrontés est l’absence d’une définition standard de l’apprentissage tout au long de la vie assistée par l’humain. Dans la littérature, il existe diverses définitions, principalement développées pour le domaine des systèmes de dialogue. Il fallait en proposer une alternative, qui corresponde mieux au périmètre du projet ALLIES. Une autre question était la diversité des différents types d’interactions entre les systèmes automatiques et les humains, qui n’avaient pas de nomenclature commune dans la littérature.

Après avoir fourni ces définitions, nous avons été confrontés à l’absence du matériel nécessaire pour développer et évaluer des systèmes de diarisation de locuteurs d’apprentissage tout au long de la vie assistée par l’humain. Il n’y avait pas de corpus, de protocoles ni de mesures pour prendre en compte la spécificité du processus d’apprentissage tout au long de la vie. Une attention particulière a été accordée à la métrique d’évaluation car les métriques existantes ne prenaient pas en compte l’interaction avec l’expert humain ou le processus d’apprentissage tout au long de la vie.

Finalement, l’une des principales questions était le développement du système de diarisation assistée par l’humain elle-même. Un tel système nécessite des méthodes et des stratégies spécifiques pour interagir avec l’expert du domaine humain qui ne sont pas bien développées, en particulier dans le domaine de la diarisation du locuteur.

Dans ce manuscrit, nous proposons notre point de vue sur la définition des systèmes intelligents d’apprentissage tout au long de la vie. Notre point de vue se concentre sur l’optimisation du modèle pour les futures données entrantes et sur la minimisation de l’effet d’oubli, lorsque les nouvelles versions du modèle fonctionnent moins bien que les versions précédentes sur les données précédentes. Nous avons également proposé une nomenclature des différents types d’interactions entre le système intelligent et l’expert humain.

Nous avons développé un corpus conçu pour l’évaluation des systèmes de diarisation de l’apprentissage tout au long de la vie. Le corpus proposé a un certain nombre de propriétés telles que les horodatages et le nombre élevé de locuteurs récurrents annotés, ce qui permet de le traiter dans l’ordre chronologique et d’apprendre de nouvelles informations à partir des changements de voix des locuteurs récurrents. Ces propriétés rendent le corpus proposé unique. Il s’agit du seul corpus public pouvant être utilisé pour évaluer la tâche de diarisation avec apprentissage tout au long de la vie.

Un autre apport de notre travail est la métrique d’évaluation des systèmes assistés par l’humaine. Une proposition de métrique a été développée pour le cas général, c’est-à-dire pour estimer la per- formance sur différentes tâches. Elle a été appliquée non seulement pour la tâche de diarisation mais aussi sur la tâche de traduction automatique (métrique BLEU) dans le cadre du projet ALLIES. Le terme de pénalisation estime la quantité d’informations fournies par l’expert humain en dans la même unité que la métrique correspondante et pénalise le score final pour mettre en évidence l’effet de généralisation du système assisté par l’humain. Nous avons également présenté plusieurs protocoles grâce auxquels il est possible d’effectuer l’évaluation de différents systèmes d’apprentissage tout au long de la vie assistés par l’humain.

La principale contribution de nos travaux réside dans le développement des méthodes de diarisation intra-show et inter-show assistées par l’humain. En intra-show, le système assisté par l’humain est fondé sur l’analyse du dendrogramme obtenu lors de l’étape finale du regroupement agglomératif hiérarchique, puis en posant des questions à des experts humain du domaine afin d’améliorer le regroupement. Pour cette tâche, nous avons proposé diverses stratégies pour sélectionner la question à poser et pour sélectionner les segments qui devraient être comparés par l’expert du domaine. Aussi, nous avons testé différents critères d’arrêt pour décider quand il n’est pas raisonnable de continuer à poser des questions. Pour la diarisation intra-show, nous avons obtenu une réduction du DER allant jusqu’à 18,83% et une réduction du DER pénalisé jusqu’à 9,94% par rapport aux systèmes de base. Les résultats sur le DER pénalisé peuvent également être interprétés comme corrigeant près de 10% des erreurs uniquement en généralisant à partir des informations obtenues auprès de l’expert humain.

Pour la diarisation inter-show, le système assisté par l’humain est basé sur l’analyse de la matrice de pseudo-distance basée sur les représentations du locuteur. Pour cette tâche, nous avons testé différentes stratégies de représentation et de sélection des locuteurs qui doivent être comparés pour résoudre le problème de la variabilité entre les émissions. Nous avons également testé différents critères d’arrêt pour poser des questions. Pour la diarisation croisée, nous avons obtenu une réduction encore plus importante : jusqu’à 34,19% relatifs pour les DER et jusqu’à 14,31% relatifs pour les DER pénalisés. Les résultats sur le DER pénalisé montrent que nous sommes parvenus à corriger 14,31% d’erreurs par généralisation des informations obtenues auprès de l’expert humain. Pour les deux tâches, des tests ont été appliqués sur différents systèmes de base pour avoir plus de détails sur la performance des stratégies proposées.

Ces résultats ouvrent la voie à de nouvelles recherches. Une des perspectives est de combiner les stratégies intra-show et inter-show. Il est possible de les utiliser séquentiellement, mais il serait plus intéressant de les utiliser simultanément et d’éviter les questions éventuellement inutiles. Un tel résultat pourrait être atteint en comparant des segments de l’émission en cours entre eux et avec les représentations des locuteurs des émissions précédentes. En d’autres termes, fusionnez la résolution de deux tâches : la diarisation intra-show et inter-show en une seule étape.

L’étape importante restante à résoudre est le développement d’une méthode d’adaptation tout au long de la vie pour la diarisation du locuteur. Nous avons tenté de créer une telle solution (non rapportée dans ce manuscrit), mais nous avons été bloqués par les faibles performances de la diarisation inter-show en raison de la forte variabilité inter-show. Nous nous sommes concentrés sur la solution à ce problème en utilisant la diarisation inter-show assistée par l’humain. Les résultats obtenus peuvent permettre de créer le pipeline complet d’apprentissage tout au long de la vie et d’utiliser les informations recueillies auprès de l’expert humain, non seulement pour améliorer les résultats actuels, mais aussi pour adapter le système afin qu’il soit plus performant en général. Il serait également intéressant d’adapter les méthodes proposées pour des approches neuronales de bout en bout, car cela peut ouvrir la voie à un processus d’adaptation du système plus simple et plus efficac.

Mots clés :

Apprentisage tout au long de la vie, Apprentisage actif, Diarisation, Diarisation incrementale de collection