Quand les algorithmes reproduisent les stéréotypes : le cas du traitement automatique du langage

Écriture : Victor Connes et Nicolas Dugué
Relecture de contenu : Manon Cassier et Loïc Grobol
Relecture de forme : Lucile Riaboff et Mathilde Ruby

Temps de lecture : environ 10 minutes.
Thématiques : Traitement automatique du langage (Linguistique, Informatique)

Publication originale : Bolukbasi T., et al., Man is to computer programmer as woman is to homemaker? debiasing word embeddings. NIPS Proceedings β, 2016

Voir l’article complet sur le site de Papier Mâché.

Résumé

Le traitement automatique du langage tente de résoudre des tâches comme la traduction, les systèmes de dialogue humain-machine ou la catégorisation de documents. Ces systèmes informatiques ont généralement besoin de représentations du vocabulaire humain compréhensibles par la machine. Appris par des algorithmes exploitant de grands corpus de données textuelles, les plongements lexicaux partagent ces propriétés. Cependant, ces représentations reproduisent les stéréotypes latents dans les gros corpus utilisés, comme les stéréotypes de genre évoqués dans l’article de Bolukbasi et ses collègues.