Corpus : Multi30k Dataset (Multi30k)

Licences : Attribution-NonCommercial-ShareAlike 4.0 International
GitHub : https://github.com/multi30k


La base de données Flickr30K contient 31 014 images provenant de sites Web de partage de photos en ligne (Young et al., 2014). Chaque image est associée à cinq descriptions en anglais, recueillies auprès d’Amazon Mechanical Turk2. Le jeu de données contient 145 000 descriptions d’entrainement, 5 070 descriptions de développement et 5 000 descriptions de test. La base de données Multi30K étend la base de données Flickr30K avec des phrases allemandes indépendantes traduites. La traduction en français a été réalisée par le laboratoire LIUM.

En cas d’utilisation, merci de citer l’article Multi30K: Multilingual English-German Image Descriptions.