Corpus : MANY

Licences : GNU GPL v3
URL : https://code.google.com/archive/p/many/

Many un logiciel de combinaison de systèmes de traduction automatique statistique dont l’architecture est décrite dans le schéma suivant :

 

 

La combinaison se décompose en 3 étapes

  • Les meilleures hypothèses des M systèmes sont alignées de manière incrémentale afin de générer M réseaux de confusion (chaque système est tout à tour considéré comme squelette).
  • Ces réseaux de confusion sont ensuite connectés ensemble pour former un graphe. Le premier noeud de chaque réseau est connecté à un même noeud avec un arc ne supportant aucun mot mais avec une probabilité a priori assignée à ce backbone. Les noeuds finaux de chaque réseau sont connectés à un même noeud final avec une probabilité de 1.
  • Un décodeur à jetons est utilisé pour décoder le graphe à l’aide d’un modèle de langage afin de produire les n-meilleures hypothèses de combinaison.

Le décodeur calcule les scores suivants :

  • Len(W) est la taille de l’hypothèse,
  • Pws(n) est le score du n-ième mot,
  • α est le facteur d’interpolation,
  • Plm(n) est la probabilité linguistique du n-ième mot,
  • Lenpen(w) est la pénalité sur la taille de l’hypothèse,
  • Nullpen(w) est la pénalité sur le nombre d’epsilon-arcs traversés pour obtenir l’hypothèse.