Le LIUM diffuse plusieurs logiciels et ressources tel que des corpus. Certaines productions ont fait l’objet de dépôts auprès de l’Agence de Protection des Programmes (APP) via la Société d’Accélération du Transfert de Technologies (SATT) Ouest Valorisation. La grande majorité des productions est diffusée sous licence libre, plus ou moins contraignante (GPL, LGPL, Creative Common v3, CeCILL).

Logiciels diffusés

NMTPY

Description :

nmtpy is a suite of Python tools for training mono- and multimodal neural machine translation systems using Theano.


GitLab : lien

We also provide some features from a ResNet50 CNN encoder for the images of the MultiFlickr corpus. They corresponds to the splits available on the webpage of the MMT'16 shared task. Direct link: splits . [table “35” not found /]

CSLM

Description :

Continuous Space Language Model toolkit


URL : lien

CSLM toolkit is open-source software which implements the so-called continuous space language model. The basic idea of this approach is to project the word indices onto a continuous space and to use a probability estimator operating on this space. Since the resulting probability functions are smooth functions of the word representation, better generalization to unknown events can be expected. A neural network can be used to simultaneously learn the projection of the words onto the continuous space and to estimate the n-gram probabilities. This is still a n-gram approach, but the LM probabilities are interpolated for any possible context of length n-1 instead of backing-off to shorter contexts. This approach was successfully used in large vocabulary continuous speech recognition and in phrase-based SMT systems. Detailed information is available in the following publications:
  • Holger Schwenk, Continuous Space Language Models , in Computer Speech and Language, volume 21, pages 492-518, 2007.
  • Holger Schwenk, Continuous Space Language Models For Statistical Machine Translation, The Prague Bulletin of Mathematical Linguistics, number 83, pages 137-146, 2010.
  • Holger Schwenk, Anthony Rousseau and Mohammed Attik; Large, Pruned or Continuous Space Language Models on a GPU for Statistical Machine Translation, in NAACL workshop on the Future of Language Modeling, June 2012.
  • Holger Schwenk; Continuous Space Translation Models for Phrase-Based Statistical Machine Translation, in Coling, Dec 2012. Holger Schwenk; CSLM - A modular Open-Source Continuous Space Language Modeling Toolkit, in Interspeech, August 2013.
When using this software, please cite those references. The development of the CSLM toolkit was partially financed by the European projects EuroMatrix and Matecat, the ANR project COSMAT and the DARPA project BOLT.

Downloads

[table “34” not found /]

The toolkit will be frequently updated. You can join the CSLM google group to be informed on updates, bug fixes or discuss best usage.


TED-LIUM

Description :

Corpus TED-LIUM


Licences : Creative Commons BY-NC-ND 3.0
URL : lien

All talks and text are property of TED Conferences LLC.

The TED-LIUM corpus was made from audio talks and their transcriptions available on the TED website. We have prepared and filtered these data in order to train acoustic models to participate to the International Workshop on Spoken Language Translation 2011 (the LIUM English/French SLT system reached the first rank in the SLT task).

More details are given in this paper:
A. Rousseau, P. Deléglise, and Y. Estève, "Enhancing the TED-LIUM Corpus with Selected Data for Language Modeling and More TED Talks", in Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), May 2014.

Please cite this reference if you use these data in your research work.

Contents:

  • 1495 audio talks in NIST sphere format (SPH)
  • 1495 transcripts in STM format
  • Dictionary with pronunciation (159848 entries)
  • Selected monolingual data for language modeling from WMT12 publicly available corpora

SPH format info:

  • Channels : 1
  • Sample Rate : 16000
  • Precision : 16-bit
  • Bit Rate : 256k
  • Sample Encoding : 16-bit Signed Integer PCM

MANY

Description :

Open Source Machine Translation System Combination.


Licences : GNU GPL v3
URL : lien

Many un logiciel de combinaison de systèmes de traduction automatique statistique dont l'architecture est décrite dans le schéma suivant :

La combinaison se décompose en 3 étapes

  • Les meilleures hypothèses des M systèmes sont alignées de manière incrémentale afin de générer M réseaux de confusion (chaque système est tout à tour considéré comme squelette).
  • Ces réseaux de confusion sont ensuite connectés ensemble pour former un graphe. Le premier noeud de chaque réseau est connecté à un même noeud avec un arc ne supportant aucun mot mais avec une probabilité a priori assignée à ce backbone. Les noeuds finaux de chaque réseau sont connectés à un même noeud final avec une probabilité de 1.
  • Un décodeur à jetons est utilisé pour décoder le graphe à l'aide d'un modèle de langage afin de produire les n-meilleures hypothèses de combinaison.

Le décodeur calcule les scores suivants :

  • Len(W) est la taille de l'hypothèse,
  • Pws(n) est le score du n-ième mot,
  • α est le facteur d'interpolation,
  • Plm(n) est la probabilité linguistique du n-ième mot,
  • Lenpen(w) est la pénalité sur la taille de l'hypothèse,
  • Nullpen(w) est la pénalité sur le nombre d'epsilon-arcs traversés pour obtenir l'hypothèse.

LIUM Speaker Diarization

Description :

Outil de segmentation et regroupement locuteur (Speaker diarization) en java.


Licences : GPL
URL : lien


Hop3x

Description :

Hop3x is an IT Environmentfor Human Learning dedicated to learning programming at Le Mans University.

  1. Després C, Jacoboni P Hop3x : Un Environnement de Suivi de TP de Programmation. Logiciel, Université du Maine,  2010


Licences : (c)LIUM/DeptInfo
URL : lien


s4d

Description :

Speaker diarization tools.


Licences : LGPL
GitLab : lien
URL : lien


Sidekit

Description :

Outils de reconnaissance du locuteur.


Licences : LGPL
GitLab : lien
URL : lien