Click here to read this model card in English.

French voice transcription model adjusted on more than 2,500 hours of audio (in French) from the base model Wav2Vec2 XLSR 53 from the R&D laboratory of MetaAI.

This model was trained on the same datasets as the French model 0.9 in order to compare the performance of the DeepSpeech2 architecture (DeepSpeech/STT+KenLM) and the CTC decoder of Wav2Vec2.

This is a distribution for research and evaluation purposes only under the Mozilla Public License version 2.0.

Datasets:

  • Lingua Libre (~40h)
  • Common Voice FR (v9.0) (~850h)*
  • Speech Training (~180h)
  • African Accented French (~15h)*
  • M-AILABS French (~315h)*
  • Att-HACK (~75h)
  • Multilingual LibriSpeech (~1 100h)

Total: ~1 395h (comming soon ~2 573h)

* Comming Soon

Settings

Licence :

Mozilla Public License (MPL) 2.0

Results on test sets:

Test performed with TranScorerLM evaluation module on data pre-transformed to DeepSpeech/STT CSV training format.

Test set WER REC
Multilingual LibriSpeech (MLS) 25.74% 8.14%
African Accent French 66.12% 34.56%
TrainingSpeech 14.56% 3.68%
LinguaLibre 38.62% 9.30%
M-AILABS FR 15.90% 4.28%
Att-HACK 6.07% 2.78%
CommonVoice FR 9.0 35.98% 12.10%
Average 22.16% 7.03%

Trainer's Notes

This 0.99-pre version of the French model uses a new architecture. Unlike previous distributions based on the DeepSpeech2 architecture with a KenLM language model; this new distribution uses the Wav2vec2 architecture.

Also using a CTC decoder as an output scorer of an acoustic model, Wav2vec2, to the advantage of KenLM, takes full advantage of the advances introduced since the democratization of transformers in the application of the art.

These advances can be seen in the measurements of the error rate per word (WER) and per character (CER) but also when using the model.

The next step would be to add, update and augment the acoustic model data with one or more background noise layers from various noise source environments (a fan, a car, a crowd of people, etc - c.f. Model 0.9 - ) but also by applying more essential transformations such as echo and other various distortions of the input. We could take advantage of advances in transformers to identify the noise and train a model to remove it and keep only the speech. We could then use the output of such a model as input to this one. This would greatly improve transcription accuracy under extreme noise conditions.

To improve the performance of the model on your data, it is recommended to adjust it on them.

Works with Transformers.


Modèle Français de transcription vocale ajusté sur plus de 2'500 heures d'audio (en français) à partir du modèle de base Wav2Vec2 XLSR 53 du laboratoire R&D de MetaAI.

Ce modèle à été entraîné sur les mêmes sets de données que le modèle français 0.9 afin de comparer les performances de l'architecture DeepSpeech2 (DeepSpeech/STT+KenLM) et du decoder CTC de Wav2Vec2.

Il s'agit d'une distribution uniquement déstinée à des fins de recherches et d'évaluation regie par la licence publique de Mozilla dans sa version 2.0.

Jeux de données :

  • Lingua Libre (~40h)
  • Common Voice FR (v9.0) (~850h)*
  • Training Speech (~180h)
  • African Accented French (~15h)*
  • M-AILABS French (~315h)*
  • Att-HACK (~75h)
  • Multilingual LibriSpeech (~1'100h)

Total: ~1'395h (bientôt disponible ~2'573h)

* Bientôt disponible

Paramètres

Licence :

Mozilla Public License (MPL) 2.0

Résultats sur les sets de test:

Test effectué avec le module d'évaluation de TranScorerLM sur les données pré-transformées au format d'entraînement CSV de DeepSpeech/STT.

Test set WER CER
Multilingual LibriSpeech (MLS) 25.74% 8.14%
African Accented French 66.12% 34.56%
TrainingSpeech 14.56% 3.68%
LinguaLibre 38.62% 9.30%
M-AILABS FR 15.90% 4.28%
Att-HACK 6.07% 2.78%
CommonVoice FR 9.0 35.98% 12.10%
Moyenne 22.16% 7.03%

Notes de l'entraîneur

Cette version 0.99-pre du modèle français utilise une nouvelle architecture à l'instar des distributions précédentes basées sur l'architecture DeepSpeech2 avec un modèle de langage KenLM; cette nouvelle distribution utilise l'architecture Wav2vec2.

Utilisant également un decoder CTC en tant que scorer en sortie d'un modèle acoustique, Wav2vec2, à l'avantage de KenLM, tire pleinement parti des avancées introduites depuis la démocratisation des transformers dans l'application de l'art.

Ces avancées se perçoivent dans les mesures du taux d'erreur par mot (WER) et par caractère (CER) mais également lors de l'utilisation du modèle.

La prochaine étape consiterait à ajouter, mettre à jour et augmenter les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc - c.f. Modèle 0.9 - ) mais également en applicant des transformations plus essentielles tel que l'echo et autres diverses diformations de l'entrée. Nous pourrions profiter des avancées dans le domaine des transformers pour identifier le bruit et entraîner un modèle pour le supprimer et ne garder que le discours. Nous pourrions alors utiliser la sortie d'un tel modèle en entrée de celui-ci. Cela améliorerait grandement la precision de la transcription dans des conditions de bruit extrême.

Pour améliorer les performence du modèle sur vos données il est préconisé de l'ajuster sur celles-ci.

Fonctionne avec Transformers.

Downloads last month
19
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Space using wasertech/wav2vec2-cv-fr-9 1