wasertech
/

wav2vec2-cv-fr-9

Automatic Speech Recognition

Inference Endpoints

Model card Files Files and versions Community

Create README.md

#1

by wasertech - opened May 7, 2023

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +49 -0

README.md ADDED Viewed

	@@ -0,0 +1,49 @@

+---
+license: mpl-2.0
+language:
+- fr
+---
+Click here to read this model card in English.
+Modèle Français de transcription vocale ajusté sur plus de 2'500 heures d'audio (en français) à partir du modèle de base Wav2Vec2 XLSR 53 du laboratoire R&D de MetaAI.
+Ce modèle à été entraîné sur les mêmes sets de données que le [modèle français 0.9]() afin de comparer les performances de l'architecture DeepSpeech2 (DeepSpeech/STT+KenLM) et du decoder CTC de Wav2Vec2.
+Il s'agit d'une distribution uniquement déstinée à des fins de recherches et d'évaluation regie par la licence publique de Mozilla dans sa version 2.0.
+## Jeux de données :
+-   Lingua Libre (~40h)
+-   Common Voice FR (v9.0) (~850h)
+-   Training Speech (~180h)
+-   African Accented French (~15h)
+-   M-AILABS French (~315h)
+-   Att-HACK (~75h)
+-   Multilingual LibriSpeech (~1'100h)
+Total : ~2'573h
+## Paramètres
+## Licence :
+[Mozilla Public License (MPL) 2.0](https://github.com/common-voice/commonvoice-fr/blob/5699e59244d14bb14d5b7603b91c934b761c9194/DeepSpeech/LICENSE.txt)
+## Résultats sur les sets de test:
+Test effectué avec le module d'évaluation de TranScorerLM sur les données pré-transformées au format d'entraînement CSV de DeepSpeech/STT.
+## Notes de l'entraîneur
+Cette version 0.99-pre du modèle français utilise une nouvelle architecture à l'instar des distributions précédentes basées sur l'architecture DeepSpeech2 avec un modèle de langage KenLM; cette nouvelle distribution utilise l'architecture Wav2vec2.
+Utilisant également un decoder CTC en tant que scorer en sortie d'un modèle acoustique, Wav2vec2, à l'avantage de KenLM, tire pleinement parti des avancées introduites depuis la démocratisation des transformers dans l'application de l'art.
+Ces avancées se perçoivent dans les mesures du taux d'erreur par mot (WER) et par caractère (CER) mais également lors de l'utilisation du modèle.
+La prochaine étape consiterait à ajouter, mettre à jour et augmenter les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc - c.f. Modèle 0.9 - ) mais également en applicant des transformations plus essentielles tel que l'echo et autres diverses diformations de l'entrée. Nous pourrions profiter des avancées dans le domaine des transformers pour identifier le bruit et entraîner un modèle pour le supprimer et ne garder que le discours. Nous pourrions alors utiliser la sortie d'un tel modèle en entrée de celui-ci. Cela améliorerait grandement la precision de la transcription dans des conditions de bruit extrême.
+Pour améliorer les performence du modèle sur vos données il est préconisé de l'ajuster sur celles-ci.
+Fonctionne avec Transformers.