Modelo Flax do Pierre em Português para Reconhecimento de Fala (ASR)

Este repositório é um fork do repositório original criado por Pierre Guillou. Ele contém uma versão convertida do modelo Whisper da OpenAI, fine-tuned no conjunto de dados common_voice_11_0 para o idioma Português.

Resultados

O modelo atinge os seguintes resultados no conjunto de avaliação:

  • Perda (Loss): 0.2628
  • Taxa de Erro de Palavra (Word Error Rate - WER): 6.5987

Para obter mais informações sobre este modelo, consulte este post do autor no blog: Speech-to-Text & IA | Transcreva qualquer áudio para o português com o Whisper (OpenAI)... sem nenhum custo!.

Este modelo, batizado de "Portuguese Medium Whisper", é superior ao modelo original Whisper Medium da OpenAI na transcrição de áudios em português (e inclusive melhor que o modelo Whisper Large, que possui um WER de 7.1).

Treinamento

Training Loss Epoch Step Validation Loss Wer
0.0333 2.07 1500 0.2073 6.9770
0.0061 5.05 3000 0.2628 6.5987
0.0007 8.03 4500 0.2960 6.6979
0.0004 11.0 6000 0.3212 6.6794

Framework versions

  • Transformers 4.26.0.dev0
  • Pytorch 1.13.0+cu117
  • Datasets 2.7.1.dev0
  • Tokenizers 0.13.2
Downloads last month
9
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train RogerioFreitas/whisper-medium-portuguese

Evaluation results