metadata

language: pt
license: apache-2.0
tags:
  - generated_from_trainer
  - whisper-event
datasets:
  - mozilla-foundation/common_voice_11_0
metrics:
  - wer
model-index:
  - name: openai/whisper-medium
    results:
      - task:
          name: Automatic Speech Recognition
          type: automatic-speech-recognition
        dataset:
          name: mozilla-foundation/common_voice_11_0
          type: mozilla-foundation/common_voice_11_0
          config: pt
          split: test
          args: pt
        metrics:
          - name: Wer
            type: wer
            value: 6.598745817992301

Modelo Flax do Pierre em Português para Reconhecimento de Fala (ASR)

Este repositório é um fork do repositório original criado por Pierre Guillou. Ele contém uma versão convertida do modelo Whisper da OpenAI, fine-tuned no conjunto de dados common_voice_11_0 para o idioma Português.

Resultados

O modelo atinge os seguintes resultados no conjunto de avaliação:

Perda (Loss): 0.2628
Taxa de Erro de Palavra (Word Error Rate - WER): 6.5987

Para obter mais informações sobre este modelo, consulte este post do autor no blog: Speech-to-Text & IA | Transcreva qualquer áudio para o português com o Whisper (OpenAI)... sem nenhum custo!.

Este modelo, batizado de "Portuguese Medium Whisper", é superior ao modelo original Whisper Medium da OpenAI na transcrição de áudios em português (e inclusive melhor que o modelo Whisper Large, que possui um WER de 7.1).

Treinamento

Training Loss	Epoch	Step	Validation Loss	Wer
0.0333	2.07	1500	0.2073	6.9770
0.0061	5.05	3000	0.2628	6.5987
0.0007	8.03	4500	0.2960	6.6979
0.0004	11.0	6000	0.3212	6.6794

Framework versions

Transformers 4.26.0.dev0
Pytorch 1.13.0+cu117
Datasets 2.7.1.dev0
Tokenizers 0.13.2