ImanNalia
/

ft_wav2vec2_base_thirty

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

ft_wav2vec2_base_thirty

This model is a fine-tuned version of facebook/wav2vec2-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.6535
Wer: 32.0197
Cer: 14.4551

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 32
eval_batch_size: 16
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000
training_steps: 2700

Training results

Training Loss	Epoch	Step	Validation Loss	Wer	Cer
4.2536	1.75	500	3.0201	99.9919	99.8547
2.7796	3.51	1000	1.8276	90.7584	46.9070
0.9842	5.26	1500	0.7994	43.5201	19.4787
0.595	7.02	2000	0.7414	37.7699	17.0733
0.4215	8.77	2500	0.6535	32.0197	14.4551

Framework versions

Transformers 4.39.3
Pytorch 1.12.1+cu116
Datasets 2.18.0
Tokenizers 0.15.2

Downloads last month: 6

Safetensors

Model size

94.4M params

Tensor type

F32

·

Inference Providers NEW

Automatic Speech Recognition

This model is not currently available via any of the supported Inference Providers.

Model tree for ImanNalia/ft_wav2vec2_base_thirty

Base model

facebook/wav2vec2-base

Finetuned

(733)

this model

Evaluation results

Metadata error: specify a dataset to view leaderboard