speecht5_finetuned_zarma

This model is a fine-tuned version of microsoft/speecht5_tts on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 4
eval_batch_size: 2
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 50
training_steps: 1000
mixed_precision_training: Native AMP

Training Loss	Epoch	Step	Validation Loss
1.5691	5.0	50	nan
1.344	10.0	100	nan
1.2707	15.0	150	nan
1.2013	20.0	200	nan
1.1879	25.0	250	nan
1.1566	30.0	300	nan
1.1643	35.0	350	nan
1.1565	40.0	400	nan
1.129	45.0	450	nan
1.1296	50.0	500	nan
1.0962	55.0	550	nan
1.1026	60.0	600	nan
1.104	65.0	650	nan
1.1059	70.0	700	nan
1.0776	75.0	750	nan
1.0894	80.0	800	nan
1.0651	85.0	850	nan
1.0668	90.0	900	nan
1.0835	95.0	950	nan
1.0651	100.0	1000	nan

Safetensors

Model size

0.1B params

Tensor type

F32

Base model

Finetuned

this model