steja commited on Dec 20, 2022

Commit

5bf5f2f

•

1 Parent(s): 1e2bd91

persian whisper small ft

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +92 -0
added_tokens.json +109 -0
all_results.json +12 -0
checkpoint-1000/config.json +41 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/preprocessor_config.json +0 -0
checkpoint-1000/pytorch_model.bin +3 -0
checkpoint-1000/rng_state_0.pth +3 -0
checkpoint-1000/rng_state_1.pth +3 -0
checkpoint-1000/rng_state_2.pth +3 -0
checkpoint-1000/rng_state_3.pth +3 -0
checkpoint-1000/scaler.pt +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/trainer_state.json +274 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1500/config.json +41 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/preprocessor_config.json +0 -0
checkpoint-1500/pytorch_model.bin +3 -0
checkpoint-1500/rng_state_0.pth +3 -0
checkpoint-1500/rng_state_1.pth +3 -0
checkpoint-1500/rng_state_2.pth +3 -0
checkpoint-1500/rng_state_3.pth +3 -0
checkpoint-1500/scaler.pt +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/trainer_state.json +403 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-2000/config.json +41 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/preprocessor_config.json +0 -0
checkpoint-2000/pytorch_model.bin +3 -0
checkpoint-2000/rng_state_0.pth +3 -0
checkpoint-2000/rng_state_1.pth +3 -0
checkpoint-2000/rng_state_2.pth +3 -0
checkpoint-2000/rng_state_3.pth +3 -0
checkpoint-2000/scaler.pt +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/trainer_state.json +532 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2500/config.json +41 -0
checkpoint-2500/optimizer.pt +3 -0
checkpoint-2500/preprocessor_config.json +0 -0
checkpoint-2500/pytorch_model.bin +3 -0
checkpoint-2500/rng_state_0.pth +3 -0
checkpoint-2500/rng_state_1.pth +3 -0
checkpoint-2500/rng_state_2.pth +3 -0
checkpoint-2500/rng_state_3.pth +3 -0
checkpoint-2500/scaler.pt +3 -0
checkpoint-2500/scheduler.pt +3 -0
checkpoint-2500/trainer_state.json +661 -0

README.md ADDED Viewed

	@@ -0,0 +1,92 @@

+---
+language:
+- fa
+license: apache-2.0
+tags:
+- whisper-event
+- generated_from_trainer
+datasets:
+- mozilla-foundation/common_voice_11_0
+metrics:
+- wer
+model-index:
+- name: Whisper small Persian
+  results:
+  - task:
+      name: Automatic Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: mozilla-foundation/common_voice_11_0 fa
+      type: mozilla-foundation/common_voice_11_0
+      config: null
+      split: None
+    metrics:
+    - name: Wer
+      type: wer
+      value: 32.89950864725314
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Whisper small Persian
+This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on the mozilla-foundation/common_voice_11_0 fa dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4924
+- Wer: 39.8995
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- training_steps: 5000
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Wer     |
+|:-------------:|:-----:|:----:|:---------------:|:-------:|
+| 0.5533        | 1.56  | 500  | 0.7044          | 54.5499 |
+| 0.3951        | 3.12  | 1000 | 0.5893          | 47.5210 |
+| 0.3296        | 4.67  | 1500 | 0.5429          | 42.6451 |
+| 0.2662        | 6.23  | 2000 | 0.5223          | 40.6644 |
+| 0.2535        | 7.79  | 2500 | 0.5045          | 38.5304 |
+| 0.224         | 9.35  | 3000 | 0.5002          | 36.8822 |
+| 0.2204        | 10.9  | 3500 | 0.4967          | 35.3076 |
+| 0.2024        | 12.46 | 4000 | 0.4951          | 34.9883 |
+| 0.2099        | 14.02 | 4500 | 0.4921          | 34.9842 |
+| 0.1836        | 15.58 | 5000 | 0.4924          | 34.8995 |
+### Framework versions
+- Transformers 4.25.1
+- Pytorch 1.13.0+cu117
+- Datasets 2.7.1
+- Tokenizers 0.13.2

added_tokens.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "<|af|>": 50327,
+  "<|am|>": 50334,
+  "<|ar|>": 50272,
+  "<|as|>": 50350,
+  "<|az|>": 50304,
+  "<|ba|>": 50355,
+  "<|be|>": 50330,
+  "<|bg|>": 50292,
+  "<|bn|>": 50302,
+  "<|bo|>": 50347,
+  "<|br|>": 50309,
+  "<|bs|>": 50315,
+  "<|ca|>": 50270,
+  "<|cs|>": 50283,
+  "<|cy|>": 50297,
+  "<|da|>": 50285,
+  "<|de|>": 50261,
+  "<|el|>": 50281,
+  "<|endoftext|>": 50257,
+  "<|en|>": 50259,
+  "<|es|>": 50262,
+  "<|et|>": 50307,
+  "<|eu|>": 50310,
+  "<|fa|>": 50300,
+  "<|fi|>": 50277,
+  "<|fo|>": 50338,
+  "<|fr|>": 50265,
+  "<|gl|>": 50319,
+  "<|gu|>": 50333,
+  "<|haw|>": 50352,
+  "<|ha|>": 50354,
+  "<|hi|>": 50276,
+  "<|hr|>": 50291,
+  "<|ht|>": 50339,
+  "<|hu|>": 50286,
+  "<|hy|>": 50312,
+  "<|id|>": 50275,
+  "<|is|>": 50311,
+  "<|it|>": 50274,
+  "<|iw|>": 50279,
+  "<|ja|>": 50266,
+  "<|jw|>": 50356,
+  "<|ka|>": 50329,
+  "<|kk|>": 50316,
+  "<|km|>": 50323,
+  "<|kn|>": 50306,
+  "<|ko|>": 50264,
+  "<|la|>": 50294,
+  "<|lb|>": 50345,
+  "<|ln|>": 50353,
+  "<|lo|>": 50336,
+  "<|lt|>": 50293,
+  "<|lv|>": 50301,
+  "<|mg|>": 50349,
+  "<|mi|>": 50295,
+  "<|mk|>": 50308,
+  "<|ml|>": 50296,
+  "<|mn|>": 50314,
+  "<|mr|>": 50320,
+  "<|ms|>": 50282,
+  "<|mt|>": 50343,
+  "<|my|>": 50346,
+  "<|ne|>": 50313,
+  "<|nl|>": 50271,
+  "<|nn|>": 50342,
+  "<|nocaptions|>": 50362,
+  "<|notimestamps|>": 50363,
+  "<|no|>": 50288,
+  "<|oc|>": 50328,
+  "<|pa|>": 50321,
+  "<|pl|>": 50269,
+  "<|ps|>": 50340,
+  "<|pt|>": 50267,
+  "<|ro|>": 50284,
+  "<|ru|>": 50263,
+  "<|sa|>": 50344,
+  "<|sd|>": 50332,
+  "<|si|>": 50322,
+  "<|sk|>": 50298,
+  "<|sl|>": 50305,
+  "<|sn|>": 50324,
+  "<|so|>": 50326,
+  "<|sq|>": 50317,
+  "<|sr|>": 50303,
+  "<|startoflm|>": 50360,
+  "<|startofprev|>": 50361,
+  "<|startoftranscript|>": 50258,
+  "<|su|>": 50357,
+  "<|sv|>": 50273,
+  "<|sw|>": 50318,
+  "<|ta|>": 50287,
+  "<|te|>": 50299,
+  "<|tg|>": 50331,
+  "<|th|>": 50289,
+  "<|tk|>": 50341,
+  "<|tl|>": 50348,
+  "<|transcribe|>": 50359,
+  "<|translate|>": 50358,
+  "<|tr|>": 50268,
+  "<|tt|>": 50351,
+  "<|uk|>": 50280,
+  "<|ur|>": 50290,
+  "<|uz|>": 50337,
+  "<|vi|>": 50278,
+  "<|yi|>": 50335,
+  "<|yo|>": 50325,
+  "<|zh|>": 50260
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 15.58,
+    "eval_loss": 0.4923795163631439,
+    "eval_runtime": 1370.1044,
+    "eval_samples_per_second": 7.509,
+    "eval_steps_per_second": 0.118,
+    "eval_wer": 39.89950864725314,
+    "train_loss": 0.3303420036315918,
+    "train_runtime": 21571.4866,
+    "train_samples_per_second": 14.834,
+    "train_steps_per_second": 0.232
+}

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "openai/whisper-small",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 12,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "use_cache": false,
+  "vocab_size": 51865
+}

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6e47e4300e4e3bd21b0c869c587bdfcea35e8bf36cebb1e53270fe67f5f88ff
+size 1934161093

checkpoint-1000/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:effd83aa50562711333009da3acee71cb8d4cc97401631fc6051fb672aa01d45
+size 967102601

checkpoint-1000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc55a315e5b7e256395762f330f90c34727ffc733709c8144bb9eb79a2f1f225
+size 14519

checkpoint-1000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b943b140f7b35b4e08fe884358b1d5cd34372a8626a75ebdf6d8895e2b886e3
+size 14519

checkpoint-1000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a72f4ae227453cc8ce249882042f38fc236801402867a065febe98ec49fcc3eb
+size 14519

checkpoint-1000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8045f82b260f2c2d7af0513d9c0de4f50e24893816efc96d254dea13220280a
+size 14583

checkpoint-1000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dce1d2ae382ebe376f59073c1e3e94fa0133976fb67ca102a1b392494adc915
+size 557

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f250987d7a2989ae5f1dfe2a3d3533de6b31bfde834549e82ed7a565b251efa
+size 627

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,274 @@

+{
+  "best_metric": 47.521028231962916,
+  "best_model_checkpoint": "./whisper-small-Persian/checkpoint-1000",
+  "epoch": 3.1150855365474337,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.4e-08,
+      "loss": 1.4232,
+      "step": 25
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.4e-08,
+      "loss": 1.4027,
+      "step": 50
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.44e-07,
+      "loss": 1.3731,
+      "step": 75
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.94e-07,
+      "loss": 1.2969,
+      "step": 100
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2.4399999999999996e-07,
+      "loss": 1.1964,
+      "step": 125
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.9399999999999996e-07,
+      "loss": 1.0995,
+      "step": 150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 3.4399999999999996e-07,
+      "loss": 1.0068,
+      "step": 175
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.94e-07,
+      "loss": 0.8949,
+      "step": 200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.44e-07,
+      "loss": 0.8521,
+      "step": 225
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.94e-07,
+      "loss": 0.7694,
+      "step": 250
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 5.44e-07,
+      "loss": 0.7196,
+      "step": 275
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.939999999999999e-07,
+      "loss": 0.6902,
+      "step": 300
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 6.44e-07,
+      "loss": 0.6748,
+      "step": 325
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 6.939999999999999e-07,
+      "loss": 0.6247,
+      "step": 350
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.44e-07,
+      "loss": 0.63,
+      "step": 375
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.94e-07,
+      "loss": 0.5899,
+      "step": 400
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 8.439999999999999e-07,
+      "loss": 0.5628,
+      "step": 425
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.939999999999999e-07,
+      "loss": 0.5634,
+      "step": 450
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 9.439999999999999e-07,
+      "loss": 0.5549,
+      "step": 475
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 9.94e-07,
+      "loss": 0.5533,
+      "step": 500
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.7044046521186829,
+      "eval_runtime": 1265.1903,
+      "eval_samples_per_second": 8.132,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 54.54987091580379,
+      "step": 500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.95111111111111e-07,
+      "loss": 0.5329,
+      "step": 525
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.895555555555554e-07,
+      "loss": 0.5116,
+      "step": 550
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.84e-07,
+      "loss": 0.511,
+      "step": 575
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.784444444444444e-07,
+      "loss": 0.4963,
+      "step": 600
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.728888888888888e-07,
+      "loss": 0.5177,
+      "step": 625
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.673333333333332e-07,
+      "loss": 0.4947,
+      "step": 650
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.617777777777776e-07,
+      "loss": 0.4529,
+      "step": 675
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 9.562222222222223e-07,
+      "loss": 0.4543,
+      "step": 700
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 9.506666666666667e-07,
+      "loss": 0.4478,
+      "step": 725
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 9.451111111111111e-07,
+      "loss": 0.4421,
+      "step": 750
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.395555555555556e-07,
+      "loss": 0.4465,
+      "step": 775
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 9.34e-07,
+      "loss": 0.4164,
+      "step": 800
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.284444444444444e-07,
+      "loss": 0.4291,
+      "step": 825
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 9.228888888888888e-07,
+      "loss": 0.4149,
+      "step": 850
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 9.173333333333333e-07,
+      "loss": 0.4242,
+      "step": 875
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 9.117777777777778e-07,
+      "loss": 0.4329,
+      "step": 900
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 9.062222222222222e-07,
+      "loss": 0.4165,
+      "step": 925
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9.006666666666666e-07,
+      "loss": 0.4166,
+      "step": 950
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.95111111111111e-07,
+      "loss": 0.409,
+      "step": 975
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 8.895555555555555e-07,
+      "loss": 0.3951,
+      "step": 1000
+    },
+    {
+      "epoch": 3.12,
+      "eval_loss": 0.5893104076385498,
+      "eval_runtime": 1326.5175,
+      "eval_samples_per_second": 7.756,
+      "eval_steps_per_second": 0.121,
+      "eval_wer": 47.521028231962916,
+      "step": 1000
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 16,
+  "total_flos": 1.849716994470209e+19,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bda70737a84052aee98fe01ec95a00d27783f83ee9889ee9d6ffa0984826347e
+size 3579

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "openai/whisper-small",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 12,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "use_cache": false,
+  "vocab_size": 51865
+}

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:847a61d4fd60ee9d944adfb2acfc7039ceb8a4ed184bb09e0dfc78c7bb78a9d0
+size 1934161093

checkpoint-1500/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b773c4e1eb73396fab8cc0254287f1ac0298a07d6af06b9ba6b8ca0a99a6bc5
+size 967102601

checkpoint-1500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c241fb277d290b4db104171998a510d48dd6d96c6d37fdb5ea448dd0b2e6f723
+size 14647

checkpoint-1500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4db9742f4079692a73cad94c5651453235f2bbd8dc05620d82692f1f2189526a
+size 14583

checkpoint-1500/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97940afe4e3f5dd75207e0c11d204341b59b0e48f3c15c64a35e306180ab69a0
+size 14583

checkpoint-1500/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1143ff2c3189c690c8d13b34f0ede037dd914c70a4495c1c1e60700f6a62dbc5
+size 14519

checkpoint-1500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a1080490c5f23904ed7607a160b86a63d0fbf35f6ea0f13b4c1b02ec4a7646b
+size 557

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c9b0e7f2e678434af32e69234b2356b6547a35c00d4d4f5a4d4e7b59be2066b
+size 627

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,403 @@

+{
+  "best_metric": 44.64508786053355,
+  "best_model_checkpoint": "./whisper-small-Persian/checkpoint-1500",
+  "epoch": 4.671850699844479,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.4e-08,
+      "loss": 1.4232,
+      "step": 25
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.4e-08,
+      "loss": 1.4027,
+      "step": 50
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.44e-07,
+      "loss": 1.3731,
+      "step": 75
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.94e-07,
+      "loss": 1.2969,
+      "step": 100
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2.4399999999999996e-07,
+      "loss": 1.1964,
+      "step": 125
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.9399999999999996e-07,
+      "loss": 1.0995,
+      "step": 150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 3.4399999999999996e-07,
+      "loss": 1.0068,
+      "step": 175
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.94e-07,
+      "loss": 0.8949,
+      "step": 200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.44e-07,
+      "loss": 0.8521,
+      "step": 225
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.94e-07,
+      "loss": 0.7694,
+      "step": 250
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 5.44e-07,
+      "loss": 0.7196,
+      "step": 275
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.939999999999999e-07,
+      "loss": 0.6902,
+      "step": 300
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 6.44e-07,
+      "loss": 0.6748,
+      "step": 325
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 6.939999999999999e-07,
+      "loss": 0.6247,
+      "step": 350
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.44e-07,
+      "loss": 0.63,
+      "step": 375
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.94e-07,
+      "loss": 0.5899,
+      "step": 400
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 8.439999999999999e-07,
+      "loss": 0.5628,
+      "step": 425
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.939999999999999e-07,
+      "loss": 0.5634,
+      "step": 450
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 9.439999999999999e-07,
+      "loss": 0.5549,
+      "step": 475
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 9.94e-07,
+      "loss": 0.5533,
+      "step": 500
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.7044046521186829,
+      "eval_runtime": 1265.1903,
+      "eval_samples_per_second": 8.132,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 54.54987091580379,
+      "step": 500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.95111111111111e-07,
+      "loss": 0.5329,
+      "step": 525
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.895555555555554e-07,
+      "loss": 0.5116,
+      "step": 550
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.84e-07,
+      "loss": 0.511,
+      "step": 575
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.784444444444444e-07,
+      "loss": 0.4963,
+      "step": 600
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.728888888888888e-07,
+      "loss": 0.5177,
+      "step": 625
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.673333333333332e-07,
+      "loss": 0.4947,
+      "step": 650
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.617777777777776e-07,
+      "loss": 0.4529,
+      "step": 675
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 9.562222222222223e-07,
+      "loss": 0.4543,
+      "step": 700
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 9.506666666666667e-07,
+      "loss": 0.4478,
+      "step": 725
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 9.451111111111111e-07,
+      "loss": 0.4421,
+      "step": 750
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.395555555555556e-07,
+      "loss": 0.4465,
+      "step": 775
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 9.34e-07,
+      "loss": 0.4164,
+      "step": 800
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.284444444444444e-07,
+      "loss": 0.4291,
+      "step": 825
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 9.228888888888888e-07,
+      "loss": 0.4149,
+      "step": 850
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 9.173333333333333e-07,
+      "loss": 0.4242,
+      "step": 875
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 9.117777777777778e-07,
+      "loss": 0.4329,
+      "step": 900
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 9.062222222222222e-07,
+      "loss": 0.4165,
+      "step": 925
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9.006666666666666e-07,
+      "loss": 0.4166,
+      "step": 950
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.95111111111111e-07,
+      "loss": 0.409,
+      "step": 975
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 8.895555555555555e-07,
+      "loss": 0.3951,
+      "step": 1000
+    },
+    {
+      "epoch": 3.12,
+      "eval_loss": 0.5893104076385498,
+      "eval_runtime": 1326.5175,
+      "eval_samples_per_second": 7.756,
+      "eval_steps_per_second": 0.121,
+      "eval_wer": 47.521028231962916,
+      "step": 1000
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 8.839999999999999e-07,
+      "loss": 0.3808,
+      "step": 1025
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 8.784444444444444e-07,
+      "loss": 0.3786,
+      "step": 1050
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 8.728888888888889e-07,
+      "loss": 0.3811,
+      "step": 1075
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 8.673333333333332e-07,
+      "loss": 0.3644,
+      "step": 1100
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 8.617777777777777e-07,
+      "loss": 0.3737,
+      "step": 1125
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 8.562222222222222e-07,
+      "loss": 0.3698,
+      "step": 1150
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 8.506666666666667e-07,
+      "loss": 0.3601,
+      "step": 1175
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 8.451111111111111e-07,
+      "loss": 0.3675,
+      "step": 1200
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 8.395555555555556e-07,
+      "loss": 0.3588,
+      "step": 1225
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 8.34e-07,
+      "loss": 0.3541,
+      "step": 1250
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 8.284444444444444e-07,
+      "loss": 0.3537,
+      "step": 1275
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.228888888888889e-07,
+      "loss": 0.3666,
+      "step": 1300
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 8.173333333333333e-07,
+      "loss": 0.3242,
+      "step": 1325
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 8.117777777777778e-07,
+      "loss": 0.3212,
+      "step": 1350
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 8.062222222222221e-07,
+      "loss": 0.3374,
+      "step": 1375
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 8.006666666666666e-07,
+      "loss": 0.3259,
+      "step": 1400
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 7.95111111111111e-07,
+      "loss": 0.3361,
+      "step": 1425
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 7.895555555555555e-07,
+      "loss": 0.3355,
+      "step": 1450
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 7.84e-07,
+      "loss": 0.3254,
+      "step": 1475
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 7.784444444444444e-07,
+      "loss": 0.3296,
+      "step": 1500
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.5428555011749268,
+      "eval_runtime": 1299.6224,
+      "eval_samples_per_second": 7.916,
+      "eval_steps_per_second": 0.124,
+      "eval_wer": 44.64508786053355,
+      "step": 1500
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 16,
+  "total_flos": 2.774113755233203e+19,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bda70737a84052aee98fe01ec95a00d27783f83ee9889ee9d6ffa0984826347e
+size 3579

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "openai/whisper-small",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 12,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "use_cache": false,
+  "vocab_size": 51865
+}

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55615f6bde936bb1e58c190a081c5e2667f693ae46397930b43e29e8d9523962
+size 1934161093

checkpoint-2000/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0c7544da5f411a2cce995c121ea9d8fe855d38a67dd9376d4ff9bdc152e3f95
+size 967102601

checkpoint-2000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46b9c72c7eed1fd4c4f798e93fa1ede8521ac20b90fe4cf8875169df39ebe280
+size 14583

checkpoint-2000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8080778388d210607de5b81682e40562c65c649583ce16519fb3b8c62009fc41
+size 14583

checkpoint-2000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:073cd8a681f64f906aee66bc4e51e3745829cf0d7a5e40767cb64fd2ad8dcfb2
+size 14519

checkpoint-2000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b8de99171336a8003c52583af34523efe031e9e49849784cd4024882cdb3efb
+size 14583

checkpoint-2000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:172321c3064ae4a11267185f654f9636260463be1a922f305c5370008f78b7f2
+size 557

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07a414e9d8627cd29b61655f515b44908fdbf1b87394717d76f2608595276d9f
+size 627

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,532 @@

+{
+  "best_metric": 42.664408849901456,
+  "best_model_checkpoint": "./whisper-small-Persian/checkpoint-2000",
+  "epoch": 6.230171073094867,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.4e-08,
+      "loss": 1.4232,
+      "step": 25
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.4e-08,
+      "loss": 1.4027,
+      "step": 50
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.44e-07,
+      "loss": 1.3731,
+      "step": 75
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.94e-07,
+      "loss": 1.2969,
+      "step": 100
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2.4399999999999996e-07,
+      "loss": 1.1964,
+      "step": 125
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.9399999999999996e-07,
+      "loss": 1.0995,
+      "step": 150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 3.4399999999999996e-07,
+      "loss": 1.0068,
+      "step": 175
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.94e-07,
+      "loss": 0.8949,
+      "step": 200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.44e-07,
+      "loss": 0.8521,
+      "step": 225
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.94e-07,
+      "loss": 0.7694,
+      "step": 250
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 5.44e-07,
+      "loss": 0.7196,
+      "step": 275
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.939999999999999e-07,
+      "loss": 0.6902,
+      "step": 300
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 6.44e-07,
+      "loss": 0.6748,
+      "step": 325
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 6.939999999999999e-07,
+      "loss": 0.6247,
+      "step": 350
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.44e-07,
+      "loss": 0.63,
+      "step": 375
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.94e-07,
+      "loss": 0.5899,
+      "step": 400
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 8.439999999999999e-07,
+      "loss": 0.5628,
+      "step": 425
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.939999999999999e-07,
+      "loss": 0.5634,
+      "step": 450
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 9.439999999999999e-07,
+      "loss": 0.5549,
+      "step": 475
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 9.94e-07,
+      "loss": 0.5533,
+      "step": 500
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.7044046521186829,
+      "eval_runtime": 1265.1903,
+      "eval_samples_per_second": 8.132,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 54.54987091580379,
+      "step": 500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.95111111111111e-07,
+      "loss": 0.5329,
+      "step": 525
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.895555555555554e-07,
+      "loss": 0.5116,
+      "step": 550
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.84e-07,
+      "loss": 0.511,
+      "step": 575
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.784444444444444e-07,
+      "loss": 0.4963,
+      "step": 600
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.728888888888888e-07,
+      "loss": 0.5177,
+      "step": 625
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.673333333333332e-07,
+      "loss": 0.4947,
+      "step": 650
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.617777777777776e-07,
+      "loss": 0.4529,
+      "step": 675
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 9.562222222222223e-07,
+      "loss": 0.4543,
+      "step": 700
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 9.506666666666667e-07,
+      "loss": 0.4478,
+      "step": 725
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 9.451111111111111e-07,
+      "loss": 0.4421,
+      "step": 750
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.395555555555556e-07,
+      "loss": 0.4465,
+      "step": 775
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 9.34e-07,
+      "loss": 0.4164,
+      "step": 800
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.284444444444444e-07,
+      "loss": 0.4291,
+      "step": 825
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 9.228888888888888e-07,
+      "loss": 0.4149,
+      "step": 850
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 9.173333333333333e-07,
+      "loss": 0.4242,
+      "step": 875
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 9.117777777777778e-07,
+      "loss": 0.4329,
+      "step": 900
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 9.062222222222222e-07,
+      "loss": 0.4165,
+      "step": 925
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9.006666666666666e-07,
+      "loss": 0.4166,
+      "step": 950
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.95111111111111e-07,
+      "loss": 0.409,
+      "step": 975
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 8.895555555555555e-07,
+      "loss": 0.3951,
+      "step": 1000
+    },
+    {
+      "epoch": 3.12,
+      "eval_loss": 0.5893104076385498,
+      "eval_runtime": 1326.5175,
+      "eval_samples_per_second": 7.756,
+      "eval_steps_per_second": 0.121,
+      "eval_wer": 47.521028231962916,
+      "step": 1000
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 8.839999999999999e-07,
+      "loss": 0.3808,
+      "step": 1025
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 8.784444444444444e-07,
+      "loss": 0.3786,
+      "step": 1050
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 8.728888888888889e-07,
+      "loss": 0.3811,
+      "step": 1075
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 8.673333333333332e-07,
+      "loss": 0.3644,
+      "step": 1100
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 8.617777777777777e-07,
+      "loss": 0.3737,
+      "step": 1125
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 8.562222222222222e-07,
+      "loss": 0.3698,
+      "step": 1150
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 8.506666666666667e-07,
+      "loss": 0.3601,
+      "step": 1175
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 8.451111111111111e-07,
+      "loss": 0.3675,
+      "step": 1200
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 8.395555555555556e-07,
+      "loss": 0.3588,
+      "step": 1225
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 8.34e-07,
+      "loss": 0.3541,
+      "step": 1250
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 8.284444444444444e-07,
+      "loss": 0.3537,
+      "step": 1275
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.228888888888889e-07,
+      "loss": 0.3666,
+      "step": 1300
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 8.173333333333333e-07,
+      "loss": 0.3242,
+      "step": 1325
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 8.117777777777778e-07,
+      "loss": 0.3212,
+      "step": 1350
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 8.062222222222221e-07,
+      "loss": 0.3374,
+      "step": 1375
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 8.006666666666666e-07,
+      "loss": 0.3259,
+      "step": 1400
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 7.95111111111111e-07,
+      "loss": 0.3361,
+      "step": 1425
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 7.895555555555555e-07,
+      "loss": 0.3355,
+      "step": 1450
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 7.84e-07,
+      "loss": 0.3254,
+      "step": 1475
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 7.784444444444444e-07,
+      "loss": 0.3296,
+      "step": 1500
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.5428555011749268,
+      "eval_runtime": 1299.6224,
+      "eval_samples_per_second": 7.916,
+      "eval_steps_per_second": 0.124,
+      "eval_wer": 44.64508786053355,
+      "step": 1500
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 7.728888888888888e-07,
+      "loss": 0.3229,
+      "step": 1525
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 7.673333333333332e-07,
+      "loss": 0.3372,
+      "step": 1550
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 7.617777777777778e-07,
+      "loss": 0.3297,
+      "step": 1575
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 7.562222222222222e-07,
+      "loss": 0.3239,
+      "step": 1600
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 7.506666666666667e-07,
+      "loss": 0.3113,
+      "step": 1625
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 7.451111111111111e-07,
+      "loss": 0.3142,
+      "step": 1650
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 7.395555555555555e-07,
+      "loss": 0.303,
+      "step": 1675
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 7.34e-07,
+      "loss": 0.2973,
+      "step": 1700
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 7.284444444444444e-07,
+      "loss": 0.2998,
+      "step": 1725
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 7.228888888888889e-07,
+      "loss": 0.2962,
+      "step": 1750
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 7.173333333333333e-07,
+      "loss": 0.3007,
+      "step": 1775
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 7.117777777777777e-07,
+      "loss": 0.2906,
+      "step": 1800
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 7.062222222222222e-07,
+      "loss": 0.295,
+      "step": 1825
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 7.006666666666666e-07,
+      "loss": 0.3083,
+      "step": 1850
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 6.951111111111111e-07,
+      "loss": 0.2869,
+      "step": 1875
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 6.895555555555555e-07,
+      "loss": 0.2936,
+      "step": 1900
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 6.84e-07,
+      "loss": 0.2982,
+      "step": 1925
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 6.784444444444443e-07,
+      "loss": 0.2885,
+      "step": 1950
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 6.728888888888888e-07,
+      "loss": 0.2719,
+      "step": 1975
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 6.673333333333334e-07,
+      "loss": 0.2662,
+      "step": 2000
+    },
+    {
+      "epoch": 6.23,
+      "eval_loss": 0.5223153829574585,
+      "eval_runtime": 1347.3336,
+      "eval_samples_per_second": 7.636,
+      "eval_steps_per_second": 0.119,
+      "eval_wer": 42.664408849901456,
+      "step": 2000
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 16,
+  "total_flos": 3.699433988940418e+19,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bda70737a84052aee98fe01ec95a00d27783f83ee9889ee9d6ffa0984826347e
+size 3579

checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "openai/whisper-small",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 12,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "use_cache": false,
+  "vocab_size": 51865
+}

checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b1bac388e9ccb5c85426c16252364dc258a48aebb84a068f2b63513a42ffb4a
+size 1934161093

checkpoint-2500/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2500/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63e637219ffc3358d4ca0ea19cad9ea7f996d874a2c7b6a52a1e706fa59302e3
+size 967102601

checkpoint-2500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32d582dbdb4c1e2b98c61b22baf74e479d8d8e8a93b2151bd6293afe2786d2f8
+size 14583

checkpoint-2500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e07f727622efb4a24b1cfc5b9f0ab5af9a6aadd797759821cf175f71466f919b
+size 14647

checkpoint-2500/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:105882858c82a984658b5d4f76b92652efc3df674f31929b33a1fae0cf114417
+size 14583

checkpoint-2500/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7037146f98830f9a234ab8852ec5401c0cc6283a54ab1a65f2a9bd9059d87a43
+size 14583

checkpoint-2500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edf730497bda1dd7d810be24acd7ff911a283f9988fb87926ddea4a8506d9615
+size 557

checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a77720265737918b69cda81377c78110d51cb0982308e66f42db7acc9269820
+size 627

checkpoint-2500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,661 @@

+{
+  "best_metric": 41.53041112622491,
+  "best_model_checkpoint": "./whisper-small-Persian/checkpoint-2500",
+  "epoch": 7.786936236391913,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.4e-08,
+      "loss": 1.4232,
+      "step": 25
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.4e-08,
+      "loss": 1.4027,
+      "step": 50
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.44e-07,
+      "loss": 1.3731,
+      "step": 75
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.94e-07,
+      "loss": 1.2969,
+      "step": 100
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2.4399999999999996e-07,
+      "loss": 1.1964,
+      "step": 125
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.9399999999999996e-07,
+      "loss": 1.0995,
+      "step": 150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 3.4399999999999996e-07,
+      "loss": 1.0068,
+      "step": 175
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.94e-07,
+      "loss": 0.8949,
+      "step": 200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.44e-07,
+      "loss": 0.8521,
+      "step": 225
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.94e-07,
+      "loss": 0.7694,
+      "step": 250
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 5.44e-07,
+      "loss": 0.7196,
+      "step": 275
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.939999999999999e-07,
+      "loss": 0.6902,
+      "step": 300
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 6.44e-07,
+      "loss": 0.6748,
+      "step": 325
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 6.939999999999999e-07,
+      "loss": 0.6247,
+      "step": 350
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.44e-07,
+      "loss": 0.63,
+      "step": 375
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.94e-07,
+      "loss": 0.5899,
+      "step": 400
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 8.439999999999999e-07,
+      "loss": 0.5628,
+      "step": 425
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 8.939999999999999e-07,
+      "loss": 0.5634,
+      "step": 450
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 9.439999999999999e-07,
+      "loss": 0.5549,
+      "step": 475
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 9.94e-07,
+      "loss": 0.5533,
+      "step": 500
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.7044046521186829,
+      "eval_runtime": 1265.1903,
+      "eval_samples_per_second": 8.132,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 54.54987091580379,
+      "step": 500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.95111111111111e-07,
+      "loss": 0.5329,
+      "step": 525
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.895555555555554e-07,
+      "loss": 0.5116,
+      "step": 550
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.84e-07,
+      "loss": 0.511,
+      "step": 575
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.784444444444444e-07,
+      "loss": 0.4963,
+      "step": 600
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.728888888888888e-07,
+      "loss": 0.5177,
+      "step": 625
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.673333333333332e-07,
+      "loss": 0.4947,
+      "step": 650
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.617777777777776e-07,
+      "loss": 0.4529,
+      "step": 675
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 9.562222222222223e-07,
+      "loss": 0.4543,
+      "step": 700
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 9.506666666666667e-07,
+      "loss": 0.4478,
+      "step": 725
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 9.451111111111111e-07,
+      "loss": 0.4421,
+      "step": 750
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.395555555555556e-07,
+      "loss": 0.4465,
+      "step": 775
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 9.34e-07,
+      "loss": 0.4164,
+      "step": 800
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.284444444444444e-07,
+      "loss": 0.4291,
+      "step": 825
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 9.228888888888888e-07,
+      "loss": 0.4149,
+      "step": 850
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 9.173333333333333e-07,
+      "loss": 0.4242,
+      "step": 875
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 9.117777777777778e-07,
+      "loss": 0.4329,
+      "step": 900
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 9.062222222222222e-07,
+      "loss": 0.4165,
+      "step": 925
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9.006666666666666e-07,
+      "loss": 0.4166,
+      "step": 950
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.95111111111111e-07,
+      "loss": 0.409,
+      "step": 975
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 8.895555555555555e-07,
+      "loss": 0.3951,
+      "step": 1000
+    },
+    {
+      "epoch": 3.12,
+      "eval_loss": 0.5893104076385498,
+      "eval_runtime": 1326.5175,
+      "eval_samples_per_second": 7.756,
+      "eval_steps_per_second": 0.121,
+      "eval_wer": 47.521028231962916,
+      "step": 1000
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 8.839999999999999e-07,
+      "loss": 0.3808,
+      "step": 1025
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 8.784444444444444e-07,
+      "loss": 0.3786,
+      "step": 1050
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 8.728888888888889e-07,
+      "loss": 0.3811,
+      "step": 1075
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 8.673333333333332e-07,
+      "loss": 0.3644,
+      "step": 1100
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 8.617777777777777e-07,
+      "loss": 0.3737,
+      "step": 1125
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 8.562222222222222e-07,
+      "loss": 0.3698,
+      "step": 1150
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 8.506666666666667e-07,
+      "loss": 0.3601,
+      "step": 1175
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 8.451111111111111e-07,
+      "loss": 0.3675,
+      "step": 1200
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 8.395555555555556e-07,
+      "loss": 0.3588,
+      "step": 1225
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 8.34e-07,
+      "loss": 0.3541,
+      "step": 1250
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 8.284444444444444e-07,
+      "loss": 0.3537,
+      "step": 1275
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.228888888888889e-07,
+      "loss": 0.3666,
+      "step": 1300
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 8.173333333333333e-07,
+      "loss": 0.3242,
+      "step": 1325
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 8.117777777777778e-07,
+      "loss": 0.3212,
+      "step": 1350
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 8.062222222222221e-07,
+      "loss": 0.3374,
+      "step": 1375
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 8.006666666666666e-07,
+      "loss": 0.3259,
+      "step": 1400
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 7.95111111111111e-07,
+      "loss": 0.3361,
+      "step": 1425
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 7.895555555555555e-07,
+      "loss": 0.3355,
+      "step": 1450
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 7.84e-07,
+      "loss": 0.3254,
+      "step": 1475
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 7.784444444444444e-07,
+      "loss": 0.3296,
+      "step": 1500
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.5428555011749268,
+      "eval_runtime": 1299.6224,
+      "eval_samples_per_second": 7.916,
+      "eval_steps_per_second": 0.124,
+      "eval_wer": 44.64508786053355,
+      "step": 1500
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 7.728888888888888e-07,
+      "loss": 0.3229,
+      "step": 1525
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 7.673333333333332e-07,
+      "loss": 0.3372,
+      "step": 1550
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 7.617777777777778e-07,
+      "loss": 0.3297,
+      "step": 1575
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 7.562222222222222e-07,
+      "loss": 0.3239,
+      "step": 1600
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 7.506666666666667e-07,
+      "loss": 0.3113,
+      "step": 1625
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 7.451111111111111e-07,
+      "loss": 0.3142,
+      "step": 1650
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 7.395555555555555e-07,
+      "loss": 0.303,
+      "step": 1675
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 7.34e-07,
+      "loss": 0.2973,
+      "step": 1700
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 7.284444444444444e-07,
+      "loss": 0.2998,
+      "step": 1725
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 7.228888888888889e-07,
+      "loss": 0.2962,
+      "step": 1750
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 7.173333333333333e-07,
+      "loss": 0.3007,
+      "step": 1775
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 7.117777777777777e-07,
+      "loss": 0.2906,
+      "step": 1800
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 7.062222222222222e-07,
+      "loss": 0.295,
+      "step": 1825
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 7.006666666666666e-07,
+      "loss": 0.3083,
+      "step": 1850
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 6.951111111111111e-07,
+      "loss": 0.2869,
+      "step": 1875
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 6.895555555555555e-07,
+      "loss": 0.2936,
+      "step": 1900
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 6.84e-07,
+      "loss": 0.2982,
+      "step": 1925
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 6.784444444444443e-07,
+      "loss": 0.2885,
+      "step": 1950
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 6.728888888888888e-07,
+      "loss": 0.2719,
+      "step": 1975
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 6.673333333333334e-07,
+      "loss": 0.2662,
+      "step": 2000
+    },
+    {
+      "epoch": 6.23,
+      "eval_loss": 0.5223153829574585,
+      "eval_runtime": 1347.3336,
+      "eval_samples_per_second": 7.636,
+      "eval_steps_per_second": 0.119,
+      "eval_wer": 42.664408849901456,
+      "step": 2000
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 6.617777777777778e-07,
+      "loss": 0.2739,
+      "step": 2025
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 6.562222222222223e-07,
+      "loss": 0.2694,
+      "step": 2050
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 6.506666666666666e-07,
+      "loss": 0.2678,
+      "step": 2075
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 6.451111111111111e-07,
+      "loss": 0.2716,
+      "step": 2100
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 6.395555555555555e-07,
+      "loss": 0.27,
+      "step": 2125
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 6.34e-07,
+      "loss": 0.2715,
+      "step": 2150
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 6.284444444444445e-07,
+      "loss": 0.2705,
+      "step": 2175
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 6.228888888888889e-07,
+      "loss": 0.2771,
+      "step": 2200
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 6.173333333333333e-07,
+      "loss": 0.2814,
+      "step": 2225
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 6.117777777777777e-07,
+      "loss": 0.302,
+      "step": 2250
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 6.062222222222222e-07,
+      "loss": 0.2619,
+      "step": 2275
+    },
+    {
+      "epoch": 7.16,
+      "learning_rate": 6.006666666666666e-07,
+      "loss": 0.2561,
+      "step": 2300
+    },
+    {
+      "epoch": 7.24,
+      "learning_rate": 5.951111111111111e-07,
+      "loss": 0.2559,
+      "step": 2325
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 5.895555555555555e-07,
+      "loss": 0.2524,
+      "step": 2350
+    },
+    {
+      "epoch": 7.4,
+      "learning_rate": 5.839999999999999e-07,
+      "loss": 0.2583,
+      "step": 2375
+    },
+    {
+      "epoch": 7.48,
+      "learning_rate": 5.784444444444444e-07,
+      "loss": 0.2434,
+      "step": 2400
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 5.728888888888888e-07,
+      "loss": 0.2546,
+      "step": 2425
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 5.673333333333334e-07,
+      "loss": 0.2492,
+      "step": 2450
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 5.617777777777778e-07,
+      "loss": 0.2544,
+      "step": 2475
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 5.562222222222222e-07,
+      "loss": 0.2535,
+      "step": 2500
+    },
+    {
+      "epoch": 7.79,
+      "eval_loss": 0.5044606924057007,
+      "eval_runtime": 1321.646,
+      "eval_samples_per_second": 7.784,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 41.53041112622491,
+      "step": 2500
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 16,
+  "total_flos": 4.623830749703412e+19,
+  "trial_name": null,
+  "trial_params": null
+}