End of training

Browse files

Files changed (11) hide show

all_results.json +21 -20
config.json +10 -1
eval_pretrained_results.json +5 -5
generation_config.json +223 -0
preprocessor_config.json +0 -0
pytorch_model.bin +1 -1
test_finetuned_results.json +6 -6
test_pretrained_results.json +5 -5
train_results.json +6 -5
trainer_state.json +32 -764
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,32 +1,33 @@
 {
-    "epoch": 2.32,
     "eval_loss": 1.6191972494125366,
-    "eval_pretrained_loss": 1.710707187652588,
-    "eval_pretrained_runtime": 125.9444,
-    "eval_pretrained_samples_per_second": 2.62,
-    "eval_pretrained_steps_per_second": 0.087,
-    "eval_pretrained_wer": 258.2308797700783,
     "eval_runtime": 56.3363,
     "eval_samples_per_second": 0.071,
     "eval_steps_per_second": 0.036,
     "eval_wer": 153.2258064516129,
-    "test_finetuned_loss": 1.0840972661972046,
-    "test_finetuned_runtime": 169.6782,
-    "test_finetuned_samples_per_second": 4.473,
-    "test_finetuned_steps_per_second": 0.141,
-    "test_finetuned_wer": 172.4357697669787,
     "test_loss": 1.7568330764770508,
-    "test_pretrained_loss": 1.723103642463684,
-    "test_pretrained_runtime": 196.5873,
-    "test_pretrained_samples_per_second": 3.861,
-    "test_pretrained_steps_per_second": 0.122,
-    "test_pretrained_wer": 261.9265750514506,
     "test_runtime": 37.8582,
     "test_samples_per_second": 0.106,
     "test_steps_per_second": 0.053,
     "test_wer": 138.5964912280702,
-    "train_loss": 1.0522634956453527,
-    "train_runtime": 1735.2585,
-    "train_samples_per_second": 4.131,
-    "train_steps_per_second": 0.065
 }

 {
+    "epoch": 1.0,
     "eval_loss": 1.6191972494125366,
+    "eval_pretrained_loss": 1.8532216548919678,
+    "eval_pretrained_runtime": 33.9735,
+    "eval_pretrained_samples_per_second": 0.118,
+    "eval_pretrained_steps_per_second": 0.059,
+    "eval_pretrained_wer": 123.40425531914893,
     "eval_runtime": 56.3363,
     "eval_samples_per_second": 0.071,
     "eval_steps_per_second": 0.036,
     "eval_wer": 153.2258064516129,
+    "test_finetuned_loss": 1.7792198657989502,
+    "test_finetuned_runtime": 13.3999,
+    "test_finetuned_samples_per_second": 0.299,
+    "test_finetuned_steps_per_second": 0.149,
+    "test_finetuned_wer": 127.90697674418605,
     "test_loss": 1.7568330764770508,
+    "test_pretrained_loss": 1.7792198657989502,
+    "test_pretrained_runtime": 33.5108,
+    "test_pretrained_samples_per_second": 0.119,
+    "test_pretrained_steps_per_second": 0.06,
+    "test_pretrained_wer": 127.90697674418605,
     "test_runtime": 37.8582,
     "test_samples_per_second": 0.106,
     "test_steps_per_second": 0.053,
     "test_wer": 138.5964912280702,
+    "total_flos": 196951080960000.0,
+    "train_loss": 1.7391430735588074,
+    "train_runtime": 61.5449,
+    "train_samples_per_second": 0.13,
+    "train_steps_per_second": 0.032
 }

config.json CHANGED Viewed

@@ -2,6 +2,7 @@
   "_name_or_path": "openai/whisper-tiny",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
     "WhisperForConditionalGeneration"
   ],
@@ -11,6 +12,7 @@
     50257
   ],
   "bos_token_id": 50257,
   "d_model": 384,
   "decoder_attention_heads": 6,
   "decoder_ffn_dim": 1536,
@@ -39,6 +41,12 @@
   ],
   "init_std": 0.02,
   "is_encoder_decoder": true,
   "max_length": 448,
   "max_source_positions": 1500,
   "max_target_positions": 448,
@@ -136,7 +144,8 @@
     50362
   ],
   "torch_dtype": "float32",
-  "transformers_version": "4.26.0.dev0",
   "use_cache": true,
   "vocab_size": 51865
 }

   "_name_or_path": "openai/whisper-tiny",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
+  "apply_spec_augment": false,
   "architectures": [
     "WhisperForConditionalGeneration"
   ],
     50257
   ],
   "bos_token_id": 50257,
+  "classifier_proj_size": 256,
   "d_model": 384,
   "decoder_attention_heads": 6,
   "decoder_ffn_dim": 1536,
   ],
   "init_std": 0.02,
   "is_encoder_decoder": true,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
   "max_length": 448,
   "max_source_positions": 1500,
   "max_target_positions": 448,
     50362
   ],
   "torch_dtype": "float32",
+  "transformers_version": "4.27.3",
   "use_cache": true,
+  "use_weighted_layer_sum": false,
   "vocab_size": 51865
 }

eval_pretrained_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "eval_pretrained_loss": 1.710707187652588,
-    "eval_pretrained_runtime": 125.9444,
-    "eval_pretrained_samples_per_second": 2.62,
-    "eval_pretrained_steps_per_second": 0.087,
-    "eval_pretrained_wer": 258.2308797700783
 }

 {
+    "eval_pretrained_loss": 1.8532216548919678,
+    "eval_pretrained_runtime": 33.9735,
+    "eval_pretrained_samples_per_second": 0.118,
+    "eval_pretrained_steps_per_second": 0.059,
+    "eval_pretrained_wer": 123.40425531914893
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,223 @@

+{
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "decoder_start_token_id": 50258,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": [
+    [
+      1,
+      50259
+    ],
+    [
+      2,
+      50359
+    ],
+    [
+      3,
+      50363
+    ]
+  ],
+  "is_multilingual": true,
+  "lang_to_id": {
+    "<|af|>": 50327,
+    "<|am|>": 50334,
+    "<|ar|>": 50272,
+    "<|as|>": 50350,
+    "<|az|>": 50304,
+    "<|ba|>": 50355,
+    "<|be|>": 50330,
+    "<|bg|>": 50292,
+    "<|bn|>": 50302,
+    "<|bo|>": 50347,
+    "<|br|>": 50309,
+    "<|bs|>": 50315,
+    "<|ca|>": 50270,
+    "<|cs|>": 50283,
+    "<|cy|>": 50297,
+    "<|da|>": 50285,
+    "<|de|>": 50261,
+    "<|el|>": 50281,
+    "<|en|>": 50259,
+    "<|es|>": 50262,
+    "<|et|>": 50307,
+    "<|eu|>": 50310,
+    "<|fa|>": 50300,
+    "<|fi|>": 50277,
+    "<|fo|>": 50338,
+    "<|fr|>": 50265,
+    "<|gl|>": 50319,
+    "<|gu|>": 50333,
+    "<|haw|>": 50352,
+    "<|ha|>": 50354,
+    "<|he|>": 50279,
+    "<|hi|>": 50276,
+    "<|hr|>": 50291,
+    "<|ht|>": 50339,
+    "<|hu|>": 50286,
+    "<|hy|>": 50312,
+    "<|id|>": 50275,
+    "<|is|>": 50311,
+    "<|it|>": 50274,
+    "<|ja|>": 50266,
+    "<|jw|>": 50356,
+    "<|ka|>": 50329,
+    "<|kk|>": 50316,
+    "<|km|>": 50323,
+    "<|kn|>": 50306,
+    "<|ko|>": 50264,
+    "<|la|>": 50294,
+    "<|lb|>": 50345,
+    "<|ln|>": 50353,
+    "<|lo|>": 50336,
+    "<|lt|>": 50293,
+    "<|lv|>": 50301,
+    "<|mg|>": 50349,
+    "<|mi|>": 50295,
+    "<|mk|>": 50308,
+    "<|ml|>": 50296,
+    "<|mn|>": 50314,
+    "<|mr|>": 50320,
+    "<|ms|>": 50282,
+    "<|mt|>": 50343,
+    "<|my|>": 50346,
+    "<|ne|>": 50313,
+    "<|nl|>": 50271,
+    "<|nn|>": 50342,
+    "<|no|>": 50288,
+    "<|oc|>": 50328,
+    "<|pa|>": 50321,
+    "<|pl|>": 50269,
+    "<|ps|>": 50340,
+    "<|pt|>": 50267,
+    "<|ro|>": 50284,
+    "<|ru|>": 50263,
+    "<|sa|>": 50344,
+    "<|sd|>": 50332,
+    "<|si|>": 50322,
+    "<|sk|>": 50298,
+    "<|sl|>": 50305,
+    "<|sn|>": 50324,
+    "<|so|>": 50326,
+    "<|sq|>": 50317,
+    "<|sr|>": 50303,
+    "<|su|>": 50357,
+    "<|sv|>": 50273,
+    "<|sw|>": 50318,
+    "<|ta|>": 50287,
+    "<|te|>": 50299,
+    "<|tg|>": 50331,
+    "<|th|>": 50289,
+    "<|tk|>": 50341,
+    "<|tl|>": 50348,
+    "<|tr|>": 50268,
+    "<|tt|>": 50351,
+    "<|uk|>": 50280,
+    "<|ur|>": 50290,
+    "<|uz|>": 50337,
+    "<|vi|>": 50278,
+    "<|yi|>": 50335,
+    "<|yo|>": 50325,
+    "<|zh|>": 50260
+  },
+  "max_initial_timestamp_index": 1,
+  "max_length": 448,
+  "no_timestamps_token_id": 50363,
+  "pad_token_id": 50257,
+  "return_timestamps": false,
+  "suppress_tokens": [
+    1,
+    2,
+    7,
+    8,
+    9,
+    10,
+    14,
+    25,
+    26,
+    27,
+    28,
+    29,
+    31,
+    58,
+    59,
+    60,
+    61,
+    62,
+    63,
+    90,
+    91,
+    92,
+    93,
+    359,
+    503,
+    522,
+    542,
+    873,
+    893,
+    902,
+    918,
+    922,
+    931,
+    1350,
+    1853,
+    1982,
+    2460,
+    2627,
+    3246,
+    3253,
+    3268,
+    3536,
+    3846,
+    3961,
+    4183,
+    4667,
+    6585,
+    6647,
+    7273,
+    9061,
+    9383,
+    10428,
+    10929,
+    11938,
+    12033,
+    12331,
+    12562,
+    13793,
+    14157,
+    14635,
+    15265,
+    15618,
+    16553,
+    16604,
+    18362,
+    18956,
+    20075,
+    21675,
+    22520,
+    26130,
+    26161,
+    26435,
+    28279,
+    29464,
+    31650,
+    32302,
+    32470,
+    36865,
+    42863,
+    47425,
+    49870,
+    50254,
+    50258,
+    50360,
+    50361,
+    50362
+  ],
+  "task_to_id": {
+    "transcribe": 50359,
+    "translate": 50358
+  },
+  "transformers_version": "4.27.3"
+}

preprocessor_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2027faf2910d36a40b249965d707ab19532ef0effc8d243d184de4439275106e
 size 151098921

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3843686519777a4550909e8bd4961dcf7425e7183295f03d09a433a271f0887
 size 151098921

test_finetuned_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.32,
-    "test_finetuned_loss": 1.0840972661972046,
-    "test_finetuned_runtime": 169.6782,
-    "test_finetuned_samples_per_second": 4.473,
-    "test_finetuned_steps_per_second": 0.141,
-    "test_finetuned_wer": 172.4357697669787
 }

 {
+    "epoch": 1.0,
+    "test_finetuned_loss": 1.7792198657989502,
+    "test_finetuned_runtime": 13.3999,
+    "test_finetuned_samples_per_second": 0.299,
+    "test_finetuned_steps_per_second": 0.149,
+    "test_finetuned_wer": 127.90697674418605
 }

test_pretrained_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "test_pretrained_loss": 1.723103642463684,
-    "test_pretrained_runtime": 196.5873,
-    "test_pretrained_samples_per_second": 3.861,
-    "test_pretrained_steps_per_second": 0.122,
-    "test_pretrained_wer": 261.9265750514506
 }

 {
+    "test_pretrained_loss": 1.7792198657989502,
+    "test_pretrained_runtime": 33.5108,
+    "test_pretrained_samples_per_second": 0.119,
+    "test_pretrained_steps_per_second": 0.06,
+    "test_pretrained_wer": 127.90697674418605
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,8 @@
 {
-    "epoch": 2.32,
-    "train_loss": 1.0522634956453527,
-    "train_runtime": 1735.2585,
-    "train_samples_per_second": 4.131,
-    "train_steps_per_second": 0.065
 }

 {
+    "epoch": 1.0,
+    "total_flos": 196951080960000.0,
+    "train_loss": 1.7391430735588074,
+    "train_runtime": 61.5449,
+    "train_samples_per_second": 0.13,
+    "train_steps_per_second": 0.032
 }

trainer_state.json CHANGED Viewed

@@ -1,787 +1,55 @@
 {
-  "best_metric": 161.45617116397892,
-  "best_model_checkpoint": "./checkpoint-88",
-  "epoch": 2.3214285714285716,
-  "global_step": 112,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
       "learning_rate": 0.0,
-      "loss": 1.6569,
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.2058823529411765e-07,
-      "loss": 1.6564,
-      "step": 2
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 4.411764705882353e-07,
-      "loss": 1.6518,
-      "step": 3
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 6.61764705882353e-07,
-      "loss": 1.6237,
-      "step": 4
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 8.823529411764706e-07,
-      "loss": 1.7141,
-      "step": 5
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 1.1029411764705884e-06,
-      "loss": 1.655,
-      "step": 6
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 1.323529411764706e-06,
-      "loss": 1.5904,
-      "step": 7
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 1.5441176470588234e-06,
-      "loss": 1.6232,
-      "step": 8
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 1.7647058823529412e-06,
-      "loss": 1.6403,
-      "step": 9
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 1.985294117647059e-06,
-      "loss": 1.6065,
-      "step": 10
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 2.2058823529411767e-06,
-      "loss": 1.5947,
-      "step": 11
-    },
-    {
-      "epoch": 0.1,
-      "eval_loss": 1.629066824913025,
-      "eval_runtime": 125.637,
-      "eval_samples_per_second": 2.627,
-      "eval_steps_per_second": 0.088,
-      "eval_wer": 227.94188088775348,
-      "step": 11
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 2.4264705882352943e-06,
-      "loss": 1.52,
-      "step": 12
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 2.647058823529412e-06,
-      "loss": 1.4456,
-      "step": 13
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 2.867647058823529e-06,
-      "loss": 1.58,
-      "step": 14
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 3.088235294117647e-06,
-      "loss": 1.5958,
-      "step": 15
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 3.308823529411765e-06,
-      "loss": 1.4695,
-      "step": 16
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 3.5294117647058825e-06,
-      "loss": 1.4718,
-      "step": 17
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 3.75e-06,
-      "loss": 1.4406,
-      "step": 18
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 3.970588235294118e-06,
-      "loss": 1.4339,
-      "step": 19
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 4.191176470588236e-06,
-      "loss": 1.313,
-      "step": 20
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 4.411764705882353e-06,
-      "loss": 1.2825,
-      "step": 21
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 4.632352941176471e-06,
-      "loss": 1.3194,
-      "step": 22
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 1.460469126701355,
-      "eval_runtime": 118.4642,
-      "eval_samples_per_second": 2.786,
-      "eval_steps_per_second": 0.093,
-      "eval_wer": 235.94124221619032,
-      "step": 22
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 4.852941176470589e-06,
-      "loss": 1.2301,
-      "step": 23
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 5.073529411764706e-06,
-      "loss": 1.3231,
-      "step": 24
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 5.294117647058824e-06,
-      "loss": 1.2689,
-      "step": 25
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 5.5147058823529415e-06,
-      "loss": 1.2768,
-      "step": 26
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 5.735294117647058e-06,
-      "loss": 1.2927,
-      "step": 27
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 5.955882352941176e-06,
-      "loss": 1.3419,
-      "step": 28
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 6.176470588235294e-06,
-      "loss": 1.141,
-      "step": 29
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 6.397058823529412e-06,
-      "loss": 1.2907,
-      "step": 30
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 6.61764705882353e-06,
-      "loss": 1.2248,
-      "step": 31
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 6.838235294117647e-06,
-      "loss": 1.149,
-      "step": 32
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 7.058823529411765e-06,
-      "loss": 1.2636,
-      "step": 33
-    },
-    {
-      "epoch": 0.29,
-      "eval_loss": 1.3149287700653076,
-      "eval_runtime": 115.745,
-      "eval_samples_per_second": 2.851,
-      "eval_steps_per_second": 0.095,
-      "eval_wer": 177.19942519559316,
-      "step": 33
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 7.2794117647058826e-06,
-      "loss": 1.2351,
-      "step": 34
     },
     {
-      "epoch": 0.31,
       "learning_rate": 7.5e-06,
-      "loss": 1.2055,
-      "step": 35
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 7.403846153846155e-06,
-      "loss": 1.1864,
-      "step": 36
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 7.307692307692308e-06,
-      "loss": 1.148,
-      "step": 37
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 7.211538461538462e-06,
-      "loss": 1.1505,
-      "step": 38
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 7.115384615384615e-06,
-      "loss": 1.0859,
-      "step": 39
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 7.01923076923077e-06,
-      "loss": 1.119,
-      "step": 40
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 6.923076923076923e-06,
-      "loss": 1.0238,
-      "step": 41
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 6.826923076923077e-06,
-      "loss": 1.0468,
-      "step": 42
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 6.730769230769231e-06,
-      "loss": 1.061,
-      "step": 43
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 6.6346153846153846e-06,
-      "loss": 1.0238,
-      "step": 44
-    },
-    {
-      "epoch": 1.05,
-      "eval_loss": 1.1836069822311401,
-      "eval_runtime": 109.1507,
-      "eval_samples_per_second": 3.023,
-      "eval_steps_per_second": 0.101,
-      "eval_wer": 199.80839853105542,
-      "step": 44
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 6.538461538461539e-06,
-      "loss": 1.0016,
-      "step": 45
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 6.442307692307692e-06,
-      "loss": 0.9635,
-      "step": 46
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 6.3461538461538466e-06,
-      "loss": 0.9953,
-      "step": 47
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 6.25e-06,
-      "loss": 1.0061,
-      "step": 48
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 6.153846153846154e-06,
-      "loss": 0.9933,
-      "step": 49
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 6.057692307692308e-06,
-      "loss": 0.9479,
-      "step": 50
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 5.9615384615384615e-06,
-      "loss": 0.9132,
-      "step": 51
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 5.865384615384615e-06,
-      "loss": 1.0232,
-      "step": 52
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 5.76923076923077e-06,
-      "loss": 1.0153,
-      "step": 53
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 5.673076923076923e-06,
-      "loss": 0.9548,
-      "step": 54
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 5.576923076923077e-06,
-      "loss": 0.9306,
-      "step": 55
-    },
-    {
-      "epoch": 1.15,
-      "eval_loss": 1.1363615989685059,
-      "eval_runtime": 115.8861,
-      "eval_samples_per_second": 2.848,
-      "eval_steps_per_second": 0.095,
-      "eval_wer": 210.21874501037843,
-      "step": 55
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 5.480769230769231e-06,
-      "loss": 0.9088,
-      "step": 56
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 5.384615384615385e-06,
-      "loss": 0.8902,
-      "step": 57
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 5.288461538461539e-06,
-      "loss": 0.861,
-      "step": 58
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 5.192307692307692e-06,
-      "loss": 0.8047,
-      "step": 59
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 5.096153846153847e-06,
-      "loss": 0.8459,
-      "step": 60
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 4.9999999999999996e-06,
-      "loss": 0.8103,
-      "step": 61
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 4.903846153846154e-06,
-      "loss": 0.8752,
-      "step": 62
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 4.807692307692308e-06,
-      "loss": 0.8398,
-      "step": 63
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 4.711538461538462e-06,
-      "loss": 0.8571,
-      "step": 64
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 4.615384615384616e-06,
-      "loss": 0.8998,
-      "step": 65
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 4.519230769230769e-06,
-      "loss": 0.9233,
-      "step": 66
-    },
-    {
-      "epoch": 1.25,
-      "eval_loss": 1.1090655326843262,
-      "eval_runtime": 104.9772,
-      "eval_samples_per_second": 3.144,
-      "eval_steps_per_second": 0.105,
-      "eval_wer": 175.20357656075362,
-      "step": 66
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 4.423076923076924e-06,
-      "loss": 0.7878,
-      "step": 67
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 4.3269230769230765e-06,
-      "loss": 0.8948,
-      "step": 68
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 4.230769230769231e-06,
-      "loss": 0.8711,
-      "step": 69
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 4.134615384615385e-06,
-      "loss": 0.8292,
-      "step": 70
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 4.0384615384615385e-06,
-      "loss": 0.9318,
-      "step": 71
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 3.942307692307692e-06,
-      "loss": 0.9272,
-      "step": 72
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 3.846153846153846e-06,
-      "loss": 0.8923,
-      "step": 73
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 3.75e-06,
-      "loss": 0.9013,
-      "step": 74
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 3.653846153846154e-06,
-      "loss": 0.8659,
-      "step": 75
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 3.5576923076923075e-06,
-      "loss": 0.8422,
-      "step": 76
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 3.4615384615384617e-06,
-      "loss": 0.8482,
-      "step": 77
-    },
-    {
-      "epoch": 2.01,
-      "eval_loss": 1.0900639295578003,
-      "eval_runtime": 99.705,
-      "eval_samples_per_second": 3.31,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 161.85534089094685,
-      "step": 77
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 3.3653846153846154e-06,
-      "loss": 0.8925,
-      "step": 78
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 3.2692307692307696e-06,
-      "loss": 0.8202,
-      "step": 79
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 3.1730769230769233e-06,
-      "loss": 0.8384,
-      "step": 80
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 3.076923076923077e-06,
-      "loss": 0.8469,
-      "step": 81
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 2.9807692307692307e-06,
-      "loss": 0.8172,
-      "step": 82
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 2.884615384615385e-06,
-      "loss": 0.8119,
-      "step": 83
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 2.7884615384615386e-06,
-      "loss": 0.7811,
-      "step": 84
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 2.6923076923076923e-06,
-      "loss": 0.819,
-      "step": 85
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 2.596153846153846e-06,
-      "loss": 0.8324,
-      "step": 86
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 2.4999999999999998e-06,
-      "loss": 0.8336,
-      "step": 87
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 2.403846153846154e-06,
-      "loss": 0.7929,
-      "step": 88
-    },
-    {
-      "epoch": 2.11,
-      "eval_loss": 1.0782241821289062,
-      "eval_runtime": 111.1236,
-      "eval_samples_per_second": 2.97,
-      "eval_steps_per_second": 0.099,
-      "eval_wer": 161.45617116397892,
-      "step": 88
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 2.307692307692308e-06,
-      "loss": 0.774,
-      "step": 89
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 2.211538461538462e-06,
-      "loss": 0.8693,
-      "step": 90
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 2.1153846153846155e-06,
-      "loss": 0.8628,
-      "step": 91
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 2.0192307692307692e-06,
-      "loss": 0.8199,
-      "step": 92
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 1.923076923076923e-06,
-      "loss": 0.7995,
-      "step": 93
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 1.826923076923077e-06,
-      "loss": 0.7824,
-      "step": 94
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 1.7307692307692308e-06,
-      "loss": 0.7694,
-      "step": 95
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 1.6346153846153848e-06,
-      "loss": 0.7526,
-      "step": 96
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 1.5384615384615385e-06,
-      "loss": 0.7037,
-      "step": 97
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 1.4423076923076924e-06,
-      "loss": 0.7366,
-      "step": 98
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 1.3461538461538462e-06,
-      "loss": 0.7134,
-      "step": 99
-    },
-    {
-      "epoch": 2.21,
-      "eval_loss": 1.0737253427505493,
-      "eval_runtime": 96.9018,
-      "eval_samples_per_second": 3.406,
-      "eval_steps_per_second": 0.114,
-      "eval_wer": 177.1195912501996,
-      "step": 99
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 1.2499999999999999e-06,
-      "loss": 0.7738,
-      "step": 100
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 1.153846153846154e-06,
-      "loss": 0.7373,
-      "step": 101
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 1.0576923076923078e-06,
-      "loss": 0.7623,
-      "step": 102
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 9.615384615384615e-07,
-      "loss": 0.815,
-      "step": 103
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 8.653846153846154e-07,
-      "loss": 0.829,
-      "step": 104
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 7.692307692307693e-07,
-      "loss": 0.7113,
-      "step": 105
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 6.730769230769231e-07,
-      "loss": 0.8106,
-      "step": 106
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 5.76923076923077e-07,
-      "loss": 0.7909,
-      "step": 107
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 4.807692307692307e-07,
-      "loss": 0.7564,
-      "step": 108
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 3.8461538461538463e-07,
-      "loss": 0.8574,
-      "step": 109
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 2.884615384615385e-07,
-      "loss": 0.8543,
-      "step": 110
-    },
-    {
-      "epoch": 2.3,
-      "eval_loss": 1.0717276334762573,
-      "eval_runtime": 95.923,
-      "eval_samples_per_second": 3.44,
-      "eval_steps_per_second": 0.115,
-      "eval_wer": 187.5459045186013,
-      "step": 110
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 1.9230769230769231e-07,
-      "loss": 0.824,
-      "step": 111
     },
     {
-      "epoch": 2.32,
-      "learning_rate": 9.615384615384616e-08,
-      "loss": 0.8352,
-      "step": 112
     },
     {
-      "epoch": 2.32,
-      "step": 112,
-      "total_flos": 1.7415399333888e+17,
-      "train_loss": 1.0522634956453527,
-      "train_runtime": 1735.2585,
-      "train_samples_per_second": 4.131,
-      "train_steps_per_second": 0.065
     }
   ],
-  "max_steps": 112,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.7415399333888e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 123.40425531914893,
+  "best_model_checkpoint": "./whisper-training-blog/checkpoint-1",
+  "epoch": 1.0,
+  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.5,
       "learning_rate": 0.0,
+      "loss": 1.8019,
       "step": 1
     },
     {
+      "epoch": 0.5,
+      "eval_loss": 1.8532216548919678,
+      "eval_runtime": 6.8084,
+      "eval_samples_per_second": 0.588,
+      "eval_steps_per_second": 0.294,
+      "eval_wer": 123.40425531914893,
+      "step": 1
     },
     {
+      "epoch": 1.0,
       "learning_rate": 7.5e-06,
+      "loss": 1.6763,
+      "step": 2
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.8532216548919678,
+      "eval_runtime": 5.8615,
+      "eval_samples_per_second": 0.682,
+      "eval_steps_per_second": 0.341,
+      "eval_wer": 123.40425531914893,
+      "step": 2
     },
     {
+      "epoch": 1.0,
+      "step": 2,
+      "total_flos": 196951080960000.0,
+      "train_loss": 1.7391430735588074,
+      "train_runtime": 61.5449,
+      "train_samples_per_second": 0.13,
+      "train_steps_per_second": 0.032
     }
   ],
+  "max_steps": 2,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 196951080960000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4578ee205fe35fdbb3b98224d5f855f806bd9eedb29095f0f731a29261db2d94
-size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f657957109096465f8089361114a5bcf715d17db0a314d2a9784c7deda67c16
+size 3707