model v3

Browse files

Files changed (6) hide show

config.json +8 -8
pytorch_model.bin +1 -1
special_tokens_map.json +1 -1
tokenizer_config.json +1 -1
trainer_state.json +379 -859
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_name_or_path": "facebook/wav2vec2-xls-r-1b",
-  "activation_dropout": 0.0,
   "adapter_kernel_size": 3,
   "adapter_stride": 2,
   "add_adapter": false,
@@ -49,22 +49,22 @@
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.1,
   "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.0,
   "hidden_act": "gelu",
-  "hidden_dropout": 0.1,
   "hidden_size": 1280,
   "initializer_range": 0.02,
   "intermediate_size": 5120,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
-  "mask_feature_length": 64,
   "mask_feature_min_masks": 0,
-  "mask_feature_prob": 0.75,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
-  "mask_time_prob": 0.75,
   "model_type": "wav2vec2",
   "num_adapter_layers": 3,
   "num_attention_heads": 16,

 {
   "_name_or_path": "facebook/wav2vec2-xls-r-1b",
+  "activation_dropout": 0.05,
   "adapter_kernel_size": 3,
   "adapter_stride": 2,
   "add_adapter": false,
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.05,
   "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.05,
   "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
   "hidden_size": 1280,
   "initializer_range": 0.02,
   "intermediate_size": 5120,
   "layer_norm_eps": 1e-05,
+  "layerdrop": 0.05,
+  "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
   "model_type": "wav2vec2",
   "num_adapter_layers": 3,
   "num_attention_heads": 16,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0ef01c35610eab6fb41f429a21addceaceee697cf2e36e693a07badd8f05baf
 size 3850538161

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cb9a8b57162c1c438d0a2b0d1085d13ac7d3fd09f0d51460738c91258f81a1e
 size 3850538161

special_tokens_map.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "./~~output_wav2vec2_1b_model~~", "tokenizer_class": "Wav2Vec2CTCTokenizer"}


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "./output_wav2vec2_1b_model_v2", "tokenizer_class": "Wav2Vec2CTCTokenizer"}

trainer_state.json CHANGED Viewed

@@ -1,1216 +1,736 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.4867677668748143,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 4.960000000000001e-06,
-      "loss": 4.2847,
       "step": 500
     },
     {
       "epoch": 0.04,
-      "eval_loss": 9.491365432739258,
-      "eval_runtime": 68.325,
-      "eval_samples_per_second": 14.636,
-      "eval_steps_per_second": 1.829,
-      "eval_wer": 1.0,
       "step": 500
     },
     {
       "epoch": 0.07,
-      "learning_rate": 9.960000000000001e-06,
-      "loss": 2.9257,
       "step": 1000
     },
     {
       "epoch": 0.07,
-      "eval_loss": 2.919541358947754,
-      "eval_runtime": 69.2986,
-      "eval_samples_per_second": 14.43,
-      "eval_steps_per_second": 1.804,
-      "eval_wer": 0.9981783220321829,
       "step": 1000
     },
     {
       "epoch": 0.11,
-      "learning_rate": 9.962852007189935e-06,
-      "loss": 2.1055,
       "step": 1500
     },
     {
       "epoch": 0.11,
-      "eval_loss": 0.6934791207313538,
-      "eval_runtime": 66.8756,
-      "eval_samples_per_second": 14.953,
-      "eval_steps_per_second": 1.869,
-      "eval_wer": 0.5524744459062848,
       "step": 1500
     },
     {
       "epoch": 0.15,
-      "learning_rate": 9.925479328939486e-06,
-      "loss": 1.636,
       "step": 2000
     },
     {
       "epoch": 0.15,
-      "eval_loss": 0.5287454724311829,
-      "eval_runtime": 71.8895,
-      "eval_samples_per_second": 13.91,
-      "eval_steps_per_second": 1.739,
-      "eval_wer": 0.4343689909928145,
       "step": 2000
     },
     {
       "epoch": 0.19,
-      "learning_rate": 9.888031755542241e-06,
-      "loss": 1.4987,
       "step": 2500
     },
     {
       "epoch": 0.19,
-      "eval_loss": 0.46598005294799805,
-      "eval_runtime": 66.9977,
-      "eval_samples_per_second": 14.926,
-      "eval_steps_per_second": 1.866,
-      "eval_wer": 0.37212832709239957,
       "step": 2500
     },
     {
       "epoch": 0.22,
-      "learning_rate": 9.850584182144997e-06,
-      "loss": 1.4193,
       "step": 3000
     },
     {
       "epoch": 0.22,
-      "eval_loss": 0.42630982398986816,
-      "eval_runtime": 67.5683,
-      "eval_samples_per_second": 14.8,
-      "eval_steps_per_second": 1.85,
-      "eval_wer": 0.3432850926019634,
       "step": 3000
     },
     {
       "epoch": 0.26,
-      "learning_rate": 9.813211503894548e-06,
-      "loss": 1.3742,
       "step": 3500
     },
     {
       "epoch": 0.26,
-      "eval_loss": 0.39030832052230835,
-      "eval_runtime": 66.3672,
-      "eval_samples_per_second": 15.068,
-      "eval_steps_per_second": 1.883,
-      "eval_wer": 0.3097864588604392,
       "step": 3500
     },
     {
       "epoch": 0.3,
-      "learning_rate": 9.775763930497305e-06,
-      "loss": 1.3247,
       "step": 4000
     },
     {
       "epoch": 0.3,
-      "eval_loss": 0.36887359619140625,
-      "eval_runtime": 66.4986,
-      "eval_samples_per_second": 15.038,
-      "eval_steps_per_second": 1.88,
-      "eval_wer": 0.29986843436899097,
       "step": 4000
     },
     {
       "epoch": 0.33,
-      "learning_rate": 9.738316357100061e-06,
-      "loss": 1.2996,
       "step": 4500
     },
     {
       "epoch": 0.33,
-      "eval_loss": 0.36502307653427124,
-      "eval_runtime": 67.8152,
-      "eval_samples_per_second": 14.746,
-      "eval_steps_per_second": 1.843,
-      "eval_wer": 0.29126606618763284,
       "step": 4500
     },
     {
       "epoch": 0.37,
-      "learning_rate": 9.700868783702818e-06,
-      "loss": 1.2644,
       "step": 5000
     },
     {
       "epoch": 0.37,
-      "eval_loss": 0.360256165266037,
-      "eval_runtime": 72.128,
-      "eval_samples_per_second": 13.864,
-      "eval_steps_per_second": 1.733,
-      "eval_wer": 0.283270923995547,
       "step": 5000
     },
     {
       "epoch": 0.41,
-      "learning_rate": 9.663421210305572e-06,
-      "loss": 1.2435,
       "step": 5500
     },
     {
       "epoch": 0.41,
-      "eval_loss": 0.34515851736068726,
-      "eval_runtime": 69.6418,
-      "eval_samples_per_second": 14.359,
-      "eval_steps_per_second": 1.795,
-      "eval_wer": 0.27659143811355125,
       "step": 5500
     },
     {
       "epoch": 0.45,
-      "learning_rate": 9.625973636908329e-06,
-      "loss": 1.2311,
       "step": 6000
     },
     {
       "epoch": 0.45,
-      "eval_loss": 0.3393237292766571,
-      "eval_runtime": 67.6501,
-      "eval_samples_per_second": 14.782,
-      "eval_steps_per_second": 1.848,
-      "eval_wer": 0.27244206052019027,
       "step": 6000
     },
     {
       "epoch": 0.48,
-      "learning_rate": 9.588526063511085e-06,
-      "loss": 1.2169,
       "step": 6500
     },
     {
       "epoch": 0.48,
-      "eval_loss": 0.33635956048965454,
-      "eval_runtime": 66.3045,
-      "eval_samples_per_second": 15.082,
-      "eval_steps_per_second": 1.885,
-      "eval_wer": 0.26019633640319806,
       "step": 6500
     },
     {
       "epoch": 0.52,
-      "learning_rate": 9.551078490113842e-06,
-      "loss": 1.2028,
       "step": 7000
     },
     {
       "epoch": 0.52,
-      "eval_loss": 0.32824915647506714,
-      "eval_runtime": 65.7731,
-      "eval_samples_per_second": 15.204,
-      "eval_steps_per_second": 1.9,
-      "eval_wer": 0.2574638194514725,
       "step": 7000
     },
     {
       "epoch": 0.56,
-      "learning_rate": 9.513630916716598e-06,
-      "loss": 1.1934,
       "step": 7500
     },
     {
       "epoch": 0.56,
-      "eval_loss": 0.3112964332103729,
-      "eval_runtime": 66.2591,
-      "eval_samples_per_second": 15.092,
-      "eval_steps_per_second": 1.887,
-      "eval_wer": 0.25311203319502074,
       "step": 7500
     },
     {
       "epoch": 0.59,
-      "learning_rate": 9.476258238466149e-06,
-      "loss": 1.1835,
       "step": 8000
     },
     {
       "epoch": 0.59,
-      "eval_loss": 0.3178713917732239,
-      "eval_runtime": 66.2586,
-      "eval_samples_per_second": 15.092,
-      "eval_steps_per_second": 1.887,
-      "eval_wer": 0.25392166784738385,
       "step": 8000
     },
     {
       "epoch": 0.63,
-      "learning_rate": 9.4388855602157e-06,
-      "loss": 1.1745,
       "step": 8500
     },
     {
       "epoch": 0.63,
-      "eval_loss": 0.31336280703544617,
-      "eval_runtime": 67.0368,
-      "eval_samples_per_second": 14.917,
-      "eval_steps_per_second": 1.865,
-      "eval_wer": 0.2527072158688392,
       "step": 8500
     },
     {
       "epoch": 0.67,
-      "learning_rate": 9.401437986818455e-06,
-      "loss": 1.1649,
       "step": 9000
     },
     {
       "epoch": 0.67,
-      "eval_loss": 0.3034641742706299,
-      "eval_runtime": 66.9062,
-      "eval_samples_per_second": 14.946,
-      "eval_steps_per_second": 1.868,
-      "eval_wer": 0.24299160004048173,
       "step": 9000
     },
     {
       "epoch": 0.71,
-      "learning_rate": 9.363990413421211e-06,
-      "loss": 1.1581,
       "step": 9500
     },
     {
       "epoch": 0.71,
-      "eval_loss": 0.296359121799469,
-      "eval_runtime": 65.5061,
-      "eval_samples_per_second": 15.266,
-      "eval_steps_per_second": 1.908,
-      "eval_wer": 0.24056269608339237,
       "step": 9500
     },
     {
       "epoch": 0.74,
-      "learning_rate": 9.326542840023968e-06,
-      "loss": 1.1486,
       "step": 10000
     },
     {
       "epoch": 0.74,
-      "eval_loss": 0.30081668496131897,
-      "eval_runtime": 67.6588,
-      "eval_samples_per_second": 14.78,
-      "eval_steps_per_second": 1.848,
-      "eval_wer": 0.23853860945248456,
       "step": 10000
     },
     {
       "epoch": 0.78,
-      "learning_rate": 9.289095266626722e-06,
-      "loss": 1.1381,
       "step": 10500
     },
     {
       "epoch": 0.78,
-      "eval_loss": 0.2892506718635559,
-      "eval_runtime": 67.7871,
-      "eval_samples_per_second": 14.752,
-      "eval_steps_per_second": 1.844,
-      "eval_wer": 0.23772897480012145,
       "step": 10500
     },
     {
       "epoch": 0.82,
-      "learning_rate": 9.25164769322948e-06,
-      "loss": 1.137,
       "step": 11000
     },
     {
       "epoch": 0.82,
-      "eval_loss": 0.29484400153160095,
-      "eval_runtime": 66.6708,
-      "eval_samples_per_second": 14.999,
-      "eval_steps_per_second": 1.875,
-      "eval_wer": 0.23550247950612285,
       "step": 11000
     },
     {
       "epoch": 0.85,
-      "learning_rate": 9.214200119832237e-06,
-      "loss": 1.1356,
       "step": 11500
     },
     {
       "epoch": 0.85,
-      "eval_loss": 0.2855495512485504,
-      "eval_runtime": 65.5923,
-      "eval_samples_per_second": 15.246,
-      "eval_steps_per_second": 1.906,
-      "eval_wer": 0.2341868231960328,
       "step": 11500
     },
     {
       "epoch": 0.89,
-      "learning_rate": 9.176752546434992e-06,
-      "loss": 1.1332,
       "step": 12000
     },
     {
       "epoch": 0.89,
-      "eval_loss": 0.28792810440063477,
-      "eval_runtime": 66.6576,
-      "eval_samples_per_second": 15.002,
-      "eval_steps_per_second": 1.875,
-      "eval_wer": 0.2258880680093108,
       "step": 12000
     },
     {
       "epoch": 0.93,
-      "learning_rate": 9.139304973037748e-06,
-      "loss": 1.1233,
       "step": 12500
     },
     {
       "epoch": 0.93,
-      "eval_loss": 0.28108343482017517,
-      "eval_runtime": 65.8778,
-      "eval_samples_per_second": 15.18,
-      "eval_steps_per_second": 1.897,
-      "eval_wer": 0.22912660661876327,
       "step": 12500
     },
     {
       "epoch": 0.97,
-      "learning_rate": 9.101857399640503e-06,
-      "loss": 1.121,
       "step": 13000
     },
     {
       "epoch": 0.97,
-      "eval_loss": 0.2926315367221832,
-      "eval_runtime": 66.2723,
-      "eval_samples_per_second": 15.089,
-      "eval_steps_per_second": 1.886,
-      "eval_wer": 0.22619168100394696,
       "step": 13000
     },
     {
       "epoch": 1.0,
-      "learning_rate": 9.06440982624326e-06,
-      "loss": 1.1116,
       "step": 13500
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.2861410975456238,
-      "eval_runtime": 67.533,
-      "eval_samples_per_second": 14.808,
-      "eval_steps_per_second": 1.851,
-      "eval_wer": 0.21829774314340653,
       "step": 13500
     },
     {
       "epoch": 1.04,
-      "learning_rate": 9.026962252846017e-06,
-      "loss": 1.1098,
       "step": 14000
     },
     {
       "epoch": 1.04,
-      "eval_loss": 0.27931922674179077,
-      "eval_runtime": 67.0283,
-      "eval_samples_per_second": 14.919,
-      "eval_steps_per_second": 1.865,
-      "eval_wer": 0.22092905576358668,
       "step": 14000
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 8.989514679448772e-06,
-      "loss": 1.1047,
       "step": 14500
     },
     {
-      "epoch": 1.04,
-      "eval_loss": 0.27964508533477783,
-      "eval_runtime": 67.4614,
-      "eval_samples_per_second": 14.823,
-      "eval_steps_per_second": 1.853,
-      "eval_wer": 0.22062544276895052,
       "step": 14500
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 8.952067106051529e-06,
-      "loss": 1.0967,
       "step": 15000
     },
     {
-      "epoch": 1.07,
-      "eval_loss": 0.27417540550231934,
-      "eval_runtime": 68.8465,
-      "eval_samples_per_second": 14.525,
-      "eval_steps_per_second": 1.816,
-      "eval_wer": 0.21779172148567957,
       "step": 15000
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 8.91469442780108e-06,
-      "loss": 1.0979,
       "step": 15500
     },
     {
-      "epoch": 1.11,
-      "eval_loss": 0.27622443437576294,
-      "eval_runtime": 67.9285,
-      "eval_samples_per_second": 14.721,
-      "eval_steps_per_second": 1.84,
-      "eval_wer": 0.21961339945349662,
       "step": 15500
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 8.877246854403834e-06,
-      "loss": 1.0984,
       "step": 16000
     },
     {
-      "epoch": 1.15,
-      "eval_loss": 0.27836254239082336,
-      "eval_runtime": 68.0427,
-      "eval_samples_per_second": 14.697,
-      "eval_steps_per_second": 1.837,
-      "eval_wer": 0.2207266471004959,
       "step": 16000
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 8.83979928100659e-06,
-      "loss": 1.0865,
       "step": 16500
     },
     {
-      "epoch": 1.19,
-      "eval_loss": 0.27439314126968384,
-      "eval_runtime": 67.5315,
-      "eval_samples_per_second": 14.808,
-      "eval_steps_per_second": 1.851,
-      "eval_wer": 0.21799413014877037,
       "step": 16500
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 8.802426602756142e-06,
-      "loss": 1.089,
       "step": 17000
     },
     {
-      "epoch": 1.22,
-      "eval_loss": 0.2671995460987091,
-      "eval_runtime": 67.2515,
-      "eval_samples_per_second": 14.87,
-      "eval_steps_per_second": 1.859,
-      "eval_wer": 0.21586883918631716,
       "step": 17000
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 8.764979029358898e-06,
-      "loss": 1.087,
       "step": 17500
     },
     {
-      "epoch": 1.26,
-      "eval_loss": 0.2648696303367615,
-      "eval_runtime": 67.0017,
-      "eval_samples_per_second": 14.925,
-      "eval_steps_per_second": 1.866,
-      "eval_wer": 0.21941099079040582,
       "step": 17500
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 8.727531455961654e-06,
-      "loss": 1.0798,
       "step": 18000
     },
     {
-      "epoch": 1.3,
-      "eval_loss": 0.26909056305885315,
-      "eval_runtime": 68.173,
-      "eval_samples_per_second": 14.669,
-      "eval_steps_per_second": 1.834,
-      "eval_wer": 0.2134399352292278,
       "step": 18000
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 8.690083882564411e-06,
-      "loss": 1.0761,
       "step": 18500
     },
     {
-      "epoch": 1.33,
-      "eval_loss": 0.26856786012649536,
-      "eval_runtime": 67.7073,
-      "eval_samples_per_second": 14.769,
-      "eval_steps_per_second": 1.846,
-      "eval_wer": 0.21192187025604695,
       "step": 18500
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 8.652636309167166e-06,
-      "loss": 1.0756,
       "step": 19000
     },
     {
-      "epoch": 1.37,
-      "eval_loss": 0.259956419467926,
-      "eval_runtime": 67.7698,
-      "eval_samples_per_second": 14.756,
-      "eval_steps_per_second": 1.844,
-      "eval_wer": 0.20706406234186822,
       "step": 19000
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 8.615188735769922e-06,
-      "loss": 1.0698,
       "step": 19500
     },
     {
-      "epoch": 1.41,
-      "eval_loss": 0.2702154517173767,
-      "eval_runtime": 66.8292,
-      "eval_samples_per_second": 14.964,
-      "eval_steps_per_second": 1.87,
-      "eval_wer": 0.21627365651249875,
       "step": 19500
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 8.577741162372678e-06,
-      "loss": 1.0766,
       "step": 20000
     },
     {
-      "epoch": 1.45,
-      "eval_loss": 0.26256585121154785,
-      "eval_runtime": 66.5305,
-      "eval_samples_per_second": 15.031,
-      "eval_steps_per_second": 1.879,
-      "eval_wer": 0.20888574030968526,
       "step": 20000
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 8.540293588975435e-06,
-      "loss": 1.0656,
       "step": 20500
     },
     {
-      "epoch": 1.04,
-      "eval_loss": 0.26638808846473694,
-      "eval_runtime": 67.2186,
-      "eval_samples_per_second": 14.877,
-      "eval_steps_per_second": 1.86,
-      "eval_wer": 0.2074688796680498,
       "step": 20500
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 8.502846015578191e-06,
-      "loss": 1.0624,
       "step": 21000
     },
     {
-      "epoch": 1.07,
-      "eval_loss": 0.25911062955856323,
-      "eval_runtime": 66.2654,
-      "eval_samples_per_second": 15.091,
-      "eval_steps_per_second": 1.886,
-      "eval_wer": 0.20605201902641432,
       "step": 21000
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 8.465398442180948e-06,
-      "loss": 1.0603,
       "step": 21500
     },
     {
-      "epoch": 1.11,
-      "eval_loss": 0.25329792499542236,
-      "eval_runtime": 67.3851,
-      "eval_samples_per_second": 14.84,
-      "eval_steps_per_second": 1.855,
-      "eval_wer": 0.2115170529298654,
       "step": 21500
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 8.427950868783703e-06,
-      "loss": 1.0665,
       "step": 22000
     },
     {
-      "epoch": 1.15,
-      "eval_loss": 0.24775004386901855,
-      "eval_runtime": 66.795,
-      "eval_samples_per_second": 14.971,
-      "eval_steps_per_second": 1.871,
-      "eval_wer": 0.20483756704786965,
       "step": 22000
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 8.390503295386459e-06,
-      "loss": 1.0617,
       "step": 22500
     },
     {
-      "epoch": 1.19,
-      "eval_loss": 0.25084131956100464,
-      "eval_runtime": 66.9347,
-      "eval_samples_per_second": 14.94,
-      "eval_steps_per_second": 1.867,
-      "eval_wer": 0.2115170529298654,
       "step": 22500
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 8.35313061713601e-06,
-      "loss": 1.062,
       "step": 23000
     },
     {
-      "epoch": 1.22,
-      "eval_loss": 0.2520281672477722,
-      "eval_runtime": 66.385,
-      "eval_samples_per_second": 15.064,
-      "eval_steps_per_second": 1.883,
-      "eval_wer": 0.2063556320210505,
       "step": 23000
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 8.315683043738766e-06,
-      "loss": 1.0648,
       "step": 23500
     },
     {
-      "epoch": 1.26,
-      "eval_loss": 0.2521745264530182,
-      "eval_runtime": 66.9658,
-      "eval_samples_per_second": 14.933,
-      "eval_steps_per_second": 1.867,
-      "eval_wer": 0.2051411800425058,
       "step": 23500
     },
-    {
-      "epoch": 1.3,
-      "learning_rate": 8.278235470341523e-06,
-      "loss": 1.0537,
-      "step": 24000
-    },
-    {
-      "epoch": 1.3,
-      "eval_loss": 0.25272318720817566,
-      "eval_runtime": 66.1076,
-      "eval_samples_per_second": 15.127,
-      "eval_steps_per_second": 1.891,
-      "eval_wer": 0.20493877137941505,
-      "step": 24000
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 8.24078789694428e-06,
-      "loss": 1.0497,
-      "step": 24500
-    },
-    {
-      "epoch": 1.33,
-      "eval_loss": 0.2538837492465973,
-      "eval_runtime": 66.1852,
-      "eval_samples_per_second": 15.109,
-      "eval_steps_per_second": 1.889,
-      "eval_wer": 0.20159902843841718,
-      "step": 24500
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 8.20341521869383e-06,
-      "loss": 1.0497,
-      "step": 25000
-    },
-    {
-      "epoch": 1.37,
-      "eval_loss": 0.25169914960861206,
-      "eval_runtime": 68.2448,
-      "eval_samples_per_second": 14.653,
-      "eval_steps_per_second": 1.832,
-      "eval_wer": 0.20170023276996255,
-      "step": 25000
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 8.165967645296585e-06,
-      "loss": 1.0455,
-      "step": 25500
-    },
-    {
-      "epoch": 1.41,
-      "eval_loss": 0.24599966406822205,
-      "eval_runtime": 66.1513,
-      "eval_samples_per_second": 15.117,
-      "eval_steps_per_second": 1.89,
-      "eval_wer": 0.20058698512296327,
-      "step": 25500
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 8.128520071899341e-06,
-      "loss": 1.0372,
-      "step": 26000
-    },
-    {
-      "epoch": 1.45,
-      "eval_loss": 0.24594834446907043,
-      "eval_runtime": 66.7808,
-      "eval_samples_per_second": 14.974,
-      "eval_steps_per_second": 1.872,
-      "eval_wer": 0.19623519886651147,
-      "step": 26000
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 8.091072498502098e-06,
-      "loss": 1.0413,
-      "step": 26500
-    },
-    {
-      "epoch": 1.48,
-      "eval_loss": 0.24532605707645416,
-      "eval_runtime": 69.6969,
-      "eval_samples_per_second": 14.348,
-      "eval_steps_per_second": 1.793,
-      "eval_wer": 0.20210505009614413,
-      "step": 26500
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 8.053624925104854e-06,
-      "loss": 1.0431,
-      "step": 27000
-    },
-    {
-      "epoch": 1.52,
-      "eval_loss": 0.24955426156520844,
-      "eval_runtime": 66.1954,
-      "eval_samples_per_second": 15.107,
-      "eval_steps_per_second": 1.888,
-      "eval_wer": 0.19977735047060013,
-      "step": 27000
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 8.01617735170761e-06,
-      "loss": 1.0334,
-      "step": 27500
-    },
-    {
-      "epoch": 1.56,
-      "eval_loss": 0.25152114033699036,
-      "eval_runtime": 65.6055,
-      "eval_samples_per_second": 15.243,
-      "eval_steps_per_second": 1.905,
-      "eval_wer": 0.19805687683432852,
-      "step": 27500
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 7.978729778310365e-06,
-      "loss": 1.0431,
-      "step": 28000
-    },
-    {
-      "epoch": 1.59,
-      "eval_loss": 0.2484857439994812,
-      "eval_runtime": 65.8366,
-      "eval_samples_per_second": 15.189,
-      "eval_steps_per_second": 1.899,
-      "eval_wer": 0.19987855480214553,
-      "step": 28000
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 7.941282204913122e-06,
-      "loss": 1.0424,
-      "step": 28500
-    },
-    {
-      "epoch": 1.63,
-      "eval_loss": 0.246125265955925,
-      "eval_runtime": 66.1461,
-      "eval_samples_per_second": 15.118,
-      "eval_steps_per_second": 1.89,
-      "eval_wer": 0.19896771581823702,
-      "step": 28500
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 7.903909526662673e-06,
-      "loss": 1.0364,
-      "step": 29000
-    },
-    {
-      "epoch": 1.67,
-      "eval_loss": 0.25167015194892883,
-      "eval_runtime": 66.4041,
-      "eval_samples_per_second": 15.059,
-      "eval_steps_per_second": 1.882,
-      "eval_wer": 0.2001821677967817,
-      "step": 29000
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 7.866461953265429e-06,
-      "loss": 1.0321,
-      "step": 29500
-    },
-    {
-      "epoch": 1.71,
-      "eval_loss": 0.2517380714416504,
-      "eval_runtime": 67.6899,
-      "eval_samples_per_second": 14.773,
-      "eval_steps_per_second": 1.847,
-      "eval_wer": 0.19552676854569376,
-      "step": 29500
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 7.829014379868186e-06,
-      "loss": 1.036,
-      "step": 30000
-    },
-    {
-      "epoch": 1.74,
-      "eval_loss": 0.25128865242004395,
-      "eval_runtime": 67.6941,
-      "eval_samples_per_second": 14.772,
-      "eval_steps_per_second": 1.847,
-      "eval_wer": 0.20068818945450864,
-      "step": 30000
-    },
     {
       "epoch": 1.78,
-      "learning_rate": 7.791566806470942e-06,
-      "loss": 1.0245,
-      "step": 30500
     },
     {
       "epoch": 1.78,
-      "eval_loss": 0.24514135718345642,
-      "eval_runtime": 67.3671,
-      "eval_samples_per_second": 14.844,
-      "eval_steps_per_second": 1.856,
-      "eval_wer": 0.19846169416051007,
-      "step": 30500
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 7.754119233073697e-06,
-      "loss": 1.0296,
-      "step": 31000
-    },
-    {
-      "epoch": 1.82,
-      "eval_loss": 0.24760562181472778,
-      "eval_runtime": 65.961,
-      "eval_samples_per_second": 15.16,
-      "eval_steps_per_second": 1.895,
-      "eval_wer": 0.19684242485578382,
-      "step": 31000
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 7.716746554823248e-06,
-      "loss": 1.0254,
-      "step": 31500
-    },
-    {
-      "epoch": 1.85,
-      "eval_loss": 0.23863530158996582,
-      "eval_runtime": 65.594,
-      "eval_samples_per_second": 15.245,
-      "eval_steps_per_second": 1.906,
-      "eval_wer": 0.19866410282360086,
-      "step": 31500
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 7.679298981426004e-06,
-      "loss": 1.0256,
-      "step": 32000
-    },
-    {
-      "epoch": 1.89,
-      "eval_loss": 0.24572543799877167,
-      "eval_runtime": 68.2944,
-      "eval_samples_per_second": 14.642,
-      "eval_steps_per_second": 1.83,
-      "eval_wer": 0.1928954559255136,
-      "step": 32000
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 7.64185140802876e-06,
-      "loss": 1.0224,
-      "step": 32500
-    },
-    {
-      "epoch": 1.93,
-      "eval_loss": 0.24238397181034088,
-      "eval_runtime": 65.9244,
-      "eval_samples_per_second": 15.169,
-      "eval_steps_per_second": 1.896,
-      "eval_wer": 0.1928954559255136,
-      "step": 32500
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 7.604403834631516e-06,
-      "loss": 1.0176,
-      "step": 33000
-    },
-    {
-      "epoch": 1.97,
-      "eval_loss": 0.24562890827655792,
-      "eval_runtime": 66.3545,
-      "eval_samples_per_second": 15.071,
-      "eval_steps_per_second": 1.884,
-      "eval_wer": 0.19684242485578382,
-      "step": 33000
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 7.5669562612342726e-06,
-      "loss": 1.0143,
-      "step": 33500
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.23884166777133942,
-      "eval_runtime": 66.6643,
-      "eval_samples_per_second": 15.001,
-      "eval_steps_per_second": 1.875,
-      "eval_wer": 0.192996660257059,
-      "step": 33500
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 7.529508687837028e-06,
-      "loss": 1.0156,
-      "step": 34000
-    },
-    {
-      "epoch": 2.04,
-      "eval_loss": 0.2417694628238678,
-      "eval_runtime": 67.1813,
-      "eval_samples_per_second": 14.885,
-      "eval_steps_per_second": 1.861,
-      "eval_wer": 0.19532435988260297,
-      "step": 34000
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 7.492061114439785e-06,
-      "loss": 1.0174,
-      "step": 34500
-    },
-    {
-      "epoch": 2.08,
-      "eval_loss": 0.24063818156719208,
-      "eval_runtime": 65.9342,
-      "eval_samples_per_second": 15.167,
-      "eval_steps_per_second": 1.896,
-      "eval_wer": 0.19168100394696894,
-      "step": 34500
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 7.4546884361893355e-06,
-      "loss": 1.0161,
-      "step": 35000
-    },
-    {
-      "epoch": 2.12,
-      "eval_loss": 0.24444276094436646,
-      "eval_runtime": 67.5245,
-      "eval_samples_per_second": 14.809,
-      "eval_steps_per_second": 1.851,
-      "eval_wer": 0.19350268191478595,
-      "step": 35000
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 7.417240862792092e-06,
-      "loss": 1.0087,
-      "step": 35500
-    },
-    {
-      "epoch": 2.15,
-      "eval_loss": 0.2432408481836319,
-      "eval_runtime": 67.0715,
-      "eval_samples_per_second": 14.909,
-      "eval_steps_per_second": 1.864,
-      "eval_wer": 0.19157979961542354,
-      "step": 35500
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 7.379868184541642e-06,
-      "loss": 1.0116,
-      "step": 36000
-    },
-    {
-      "epoch": 2.19,
-      "eval_loss": 0.2412765473127365,
-      "eval_runtime": 69.9743,
-      "eval_samples_per_second": 14.291,
-      "eval_steps_per_second": 1.786,
-      "eval_wer": 0.19330027325169516,
-      "step": 36000
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 7.3424206111443985e-06,
-      "loss": 1.0077,
-      "step": 36500
-    },
-    {
-      "epoch": 2.23,
-      "eval_loss": 0.24223345518112183,
-      "eval_runtime": 66.1264,
-      "eval_samples_per_second": 15.123,
-      "eval_steps_per_second": 1.89,
-      "eval_wer": 0.19238943426778665,
-      "step": 36500
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 7.304973037747155e-06,
-      "loss": 1.0037,
-      "step": 37000
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 0.24134577810764313,
-      "eval_runtime": 66.1667,
-      "eval_samples_per_second": 15.113,
-      "eval_steps_per_second": 1.889,
-      "eval_wer": 0.19279425159396824,
-      "step": 37000
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 7.2675254643499105e-06,
-      "loss": 1.0037,
-      "step": 37500
-    },
-    {
-      "epoch": 2.3,
-      "eval_loss": 0.23671011626720428,
-      "eval_runtime": 67.1919,
-      "eval_samples_per_second": 14.883,
-      "eval_steps_per_second": 1.86,
-      "eval_wer": 0.19137739095233275,
-      "step": 37500
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 7.230077890952667e-06,
-      "loss": 1.0047,
-      "step": 38000
-    },
-    {
-      "epoch": 2.34,
-      "eval_loss": 0.23813079297542572,
-      "eval_runtime": 65.6673,
-      "eval_samples_per_second": 15.228,
-      "eval_steps_per_second": 1.904,
-      "eval_wer": 0.19117498228924198,
-      "step": 38000
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 7.192630317555423e-06,
-      "loss": 1.0009,
-      "step": 38500
-    },
-    {
-      "epoch": 2.38,
-      "eval_loss": 0.23694893717765808,
-      "eval_runtime": 66.8681,
-      "eval_samples_per_second": 14.955,
-      "eval_steps_per_second": 1.869,
-      "eval_wer": 0.18834126100597107,
-      "step": 38500
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 7.155182744158179e-06,
-      "loss": 1.0009,
-      "step": 39000
-    },
-    {
-      "epoch": 2.41,
-      "eval_loss": 0.23513327538967133,
-      "eval_runtime": 66.1285,
-      "eval_samples_per_second": 15.122,
-      "eval_steps_per_second": 1.89,
-      "eval_wer": 0.19036534763687885,
-      "step": 39000
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 7.117735170760935e-06,
-      "loss": 1.0046,
-      "step": 39500
-    },
-    {
-      "epoch": 2.45,
-      "eval_loss": 0.2393663376569748,
-      "eval_runtime": 65.179,
-      "eval_samples_per_second": 15.342,
-      "eval_steps_per_second": 1.918,
-      "eval_wer": 0.18824005667442567,
-      "step": 39500
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 7.080362492510486e-06,
-      "loss": 0.9973,
-      "step": 40000
-    },
-    {
-      "epoch": 2.49,
-      "eval_loss": 0.23612412810325623,
-      "eval_runtime": 66.8117,
-      "eval_samples_per_second": 14.967,
-      "eval_steps_per_second": 1.871,
-      "eval_wer": 0.1909725736261512,
-      "step": 40000
     }
   ],
   "max_steps": 134520,
   "num_train_epochs": 10,
-  "total_flos": 8.42103488439163e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.784121320249777,
+  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 4.5935,
       "step": 500
     },
     {
       "epoch": 0.04,
+      "eval_loss": 2.184311866760254,
+      "eval_runtime": 62.4666,
+      "eval_samples_per_second": 16.009,
+      "eval_steps_per_second": 2.001,
+      "eval_wer": 0.9602743933654142,
       "step": 500
     },
     {
       "epoch": 0.07,
+      "learning_rate": 9.9e-06,
+      "loss": 1.232,
       "step": 1000
     },
     {
       "epoch": 0.07,
+      "eval_loss": 0.5929161310195923,
+      "eval_runtime": 62.6394,
+      "eval_samples_per_second": 15.964,
+      "eval_steps_per_second": 1.996,
+      "eval_wer": 0.45070134125115185,
       "step": 1000
     },
     {
       "epoch": 0.11,
+      "learning_rate": 9.963301378070702e-06,
+      "loss": 0.7175,
       "step": 1500
     },
     {
       "epoch": 0.11,
+      "eval_loss": 0.40349480509757996,
+      "eval_runtime": 60.7894,
+      "eval_samples_per_second": 16.45,
+      "eval_steps_per_second": 2.056,
+      "eval_wer": 0.3189310945018941,
       "step": 1500
     },
     {
       "epoch": 0.15,
+      "learning_rate": 9.925853804673457e-06,
+      "loss": 0.6209,
       "step": 2000
     },
     {
       "epoch": 0.15,
+      "eval_loss": 0.34757670760154724,
+      "eval_runtime": 61.0833,
+      "eval_samples_per_second": 16.371,
+      "eval_steps_per_second": 2.046,
+      "eval_wer": 0.28278898331114977,
       "step": 2000
     },
     {
       "epoch": 0.19,
+      "learning_rate": 9.888406231276214e-06,
+      "loss": 0.5681,
       "step": 2500
     },
     {
       "epoch": 0.19,
+      "eval_loss": 0.30338042974472046,
+      "eval_runtime": 61.5264,
+      "eval_samples_per_second": 16.253,
+      "eval_steps_per_second": 2.032,
+      "eval_wer": 0.25002559639602745,
       "step": 2500
     },
     {
       "epoch": 0.22,
+      "learning_rate": 9.85095865787897e-06,
+      "loss": 0.5155,
       "step": 3000
     },
     {
       "epoch": 0.22,
+      "eval_loss": 0.28614458441734314,
+      "eval_runtime": 60.5217,
+      "eval_samples_per_second": 16.523,
+      "eval_steps_per_second": 2.065,
+      "eval_wer": 0.22954847957407598,
       "step": 3000
     },
     {
       "epoch": 0.26,
+      "learning_rate": 9.813585979628521e-06,
+      "loss": 0.5228,
       "step": 3500
     },
     {
       "epoch": 0.26,
+      "eval_loss": 0.26384735107421875,
+      "eval_runtime": 60.6845,
+      "eval_samples_per_second": 16.479,
+      "eval_steps_per_second": 2.06,
+      "eval_wer": 0.22401965803214907,
       "step": 3500
     },
     {
       "epoch": 0.3,
+      "learning_rate": 9.776138406231277e-06,
+      "loss": 0.4896,
       "step": 4000
     },
     {
       "epoch": 0.3,
+      "eval_loss": 0.266423761844635,
+      "eval_runtime": 62.3289,
+      "eval_samples_per_second": 16.044,
+      "eval_steps_per_second": 2.005,
+      "eval_wer": 0.2162383536398075,
       "step": 4000
     },
     {
       "epoch": 0.33,
+      "learning_rate": 9.738690832834034e-06,
+      "loss": 0.438,
       "step": 4500
     },
     {
       "epoch": 0.33,
+      "eval_loss": 0.2519201636314392,
+      "eval_runtime": 60.2733,
+      "eval_samples_per_second": 16.591,
+      "eval_steps_per_second": 2.074,
+      "eval_wer": 0.21306440053240502,
       "step": 4500
     },
     {
       "epoch": 0.37,
+      "learning_rate": 9.701243259436789e-06,
+      "loss": 0.3917,
       "step": 5000
     },
     {
       "epoch": 0.37,
+      "eval_loss": 0.2455732226371765,
+      "eval_runtime": 60.2434,
+      "eval_samples_per_second": 16.599,
+      "eval_steps_per_second": 2.075,
+      "eval_wer": 0.20599979522883177,
       "step": 5000
     },
     {
       "epoch": 0.41,
+      "learning_rate": 9.663795686039545e-06,
+      "loss": 0.3597,
       "step": 5500
     },
     {
       "epoch": 0.41,
+      "eval_loss": 0.2465256154537201,
+      "eval_runtime": 60.0373,
+      "eval_samples_per_second": 16.656,
+      "eval_steps_per_second": 2.082,
+      "eval_wer": 0.19862803317292926,
       "step": 5500
     },
     {
       "epoch": 0.45,
+      "learning_rate": 9.626348112642301e-06,
+      "loss": 0.348,
       "step": 6000
     },
     {
       "epoch": 0.45,
+      "eval_loss": 0.23667797446250916,
+      "eval_runtime": 60.4285,
+      "eval_samples_per_second": 16.548,
+      "eval_steps_per_second": 2.069,
+      "eval_wer": 0.19627316473840484,
       "step": 6000
     },
     {
       "epoch": 0.48,
+      "learning_rate": 9.588900539245058e-06,
+      "loss": 0.3356,
       "step": 6500
     },
     {
       "epoch": 0.48,
+      "eval_loss": 0.23445868492126465,
+      "eval_runtime": 60.4449,
+      "eval_samples_per_second": 16.544,
+      "eval_steps_per_second": 2.068,
+      "eval_wer": 0.19432783864031944,
       "step": 6500
     },
     {
       "epoch": 0.52,
+      "learning_rate": 9.551452965847814e-06,
+      "loss": 0.3187,
       "step": 7000
     },
     {
       "epoch": 0.52,
+      "eval_loss": 0.2273026555776596,
+      "eval_runtime": 62.085,
+      "eval_samples_per_second": 16.107,
+      "eval_steps_per_second": 2.013,
+      "eval_wer": 0.18828708917784376,
       "step": 7000
     },
     {
       "epoch": 0.56,
+      "learning_rate": 9.51400539245057e-06,
+      "loss": 0.3175,
       "step": 7500
     },
     {
       "epoch": 0.56,
+      "eval_loss": 0.2206442505121231,
+      "eval_runtime": 61.7597,
+      "eval_samples_per_second": 16.192,
+      "eval_steps_per_second": 2.024,
+      "eval_wer": 0.1840892802293437,
       "step": 7500
     },
     {
       "epoch": 0.59,
+      "learning_rate": 9.476557819053325e-06,
+      "loss": 0.308,
       "step": 8000
     },
     {
       "epoch": 0.59,
+      "eval_loss": 0.21740911900997162,
+      "eval_runtime": 61.9328,
+      "eval_samples_per_second": 16.147,
+      "eval_steps_per_second": 2.018,
+      "eval_wer": 0.18132486945838025,
       "step": 8000
     },
     {
       "epoch": 0.63,
+      "learning_rate": 9.439185140802876e-06,
+      "loss": 0.3015,
       "step": 8500
     },
     {
       "epoch": 0.63,
+      "eval_loss": 0.21573692560195923,
+      "eval_runtime": 61.9764,
+      "eval_samples_per_second": 16.135,
+      "eval_steps_per_second": 2.017,
+      "eval_wer": 0.17948192894440462,
       "step": 8500
     },
     {
       "epoch": 0.67,
+      "learning_rate": 9.401737567405633e-06,
+      "loss": 0.2966,
       "step": 9000
     },
     {
       "epoch": 0.67,
+      "eval_loss": 0.2121206372976303,
+      "eval_runtime": 61.6202,
+      "eval_samples_per_second": 16.228,
+      "eval_steps_per_second": 2.029,
+      "eval_wer": 0.1764103614211119,
       "step": 9000
     },
     {
       "epoch": 0.71,
+      "learning_rate": 9.36428999400839e-06,
+      "loss": 0.2896,
       "step": 9500
     },
     {
       "epoch": 0.71,
+      "eval_loss": 0.21005117893218994,
+      "eval_runtime": 61.7796,
+      "eval_samples_per_second": 16.187,
+      "eval_steps_per_second": 2.023,
+      "eval_wer": 0.17180301013617283,
       "step": 9500
     },
     {
       "epoch": 0.74,
+      "learning_rate": 9.326842420611146e-06,
+      "loss": 0.2895,
       "step": 10000
     },
     {
       "epoch": 0.74,
+      "eval_loss": 0.20771950483322144,
+      "eval_runtime": 62.291,
+      "eval_samples_per_second": 16.054,
+      "eval_steps_per_second": 2.007,
+      "eval_wer": 0.1711886966315143,
       "step": 10000
     },
     {
       "epoch": 0.78,
+      "learning_rate": 9.289469742360697e-06,
+      "loss": 0.2883,
       "step": 10500
     },
     {
       "epoch": 0.78,
+      "eval_loss": 0.20661789178848267,
+      "eval_runtime": 62.3024,
+      "eval_samples_per_second": 16.051,
+      "eval_steps_per_second": 2.006,
+      "eval_wer": 0.17374833623425823,
       "step": 10500
     },
     {
       "epoch": 0.82,
+      "learning_rate": 9.252022168963451e-06,
+      "loss": 0.2781,
       "step": 11000
     },
     {
       "epoch": 0.82,
+      "eval_loss": 0.20887774229049683,
+      "eval_runtime": 61.6124,
+      "eval_samples_per_second": 16.23,
+      "eval_steps_per_second": 2.029,
+      "eval_wer": 0.1744650353230265,
       "step": 11000
     },
     {
       "epoch": 0.85,
+      "learning_rate": 9.214574595566208e-06,
+      "loss": 0.2774,
       "step": 11500
     },
     {
       "epoch": 0.85,
+      "eval_loss": 0.2101556360721588,
+      "eval_runtime": 61.722,
+      "eval_samples_per_second": 16.202,
+      "eval_steps_per_second": 2.025,
+      "eval_wer": 0.17415787857069726,
       "step": 11500
     },
     {
       "epoch": 0.89,
+      "learning_rate": 9.177127022168964e-06,
+      "loss": 0.2728,
       "step": 12000
     },
     {
       "epoch": 0.89,
+      "eval_loss": 0.21667562425136566,
+      "eval_runtime": 61.6295,
+      "eval_samples_per_second": 16.226,
+      "eval_steps_per_second": 2.028,
+      "eval_wer": 0.1680147435241118,
       "step": 12000
     },
     {
       "epoch": 0.93,
+      "learning_rate": 9.13967944877172e-06,
+      "loss": 0.2687,
       "step": 12500
     },
     {
       "epoch": 0.93,
+      "eval_loss": 0.2106214314699173,
+      "eval_runtime": 61.887,
+      "eval_samples_per_second": 16.158,
+      "eval_steps_per_second": 2.02,
+      "eval_wer": 0.16873144261288012,
       "step": 12500
     },
     {
       "epoch": 0.97,
+      "learning_rate": 9.102231875374477e-06,
+      "loss": 0.267,
       "step": 13000
     },
     {
       "epoch": 0.97,
+      "eval_loss": 0.2063138782978058,
+      "eval_runtime": 61.9148,
+      "eval_samples_per_second": 16.151,
+      "eval_steps_per_second": 2.019,
+      "eval_wer": 0.1699600696221972,
       "step": 13000
     },
     {
       "epoch": 1.0,
+      "learning_rate": 9.064859197124028e-06,
+      "loss": 0.2649,
       "step": 13500
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.20692496001720428,
+      "eval_runtime": 62.6641,
+      "eval_samples_per_second": 15.958,
+      "eval_steps_per_second": 1.995,
+      "eval_wer": 0.16985768403808743,
       "step": 13500
     },
     {
       "epoch": 1.04,
+      "learning_rate": 9.027411623726783e-06,
+      "loss": 0.2535,
       "step": 14000
     },
     {
       "epoch": 1.04,
+      "eval_loss": 0.20183749496936798,
+      "eval_runtime": 62.2731,
+      "eval_samples_per_second": 16.058,
+      "eval_steps_per_second": 2.007,
+      "eval_wer": 0.16504556158492883,
       "step": 14000
     },
     {
+      "epoch": 1.08,
+      "learning_rate": 8.98996405032954e-06,
+      "loss": 0.2517,
       "step": 14500
     },
     {
+      "epoch": 1.08,
+      "eval_loss": 0.20589770376682281,
+      "eval_runtime": 60.5308,
+      "eval_samples_per_second": 16.521,
+      "eval_steps_per_second": 2.065,
+      "eval_wer": 0.16555748950547763,
       "step": 14500
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 8.952516476932296e-06,
+      "loss": 0.2533,
       "step": 15000
     },
     {
+      "epoch": 1.12,
+      "eval_loss": 0.19426169991493225,
+      "eval_runtime": 60.3766,
+      "eval_samples_per_second": 16.563,
+      "eval_steps_per_second": 2.07,
+      "eval_wer": 0.1632026210709532,
       "step": 15000
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 8.915068903535052e-06,
+      "loss": 0.2495,
       "step": 15500
     },
     {
+      "epoch": 1.15,
+      "eval_loss": 0.198073610663414,
+      "eval_runtime": 60.6441,
+      "eval_samples_per_second": 16.49,
+      "eval_steps_per_second": 2.061,
+      "eval_wer": 0.15931196887478244,
       "step": 15500
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 8.877696225284603e-06,
+      "loss": 0.2485,
       "step": 16000
     },
     {
+      "epoch": 1.19,
+      "eval_loss": 0.194337397813797,
+      "eval_runtime": 60.9216,
+      "eval_samples_per_second": 16.415,
+      "eval_steps_per_second": 2.052,
+      "eval_wer": 0.16381693457561175,
       "step": 16000
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 8.840323547034154e-06,
+      "loss": 0.2488,
       "step": 16500
     },
     {
+      "epoch": 1.23,
+      "eval_loss": 0.19501833617687225,
+      "eval_runtime": 60.832,
+      "eval_samples_per_second": 16.439,
+      "eval_steps_per_second": 2.055,
+      "eval_wer": 0.15808334186546535,
       "step": 16500
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 8.80287597363691e-06,
+      "loss": 0.2482,
       "step": 17000
     },
     {
+      "epoch": 1.26,
+      "eval_loss": 0.19424903392791748,
+      "eval_runtime": 62.4224,
+      "eval_samples_per_second": 16.02,
+      "eval_steps_per_second": 2.002,
+      "eval_wer": 0.156957100440258,
       "step": 17000
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 8.765428400239665e-06,
+      "loss": 0.2454,
       "step": 17500
     },
     {
+      "epoch": 1.3,
+      "eval_loss": 0.18983419239521027,
+      "eval_runtime": 62.7598,
+      "eval_samples_per_second": 15.934,
+      "eval_steps_per_second": 1.992,
+      "eval_wer": 0.15521654551039213,
       "step": 17500
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 8.728055721989216e-06,
+      "loss": 0.2423,
       "step": 18000
     },
     {
+      "epoch": 1.34,
+      "eval_loss": 0.1893950253725052,
+      "eval_runtime": 61.9276,
+      "eval_samples_per_second": 16.148,
+      "eval_steps_per_second": 2.018,
+      "eval_wer": 0.15521654551039213,
       "step": 18000
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 8.690608148591972e-06,
+      "loss": 0.2426,
       "step": 18500
     },
     {
+      "epoch": 1.38,
+      "eval_loss": 0.19094379246234894,
+      "eval_runtime": 62.4801,
+      "eval_samples_per_second": 16.005,
+      "eval_steps_per_second": 2.001,
+      "eval_wer": 0.15521654551039213,
       "step": 18500
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 8.653160575194727e-06,
+      "loss": 0.2362,
       "step": 19000
     },
     {
+      "epoch": 1.41,
+      "eval_loss": 0.18532328307628632,
+      "eval_runtime": 62.2339,
+      "eval_samples_per_second": 16.068,
+      "eval_steps_per_second": 2.009,
+      "eval_wer": 0.15449984642162384,
       "step": 19000
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 8.615787896944278e-06,
+      "loss": 0.2411,
       "step": 19500
     },
     {
+      "epoch": 1.45,
+      "eval_loss": 0.18669460713863373,
+      "eval_runtime": 61.7976,
+      "eval_samples_per_second": 16.182,
+      "eval_steps_per_second": 2.023,
+      "eval_wer": 0.15306644824408724,
       "step": 19500
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 8.578340323547035e-06,
+      "loss": 0.2386,
       "step": 20000
     },
     {
+      "epoch": 1.49,
+      "eval_loss": 0.18574979901313782,
+      "eval_runtime": 62.0229,
+      "eval_samples_per_second": 16.123,
+      "eval_steps_per_second": 2.015,
+      "eval_wer": 0.15501177434217261,
       "step": 20000
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 8.540892750149791e-06,
+      "loss": 0.2399,
       "step": 20500
     },
     {
+      "epoch": 1.52,
+      "eval_loss": 0.18443606793880463,
+      "eval_runtime": 62.46,
+      "eval_samples_per_second": 16.01,
+      "eval_steps_per_second": 2.001,
+      "eval_wer": 0.15040442305723353,
       "step": 20500
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 8.503445176752547e-06,
+      "loss": 0.2372,
       "step": 21000
     },
     {
+      "epoch": 1.56,
+      "eval_loss": 0.1922898292541504,
+      "eval_runtime": 62.2693,
+      "eval_samples_per_second": 16.059,
+      "eval_steps_per_second": 2.007,
+      "eval_wer": 0.15654755810381898,
       "step": 21000
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 8.465997603355304e-06,
+      "loss": 0.2329,
       "step": 21500
     },
     {
+      "epoch": 1.6,
+      "eval_loss": 0.18686270713806152,
+      "eval_runtime": 62.3656,
+      "eval_samples_per_second": 16.034,
+      "eval_steps_per_second": 2.004,
+      "eval_wer": 0.1553189310945019,
       "step": 21500
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 8.428550029958059e-06,
+      "loss": 0.239,
       "step": 22000
     },
     {
+      "epoch": 1.64,
+      "eval_loss": 0.18338114023208618,
+      "eval_runtime": 61.5958,
+      "eval_samples_per_second": 16.235,
+      "eval_steps_per_second": 2.029,
+      "eval_wer": 0.15296406265997747,
       "step": 22000
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 8.391102456560815e-06,
+      "loss": 0.2362,
       "step": 22500
     },
     {
+      "epoch": 1.67,
+      "eval_loss": 0.1865980476140976,
+      "eval_runtime": 61.9855,
+      "eval_samples_per_second": 16.133,
+      "eval_steps_per_second": 2.017,
+      "eval_wer": 0.15613801576737996,
       "step": 22500
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 8.353654883163571e-06,
+      "loss": 0.2339,
       "step": 23000
     },
     {
+      "epoch": 1.71,
+      "eval_loss": 0.18834584951400757,
+      "eval_runtime": 62.0192,
+      "eval_samples_per_second": 16.124,
+      "eval_steps_per_second": 2.016,
+      "eval_wer": 0.15275929149175796,
       "step": 23000
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 8.316207309766328e-06,
+      "loss": 0.2244,
       "step": 23500
     },
     {
+      "epoch": 1.75,
+      "eval_loss": 0.18758971989154816,
+      "eval_runtime": 61.7138,
+      "eval_samples_per_second": 16.204,
+      "eval_steps_per_second": 2.025,
+      "eval_wer": 0.15081396539367256,
       "step": 23500
     },
     {
       "epoch": 1.78,
+      "learning_rate": 8.278759736369084e-06,
+      "loss": 0.2305,
+      "step": 24000
     },
     {
       "epoch": 1.78,
+      "eval_loss": 0.18345214426517487,
+      "eval_runtime": 61.5754,
+      "eval_samples_per_second": 16.24,
+      "eval_steps_per_second": 2.03,
+      "eval_wer": 0.14989249513668476,
+      "step": 24000
     }
   ],
   "max_steps": 134520,
   "num_train_epochs": 10,
+  "total_flos": 5.0257004948378596e+20,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef036419d64a2effc8f44a7df7e9650d3b7737500695435b7ef79da8ec68c861
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:40bfb6388b81773860d3e86d1ef130690e421d3a9da23a43b855e3f2f27d2f70
 size 3055