Upload 7 files

Browse files

Files changed (7) hide show

config.json +116 -0
preprocessor_config.json +10 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2057 -0
training_args.bin +3 -0
vocab.json +1 -0

config.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 26,
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 29,
+  "xvector_output_dim": 512
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2Processor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc6d8be337d23ba212f987b1383487c3e673290d8ec4a9a819f5aab5b08628c5
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac2ea29afe0c11f282dd386c9043289e8b142c9be1c58f45cdd17f545ae4647f
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2057 @@

+{
+  "best_metric": 0.923943661971831,
+  "best_model_checkpoint": "./ssw-finetune/checkpoint-1150",
+  "epoch": 115.0,
+  "eval_steps": 25,
+  "global_step": 1150,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5,
+      "grad_norm": 5.561491012573242,
+      "learning_rate": 2.9999999999999997e-06,
+      "loss": 7.7799,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 4.18166971206665,
+      "learning_rate": 6.749999999999999e-06,
+      "loss": 7.4713,
+      "step": 10
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 6.806884288787842,
+      "learning_rate": 1.05e-05,
+      "loss": 7.696,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": NaN,
+      "learning_rate": 1.3499999999999998e-05,
+      "loss": 7.9462,
+      "step": 20
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": NaN,
+      "learning_rate": 1.6499999999999998e-05,
+      "loss": 8.0165,
+      "step": 25
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 7.467132091522217,
+      "eval_runtime": 1.054,
+      "eval_samples_per_second": 22.77,
+      "eval_steps_per_second": 0.949,
+      "eval_wer": 1.0,
+      "step": 25
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.7979044914245605,
+      "learning_rate": 2.025e-05,
+      "loss": 6.5204,
+      "step": 30
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 9.716986656188965,
+      "learning_rate": 2.3999999999999997e-05,
+      "loss": 7.6715,
+      "step": 35
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 3.3519299030303955,
+      "learning_rate": 2.7749999999999997e-05,
+      "loss": 7.0161,
+      "step": 40
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 5.6749138832092285,
+      "learning_rate": 3.149999999999999e-05,
+      "loss": 8.0617,
+      "step": 45
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 8.150848388671875,
+      "learning_rate": 3.5249999999999996e-05,
+      "loss": 6.3142,
+      "step": 50
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 6.626723766326904,
+      "eval_runtime": 1.071,
+      "eval_samples_per_second": 22.409,
+      "eval_steps_per_second": 0.934,
+      "eval_wer": 1.0,
+      "step": 50
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 6.339476585388184,
+      "learning_rate": 3.9e-05,
+      "loss": 6.2643,
+      "step": 55
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 13.012835502624512,
+      "learning_rate": 4.2749999999999996e-05,
+      "loss": 7.1655,
+      "step": 60
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 11.24893569946289,
+      "learning_rate": 4.65e-05,
+      "loss": 5.8178,
+      "step": 65
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 24.677473068237305,
+      "learning_rate": 5.025e-05,
+      "loss": 5.5684,
+      "step": 70
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 8.214367866516113,
+      "learning_rate": 5.399999999999999e-05,
+      "loss": 4.3185,
+      "step": 75
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 3.72790789604187,
+      "eval_runtime": 1.0391,
+      "eval_samples_per_second": 23.097,
+      "eval_steps_per_second": 0.962,
+      "eval_wer": 1.0,
+      "step": 75
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 8.643641471862793,
+      "learning_rate": 5.7749999999999994e-05,
+      "loss": 4.1807,
+      "step": 80
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 10.54008674621582,
+      "learning_rate": 6.149999999999999e-05,
+      "loss": 3.7552,
+      "step": 85
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 3.332289934158325,
+      "learning_rate": 6.525e-05,
+      "loss": 3.7053,
+      "step": 90
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 4.925398349761963,
+      "learning_rate": 6.9e-05,
+      "loss": 3.3661,
+      "step": 95
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 5.291933536529541,
+      "learning_rate": 7.274999999999999e-05,
+      "loss": 3.1777,
+      "step": 100
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 3.050647735595703,
+      "eval_runtime": 1.0273,
+      "eval_samples_per_second": 23.362,
+      "eval_steps_per_second": 0.973,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 1.6660319566726685,
+      "learning_rate": 7.649999999999999e-05,
+      "loss": 3.0435,
+      "step": 105
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.681082546710968,
+      "learning_rate": 8.025e-05,
+      "loss": 3.254,
+      "step": 110
+    },
+    {
+      "epoch": 11.5,
+      "grad_norm": 2.713016986846924,
+      "learning_rate": 8.4e-05,
+      "loss": 2.972,
+      "step": 115
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 7.211615085601807,
+      "learning_rate": 8.774999999999999e-05,
+      "loss": 3.1145,
+      "step": 120
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 3.3372182846069336,
+      "learning_rate": 9.149999999999999e-05,
+      "loss": 3.0587,
+      "step": 125
+    },
+    {
+      "epoch": 12.5,
+      "eval_loss": 2.936924695968628,
+      "eval_runtime": 1.0424,
+      "eval_samples_per_second": 23.023,
+      "eval_steps_per_second": 0.959,
+      "eval_wer": 1.0,
+      "step": 125
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 1.895374059677124,
+      "learning_rate": 9.525e-05,
+      "loss": 2.9096,
+      "step": 130
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 8.356375694274902,
+      "learning_rate": 9.9e-05,
+      "loss": 3.3159,
+      "step": 135
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.6825320720672607,
+      "learning_rate": 0.00010275,
+      "loss": 2.9022,
+      "step": 140
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 0.7314967513084412,
+      "learning_rate": 0.00010649999999999999,
+      "loss": 2.9058,
+      "step": 145
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 3.183772563934326,
+      "learning_rate": 0.00011024999999999998,
+      "loss": 3.0633,
+      "step": 150
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 2.9296257495880127,
+      "eval_runtime": 1.0347,
+      "eval_samples_per_second": 23.194,
+      "eval_steps_per_second": 0.966,
+      "eval_wer": 1.0,
+      "step": 150
+    },
+    {
+      "epoch": 15.5,
+      "grad_norm": 1.4891362190246582,
+      "learning_rate": 0.00011399999999999999,
+      "loss": 2.9901,
+      "step": 155
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 5.58284854888916,
+      "learning_rate": 0.00011774999999999999,
+      "loss": 2.9861,
+      "step": 160
+    },
+    {
+      "epoch": 16.5,
+      "grad_norm": 1.3804000616073608,
+      "learning_rate": 0.0001215,
+      "loss": 2.9584,
+      "step": 165
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 1.6562563180923462,
+      "learning_rate": 0.00012524999999999998,
+      "loss": 3.0194,
+      "step": 170
+    },
+    {
+      "epoch": 17.5,
+      "grad_norm": 0.653541088104248,
+      "learning_rate": 0.000129,
+      "loss": 2.9639,
+      "step": 175
+    },
+    {
+      "epoch": 17.5,
+      "eval_loss": 2.926556348800659,
+      "eval_runtime": 1.0442,
+      "eval_samples_per_second": 22.985,
+      "eval_steps_per_second": 0.958,
+      "eval_wer": 1.0,
+      "step": 175
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 9.456038475036621,
+      "learning_rate": 0.00013275,
+      "loss": 2.8944,
+      "step": 180
+    },
+    {
+      "epoch": 18.5,
+      "grad_norm": 0.3759576082229614,
+      "learning_rate": 0.00013649999999999998,
+      "loss": 2.9149,
+      "step": 185
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 3.0567305088043213,
+      "learning_rate": 0.00014025,
+      "loss": 3.0321,
+      "step": 190
+    },
+    {
+      "epoch": 19.5,
+      "grad_norm": 8.436885833740234,
+      "learning_rate": 0.00014399999999999998,
+      "loss": 2.9683,
+      "step": 195
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 1.9778860807418823,
+      "learning_rate": 0.00014774999999999999,
+      "loss": 2.9576,
+      "step": 200
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 2.9644908905029297,
+      "eval_runtime": 1.0268,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 0.974,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 20.5,
+      "grad_norm": 0.6856608390808105,
+      "learning_rate": 0.00014976923076923077,
+      "loss": 2.9374,
+      "step": 205
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 1.157402515411377,
+      "learning_rate": 0.00014919230769230767,
+      "loss": 2.875,
+      "step": 210
+    },
+    {
+      "epoch": 21.5,
+      "grad_norm": 0.42920613288879395,
+      "learning_rate": 0.0001486153846153846,
+      "loss": 2.9796,
+      "step": 215
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 4.603660583496094,
+      "learning_rate": 0.00014803846153846152,
+      "loss": 2.9233,
+      "step": 220
+    },
+    {
+      "epoch": 22.5,
+      "grad_norm": 1.3661619424819946,
+      "learning_rate": 0.00014746153846153845,
+      "loss": 2.8708,
+      "step": 225
+    },
+    {
+      "epoch": 22.5,
+      "eval_loss": 2.9085776805877686,
+      "eval_runtime": 1.0387,
+      "eval_samples_per_second": 23.106,
+      "eval_steps_per_second": 0.963,
+      "eval_wer": 1.0,
+      "step": 225
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 0.7445681691169739,
+      "learning_rate": 0.00014688461538461537,
+      "loss": 2.933,
+      "step": 230
+    },
+    {
+      "epoch": 23.5,
+      "grad_norm": 1.2040903568267822,
+      "learning_rate": 0.0001463076923076923,
+      "loss": 2.9217,
+      "step": 235
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 4.538419246673584,
+      "learning_rate": 0.00014573076923076923,
+      "loss": 2.9043,
+      "step": 240
+    },
+    {
+      "epoch": 24.5,
+      "grad_norm": 0.36169031262397766,
+      "learning_rate": 0.00014515384615384615,
+      "loss": 2.8554,
+      "step": 245
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 1.2133870124816895,
+      "learning_rate": 0.00014457692307692305,
+      "loss": 2.943,
+      "step": 250
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 2.900446653366089,
+      "eval_runtime": 1.0279,
+      "eval_samples_per_second": 23.348,
+      "eval_steps_per_second": 0.973,
+      "eval_wer": 1.0,
+      "step": 250
+    },
+    {
+      "epoch": 25.5,
+      "grad_norm": 1.1455128192901611,
+      "learning_rate": 0.00014399999999999998,
+      "loss": 2.8775,
+      "step": 255
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.7162177562713623,
+      "learning_rate": 0.0001434230769230769,
+      "loss": 2.9401,
+      "step": 260
+    },
+    {
+      "epoch": 26.5,
+      "grad_norm": 4.095553398132324,
+      "learning_rate": 0.00014284615384615383,
+      "loss": 2.9053,
+      "step": 265
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 2.0302634239196777,
+      "learning_rate": 0.00014226923076923075,
+      "loss": 2.975,
+      "step": 270
+    },
+    {
+      "epoch": 27.5,
+      "grad_norm": 3.123234510421753,
+      "learning_rate": 0.00014169230769230768,
+      "loss": 2.9225,
+      "step": 275
+    },
+    {
+      "epoch": 27.5,
+      "eval_loss": 2.9469966888427734,
+      "eval_runtime": 1.023,
+      "eval_samples_per_second": 23.46,
+      "eval_steps_per_second": 0.978,
+      "eval_wer": 1.0,
+      "step": 275
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 0.886202871799469,
+      "learning_rate": 0.0001411153846153846,
+      "loss": 2.8783,
+      "step": 280
+    },
+    {
+      "epoch": 28.5,
+      "grad_norm": 0.48980531096458435,
+      "learning_rate": 0.00014053846153846153,
+      "loss": 2.8977,
+      "step": 285
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 2.4499869346618652,
+      "learning_rate": 0.00013996153846153843,
+      "loss": 2.9178,
+      "step": 290
+    },
+    {
+      "epoch": 29.5,
+      "grad_norm": 3.5155863761901855,
+      "learning_rate": 0.00013938461538461536,
+      "loss": 2.8955,
+      "step": 295
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 3.8240697383880615,
+      "learning_rate": 0.00013880769230769228,
+      "loss": 2.9897,
+      "step": 300
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 2.9530646800994873,
+      "eval_runtime": 1.0334,
+      "eval_samples_per_second": 23.224,
+      "eval_steps_per_second": 0.968,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 30.5,
+      "grad_norm": 1.4881560802459717,
+      "learning_rate": 0.0001382307692307692,
+      "loss": 2.8732,
+      "step": 305
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 5.950206756591797,
+      "learning_rate": 0.00013765384615384613,
+      "loss": 2.9688,
+      "step": 310
+    },
+    {
+      "epoch": 31.5,
+      "grad_norm": 0.8825148940086365,
+      "learning_rate": 0.00013707692307692306,
+      "loss": 2.869,
+      "step": 315
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 1.6368755102157593,
+      "learning_rate": 0.00013649999999999998,
+      "loss": 2.8843,
+      "step": 320
+    },
+    {
+      "epoch": 32.5,
+      "grad_norm": 1.556404709815979,
+      "learning_rate": 0.0001359230769230769,
+      "loss": 2.8514,
+      "step": 325
+    },
+    {
+      "epoch": 32.5,
+      "eval_loss": 2.911478042602539,
+      "eval_runtime": 1.021,
+      "eval_samples_per_second": 23.505,
+      "eval_steps_per_second": 0.979,
+      "eval_wer": 1.0,
+      "step": 325
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 0.6802976131439209,
+      "learning_rate": 0.00013534615384615384,
+      "loss": 2.8542,
+      "step": 330
+    },
+    {
+      "epoch": 33.5,
+      "grad_norm": 0.5035978555679321,
+      "learning_rate": 0.00013476923076923076,
+      "loss": 2.9064,
+      "step": 335
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 1.6443456411361694,
+      "learning_rate": 0.0001341923076923077,
+      "loss": 2.8498,
+      "step": 340
+    },
+    {
+      "epoch": 34.5,
+      "grad_norm": 0.6262179017066956,
+      "learning_rate": 0.0001336153846153846,
+      "loss": 2.8368,
+      "step": 345
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 0.8266497850418091,
+      "learning_rate": 0.00013303846153846154,
+      "loss": 2.8681,
+      "step": 350
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 2.9094789028167725,
+      "eval_runtime": 1.0369,
+      "eval_samples_per_second": 23.145,
+      "eval_steps_per_second": 0.964,
+      "eval_wer": 1.0,
+      "step": 350
+    },
+    {
+      "epoch": 35.5,
+      "grad_norm": 0.33677324652671814,
+      "learning_rate": 0.00013246153846153846,
+      "loss": 2.8163,
+      "step": 355
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 0.6221341490745544,
+      "learning_rate": 0.0001318846153846154,
+      "loss": 2.8746,
+      "step": 360
+    },
+    {
+      "epoch": 36.5,
+      "grad_norm": 0.5015878677368164,
+      "learning_rate": 0.00013130769230769232,
+      "loss": 2.8477,
+      "step": 365
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 0.6005992889404297,
+      "learning_rate": 0.00013073076923076921,
+      "loss": 2.838,
+      "step": 370
+    },
+    {
+      "epoch": 37.5,
+      "grad_norm": 0.4997330605983734,
+      "learning_rate": 0.00013015384615384614,
+      "loss": 2.8431,
+      "step": 375
+    },
+    {
+      "epoch": 37.5,
+      "eval_loss": 2.90104603767395,
+      "eval_runtime": 1.017,
+      "eval_samples_per_second": 23.599,
+      "eval_steps_per_second": 0.983,
+      "eval_wer": 1.0,
+      "step": 375
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 1.342210292816162,
+      "learning_rate": 0.00012957692307692307,
+      "loss": 2.8672,
+      "step": 380
+    },
+    {
+      "epoch": 38.5,
+      "grad_norm": 1.2935914993286133,
+      "learning_rate": 0.000129,
+      "loss": 2.848,
+      "step": 385
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 0.41487249732017517,
+      "learning_rate": 0.00012842307692307692,
+      "loss": 2.8244,
+      "step": 390
+    },
+    {
+      "epoch": 39.5,
+      "grad_norm": 1.1988450288772583,
+      "learning_rate": 0.00012784615384615384,
+      "loss": 2.8328,
+      "step": 395
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.2671468257904053,
+      "learning_rate": 0.00012726923076923077,
+      "loss": 2.8843,
+      "step": 400
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 2.9156665802001953,
+      "eval_runtime": 1.0579,
+      "eval_samples_per_second": 22.686,
+      "eval_steps_per_second": 0.945,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 40.5,
+      "grad_norm": 1.003772497177124,
+      "learning_rate": 0.0001266923076923077,
+      "loss": 2.8312,
+      "step": 405
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 1.2402571439743042,
+      "learning_rate": 0.00012611538461538462,
+      "loss": 2.8291,
+      "step": 410
+    },
+    {
+      "epoch": 41.5,
+      "grad_norm": 0.29388442635536194,
+      "learning_rate": 0.00012553846153846152,
+      "loss": 2.8275,
+      "step": 415
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 0.9477460980415344,
+      "learning_rate": 0.00012496153846153844,
+      "loss": 2.8384,
+      "step": 420
+    },
+    {
+      "epoch": 42.5,
+      "grad_norm": 1.4519686698913574,
+      "learning_rate": 0.00012438461538461537,
+      "loss": 2.9357,
+      "step": 425
+    },
+    {
+      "epoch": 42.5,
+      "eval_loss": 2.902658462524414,
+      "eval_runtime": 1.0363,
+      "eval_samples_per_second": 23.158,
+      "eval_steps_per_second": 0.965,
+      "eval_wer": 1.0,
+      "step": 425
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 0.4391646087169647,
+      "learning_rate": 0.0001238076923076923,
+      "loss": 2.8395,
+      "step": 430
+    },
+    {
+      "epoch": 43.5,
+      "grad_norm": 2.1784377098083496,
+      "learning_rate": 0.00012323076923076922,
+      "loss": 2.8599,
+      "step": 435
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 0.9729048609733582,
+      "learning_rate": 0.00012265384615384615,
+      "loss": 2.8489,
+      "step": 440
+    },
+    {
+      "epoch": 44.5,
+      "grad_norm": 0.5243009328842163,
+      "learning_rate": 0.00012207692307692307,
+      "loss": 2.83,
+      "step": 445
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.7081323862075806,
+      "learning_rate": 0.0001215,
+      "loss": 2.8236,
+      "step": 450
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 2.901521682739258,
+      "eval_runtime": 1.0318,
+      "eval_samples_per_second": 23.261,
+      "eval_steps_per_second": 0.969,
+      "eval_wer": 1.0,
+      "step": 450
+    },
+    {
+      "epoch": 45.5,
+      "grad_norm": 0.3105088770389557,
+      "learning_rate": 0.00012092307692307691,
+      "loss": 2.8189,
+      "step": 455
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 0.6120209097862244,
+      "learning_rate": 0.00012034615384615384,
+      "loss": 2.8075,
+      "step": 460
+    },
+    {
+      "epoch": 46.5,
+      "grad_norm": 0.996507465839386,
+      "learning_rate": 0.00011976923076923076,
+      "loss": 2.8318,
+      "step": 465
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 7.280458927154541,
+      "learning_rate": 0.00011919230769230767,
+      "loss": 2.871,
+      "step": 470
+    },
+    {
+      "epoch": 47.5,
+      "grad_norm": 0.8332684636116028,
+      "learning_rate": 0.0001186153846153846,
+      "loss": 2.8376,
+      "step": 475
+    },
+    {
+      "epoch": 47.5,
+      "eval_loss": 2.900068998336792,
+      "eval_runtime": 1.0322,
+      "eval_samples_per_second": 23.251,
+      "eval_steps_per_second": 0.969,
+      "eval_wer": 1.0,
+      "step": 475
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 0.6555355191230774,
+      "learning_rate": 0.00011803846153846153,
+      "loss": 2.7954,
+      "step": 480
+    },
+    {
+      "epoch": 48.5,
+      "grad_norm": 1.127866268157959,
+      "learning_rate": 0.00011746153846153845,
+      "loss": 2.8494,
+      "step": 485
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 0.7961714863777161,
+      "learning_rate": 0.00011688461538461538,
+      "loss": 2.8446,
+      "step": 490
+    },
+    {
+      "epoch": 49.5,
+      "grad_norm": 1.9832100868225098,
+      "learning_rate": 0.00011630769230769229,
+      "loss": 2.8353,
+      "step": 495
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.9229313731193542,
+      "learning_rate": 0.00011573076923076922,
+      "loss": 2.8148,
+      "step": 500
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 2.8878333568573,
+      "eval_runtime": 1.0279,
+      "eval_samples_per_second": 23.349,
+      "eval_steps_per_second": 0.973,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 50.5,
+      "grad_norm": 2.113555669784546,
+      "learning_rate": 0.00011515384615384614,
+      "loss": 2.816,
+      "step": 505
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 2.10042667388916,
+      "learning_rate": 0.00011457692307692307,
+      "loss": 2.8544,
+      "step": 510
+    },
+    {
+      "epoch": 51.5,
+      "grad_norm": 0.48272839188575745,
+      "learning_rate": 0.00011399999999999999,
+      "loss": 2.8207,
+      "step": 515
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 0.9009172320365906,
+      "learning_rate": 0.00011342307692307692,
+      "loss": 2.8008,
+      "step": 520
+    },
+    {
+      "epoch": 52.5,
+      "grad_norm": 1.0341640710830688,
+      "learning_rate": 0.00011284615384615384,
+      "loss": 2.8057,
+      "step": 525
+    },
+    {
+      "epoch": 52.5,
+      "eval_loss": 2.8624706268310547,
+      "eval_runtime": 1.037,
+      "eval_samples_per_second": 23.144,
+      "eval_steps_per_second": 0.964,
+      "eval_wer": 1.0,
+      "step": 525
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 1.3395497798919678,
+      "learning_rate": 0.00011226923076923077,
+      "loss": 2.7866,
+      "step": 530
+    },
+    {
+      "epoch": 53.5,
+      "grad_norm": 0.3619355261325836,
+      "learning_rate": 0.00011169230769230768,
+      "loss": 2.7779,
+      "step": 535
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 1.4029289484024048,
+      "learning_rate": 0.0001111153846153846,
+      "loss": 2.789,
+      "step": 540
+    },
+    {
+      "epoch": 54.5,
+      "grad_norm": 0.29736635088920593,
+      "learning_rate": 0.00011053846153846152,
+      "loss": 2.7452,
+      "step": 545
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 1.7570823431015015,
+      "learning_rate": 0.00010996153846153845,
+      "loss": 2.7268,
+      "step": 550
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 2.819674253463745,
+      "eval_runtime": 1.0343,
+      "eval_samples_per_second": 23.205,
+      "eval_steps_per_second": 0.967,
+      "eval_wer": 1.0,
+      "step": 550
+    },
+    {
+      "epoch": 55.5,
+      "grad_norm": 0.3762887418270111,
+      "learning_rate": 0.00010938461538461537,
+      "loss": 2.7224,
+      "step": 555
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 1.0835281610488892,
+      "learning_rate": 0.0001088076923076923,
+      "loss": 2.7022,
+      "step": 560
+    },
+    {
+      "epoch": 56.5,
+      "grad_norm": 1.721433401107788,
+      "learning_rate": 0.00010823076923076922,
+      "loss": 2.6927,
+      "step": 565
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 2.9872403144836426,
+      "learning_rate": 0.00010765384615384615,
+      "loss": 2.7924,
+      "step": 570
+    },
+    {
+      "epoch": 57.5,
+      "grad_norm": 0.5493649840354919,
+      "learning_rate": 0.00010707692307692306,
+      "loss": 2.6252,
+      "step": 575
+    },
+    {
+      "epoch": 57.5,
+      "eval_loss": 2.807591676712036,
+      "eval_runtime": 1.0323,
+      "eval_samples_per_second": 23.25,
+      "eval_steps_per_second": 0.969,
+      "eval_wer": 1.0,
+      "step": 575
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 1.2353851795196533,
+      "learning_rate": 0.00010649999999999999,
+      "loss": 2.6458,
+      "step": 580
+    },
+    {
+      "epoch": 58.5,
+      "grad_norm": 0.7240511775016785,
+      "learning_rate": 0.00010592307692307691,
+      "loss": 2.5911,
+      "step": 585
+    },
+    {
+      "epoch": 59.0,
+      "grad_norm": 0.9982340335845947,
+      "learning_rate": 0.00010534615384615384,
+      "loss": 2.6489,
+      "step": 590
+    },
+    {
+      "epoch": 59.5,
+      "grad_norm": 0.6784680485725403,
+      "learning_rate": 0.00010476923076923076,
+      "loss": 2.5169,
+      "step": 595
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 1.9756778478622437,
+      "learning_rate": 0.00010419230769230769,
+      "loss": 2.5511,
+      "step": 600
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 2.615316152572632,
+      "eval_runtime": 1.0274,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 0.973,
+      "eval_wer": 1.0056338028169014,
+      "step": 600
+    },
+    {
+      "epoch": 60.5,
+      "grad_norm": 1.3284317255020142,
+      "learning_rate": 0.00010361538461538462,
+      "loss": 2.4731,
+      "step": 605
+    },
+    {
+      "epoch": 61.0,
+      "grad_norm": 1.3110464811325073,
+      "learning_rate": 0.00010303846153846154,
+      "loss": 2.4817,
+      "step": 610
+    },
+    {
+      "epoch": 61.5,
+      "grad_norm": 1.003812551498413,
+      "learning_rate": 0.00010246153846153844,
+      "loss": 2.3945,
+      "step": 615
+    },
+    {
+      "epoch": 62.0,
+      "grad_norm": 1.148573398590088,
+      "learning_rate": 0.00010188461538461537,
+      "loss": 2.399,
+      "step": 620
+    },
+    {
+      "epoch": 62.5,
+      "grad_norm": 0.5585479736328125,
+      "learning_rate": 0.00010130769230769229,
+      "loss": 2.323,
+      "step": 625
+    },
+    {
+      "epoch": 62.5,
+      "eval_loss": 2.4444546699523926,
+      "eval_runtime": 1.0272,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 0.974,
+      "eval_wer": 1.0169014084507042,
+      "step": 625
+    },
+    {
+      "epoch": 63.0,
+      "grad_norm": 2.2142958641052246,
+      "learning_rate": 0.00010073076923076922,
+      "loss": 2.2927,
+      "step": 630
+    },
+    {
+      "epoch": 63.5,
+      "grad_norm": 1.0168890953063965,
+      "learning_rate": 0.00010015384615384614,
+      "loss": 2.2108,
+      "step": 635
+    },
+    {
+      "epoch": 64.0,
+      "grad_norm": 1.312639832496643,
+      "learning_rate": 9.957692307692307e-05,
+      "loss": 2.1866,
+      "step": 640
+    },
+    {
+      "epoch": 64.5,
+      "grad_norm": 0.5699294209480286,
+      "learning_rate": 9.9e-05,
+      "loss": 2.1114,
+      "step": 645
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 1.4273818731307983,
+      "learning_rate": 9.842307692307692e-05,
+      "loss": 2.1119,
+      "step": 650
+    },
+    {
+      "epoch": 65.0,
+      "eval_loss": 2.2476181983947754,
+      "eval_runtime": 1.0519,
+      "eval_samples_per_second": 22.815,
+      "eval_steps_per_second": 0.951,
+      "eval_wer": 1.1183098591549296,
+      "step": 650
+    },
+    {
+      "epoch": 65.5,
+      "grad_norm": 0.5214980244636536,
+      "learning_rate": 9.784615384615383e-05,
+      "loss": 2.0414,
+      "step": 655
+    },
+    {
+      "epoch": 66.0,
+      "grad_norm": 2.480297803878784,
+      "learning_rate": 9.726923076923076e-05,
+      "loss": 2.0609,
+      "step": 660
+    },
+    {
+      "epoch": 66.5,
+      "grad_norm": 3.5270726680755615,
+      "learning_rate": 9.669230769230768e-05,
+      "loss": 1.9963,
+      "step": 665
+    },
+    {
+      "epoch": 67.0,
+      "grad_norm": 14.827882766723633,
+      "learning_rate": 9.611538461538461e-05,
+      "loss": 1.9333,
+      "step": 670
+    },
+    {
+      "epoch": 67.5,
+      "grad_norm": 1.1005451679229736,
+      "learning_rate": 9.553846153846153e-05,
+      "loss": 1.8514,
+      "step": 675
+    },
+    {
+      "epoch": 67.5,
+      "eval_loss": 2.173093318939209,
+      "eval_runtime": 1.033,
+      "eval_samples_per_second": 23.233,
+      "eval_steps_per_second": 0.968,
+      "eval_wer": 1.095774647887324,
+      "step": 675
+    },
+    {
+      "epoch": 68.0,
+      "grad_norm": 1.5897767543792725,
+      "learning_rate": 9.496153846153846e-05,
+      "loss": 1.9986,
+      "step": 680
+    },
+    {
+      "epoch": 68.5,
+      "grad_norm": 0.8863438963890076,
+      "learning_rate": 9.438461538461539e-05,
+      "loss": 1.8067,
+      "step": 685
+    },
+    {
+      "epoch": 69.0,
+      "grad_norm": 1.305874228477478,
+      "learning_rate": 9.380769230769231e-05,
+      "loss": 1.7975,
+      "step": 690
+    },
+    {
+      "epoch": 69.5,
+      "grad_norm": 0.6541560292243958,
+      "learning_rate": 9.323076923076921e-05,
+      "loss": 1.7655,
+      "step": 695
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 1.056104063987732,
+      "learning_rate": 9.265384615384614e-05,
+      "loss": 1.7094,
+      "step": 700
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 2.0642001628875732,
+      "eval_runtime": 1.0377,
+      "eval_samples_per_second": 23.129,
+      "eval_steps_per_second": 0.964,
+      "eval_wer": 1.0309859154929577,
+      "step": 700
+    },
+    {
+      "epoch": 70.5,
+      "grad_norm": 0.5228053331375122,
+      "learning_rate": 9.207692307692306e-05,
+      "loss": 1.6764,
+      "step": 705
+    },
+    {
+      "epoch": 71.0,
+      "grad_norm": 6.9655256271362305,
+      "learning_rate": 9.149999999999999e-05,
+      "loss": 1.7414,
+      "step": 710
+    },
+    {
+      "epoch": 71.5,
+      "grad_norm": 0.6360809206962585,
+      "learning_rate": 9.092307692307691e-05,
+      "loss": 1.6232,
+      "step": 715
+    },
+    {
+      "epoch": 72.0,
+      "grad_norm": 1.2141180038452148,
+      "learning_rate": 9.034615384615384e-05,
+      "loss": 1.6497,
+      "step": 720
+    },
+    {
+      "epoch": 72.5,
+      "grad_norm": 0.874902606010437,
+      "learning_rate": 8.976923076923077e-05,
+      "loss": 1.6069,
+      "step": 725
+    },
+    {
+      "epoch": 72.5,
+      "eval_loss": 2.0792412757873535,
+      "eval_runtime": 1.0243,
+      "eval_samples_per_second": 23.431,
+      "eval_steps_per_second": 0.976,
+      "eval_wer": 1.0788732394366196,
+      "step": 725
+    },
+    {
+      "epoch": 73.0,
+      "grad_norm": 0.9335172176361084,
+      "learning_rate": 8.919230769230769e-05,
+      "loss": 1.4947,
+      "step": 730
+    },
+    {
+      "epoch": 73.5,
+      "grad_norm": 1.299177885055542,
+      "learning_rate": 8.861538461538462e-05,
+      "loss": 1.5304,
+      "step": 735
+    },
+    {
+      "epoch": 74.0,
+      "grad_norm": 1.6317135095596313,
+      "learning_rate": 8.803846153846153e-05,
+      "loss": 1.5218,
+      "step": 740
+    },
+    {
+      "epoch": 74.5,
+      "grad_norm": 0.8083561062812805,
+      "learning_rate": 8.746153846153845e-05,
+      "loss": 1.5259,
+      "step": 745
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 1.805677890777588,
+      "learning_rate": 8.688461538461538e-05,
+      "loss": 1.4663,
+      "step": 750
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 2.0323963165283203,
+      "eval_runtime": 1.0407,
+      "eval_samples_per_second": 23.062,
+      "eval_steps_per_second": 0.961,
+      "eval_wer": 1.036619718309859,
+      "step": 750
+    },
+    {
+      "epoch": 75.5,
+      "grad_norm": 0.8463692665100098,
+      "learning_rate": 8.63076923076923e-05,
+      "loss": 1.4244,
+      "step": 755
+    },
+    {
+      "epoch": 76.0,
+      "grad_norm": 2.091686248779297,
+      "learning_rate": 8.573076923076923e-05,
+      "loss": 1.3791,
+      "step": 760
+    },
+    {
+      "epoch": 76.5,
+      "grad_norm": 0.7040625810623169,
+      "learning_rate": 8.515384615384614e-05,
+      "loss": 1.3495,
+      "step": 765
+    },
+    {
+      "epoch": 77.0,
+      "grad_norm": 1.7725024223327637,
+      "learning_rate": 8.457692307692307e-05,
+      "loss": 1.3497,
+      "step": 770
+    },
+    {
+      "epoch": 77.5,
+      "grad_norm": 0.808942437171936,
+      "learning_rate": 8.4e-05,
+      "loss": 1.288,
+      "step": 775
+    },
+    {
+      "epoch": 77.5,
+      "eval_loss": 2.0642640590667725,
+      "eval_runtime": 1.0443,
+      "eval_samples_per_second": 22.982,
+      "eval_steps_per_second": 0.958,
+      "eval_wer": 1.0929577464788733,
+      "step": 775
+    },
+    {
+      "epoch": 78.0,
+      "grad_norm": 3.843997001647949,
+      "learning_rate": 8.342307692307691e-05,
+      "loss": 1.2597,
+      "step": 780
+    },
+    {
+      "epoch": 78.5,
+      "grad_norm": 0.9082187414169312,
+      "learning_rate": 8.284615384615383e-05,
+      "loss": 1.2702,
+      "step": 785
+    },
+    {
+      "epoch": 79.0,
+      "grad_norm": 1.4159339666366577,
+      "learning_rate": 8.226923076923076e-05,
+      "loss": 1.2833,
+      "step": 790
+    },
+    {
+      "epoch": 79.5,
+      "grad_norm": 1.0848701000213623,
+      "learning_rate": 8.169230769230768e-05,
+      "loss": 1.2117,
+      "step": 795
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 2.275663137435913,
+      "learning_rate": 8.111538461538461e-05,
+      "loss": 1.262,
+      "step": 800
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 2.084003210067749,
+      "eval_runtime": 1.0408,
+      "eval_samples_per_second": 23.059,
+      "eval_steps_per_second": 0.961,
+      "eval_wer": 1.076056338028169,
+      "step": 800
+    },
+    {
+      "epoch": 80.5,
+      "grad_norm": 0.9842613339424133,
+      "learning_rate": 8.053846153846154e-05,
+      "loss": 1.2799,
+      "step": 805
+    },
+    {
+      "epoch": 81.0,
+      "grad_norm": 20.336593627929688,
+      "learning_rate": 7.996153846153846e-05,
+      "loss": 1.2903,
+      "step": 810
+    },
+    {
+      "epoch": 81.5,
+      "grad_norm": 0.8291641473770142,
+      "learning_rate": 7.938461538461539e-05,
+      "loss": 1.1215,
+      "step": 815
+    },
+    {
+      "epoch": 82.0,
+      "grad_norm": 1.6971830129623413,
+      "learning_rate": 7.88076923076923e-05,
+      "loss": 1.1435,
+      "step": 820
+    },
+    {
+      "epoch": 82.5,
+      "grad_norm": 0.69861900806427,
+      "learning_rate": 7.823076923076923e-05,
+      "loss": 1.043,
+      "step": 825
+    },
+    {
+      "epoch": 82.5,
+      "eval_loss": 2.149214506149292,
+      "eval_runtime": 1.0296,
+      "eval_samples_per_second": 23.311,
+      "eval_steps_per_second": 0.971,
+      "eval_wer": 1.0901408450704226,
+      "step": 825
+    },
+    {
+      "epoch": 83.0,
+      "grad_norm": 1.7208884954452515,
+      "learning_rate": 7.776923076923076e-05,
+      "loss": 1.203,
+      "step": 830
+    },
+    {
+      "epoch": 83.5,
+      "grad_norm": 0.8559800982475281,
+      "learning_rate": 7.719230769230768e-05,
+      "loss": 1.0825,
+      "step": 835
+    },
+    {
+      "epoch": 84.0,
+      "grad_norm": 1.6605381965637207,
+      "learning_rate": 7.661538461538461e-05,
+      "loss": 1.1121,
+      "step": 840
+    },
+    {
+      "epoch": 84.5,
+      "grad_norm": 1.077573537826538,
+      "learning_rate": 7.603846153846154e-05,
+      "loss": 1.0145,
+      "step": 845
+    },
+    {
+      "epoch": 85.0,
+      "grad_norm": 2.7091293334960938,
+      "learning_rate": 7.546153846153846e-05,
+      "loss": 1.0501,
+      "step": 850
+    },
+    {
+      "epoch": 85.0,
+      "eval_loss": 2.177476644515991,
+      "eval_runtime": 1.0552,
+      "eval_samples_per_second": 22.744,
+      "eval_steps_per_second": 0.948,
+      "eval_wer": 1.0591549295774647,
+      "step": 850
+    },
+    {
+      "epoch": 85.5,
+      "grad_norm": 1.3562541007995605,
+      "learning_rate": 7.488461538461539e-05,
+      "loss": 1.1098,
+      "step": 855
+    },
+    {
+      "epoch": 86.0,
+      "grad_norm": 2.6526386737823486,
+      "learning_rate": 7.43076923076923e-05,
+      "loss": 0.8642,
+      "step": 860
+    },
+    {
+      "epoch": 86.5,
+      "grad_norm": 1.1710244417190552,
+      "learning_rate": 7.373076923076922e-05,
+      "loss": 0.9004,
+      "step": 865
+    },
+    {
+      "epoch": 87.0,
+      "grad_norm": 2.9008164405822754,
+      "learning_rate": 7.315384615384615e-05,
+      "loss": 1.037,
+      "step": 870
+    },
+    {
+      "epoch": 87.5,
+      "grad_norm": 0.6306678056716919,
+      "learning_rate": 7.257692307692308e-05,
+      "loss": 0.9726,
+      "step": 875
+    },
+    {
+      "epoch": 87.5,
+      "eval_loss": 2.176731586456299,
+      "eval_runtime": 1.0313,
+      "eval_samples_per_second": 23.271,
+      "eval_steps_per_second": 0.97,
+      "eval_wer": 1.028169014084507,
+      "step": 875
+    },
+    {
+      "epoch": 88.0,
+      "grad_norm": 1.6984366178512573,
+      "learning_rate": 7.199999999999999e-05,
+      "loss": 1.1201,
+      "step": 880
+    },
+    {
+      "epoch": 88.5,
+      "grad_norm": 0.803970992565155,
+      "learning_rate": 7.142307692307691e-05,
+      "loss": 0.908,
+      "step": 885
+    },
+    {
+      "epoch": 89.0,
+      "grad_norm": 2.103391408920288,
+      "learning_rate": 7.084615384615384e-05,
+      "loss": 0.8684,
+      "step": 890
+    },
+    {
+      "epoch": 89.5,
+      "grad_norm": 0.9575273990631104,
+      "learning_rate": 7.026923076923077e-05,
+      "loss": 0.9791,
+      "step": 895
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 3.000880479812622,
+      "learning_rate": 6.969230769230768e-05,
+      "loss": 0.8079,
+      "step": 900
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 2.1965668201446533,
+      "eval_runtime": 1.0433,
+      "eval_samples_per_second": 23.003,
+      "eval_steps_per_second": 0.958,
+      "eval_wer": 0.9943661971830986,
+      "step": 900
+    },
+    {
+      "epoch": 90.5,
+      "grad_norm": 0.6576473712921143,
+      "learning_rate": 6.91153846153846e-05,
+      "loss": 0.846,
+      "step": 905
+    },
+    {
+      "epoch": 91.0,
+      "grad_norm": 2.2526416778564453,
+      "learning_rate": 6.853846153846153e-05,
+      "loss": 0.8868,
+      "step": 910
+    },
+    {
+      "epoch": 91.5,
+      "grad_norm": 0.5678216814994812,
+      "learning_rate": 6.796153846153845e-05,
+      "loss": 0.8925,
+      "step": 915
+    },
+    {
+      "epoch": 92.0,
+      "grad_norm": 2.549266815185547,
+      "learning_rate": 6.738461538461538e-05,
+      "loss": 1.0163,
+      "step": 920
+    },
+    {
+      "epoch": 92.5,
+      "grad_norm": 0.7736966013908386,
+      "learning_rate": 6.68076923076923e-05,
+      "loss": 0.7198,
+      "step": 925
+    },
+    {
+      "epoch": 92.5,
+      "eval_loss": 2.2433066368103027,
+      "eval_runtime": 1.0523,
+      "eval_samples_per_second": 22.808,
+      "eval_steps_per_second": 0.95,
+      "eval_wer": 1.0028169014084507,
+      "step": 925
+    },
+    {
+      "epoch": 93.0,
+      "grad_norm": 3.742175817489624,
+      "learning_rate": 6.623076923076923e-05,
+      "loss": 1.011,
+      "step": 930
+    },
+    {
+      "epoch": 93.5,
+      "grad_norm": 0.748150110244751,
+      "learning_rate": 6.565384615384616e-05,
+      "loss": 0.7659,
+      "step": 935
+    },
+    {
+      "epoch": 94.0,
+      "grad_norm": 2.121845006942749,
+      "learning_rate": 6.507692307692307e-05,
+      "loss": 0.7862,
+      "step": 940
+    },
+    {
+      "epoch": 94.5,
+      "grad_norm": 0.7966519594192505,
+      "learning_rate": 6.45e-05,
+      "loss": 0.8271,
+      "step": 945
+    },
+    {
+      "epoch": 95.0,
+      "grad_norm": 1.6206731796264648,
+      "learning_rate": 6.392307692307692e-05,
+      "loss": 0.6312,
+      "step": 950
+    },
+    {
+      "epoch": 95.0,
+      "eval_loss": 2.309884786605835,
+      "eval_runtime": 1.062,
+      "eval_samples_per_second": 22.599,
+      "eval_steps_per_second": 0.942,
+      "eval_wer": 0.9971830985915493,
+      "step": 950
+    },
+    {
+      "epoch": 95.5,
+      "grad_norm": 3.240893602371216,
+      "learning_rate": 6.334615384615385e-05,
+      "loss": 0.723,
+      "step": 955
+    },
+    {
+      "epoch": 96.0,
+      "grad_norm": 1.4926756620407104,
+      "learning_rate": 6.276923076923076e-05,
+      "loss": 0.7344,
+      "step": 960
+    },
+    {
+      "epoch": 96.5,
+      "grad_norm": 0.8542086482048035,
+      "learning_rate": 6.219230769230769e-05,
+      "loss": 0.7649,
+      "step": 965
+    },
+    {
+      "epoch": 97.0,
+      "grad_norm": 2.2014851570129395,
+      "learning_rate": 6.161538461538461e-05,
+      "loss": 0.6969,
+      "step": 970
+    },
+    {
+      "epoch": 97.5,
+      "grad_norm": 0.6612327694892883,
+      "learning_rate": 6.103846153846154e-05,
+      "loss": 0.6336,
+      "step": 975
+    },
+    {
+      "epoch": 97.5,
+      "eval_loss": 2.3546626567840576,
+      "eval_runtime": 1.0484,
+      "eval_samples_per_second": 22.893,
+      "eval_steps_per_second": 0.954,
+      "eval_wer": 0.9971830985915493,
+      "step": 975
+    },
+    {
+      "epoch": 98.0,
+      "grad_norm": 2.117011547088623,
+      "learning_rate": 6.0461538461538456e-05,
+      "loss": 0.7537,
+      "step": 980
+    },
+    {
+      "epoch": 98.5,
+      "grad_norm": 8.142460823059082,
+      "learning_rate": 5.988461538461538e-05,
+      "loss": 0.6593,
+      "step": 985
+    },
+    {
+      "epoch": 99.0,
+      "grad_norm": 2.6468851566314697,
+      "learning_rate": 5.93076923076923e-05,
+      "loss": 0.8069,
+      "step": 990
+    },
+    {
+      "epoch": 99.5,
+      "grad_norm": 1.392821192741394,
+      "learning_rate": 5.8730769230769226e-05,
+      "loss": 0.746,
+      "step": 995
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 2.0805888175964355,
+      "learning_rate": 5.8153846153846145e-05,
+      "loss": 0.9073,
+      "step": 1000
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 2.350856304168701,
+      "eval_runtime": 1.0707,
+      "eval_samples_per_second": 22.414,
+      "eval_steps_per_second": 0.934,
+      "eval_wer": 0.9943661971830986,
+      "step": 1000
+    },
+    {
+      "epoch": 100.5,
+      "grad_norm": 18.686534881591797,
+      "learning_rate": 5.757692307692307e-05,
+      "loss": 0.7907,
+      "step": 1005
+    },
+    {
+      "epoch": 101.0,
+      "grad_norm": 1.7688676118850708,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.5693,
+      "step": 1010
+    },
+    {
+      "epoch": 101.5,
+      "grad_norm": 0.9006216526031494,
+      "learning_rate": 5.642307692307692e-05,
+      "loss": 0.6408,
+      "step": 1015
+    },
+    {
+      "epoch": 102.0,
+      "grad_norm": 2.382704496383667,
+      "learning_rate": 5.584615384615384e-05,
+      "loss": 0.7203,
+      "step": 1020
+    },
+    {
+      "epoch": 102.5,
+      "grad_norm": 0.8852857351303101,
+      "learning_rate": 5.526923076923076e-05,
+      "loss": 0.6431,
+      "step": 1025
+    },
+    {
+      "epoch": 102.5,
+      "eval_loss": 2.4202942848205566,
+      "eval_runtime": 1.0529,
+      "eval_samples_per_second": 22.794,
+      "eval_steps_per_second": 0.95,
+      "eval_wer": 1.0056338028169014,
+      "step": 1025
+    },
+    {
+      "epoch": 103.0,
+      "grad_norm": 3.3610403537750244,
+      "learning_rate": 5.4692307692307686e-05,
+      "loss": 0.6476,
+      "step": 1030
+    },
+    {
+      "epoch": 103.5,
+      "grad_norm": 0.8738270401954651,
+      "learning_rate": 5.411538461538461e-05,
+      "loss": 0.5492,
+      "step": 1035
+    },
+    {
+      "epoch": 104.0,
+      "grad_norm": 2.4251339435577393,
+      "learning_rate": 5.353846153846153e-05,
+      "loss": 0.6005,
+      "step": 1040
+    },
+    {
+      "epoch": 104.5,
+      "grad_norm": 0.7935536503791809,
+      "learning_rate": 5.2961538461538456e-05,
+      "loss": 0.5855,
+      "step": 1045
+    },
+    {
+      "epoch": 105.0,
+      "grad_norm": 2.805385112762451,
+      "learning_rate": 5.238461538461538e-05,
+      "loss": 0.62,
+      "step": 1050
+    },
+    {
+      "epoch": 105.0,
+      "eval_loss": 2.3933348655700684,
+      "eval_runtime": 1.0674,
+      "eval_samples_per_second": 22.485,
+      "eval_steps_per_second": 0.937,
+      "eval_wer": 0.9746478873239437,
+      "step": 1050
+    },
+    {
+      "epoch": 105.5,
+      "grad_norm": 1.2249245643615723,
+      "learning_rate": 5.180769230769231e-05,
+      "loss": 0.652,
+      "step": 1055
+    },
+    {
+      "epoch": 106.0,
+      "grad_norm": 1.2247533798217773,
+      "learning_rate": 5.123076923076922e-05,
+      "loss": 0.6108,
+      "step": 1060
+    },
+    {
+      "epoch": 106.5,
+      "grad_norm": 0.8812918663024902,
+      "learning_rate": 5.0653846153846146e-05,
+      "loss": 0.6453,
+      "step": 1065
+    },
+    {
+      "epoch": 107.0,
+      "grad_norm": 2.7638535499572754,
+      "learning_rate": 5.007692307692307e-05,
+      "loss": 0.568,
+      "step": 1070
+    },
+    {
+      "epoch": 107.5,
+      "grad_norm": 1.3182368278503418,
+      "learning_rate": 4.95e-05,
+      "loss": 0.708,
+      "step": 1075
+    },
+    {
+      "epoch": 107.5,
+      "eval_loss": 2.4381346702575684,
+      "eval_runtime": 1.061,
+      "eval_samples_per_second": 22.619,
+      "eval_steps_per_second": 0.942,
+      "eval_wer": 0.9690140845070423,
+      "step": 1075
+    },
+    {
+      "epoch": 108.0,
+      "grad_norm": 2.4760406017303467,
+      "learning_rate": 4.8923076923076916e-05,
+      "loss": 0.6171,
+      "step": 1080
+    },
+    {
+      "epoch": 108.5,
+      "grad_norm": 0.5409008264541626,
+      "learning_rate": 4.834615384615384e-05,
+      "loss": 0.5542,
+      "step": 1085
+    },
+    {
+      "epoch": 109.0,
+      "grad_norm": 1.675410509109497,
+      "learning_rate": 4.776923076923077e-05,
+      "loss": 0.6491,
+      "step": 1090
+    },
+    {
+      "epoch": 109.5,
+      "grad_norm": 0.8941754698753357,
+      "learning_rate": 4.719230769230769e-05,
+      "loss": 0.7266,
+      "step": 1095
+    },
+    {
+      "epoch": 110.0,
+      "grad_norm": 1.9851211309432983,
+      "learning_rate": 4.6615384615384605e-05,
+      "loss": 0.6729,
+      "step": 1100
+    },
+    {
+      "epoch": 110.0,
+      "eval_loss": 2.474308967590332,
+      "eval_runtime": 1.0636,
+      "eval_samples_per_second": 22.564,
+      "eval_steps_per_second": 0.94,
+      "eval_wer": 1.0,
+      "step": 1100
+    },
+    {
+      "epoch": 110.5,
+      "grad_norm": 0.677306592464447,
+      "learning_rate": 4.603846153846153e-05,
+      "loss": 0.7625,
+      "step": 1105
+    },
+    {
+      "epoch": 111.0,
+      "grad_norm": 2.572356700897217,
+      "learning_rate": 4.546153846153846e-05,
+      "loss": 0.5146,
+      "step": 1110
+    },
+    {
+      "epoch": 111.5,
+      "grad_norm": 1.2789101600646973,
+      "learning_rate": 4.488461538461538e-05,
+      "loss": 0.5504,
+      "step": 1115
+    },
+    {
+      "epoch": 112.0,
+      "grad_norm": 2.3920390605926514,
+      "learning_rate": 4.430769230769231e-05,
+      "loss": 0.4821,
+      "step": 1120
+    },
+    {
+      "epoch": 112.5,
+      "grad_norm": 1.219436764717102,
+      "learning_rate": 4.373076923076923e-05,
+      "loss": 0.5779,
+      "step": 1125
+    },
+    {
+      "epoch": 112.5,
+      "eval_loss": 2.492933988571167,
+      "eval_runtime": 1.0274,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 0.973,
+      "eval_wer": 0.9549295774647887,
+      "step": 1125
+    },
+    {
+      "epoch": 113.0,
+      "grad_norm": 3.558155059814453,
+      "learning_rate": 4.315384615384615e-05,
+      "loss": 0.4743,
+      "step": 1130
+    },
+    {
+      "epoch": 113.5,
+      "grad_norm": 0.9398171901702881,
+      "learning_rate": 4.257692307692307e-05,
+      "loss": 0.493,
+      "step": 1135
+    },
+    {
+      "epoch": 114.0,
+      "grad_norm": 4.514529705047607,
+      "learning_rate": 4.2e-05,
+      "loss": 0.4341,
+      "step": 1140
+    },
+    {
+      "epoch": 114.5,
+      "grad_norm": 1.015120029449463,
+      "learning_rate": 4.142307692307692e-05,
+      "loss": 0.5069,
+      "step": 1145
+    },
+    {
+      "epoch": 115.0,
+      "grad_norm": 2.043063163757324,
+      "learning_rate": 4.084615384615384e-05,
+      "loss": 0.6303,
+      "step": 1150
+    },
+    {
+      "epoch": 115.0,
+      "eval_loss": 2.5056331157684326,
+      "eval_runtime": 1.0408,
+      "eval_samples_per_second": 23.06,
+      "eval_steps_per_second": 0.961,
+      "eval_wer": 0.923943661971831,
+      "step": 1150
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 25,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.771505223996499e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d684a542fe2c2e932faa66172a7cc1f48ba500827ae1b3d29c9b64338152a672
+size 5112

vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"i": 0, "3": 1, "d": 2, "k": 3, "y": 5, "x": 6, "4": 7, "t": 8, "o": 9, "s": 10, "e": 11, "b": 12, "u": 13, "2": 14, "h": 15, "c": 16, "m": 17, "1": 18, "n": 19, "\u00f1": 20, "l": 21, "'": 22, "a": 23, "r": 24, "\|": 4, "[UNK]": 25, "[PAD]": 26}