End of training

Browse files

Files changed (5) hide show

README.md +19 -6
all_results.json +11 -11
eval_results.json +6 -6
train_results.json +6 -6
trainer_state.json +1132 -1132

README.md CHANGED Viewed

@@ -3,23 +3,36 @@ library_name: transformers
 license: apache-2.0
 base_model: openai/whisper-medium
 tags:
 - generated_from_trainer
 metrics:
 - wer
 model-index:
-- name: openai/whisper-medium
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# openai/whisper-medium
-This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2141
-- Wer: 10.1290
 ## Model description

 license: apache-2.0
 base_model: openai/whisper-medium
 tags:
+- whisper-event
 - generated_from_trainer
+datasets:
+- asierhv/composite_corpus_eu_v2.1
 metrics:
 - wer
 model-index:
+- name: Whisper Medium Basque
+  results:
+  - task:
+      name: Automatic Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: asierhv/composite_corpus_eu_v2.1
+      type: asierhv/composite_corpus_eu_v2.1
+    metrics:
+    - name: Wer
+      type: wer
+      value: 9.98410769374591
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Whisper Medium Basque
+This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the asierhv/composite_corpus_eu_v2.1 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2191
+- Wer: 9.9841
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 4.148,
-    "eval_loss": 0.17873740196228027,
-    "eval_runtime": 2417.8154,
-    "eval_samples_per_second": 5.637,
-    "eval_steps_per_second": 0.705,
-    "eval_wer": 8.8020814247499,
-    "total_flos": 1.3062109848403968e+20,
-    "train_loss": 0.11351343880966305,
-    "train_runtime": 52381.6915,
-    "train_samples_per_second": 2.444,
-    "train_steps_per_second": 0.153
 }

 {
+    "epoch": 1.0,
+    "eval_loss": 0.21914222836494446,
+    "eval_runtime": 416.2982,
+    "eval_samples_per_second": 5.054,
+    "eval_steps_per_second": 0.632,
+    "eval_wer": 9.98410769374591,
+    "total_flos": 1.3063742816256e+20,
+    "train_loss": 0.1566779458373785,
+    "train_runtime": 20473.0101,
+    "train_samples_per_second": 6.252,
+    "train_steps_per_second": 0.391
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.148,
-    "eval_loss": 0.17873740196228027,
-    "eval_runtime": 2417.8154,
-    "eval_samples_per_second": 5.637,
-    "eval_steps_per_second": 0.705,
-    "eval_wer": 8.8020814247499
 }

 {
+    "epoch": 1.0,
+    "eval_loss": 0.21914222836494446,
+    "eval_runtime": 416.2982,
+    "eval_samples_per_second": 5.054,
+    "eval_steps_per_second": 0.632,
+    "eval_wer": 9.98410769374591
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.148,
-    "total_flos": 1.3062109848403968e+20,
-    "train_loss": 0.11351343880966305,
-    "train_runtime": 52381.6915,
-    "train_samples_per_second": 2.444,
-    "train_steps_per_second": 0.153
 }

 {
+    "epoch": 1.0,
+    "total_flos": 1.3063742816256e+20,
+    "train_loss": 0.1566779458373785,
+    "train_runtime": 20473.0101,
+    "train_samples_per_second": 6.252,
+    "train_steps_per_second": 0.391
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 8.8020814247499,
-  "best_model_checkpoint": "./checkpoint-8000",
-  "epoch": 4.148,
   "eval_steps": 500,
   "global_step": 8000,
   "is_hyper_param_search": false,
@@ -10,2396 +10,2396 @@
   "log_history": [
     {
       "epoch": 0.003125,
-      "grad_norm": 15.080086708068848,
       "learning_rate": 2.875e-07,
-      "loss": 1.3478,
       "step": 25
     },
     {
       "epoch": 0.00625,
-      "grad_norm": 11.962413787841797,
       "learning_rate": 6.000000000000001e-07,
-      "loss": 1.14,
       "step": 50
     },
     {
       "epoch": 0.009375,
-      "grad_norm": 10.828227996826172,
       "learning_rate": 9.124999999999999e-07,
-      "loss": 0.8401,
       "step": 75
     },
     {
       "epoch": 0.0125,
-      "grad_norm": 9.401681900024414,
       "learning_rate": 1.2250000000000001e-06,
-      "loss": 0.7112,
       "step": 100
     },
     {
       "epoch": 0.015625,
-      "grad_norm": 9.252142906188965,
       "learning_rate": 1.5375e-06,
-      "loss": 0.6528,
       "step": 125
     },
     {
       "epoch": 0.01875,
-      "grad_norm": 10.718783378601074,
       "learning_rate": 1.85e-06,
-      "loss": 0.6492,
       "step": 150
     },
     {
       "epoch": 0.021875,
-      "grad_norm": 7.8105082511901855,
       "learning_rate": 2.1625e-06,
-      "loss": 0.5886,
       "step": 175
     },
     {
       "epoch": 0.025,
-      "grad_norm": 8.969450950622559,
       "learning_rate": 2.4750000000000004e-06,
-      "loss": 0.5284,
       "step": 200
     },
     {
       "epoch": 0.028125,
-      "grad_norm": 8.110017776489258,
       "learning_rate": 2.7875e-06,
-      "loss": 0.5097,
       "step": 225
     },
     {
       "epoch": 0.03125,
-      "grad_norm": 8.07854175567627,
       "learning_rate": 3.1e-06,
-      "loss": 0.48,
       "step": 250
     },
     {
       "epoch": 0.034375,
-      "grad_norm": 9.469429016113281,
       "learning_rate": 3.4125000000000004e-06,
-      "loss": 0.4453,
       "step": 275
     },
     {
       "epoch": 0.0375,
-      "grad_norm": 6.849759578704834,
       "learning_rate": 3.725e-06,
-      "loss": 0.4249,
       "step": 300
     },
     {
       "epoch": 0.040625,
-      "grad_norm": 8.43980598449707,
       "learning_rate": 4.037500000000001e-06,
-      "loss": 0.4093,
       "step": 325
     },
     {
       "epoch": 0.04375,
-      "grad_norm": 7.9978132247924805,
       "learning_rate": 4.35e-06,
-      "loss": 0.4179,
       "step": 350
     },
     {
       "epoch": 0.046875,
-      "grad_norm": 7.179676532745361,
       "learning_rate": 4.6625e-06,
-      "loss": 0.366,
       "step": 375
     },
     {
       "epoch": 0.05,
-      "grad_norm": 8.746236801147461,
       "learning_rate": 4.975000000000001e-06,
-      "loss": 0.3484,
       "step": 400
     },
     {
       "epoch": 0.053125,
-      "grad_norm": 6.08207893371582,
       "learning_rate": 5.2875e-06,
-      "loss": 0.3177,
       "step": 425
     },
     {
       "epoch": 0.05625,
-      "grad_norm": 7.5096235275268555,
       "learning_rate": 5.600000000000001e-06,
-      "loss": 0.3407,
       "step": 450
     },
     {
       "epoch": 0.059375,
-      "grad_norm": 6.521783828735352,
       "learning_rate": 5.9125e-06,
-      "loss": 0.3323,
       "step": 475
     },
     {
       "epoch": 0.0625,
-      "grad_norm": 6.018587589263916,
       "learning_rate": 6.2250000000000005e-06,
-      "loss": 0.3171,
       "step": 500
     },
     {
       "epoch": 0.0625,
-      "eval_loss": 0.33685919642448425,
-      "eval_runtime": 2424.3615,
-      "eval_samples_per_second": 5.622,
-      "eval_steps_per_second": 0.703,
-      "eval_wer": 25.53043350800689,
       "step": 500
     },
     {
       "epoch": 0.065625,
-      "grad_norm": 6.343411922454834,
       "learning_rate": 6.230833333333334e-06,
-      "loss": 0.323,
       "step": 525
     },
     {
       "epoch": 0.06875,
-      "grad_norm": 6.164433479309082,
       "learning_rate": 6.210000000000001e-06,
-      "loss": 0.2979,
       "step": 550
     },
     {
       "epoch": 0.071875,
-      "grad_norm": 7.514057159423828,
       "learning_rate": 6.1891666666666666e-06,
-      "loss": 0.2956,
       "step": 575
     },
     {
       "epoch": 0.075,
-      "grad_norm": 5.7609992027282715,
       "learning_rate": 6.168333333333333e-06,
-      "loss": 0.2966,
       "step": 600
     },
     {
       "epoch": 0.078125,
-      "grad_norm": 6.035708427429199,
       "learning_rate": 6.147500000000001e-06,
-      "loss": 0.2914,
       "step": 625
     },
     {
       "epoch": 0.08125,
-      "grad_norm": 6.485240459442139,
       "learning_rate": 6.126666666666667e-06,
-      "loss": 0.2929,
       "step": 650
     },
     {
       "epoch": 0.084375,
-      "grad_norm": 5.631970405578613,
       "learning_rate": 6.1058333333333335e-06,
-      "loss": 0.2676,
       "step": 675
     },
     {
       "epoch": 0.0875,
-      "grad_norm": 6.642117977142334,
       "learning_rate": 6.085e-06,
-      "loss": 0.2756,
       "step": 700
     },
     {
       "epoch": 0.090625,
-      "grad_norm": 6.473007678985596,
       "learning_rate": 6.064166666666667e-06,
-      "loss": 0.2613,
       "step": 725
     },
     {
       "epoch": 0.09375,
-      "grad_norm": 6.47869348526001,
       "learning_rate": 6.043333333333334e-06,
-      "loss": 0.2667,
       "step": 750
     },
     {
       "epoch": 0.096875,
-      "grad_norm": 6.658367156982422,
       "learning_rate": 6.0225e-06,
-      "loss": 0.2778,
       "step": 775
     },
     {
       "epoch": 0.1,
-      "grad_norm": 7.887542724609375,
       "learning_rate": 6.001666666666667e-06,
-      "loss": 0.3095,
       "step": 800
     },
     {
       "epoch": 0.103125,
-      "grad_norm": 6.103913307189941,
       "learning_rate": 5.980833333333334e-06,
-      "loss": 0.297,
       "step": 825
     },
     {
       "epoch": 0.10625,
-      "grad_norm": 6.087416648864746,
       "learning_rate": 5.9600000000000005e-06,
-      "loss": 0.2326,
       "step": 850
     },
     {
       "epoch": 0.109375,
-      "grad_norm": 5.486704349517822,
       "learning_rate": 5.939166666666667e-06,
-      "loss": 0.2215,
       "step": 875
     },
     {
       "epoch": 0.1125,
-      "grad_norm": 5.353816986083984,
       "learning_rate": 5.918333333333333e-06,
-      "loss": 0.205,
       "step": 900
     },
     {
       "epoch": 0.115625,
-      "grad_norm": 5.429187774658203,
       "learning_rate": 5.8975e-06,
-      "loss": 0.2185,
       "step": 925
     },
     {
       "epoch": 0.11875,
-      "grad_norm": 5.181328773498535,
       "learning_rate": 5.8766666666666674e-06,
-      "loss": 0.2069,
       "step": 950
     },
     {
       "epoch": 0.121875,
-      "grad_norm": 4.126291751861572,
       "learning_rate": 5.855833333333333e-06,
-      "loss": 0.2062,
       "step": 975
     },
     {
       "epoch": 0.125,
-      "grad_norm": 5.896920204162598,
       "learning_rate": 5.835e-06,
-      "loss": 0.1852,
       "step": 1000
     },
     {
       "epoch": 0.125,
-      "eval_loss": 0.2408558428287506,
-      "eval_runtime": 2415.6545,
-      "eval_samples_per_second": 5.642,
-      "eval_steps_per_second": 0.705,
-      "eval_wer": 17.311004434021037,
       "step": 1000
     },
     {
       "epoch": 0.128125,
-      "grad_norm": 5.046872138977051,
       "learning_rate": 5.814166666666667e-06,
-      "loss": 0.2142,
       "step": 1025
     },
     {
       "epoch": 0.13125,
-      "grad_norm": 6.671748638153076,
       "learning_rate": 5.793333333333334e-06,
-      "loss": 0.2208,
       "step": 1050
     },
     {
       "epoch": 0.134375,
-      "grad_norm": 6.533191680908203,
       "learning_rate": 5.7725e-06,
-      "loss": 0.1944,
       "step": 1075
     },
     {
       "epoch": 0.1375,
-      "grad_norm": 4.43493127822876,
       "learning_rate": 5.751666666666667e-06,
-      "loss": 0.1816,
       "step": 1100
     },
     {
       "epoch": 0.140625,
-      "grad_norm": 5.601134777069092,
       "learning_rate": 5.730833333333334e-06,
-      "loss": 0.1884,
       "step": 1125
     },
     {
       "epoch": 0.14375,
-      "grad_norm": 4.886395454406738,
       "learning_rate": 5.71e-06,
-      "loss": 0.1712,
       "step": 1150
     },
     {
       "epoch": 0.146875,
-      "grad_norm": 5.513830184936523,
       "learning_rate": 5.689166666666667e-06,
-      "loss": 0.1835,
       "step": 1175
     },
     {
       "epoch": 0.15,
-      "grad_norm": 6.305610179901123,
       "learning_rate": 5.668333333333334e-06,
-      "loss": 0.2221,
       "step": 1200
     },
     {
       "epoch": 0.153125,
-      "grad_norm": 6.482845306396484,
       "learning_rate": 5.6475e-06,
-      "loss": 0.2138,
       "step": 1225
     },
     {
       "epoch": 0.15625,
-      "grad_norm": 6.316329002380371,
       "learning_rate": 5.626666666666667e-06,
-      "loss": 0.2338,
       "step": 1250
     },
     {
       "epoch": 0.159375,
-      "grad_norm": 6.650278091430664,
       "learning_rate": 5.605833333333334e-06,
-      "loss": 0.2231,
       "step": 1275
     },
     {
       "epoch": 0.1625,
-      "grad_norm": 5.289668560028076,
       "learning_rate": 5.585e-06,
-      "loss": 0.2018,
       "step": 1300
     },
     {
       "epoch": 0.165625,
-      "grad_norm": 6.051737308502197,
       "learning_rate": 5.564166666666667e-06,
-      "loss": 0.2092,
       "step": 1325
     },
     {
       "epoch": 0.16875,
-      "grad_norm": 4.950199604034424,
       "learning_rate": 5.543333333333333e-06,
-      "loss": 0.1934,
       "step": 1350
     },
     {
       "epoch": 0.171875,
-      "grad_norm": 5.296252727508545,
       "learning_rate": 5.522500000000001e-06,
-      "loss": 0.1806,
       "step": 1375
     },
     {
       "epoch": 0.175,
-      "grad_norm": 5.999615669250488,
       "learning_rate": 5.501666666666667e-06,
-      "loss": 0.1782,
       "step": 1400
     },
     {
       "epoch": 0.178125,
-      "grad_norm": 3.7982959747314453,
       "learning_rate": 5.4808333333333335e-06,
-      "loss": 0.1712,
       "step": 1425
     },
     {
       "epoch": 0.18125,
-      "grad_norm": 6.798803806304932,
       "learning_rate": 5.46e-06,
-      "loss": 0.1972,
       "step": 1450
     },
     {
       "epoch": 0.184375,
-      "grad_norm": 5.545141220092773,
       "learning_rate": 5.439166666666667e-06,
-      "loss": 0.2153,
       "step": 1475
     },
     {
       "epoch": 0.1875,
-      "grad_norm": 5.619574546813965,
       "learning_rate": 5.418333333333334e-06,
-      "loss": 0.2353,
       "step": 1500
     },
     {
       "epoch": 0.1875,
-      "eval_loss": 0.20496371388435364,
-      "eval_runtime": 2428.1499,
-      "eval_samples_per_second": 5.613,
-      "eval_steps_per_second": 0.702,
-      "eval_wer": 14.222763750961926,
       "step": 1500
     },
     {
       "epoch": 0.190625,
-      "grad_norm": 6.522052764892578,
       "learning_rate": 5.3975e-06,
-      "loss": 0.2049,
       "step": 1525
     },
     {
       "epoch": 0.19375,
-      "grad_norm": 5.805539608001709,
       "learning_rate": 5.376666666666666e-06,
-      "loss": 0.1931,
       "step": 1550
     },
     {
       "epoch": 0.196875,
-      "grad_norm": 5.707961082458496,
       "learning_rate": 5.355833333333334e-06,
-      "loss": 0.1944,
       "step": 1575
     },
     {
       "epoch": 0.2,
-      "grad_norm": 6.126225471496582,
       "learning_rate": 5.335000000000001e-06,
-      "loss": 0.225,
       "step": 1600
     },
     {
       "epoch": 0.203125,
-      "grad_norm": 5.682012557983398,
       "learning_rate": 5.3141666666666665e-06,
-      "loss": 0.2225,
       "step": 1625
     },
     {
       "epoch": 0.20625,
-      "grad_norm": 5.529600620269775,
       "learning_rate": 5.293333333333333e-06,
-      "loss": 0.2154,
       "step": 1650
     },
     {
       "epoch": 0.209375,
-      "grad_norm": 8.373395919799805,
       "learning_rate": 5.272500000000001e-06,
-      "loss": 0.1866,
       "step": 1675
     },
     {
       "epoch": 0.2125,
-      "grad_norm": 4.936291694641113,
       "learning_rate": 5.2516666666666675e-06,
-      "loss": 0.1615,
       "step": 1700
     },
     {
-      "epoch": 1.002625,
-      "grad_norm": 4.893776893615723,
       "learning_rate": 5.230833333333333e-06,
-      "loss": 0.172,
       "step": 1725
     },
     {
-      "epoch": 1.00575,
-      "grad_norm": 4.98813533782959,
       "learning_rate": 5.21e-06,
-      "loss": 0.1591,
       "step": 1750
     },
     {
-      "epoch": 1.008875,
-      "grad_norm": 6.166538715362549,
       "learning_rate": 5.189166666666667e-06,
-      "loss": 0.1712,
       "step": 1775
     },
     {
-      "epoch": 1.012,
-      "grad_norm": 4.1829071044921875,
       "learning_rate": 5.1683333333333335e-06,
-      "loss": 0.1908,
       "step": 1800
     },
     {
-      "epoch": 1.015125,
-      "grad_norm": 5.497808456420898,
       "learning_rate": 5.1475e-06,
-      "loss": 0.1791,
       "step": 1825
     },
     {
-      "epoch": 1.01825,
-      "grad_norm": 4.581858158111572,
       "learning_rate": 5.126666666666667e-06,
-      "loss": 0.1685,
       "step": 1850
     },
     {
-      "epoch": 1.021375,
-      "grad_norm": 4.6282267570495605,
       "learning_rate": 5.105833333333334e-06,
-      "loss": 0.1691,
       "step": 1875
     },
     {
-      "epoch": 1.0245,
-      "grad_norm": 5.748936653137207,
       "learning_rate": 5.0850000000000004e-06,
-      "loss": 0.1577,
       "step": 1900
     },
     {
-      "epoch": 1.027625,
-      "grad_norm": 4.339770793914795,
       "learning_rate": 5.064166666666667e-06,
-      "loss": 0.168,
       "step": 1925
     },
     {
-      "epoch": 1.03075,
-      "grad_norm": 3.72379469871521,
       "learning_rate": 5.043333333333333e-06,
-      "loss": 0.1616,
       "step": 1950
     },
     {
-      "epoch": 1.033875,
-      "grad_norm": 5.169766902923584,
       "learning_rate": 5.0225e-06,
-      "loss": 0.1663,
       "step": 1975
     },
     {
-      "epoch": 1.037,
-      "grad_norm": 6.120935440063477,
       "learning_rate": 5.001666666666667e-06,
-      "loss": 0.1569,
       "step": 2000
     },
     {
-      "epoch": 1.037,
-      "eval_loss": 0.181504026055336,
-      "eval_runtime": 2441.5281,
-      "eval_samples_per_second": 5.583,
-      "eval_steps_per_second": 0.698,
-      "eval_wer": 12.286085968705338,
       "step": 2000
     },
     {
-      "epoch": 1.040125,
-      "grad_norm": 3.2327628135681152,
       "learning_rate": 4.980833333333334e-06,
-      "loss": 0.1526,
       "step": 2025
     },
     {
-      "epoch": 1.04325,
-      "grad_norm": 4.2089948654174805,
       "learning_rate": 4.96e-06,
-      "loss": 0.1427,
       "step": 2050
     },
     {
-      "epoch": 1.046375,
-      "grad_norm": 4.837276458740234,
       "learning_rate": 4.939166666666667e-06,
-      "loss": 0.1429,
       "step": 2075
     },
     {
-      "epoch": 1.0495,
-      "grad_norm": 4.590527057647705,
       "learning_rate": 4.918333333333334e-06,
-      "loss": 0.1306,
       "step": 2100
     },
     {
-      "epoch": 1.052625,
-      "grad_norm": 5.821957111358643,
       "learning_rate": 4.8975e-06,
-      "loss": 0.1504,
       "step": 2125
     },
     {
-      "epoch": 1.05575,
-      "grad_norm": 4.136687278747559,
       "learning_rate": 4.876666666666667e-06,
-      "loss": 0.1431,
       "step": 2150
     },
     {
-      "epoch": 1.058875,
-      "grad_norm": 4.310347080230713,
       "learning_rate": 4.8558333333333336e-06,
-      "loss": 0.1364,
       "step": 2175
     },
     {
-      "epoch": 1.062,
-      "grad_norm": 4.1295485496521,
       "learning_rate": 4.835e-06,
-      "loss": 0.1272,
       "step": 2200
     },
     {
-      "epoch": 1.065125,
-      "grad_norm": 4.432501316070557,
       "learning_rate": 4.814166666666667e-06,
-      "loss": 0.1256,
       "step": 2225
     },
     {
-      "epoch": 1.06825,
-      "grad_norm": 3.792029619216919,
       "learning_rate": 4.793333333333334e-06,
-      "loss": 0.1322,
       "step": 2250
     },
     {
-      "epoch": 1.071375,
-      "grad_norm": 4.919213771820068,
       "learning_rate": 4.7725e-06,
-      "loss": 0.1477,
       "step": 2275
     },
     {
-      "epoch": 1.0745,
-      "grad_norm": 5.92459774017334,
       "learning_rate": 4.751666666666666e-06,
-      "loss": 0.1518,
       "step": 2300
     },
     {
-      "epoch": 1.077625,
-      "grad_norm": 5.6381635665893555,
       "learning_rate": 4.730833333333334e-06,
-      "loss": 0.1489,
       "step": 2325
     },
     {
-      "epoch": 1.08075,
-      "grad_norm": 4.690910816192627,
       "learning_rate": 4.710000000000001e-06,
-      "loss": 0.1216,
       "step": 2350
     },
     {
-      "epoch": 1.083875,
-      "grad_norm": 3.847102165222168,
       "learning_rate": 4.6891666666666665e-06,
-      "loss": 0.1243,
       "step": 2375
     },
     {
-      "epoch": 1.087,
-      "grad_norm": 2.3183677196502686,
       "learning_rate": 4.668333333333333e-06,
-      "loss": 0.1301,
       "step": 2400
     },
     {
-      "epoch": 1.090125,
-      "grad_norm": 3.9808385372161865,
       "learning_rate": 4.647500000000001e-06,
-      "loss": 0.1289,
       "step": 2425
     },
     {
-      "epoch": 1.09325,
-      "grad_norm": 4.1279616355896,
       "learning_rate": 4.626666666666667e-06,
-      "loss": 0.119,
       "step": 2450
     },
     {
-      "epoch": 1.096375,
-      "grad_norm": 4.029735088348389,
       "learning_rate": 4.605833333333333e-06,
-      "loss": 0.1235,
       "step": 2475
     },
     {
-      "epoch": 1.0995,
-      "grad_norm": 5.72581148147583,
       "learning_rate": 4.585e-06,
-      "loss": 0.125,
       "step": 2500
     },
     {
-      "epoch": 1.0995,
-      "eval_loss": 0.16921907663345337,
-      "eval_runtime": 2457.6523,
-      "eval_samples_per_second": 5.546,
-      "eval_steps_per_second": 0.693,
-      "eval_wer": 11.114368426838652,
       "step": 2500
     },
     {
-      "epoch": 1.102625,
-      "grad_norm": 4.8854875564575195,
       "learning_rate": 4.564166666666667e-06,
-      "loss": 0.122,
       "step": 2525
     },
     {
-      "epoch": 1.10575,
-      "grad_norm": 3.682393789291382,
       "learning_rate": 4.543333333333334e-06,
-      "loss": 0.1169,
       "step": 2550
     },
     {
-      "epoch": 1.108875,
-      "grad_norm": 3.8288307189941406,
       "learning_rate": 4.5225e-06,
-      "loss": 0.1184,
       "step": 2575
     },
     {
-      "epoch": 1.112,
-      "grad_norm": 5.098357677459717,
       "learning_rate": 4.501666666666667e-06,
-      "loss": 0.1235,
       "step": 2600
     },
     {
-      "epoch": 1.115125,
-      "grad_norm": 3.420466899871826,
-      "learning_rate": 4.480833333333334e-06,
-      "loss": 0.1277,
       "step": 2625
     },
     {
-      "epoch": 1.11825,
-      "grad_norm": 4.542791843414307,
-      "learning_rate": 4.4600000000000005e-06,
-      "loss": 0.1214,
       "step": 2650
     },
     {
-      "epoch": 1.121375,
-      "grad_norm": 3.245755195617676,
-      "learning_rate": 4.439166666666667e-06,
-      "loss": 0.1109,
       "step": 2675
     },
     {
-      "epoch": 1.1245,
-      "grad_norm": 5.041585445404053,
-      "learning_rate": 4.418333333333333e-06,
-      "loss": 0.1295,
       "step": 2700
     },
     {
-      "epoch": 1.127625,
-      "grad_norm": 4.113171577453613,
-      "learning_rate": 4.3975e-06,
-      "loss": 0.1153,
       "step": 2725
     },
     {
-      "epoch": 1.13075,
-      "grad_norm": 5.032025337219238,
-      "learning_rate": 4.376666666666667e-06,
-      "loss": 0.1204,
       "step": 2750
     },
     {
-      "epoch": 1.133875,
-      "grad_norm": 5.080983638763428,
-      "learning_rate": 4.355833333333333e-06,
-      "loss": 0.1213,
       "step": 2775
     },
     {
-      "epoch": 1.137,
-      "grad_norm": 4.304152011871338,
-      "learning_rate": 4.335e-06,
-      "loss": 0.1069,
       "step": 2800
     },
     {
-      "epoch": 1.140125,
-      "grad_norm": 3.1360485553741455,
-      "learning_rate": 4.314166666666667e-06,
-      "loss": 0.1167,
       "step": 2825
     },
     {
-      "epoch": 1.14325,
-      "grad_norm": 4.444480895996094,
-      "learning_rate": 4.2933333333333334e-06,
-      "loss": 0.1117,
       "step": 2850
     },
     {
-      "epoch": 1.146375,
-      "grad_norm": 3.8886942863464355,
-      "learning_rate": 4.2725e-06,
-      "loss": 0.1134,
       "step": 2875
     },
     {
-      "epoch": 1.1495,
-      "grad_norm": 4.360485076904297,
-      "learning_rate": 4.251666666666667e-06,
-      "loss": 0.1334,
       "step": 2900
     },
     {
-      "epoch": 1.152625,
-      "grad_norm": 5.376945972442627,
-      "learning_rate": 4.230833333333334e-06,
-      "loss": 0.1163,
       "step": 2925
     },
     {
-      "epoch": 1.15575,
-      "grad_norm": 4.359200954437256,
-      "learning_rate": 4.21e-06,
-      "loss": 0.1351,
       "step": 2950
     },
     {
-      "epoch": 1.158875,
-      "grad_norm": 5.360095977783203,
-      "learning_rate": 4.189166666666667e-06,
-      "loss": 0.1113,
       "step": 2975
     },
     {
-      "epoch": 1.162,
-      "grad_norm": 3.6014363765716553,
-      "learning_rate": 4.168333333333334e-06,
-      "loss": 0.12,
       "step": 3000
     },
     {
-      "epoch": 1.162,
-      "eval_loss": 0.15999051928520203,
-      "eval_runtime": 2448.4453,
-      "eval_samples_per_second": 5.567,
-      "eval_steps_per_second": 0.696,
-      "eval_wer": 10.697533804829785,
       "step": 3000
     },
     {
-      "epoch": 1.165125,
-      "grad_norm": 4.150473594665527,
-      "learning_rate": 4.1475e-06,
-      "loss": 0.1196,
       "step": 3025
     },
     {
-      "epoch": 1.16825,
-      "grad_norm": 4.962148666381836,
-      "learning_rate": 4.126666666666667e-06,
-      "loss": 0.1261,
       "step": 3050
     },
     {
-      "epoch": 1.171375,
-      "grad_norm": 2.9675393104553223,
-      "learning_rate": 4.105833333333334e-06,
-      "loss": 0.1087,
       "step": 3075
     },
     {
-      "epoch": 1.1745,
-      "grad_norm": 5.842774868011475,
-      "learning_rate": 4.085e-06,
-      "loss": 0.1067,
       "step": 3100
     },
     {
-      "epoch": 1.177625,
-      "grad_norm": 5.209335803985596,
-      "learning_rate": 4.064166666666667e-06,
-      "loss": 0.114,
       "step": 3125
     },
     {
-      "epoch": 1.18075,
-      "grad_norm": 4.343747138977051,
-      "learning_rate": 4.043333333333333e-06,
-      "loss": 0.1398,
       "step": 3150
     },
     {
-      "epoch": 1.183875,
-      "grad_norm": 4.5666890144348145,
-      "learning_rate": 4.0225e-06,
-      "loss": 0.112,
       "step": 3175
     },
     {
-      "epoch": 1.187,
-      "grad_norm": 3.5483310222625732,
-      "learning_rate": 4.001666666666667e-06,
-      "loss": 0.1041,
       "step": 3200
     },
     {
-      "epoch": 1.190125,
-      "grad_norm": 5.006927013397217,
-      "learning_rate": 3.9808333333333335e-06,
-      "loss": 0.1184,
       "step": 3225
     },
     {
-      "epoch": 1.19325,
-      "grad_norm": 5.658267498016357,
-      "learning_rate": 3.96e-06,
-      "loss": 0.1141,
       "step": 3250
     },
     {
-      "epoch": 1.196375,
-      "grad_norm": 2.7597854137420654,
-      "learning_rate": 3.939166666666667e-06,
-      "loss": 0.1107,
       "step": 3275
     },
     {
-      "epoch": 1.1995,
-      "grad_norm": 4.687257289886475,
-      "learning_rate": 3.918333333333334e-06,
-      "loss": 0.1223,
       "step": 3300
     },
     {
-      "epoch": 1.202625,
-      "grad_norm": 5.1347336769104,
-      "learning_rate": 3.8975e-06,
-      "loss": 0.1277,
       "step": 3325
     },
     {
-      "epoch": 1.20575,
-      "grad_norm": 7.7792067527771,
-      "learning_rate": 3.876666666666666e-06,
-      "loss": 0.1293,
       "step": 3350
     },
     {
-      "epoch": 1.208875,
-      "grad_norm": 3.461538791656494,
-      "learning_rate": 3.855833333333334e-06,
-      "loss": 0.1235,
       "step": 3375
     },
     {
-      "epoch": 1.212,
-      "grad_norm": 3.458538055419922,
-      "learning_rate": 3.8350000000000006e-06,
-      "loss": 0.1094,
       "step": 3400
     },
     {
-      "epoch": 2.002125,
-      "grad_norm": 6.5652313232421875,
-      "learning_rate": 3.8141666666666664e-06,
-      "loss": 0.0766,
       "step": 3425
     },
     {
-      "epoch": 2.00525,
-      "grad_norm": 2.599691152572632,
-      "learning_rate": 3.7933333333333336e-06,
-      "loss": 0.0666,
       "step": 3450
     },
     {
-      "epoch": 2.008375,
-      "grad_norm": 5.211915493011475,
-      "learning_rate": 3.7725000000000003e-06,
-      "loss": 0.0635,
       "step": 3475
     },
     {
-      "epoch": 2.0115,
-      "grad_norm": 3.1992459297180176,
-      "learning_rate": 3.7516666666666666e-06,
-      "loss": 0.069,
       "step": 3500
     },
     {
-      "epoch": 2.0115,
-      "eval_loss": 0.15404893457889557,
-      "eval_runtime": 2458.0949,
-      "eval_samples_per_second": 5.545,
-      "eval_steps_per_second": 0.693,
-      "eval_wer": 9.764923595587966,
       "step": 3500
     },
     {
-      "epoch": 2.014625,
-      "grad_norm": 3.740165948867798,
-      "learning_rate": 3.7308333333333333e-06,
-      "loss": 0.0699,
       "step": 3525
     },
     {
-      "epoch": 2.01775,
-      "grad_norm": 2.624305009841919,
-      "learning_rate": 3.7100000000000005e-06,
-      "loss": 0.0644,
       "step": 3550
     },
     {
-      "epoch": 2.020875,
-      "grad_norm": 3.66835355758667,
-      "learning_rate": 3.689166666666667e-06,
-      "loss": 0.0552,
       "step": 3575
     },
     {
-      "epoch": 2.024,
-      "grad_norm": 3.7992517948150635,
-      "learning_rate": 3.6683333333333335e-06,
-      "loss": 0.0715,
       "step": 3600
     },
     {
-      "epoch": 2.027125,
-      "grad_norm": 3.4328665733337402,
-      "learning_rate": 3.6475000000000002e-06,
-      "loss": 0.0642,
       "step": 3625
     },
     {
-      "epoch": 2.03025,
-      "grad_norm": 3.206305503845215,
-      "learning_rate": 3.626666666666667e-06,
-      "loss": 0.068,
       "step": 3650
     },
     {
-      "epoch": 2.033375,
-      "grad_norm": 3.6906914710998535,
-      "learning_rate": 3.6058333333333333e-06,
-      "loss": 0.065,
       "step": 3675
     },
     {
-      "epoch": 2.0365,
-      "grad_norm": 3.6564929485321045,
-      "learning_rate": 3.585e-06,
-      "loss": 0.0634,
       "step": 3700
     },
     {
-      "epoch": 2.039625,
-      "grad_norm": 2.8516416549682617,
-      "learning_rate": 3.564166666666667e-06,
-      "loss": 0.0632,
       "step": 3725
     },
     {
-      "epoch": 2.04275,
-      "grad_norm": 2.905165672302246,
-      "learning_rate": 3.5433333333333334e-06,
-      "loss": 0.0528,
       "step": 3750
     },
     {
-      "epoch": 2.045875,
-      "grad_norm": 2.2724170684814453,
-      "learning_rate": 3.5225e-06,
-      "loss": 0.0604,
       "step": 3775
     },
     {
-      "epoch": 2.049,
-      "grad_norm": 2.6760237216949463,
-      "learning_rate": 3.501666666666667e-06,
-      "loss": 0.0528,
       "step": 3800
     },
     {
-      "epoch": 2.052125,
-      "grad_norm": 4.052576541900635,
-      "learning_rate": 3.480833333333333e-06,
-      "loss": 0.0535,
       "step": 3825
     },
     {
-      "epoch": 2.05525,
-      "grad_norm": 3.6434435844421387,
-      "learning_rate": 3.46e-06,
-      "loss": 0.0499,
       "step": 3850
     },
     {
-      "epoch": 2.058375,
-      "grad_norm": 2.612650156021118,
-      "learning_rate": 3.439166666666667e-06,
-      "loss": 0.0489,
       "step": 3875
     },
     {
-      "epoch": 2.0615,
-      "grad_norm": 1.6679494380950928,
-      "learning_rate": 3.4183333333333338e-06,
-      "loss": 0.0475,
       "step": 3900
     },
     {
-      "epoch": 2.064625,
-      "grad_norm": 2.7951669692993164,
-      "learning_rate": 3.3975e-06,
-      "loss": 0.0517,
       "step": 3925
     },
     {
-      "epoch": 2.06775,
-      "grad_norm": 2.6957435607910156,
-      "learning_rate": 3.376666666666667e-06,
-      "loss": 0.0508,
       "step": 3950
     },
     {
-      "epoch": 2.070875,
-      "grad_norm": 2.930025577545166,
-      "learning_rate": 3.355833333333334e-06,
-      "loss": 0.0554,
       "step": 3975
     },
     {
-      "epoch": 2.074,
-      "grad_norm": 2.0811214447021484,
-      "learning_rate": 3.335e-06,
-      "loss": 0.0606,
       "step": 4000
     },
     {
-      "epoch": 2.074,
-      "eval_loss": 0.1549645960330963,
-      "eval_runtime": 2475.9667,
-      "eval_samples_per_second": 5.505,
-      "eval_steps_per_second": 0.688,
-      "eval_wer": 9.819890798490235,
       "step": 4000
     },
     {
-      "epoch": 2.077125,
-      "grad_norm": 2.389423370361328,
-      "learning_rate": 3.314166666666667e-06,
-      "loss": 0.0551,
       "step": 4025
     },
     {
-      "epoch": 2.08025,
-      "grad_norm": 1.8350708484649658,
-      "learning_rate": 3.2933333333333337e-06,
-      "loss": 0.0501,
       "step": 4050
     },
     {
-      "epoch": 2.083375,
-      "grad_norm": 3.053312063217163,
-      "learning_rate": 3.2725e-06,
-      "loss": 0.0526,
       "step": 4075
     },
     {
-      "epoch": 2.0865,
-      "grad_norm": 3.489823341369629,
-      "learning_rate": 3.2516666666666667e-06,
-      "loss": 0.0476,
       "step": 4100
     },
     {
-      "epoch": 2.089625,
-      "grad_norm": 3.742950916290283,
-      "learning_rate": 3.2308333333333335e-06,
-      "loss": 0.0614,
       "step": 4125
     },
     {
-      "epoch": 2.09275,
-      "grad_norm": 1.9854848384857178,
-      "learning_rate": 3.2099999999999998e-06,
-      "loss": 0.0487,
       "step": 4150
     },
     {
-      "epoch": 2.095875,
-      "grad_norm": 2.3751885890960693,
-      "learning_rate": 3.1891666666666665e-06,
-      "loss": 0.0496,
       "step": 4175
     },
     {
-      "epoch": 2.099,
-      "grad_norm": 2.182997703552246,
-      "learning_rate": 3.1683333333333336e-06,
-      "loss": 0.0442,
       "step": 4200
     },
     {
-      "epoch": 2.102125,
-      "grad_norm": 1.963120937347412,
-      "learning_rate": 3.1475000000000004e-06,
-      "loss": 0.0437,
       "step": 4225
     },
     {
-      "epoch": 2.10525,
-      "grad_norm": 1.7127807140350342,
-      "learning_rate": 3.1266666666666667e-06,
-      "loss": 0.0479,
       "step": 4250
     },
     {
-      "epoch": 2.108375,
-      "grad_norm": 3.277400016784668,
-      "learning_rate": 3.1058333333333334e-06,
-      "loss": 0.0535,
       "step": 4275
     },
     {
-      "epoch": 2.1115,
-      "grad_norm": 3.1404621601104736,
-      "learning_rate": 3.085e-06,
-      "loss": 0.0431,
       "step": 4300
     },
     {
-      "epoch": 2.114625,
-      "grad_norm": 3.8738794326782227,
-      "learning_rate": 3.064166666666667e-06,
-      "loss": 0.0436,
       "step": 4325
     },
     {
-      "epoch": 2.11775,
-      "grad_norm": 2.9267311096191406,
-      "learning_rate": 3.0433333333333336e-06,
-      "loss": 0.0496,
       "step": 4350
     },
     {
-      "epoch": 2.120875,
-      "grad_norm": 4.0710320472717285,
-      "learning_rate": 3.0225e-06,
-      "loss": 0.047,
       "step": 4375
     },
     {
-      "epoch": 2.124,
-      "grad_norm": 2.9265050888061523,
-      "learning_rate": 3.001666666666667e-06,
-      "loss": 0.0434,
       "step": 4400
     },
     {
-      "epoch": 2.127125,
-      "grad_norm": 2.666417121887207,
-      "learning_rate": 2.9808333333333333e-06,
-      "loss": 0.0357,
       "step": 4425
     },
     {
-      "epoch": 2.13025,
-      "grad_norm": 3.082674741744995,
-      "learning_rate": 2.9600000000000005e-06,
-      "loss": 0.0486,
       "step": 4450
     },
     {
-      "epoch": 2.133375,
-      "grad_norm": 2.291168689727783,
-      "learning_rate": 2.9391666666666668e-06,
-      "loss": 0.046,
       "step": 4475
     },
     {
-      "epoch": 2.1365,
-      "grad_norm": 2.878455877304077,
-      "learning_rate": 2.9183333333333335e-06,
-      "loss": 0.0434,
       "step": 4500
     },
     {
-      "epoch": 2.1365,
-      "eval_loss": 0.15800228714942932,
-      "eval_runtime": 2430.3639,
-      "eval_samples_per_second": 5.608,
-      "eval_steps_per_second": 0.701,
-      "eval_wer": 9.457107259335263,
       "step": 4500
     },
     {
-      "epoch": 2.139625,
-      "grad_norm": 2.2872824668884277,
-      "learning_rate": 2.8975e-06,
-      "loss": 0.0507,
       "step": 4525
     },
     {
-      "epoch": 2.14275,
-      "grad_norm": 1.6797173023223877,
-      "learning_rate": 2.876666666666667e-06,
-      "loss": 0.044,
       "step": 4550
     },
     {
-      "epoch": 2.145875,
-      "grad_norm": 2.690349817276001,
-      "learning_rate": 2.8558333333333337e-06,
-      "loss": 0.041,
       "step": 4575
     },
     {
-      "epoch": 2.149,
-      "grad_norm": 2.515873670578003,
-      "learning_rate": 2.835e-06,
-      "loss": 0.0503,
       "step": 4600
     },
     {
-      "epoch": 2.152125,
-      "grad_norm": 3.210235595703125,
-      "learning_rate": 2.8141666666666667e-06,
-      "loss": 0.0539,
       "step": 4625
     },
     {
-      "epoch": 2.15525,
-      "grad_norm": 2.19775128364563,
-      "learning_rate": 2.7933333333333334e-06,
-      "loss": 0.0486,
       "step": 4650
     },
     {
-      "epoch": 2.158375,
-      "grad_norm": 2.8275535106658936,
-      "learning_rate": 2.7725e-06,
-      "loss": 0.0455,
       "step": 4675
     },
     {
-      "epoch": 2.1615,
-      "grad_norm": 2.911288022994995,
-      "learning_rate": 2.7516666666666664e-06,
-      "loss": 0.0495,
       "step": 4700
     },
     {
-      "epoch": 2.164625,
-      "grad_norm": 3.446293592453003,
-      "learning_rate": 2.7308333333333336e-06,
-      "loss": 0.0527,
       "step": 4725
     },
     {
-      "epoch": 2.16775,
-      "grad_norm": 2.1223082542419434,
-      "learning_rate": 2.71e-06,
-      "loss": 0.0437,
       "step": 4750
     },
     {
-      "epoch": 2.170875,
-      "grad_norm": 2.4212393760681152,
-      "learning_rate": 2.689166666666667e-06,
-      "loss": 0.0504,
       "step": 4775
     },
     {
-      "epoch": 2.174,
-      "grad_norm": 2.440826177597046,
-      "learning_rate": 2.6683333333333333e-06,
-      "loss": 0.0432,
       "step": 4800
     },
     {
-      "epoch": 2.177125,
-      "grad_norm": 2.3568456172943115,
-      "learning_rate": 2.6475e-06,
-      "loss": 0.0404,
       "step": 4825
     },
     {
-      "epoch": 2.18025,
-      "grad_norm": 2.638301372528076,
-      "learning_rate": 2.6266666666666668e-06,
-      "loss": 0.0528,
       "step": 4850
     },
     {
-      "epoch": 2.183375,
-      "grad_norm": 2.1262662410736084,
-      "learning_rate": 2.6058333333333335e-06,
-      "loss": 0.0468,
       "step": 4875
     },
     {
-      "epoch": 2.1865,
-      "grad_norm": 1.8121278285980225,
-      "learning_rate": 2.5850000000000002e-06,
-      "loss": 0.0414,
       "step": 4900
     },
     {
-      "epoch": 2.189625,
-      "grad_norm": 3.5271337032318115,
-      "learning_rate": 2.564166666666667e-06,
-      "loss": 0.0477,
       "step": 4925
     },
     {
-      "epoch": 2.19275,
-      "grad_norm": 2.0672607421875,
-      "learning_rate": 2.5433333333333333e-06,
-      "loss": 0.0402,
       "step": 4950
     },
     {
-      "epoch": 2.195875,
-      "grad_norm": 2.3378803730010986,
-      "learning_rate": 2.5225000000000004e-06,
-      "loss": 0.0458,
       "step": 4975
     },
     {
-      "epoch": 2.199,
-      "grad_norm": 2.3618690967559814,
-      "learning_rate": 2.5016666666666667e-06,
-      "loss": 0.0455,
       "step": 5000
     },
     {
-      "epoch": 2.199,
-      "eval_loss": 0.15326862037181854,
-      "eval_runtime": 2431.3758,
-      "eval_samples_per_second": 5.606,
-      "eval_steps_per_second": 0.701,
-      "eval_wer": 9.14104584264722,
       "step": 5000
     },
     {
-      "epoch": 2.202125,
-      "grad_norm": 3.066169261932373,
-      "learning_rate": 2.4808333333333334e-06,
-      "loss": 0.0514,
       "step": 5025
     },
     {
-      "epoch": 2.20525,
-      "grad_norm": 2.8991472721099854,
-      "learning_rate": 2.46e-06,
-      "loss": 0.0454,
       "step": 5050
     },
     {
-      "epoch": 2.208375,
-      "grad_norm": 2.641075611114502,
-      "learning_rate": 2.439166666666667e-06,
-      "loss": 0.0448,
       "step": 5075
     },
     {
-      "epoch": 2.2115,
-      "grad_norm": 3.234225034713745,
-      "learning_rate": 2.4183333333333336e-06,
-      "loss": 0.0504,
       "step": 5100
     },
     {
-      "epoch": 3.001625,
-      "grad_norm": 1.9421311616897583,
-      "learning_rate": 2.3975e-06,
-      "loss": 0.0377,
       "step": 5125
     },
     {
-      "epoch": 3.00475,
-      "grad_norm": 1.9280989170074463,
-      "learning_rate": 2.3766666666666666e-06,
-      "loss": 0.0291,
       "step": 5150
     },
     {
-      "epoch": 3.007875,
-      "grad_norm": 1.701106309890747,
-      "learning_rate": 2.3558333333333334e-06,
-      "loss": 0.0254,
       "step": 5175
     },
     {
-      "epoch": 3.011,
-      "grad_norm": 1.4093270301818848,
-      "learning_rate": 2.335e-06,
-      "loss": 0.0267,
       "step": 5200
     },
     {
-      "epoch": 3.014125,
-      "grad_norm": 2.7806079387664795,
-      "learning_rate": 2.314166666666667e-06,
-      "loss": 0.0271,
       "step": 5225
     },
     {
-      "epoch": 3.01725,
-      "grad_norm": 2.454941511154175,
-      "learning_rate": 2.2933333333333335e-06,
-      "loss": 0.0296,
       "step": 5250
     },
     {
-      "epoch": 3.020375,
-      "grad_norm": 1.8080620765686035,
-      "learning_rate": 2.2725e-06,
-      "loss": 0.0254,
       "step": 5275
     },
     {
-      "epoch": 3.0235,
-      "grad_norm": 2.4920754432678223,
-      "learning_rate": 2.251666666666667e-06,
-      "loss": 0.0242,
       "step": 5300
     },
     {
-      "epoch": 3.026625,
-      "grad_norm": 1.4802467823028564,
-      "learning_rate": 2.2308333333333333e-06,
-      "loss": 0.0242,
       "step": 5325
     },
     {
-      "epoch": 3.02975,
-      "grad_norm": 4.049746036529541,
-      "learning_rate": 2.2100000000000004e-06,
-      "loss": 0.026,
       "step": 5350
     },
     {
-      "epoch": 3.032875,
-      "grad_norm": 2.304689884185791,
-      "learning_rate": 2.1891666666666667e-06,
-      "loss": 0.0261,
       "step": 5375
     },
     {
-      "epoch": 3.036,
-      "grad_norm": 1.9863944053649902,
-      "learning_rate": 2.1683333333333335e-06,
-      "loss": 0.0251,
       "step": 5400
     },
     {
-      "epoch": 3.039125,
-      "grad_norm": 2.0497422218322754,
-      "learning_rate": 2.1475e-06,
-      "loss": 0.0254,
       "step": 5425
     },
     {
-      "epoch": 3.04225,
-      "grad_norm": 2.5717766284942627,
-      "learning_rate": 2.126666666666667e-06,
-      "loss": 0.0238,
       "step": 5450
     },
     {
-      "epoch": 3.045375,
-      "grad_norm": 1.1389164924621582,
-      "learning_rate": 2.1058333333333332e-06,
-      "loss": 0.0208,
       "step": 5475
     },
     {
-      "epoch": 3.0485,
-      "grad_norm": 1.5230340957641602,
-      "learning_rate": 2.085e-06,
-      "loss": 0.0216,
       "step": 5500
     },
     {
-      "epoch": 3.0485,
-      "eval_loss": 0.1619918942451477,
-      "eval_runtime": 2437.6868,
-      "eval_samples_per_second": 5.591,
-      "eval_steps_per_second": 0.699,
-      "eval_wer": 9.08424639964821,
       "step": 5500
     },
     {
-      "epoch": 3.051625,
-      "grad_norm": 1.907436728477478,
-      "learning_rate": 2.0641666666666667e-06,
-      "loss": 0.0224,
       "step": 5525
     },
     {
-      "epoch": 3.05475,
-      "grad_norm": 1.5222604274749756,
-      "learning_rate": 2.0433333333333334e-06,
-      "loss": 0.0197,
       "step": 5550
     },
     {
-      "epoch": 3.057875,
-      "grad_norm": 1.5284624099731445,
-      "learning_rate": 2.0225e-06,
-      "loss": 0.0152,
       "step": 5575
     },
     {
-      "epoch": 3.061,
-      "grad_norm": 0.7098265886306763,
-      "learning_rate": 2.0016666666666664e-06,
-      "loss": 0.019,
       "step": 5600
     },
     {
-      "epoch": 3.064125,
-      "grad_norm": 2.1706318855285645,
-      "learning_rate": 1.9808333333333336e-06,
-      "loss": 0.0189,
       "step": 5625
     },
     {
-      "epoch": 3.06725,
-      "grad_norm": 2.888962745666504,
-      "learning_rate": 1.96e-06,
-      "loss": 0.0201,
       "step": 5650
     },
     {
-      "epoch": 3.070375,
-      "grad_norm": 3.0322179794311523,
-      "learning_rate": 1.939166666666667e-06,
-      "loss": 0.0211,
       "step": 5675
     },
     {
-      "epoch": 3.0735,
-      "grad_norm": 3.066394329071045,
-      "learning_rate": 1.9183333333333333e-06,
-      "loss": 0.0253,
       "step": 5700
     },
     {
-      "epoch": 3.076625,
-      "grad_norm": 2.5032601356506348,
-      "learning_rate": 1.8975e-06,
-      "loss": 0.0236,
       "step": 5725
     },
     {
-      "epoch": 3.07975,
-      "grad_norm": 1.5625773668289185,
-      "learning_rate": 1.8766666666666668e-06,
-      "loss": 0.0193,
       "step": 5750
     },
     {
-      "epoch": 3.082875,
-      "grad_norm": 1.7981406450271606,
-      "learning_rate": 1.8558333333333333e-06,
-      "loss": 0.0157,
       "step": 5775
     },
     {
-      "epoch": 3.086,
-      "grad_norm": 1.1411957740783691,
-      "learning_rate": 1.8350000000000002e-06,
-      "loss": 0.0217,
       "step": 5800
     },
     {
-      "epoch": 3.089125,
-      "grad_norm": 1.1639596223831177,
-      "learning_rate": 1.8141666666666667e-06,
-      "loss": 0.0239,
       "step": 5825
     },
     {
-      "epoch": 3.09225,
-      "grad_norm": 0.7168381810188293,
-      "learning_rate": 1.7933333333333332e-06,
-      "loss": 0.0218,
       "step": 5850
     },
     {
-      "epoch": 3.095375,
-      "grad_norm": 1.1308009624481201,
-      "learning_rate": 1.7725000000000002e-06,
-      "loss": 0.0214,
       "step": 5875
     },
     {
-      "epoch": 3.0985,
-      "grad_norm": 2.1142430305480957,
-      "learning_rate": 1.7516666666666667e-06,
-      "loss": 0.0155,
       "step": 5900
     },
     {
-      "epoch": 3.101625,
-      "grad_norm": 1.479252815246582,
-      "learning_rate": 1.7308333333333332e-06,
-      "loss": 0.0176,
       "step": 5925
     },
     {
-      "epoch": 3.10475,
-      "grad_norm": 1.3254590034484863,
-      "learning_rate": 1.7100000000000001e-06,
-      "loss": 0.0144,
       "step": 5950
     },
     {
-      "epoch": 3.107875,
-      "grad_norm": 2.1925458908081055,
-      "learning_rate": 1.6891666666666667e-06,
-      "loss": 0.0162,
       "step": 5975
     },
     {
-      "epoch": 3.111,
-      "grad_norm": 1.774483561515808,
-      "learning_rate": 1.6683333333333336e-06,
-      "loss": 0.017,
       "step": 6000
     },
     {
-      "epoch": 3.111,
-      "eval_loss": 0.17044013738632202,
-      "eval_runtime": 2431.1861,
-      "eval_samples_per_second": 5.606,
-      "eval_steps_per_second": 0.701,
-      "eval_wer": 9.097988200373777,
       "step": 6000
     },
     {
-      "epoch": 3.114125,
-      "grad_norm": 3.372814893722534,
       "learning_rate": 1.6483333333333334e-06,
-      "loss": 0.0216,
       "step": 6025
     },
     {
-      "epoch": 3.11725,
-      "grad_norm": 0.39716529846191406,
       "learning_rate": 1.6275000000000003e-06,
-      "loss": 0.0161,
       "step": 6050
     },
     {
-      "epoch": 3.120375,
-      "grad_norm": 1.4220778942108154,
       "learning_rate": 1.6066666666666668e-06,
-      "loss": 0.0211,
       "step": 6075
     },
     {
-      "epoch": 3.1235,
-      "grad_norm": 1.2959835529327393,
       "learning_rate": 1.5858333333333333e-06,
-      "loss": 0.0187,
       "step": 6100
     },
     {
-      "epoch": 3.1266249999999998,
-      "grad_norm": 1.9399360418319702,
       "learning_rate": 1.565e-06,
-      "loss": 0.0123,
       "step": 6125
     },
     {
-      "epoch": 3.12975,
-      "grad_norm": 2.898085594177246,
       "learning_rate": 1.5441666666666668e-06,
-      "loss": 0.0197,
       "step": 6150
     },
     {
-      "epoch": 3.132875,
-      "grad_norm": 3.642364263534546,
       "learning_rate": 1.5233333333333333e-06,
-      "loss": 0.0162,
       "step": 6175
     },
     {
-      "epoch": 3.136,
-      "grad_norm": 1.7888002395629883,
       "learning_rate": 1.5025e-06,
-      "loss": 0.0164,
       "step": 6200
     },
     {
-      "epoch": 3.139125,
-      "grad_norm": 2.3871753215789795,
       "learning_rate": 1.4816666666666667e-06,
-      "loss": 0.0175,
       "step": 6225
     },
     {
-      "epoch": 3.1422499999999998,
-      "grad_norm": 1.4263437986373901,
       "learning_rate": 1.4608333333333333e-06,
-      "loss": 0.0152,
       "step": 6250
     },
     {
-      "epoch": 3.145375,
-      "grad_norm": 2.174880027770996,
       "learning_rate": 1.44e-06,
-      "loss": 0.0172,
       "step": 6275
     },
     {
-      "epoch": 3.1485,
-      "grad_norm": 0.9558664560317993,
       "learning_rate": 1.4191666666666667e-06,
-      "loss": 0.0172,
       "step": 6300
     },
     {
-      "epoch": 3.151625,
-      "grad_norm": 2.228374719619751,
       "learning_rate": 1.3983333333333334e-06,
-      "loss": 0.0173,
       "step": 6325
     },
     {
-      "epoch": 3.15475,
-      "grad_norm": 1.3473858833312988,
       "learning_rate": 1.3775000000000002e-06,
-      "loss": 0.0211,
       "step": 6350
     },
     {
-      "epoch": 3.1578749999999998,
-      "grad_norm": 1.575217843055725,
       "learning_rate": 1.3566666666666667e-06,
-      "loss": 0.0195,
       "step": 6375
     },
     {
-      "epoch": 3.161,
-      "grad_norm": 1.4997564554214478,
       "learning_rate": 1.3358333333333334e-06,
-      "loss": 0.0174,
       "step": 6400
     },
     {
-      "epoch": 3.164125,
-      "grad_norm": 1.6651334762573242,
       "learning_rate": 1.3150000000000001e-06,
-      "loss": 0.0178,
       "step": 6425
     },
     {
-      "epoch": 3.16725,
-      "grad_norm": 1.9218391180038452,
       "learning_rate": 1.2941666666666668e-06,
-      "loss": 0.0168,
       "step": 6450
     },
     {
-      "epoch": 3.170375,
-      "grad_norm": 1.322709560394287,
       "learning_rate": 1.2733333333333334e-06,
-      "loss": 0.0155,
       "step": 6475
     },
     {
-      "epoch": 3.1734999999999998,
-      "grad_norm": 0.7265995144844055,
       "learning_rate": 1.2525e-06,
-      "loss": 0.0174,
       "step": 6500
     },
     {
-      "epoch": 3.1734999999999998,
-      "eval_loss": 0.16809040307998657,
-      "eval_runtime": 2425.0716,
-      "eval_samples_per_second": 5.62,
-      "eval_steps_per_second": 0.703,
-      "eval_wer": 9.072336839019385,
       "step": 6500
     },
     {
-      "epoch": 3.176625,
-      "grad_norm": 3.6835756301879883,
       "learning_rate": 1.2316666666666668e-06,
-      "loss": 0.0177,
       "step": 6525
     },
     {
-      "epoch": 3.17975,
-      "grad_norm": 1.7619342803955078,
       "learning_rate": 1.2108333333333335e-06,
-      "loss": 0.0212,
       "step": 6550
     },
     {
-      "epoch": 3.182875,
-      "grad_norm": 1.547814130783081,
       "learning_rate": 1.19e-06,
-      "loss": 0.0213,
       "step": 6575
     },
     {
-      "epoch": 3.186,
-      "grad_norm": 2.0077638626098633,
       "learning_rate": 1.1691666666666668e-06,
-      "loss": 0.016,
       "step": 6600
     },
     {
-      "epoch": 3.1891249999999998,
-      "grad_norm": 1.806665062904358,
-      "learning_rate": 1.1483333333333333e-06,
-      "loss": 0.0165,
       "step": 6625
     },
     {
-      "epoch": 3.19225,
-      "grad_norm": 1.9576735496520996,
       "learning_rate": 1.1283333333333333e-06,
-      "loss": 0.0173,
       "step": 6650
     },
     {
-      "epoch": 3.195375,
-      "grad_norm": 1.992625117301941,
       "learning_rate": 1.1075e-06,
-      "loss": 0.0179,
       "step": 6675
     },
     {
-      "epoch": 3.1985,
-      "grad_norm": 1.9625897407531738,
       "learning_rate": 1.0866666666666667e-06,
-      "loss": 0.0174,
       "step": 6700
     },
     {
-      "epoch": 3.201625,
-      "grad_norm": 1.079950213432312,
       "learning_rate": 1.0658333333333334e-06,
-      "loss": 0.0189,
       "step": 6725
     },
     {
-      "epoch": 3.2047499999999998,
-      "grad_norm": 1.7856156826019287,
       "learning_rate": 1.045e-06,
-      "loss": 0.0179,
       "step": 6750
     },
     {
-      "epoch": 3.207875,
-      "grad_norm": 0.44674980640411377,
       "learning_rate": 1.0241666666666667e-06,
-      "loss": 0.0185,
       "step": 6775
     },
     {
-      "epoch": 3.211,
-      "grad_norm": 2.1849780082702637,
       "learning_rate": 1.0033333333333334e-06,
-      "loss": 0.0208,
       "step": 6800
     },
     {
-      "epoch": 4.001125,
-      "grad_norm": 1.4259858131408691,
       "learning_rate": 9.825000000000001e-07,
-      "loss": 0.0162,
       "step": 6825
     },
     {
-      "epoch": 4.00425,
-      "grad_norm": 0.5507416129112244,
       "learning_rate": 9.616666666666668e-07,
-      "loss": 0.0099,
       "step": 6850
     },
     {
-      "epoch": 4.007375,
-      "grad_norm": 1.9662590026855469,
       "learning_rate": 9.408333333333334e-07,
-      "loss": 0.0117,
       "step": 6875
     },
     {
-      "epoch": 4.0105,
-      "grad_norm": 1.9439060688018799,
       "learning_rate": 9.2e-07,
-      "loss": 0.0114,
       "step": 6900
     },
     {
-      "epoch": 4.013625,
-      "grad_norm": 1.266473412513733,
       "learning_rate": 8.991666666666667e-07,
-      "loss": 0.0085,
       "step": 6925
     },
     {
-      "epoch": 4.01675,
-      "grad_norm": 1.4318881034851074,
       "learning_rate": 8.783333333333334e-07,
-      "loss": 0.0095,
       "step": 6950
     },
     {
-      "epoch": 4.019875,
-      "grad_norm": 1.7301366329193115,
       "learning_rate": 8.574999999999999e-07,
-      "loss": 0.01,
       "step": 6975
     },
     {
-      "epoch": 4.023,
-      "grad_norm": 0.7250347137451172,
       "learning_rate": 8.366666666666667e-07,
-      "loss": 0.0098,
       "step": 7000
     },
     {
-      "epoch": 4.023,
-      "eval_loss": 0.17248913645744324,
-      "eval_runtime": 2424.7286,
-      "eval_samples_per_second": 5.621,
-      "eval_steps_per_second": 0.703,
-      "eval_wer": 8.862545347942394,
       "step": 7000
     },
     {
-      "epoch": 4.026125,
-      "grad_norm": 0.9742090702056885,
       "learning_rate": 8.158333333333334e-07,
-      "loss": 0.0083,
       "step": 7025
     },
     {
-      "epoch": 4.02925,
-      "grad_norm": 1.966017723083496,
       "learning_rate": 7.950000000000001e-07,
-      "loss": 0.0098,
       "step": 7050
     },
     {
-      "epoch": 4.032375,
-      "grad_norm": 0.3238462209701538,
       "learning_rate": 7.741666666666667e-07,
-      "loss": 0.0106,
       "step": 7075
     },
     {
-      "epoch": 4.0355,
-      "grad_norm": 1.1980866193771362,
       "learning_rate": 7.533333333333334e-07,
-      "loss": 0.0095,
       "step": 7100
     },
     {
-      "epoch": 4.038625,
-      "grad_norm": 1.5639567375183105,
       "learning_rate": 7.325e-07,
-      "loss": 0.0079,
       "step": 7125
     },
     {
-      "epoch": 4.04175,
-      "grad_norm": 2.4864511489868164,
       "learning_rate": 7.116666666666667e-07,
-      "loss": 0.0081,
       "step": 7150
     },
     {
-      "epoch": 4.044875,
-      "grad_norm": 0.3260515332221985,
       "learning_rate": 6.908333333333333e-07,
-      "loss": 0.0078,
       "step": 7175
     },
     {
-      "epoch": 4.048,
-      "grad_norm": 1.6305910348892212,
       "learning_rate": 6.7e-07,
-      "loss": 0.0093,
       "step": 7200
     },
     {
-      "epoch": 4.051125,
-      "grad_norm": 0.6141969561576843,
       "learning_rate": 6.491666666666667e-07,
-      "loss": 0.0082,
       "step": 7225
     },
     {
-      "epoch": 4.05425,
-      "grad_norm": 1.9699019193649292,
       "learning_rate": 6.283333333333334e-07,
-      "loss": 0.0089,
       "step": 7250
     },
     {
-      "epoch": 4.057375,
-      "grad_norm": 0.2788224518299103,
       "learning_rate": 6.075e-07,
-      "loss": 0.0053,
       "step": 7275
     },
     {
-      "epoch": 4.0605,
-      "grad_norm": 1.0774401426315308,
       "learning_rate": 5.866666666666667e-07,
-      "loss": 0.0074,
       "step": 7300
     },
     {
-      "epoch": 4.063625,
-      "grad_norm": 0.2802826166152954,
       "learning_rate": 5.658333333333334e-07,
-      "loss": 0.007,
       "step": 7325
     },
     {
-      "epoch": 4.06675,
-      "grad_norm": 0.459989458322525,
       "learning_rate": 5.450000000000001e-07,
-      "loss": 0.0061,
       "step": 7350
     },
     {
-      "epoch": 4.069875,
-      "grad_norm": 1.6869885921478271,
       "learning_rate": 5.241666666666667e-07,
-      "loss": 0.007,
       "step": 7375
     },
     {
-      "epoch": 4.073,
-      "grad_norm": 1.150252103805542,
       "learning_rate": 5.033333333333333e-07,
-      "loss": 0.009,
       "step": 7400
     },
     {
-      "epoch": 4.076125,
-      "grad_norm": 0.7096041440963745,
       "learning_rate": 4.825e-07,
-      "loss": 0.0074,
       "step": 7425
     },
     {
-      "epoch": 4.07925,
-      "grad_norm": 1.9114930629730225,
       "learning_rate": 4.6166666666666666e-07,
-      "loss": 0.0081,
       "step": 7450
     },
     {
-      "epoch": 4.082375,
-      "grad_norm": 0.41340845823287964,
       "learning_rate": 4.408333333333334e-07,
-      "loss": 0.0078,
       "step": 7475
     },
     {
-      "epoch": 4.0855,
-      "grad_norm": 1.241665005683899,
       "learning_rate": 4.2e-07,
-      "loss": 0.0076,
       "step": 7500
     },
     {
-      "epoch": 4.0855,
-      "eval_loss": 0.17651478946208954,
-      "eval_runtime": 2432.1699,
-      "eval_samples_per_second": 5.604,
-      "eval_steps_per_second": 0.701,
-      "eval_wer": 8.83506174649126,
       "step": 7500
     },
     {
-      "epoch": 4.088625,
-      "grad_norm": 0.6228423714637756,
       "learning_rate": 3.991666666666667e-07,
-      "loss": 0.0075,
       "step": 7525
     },
     {
-      "epoch": 4.09175,
-      "grad_norm": 0.5548863410949707,
       "learning_rate": 3.7833333333333335e-07,
-      "loss": 0.007,
       "step": 7550
     },
     {
-      "epoch": 4.094875,
-      "grad_norm": 0.33007875084877014,
       "learning_rate": 3.575e-07,
-      "loss": 0.0058,
       "step": 7575
     },
     {
-      "epoch": 4.098,
-      "grad_norm": 1.3314837217330933,
       "learning_rate": 3.366666666666667e-07,
-      "loss": 0.0068,
       "step": 7600
     },
     {
-      "epoch": 4.101125,
-      "grad_norm": 2.230480909347534,
       "learning_rate": 3.1583333333333336e-07,
-      "loss": 0.007,
       "step": 7625
     },
     {
-      "epoch": 4.10425,
-      "grad_norm": 0.3246554136276245,
       "learning_rate": 2.95e-07,
-      "loss": 0.0058,
       "step": 7650
     },
     {
-      "epoch": 4.107375,
-      "grad_norm": 3.8842251300811768,
       "learning_rate": 2.7416666666666665e-07,
-      "loss": 0.0071,
       "step": 7675
     },
     {
-      "epoch": 4.1105,
-      "grad_norm": 0.27049753069877625,
       "learning_rate": 2.533333333333333e-07,
-      "loss": 0.0068,
       "step": 7700
     },
     {
-      "epoch": 4.113625,
-      "grad_norm": 1.5919678211212158,
       "learning_rate": 2.325e-07,
-      "loss": 0.009,
       "step": 7725
     },
     {
-      "epoch": 4.11675,
-      "grad_norm": 1.0917800664901733,
       "learning_rate": 2.116666666666667e-07,
-      "loss": 0.0083,
       "step": 7750
     },
     {
-      "epoch": 4.119875,
-      "grad_norm": 1.6236002445220947,
       "learning_rate": 1.9083333333333334e-07,
-      "loss": 0.0077,
       "step": 7775
     },
     {
-      "epoch": 4.123,
-      "grad_norm": 0.34154245257377625,
       "learning_rate": 1.7e-07,
-      "loss": 0.0064,
       "step": 7800
     },
     {
-      "epoch": 4.126125,
-      "grad_norm": 0.7562180757522583,
       "learning_rate": 1.4916666666666669e-07,
-      "loss": 0.0073,
       "step": 7825
     },
     {
-      "epoch": 4.12925,
-      "grad_norm": 1.4198355674743652,
       "learning_rate": 1.2833333333333333e-07,
-      "loss": 0.0051,
       "step": 7850
     },
     {
-      "epoch": 4.132375,
-      "grad_norm": 0.38768094778060913,
       "learning_rate": 1.075e-07,
-      "loss": 0.0073,
       "step": 7875
     },
     {
-      "epoch": 4.1355,
-      "grad_norm": 2.1387102603912354,
       "learning_rate": 8.666666666666666e-08,
-      "loss": 0.0078,
       "step": 7900
     },
     {
-      "epoch": 4.138625,
-      "grad_norm": 0.7683693170547485,
       "learning_rate": 6.583333333333333e-08,
-      "loss": 0.006,
       "step": 7925
     },
     {
-      "epoch": 4.14175,
-      "grad_norm": 0.40976452827453613,
       "learning_rate": 4.5e-08,
-      "loss": 0.0059,
       "step": 7950
     },
     {
-      "epoch": 4.144875,
-      "grad_norm": 0.3620973229408264,
       "learning_rate": 2.4166666666666668e-08,
-      "loss": 0.0054,
       "step": 7975
     },
     {
-      "epoch": 4.148,
-      "grad_norm": 0.28266406059265137,
       "learning_rate": 3.333333333333334e-09,
-      "loss": 0.007,
       "step": 8000
     },
     {
-      "epoch": 4.148,
-      "eval_loss": 0.17873740196228027,
-      "eval_runtime": 2435.5612,
-      "eval_samples_per_second": 5.596,
-      "eval_steps_per_second": 0.7,
-      "eval_wer": 8.8020814247499,
       "step": 8000
     },
     {
-      "epoch": 4.148,
       "step": 8000,
-      "total_flos": 1.3062109848403968e+20,
-      "train_loss": 0.11351343880966305,
-      "train_runtime": 52381.6915,
-      "train_samples_per_second": 2.444,
-      "train_steps_per_second": 0.153
     }
   ],
   "logging_steps": 25,
@@ -2419,7 +2419,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3062109848403968e+20,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 9.98410769374591,
+  "best_model_checkpoint": "./checkpoint-6000",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 8000,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.003125,
+      "grad_norm": 18.986873626708984,
       "learning_rate": 2.875e-07,
+      "loss": 1.979,
       "step": 25
     },
     {
       "epoch": 0.00625,
+      "grad_norm": 16.025917053222656,
       "learning_rate": 6.000000000000001e-07,
+      "loss": 1.8343,
       "step": 50
     },
     {
       "epoch": 0.009375,
+      "grad_norm": 11.7916841506958,
       "learning_rate": 9.124999999999999e-07,
+      "loss": 1.4286,
       "step": 75
     },
     {
       "epoch": 0.0125,
+      "grad_norm": 9.848176002502441,
       "learning_rate": 1.2250000000000001e-06,
+      "loss": 0.9655,
       "step": 100
     },
     {
       "epoch": 0.015625,
+      "grad_norm": 9.252968788146973,
       "learning_rate": 1.5375e-06,
+      "loss": 0.7411,
       "step": 125
     },
     {
       "epoch": 0.01875,
+      "grad_norm": 9.25166130065918,
       "learning_rate": 1.85e-06,
+      "loss": 0.7377,
       "step": 150
     },
     {
       "epoch": 0.021875,
+      "grad_norm": 9.127242088317871,
       "learning_rate": 2.1625e-06,
+      "loss": 0.5628,
       "step": 175
     },
     {
       "epoch": 0.025,
+      "grad_norm": 7.140044212341309,
       "learning_rate": 2.4750000000000004e-06,
+      "loss": 0.5043,
       "step": 200
     },
     {
       "epoch": 0.028125,
+      "grad_norm": 7.495832920074463,
       "learning_rate": 2.7875e-06,
+      "loss": 0.4543,
       "step": 225
     },
     {
       "epoch": 0.03125,
+      "grad_norm": 7.260509014129639,
       "learning_rate": 3.1e-06,
+      "loss": 0.441,
       "step": 250
     },
     {
       "epoch": 0.034375,
+      "grad_norm": 7.78987455368042,
       "learning_rate": 3.4125000000000004e-06,
+      "loss": 0.3709,
       "step": 275
     },
     {
       "epoch": 0.0375,
+      "grad_norm": 6.570291042327881,
       "learning_rate": 3.725e-06,
+      "loss": 0.3778,
       "step": 300
     },
     {
       "epoch": 0.040625,
+      "grad_norm": 6.600038051605225,
       "learning_rate": 4.037500000000001e-06,
+      "loss": 0.342,
       "step": 325
     },
     {
       "epoch": 0.04375,
+      "grad_norm": 6.174134731292725,
       "learning_rate": 4.35e-06,
+      "loss": 0.3479,
       "step": 350
     },
     {
       "epoch": 0.046875,
+      "grad_norm": 5.382558345794678,
       "learning_rate": 4.6625e-06,
+      "loss": 0.3389,
       "step": 375
     },
     {
       "epoch": 0.05,
+      "grad_norm": 6.139970302581787,
       "learning_rate": 4.975000000000001e-06,
+      "loss": 0.3001,
       "step": 400
     },
     {
       "epoch": 0.053125,
+      "grad_norm": 6.267641544342041,
       "learning_rate": 5.2875e-06,
+      "loss": 0.2827,
       "step": 425
     },
     {
       "epoch": 0.05625,
+      "grad_norm": 4.701253414154053,
       "learning_rate": 5.600000000000001e-06,
+      "loss": 0.252,
       "step": 450
     },
     {
       "epoch": 0.059375,
+      "grad_norm": 7.49235725402832,
       "learning_rate": 5.9125e-06,
+      "loss": 0.2724,
       "step": 475
     },
     {
       "epoch": 0.0625,
+      "grad_norm": 8.219965934753418,
       "learning_rate": 6.2250000000000005e-06,
+      "loss": 0.3412,
       "step": 500
     },
     {
       "epoch": 0.0625,
+      "eval_loss": 0.4569947421550751,
+      "eval_runtime": 421.2437,
+      "eval_samples_per_second": 4.995,
+      "eval_steps_per_second": 0.624,
+      "eval_wer": 28.21819201645321,
       "step": 500
     },
     {
       "epoch": 0.065625,
+      "grad_norm": 7.646754741668701,
       "learning_rate": 6.230833333333334e-06,
+      "loss": 0.3663,
       "step": 525
     },
     {
       "epoch": 0.06875,
+      "grad_norm": 6.3216094970703125,
       "learning_rate": 6.210000000000001e-06,
+      "loss": 0.3401,
       "step": 550
     },
     {
       "epoch": 0.071875,
+      "grad_norm": 6.551443099975586,
       "learning_rate": 6.1891666666666666e-06,
+      "loss": 0.3617,
       "step": 575
     },
     {
       "epoch": 0.075,
+      "grad_norm": 7.667718887329102,
       "learning_rate": 6.168333333333333e-06,
+      "loss": 0.3339,
       "step": 600
     },
     {
       "epoch": 0.078125,
+      "grad_norm": 6.759644031524658,
       "learning_rate": 6.147500000000001e-06,
+      "loss": 0.3236,
       "step": 625
     },
     {
       "epoch": 0.08125,
+      "grad_norm": 5.439680576324463,
       "learning_rate": 6.126666666666667e-06,
+      "loss": 0.2588,
       "step": 650
     },
     {
       "epoch": 0.084375,
+      "grad_norm": 5.2066450119018555,
       "learning_rate": 6.1058333333333335e-06,
+      "loss": 0.2389,
       "step": 675
     },
     {
       "epoch": 0.0875,
+      "grad_norm": 4.867877960205078,
       "learning_rate": 6.085e-06,
+      "loss": 0.2178,
       "step": 700
     },
     {
       "epoch": 0.090625,
+      "grad_norm": 4.836174011230469,
       "learning_rate": 6.064166666666667e-06,
+      "loss": 0.185,
       "step": 725
     },
     {
       "epoch": 0.09375,
+      "grad_norm": 4.676128387451172,
       "learning_rate": 6.043333333333334e-06,
+      "loss": 0.1968,
       "step": 750
     },
     {
       "epoch": 0.096875,
+      "grad_norm": 3.805962324142456,
       "learning_rate": 6.0225e-06,
+      "loss": 0.1987,
       "step": 775
     },
     {
       "epoch": 0.1,
+      "grad_norm": 4.182210922241211,
       "learning_rate": 6.001666666666667e-06,
+      "loss": 0.1945,
       "step": 800
     },
     {
       "epoch": 0.103125,
+      "grad_norm": 4.078372001647949,
       "learning_rate": 5.980833333333334e-06,
+      "loss": 0.1806,
       "step": 825
     },
     {
       "epoch": 0.10625,
+      "grad_norm": 4.926514148712158,
       "learning_rate": 5.9600000000000005e-06,
+      "loss": 0.1655,
       "step": 850
     },
     {
       "epoch": 0.109375,
+      "grad_norm": 4.110943794250488,
       "learning_rate": 5.939166666666667e-06,
+      "loss": 0.1711,
       "step": 875
     },
     {
       "epoch": 0.1125,
+      "grad_norm": 4.059125900268555,
       "learning_rate": 5.918333333333333e-06,
+      "loss": 0.1721,
       "step": 900
     },
     {
       "epoch": 0.115625,
+      "grad_norm": 4.911381244659424,
       "learning_rate": 5.8975e-06,
+      "loss": 0.1617,
       "step": 925
     },
     {
       "epoch": 0.11875,
+      "grad_norm": 4.673095226287842,
       "learning_rate": 5.8766666666666674e-06,
+      "loss": 0.1543,
       "step": 950
     },
     {
       "epoch": 0.121875,
+      "grad_norm": 4.966635704040527,
       "learning_rate": 5.855833333333333e-06,
+      "loss": 0.1585,
       "step": 975
     },
     {
       "epoch": 0.125,
+      "grad_norm": 4.074397087097168,
       "learning_rate": 5.835e-06,
+      "loss": 0.1462,
       "step": 1000
     },
     {
       "epoch": 0.125,
+      "eval_loss": 0.3524394631385803,
+      "eval_runtime": 423.5166,
+      "eval_samples_per_second": 4.968,
+      "eval_steps_per_second": 0.621,
+      "eval_wer": 19.940170141161072,
       "step": 1000
     },
     {
       "epoch": 0.128125,
+      "grad_norm": 2.7621817588806152,
       "learning_rate": 5.814166666666667e-06,
+      "loss": 0.1543,
       "step": 1025
     },
     {
       "epoch": 0.13125,
+      "grad_norm": 5.36495304107666,
       "learning_rate": 5.793333333333334e-06,
+      "loss": 0.1356,
       "step": 1050
     },
     {
       "epoch": 0.134375,
+      "grad_norm": 4.922938346862793,
       "learning_rate": 5.7725e-06,
+      "loss": 0.1459,
       "step": 1075
     },
     {
       "epoch": 0.1375,
+      "grad_norm": 3.6823904514312744,
       "learning_rate": 5.751666666666667e-06,
+      "loss": 0.148,
       "step": 1100
     },
     {
       "epoch": 0.140625,
+      "grad_norm": 3.583972215652466,
       "learning_rate": 5.730833333333334e-06,
+      "loss": 0.1408,
       "step": 1125
     },
     {
       "epoch": 0.14375,
+      "grad_norm": 4.794659614562988,
       "learning_rate": 5.71e-06,
+      "loss": 0.1363,
       "step": 1150
     },
     {
       "epoch": 0.146875,
+      "grad_norm": 2.823441743850708,
       "learning_rate": 5.689166666666667e-06,
+      "loss": 0.1378,
       "step": 1175
     },
     {
       "epoch": 0.15,
+      "grad_norm": 5.426193714141846,
       "learning_rate": 5.668333333333334e-06,
+      "loss": 0.1454,
       "step": 1200
     },
     {
       "epoch": 0.153125,
+      "grad_norm": 3.506147861480713,
       "learning_rate": 5.6475e-06,
+      "loss": 0.124,
       "step": 1225
     },
     {
       "epoch": 0.15625,
+      "grad_norm": 3.6159119606018066,
       "learning_rate": 5.626666666666667e-06,
+      "loss": 0.1214,
       "step": 1250
     },
     {
       "epoch": 0.159375,
+      "grad_norm": 4.304079055786133,
       "learning_rate": 5.605833333333334e-06,
+      "loss": 0.1266,
       "step": 1275
     },
     {
       "epoch": 0.1625,
+      "grad_norm": 3.570537805557251,
       "learning_rate": 5.585e-06,
+      "loss": 0.1474,
       "step": 1300
     },
     {
       "epoch": 0.165625,
+      "grad_norm": 3.944892644882202,
       "learning_rate": 5.564166666666667e-06,
+      "loss": 0.1327,
       "step": 1325
     },
     {
       "epoch": 0.16875,
+      "grad_norm": 4.3111572265625,
       "learning_rate": 5.543333333333333e-06,
+      "loss": 0.1361,
       "step": 1350
     },
     {
       "epoch": 0.171875,
+      "grad_norm": 4.4654083251953125,
       "learning_rate": 5.522500000000001e-06,
+      "loss": 0.1348,
       "step": 1375
     },
     {
       "epoch": 0.175,
+      "grad_norm": 4.158225059509277,
       "learning_rate": 5.501666666666667e-06,
+      "loss": 0.1321,
       "step": 1400
     },
     {
       "epoch": 0.178125,
+      "grad_norm": 3.5653274059295654,
       "learning_rate": 5.4808333333333335e-06,
+      "loss": 0.1392,
       "step": 1425
     },
     {
       "epoch": 0.18125,
+      "grad_norm": 8.204817771911621,
       "learning_rate": 5.46e-06,
+      "loss": 0.1697,
       "step": 1450
     },
     {
       "epoch": 0.184375,
+      "grad_norm": 6.251273155212402,
       "learning_rate": 5.439166666666667e-06,
+      "loss": 0.2126,
       "step": 1475
     },
     {
       "epoch": 0.1875,
+      "grad_norm": 5.315432071685791,
       "learning_rate": 5.418333333333334e-06,
+      "loss": 0.2495,
       "step": 1500
     },
     {
       "epoch": 0.1875,
+      "eval_loss": 0.30772972106933594,
+      "eval_runtime": 441.4634,
+      "eval_samples_per_second": 4.766,
+      "eval_steps_per_second": 0.596,
+      "eval_wer": 17.523604748995044,
       "step": 1500
     },
     {
       "epoch": 0.190625,
+      "grad_norm": 5.567235469818115,
       "learning_rate": 5.3975e-06,
+      "loss": 0.2418,
       "step": 1525
     },
     {
       "epoch": 0.19375,
+      "grad_norm": 5.031063079833984,
       "learning_rate": 5.376666666666666e-06,
+      "loss": 0.2061,
       "step": 1550
     },
     {
       "epoch": 0.196875,
+      "grad_norm": 6.948727130889893,
       "learning_rate": 5.355833333333334e-06,
+      "loss": 0.2166,
       "step": 1575
     },
     {
       "epoch": 0.2,
+      "grad_norm": 7.243198394775391,
       "learning_rate": 5.335000000000001e-06,
+      "loss": 0.278,
       "step": 1600
     },
     {
       "epoch": 0.203125,
+      "grad_norm": 4.161729335784912,
       "learning_rate": 5.3141666666666665e-06,
+      "loss": 0.1822,
       "step": 1625
     },
     {
       "epoch": 0.20625,
+      "grad_norm": 4.0524516105651855,
       "learning_rate": 5.293333333333333e-06,
+      "loss": 0.1439,
       "step": 1650
     },
     {
       "epoch": 0.209375,
+      "grad_norm": 4.263937473297119,
       "learning_rate": 5.272500000000001e-06,
+      "loss": 0.1272,
       "step": 1675
     },
     {
       "epoch": 0.2125,
+      "grad_norm": 3.639070987701416,
       "learning_rate": 5.2516666666666675e-06,
+      "loss": 0.1252,
       "step": 1700
     },
     {
+      "epoch": 0.215625,
+      "grad_norm": 3.305999517440796,
       "learning_rate": 5.230833333333333e-06,
+      "loss": 0.1183,
       "step": 1725
     },
     {
+      "epoch": 0.21875,
+      "grad_norm": 2.888228178024292,
       "learning_rate": 5.21e-06,
+      "loss": 0.1101,
       "step": 1750
     },
     {
+      "epoch": 0.221875,
+      "grad_norm": 5.215433597564697,
       "learning_rate": 5.189166666666667e-06,
+      "loss": 0.1562,
       "step": 1775
     },
     {
+      "epoch": 0.225,
+      "grad_norm": 4.641208171844482,
       "learning_rate": 5.1683333333333335e-06,
+      "loss": 0.192,
       "step": 1800
     },
     {
+      "epoch": 0.228125,
+      "grad_norm": 6.326239109039307,
       "learning_rate": 5.1475e-06,
+      "loss": 0.2123,
       "step": 1825
     },
     {
+      "epoch": 0.23125,
+      "grad_norm": 7.012181282043457,
       "learning_rate": 5.126666666666667e-06,
+      "loss": 0.2123,
       "step": 1850
     },
     {
+      "epoch": 0.234375,
+      "grad_norm": 5.915773391723633,
       "learning_rate": 5.105833333333334e-06,
+      "loss": 0.1966,
       "step": 1875
     },
     {
+      "epoch": 0.2375,
+      "grad_norm": 5.602591037750244,
       "learning_rate": 5.0850000000000004e-06,
+      "loss": 0.1913,
       "step": 1900
     },
     {
+      "epoch": 0.240625,
+      "grad_norm": 5.096761703491211,
       "learning_rate": 5.064166666666667e-06,
+      "loss": 0.2013,
       "step": 1925
     },
     {
+      "epoch": 0.24375,
+      "grad_norm": 11.189478874206543,
       "learning_rate": 5.043333333333333e-06,
+      "loss": 0.587,
       "step": 1950
     },
     {
+      "epoch": 0.246875,
+      "grad_norm": 6.038069248199463,
       "learning_rate": 5.0225e-06,
+      "loss": 0.3751,
       "step": 1975
     },
     {
+      "epoch": 0.25,
+      "grad_norm": 6.957058429718018,
       "learning_rate": 5.001666666666667e-06,
+      "loss": 0.2617,
       "step": 2000
     },
     {
+      "epoch": 0.25,
+      "eval_loss": 0.2810758948326111,
+      "eval_runtime": 423.474,
+      "eval_samples_per_second": 4.968,
+      "eval_steps_per_second": 0.621,
+      "eval_wer": 16.58408899691502,
       "step": 2000
     },
     {
+      "epoch": 0.253125,
+      "grad_norm": 5.579774856567383,
       "learning_rate": 4.980833333333334e-06,
+      "loss": 0.2469,
       "step": 2025
     },
     {
+      "epoch": 0.25625,
+      "grad_norm": 5.4091620445251465,
       "learning_rate": 4.96e-06,
+      "loss": 0.2291,
       "step": 2050
     },
     {
+      "epoch": 0.259375,
+      "grad_norm": 4.21276330947876,
       "learning_rate": 4.939166666666667e-06,
+      "loss": 0.1921,
       "step": 2075
     },
     {
+      "epoch": 0.2625,
+      "grad_norm": 3.7961809635162354,
       "learning_rate": 4.918333333333334e-06,
+      "loss": 0.1341,
       "step": 2100
     },
     {
+      "epoch": 0.265625,
+      "grad_norm": 3.204401969909668,
       "learning_rate": 4.8975e-06,
+      "loss": 0.107,
       "step": 2125
     },
     {
+      "epoch": 0.26875,
+      "grad_norm": 3.3962206840515137,
       "learning_rate": 4.876666666666667e-06,
+      "loss": 0.1206,
       "step": 2150
     },
     {
+      "epoch": 0.271875,
+      "grad_norm": 3.666205644607544,
       "learning_rate": 4.8558333333333336e-06,
+      "loss": 0.1059,
       "step": 2175
     },
     {
+      "epoch": 0.275,
+      "grad_norm": 3.0882160663604736,
       "learning_rate": 4.835e-06,
+      "loss": 0.097,
       "step": 2200
     },
     {
+      "epoch": 0.278125,
+      "grad_norm": 3.348127603530884,
       "learning_rate": 4.814166666666667e-06,
+      "loss": 0.0965,
       "step": 2225
     },
     {
+      "epoch": 0.28125,
+      "grad_norm": 2.4447720050811768,
       "learning_rate": 4.793333333333334e-06,
+      "loss": 0.1003,
       "step": 2250
     },
     {
+      "epoch": 0.284375,
+      "grad_norm": 4.615771293640137,
       "learning_rate": 4.7725e-06,
+      "loss": 0.1012,
       "step": 2275
     },
     {
+      "epoch": 0.2875,
+      "grad_norm": 3.513615131378174,
       "learning_rate": 4.751666666666666e-06,
+      "loss": 0.107,
       "step": 2300
     },
     {
+      "epoch": 0.290625,
+      "grad_norm": 3.266713857650757,
       "learning_rate": 4.730833333333334e-06,
+      "loss": 0.1073,
       "step": 2325
     },
     {
+      "epoch": 0.29375,
+      "grad_norm": 3.3199737071990967,
       "learning_rate": 4.710000000000001e-06,
+      "loss": 0.1077,
       "step": 2350
     },
     {
+      "epoch": 0.296875,
+      "grad_norm": 2.671046018600464,
       "learning_rate": 4.6891666666666665e-06,
+      "loss": 0.1031,
       "step": 2375
     },
     {
+      "epoch": 0.3,
+      "grad_norm": 3.041368007659912,
       "learning_rate": 4.668333333333333e-06,
+      "loss": 0.1053,
       "step": 2400
     },
     {
+      "epoch": 0.303125,
+      "grad_norm": 3.7318310737609863,
       "learning_rate": 4.647500000000001e-06,
+      "loss": 0.1439,
       "step": 2425
     },
     {
+      "epoch": 0.30625,
+      "grad_norm": 7.745230674743652,
       "learning_rate": 4.626666666666667e-06,
+      "loss": 0.1686,
       "step": 2450
     },
     {
+      "epoch": 0.309375,
+      "grad_norm": 5.621090412139893,
       "learning_rate": 4.605833333333333e-06,
+      "loss": 0.1794,
       "step": 2475
     },
     {
+      "epoch": 0.3125,
+      "grad_norm": 4.522252559661865,
       "learning_rate": 4.585e-06,
+      "loss": 0.1646,
       "step": 2500
     },
     {
+      "epoch": 0.3125,
+      "eval_loss": 0.2725737690925598,
+      "eval_runtime": 422.3202,
+      "eval_samples_per_second": 4.982,
+      "eval_steps_per_second": 0.623,
+      "eval_wer": 13.891745349163317,
       "step": 2500
     },
     {
+      "epoch": 0.315625,
+      "grad_norm": 5.429344177246094,
       "learning_rate": 4.564166666666667e-06,
+      "loss": 0.188,
       "step": 2525
     },
     {
+      "epoch": 0.31875,
+      "grad_norm": 6.522274971008301,
       "learning_rate": 4.543333333333334e-06,
+      "loss": 0.1988,
       "step": 2550
     },
     {
+      "epoch": 0.321875,
+      "grad_norm": 6.914414405822754,
       "learning_rate": 4.5225e-06,
+      "loss": 0.1915,
       "step": 2575
     },
     {
+      "epoch": 0.325,
+      "grad_norm": 5.277989387512207,
       "learning_rate": 4.501666666666667e-06,
+      "loss": 0.2011,
       "step": 2600
     },
     {
+      "epoch": 0.328125,
+      "grad_norm": 5.887080192565918,
+      "learning_rate": 4.481666666666666e-06,
+      "loss": 0.1717,
       "step": 2625
     },
     {
+      "epoch": 0.33125,
+      "grad_norm": 5.534679412841797,
+      "learning_rate": 4.460833333333333e-06,
+      "loss": 0.1696,
       "step": 2650
     },
     {
+      "epoch": 0.334375,
+      "grad_norm": 5.044061183929443,
+      "learning_rate": 4.440000000000001e-06,
+      "loss": 0.1809,
       "step": 2675
     },
     {
+      "epoch": 0.3375,
+      "grad_norm": 6.7157769203186035,
+      "learning_rate": 4.4191666666666666e-06,
+      "loss": 0.1763,
       "step": 2700
     },
     {
+      "epoch": 0.340625,
+      "grad_norm": 5.815196990966797,
+      "learning_rate": 4.398333333333333e-06,
+      "loss": 0.1626,
       "step": 2725
     },
     {
+      "epoch": 0.34375,
+      "grad_norm": 5.573261737823486,
+      "learning_rate": 4.3775e-06,
+      "loss": 0.1599,
       "step": 2750
     },
     {
+      "epoch": 0.346875,
+      "grad_norm": 4.859520435333252,
+      "learning_rate": 4.356666666666667e-06,
+      "loss": 0.1523,
       "step": 2775
     },
     {
+      "epoch": 0.35,
+      "grad_norm": 5.533599853515625,
+      "learning_rate": 4.3358333333333335e-06,
+      "loss": 0.1672,
       "step": 2800
     },
     {
+      "epoch": 0.353125,
+      "grad_norm": 6.5196123123168945,
+      "learning_rate": 4.315e-06,
+      "loss": 0.1652,
       "step": 2825
     },
     {
+      "epoch": 0.35625,
+      "grad_norm": 5.192087173461914,
+      "learning_rate": 4.294166666666667e-06,
+      "loss": 0.1587,
       "step": 2850
     },
     {
+      "epoch": 0.359375,
+      "grad_norm": 4.697035789489746,
+      "learning_rate": 4.273333333333334e-06,
+      "loss": 0.1697,
       "step": 2875
     },
     {
+      "epoch": 0.3625,
+      "grad_norm": 4.622238636016846,
+      "learning_rate": 4.2525e-06,
+      "loss": 0.1431,
       "step": 2900
     },
     {
+      "epoch": 0.365625,
+      "grad_norm": 2.833672046661377,
+      "learning_rate": 4.231666666666667e-06,
+      "loss": 0.1187,
       "step": 2925
     },
     {
+      "epoch": 0.36875,
+      "grad_norm": 2.756924867630005,
+      "learning_rate": 4.210833333333333e-06,
+      "loss": 0.098,
       "step": 2950
     },
     {
+      "epoch": 0.371875,
+      "grad_norm": 4.0311598777771,
+      "learning_rate": 4.1900000000000005e-06,
+      "loss": 0.0956,
       "step": 2975
     },
     {
+      "epoch": 0.375,
+      "grad_norm": 3.7465600967407227,
+      "learning_rate": 4.169166666666667e-06,
+      "loss": 0.0934,
       "step": 3000
     },
     {
+      "epoch": 0.375,
+      "eval_loss": 0.2532876133918762,
+      "eval_runtime": 423.4639,
+      "eval_samples_per_second": 4.969,
+      "eval_steps_per_second": 0.621,
+      "eval_wer": 14.02729737309526,
       "step": 3000
     },
     {
+      "epoch": 0.378125,
+      "grad_norm": 3.0190958976745605,
+      "learning_rate": 4.148333333333333e-06,
+      "loss": 0.1074,
       "step": 3025
     },
     {
+      "epoch": 0.38125,
+      "grad_norm": 4.197691917419434,
+      "learning_rate": 4.1275e-06,
+      "loss": 0.0952,
       "step": 3050
     },
     {
+      "epoch": 0.384375,
+      "grad_norm": 4.304806709289551,
+      "learning_rate": 4.106666666666667e-06,
+      "loss": 0.1005,
       "step": 3075
     },
     {
+      "epoch": 0.3875,
+      "grad_norm": 3.895831823348999,
+      "learning_rate": 4.085833333333334e-06,
+      "loss": 0.1027,
       "step": 3100
     },
     {
+      "epoch": 0.390625,
+      "grad_norm": 2.959507703781128,
+      "learning_rate": 4.065e-06,
+      "loss": 0.0863,
       "step": 3125
     },
     {
+      "epoch": 0.39375,
+      "grad_norm": 2.9817397594451904,
+      "learning_rate": 4.044166666666667e-06,
+      "loss": 0.0773,
       "step": 3150
     },
     {
+      "epoch": 0.396875,
+      "grad_norm": 3.26869535446167,
+      "learning_rate": 4.0233333333333335e-06,
+      "loss": 0.0885,
       "step": 3175
     },
     {
+      "epoch": 0.4,
+      "grad_norm": 4.37345552444458,
+      "learning_rate": 4.0025e-06,
+      "loss": 0.0899,
       "step": 3200
     },
     {
+      "epoch": 0.403125,
+      "grad_norm": 4.3736371994018555,
+      "learning_rate": 3.981666666666667e-06,
+      "loss": 0.11,
       "step": 3225
     },
     {
+      "epoch": 0.40625,
+      "grad_norm": 3.9477250576019287,
+      "learning_rate": 3.960833333333334e-06,
+      "loss": 0.1579,
       "step": 3250
     },
     {
+      "epoch": 0.409375,
+      "grad_norm": 4.6521315574646,
+      "learning_rate": 3.9399999999999995e-06,
+      "loss": 0.1409,
       "step": 3275
     },
     {
+      "epoch": 0.4125,
+      "grad_norm": 3.4862189292907715,
+      "learning_rate": 3.919166666666667e-06,
+      "loss": 0.1368,
       "step": 3300
     },
     {
+      "epoch": 0.415625,
+      "grad_norm": 4.412058353424072,
+      "learning_rate": 3.898333333333334e-06,
+      "loss": 0.136,
       "step": 3325
     },
     {
+      "epoch": 0.41875,
+      "grad_norm": 5.891563892364502,
+      "learning_rate": 3.8775e-06,
+      "loss": 0.1514,
       "step": 3350
     },
     {
+      "epoch": 0.421875,
+      "grad_norm": 4.186588287353516,
+      "learning_rate": 3.8566666666666664e-06,
+      "loss": 0.1574,
       "step": 3375
     },
     {
+      "epoch": 0.425,
+      "grad_norm": 3.0448837280273438,
+      "learning_rate": 3.835833333333334e-06,
+      "loss": 0.1198,
       "step": 3400
     },
     {
+      "epoch": 0.428125,
+      "grad_norm": 3.597623825073242,
+      "learning_rate": 3.815000000000001e-06,
+      "loss": 0.1079,
       "step": 3425
     },
     {
+      "epoch": 0.43125,
+      "grad_norm": 4.119424819946289,
+      "learning_rate": 3.7941666666666666e-06,
+      "loss": 0.1015,
       "step": 3450
     },
     {
+      "epoch": 0.434375,
+      "grad_norm": 4.269451141357422,
+      "learning_rate": 3.7733333333333338e-06,
+      "loss": 0.0931,
       "step": 3475
     },
     {
+      "epoch": 0.4375,
+      "grad_norm": 3.5041770935058594,
+      "learning_rate": 3.7525000000000005e-06,
+      "loss": 0.1016,
       "step": 3500
     },
     {
+      "epoch": 0.4375,
+      "eval_loss": 0.23310637474060059,
+      "eval_runtime": 422.6444,
+      "eval_samples_per_second": 4.978,
+      "eval_steps_per_second": 0.622,
+      "eval_wer": 12.162288492100588,
       "step": 3500
     },
     {
+      "epoch": 0.440625,
+      "grad_norm": 3.1294009685516357,
+      "learning_rate": 3.731666666666667e-06,
+      "loss": 0.0875,
       "step": 3525
     },
     {
+      "epoch": 0.44375,
+      "grad_norm": 5.66436767578125,
+      "learning_rate": 3.7108333333333335e-06,
+      "loss": 0.0852,
       "step": 3550
     },
     {
+      "epoch": 0.446875,
+      "grad_norm": 3.854020833969116,
+      "learning_rate": 3.6900000000000002e-06,
+      "loss": 0.1009,
       "step": 3575
     },
     {
+      "epoch": 0.45,
+      "grad_norm": 2.3957531452178955,
+      "learning_rate": 3.6691666666666665e-06,
+      "loss": 0.0884,
       "step": 3600
     },
     {
+      "epoch": 0.453125,
+      "grad_norm": 2.6974878311157227,
+      "learning_rate": 3.6483333333333333e-06,
+      "loss": 0.0878,
       "step": 3625
     },
     {
+      "epoch": 0.45625,
+      "grad_norm": 2.4071967601776123,
+      "learning_rate": 3.6275000000000004e-06,
+      "loss": 0.0822,
       "step": 3650
     },
     {
+      "epoch": 0.459375,
+      "grad_norm": 3.604412078857422,
+      "learning_rate": 3.6066666666666667e-06,
+      "loss": 0.0885,
       "step": 3675
     },
     {
+      "epoch": 0.4625,
+      "grad_norm": 3.1856794357299805,
+      "learning_rate": 3.5858333333333334e-06,
+      "loss": 0.0795,
       "step": 3700
     },
     {
+      "epoch": 0.465625,
+      "grad_norm": 2.82853102684021,
+      "learning_rate": 3.565e-06,
+      "loss": 0.0839,
       "step": 3725
     },
     {
+      "epoch": 0.46875,
+      "grad_norm": 3.0090298652648926,
+      "learning_rate": 3.5441666666666673e-06,
+      "loss": 0.0861,
       "step": 3750
     },
     {
+      "epoch": 0.471875,
+      "grad_norm": 4.2935028076171875,
+      "learning_rate": 3.523333333333333e-06,
+      "loss": 0.0902,
       "step": 3775
     },
     {
+      "epoch": 0.475,
+      "grad_norm": 2.894404172897339,
+      "learning_rate": 3.5025000000000003e-06,
+      "loss": 0.0897,
       "step": 3800
     },
     {
+      "epoch": 0.478125,
+      "grad_norm": 2.974064826965332,
+      "learning_rate": 3.481666666666667e-06,
+      "loss": 0.0846,
       "step": 3825
     },
     {
+      "epoch": 0.48125,
+      "grad_norm": 1.8990185260772705,
+      "learning_rate": 3.4608333333333334e-06,
+      "loss": 0.0782,
       "step": 3850
     },
     {
+      "epoch": 0.484375,
+      "grad_norm": 3.043663740158081,
+      "learning_rate": 3.44e-06,
+      "loss": 0.0923,
       "step": 3875
     },
     {
+      "epoch": 0.4875,
+      "grad_norm": 4.826819896697998,
+      "learning_rate": 3.4191666666666672e-06,
+      "loss": 0.1242,
       "step": 3900
     },
     {
+      "epoch": 0.490625,
+      "grad_norm": 4.978621006011963,
+      "learning_rate": 3.398333333333333e-06,
+      "loss": 0.1445,
       "step": 3925
     },
     {
+      "epoch": 0.49375,
+      "grad_norm": 4.0232977867126465,
+      "learning_rate": 3.3775000000000003e-06,
+      "loss": 0.1514,
       "step": 3950
     },
     {
+      "epoch": 0.496875,
+      "grad_norm": 5.176286220550537,
+      "learning_rate": 3.356666666666667e-06,
+      "loss": 0.1532,
       "step": 3975
     },
     {
+      "epoch": 0.5,
+      "grad_norm": 4.363390922546387,
+      "learning_rate": 3.3358333333333333e-06,
+      "loss": 0.1454,
       "step": 4000
     },
     {
+      "epoch": 0.5,
+      "eval_loss": 0.22985798120498657,
+      "eval_runtime": 420.4785,
+      "eval_samples_per_second": 5.004,
+      "eval_steps_per_second": 0.625,
+      "eval_wer": 11.55464148826774,
       "step": 4000
     },
     {
+      "epoch": 0.503125,
+      "grad_norm": 4.654495716094971,
+      "learning_rate": 3.315e-06,
+      "loss": 0.1331,
       "step": 4025
     },
     {
+      "epoch": 0.50625,
+      "grad_norm": 3.879624605178833,
+      "learning_rate": 3.2941666666666667e-06,
+      "loss": 0.1029,
       "step": 4050
     },
     {
+      "epoch": 0.509375,
+      "grad_norm": 3.2961080074310303,
+      "learning_rate": 3.273333333333334e-06,
+      "loss": 0.0842,
       "step": 4075
     },
     {
+      "epoch": 0.5125,
+      "grad_norm": 2.5998172760009766,
+      "learning_rate": 3.2525e-06,
+      "loss": 0.0846,
       "step": 4100
     },
     {
+      "epoch": 0.515625,
+      "grad_norm": 2.965538501739502,
+      "learning_rate": 3.231666666666667e-06,
+      "loss": 0.0858,
       "step": 4125
     },
     {
+      "epoch": 0.51875,
+      "grad_norm": 2.8639001846313477,
+      "learning_rate": 3.2108333333333336e-06,
+      "loss": 0.0836,
       "step": 4150
     },
     {
+      "epoch": 0.521875,
+      "grad_norm": 3.651369094848633,
+      "learning_rate": 3.19e-06,
+      "loss": 0.0852,
       "step": 4175
     },
     {
+      "epoch": 0.525,
+      "grad_norm": 4.119676113128662,
+      "learning_rate": 3.1691666666666667e-06,
+      "loss": 0.0886,
       "step": 4200
     },
     {
+      "epoch": 0.528125,
+      "grad_norm": 2.3661563396453857,
+      "learning_rate": 3.148333333333334e-06,
+      "loss": 0.0732,
       "step": 4225
     },
     {
+      "epoch": 0.53125,
+      "grad_norm": 4.026716232299805,
+      "learning_rate": 3.1274999999999997e-06,
+      "loss": 0.0739,
       "step": 4250
     },
     {
+      "epoch": 0.534375,
+      "grad_norm": 2.2528867721557617,
+      "learning_rate": 3.106666666666667e-06,
+      "loss": 0.0682,
       "step": 4275
     },
     {
+      "epoch": 0.5375,
+      "grad_norm": 3.5776236057281494,
+      "learning_rate": 3.0858333333333336e-06,
+      "loss": 0.0729,
       "step": 4300
     },
     {
+      "epoch": 0.540625,
+      "grad_norm": 2.0452890396118164,
+      "learning_rate": 3.0650000000000003e-06,
+      "loss": 0.0676,
       "step": 4325
     },
     {
+      "epoch": 0.54375,
+      "grad_norm": 3.9987590312957764,
+      "learning_rate": 3.0441666666666666e-06,
+      "loss": 0.081,
       "step": 4350
     },
     {
+      "epoch": 0.546875,
+      "grad_norm": 4.795535087585449,
+      "learning_rate": 3.0233333333333338e-06,
+      "loss": 0.126,
       "step": 4375
     },
     {
+      "epoch": 0.55,
+      "grad_norm": 4.841895580291748,
+      "learning_rate": 3.0025e-06,
+      "loss": 0.1363,
       "step": 4400
     },
     {
+      "epoch": 0.553125,
+      "grad_norm": 6.109241962432861,
+      "learning_rate": 2.9816666666666668e-06,
+      "loss": 0.1325,
       "step": 4425
     },
     {
+      "epoch": 0.55625,
+      "grad_norm": 4.623290538787842,
+      "learning_rate": 2.9608333333333335e-06,
+      "loss": 0.123,
       "step": 4450
     },
     {
+      "epoch": 0.559375,
+      "grad_norm": 3.5602827072143555,
+      "learning_rate": 2.9400000000000002e-06,
+      "loss": 0.1361,
       "step": 4475
     },
     {
+      "epoch": 0.5625,
+      "grad_norm": 4.564285755157471,
+      "learning_rate": 2.919166666666667e-06,
+      "loss": 0.1502,
       "step": 4500
     },
     {
+      "epoch": 0.5625,
+      "eval_loss": 0.23331405222415924,
+      "eval_runtime": 420.0095,
+      "eval_samples_per_second": 5.009,
+      "eval_steps_per_second": 0.626,
+      "eval_wer": 12.400673085911938,
       "step": 4500
     },
     {
+      "epoch": 0.565625,
+      "grad_norm": 3.0876269340515137,
+      "learning_rate": 2.8983333333333333e-06,
+      "loss": 0.1061,
       "step": 4525
     },
     {
+      "epoch": 0.56875,
+      "grad_norm": 2.9698376655578613,
+      "learning_rate": 2.8775e-06,
+      "loss": 0.0809,
       "step": 4550
     },
     {
+      "epoch": 0.571875,
+      "grad_norm": 2.491389274597168,
+      "learning_rate": 2.8566666666666667e-06,
+      "loss": 0.0769,
       "step": 4575
     },
     {
+      "epoch": 0.575,
+      "grad_norm": 3.7412362098693848,
+      "learning_rate": 2.8358333333333334e-06,
+      "loss": 0.0632,
       "step": 4600
     },
     {
+      "epoch": 0.578125,
+      "grad_norm": 3.1096959114074707,
+      "learning_rate": 2.815e-06,
+      "loss": 0.0731,
       "step": 4625
     },
     {
+      "epoch": 0.58125,
+      "grad_norm": 3.5074427127838135,
+      "learning_rate": 2.794166666666667e-06,
+      "loss": 0.0724,
       "step": 4650
     },
     {
+      "epoch": 0.584375,
+      "grad_norm": 2.3038923740386963,
+      "learning_rate": 2.773333333333333e-06,
+      "loss": 0.0663,
       "step": 4675
     },
     {
+      "epoch": 0.5875,
+      "grad_norm": 2.202913522720337,
+      "learning_rate": 2.7525000000000003e-06,
+      "loss": 0.0624,
       "step": 4700
     },
     {
+      "epoch": 0.590625,
+      "grad_norm": 3.385122060775757,
+      "learning_rate": 2.7316666666666666e-06,
+      "loss": 0.0764,
       "step": 4725
     },
     {
+      "epoch": 0.59375,
+      "grad_norm": 2.382167100906372,
+      "learning_rate": 2.7108333333333338e-06,
+      "loss": 0.0735,
       "step": 4750
     },
     {
+      "epoch": 0.596875,
+      "grad_norm": 2.670067071914673,
+      "learning_rate": 2.69e-06,
+      "loss": 0.0769,
       "step": 4775
     },
     {
+      "epoch": 0.6,
+      "grad_norm": 2.72542667388916,
+      "learning_rate": 2.669166666666667e-06,
+      "loss": 0.0699,
       "step": 4800
     },
     {
+      "epoch": 0.603125,
+      "grad_norm": 3.4631733894348145,
+      "learning_rate": 2.6483333333333335e-06,
+      "loss": 0.0748,
       "step": 4825
     },
     {
+      "epoch": 0.60625,
+      "grad_norm": 2.1158626079559326,
+      "learning_rate": 2.6275000000000003e-06,
+      "loss": 0.0775,
       "step": 4850
     },
     {
+      "epoch": 0.609375,
+      "grad_norm": 3.326186418533325,
+      "learning_rate": 2.6066666666666666e-06,
+      "loss": 0.0781,
       "step": 4875
     },
     {
+      "epoch": 0.6125,
+      "grad_norm": 3.0408577919006348,
+      "learning_rate": 2.5858333333333337e-06,
+      "loss": 0.0712,
       "step": 4900
     },
     {
+      "epoch": 0.615625,
+      "grad_norm": 2.389796018600464,
+      "learning_rate": 2.565e-06,
+      "loss": 0.0728,
       "step": 4925
     },
     {
+      "epoch": 0.61875,
+      "grad_norm": 2.9459266662597656,
+      "learning_rate": 2.5441666666666667e-06,
+      "loss": 0.0818,
       "step": 4950
     },
     {
+      "epoch": 0.621875,
+      "grad_norm": 2.216707706451416,
+      "learning_rate": 2.5233333333333335e-06,
+      "loss": 0.0887,
       "step": 4975
     },
     {
+      "epoch": 0.625,
+      "grad_norm": 4.172521114349365,
+      "learning_rate": 2.5025e-06,
+      "loss": 0.0916,
       "step": 5000
     },
     {
+      "epoch": 0.625,
+      "eval_loss": 0.22707216441631317,
+      "eval_runtime": 421.6318,
+      "eval_samples_per_second": 4.99,
+      "eval_steps_per_second": 0.624,
+      "eval_wer": 10.965691315322053,
       "step": 5000
     },
     {
+      "epoch": 0.628125,
+      "grad_norm": 3.083894968032837,
+      "learning_rate": 2.481666666666667e-06,
+      "loss": 0.1084,
       "step": 5025
     },
     {
+      "epoch": 0.63125,
+      "grad_norm": 3.9233384132385254,
+      "learning_rate": 2.460833333333333e-06,
+      "loss": 0.1161,
       "step": 5050
     },
     {
+      "epoch": 0.634375,
+      "grad_norm": 4.261771202087402,
+      "learning_rate": 2.4400000000000004e-06,
+      "loss": 0.1032,
       "step": 5075
     },
     {
+      "epoch": 0.6375,
+      "grad_norm": 4.277398109436035,
+      "learning_rate": 2.4191666666666667e-06,
+      "loss": 0.1063,
       "step": 5100
     },
     {
+      "epoch": 0.640625,
+      "grad_norm": 4.196617126464844,
+      "learning_rate": 2.3983333333333334e-06,
+      "loss": 0.138,
       "step": 5125
     },
     {
+      "epoch": 0.64375,
+      "grad_norm": 4.253470420837402,
+      "learning_rate": 2.3775e-06,
+      "loss": 0.1308,
       "step": 5150
     },
     {
+      "epoch": 0.646875,
+      "grad_norm": 3.221344470977783,
+      "learning_rate": 2.356666666666667e-06,
+      "loss": 0.1118,
       "step": 5175
     },
     {
+      "epoch": 0.65,
+      "grad_norm": 3.630119800567627,
+      "learning_rate": 2.335833333333333e-06,
+      "loss": 0.0882,
       "step": 5200
     },
     {
+      "epoch": 0.653125,
+      "grad_norm": 3.146988868713379,
+      "learning_rate": 2.3150000000000003e-06,
+      "loss": 0.08,
       "step": 5225
     },
     {
+      "epoch": 0.65625,
+      "grad_norm": 3.6203882694244385,
+      "learning_rate": 2.2941666666666666e-06,
+      "loss": 0.0769,
       "step": 5250
     },
     {
+      "epoch": 0.659375,
+      "grad_norm": 2.9987850189208984,
+      "learning_rate": 2.2733333333333337e-06,
+      "loss": 0.0775,
       "step": 5275
     },
     {
+      "epoch": 0.6625,
+      "grad_norm": 2.3863637447357178,
+      "learning_rate": 2.2525e-06,
+      "loss": 0.0694,
       "step": 5300
     },
     {
+      "epoch": 0.665625,
+      "grad_norm": 2.7977538108825684,
+      "learning_rate": 2.2316666666666668e-06,
+      "loss": 0.0677,
       "step": 5325
     },
     {
+      "epoch": 0.66875,
+      "grad_norm": 3.0015907287597656,
+      "learning_rate": 2.2108333333333335e-06,
+      "loss": 0.0737,
       "step": 5350
     },
     {
+      "epoch": 0.671875,
+      "grad_norm": 2.2097315788269043,
+      "learning_rate": 2.19e-06,
+      "loss": 0.0671,
       "step": 5375
     },
     {
+      "epoch": 0.675,
+      "grad_norm": 1.3963428735733032,
+      "learning_rate": 2.169166666666667e-06,
+      "loss": 0.0665,
       "step": 5400
     },
     {
+      "epoch": 0.678125,
+      "grad_norm": 4.170374393463135,
+      "learning_rate": 2.1483333333333337e-06,
+      "loss": 0.0807,
       "step": 5425
     },
     {
+      "epoch": 0.68125,
+      "grad_norm": 2.4668662548065186,
+      "learning_rate": 2.1275e-06,
+      "loss": 0.0887,
       "step": 5450
     },
     {
+      "epoch": 0.684375,
+      "grad_norm": 3.388085126876831,
+      "learning_rate": 2.1066666666666667e-06,
+      "loss": 0.0773,
       "step": 5475
     },
     {
+      "epoch": 0.6875,
+      "grad_norm": 3.437046527862549,
+      "learning_rate": 2.0858333333333334e-06,
+      "loss": 0.0914,
       "step": 5500
     },
     {
+      "epoch": 0.6875,
+      "eval_loss": 0.23427686095237732,
+      "eval_runtime": 419.3101,
+      "eval_samples_per_second": 5.018,
+      "eval_steps_per_second": 0.627,
+      "eval_wer": 10.502944750864728,
       "step": 5500
     },
     {
+      "epoch": 0.690625,
+      "grad_norm": 4.649775981903076,
+      "learning_rate": 2.065e-06,
+      "loss": 0.1537,
       "step": 5525
     },
     {
+      "epoch": 0.69375,
+      "grad_norm": 3.8799123764038086,
+      "learning_rate": 2.044166666666667e-06,
+      "loss": 0.1565,
       "step": 5550
     },
     {
+      "epoch": 0.696875,
+      "grad_norm": 4.4588518142700195,
+      "learning_rate": 2.023333333333333e-06,
+      "loss": 0.1427,
       "step": 5575
     },
     {
+      "epoch": 0.7,
+      "grad_norm": 3.449648141860962,
+      "learning_rate": 2.0025000000000003e-06,
+      "loss": 0.1312,
       "step": 5600
     },
     {
+      "epoch": 0.703125,
+      "grad_norm": 4.717497825622559,
+      "learning_rate": 1.9816666666666666e-06,
+      "loss": 0.1093,
       "step": 5625
     },
     {
+      "epoch": 0.70625,
+      "grad_norm": 4.465198040008545,
+      "learning_rate": 1.9608333333333333e-06,
+      "loss": 0.1237,
       "step": 5650
     },
     {
+      "epoch": 0.709375,
+      "grad_norm": 4.121485233306885,
+      "learning_rate": 1.94e-06,
+      "loss": 0.1196,
       "step": 5675
     },
     {
+      "epoch": 0.7125,
+      "grad_norm": 3.461294651031494,
+      "learning_rate": 1.9191666666666668e-06,
+      "loss": 0.1204,
       "step": 5700
     },
     {
+      "epoch": 0.715625,
+      "grad_norm": 5.659304618835449,
+      "learning_rate": 1.8983333333333335e-06,
+      "loss": 0.1229,
       "step": 5725
     },
     {
+      "epoch": 0.71875,
+      "grad_norm": 4.469748497009277,
+      "learning_rate": 1.8775e-06,
+      "loss": 0.1253,
       "step": 5750
     },
     {
+      "epoch": 0.721875,
+      "grad_norm": 4.66398811340332,
+      "learning_rate": 1.8566666666666665e-06,
+      "loss": 0.1146,
       "step": 5775
     },
     {
+      "epoch": 0.725,
+      "grad_norm": 4.326991558074951,
+      "learning_rate": 1.8358333333333335e-06,
+      "loss": 0.1213,
       "step": 5800
     },
     {
+      "epoch": 0.728125,
+      "grad_norm": 3.054807662963867,
+      "learning_rate": 1.815e-06,
+      "loss": 0.0985,
       "step": 5825
     },
     {
+      "epoch": 0.73125,
+      "grad_norm": 3.3157272338867188,
+      "learning_rate": 1.794166666666667e-06,
+      "loss": 0.0958,
       "step": 5850
     },
     {
+      "epoch": 0.734375,
+      "grad_norm": 2.41603422164917,
+      "learning_rate": 1.7733333333333334e-06,
+      "loss": 0.069,
       "step": 5875
     },
     {
+      "epoch": 0.7375,
+      "grad_norm": 3.2789347171783447,
+      "learning_rate": 1.7525e-06,
+      "loss": 0.0713,
       "step": 5900
     },
     {
+      "epoch": 0.740625,
+      "grad_norm": 3.526294231414795,
+      "learning_rate": 1.7316666666666669e-06,
+      "loss": 0.0713,
       "step": 5925
     },
     {
+      "epoch": 0.74375,
+      "grad_norm": 2.1724507808685303,
+      "learning_rate": 1.7108333333333334e-06,
+      "loss": 0.0793,
       "step": 5950
     },
     {
+      "epoch": 0.746875,
+      "grad_norm": 3.1178219318389893,
+      "learning_rate": 1.69e-06,
+      "loss": 0.1,
       "step": 5975
     },
     {
+      "epoch": 0.75,
+      "grad_norm": 4.3492889404296875,
+      "learning_rate": 1.6691666666666668e-06,
+      "loss": 0.1093,
       "step": 6000
     },
     {
+      "epoch": 0.75,
+      "eval_loss": 0.21914222836494446,
+      "eval_runtime": 421.5164,
+      "eval_samples_per_second": 4.992,
+      "eval_steps_per_second": 0.624,
+      "eval_wer": 9.98410769374591,
       "step": 6000
     },
     {
+      "epoch": 0.753125,
+      "grad_norm": 4.253927707672119,
       "learning_rate": 1.6483333333333334e-06,
+      "loss": 0.1182,
       "step": 6025
     },
     {
+      "epoch": 0.75625,
+      "grad_norm": 5.901562213897705,
       "learning_rate": 1.6275000000000003e-06,
+      "loss": 0.1278,
       "step": 6050
     },
     {
+      "epoch": 0.759375,
+      "grad_norm": 5.934751510620117,
       "learning_rate": 1.6066666666666668e-06,
+      "loss": 0.1411,
       "step": 6075
     },
     {
+      "epoch": 0.7625,
+      "grad_norm": 5.152722358703613,
       "learning_rate": 1.5858333333333333e-06,
+      "loss": 0.1496,
       "step": 6100
     },
     {
+      "epoch": 0.765625,
+      "grad_norm": 4.460409641265869,
       "learning_rate": 1.565e-06,
+      "loss": 0.1132,
       "step": 6125
     },
     {
+      "epoch": 0.76875,
+      "grad_norm": 2.9203169345855713,
       "learning_rate": 1.5441666666666668e-06,
+      "loss": 0.0827,
       "step": 6150
     },
     {
+      "epoch": 0.771875,
+      "grad_norm": 2.982921600341797,
       "learning_rate": 1.5233333333333333e-06,
+      "loss": 0.0708,
       "step": 6175
     },
     {
+      "epoch": 0.775,
+      "grad_norm": 3.2219862937927246,
       "learning_rate": 1.5025e-06,
+      "loss": 0.0705,
       "step": 6200
     },
     {
+      "epoch": 0.778125,
+      "grad_norm": 2.3243980407714844,
       "learning_rate": 1.4816666666666667e-06,
+      "loss": 0.0666,
       "step": 6225
     },
     {
+      "epoch": 0.78125,
+      "grad_norm": 2.5418896675109863,
       "learning_rate": 1.4608333333333333e-06,
+      "loss": 0.0692,
       "step": 6250
     },
     {
+      "epoch": 0.784375,
+      "grad_norm": 3.7306313514709473,
       "learning_rate": 1.44e-06,
+      "loss": 0.0772,
       "step": 6275
     },
     {
+      "epoch": 0.7875,
+      "grad_norm": 3.970508098602295,
       "learning_rate": 1.4191666666666667e-06,
+      "loss": 0.0843,
       "step": 6300
     },
     {
+      "epoch": 0.790625,
+      "grad_norm": 3.8446128368377686,
       "learning_rate": 1.3983333333333334e-06,
+      "loss": 0.1233,
       "step": 6325
     },
     {
+      "epoch": 0.79375,
+      "grad_norm": 4.295629501342773,
       "learning_rate": 1.3775000000000002e-06,
+      "loss": 0.139,
       "step": 6350
     },
     {
+      "epoch": 0.796875,
+      "grad_norm": 4.724053382873535,
       "learning_rate": 1.3566666666666667e-06,
+      "loss": 0.1107,
       "step": 6375
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 5.828359127044678,
       "learning_rate": 1.3358333333333334e-06,
+      "loss": 0.1304,
       "step": 6400
     },
     {
+      "epoch": 0.803125,
+      "grad_norm": 4.042730331420898,
       "learning_rate": 1.3150000000000001e-06,
+      "loss": 0.1277,
       "step": 6425
     },
     {
+      "epoch": 0.80625,
+      "grad_norm": 3.5273425579071045,
       "learning_rate": 1.2941666666666668e-06,
+      "loss": 0.126,
       "step": 6450
     },
     {
+      "epoch": 0.809375,
+      "grad_norm": 2.901884078979492,
       "learning_rate": 1.2733333333333334e-06,
+      "loss": 0.0929,
       "step": 6475
     },
     {
+      "epoch": 0.8125,
+      "grad_norm": 4.719346523284912,
       "learning_rate": 1.2525e-06,
+      "loss": 0.0948,
       "step": 6500
     },
     {
+      "epoch": 0.8125,
+      "eval_loss": 0.2214665412902832,
+      "eval_runtime": 423.0169,
+      "eval_samples_per_second": 4.974,
+      "eval_steps_per_second": 0.622,
+      "eval_wer": 10.535664204917266,
       "step": 6500
     },
     {
+      "epoch": 0.815625,
+      "grad_norm": 4.184325218200684,
       "learning_rate": 1.2316666666666668e-06,
+      "loss": 0.1045,
       "step": 6525
     },
     {
+      "epoch": 0.81875,
+      "grad_norm": 4.737115383148193,
       "learning_rate": 1.2108333333333335e-06,
+      "loss": 0.112,
       "step": 6550
     },
     {
+      "epoch": 0.821875,
+      "grad_norm": 7.072691440582275,
       "learning_rate": 1.19e-06,
+      "loss": 0.1326,
       "step": 6575
     },
     {
+      "epoch": 0.825,
+      "grad_norm": 2.486250162124634,
       "learning_rate": 1.1691666666666668e-06,
+      "loss": 0.1154,
       "step": 6600
     },
     {
+      "epoch": 0.828125,
+      "grad_norm": 4.1657328605651855,
+      "learning_rate": 1.1491666666666667e-06,
+      "loss": 0.1102,
       "step": 6625
     },
     {
+      "epoch": 0.83125,
+      "grad_norm": 3.565835475921631,
       "learning_rate": 1.1283333333333333e-06,
+      "loss": 0.0793,
       "step": 6650
     },
     {
+      "epoch": 0.834375,
+      "grad_norm": 2.6341757774353027,
       "learning_rate": 1.1075e-06,
+      "loss": 0.0698,
       "step": 6675
     },
     {
+      "epoch": 0.8375,
+      "grad_norm": 3.431013584136963,
       "learning_rate": 1.0866666666666667e-06,
+      "loss": 0.0757,
       "step": 6700
     },
     {
+      "epoch": 0.840625,
+      "grad_norm": 2.743353843688965,
       "learning_rate": 1.0658333333333334e-06,
+      "loss": 0.0606,
       "step": 6725
     },
     {
+      "epoch": 0.84375,
+      "grad_norm": 2.702622890472412,
       "learning_rate": 1.045e-06,
+      "loss": 0.0598,
       "step": 6750
     },
     {
+      "epoch": 0.846875,
+      "grad_norm": 2.669710636138916,
       "learning_rate": 1.0241666666666667e-06,
+      "loss": 0.0641,
       "step": 6775
     },
     {
+      "epoch": 0.85,
+      "grad_norm": 3.356062173843384,
       "learning_rate": 1.0033333333333334e-06,
+      "loss": 0.0717,
       "step": 6800
     },
     {
+      "epoch": 0.853125,
+      "grad_norm": 3.792300224304199,
       "learning_rate": 9.825000000000001e-07,
+      "loss": 0.0755,
       "step": 6825
     },
     {
+      "epoch": 0.85625,
+      "grad_norm": 2.8524975776672363,
       "learning_rate": 9.616666666666668e-07,
+      "loss": 0.074,
       "step": 6850
     },
     {
+      "epoch": 0.859375,
+      "grad_norm": 2.653484344482422,
       "learning_rate": 9.408333333333334e-07,
+      "loss": 0.0732,
       "step": 6875
     },
     {
+      "epoch": 0.8625,
+      "grad_norm": 2.2992992401123047,
       "learning_rate": 9.2e-07,
+      "loss": 0.0653,
       "step": 6900
     },
     {
+      "epoch": 0.865625,
+      "grad_norm": 2.3256728649139404,
       "learning_rate": 8.991666666666667e-07,
+      "loss": 0.0612,
       "step": 6925
     },
     {
+      "epoch": 0.86875,
+      "grad_norm": 3.0332698822021484,
       "learning_rate": 8.783333333333334e-07,
+      "loss": 0.0533,
       "step": 6950
     },
     {
+      "epoch": 0.871875,
+      "grad_norm": 4.096222877502441,
       "learning_rate": 8.574999999999999e-07,
+      "loss": 0.0704,
       "step": 6975
     },
     {
+      "epoch": 0.875,
+      "grad_norm": 3.0144271850585938,
       "learning_rate": 8.366666666666667e-07,
+      "loss": 0.0744,
       "step": 7000
     },
     {
+      "epoch": 0.875,
+      "eval_loss": 0.21083347499370575,
+      "eval_runtime": 429.259,
+      "eval_samples_per_second": 4.901,
+      "eval_steps_per_second": 0.613,
+      "eval_wer": 11.23679536318594,
       "step": 7000
     },
     {
+      "epoch": 0.878125,
+      "grad_norm": 2.6104869842529297,
       "learning_rate": 8.158333333333334e-07,
+      "loss": 0.0669,
       "step": 7025
     },
     {
+      "epoch": 0.88125,
+      "grad_norm": 2.6073827743530273,
       "learning_rate": 7.950000000000001e-07,
+      "loss": 0.0651,
       "step": 7050
     },
     {
+      "epoch": 0.884375,
+      "grad_norm": 2.584033966064453,
       "learning_rate": 7.741666666666667e-07,
+      "loss": 0.0622,
       "step": 7075
     },
     {
+      "epoch": 0.8875,
+      "grad_norm": 2.425426959991455,
       "learning_rate": 7.533333333333334e-07,
+      "loss": 0.0735,
       "step": 7100
     },
     {
+      "epoch": 0.890625,
+      "grad_norm": 3.056304931640625,
       "learning_rate": 7.325e-07,
+      "loss": 0.0982,
       "step": 7125
     },
     {
+      "epoch": 0.89375,
+      "grad_norm": 3.8735291957855225,
       "learning_rate": 7.116666666666667e-07,
+      "loss": 0.1166,
       "step": 7150
     },
     {
+      "epoch": 0.896875,
+      "grad_norm": 4.358260631561279,
       "learning_rate": 6.908333333333333e-07,
+      "loss": 0.1212,
       "step": 7175
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 3.1888036727905273,
       "learning_rate": 6.7e-07,
+      "loss": 0.1209,
       "step": 7200
     },
     {
+      "epoch": 0.903125,
+      "grad_norm": 4.592689514160156,
       "learning_rate": 6.491666666666667e-07,
+      "loss": 0.1265,
       "step": 7225
     },
     {
+      "epoch": 0.90625,
+      "grad_norm": 4.064499378204346,
       "learning_rate": 6.283333333333334e-07,
+      "loss": 0.1031,
       "step": 7250
     },
     {
+      "epoch": 0.909375,
+      "grad_norm": 4.060811996459961,
       "learning_rate": 6.075e-07,
+      "loss": 0.0694,
       "step": 7275
     },
     {
+      "epoch": 0.9125,
+      "grad_norm": 2.3940441608428955,
       "learning_rate": 5.866666666666667e-07,
+      "loss": 0.0717,
       "step": 7300
     },
     {
+      "epoch": 0.915625,
+      "grad_norm": 3.34171199798584,
       "learning_rate": 5.658333333333334e-07,
+      "loss": 0.0693,
       "step": 7325
     },
     {
+      "epoch": 0.91875,
+      "grad_norm": 3.1847307682037354,
       "learning_rate": 5.450000000000001e-07,
+      "loss": 0.0549,
       "step": 7350
     },
     {
+      "epoch": 0.921875,
+      "grad_norm": 2.4034082889556885,
       "learning_rate": 5.241666666666667e-07,
+      "loss": 0.0679,
       "step": 7375
     },
     {
+      "epoch": 0.925,
+      "grad_norm": 2.2434728145599365,
       "learning_rate": 5.033333333333333e-07,
+      "loss": 0.0677,
       "step": 7400
     },
     {
+      "epoch": 0.928125,
+      "grad_norm": 2.655233144760132,
       "learning_rate": 4.825e-07,
+      "loss": 0.0844,
       "step": 7425
     },
     {
+      "epoch": 0.93125,
+      "grad_norm": 3.4723622798919678,
       "learning_rate": 4.6166666666666666e-07,
+      "loss": 0.0766,
       "step": 7450
     },
     {
+      "epoch": 0.934375,
+      "grad_norm": 3.544377326965332,
       "learning_rate": 4.408333333333334e-07,
+      "loss": 0.0761,
       "step": 7475
     },
     {
+      "epoch": 0.9375,
+      "grad_norm": 4.966926097869873,
       "learning_rate": 4.2e-07,
+      "loss": 0.1269,
       "step": 7500
     },
     {
+      "epoch": 0.9375,
+      "eval_loss": 0.21579307317733765,
+      "eval_runtime": 453.0321,
+      "eval_samples_per_second": 4.644,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 10.002804524633074,
       "step": 7500
     },
     {
+      "epoch": 0.940625,
+      "grad_norm": 4.923036098480225,
       "learning_rate": 3.991666666666667e-07,
+      "loss": 0.1428,
       "step": 7525
     },
     {
+      "epoch": 0.94375,
+      "grad_norm": 3.906621217727661,
       "learning_rate": 3.7833333333333335e-07,
+      "loss": 0.1148,
       "step": 7550
     },
     {
+      "epoch": 0.946875,
+      "grad_norm": 3.8426077365875244,
       "learning_rate": 3.575e-07,
+      "loss": 0.1139,
       "step": 7575
     },
     {
+      "epoch": 0.95,
+      "grad_norm": 4.980268955230713,
       "learning_rate": 3.366666666666667e-07,
+      "loss": 0.1389,
       "step": 7600
     },
     {
+      "epoch": 0.953125,
+      "grad_norm": 5.212338447570801,
       "learning_rate": 3.1583333333333336e-07,
+      "loss": 0.1296,
       "step": 7625
     },
     {
+      "epoch": 0.95625,
+      "grad_norm": 4.394927024841309,
       "learning_rate": 2.95e-07,
+      "loss": 0.1125,
       "step": 7650
     },
     {
+      "epoch": 0.959375,
+      "grad_norm": 5.008238792419434,
       "learning_rate": 2.7416666666666665e-07,
+      "loss": 0.1323,
       "step": 7675
     },
     {
+      "epoch": 0.9625,
+      "grad_norm": 6.502245903015137,
       "learning_rate": 2.533333333333333e-07,
+      "loss": 0.1401,
       "step": 7700
     },
     {
+      "epoch": 0.965625,
+      "grad_norm": 5.630526542663574,
       "learning_rate": 2.325e-07,
+      "loss": 0.1358,
       "step": 7725
     },
     {
+      "epoch": 0.96875,
+      "grad_norm": 2.802499532699585,
       "learning_rate": 2.116666666666667e-07,
+      "loss": 0.1068,
       "step": 7750
     },
     {
+      "epoch": 0.971875,
+      "grad_norm": 2.5446484088897705,
       "learning_rate": 1.9083333333333334e-07,
+      "loss": 0.0862,
       "step": 7775
     },
     {
+      "epoch": 0.975,
+      "grad_norm": 5.739973068237305,
       "learning_rate": 1.7e-07,
+      "loss": 0.0749,
       "step": 7800
     },
     {
+      "epoch": 0.978125,
+      "grad_norm": 2.2183213233947754,
       "learning_rate": 1.4916666666666669e-07,
+      "loss": 0.0694,
       "step": 7825
     },
     {
+      "epoch": 0.98125,
+      "grad_norm": 2.4163272380828857,
       "learning_rate": 1.2833333333333333e-07,
+      "loss": 0.0768,
       "step": 7850
     },
     {
+      "epoch": 0.984375,
+      "grad_norm": 3.4462175369262695,
       "learning_rate": 1.075e-07,
+      "loss": 0.0635,
       "step": 7875
     },
     {
+      "epoch": 0.9875,
+      "grad_norm": 2.5306878089904785,
       "learning_rate": 8.666666666666666e-08,
+      "loss": 0.0679,
       "step": 7900
     },
     {
+      "epoch": 0.990625,
+      "grad_norm": 4.3514485359191895,
       "learning_rate": 6.583333333333333e-08,
+      "loss": 0.1073,
       "step": 7925
     },
     {
+      "epoch": 0.99375,
+      "grad_norm": 5.388062953948975,
       "learning_rate": 4.5e-08,
+      "loss": 0.1159,
       "step": 7950
     },
     {
+      "epoch": 0.996875,
+      "grad_norm": 3.7506585121154785,
       "learning_rate": 2.4166666666666668e-08,
+      "loss": 0.1783,
       "step": 7975
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 4.964086532592773,
       "learning_rate": 3.333333333333334e-09,
+      "loss": 0.1408,
       "step": 8000
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.21413126587867737,
+      "eval_runtime": 423.6508,
+      "eval_samples_per_second": 4.966,
+      "eval_steps_per_second": 0.621,
+      "eval_wer": 10.129008133121436,
       "step": 8000
     },
     {
+      "epoch": 1.0,
       "step": 8000,
+      "total_flos": 1.3063742816256e+20,
+      "train_loss": 0.1566779458373785,
+      "train_runtime": 20473.0101,
+      "train_samples_per_second": 6.252,
+      "train_steps_per_second": 0.391
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.3063742816256e+20,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null