End of training

Browse files

Files changed (6) hide show

README.md +6 -4
all_results.json +11 -11
eval_results.json +7 -7
runs/Jan16_14-53-45_vorace/events.out.tfevents.1705423620.vorace.510473.1 +3 -0
train_results.json +5 -5
trainer_state.json +1201 -213

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: mit
 base_model: facebook/w2v-bert-2.0
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,11 +17,11 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-bert-CV16-en-libri
-This model is a fine-tuned version of [facebook/w2v-bert-2.0](https://huggingface.co/facebook/w2v-bert-2.0) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1077
-- Wer: 0.0717
-- Cer: 0.0197
 ## Model description

 license: mit
 base_model: facebook/w2v-bert-2.0
 tags:
+- automatic-speech-recognition
+- librispeech_asr
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-bert-CV16-en-libri
+This model is a fine-tuned version of [facebook/w2v-bert-2.0](https://huggingface.co/facebook/w2v-bert-2.0) on the LIBRISPEECH_ASR - CLEAN dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1035
+- Wer: 0.0708
+- Cer: 0.0194
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 5.0,
-    "eval_cer": 0.02643822760039138,
-    "eval_loss": 0.13311129808425903,
-    "eval_runtime": 59.8158,
     "eval_samples": 2528,
-    "eval_samples_per_second": 42.263,
-    "eval_steps_per_second": 1.187,
-    "eval_wer": 0.09965613856342333,
-    "train_loss": 0.09581804365822763,
-    "train_runtime": 4900.8909,
     "train_samples": 28538,
-    "train_samples_per_second": 29.115,
-    "train_steps_per_second": 0.404
 }

 {
+    "epoch": 6.99,
+    "eval_cer": 0.019377383733700754,
+    "eval_loss": 0.10354145616292953,
+    "eval_runtime": 59.6491,
     "eval_samples": 2528,
+    "eval_samples_per_second": 42.381,
+    "eval_steps_per_second": 1.19,
+    "eval_wer": 0.07078875870266599,
+    "train_loss": 0.05688602840165039,
+    "train_runtime": 6445.258,
     "train_samples": 28538,
+    "train_samples_per_second": 30.994,
+    "train_steps_per_second": 0.43
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 5.0,
-    "eval_cer": 0.02643822760039138,
-    "eval_loss": 0.13311129808425903,
-    "eval_runtime": 59.8158,
     "eval_samples": 2528,
-    "eval_samples_per_second": 42.263,
-    "eval_steps_per_second": 1.187,
-    "eval_wer": 0.09965613856342333
 }

 {
+    "epoch": 6.99,
+    "eval_cer": 0.019377383733700754,
+    "eval_loss": 0.10354145616292953,
+    "eval_runtime": 59.6491,
     "eval_samples": 2528,
+    "eval_samples_per_second": 42.381,
+    "eval_steps_per_second": 1.19,
+    "eval_wer": 0.07078875870266599
 }

runs/Jan16_14-53-45_vorace/events.out.tfevents.1705423620.vorace.510473.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95954bbf24073745de4bd78f01796d56e41c36f6ab40add343e5fee7d55cc556
+size 405

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.09581804365822763,
-    "train_runtime": 4900.8909,
     "train_samples": 28538,
-    "train_samples_per_second": 29.115,
-    "train_steps_per_second": 0.404
 }

 {
+    "epoch": 6.99,
+    "train_loss": 0.05688602840165039,
+    "train_runtime": 6445.258,
     "train_samples": 28538,
+    "train_samples_per_second": 30.994,
+    "train_steps_per_second": 0.43
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.996216897856242,
   "eval_steps": 250,
-  "global_step": 1980,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1871,605 +1871,1593 @@
     {
       "epoch": 3.8,
       "learning_rate": 4.497e-06,
-      "loss": 0.2137,
       "step": 1505
     },
     {
       "epoch": 3.81,
-      "learning_rate": 4.5089999999999995e-06,
-      "loss": 0.1759,
       "step": 1510
     },
     {
       "epoch": 3.82,
-      "learning_rate": 4.524e-06,
-      "loss": 0.1698,
       "step": 1515
     },
     {
       "epoch": 3.84,
-      "learning_rate": 4.539e-06,
-      "loss": 0.1703,
       "step": 1520
     },
     {
       "epoch": 3.85,
-      "learning_rate": 4.554e-06,
-      "loss": 0.1841,
       "step": 1525
     },
     {
       "epoch": 3.86,
-      "learning_rate": 4.569e-06,
-      "loss": 0.1783,
       "step": 1530
     },
     {
-      "epoch": 3.87,
-      "learning_rate": 4.584e-06,
-      "loss": 0.1633,
       "step": 1535
     },
     {
       "epoch": 3.89,
       "learning_rate": 4.5989999999999995e-06,
-      "loss": 0.1839,
       "step": 1540
     },
     {
       "epoch": 3.9,
       "learning_rate": 4.614e-06,
-      "loss": 0.153,
       "step": 1545
     },
     {
       "epoch": 3.91,
       "learning_rate": 4.629e-06,
-      "loss": 0.1553,
       "step": 1550
     },
     {
-      "epoch": 3.92,
       "learning_rate": 4.644e-06,
-      "loss": 0.1834,
       "step": 1555
     },
     {
       "epoch": 3.94,
-      "learning_rate": 4.659e-06,
-      "loss": 0.1582,
       "step": 1560
     },
     {
       "epoch": 3.95,
-      "learning_rate": 4.674e-06,
-      "loss": 0.1592,
       "step": 1565
     },
     {
       "epoch": 3.96,
-      "learning_rate": 4.689e-06,
-      "loss": 0.1823,
       "step": 1570
     },
     {
-      "epoch": 3.97,
-      "learning_rate": 4.704e-06,
-      "loss": 0.1782,
       "step": 1575
     },
     {
       "epoch": 3.99,
-      "learning_rate": 4.719e-06,
-      "loss": 0.1543,
       "step": 1580
     },
     {
       "epoch": 4.0,
-      "learning_rate": 4.734e-06,
-      "loss": 0.1943,
       "step": 1585
     },
     {
       "epoch": 4.01,
-      "learning_rate": 4.749e-06,
-      "loss": 0.1491,
       "step": 1590
     },
     {
       "epoch": 4.03,
-      "learning_rate": 4.764e-06,
-      "loss": 0.1656,
       "step": 1595
     },
     {
       "epoch": 4.04,
-      "learning_rate": 4.779e-06,
-      "loss": 0.1507,
       "step": 1600
     },
     {
       "epoch": 4.05,
-      "learning_rate": 4.794e-06,
-      "loss": 0.1589,
       "step": 1605
     },
     {
       "epoch": 4.06,
-      "learning_rate": 4.809e-06,
-      "loss": 0.1443,
       "step": 1610
     },
     {
       "epoch": 4.08,
-      "learning_rate": 4.824e-06,
-      "loss": 0.1487,
       "step": 1615
     },
     {
       "epoch": 4.09,
-      "learning_rate": 4.839e-06,
-      "loss": 0.1766,
       "step": 1620
     },
     {
       "epoch": 4.1,
-      "learning_rate": 4.8540000000000005e-06,
-      "loss": 0.1548,
       "step": 1625
     },
     {
       "epoch": 4.11,
-      "learning_rate": 4.869e-06,
-      "loss": 0.1494,
       "step": 1630
     },
     {
       "epoch": 4.13,
-      "learning_rate": 4.884e-06,
-      "loss": 0.1793,
       "step": 1635
     },
     {
       "epoch": 4.14,
-      "learning_rate": 4.899e-06,
-      "loss": 0.1417,
       "step": 1640
     },
     {
       "epoch": 4.15,
-      "learning_rate": 4.914e-06,
-      "loss": 0.1399,
       "step": 1645
     },
     {
-      "epoch": 4.16,
-      "learning_rate": 4.929000000000001e-06,
-      "loss": 0.166,
       "step": 1650
     },
     {
       "epoch": 4.18,
-      "learning_rate": 4.9440000000000004e-06,
-      "loss": 0.1748,
       "step": 1655
     },
     {
       "epoch": 4.19,
-      "learning_rate": 4.959e-06,
-      "loss": 0.1378,
       "step": 1660
     },
     {
       "epoch": 4.2,
-      "learning_rate": 4.974e-06,
-      "loss": 0.144,
       "step": 1665
     },
     {
-      "epoch": 4.21,
-      "learning_rate": 4.989e-06,
-      "loss": 0.1794,
       "step": 1670
     },
     {
       "epoch": 4.23,
-      "learning_rate": 5.004e-06,
-      "loss": 0.146,
       "step": 1675
     },
     {
       "epoch": 4.24,
-      "learning_rate": 5.0190000000000006e-06,
-      "loss": 0.141,
       "step": 1680
     },
     {
       "epoch": 4.25,
-      "learning_rate": 5.034e-06,
-      "loss": 0.1757,
       "step": 1685
     },
     {
-      "epoch": 4.26,
-      "learning_rate": 5.049e-06,
-      "loss": 0.1423,
       "step": 1690
     },
     {
       "epoch": 4.28,
-      "learning_rate": 5.064e-06,
-      "loss": 0.1414,
       "step": 1695
     },
     {
       "epoch": 4.29,
-      "learning_rate": 5.079e-06,
-      "loss": 0.1556,
       "step": 1700
     },
     {
       "epoch": 4.3,
-      "learning_rate": 5.094000000000001e-06,
-      "loss": 0.1599,
       "step": 1705
     },
     {
       "epoch": 4.32,
-      "learning_rate": 5.1090000000000006e-06,
-      "loss": 0.1436,
       "step": 1710
     },
     {
       "epoch": 4.33,
-      "learning_rate": 5.124e-06,
-      "loss": 0.1346,
       "step": 1715
     },
     {
       "epoch": 4.34,
-      "learning_rate": 5.139e-06,
-      "loss": 0.1702,
       "step": 1720
     },
     {
       "epoch": 4.35,
-      "learning_rate": 5.154e-06,
-      "loss": 0.1397,
       "step": 1725
     },
     {
       "epoch": 4.37,
-      "learning_rate": 5.169e-06,
-      "loss": 0.1373,
       "step": 1730
     },
     {
       "epoch": 4.38,
-      "learning_rate": 5.184000000000001e-06,
-      "loss": 0.1929,
       "step": 1735
     },
     {
       "epoch": 4.39,
-      "learning_rate": 5.1990000000000005e-06,
-      "loss": 0.1426,
       "step": 1740
     },
     {
       "epoch": 4.4,
-      "learning_rate": 5.214e-06,
-      "loss": 0.1481,
       "step": 1745
     },
     {
       "epoch": 4.42,
-      "learning_rate": 5.229e-06,
-      "loss": 0.163,
       "step": 1750
     },
     {
       "epoch": 4.42,
-      "eval_cer": 0.029768965035244312,
-      "eval_loss": 0.1489591896533966,
-      "eval_runtime": 60.6618,
-      "eval_samples_per_second": 41.674,
-      "eval_steps_per_second": 1.17,
-      "eval_wer": 0.1163397860417728,
       "step": 1750
     },
     {
       "epoch": 4.43,
-      "learning_rate": 5.244e-06,
-      "loss": 0.1816,
       "step": 1755
     },
     {
       "epoch": 4.44,
-      "learning_rate": 5.259000000000001e-06,
       "loss": 0.1444,
       "step": 1760
     },
     {
-      "epoch": 4.45,
-      "learning_rate": 5.274000000000001e-06,
-      "loss": 0.1423,
       "step": 1765
     },
     {
       "epoch": 4.47,
-      "learning_rate": 5.2890000000000005e-06,
-      "loss": 0.1605,
       "step": 1770
     },
     {
       "epoch": 4.48,
-      "learning_rate": 5.304e-06,
-      "loss": 0.1355,
       "step": 1775
     },
     {
       "epoch": 4.49,
-      "learning_rate": 5.319e-06,
-      "loss": 0.1401,
       "step": 1780
     },
     {
-      "epoch": 4.5,
-      "learning_rate": 5.334000000000001e-06,
-      "loss": 0.1593,
       "step": 1785
     },
     {
       "epoch": 4.52,
-      "learning_rate": 5.349e-06,
-      "loss": 0.1361,
       "step": 1790
     },
     {
       "epoch": 4.53,
-      "learning_rate": 5.364e-06,
-      "loss": 0.1363,
       "step": 1795
     },
     {
       "epoch": 4.54,
-      "learning_rate": 5.379e-06,
-      "loss": 0.1527,
       "step": 1800
     },
     {
-      "epoch": 4.55,
-      "learning_rate": 5.3939999999999995e-06,
-      "loss": 0.1645,
       "step": 1805
     },
     {
       "epoch": 4.57,
-      "learning_rate": 5.408999999999999e-06,
-      "loss": 0.1285,
       "step": 1810
     },
     {
       "epoch": 4.58,
-      "learning_rate": 5.424e-06,
-      "loss": 0.1366,
       "step": 1815
     },
     {
       "epoch": 4.59,
-      "learning_rate": 5.439e-06,
-      "loss": 0.1808,
       "step": 1820
     },
     {
       "epoch": 4.61,
-      "learning_rate": 5.454e-06,
-      "loss": 0.1428,
       "step": 1825
     },
     {
       "epoch": 4.62,
-      "learning_rate": 5.469e-06,
-      "loss": 0.1314,
       "step": 1830
     },
     {
       "epoch": 4.63,
-      "learning_rate": 5.4839999999999995e-06,
-      "loss": 0.1479,
       "step": 1835
     },
     {
       "epoch": 4.64,
-      "learning_rate": 5.499e-06,
-      "loss": 0.135,
       "step": 1840
     },
     {
       "epoch": 4.66,
-      "learning_rate": 5.514e-06,
-      "loss": 0.1253,
       "step": 1845
     },
     {
       "epoch": 4.67,
-      "learning_rate": 5.529e-06,
-      "loss": 0.13,
       "step": 1850
     },
     {
       "epoch": 4.68,
-      "learning_rate": 5.544e-06,
-      "loss": 0.1484,
       "step": 1855
     },
     {
       "epoch": 4.69,
-      "learning_rate": 5.559e-06,
-      "loss": 0.1201,
       "step": 1860
     },
     {
       "epoch": 4.71,
-      "learning_rate": 5.574e-06,
-      "loss": 0.1263,
       "step": 1865
     },
     {
       "epoch": 4.72,
-      "learning_rate": 5.589e-06,
-      "loss": 0.1493,
       "step": 1870
     },
     {
       "epoch": 4.73,
-      "learning_rate": 5.604e-06,
-      "loss": 0.1276,
       "step": 1875
     },
     {
-      "epoch": 4.74,
-      "learning_rate": 5.619e-06,
-      "loss": 0.1236,
       "step": 1880
     },
     {
       "epoch": 4.76,
-      "learning_rate": 5.634e-06,
-      "loss": 0.1718,
       "step": 1885
     },
     {
       "epoch": 4.77,
-      "learning_rate": 5.649e-06,
-      "loss": 0.1292,
       "step": 1890
     },
     {
       "epoch": 4.78,
-      "learning_rate": 5.664e-06,
-      "loss": 0.1175,
       "step": 1895
     },
     {
-      "epoch": 4.79,
-      "learning_rate": 5.679e-06,
-      "loss": 0.1317,
       "step": 1900
     },
     {
       "epoch": 4.81,
-      "learning_rate": 5.694e-06,
-      "loss": 0.1412,
       "step": 1905
     },
     {
       "epoch": 4.82,
-      "learning_rate": 5.709e-06,
-      "loss": 0.1222,
       "step": 1910
     },
     {
       "epoch": 4.83,
-      "learning_rate": 5.724e-06,
-      "loss": 0.1193,
       "step": 1915
     },
     {
-      "epoch": 4.84,
-      "learning_rate": 5.7390000000000004e-06,
-      "loss": 0.16,
       "step": 1920
     },
     {
       "epoch": 4.86,
-      "learning_rate": 5.754e-06,
-      "loss": 0.1228,
       "step": 1925
     },
     {
       "epoch": 4.87,
-      "learning_rate": 5.769e-06,
-      "loss": 0.1195,
       "step": 1930
     },
     {
       "epoch": 4.88,
-      "learning_rate": 5.784e-06,
-      "loss": 0.1608,
       "step": 1935
     },
     {
       "epoch": 4.9,
-      "learning_rate": 5.799e-06,
-      "loss": 0.1234,
       "step": 1940
     },
     {
       "epoch": 4.91,
-      "learning_rate": 5.814e-06,
-      "loss": 0.1265,
       "step": 1945
     },
     {
       "epoch": 4.92,
-      "learning_rate": 5.8290000000000004e-06,
-      "loss": 0.1431,
       "step": 1950
     },
     {
       "epoch": 4.93,
-      "learning_rate": 5.844e-06,
-      "loss": 0.1366,
       "step": 1955
     },
     {
       "epoch": 4.95,
-      "learning_rate": 5.859e-06,
-      "loss": 0.1091,
       "step": 1960
     },
     {
       "epoch": 4.96,
-      "learning_rate": 5.874e-06,
-      "loss": 0.139,
       "step": 1965
     },
     {
       "epoch": 4.97,
       "learning_rate": 5.886000000000001e-06,
-      "loss": 0.1726,
       "step": 1970
     },
     {
       "epoch": 4.98,
       "learning_rate": 5.901000000000001e-06,
-      "loss": 0.1148,
       "step": 1975
     },
     {
       "epoch": 5.0,
       "learning_rate": 5.916e-06,
-      "loss": 0.1296,
       "step": 1980
     },
     {
-      "epoch": 5.0,
-      "step": 1980,
-      "total_flos": 5.2867996741439324e+19,
-      "train_loss": 0.09581804365822763,
-      "train_runtime": 4900.8909,
-      "train_samples_per_second": 29.115,
-      "train_steps_per_second": 0.404
     }
   ],
   "logging_steps": 5,
-  "max_steps": 1980,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 5.2867996741439324e+19,
   "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.994955863808323,
   "eval_steps": 250,
+  "global_step": 2772,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 3.8,
       "learning_rate": 4.497e-06,
+      "loss": 0.2097,
       "step": 1505
     },
     {
       "epoch": 3.81,
+      "learning_rate": 4.512e-06,
+      "loss": 0.1645,
       "step": 1510
     },
     {
       "epoch": 3.82,
+      "learning_rate": 4.527e-06,
+      "loss": 0.163,
       "step": 1515
     },
     {
       "epoch": 3.84,
+      "learning_rate": 4.542000000000001e-06,
+      "loss": 0.1676,
       "step": 1520
     },
     {
       "epoch": 3.85,
+      "learning_rate": 4.557000000000001e-06,
+      "loss": 0.1946,
       "step": 1525
     },
     {
       "epoch": 3.86,
+      "learning_rate": 4.5720000000000004e-06,
+      "loss": 0.1582,
       "step": 1530
     },
     {
+      "epoch": 3.88,
+      "learning_rate": 4.587e-06,
+      "loss": 0.1588,
       "step": 1535
     },
     {
       "epoch": 3.89,
       "learning_rate": 4.5989999999999995e-06,
+      "loss": 0.1936,
       "step": 1540
     },
     {
       "epoch": 3.9,
       "learning_rate": 4.614e-06,
+      "loss": 0.1525,
       "step": 1545
     },
     {
       "epoch": 3.91,
       "learning_rate": 4.629e-06,
+      "loss": 0.1456,
       "step": 1550
     },
     {
+      "epoch": 3.93,
       "learning_rate": 4.644e-06,
+      "loss": 0.1883,
       "step": 1555
     },
     {
       "epoch": 3.94,
+      "learning_rate": 4.656e-06,
+      "loss": 0.1538,
       "step": 1560
     },
     {
       "epoch": 3.95,
+      "learning_rate": 4.671000000000001e-06,
+      "loss": 0.1621,
       "step": 1565
     },
     {
       "epoch": 3.96,
+      "learning_rate": 4.6860000000000005e-06,
+      "loss": 0.1677,
       "step": 1570
     },
     {
+      "epoch": 3.98,
+      "learning_rate": 4.701e-06,
+      "loss": 0.1697,
       "step": 1575
     },
     {
       "epoch": 3.99,
+      "learning_rate": 4.716e-06,
+      "loss": 0.1669,
       "step": 1580
     },
     {
       "epoch": 4.0,
+      "learning_rate": 4.731e-06,
+      "loss": 0.1954,
       "step": 1585
     },
     {
       "epoch": 4.01,
+      "learning_rate": 4.746e-06,
+      "loss": 0.1518,
       "step": 1590
     },
     {
       "epoch": 4.03,
+      "learning_rate": 4.761000000000001e-06,
+      "loss": 0.153,
       "step": 1595
     },
     {
       "epoch": 4.04,
+      "learning_rate": 4.7760000000000005e-06,
+      "loss": 0.1736,
       "step": 1600
     },
     {
       "epoch": 4.05,
+      "learning_rate": 4.791e-06,
+      "loss": 0.1748,
       "step": 1605
     },
     {
       "epoch": 4.06,
+      "learning_rate": 4.806e-06,
+      "loss": 0.1545,
       "step": 1610
     },
     {
       "epoch": 4.08,
+      "learning_rate": 4.821e-06,
+      "loss": 0.143,
       "step": 1615
     },
     {
       "epoch": 4.09,
+      "learning_rate": 4.836000000000001e-06,
+      "loss": 0.1808,
       "step": 1620
     },
     {
       "epoch": 4.1,
+      "learning_rate": 4.851000000000001e-06,
+      "loss": 0.166,
       "step": 1625
     },
     {
       "epoch": 4.11,
+      "learning_rate": 4.8660000000000005e-06,
+      "loss": 0.1432,
       "step": 1630
     },
     {
       "epoch": 4.13,
+      "learning_rate": 4.881e-06,
+      "loss": 0.1863,
       "step": 1635
     },
     {
       "epoch": 4.14,
+      "learning_rate": 4.896e-06,
+      "loss": 0.1423,
       "step": 1640
     },
     {
       "epoch": 4.15,
+      "learning_rate": 4.911e-06,
+      "loss": 0.1519,
       "step": 1645
     },
     {
+      "epoch": 4.17,
+      "learning_rate": 4.926000000000001e-06,
+      "loss": 0.169,
       "step": 1650
     },
     {
       "epoch": 4.18,
+      "learning_rate": 4.941000000000001e-06,
+      "loss": 0.1729,
       "step": 1655
     },
     {
       "epoch": 4.19,
+      "learning_rate": 4.9560000000000005e-06,
+      "loss": 0.1585,
       "step": 1660
     },
     {
       "epoch": 4.2,
+      "learning_rate": 4.9709999999999995e-06,
+      "loss": 0.1413,
       "step": 1665
     },
     {
+      "epoch": 4.22,
+      "learning_rate": 4.985999999999999e-06,
+      "loss": 0.1832,
       "step": 1670
     },
     {
       "epoch": 4.23,
+      "learning_rate": 5.001e-06,
+      "loss": 0.143,
       "step": 1675
     },
     {
       "epoch": 4.24,
+      "learning_rate": 5.016e-06,
+      "loss": 0.1527,
       "step": 1680
     },
     {
       "epoch": 4.25,
+      "learning_rate": 5.031e-06,
+      "loss": 0.1669,
       "step": 1685
     },
     {
+      "epoch": 4.27,
+      "learning_rate": 5.046e-06,
+      "loss": 0.1313,
       "step": 1690
     },
     {
       "epoch": 4.28,
+      "learning_rate": 5.0609999999999995e-06,
+      "loss": 0.1273,
       "step": 1695
     },
     {
       "epoch": 4.29,
+      "learning_rate": 5.076e-06,
+      "loss": 0.1433,
       "step": 1700
     },
     {
       "epoch": 4.3,
+      "learning_rate": 5.091e-06,
+      "loss": 0.1579,
       "step": 1705
     },
     {
       "epoch": 4.32,
+      "learning_rate": 5.106e-06,
+      "loss": 0.1415,
       "step": 1710
     },
     {
       "epoch": 4.33,
+      "learning_rate": 5.121e-06,
+      "loss": 0.147,
       "step": 1715
     },
     {
       "epoch": 4.34,
+      "learning_rate": 5.136e-06,
+      "loss": 0.1682,
       "step": 1720
     },
     {
       "epoch": 4.35,
+      "learning_rate": 5.1509999999999995e-06,
+      "loss": 0.1352,
       "step": 1725
     },
     {
       "epoch": 4.37,
+      "learning_rate": 5.166e-06,
+      "loss": 0.14,
       "step": 1730
     },
     {
       "epoch": 4.38,
+      "learning_rate": 5.181e-06,
+      "loss": 0.1724,
       "step": 1735
     },
     {
       "epoch": 4.39,
+      "learning_rate": 5.196e-06,
+      "loss": 0.1442,
       "step": 1740
     },
     {
       "epoch": 4.4,
+      "learning_rate": 5.211e-06,
+      "loss": 0.1316,
       "step": 1745
     },
     {
       "epoch": 4.42,
+      "learning_rate": 5.226e-06,
+      "loss": 0.1546,
       "step": 1750
     },
     {
       "epoch": 4.42,
+      "eval_cer": 0.029413526627927875,
+      "eval_loss": 0.14518263936042786,
+      "eval_runtime": 60.4847,
+      "eval_samples_per_second": 41.796,
+      "eval_steps_per_second": 1.174,
+      "eval_wer": 0.11381389030395653,
       "step": 1750
     },
     {
       "epoch": 4.43,
+      "learning_rate": 5.241e-06,
+      "loss": 0.1528,
       "step": 1755
     },
     {
       "epoch": 4.44,
+      "learning_rate": 5.256e-06,
       "loss": 0.1444,
       "step": 1760
     },
     {
+      "epoch": 4.46,
+      "learning_rate": 5.271e-06,
+      "loss": 0.1514,
       "step": 1765
     },
     {
       "epoch": 4.47,
+      "learning_rate": 5.286e-06,
+      "loss": 0.1924,
       "step": 1770
     },
     {
       "epoch": 4.48,
+      "learning_rate": 5.301e-06,
+      "loss": 0.1223,
       "step": 1775
     },
     {
       "epoch": 4.49,
+      "learning_rate": 5.3160000000000004e-06,
+      "loss": 0.1296,
       "step": 1780
     },
     {
+      "epoch": 4.51,
+      "learning_rate": 5.331e-06,
+      "loss": 0.1668,
       "step": 1785
     },
     {
       "epoch": 4.52,
+      "learning_rate": 5.346e-06,
+      "loss": 0.137,
       "step": 1790
     },
     {
       "epoch": 4.53,
+      "learning_rate": 5.361e-06,
+      "loss": 0.1365,
       "step": 1795
     },
     {
       "epoch": 4.54,
+      "learning_rate": 5.376e-06,
+      "loss": 0.1565,
       "step": 1800
     },
     {
+      "epoch": 4.56,
+      "learning_rate": 5.391e-06,
+      "loss": 0.1421,
       "step": 1805
     },
     {
       "epoch": 4.57,
+      "learning_rate": 5.406e-06,
+      "loss": 0.1418,
       "step": 1810
     },
     {
       "epoch": 4.58,
+      "learning_rate": 5.421e-06,
+      "loss": 0.1415,
       "step": 1815
     },
     {
       "epoch": 4.59,
+      "learning_rate": 5.436e-06,
+      "loss": 0.1851,
       "step": 1820
     },
     {
       "epoch": 4.61,
+      "learning_rate": 5.451e-06,
+      "loss": 0.1354,
       "step": 1825
     },
     {
       "epoch": 4.62,
+      "learning_rate": 5.466e-06,
+      "loss": 0.1344,
       "step": 1830
     },
     {
       "epoch": 4.63,
+      "learning_rate": 5.4810000000000005e-06,
+      "loss": 0.1761,
       "step": 1835
     },
     {
       "epoch": 4.64,
+      "learning_rate": 5.496e-06,
+      "loss": 0.1257,
       "step": 1840
     },
     {
       "epoch": 4.66,
+      "learning_rate": 5.511e-06,
+      "loss": 0.1291,
       "step": 1845
     },
     {
       "epoch": 4.67,
+      "learning_rate": 5.526e-06,
+      "loss": 0.1458,
       "step": 1850
     },
     {
       "epoch": 4.68,
+      "learning_rate": 5.541e-06,
+      "loss": 0.1613,
       "step": 1855
     },
     {
       "epoch": 4.69,
+      "learning_rate": 5.556e-06,
+      "loss": 0.12,
       "step": 1860
     },
     {
       "epoch": 4.71,
+      "learning_rate": 5.5710000000000005e-06,
+      "loss": 0.1333,
       "step": 1865
     },
     {
       "epoch": 4.72,
+      "learning_rate": 5.586e-06,
+      "loss": 0.1639,
       "step": 1870
     },
     {
       "epoch": 4.73,
+      "learning_rate": 5.601e-06,
+      "loss": 0.1361,
       "step": 1875
     },
     {
+      "epoch": 4.75,
+      "learning_rate": 5.616e-06,
+      "loss": 0.1319,
       "step": 1880
     },
     {
       "epoch": 4.76,
+      "learning_rate": 5.631e-06,
+      "loss": 0.1608,
       "step": 1885
     },
     {
       "epoch": 4.77,
+      "learning_rate": 5.646000000000001e-06,
+      "loss": 0.123,
       "step": 1890
     },
     {
       "epoch": 4.78,
+      "learning_rate": 5.6610000000000005e-06,
+      "loss": 0.1208,
       "step": 1895
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 5.676e-06,
+      "loss": 0.1335,
       "step": 1900
     },
     {
       "epoch": 4.81,
+      "learning_rate": 5.691e-06,
+      "loss": 0.1401,
       "step": 1905
     },
     {
       "epoch": 4.82,
+      "learning_rate": 5.706e-06,
+      "loss": 0.1159,
       "step": 1910
     },
     {
       "epoch": 4.83,
+      "learning_rate": 5.721000000000001e-06,
+      "loss": 0.1388,
       "step": 1915
     },
     {
+      "epoch": 4.85,
+      "learning_rate": 5.736000000000001e-06,
+      "loss": 0.1646,
       "step": 1920
     },
     {
       "epoch": 4.86,
+      "learning_rate": 5.7510000000000005e-06,
+      "loss": 0.1265,
       "step": 1925
     },
     {
       "epoch": 4.87,
+      "learning_rate": 5.766e-06,
+      "loss": 0.1182,
       "step": 1930
     },
     {
       "epoch": 4.88,
+      "learning_rate": 5.781e-06,
+      "loss": 0.1615,
       "step": 1935
     },
     {
       "epoch": 4.9,
+      "learning_rate": 5.796e-06,
+      "loss": 0.1244,
       "step": 1940
     },
     {
       "epoch": 4.91,
+      "learning_rate": 5.811000000000001e-06,
+      "loss": 0.1281,
       "step": 1945
     },
     {
       "epoch": 4.92,
+      "learning_rate": 5.826000000000001e-06,
+      "loss": 0.1366,
       "step": 1950
     },
     {
       "epoch": 4.93,
+      "learning_rate": 5.8410000000000005e-06,
+      "loss": 0.1452,
       "step": 1955
     },
     {
       "epoch": 4.95,
+      "learning_rate": 5.856e-06,
+      "loss": 0.1169,
       "step": 1960
     },
     {
       "epoch": 4.96,
+      "learning_rate": 5.871e-06,
+      "loss": 0.1341,
       "step": 1965
     },
     {
       "epoch": 4.97,
       "learning_rate": 5.886000000000001e-06,
+      "loss": 0.1373,
       "step": 1970
     },
     {
       "epoch": 4.98,
       "learning_rate": 5.901000000000001e-06,
+      "loss": 0.1185,
       "step": 1975
     },
     {
       "epoch": 5.0,
       "learning_rate": 5.916e-06,
+      "loss": 0.132,
       "step": 1980
     },
     {
+      "epoch": 5.01,
+      "learning_rate": 5.931e-06,
+      "loss": 0.1279,
+      "step": 1985
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 5.9459999999999995e-06,
+      "loss": 0.1163,
+      "step": 1990
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 5.961e-06,
+      "loss": 0.121,
+      "step": 1995
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 5.976e-06,
+      "loss": 0.1245,
+      "step": 2000
+    },
+    {
+      "epoch": 5.05,
+      "eval_cer": 0.025970965873919206,
+      "eval_loss": 0.1316203624010086,
+      "eval_runtime": 59.578,
+      "eval_samples_per_second": 42.432,
+      "eval_steps_per_second": 1.192,
+      "eval_wer": 0.09734250297164204,
+      "step": 2000
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 5.991e-06,
+      "loss": 0.117,
+      "step": 2005
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 6.006e-06,
+      "loss": 0.115,
+      "step": 2010
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 6.021e-06,
+      "loss": 0.1416,
+      "step": 2015
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 6.0359999999999995e-06,
+      "loss": 0.1174,
+      "step": 2020
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 6.051e-06,
+      "loss": 0.1158,
+      "step": 2025
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 6.066e-06,
+      "loss": 0.1249,
+      "step": 2030
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 6.081e-06,
+      "loss": 0.1219,
+      "step": 2035
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 6.096e-06,
+      "loss": 0.1154,
+      "step": 2040
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 6.111e-06,
+      "loss": 0.1172,
+      "step": 2045
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 6.126e-06,
+      "loss": 0.1442,
+      "step": 2050
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 6.141e-06,
+      "loss": 0.1095,
+      "step": 2055
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 6.156e-06,
+      "loss": 0.1127,
+      "step": 2060
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 6.171e-06,
+      "loss": 0.1494,
+      "step": 2065
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 6.186e-06,
+      "loss": 0.111,
+      "step": 2070
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 6.201e-06,
+      "loss": 0.106,
+      "step": 2075
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 6.216e-06,
+      "loss": 0.1269,
+      "step": 2080
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 6.231e-06,
+      "loss": 0.1254,
+      "step": 2085
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 6.246e-06,
+      "loss": 0.1137,
+      "step": 2090
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 6.261e-06,
+      "loss": 0.1229,
+      "step": 2095
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 6.276e-06,
+      "loss": 0.1341,
+      "step": 2100
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 6.291e-06,
+      "loss": 0.1174,
+      "step": 2105
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 6.306e-06,
+      "loss": 0.1136,
+      "step": 2110
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 6.321e-06,
+      "loss": 0.1498,
+      "step": 2115
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 6.336e-06,
+      "loss": 0.1035,
+      "step": 2120
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 6.351e-06,
+      "loss": 0.1065,
+      "step": 2125
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 6.3660000000000005e-06,
+      "loss": 0.1331,
+      "step": 2130
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 6.381e-06,
+      "loss": 0.1261,
+      "step": 2135
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 6.396e-06,
+      "loss": 0.105,
+      "step": 2140
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 6.411e-06,
+      "loss": 0.1193,
+      "step": 2145
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 6.426e-06,
+      "loss": 0.1445,
+      "step": 2150
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 6.441e-06,
+      "loss": 0.1145,
+      "step": 2155
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 6.4560000000000005e-06,
+      "loss": 0.1091,
+      "step": 2160
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 6.471e-06,
+      "loss": 0.154,
+      "step": 2165
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 6.486e-06,
+      "loss": 0.1198,
+      "step": 2170
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 6.501e-06,
+      "loss": 0.0978,
+      "step": 2175
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 6.516e-06,
+      "loss": 0.114,
+      "step": 2180
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 6.531000000000001e-06,
+      "loss": 0.1289,
+      "step": 2185
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 6.5460000000000005e-06,
+      "loss": 0.1059,
+      "step": 2190
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 6.561e-06,
+      "loss": 0.1077,
+      "step": 2195
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 6.576e-06,
+      "loss": 0.1407,
+      "step": 2200
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 6.591e-06,
+      "loss": 0.1077,
+      "step": 2205
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 6.606000000000001e-06,
+      "loss": 0.1089,
+      "step": 2210
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 6.621000000000001e-06,
+      "loss": 0.1244,
+      "step": 2215
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 6.6360000000000005e-06,
+      "loss": 0.1006,
+      "step": 2220
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 6.651e-06,
+      "loss": 0.1124,
+      "step": 2225
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 6.666e-06,
+      "loss": 0.1202,
+      "step": 2230
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 6.681e-06,
+      "loss": 0.1208,
+      "step": 2235
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 6.696000000000001e-06,
+      "loss": 0.0993,
+      "step": 2240
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 6.711000000000001e-06,
+      "loss": 0.1111,
+      "step": 2245
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 6.7260000000000005e-06,
+      "loss": 0.1341,
+      "step": 2250
+    },
+    {
+      "epoch": 5.68,
+      "eval_cer": 0.023351105253699156,
+      "eval_loss": 0.11955570429563522,
+      "eval_runtime": 60.3253,
+      "eval_samples_per_second": 41.906,
+      "eval_steps_per_second": 1.177,
+      "eval_wer": 0.08670826965528952,
+      "step": 2250
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 6.741e-06,
+      "loss": 0.0995,
+      "step": 2255
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 6.756e-06,
+      "loss": 0.1081,
+      "step": 2260
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 6.771000000000001e-06,
+      "loss": 0.1339,
+      "step": 2265
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 6.786000000000001e-06,
+      "loss": 0.1044,
+      "step": 2270
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 6.801000000000001e-06,
+      "loss": 0.1029,
+      "step": 2275
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 6.8160000000000005e-06,
+      "loss": 0.1184,
+      "step": 2280
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 6.831e-06,
+      "loss": 0.1163,
+      "step": 2285
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 6.845999999999999e-06,
+      "loss": 0.1023,
+      "step": 2290
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 6.861e-06,
+      "loss": 0.1078,
+      "step": 2295
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 6.876e-06,
+      "loss": 0.1242,
+      "step": 2300
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 6.891e-06,
+      "loss": 0.1036,
+      "step": 2305
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 6.906e-06,
+      "loss": 0.109,
+      "step": 2310
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 6.9209999999999995e-06,
+      "loss": 0.1163,
+      "step": 2315
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 6.936e-06,
+      "loss": 0.0939,
+      "step": 2320
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 6.951e-06,
+      "loss": 0.1015,
+      "step": 2325
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 6.966e-06,
+      "loss": 0.112,
+      "step": 2330
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 6.981e-06,
+      "loss": 0.1072,
+      "step": 2335
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 6.996e-06,
+      "loss": 0.109,
+      "step": 2340
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 7.011e-06,
+      "loss": 0.1115,
+      "step": 2345
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 7.026e-06,
+      "loss": 0.1295,
+      "step": 2350
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 7.041e-06,
+      "loss": 0.094,
+      "step": 2355
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 7.056e-06,
+      "loss": 0.1087,
+      "step": 2360
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 7.071e-06,
+      "loss": 0.1491,
+      "step": 2365
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 7.086e-06,
+      "loss": 0.1048,
+      "step": 2370
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 7.101e-06,
+      "loss": 0.0986,
+      "step": 2375
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 7.116e-06,
+      "loss": 0.1152,
+      "step": 2380
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 7.131e-06,
+      "loss": 0.0956,
+      "step": 2385
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 7.146e-06,
+      "loss": 0.0967,
+      "step": 2390
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 7.161e-06,
+      "loss": 0.1229,
+      "step": 2395
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 7.176e-06,
+      "loss": 0.0931,
+      "step": 2400
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 7.191e-06,
+      "loss": 0.0938,
+      "step": 2405
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 7.206e-06,
+      "loss": 0.1209,
+      "step": 2410
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 7.221e-06,
+      "loss": 0.1081,
+      "step": 2415
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 7.236e-06,
+      "loss": 0.0918,
+      "step": 2420
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 7.2510000000000005e-06,
+      "loss": 0.0979,
+      "step": 2425
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 7.266e-06,
+      "loss": 0.1218,
+      "step": 2430
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 7.281e-06,
+      "loss": 0.0971,
+      "step": 2435
+    },
+    {
+      "epoch": 6.16,
+      "learning_rate": 7.296e-06,
+      "loss": 0.0977,
+      "step": 2440
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 7.311e-06,
+      "loss": 0.1212,
+      "step": 2445
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 7.326e-06,
+      "loss": 0.0886,
+      "step": 2450
+    },
+    {
+      "epoch": 6.2,
+      "learning_rate": 7.3410000000000005e-06,
+      "loss": 0.0943,
+      "step": 2455
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 7.356e-06,
+      "loss": 0.1049,
+      "step": 2460
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 7.371e-06,
+      "loss": 0.0964,
+      "step": 2465
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 7.386e-06,
+      "loss": 0.0978,
+      "step": 2470
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 7.401e-06,
+      "loss": 0.1037,
+      "step": 2475
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 7.416000000000001e-06,
+      "loss": 0.1043,
+      "step": 2480
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 7.4310000000000005e-06,
+      "loss": 0.0984,
+      "step": 2485
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 7.446e-06,
+      "loss": 0.0903,
+      "step": 2490
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 7.4579999999999996e-06,
+      "loss": 0.1169,
+      "step": 2495
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 7.4729999999999994e-06,
+      "loss": 0.0942,
+      "step": 2500
+    },
+    {
+      "epoch": 6.31,
+      "eval_cer": 0.02133029812895625,
+      "eval_loss": 0.11278611421585083,
+      "eval_runtime": 59.9521,
+      "eval_samples_per_second": 42.167,
+      "eval_steps_per_second": 1.184,
+      "eval_wer": 0.0794277466462897,
+      "step": 2500
+    },
+    {
+      "epoch": 6.32,
+      "learning_rate": 7.488e-06,
+      "loss": 0.0928,
+      "step": 2505
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 7.503e-06,
+      "loss": 0.1041,
+      "step": 2510
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 7.518e-06,
+      "loss": 0.1044,
+      "step": 2515
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 7.533e-06,
+      "loss": 0.0916,
+      "step": 2520
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 7.5479999999999996e-06,
+      "loss": 0.0963,
+      "step": 2525
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 7.563e-06,
+      "loss": 0.1231,
+      "step": 2530
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 7.578e-06,
+      "loss": 0.09,
+      "step": 2535
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 7.593e-06,
+      "loss": 0.0903,
+      "step": 2540
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 7.608e-06,
+      "loss": 0.1099,
+      "step": 2545
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 7.623e-06,
+      "loss": 0.0868,
+      "step": 2550
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 7.638e-06,
+      "loss": 0.086,
+      "step": 2555
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 7.653e-06,
+      "loss": 0.1063,
+      "step": 2560
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 7.668e-06,
+      "loss": 0.1004,
+      "step": 2565
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 7.683e-06,
+      "loss": 0.0893,
+      "step": 2570
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 7.698e-06,
+      "loss": 0.0942,
+      "step": 2575
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 7.713e-06,
+      "loss": 0.1092,
+      "step": 2580
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 7.728e-06,
+      "loss": 0.0904,
+      "step": 2585
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 7.743e-06,
+      "loss": 0.087,
+      "step": 2590
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 7.758000000000001e-06,
+      "loss": 0.1143,
+      "step": 2595
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 7.773e-06,
+      "loss": 0.0878,
+      "step": 2600
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 7.788e-06,
+      "loss": 0.0854,
+      "step": 2605
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 7.803e-06,
+      "loss": 0.1021,
+      "step": 2610
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 7.818e-06,
+      "loss": 0.1077,
+      "step": 2615
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 7.833e-06,
+      "loss": 0.0884,
+      "step": 2620
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 7.848e-06,
+      "loss": 0.09,
+      "step": 2625
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 7.863e-06,
+      "loss": 0.1044,
+      "step": 2630
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 7.878e-06,
+      "loss": 0.083,
+      "step": 2635
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 7.893e-06,
+      "loss": 0.0884,
+      "step": 2640
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 7.908e-06,
+      "loss": 0.1213,
+      "step": 2645
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 7.923e-06,
+      "loss": 0.0983,
+      "step": 2650
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 7.938000000000001e-06,
+      "loss": 0.0923,
+      "step": 2655
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 7.953e-06,
+      "loss": 0.1014,
+      "step": 2660
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 7.968e-06,
+      "loss": 0.0897,
+      "step": 2665
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 7.983e-06,
+      "loss": 0.0831,
+      "step": 2670
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 7.998e-06,
+      "loss": 0.0856,
+      "step": 2675
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 8.013000000000001e-06,
+      "loss": 0.1153,
+      "step": 2680
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 8.028e-06,
+      "loss": 0.0824,
+      "step": 2685
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 8.043e-06,
+      "loss": 0.0869,
+      "step": 2690
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 8.058e-06,
+      "loss": 0.1197,
+      "step": 2695
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 8.073e-06,
+      "loss": 0.0872,
+      "step": 2700
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 8.088000000000001e-06,
+      "loss": 0.0873,
+      "step": 2705
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 8.103e-06,
+      "loss": 0.1031,
+      "step": 2710
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 8.118000000000001e-06,
+      "loss": 0.0902,
+      "step": 2715
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 8.133e-06,
+      "loss": 0.0878,
+      "step": 2720
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 8.148e-06,
+      "loss": 0.099,
+      "step": 2725
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 8.163000000000001e-06,
+      "loss": 0.1037,
+      "step": 2730
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 8.178e-06,
+      "loss": 0.0897,
+      "step": 2735
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 8.193000000000001e-06,
+      "loss": 0.0888,
+      "step": 2740
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 8.208e-06,
+      "loss": 0.1109,
+      "step": 2745
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 8.223e-06,
+      "loss": 0.0848,
+      "step": 2750
+    },
+    {
+      "epoch": 6.94,
+      "eval_cer": 0.01967291679146948,
+      "eval_loss": 0.10771536827087402,
+      "eval_runtime": 59.6954,
+      "eval_samples_per_second": 42.348,
+      "eval_steps_per_second": 1.189,
+      "eval_wer": 0.07172270334521991,
+      "step": 2750
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 8.238e-06,
+      "loss": 0.0871,
+      "step": 2755
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 8.253e-06,
+      "loss": 0.1006,
+      "step": 2760
+    },
+    {
+      "epoch": 6.98,
+      "learning_rate": 8.268000000000001e-06,
+      "loss": 0.1059,
+      "step": 2765
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 8.283e-06,
+      "loss": 0.0973,
+      "step": 2770
+    },
+    {
+      "epoch": 6.99,
+      "step": 2772,
+      "total_flos": 7.402330898771948e+19,
+      "train_loss": 0.05688602840165039,
+      "train_runtime": 6445.258,
+      "train_samples_per_second": 30.994,
+      "train_steps_per_second": 0.43
     }
   ],
   "logging_steps": 5,
+  "max_steps": 2772,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 7.402330898771948e+19,
   "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null