End of training

Browse files

Files changed (6) hide show

README.md +9 -6
all_results.json +12 -0
eval_results.json +8 -0
runs/Jan26_04-57-46_ip-172-31-23-125/events.out.tfevents.1706285008.ip-172-31-23-125.1023.1 +3 -0
train_results.json +7 -0
trainer_state.json +1449 -0

README.md CHANGED Viewed

@@ -1,21 +1,24 @@
 ---
 license: apache-2.0
 base_model: arun100/whisper-base-bn-3
 tags:
 - generated_from_trainer
 datasets:
-- common_voice_16_0
 metrics:
 - wer
 model-index:
-- name: arun100/whisper-base-bn-3
   results:
   - task:
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
-      name: common_voice_16_0
-      type: common_voice_16_0
       config: bn
       split: test
       args: bn
@@ -28,9 +31,9 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# arun100/whisper-base-bn-3
-This model is a fine-tuned version of [arun100/whisper-base-bn-3](https://huggingface.co/arun100/whisper-base-bn-3) on the common_voice_16_0 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2078
 - Wer: 28.8185

 ---
+language:
+- bn
 license: apache-2.0
 base_model: arun100/whisper-base-bn-3
 tags:
+- whisper-event
 - generated_from_trainer
 datasets:
+- mozilla-foundation/common_voice_16_0
 metrics:
 - wer
 model-index:
+- name: Whisper Base Bengali
   results:
   - task:
       name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
+      name: mozilla-foundation/common_voice_16_0 bn
+      type: mozilla-foundation/common_voice_16_0
       config: bn
       split: test
       args: bn
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Whisper Base Bengali
+This model is a fine-tuned version of [arun100/whisper-base-bn-3](https://huggingface.co/arun100/whisper-base-bn-3) on the mozilla-foundation/common_voice_16_0 bn dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2078
 - Wer: 28.8185

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 18.87,
+    "eval_loss": 0.20784465968608856,
+    "eval_runtime": 1894.4239,
+    "eval_samples_per_second": 4.917,
+    "eval_steps_per_second": 0.154,
+    "eval_wer": 28.818465723515253,
+    "train_loss": 0.14273875054446133,
+    "train_runtime": 37524.2555,
+    "train_samples_per_second": 9.381,
+    "train_steps_per_second": 0.147
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 18.87,
+    "eval_loss": 0.20784465968608856,
+    "eval_runtime": 1894.4239,
+    "eval_samples_per_second": 4.917,
+    "eval_steps_per_second": 0.154,
+    "eval_wer": 28.818465723515253
+}

runs/Jan26_04-57-46_ip-172-31-23-125/events.out.tfevents.1706285008.ip-172-31-23-125.1023.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8358ef197089c2bae6c459f9ae1ad2abb351d05e6ec140d6ae44ce077972a01
+size 406

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 18.87,
+    "train_loss": 0.14273875054446133,
+    "train_runtime": 37524.2555,
+    "train_samples_per_second": 9.381,
+    "train_steps_per_second": 0.147
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1449 @@

+{
+  "best_metric": 28.818465723515253,
+  "best_model_checkpoint": "./checkpoint-5500",
+  "epoch": 18.867924528301888,
+  "eval_steps": 500,
+  "global_step": 5500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.5e-08,
+      "loss": 0.1552,
+      "step": 25
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 5e-08,
+      "loss": 0.1515,
+      "step": 50
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 7.5e-08,
+      "loss": 0.1549,
+      "step": 75
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1e-07,
+      "loss": 0.1553,
+      "step": 100
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.25e-07,
+      "loss": 0.1547,
+      "step": 125
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.5e-07,
+      "loss": 0.1544,
+      "step": 150
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.75e-07,
+      "loss": 0.1523,
+      "step": 175
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 2e-07,
+      "loss": 0.1511,
+      "step": 200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.25e-07,
+      "loss": 0.1556,
+      "step": 225
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.5e-07,
+      "loss": 0.1521,
+      "step": 250
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.75e-07,
+      "loss": 0.1526,
+      "step": 275
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3e-07,
+      "loss": 0.1534,
+      "step": 300
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.25e-07,
+      "loss": 0.1533,
+      "step": 325
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.5e-07,
+      "loss": 0.152,
+      "step": 350
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 3.75e-07,
+      "loss": 0.1531,
+      "step": 375
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4e-07,
+      "loss": 0.1516,
+      "step": 400
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 4.2499999999999995e-07,
+      "loss": 0.1539,
+      "step": 425
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 4.5e-07,
+      "loss": 0.1531,
+      "step": 450
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.7499999999999995e-07,
+      "loss": 0.154,
+      "step": 475
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 5e-07,
+      "loss": 0.1568,
+      "step": 500
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.21451939642429352,
+      "eval_runtime": 1884.5796,
+      "eval_samples_per_second": 4.942,
+      "eval_steps_per_second": 0.155,
+      "eval_wer": 29.834993244029246,
+      "step": 500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 4.975e-07,
+      "loss": 0.1544,
+      "step": 525
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 4.95e-07,
+      "loss": 0.1502,
+      "step": 550
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 4.924999999999999e-07,
+      "loss": 0.1525,
+      "step": 575
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 4.9e-07,
+      "loss": 0.1522,
+      "step": 600
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4.875e-07,
+      "loss": 0.1506,
+      "step": 625
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 4.85e-07,
+      "loss": 0.1537,
+      "step": 650
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 4.824999999999999e-07,
+      "loss": 0.1536,
+      "step": 675
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 4.8e-07,
+      "loss": 0.1561,
+      "step": 700
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 4.775e-07,
+      "loss": 0.1488,
+      "step": 725
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.7499999999999995e-07,
+      "loss": 0.1507,
+      "step": 750
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 4.725e-07,
+      "loss": 0.1498,
+      "step": 775
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.6999999999999995e-07,
+      "loss": 0.1461,
+      "step": 800
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 4.675e-07,
+      "loss": 0.1531,
+      "step": 825
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 4.65e-07,
+      "loss": 0.1542,
+      "step": 850
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.625e-07,
+      "loss": 0.1517,
+      "step": 875
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 4.6e-07,
+      "loss": 0.1554,
+      "step": 900
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 4.575e-07,
+      "loss": 0.1456,
+      "step": 925
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 4.55e-07,
+      "loss": 0.1457,
+      "step": 950
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 4.525e-07,
+      "loss": 0.1536,
+      "step": 975
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 4.5e-07,
+      "loss": 0.1507,
+      "step": 1000
+    },
+    {
+      "epoch": 3.43,
+      "eval_loss": 0.213189035654068,
+      "eval_runtime": 1879.633,
+      "eval_samples_per_second": 4.955,
+      "eval_steps_per_second": 0.155,
+      "eval_wer": 29.559385430368764,
+      "step": 1000
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 4.475e-07,
+      "loss": 0.1523,
+      "step": 1025
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 4.45e-07,
+      "loss": 0.1476,
+      "step": 1050
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 4.425e-07,
+      "loss": 0.1485,
+      "step": 1075
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 4.3999999999999997e-07,
+      "loss": 0.1508,
+      "step": 1100
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 4.375e-07,
+      "loss": 0.1481,
+      "step": 1125
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 4.3499999999999996e-07,
+      "loss": 0.1485,
+      "step": 1150
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 4.325e-07,
+      "loss": 0.1483,
+      "step": 1175
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 4.2999999999999996e-07,
+      "loss": 0.148,
+      "step": 1200
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 4.275e-07,
+      "loss": 0.1461,
+      "step": 1225
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 4.2499999999999995e-07,
+      "loss": 0.1501,
+      "step": 1250
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 4.225e-07,
+      "loss": 0.1474,
+      "step": 1275
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 4.1999999999999995e-07,
+      "loss": 0.1479,
+      "step": 1300
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 4.1749999999999997e-07,
+      "loss": 0.1514,
+      "step": 1325
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 4.1499999999999994e-07,
+      "loss": 0.1464,
+      "step": 1350
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 4.1249999999999997e-07,
+      "loss": 0.1472,
+      "step": 1375
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 4.0999999999999994e-07,
+      "loss": 0.1481,
+      "step": 1400
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 4.0749999999999996e-07,
+      "loss": 0.1486,
+      "step": 1425
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 4.05e-07,
+      "loss": 0.1475,
+      "step": 1450
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 4.025e-07,
+      "loss": 0.149,
+      "step": 1475
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 4e-07,
+      "loss": 0.1466,
+      "step": 1500
+    },
+    {
+      "epoch": 5.15,
+      "eval_loss": 0.21188345551490784,
+      "eval_runtime": 1877.5748,
+      "eval_samples_per_second": 4.961,
+      "eval_steps_per_second": 0.156,
+      "eval_wer": 29.357601138224474,
+      "step": 1500
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 3.975e-07,
+      "loss": 0.1464,
+      "step": 1525
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 3.95e-07,
+      "loss": 0.1455,
+      "step": 1550
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 3.925e-07,
+      "loss": 0.1457,
+      "step": 1575
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 3.8999999999999997e-07,
+      "loss": 0.1458,
+      "step": 1600
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 3.875e-07,
+      "loss": 0.1447,
+      "step": 1625
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 3.8499999999999997e-07,
+      "loss": 0.1472,
+      "step": 1650
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 3.825e-07,
+      "loss": 0.1469,
+      "step": 1675
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 3.7999999999999996e-07,
+      "loss": 0.1446,
+      "step": 1700
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 3.775e-07,
+      "loss": 0.1433,
+      "step": 1725
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 3.75e-07,
+      "loss": 0.1504,
+      "step": 1750
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 3.725e-07,
+      "loss": 0.147,
+      "step": 1775
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 3.7e-07,
+      "loss": 0.148,
+      "step": 1800
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 3.675e-07,
+      "loss": 0.1471,
+      "step": 1825
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 3.65e-07,
+      "loss": 0.1412,
+      "step": 1850
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 3.6249999999999997e-07,
+      "loss": 0.1472,
+      "step": 1875
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 3.6e-07,
+      "loss": 0.1427,
+      "step": 1900
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 3.5749999999999997e-07,
+      "loss": 0.1431,
+      "step": 1925
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 3.55e-07,
+      "loss": 0.1449,
+      "step": 1950
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 3.5249999999999996e-07,
+      "loss": 0.1404,
+      "step": 1975
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 3.5e-07,
+      "loss": 0.1463,
+      "step": 2000
+    },
+    {
+      "epoch": 6.86,
+      "eval_loss": 0.21055449545383453,
+      "eval_runtime": 1876.6891,
+      "eval_samples_per_second": 4.963,
+      "eval_steps_per_second": 0.156,
+      "eval_wer": 29.2927259223466,
+      "step": 2000
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 3.4749999999999996e-07,
+      "loss": 0.1432,
+      "step": 2025
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 3.45e-07,
+      "loss": 0.1493,
+      "step": 2050
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 3.425e-07,
+      "loss": 0.1445,
+      "step": 2075
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 3.4000000000000003e-07,
+      "loss": 0.1396,
+      "step": 2100
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 3.375e-07,
+      "loss": 0.1446,
+      "step": 2125
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 3.35e-07,
+      "loss": 0.1429,
+      "step": 2150
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 3.325e-07,
+      "loss": 0.1444,
+      "step": 2175
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 3.3e-07,
+      "loss": 0.1414,
+      "step": 2200
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 3.275e-07,
+      "loss": 0.1395,
+      "step": 2225
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 3.25e-07,
+      "loss": 0.1447,
+      "step": 2250
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 3.225e-07,
+      "loss": 0.1447,
+      "step": 2275
+    },
+    {
+      "epoch": 7.89,
+      "learning_rate": 3.2e-07,
+      "loss": 0.1464,
+      "step": 2300
+    },
+    {
+      "epoch": 7.98,
+      "learning_rate": 3.175e-07,
+      "loss": 0.1436,
+      "step": 2325
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 3.1509999999999996e-07,
+      "loss": 0.1452,
+      "step": 2350
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 3.126e-07,
+      "loss": 0.1378,
+      "step": 2375
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 3.1009999999999995e-07,
+      "loss": 0.1423,
+      "step": 2400
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 3.076e-07,
+      "loss": 0.1444,
+      "step": 2425
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 3.0509999999999995e-07,
+      "loss": 0.1447,
+      "step": 2450
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 3.0259999999999997e-07,
+      "loss": 0.1457,
+      "step": 2475
+    },
+    {
+      "epoch": 8.58,
+      "learning_rate": 3.0009999999999994e-07,
+      "loss": 0.1426,
+      "step": 2500
+    },
+    {
+      "epoch": 8.58,
+      "eval_loss": 0.2098465859889984,
+      "eval_runtime": 1886.03,
+      "eval_samples_per_second": 4.938,
+      "eval_steps_per_second": 0.155,
+      "eval_wer": 29.222034307803817,
+      "step": 2500
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 2.9759999999999996e-07,
+      "loss": 0.1429,
+      "step": 2525
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 2.9509999999999994e-07,
+      "loss": 0.1384,
+      "step": 2550
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 2.926e-07,
+      "loss": 0.1372,
+      "step": 2575
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 2.9010000000000004e-07,
+      "loss": 0.1446,
+      "step": 2600
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 2.876e-07,
+      "loss": 0.1424,
+      "step": 2625
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 2.8510000000000003e-07,
+      "loss": 0.1426,
+      "step": 2650
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 2.826e-07,
+      "loss": 0.1433,
+      "step": 2675
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 2.8010000000000003e-07,
+      "loss": 0.1413,
+      "step": 2700
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 2.776e-07,
+      "loss": 0.1361,
+      "step": 2725
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 2.751e-07,
+      "loss": 0.1418,
+      "step": 2750
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 2.726e-07,
+      "loss": 0.1396,
+      "step": 2775
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 2.701e-07,
+      "loss": 0.1389,
+      "step": 2800
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 2.676e-07,
+      "loss": 0.1438,
+      "step": 2825
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 2.651e-07,
+      "loss": 0.1424,
+      "step": 2850
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 2.626e-07,
+      "loss": 0.1393,
+      "step": 2875
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 2.601e-07,
+      "loss": 0.1441,
+      "step": 2900
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 2.576e-07,
+      "loss": 0.1404,
+      "step": 2925
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 2.551e-07,
+      "loss": 0.1349,
+      "step": 2950
+    },
+    {
+      "epoch": 10.21,
+      "learning_rate": 2.5259999999999997e-07,
+      "loss": 0.1409,
+      "step": 2975
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 2.501e-07,
+      "loss": 0.139,
+      "step": 3000
+    },
+    {
+      "epoch": 10.29,
+      "eval_loss": 0.20934279263019562,
+      "eval_runtime": 1881.23,
+      "eval_samples_per_second": 4.951,
+      "eval_steps_per_second": 0.155,
+      "eval_wer": 29.107495995633226,
+      "step": 3000
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 2.4759999999999997e-07,
+      "loss": 0.1379,
+      "step": 3025
+    },
+    {
+      "epoch": 10.46,
+      "learning_rate": 2.451e-07,
+      "loss": 0.1419,
+      "step": 3050
+    },
+    {
+      "epoch": 10.55,
+      "learning_rate": 2.426e-07,
+      "loss": 0.1382,
+      "step": 3075
+    },
+    {
+      "epoch": 10.63,
+      "learning_rate": 2.401e-07,
+      "loss": 0.1378,
+      "step": 3100
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 2.3759999999999998e-07,
+      "loss": 0.1426,
+      "step": 3125
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 2.3509999999999998e-07,
+      "loss": 0.1395,
+      "step": 3150
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 2.3259999999999998e-07,
+      "loss": 0.145,
+      "step": 3175
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 2.3009999999999998e-07,
+      "loss": 0.1437,
+      "step": 3200
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 2.2759999999999997e-07,
+      "loss": 0.1384,
+      "step": 3225
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 2.251e-07,
+      "loss": 0.1395,
+      "step": 3250
+    },
+    {
+      "epoch": 11.23,
+      "learning_rate": 2.226e-07,
+      "loss": 0.1383,
+      "step": 3275
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 2.201e-07,
+      "loss": 0.1365,
+      "step": 3300
+    },
+    {
+      "epoch": 11.41,
+      "learning_rate": 2.176e-07,
+      "loss": 0.1356,
+      "step": 3325
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 2.1510000000000001e-07,
+      "loss": 0.138,
+      "step": 3350
+    },
+    {
+      "epoch": 11.58,
+      "learning_rate": 2.126e-07,
+      "loss": 0.1432,
+      "step": 3375
+    },
+    {
+      "epoch": 11.66,
+      "learning_rate": 2.101e-07,
+      "loss": 0.1444,
+      "step": 3400
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 2.076e-07,
+      "loss": 0.139,
+      "step": 3425
+    },
+    {
+      "epoch": 11.84,
+      "learning_rate": 2.051e-07,
+      "loss": 0.1393,
+      "step": 3450
+    },
+    {
+      "epoch": 11.92,
+      "learning_rate": 2.026e-07,
+      "loss": 0.1379,
+      "step": 3475
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 2.001e-07,
+      "loss": 0.1373,
+      "step": 3500
+    },
+    {
+      "epoch": 12.01,
+      "eval_loss": 0.20872431993484497,
+      "eval_runtime": 1879.9357,
+      "eval_samples_per_second": 4.954,
+      "eval_steps_per_second": 0.155,
+      "eval_wer": 29.087809723228908,
+      "step": 3500
+    },
+    {
+      "epoch": 12.09,
+      "learning_rate": 1.976e-07,
+      "loss": 0.1383,
+      "step": 3525
+    },
+    {
+      "epoch": 12.18,
+      "learning_rate": 1.951e-07,
+      "loss": 0.1391,
+      "step": 3550
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 1.926e-07,
+      "loss": 0.1397,
+      "step": 3575
+    },
+    {
+      "epoch": 12.35,
+      "learning_rate": 1.901e-07,
+      "loss": 0.1401,
+      "step": 3600
+    },
+    {
+      "epoch": 12.44,
+      "learning_rate": 1.8759999999999999e-07,
+      "loss": 0.1384,
+      "step": 3625
+    },
+    {
+      "epoch": 12.52,
+      "learning_rate": 1.8509999999999998e-07,
+      "loss": 0.1379,
+      "step": 3650
+    },
+    {
+      "epoch": 12.61,
+      "learning_rate": 1.826e-07,
+      "loss": 0.14,
+      "step": 3675
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 1.801e-07,
+      "loss": 0.137,
+      "step": 3700
+    },
+    {
+      "epoch": 12.78,
+      "learning_rate": 1.776e-07,
+      "loss": 0.1368,
+      "step": 3725
+    },
+    {
+      "epoch": 12.86,
+      "learning_rate": 1.751e-07,
+      "loss": 0.1399,
+      "step": 3750
+    },
+    {
+      "epoch": 12.95,
+      "learning_rate": 1.726e-07,
+      "loss": 0.1365,
+      "step": 3775
+    },
+    {
+      "epoch": 13.04,
+      "learning_rate": 1.701e-07,
+      "loss": 0.1363,
+      "step": 3800
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 1.676e-07,
+      "loss": 0.1401,
+      "step": 3825
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 1.651e-07,
+      "loss": 0.1377,
+      "step": 3850
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 1.626e-07,
+      "loss": 0.1388,
+      "step": 3875
+    },
+    {
+      "epoch": 13.38,
+      "learning_rate": 1.6009999999999998e-07,
+      "loss": 0.1343,
+      "step": 3900
+    },
+    {
+      "epoch": 13.46,
+      "learning_rate": 1.5759999999999998e-07,
+      "loss": 0.1392,
+      "step": 3925
+    },
+    {
+      "epoch": 13.55,
+      "learning_rate": 1.5509999999999998e-07,
+      "loss": 0.1369,
+      "step": 3950
+    },
+    {
+      "epoch": 13.64,
+      "learning_rate": 1.526e-07,
+      "loss": 0.1355,
+      "step": 3975
+    },
+    {
+      "epoch": 13.72,
+      "learning_rate": 1.501e-07,
+      "loss": 0.1362,
+      "step": 4000
+    },
+    {
+      "epoch": 13.72,
+      "eval_loss": 0.20841579139232635,
+      "eval_runtime": 1892.3942,
+      "eval_samples_per_second": 4.922,
+      "eval_steps_per_second": 0.154,
+      "eval_wer": 28.976850733313647,
+      "step": 4000
+    },
+    {
+      "epoch": 13.81,
+      "learning_rate": 1.476e-07,
+      "loss": 0.1383,
+      "step": 4025
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 1.451e-07,
+      "loss": 0.1403,
+      "step": 4050
+    },
+    {
+      "epoch": 13.98,
+      "learning_rate": 1.426e-07,
+      "loss": 0.138,
+      "step": 4075
+    },
+    {
+      "epoch": 14.07,
+      "learning_rate": 1.401e-07,
+      "loss": 0.1379,
+      "step": 4100
+    },
+    {
+      "epoch": 14.15,
+      "learning_rate": 1.376e-07,
+      "loss": 0.1379,
+      "step": 4125
+    },
+    {
+      "epoch": 14.24,
+      "learning_rate": 1.3509999999999999e-07,
+      "loss": 0.1351,
+      "step": 4150
+    },
+    {
+      "epoch": 14.32,
+      "learning_rate": 1.3259999999999998e-07,
+      "loss": 0.1402,
+      "step": 4175
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 1.3009999999999998e-07,
+      "loss": 0.1384,
+      "step": 4200
+    },
+    {
+      "epoch": 14.49,
+      "learning_rate": 1.2759999999999998e-07,
+      "loss": 0.1344,
+      "step": 4225
+    },
+    {
+      "epoch": 14.58,
+      "learning_rate": 1.2509999999999998e-07,
+      "loss": 0.1415,
+      "step": 4250
+    },
+    {
+      "epoch": 14.67,
+      "learning_rate": 1.226e-07,
+      "loss": 0.136,
+      "step": 4275
+    },
+    {
+      "epoch": 14.75,
+      "learning_rate": 1.201e-07,
+      "loss": 0.1365,
+      "step": 4300
+    },
+    {
+      "epoch": 14.84,
+      "learning_rate": 1.176e-07,
+      "loss": 0.1359,
+      "step": 4325
+    },
+    {
+      "epoch": 14.92,
+      "learning_rate": 1.1509999999999999e-07,
+      "loss": 0.1352,
+      "step": 4350
+    },
+    {
+      "epoch": 15.01,
+      "learning_rate": 1.1269999999999998e-07,
+      "loss": 0.1363,
+      "step": 4375
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 1.1020000000000001e-07,
+      "loss": 0.1365,
+      "step": 4400
+    },
+    {
+      "epoch": 15.18,
+      "learning_rate": 1.077e-07,
+      "loss": 0.1369,
+      "step": 4425
+    },
+    {
+      "epoch": 15.27,
+      "learning_rate": 1.052e-07,
+      "loss": 0.1397,
+      "step": 4450
+    },
+    {
+      "epoch": 15.35,
+      "learning_rate": 1.027e-07,
+      "loss": 0.1373,
+      "step": 4475
+    },
+    {
+      "epoch": 15.44,
+      "learning_rate": 1.002e-07,
+      "loss": 0.1333,
+      "step": 4500
+    },
+    {
+      "epoch": 15.44,
+      "eval_loss": 0.20814116299152374,
+      "eval_runtime": 1898.1875,
+      "eval_samples_per_second": 4.907,
+      "eval_steps_per_second": 0.154,
+      "eval_wer": 28.912870347999608,
+      "step": 4500
+    },
+    {
+      "epoch": 15.52,
+      "learning_rate": 9.77e-08,
+      "loss": 0.139,
+      "step": 4525
+    },
+    {
+      "epoch": 15.61,
+      "learning_rate": 9.52e-08,
+      "loss": 0.1354,
+      "step": 4550
+    },
+    {
+      "epoch": 15.69,
+      "learning_rate": 9.27e-08,
+      "loss": 0.1356,
+      "step": 4575
+    },
+    {
+      "epoch": 15.78,
+      "learning_rate": 9.02e-08,
+      "loss": 0.1392,
+      "step": 4600
+    },
+    {
+      "epoch": 15.87,
+      "learning_rate": 8.77e-08,
+      "loss": 0.1369,
+      "step": 4625
+    },
+    {
+      "epoch": 15.95,
+      "learning_rate": 8.52e-08,
+      "loss": 0.1352,
+      "step": 4650
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 8.269999999999999e-08,
+      "loss": 0.1337,
+      "step": 4675
+    },
+    {
+      "epoch": 16.12,
+      "learning_rate": 8.019999999999999e-08,
+      "loss": 0.14,
+      "step": 4700
+    },
+    {
+      "epoch": 16.21,
+      "learning_rate": 7.77e-08,
+      "loss": 0.1348,
+      "step": 4725
+    },
+    {
+      "epoch": 16.3,
+      "learning_rate": 7.52e-08,
+      "loss": 0.1363,
+      "step": 4750
+    },
+    {
+      "epoch": 16.38,
+      "learning_rate": 7.27e-08,
+      "loss": 0.1358,
+      "step": 4775
+    },
+    {
+      "epoch": 16.47,
+      "learning_rate": 7.019999999999999e-08,
+      "loss": 0.136,
+      "step": 4800
+    },
+    {
+      "epoch": 16.55,
+      "learning_rate": 6.769999999999999e-08,
+      "loss": 0.1357,
+      "step": 4825
+    },
+    {
+      "epoch": 16.64,
+      "learning_rate": 6.519999999999999e-08,
+      "loss": 0.1368,
+      "step": 4850
+    },
+    {
+      "epoch": 16.72,
+      "learning_rate": 6.27e-08,
+      "loss": 0.141,
+      "step": 4875
+    },
+    {
+      "epoch": 16.81,
+      "learning_rate": 6.02e-08,
+      "loss": 0.1338,
+      "step": 4900
+    },
+    {
+      "epoch": 16.9,
+      "learning_rate": 5.77e-08,
+      "loss": 0.1371,
+      "step": 4925
+    },
+    {
+      "epoch": 16.98,
+      "learning_rate": 5.52e-08,
+      "loss": 0.1323,
+      "step": 4950
+    },
+    {
+      "epoch": 17.07,
+      "learning_rate": 5.2699999999999995e-08,
+      "loss": 0.1344,
+      "step": 4975
+    },
+    {
+      "epoch": 17.15,
+      "learning_rate": 5.02e-08,
+      "loss": 0.1332,
+      "step": 5000
+    },
+    {
+      "epoch": 17.15,
+      "eval_loss": 0.207936629652977,
+      "eval_runtime": 1896.8056,
+      "eval_samples_per_second": 4.91,
+      "eval_steps_per_second": 0.154,
+      "eval_wer": 28.894526321441035,
+      "step": 5000
+    },
+    {
+      "epoch": 17.24,
+      "learning_rate": 4.77e-08,
+      "loss": 0.1378,
+      "step": 5025
+    },
+    {
+      "epoch": 17.32,
+      "learning_rate": 4.5199999999999994e-08,
+      "loss": 0.1385,
+      "step": 5050
+    },
+    {
+      "epoch": 17.41,
+      "learning_rate": 4.27e-08,
+      "loss": 0.1367,
+      "step": 5075
+    },
+    {
+      "epoch": 17.5,
+      "learning_rate": 4.0199999999999996e-08,
+      "loss": 0.135,
+      "step": 5100
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 3.7699999999999993e-08,
+      "loss": 0.1326,
+      "step": 5125
+    },
+    {
+      "epoch": 17.67,
+      "learning_rate": 3.52e-08,
+      "loss": 0.1342,
+      "step": 5150
+    },
+    {
+      "epoch": 17.75,
+      "learning_rate": 3.27e-08,
+      "loss": 0.137,
+      "step": 5175
+    },
+    {
+      "epoch": 17.84,
+      "learning_rate": 3.02e-08,
+      "loss": 0.1393,
+      "step": 5200
+    },
+    {
+      "epoch": 17.92,
+      "learning_rate": 2.7699999999999997e-08,
+      "loss": 0.1349,
+      "step": 5225
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 2.52e-08,
+      "loss": 0.1363,
+      "step": 5250
+    },
+    {
+      "epoch": 18.1,
+      "learning_rate": 2.27e-08,
+      "loss": 0.1393,
+      "step": 5275
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 2.02e-08,
+      "loss": 0.1352,
+      "step": 5300
+    },
+    {
+      "epoch": 18.27,
+      "learning_rate": 1.77e-08,
+      "loss": 0.1348,
+      "step": 5325
+    },
+    {
+      "epoch": 18.35,
+      "learning_rate": 1.52e-08,
+      "loss": 0.1352,
+      "step": 5350
+    },
+    {
+      "epoch": 18.44,
+      "learning_rate": 1.27e-08,
+      "loss": 0.1335,
+      "step": 5375
+    },
+    {
+      "epoch": 18.52,
+      "learning_rate": 1.02e-08,
+      "loss": 0.132,
+      "step": 5400
+    },
+    {
+      "epoch": 18.61,
+      "learning_rate": 7.7e-09,
+      "loss": 0.1379,
+      "step": 5425
+    },
+    {
+      "epoch": 18.7,
+      "learning_rate": 5.1999999999999994e-09,
+      "loss": 0.1374,
+      "step": 5450
+    },
+    {
+      "epoch": 18.78,
+      "learning_rate": 2.7e-09,
+      "loss": 0.1368,
+      "step": 5475
+    },
+    {
+      "epoch": 18.87,
+      "learning_rate": 2e-10,
+      "loss": 0.1363,
+      "step": 5500
+    },
+    {
+      "epoch": 18.87,
+      "eval_loss": 0.20784465968608856,
+      "eval_runtime": 1895.0895,
+      "eval_samples_per_second": 4.915,
+      "eval_steps_per_second": 0.154,
+      "eval_wer": 28.818465723515253,
+      "step": 5500
+    },
+    {
+      "epoch": 18.87,
+      "step": 5500,
+      "total_flos": 2.279802921025536e+19,
+      "train_loss": 0.14273875054446133,
+      "train_runtime": 37524.2555,
+      "train_samples_per_second": 9.381,
+      "train_steps_per_second": 0.147
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 5500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 19,
+  "save_steps": 500,
+  "total_flos": 2.279802921025536e+19,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}