AndrewMcDowell
/

wav2vec2-xls-r-1b-arabic

@@ -1,14 +1,14 @@
 {
-    "epoch": 20.0,
-    "eval_loss": 1.3742073774337769,
-    "eval_runtime": 417.2357,
     "eval_samples": 10388,
-    "eval_samples_per_second": 24.897,
-    "eval_steps_per_second": 3.113,
-    "eval_wer": 0.9387498381338217,
-    "train_loss": 1.2195568717304786,
-    "train_runtime": 26512.2441,
     "train_samples": 38209,
-    "train_samples_per_second": 28.824,
-    "train_steps_per_second": 0.45
 }

 {
+    "epoch": 10.0,
+    "eval_loss": 1.3699203729629517,
+    "eval_runtime": 441.7782,
     "eval_samples": 10388,
+    "eval_samples_per_second": 23.514,
+    "eval_steps_per_second": 2.94,
+    "eval_wer": 0.928593891632906,
+    "train_loss": 2.4458747799871756,
+    "train_runtime": 25997.2696,
     "train_samples": 38209,
+    "train_samples_per_second": 14.697,
+    "train_steps_per_second": 0.23
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 20.0,
-    "eval_loss": 1.3742073774337769,
-    "eval_runtime": 417.2357,
     "eval_samples": 10388,
-    "eval_samples_per_second": 24.897,
-    "eval_steps_per_second": 3.113,
-    "eval_wer": 0.9387498381338217
 }

 {
+    "epoch": 10.0,
+    "eval_loss": 1.3699203729629517,
+    "eval_runtime": 441.7782,
     "eval_samples": 10388,
+    "eval_samples_per_second": 23.514,
+    "eval_steps_per_second": 2.94,
+    "eval_wer": 0.928593891632906
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "train_loss": 1.2195568717304786,
-    "train_runtime": 26512.2441,
     "train_samples": 38209,
-    "train_samples_per_second": 28.824,
-    "train_steps_per_second": 0.45
 }

 {
+    "epoch": 10.0,
+    "train_loss": 2.4458747799871756,
+    "train_runtime": 25997.2696,
     "train_samples": 38209,
+    "train_samples_per_second": 14.697,
+    "train_steps_per_second": 0.23
 }

trainer_state.json CHANGED Viewed

@@ -1,946 +1,478 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 19.99916317991632,
-  "global_step": 11940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.17,
-      "learning_rate": 0.000194,
-      "loss": 4.6647,
       "step": 100
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00039400000000000004,
-      "loss": 3.2495,
       "step": 200
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.000594,
-      "loss": 2.8044,
       "step": 300
     },
     {
       "epoch": 0.67,
-      "learning_rate": 0.0007940000000000001,
-      "loss": 2.6636,
       "step": 400
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.000994,
-      "loss": 2.6638,
       "step": 500
     },
     {
       "epoch": 0.84,
-      "eval_loss": 2.3851921558380127,
-      "eval_runtime": 415.3375,
-      "eval_samples_per_second": 25.011,
-      "eval_steps_per_second": 3.128,
-      "eval_wer": 0.9974286401391124,
       "step": 500
     },
     {
       "epoch": 1.01,
-      "learning_rate": 0.0009822669104204754,
-      "loss": 2.6437,
       "step": 600
     },
     {
       "epoch": 1.17,
-      "learning_rate": 0.0009639853747714809,
-      "loss": 2.6394,
       "step": 700
     },
     {
       "epoch": 1.34,
-      "learning_rate": 0.0009457038391224862,
-      "loss": 2.6303,
       "step": 800
     },
     {
       "epoch": 1.51,
-      "learning_rate": 0.0009274223034734918,
-      "loss": 2.6351,
       "step": 900
     },
     {
       "epoch": 1.67,
-      "learning_rate": 0.0009091407678244972,
-      "loss": 2.6578,
       "step": 1000
     },
     {
       "epoch": 1.67,
-      "eval_loss": 2.2796220779418945,
-      "eval_runtime": 416.0072,
-      "eval_samples_per_second": 24.971,
-      "eval_steps_per_second": 3.123,
-      "eval_wer": 0.9970586603030135,
       "step": 1000
     },
     {
       "epoch": 1.84,
-      "learning_rate": 0.0008908592321755028,
-      "loss": 2.6462,
       "step": 1100
     },
     {
       "epoch": 2.01,
-      "learning_rate": 0.0008725776965265082,
-      "loss": 2.6498,
       "step": 1200
     },
     {
       "epoch": 2.18,
-      "learning_rate": 0.0008542961608775137,
-      "loss": 2.614,
       "step": 1300
     },
     {
       "epoch": 2.34,
-      "learning_rate": 0.0008360146252285192,
-      "loss": 2.6209,
       "step": 1400
     },
     {
       "epoch": 2.51,
-      "learning_rate": 0.0008177330895795247,
-      "loss": 2.6016,
       "step": 1500
     },
     {
       "epoch": 2.51,
-      "eval_loss": 2.004575252532959,
-      "eval_runtime": 417.037,
-      "eval_samples_per_second": 24.909,
-      "eval_steps_per_second": 3.115,
-      "eval_wer": 0.9960782137373513,
       "step": 1500
     },
     {
       "epoch": 2.68,
-      "learning_rate": 0.0007994515539305302,
-      "loss": 2.5937,
       "step": 1600
     },
     {
       "epoch": 2.85,
-      "learning_rate": 0.0007811700182815357,
-      "loss": 2.5909,
       "step": 1700
     },
     {
       "epoch": 3.02,
-      "learning_rate": 0.0007628884826325412,
-      "loss": 2.5913,
       "step": 1800
     },
     {
       "epoch": 3.18,
-      "learning_rate": 0.0007446069469835466,
-      "loss": 2.5828,
       "step": 1900
     },
     {
       "epoch": 3.35,
-      "learning_rate": 0.0007263254113345521,
-      "loss": 2.5752,
       "step": 2000
     },
     {
       "epoch": 3.35,
-      "eval_loss": 1.960595726966858,
-      "eval_runtime": 416.9162,
-      "eval_samples_per_second": 24.916,
-      "eval_steps_per_second": 3.116,
-      "eval_wer": 0.9961152117209612,
       "step": 2000
     },
     {
       "epoch": 3.52,
-      "learning_rate": 0.0007080438756855576,
-      "loss": 2.5663,
       "step": 2100
     },
     {
       "epoch": 3.68,
-      "learning_rate": 0.0006897623400365632,
-      "loss": 2.5729,
       "step": 2200
     },
     {
       "epoch": 3.85,
-      "learning_rate": 0.0006714808043875685,
-      "loss": 2.5767,
       "step": 2300
     },
     {
       "epoch": 4.02,
-      "learning_rate": 0.0006531992687385741,
-      "loss": 2.5661,
       "step": 2400
     },
     {
       "epoch": 4.19,
-      "learning_rate": 0.0006349177330895795,
-      "loss": 2.539,
       "step": 2500
     },
     {
       "epoch": 4.19,
-      "eval_loss": 1.8835679292678833,
-      "eval_runtime": 417.6452,
-      "eval_samples_per_second": 24.873,
-      "eval_steps_per_second": 3.11,
-      "eval_wer": 0.9939693286715874,
       "step": 2500
     },
     {
       "epoch": 4.35,
-      "learning_rate": 0.000616636197440585,
-      "loss": 2.5237,
       "step": 2600
     },
     {
       "epoch": 4.52,
-      "learning_rate": 0.0005983546617915904,
-      "loss": 2.5464,
       "step": 2700
     },
     {
       "epoch": 4.69,
-      "learning_rate": 0.000580073126142596,
-      "loss": 2.5135,
       "step": 2800
     },
     {
       "epoch": 4.86,
-      "learning_rate": 0.0005617915904936015,
-      "loss": 2.5058,
       "step": 2900
     },
     {
       "epoch": 5.03,
-      "learning_rate": 0.0005435100548446069,
-      "loss": 2.5214,
       "step": 3000
     },
     {
       "epoch": 5.03,
-      "eval_loss": 1.859293818473816,
-      "eval_runtime": 418.88,
-      "eval_samples_per_second": 24.799,
-      "eval_steps_per_second": 3.101,
-      "eval_wer": 0.9933033649666093,
       "step": 3000
     },
     {
       "epoch": 5.19,
-      "learning_rate": 0.0005252285191956125,
-      "loss": 2.4984,
       "step": 3100
     },
     {
       "epoch": 5.36,
-      "learning_rate": 0.0005069469835466179,
-      "loss": 2.4812,
       "step": 3200
     },
     {
       "epoch": 5.53,
-      "learning_rate": 0.0004886654478976234,
-      "loss": 2.4626,
       "step": 3300
     },
     {
       "epoch": 5.69,
-      "learning_rate": 0.0004703839122486289,
-      "loss": 2.476,
       "step": 3400
     },
     {
       "epoch": 5.86,
-      "learning_rate": 0.00045210237659963436,
-      "loss": 2.4684,
       "step": 3500
     },
     {
       "epoch": 5.86,
-      "eval_loss": 1.781636357307434,
-      "eval_runtime": 415.6525,
-      "eval_samples_per_second": 24.992,
-      "eval_steps_per_second": 3.125,
-      "eval_wer": 0.9884566291137133,
       "step": 3500
     },
     {
       "epoch": 6.03,
-      "learning_rate": 0.0004338208409506398,
-      "loss": 2.4739,
       "step": 3600
     },
     {
       "epoch": 6.2,
-      "learning_rate": 0.0004155393053016453,
-      "loss": 2.4494,
       "step": 3700
     },
     {
-      "epoch": 6.36,
-      "learning_rate": 0.00039725776965265084,
-      "loss": 2.4263,
       "step": 3800
     },
     {
       "epoch": 6.53,
-      "learning_rate": 0.00037897623400365635,
-      "loss": 2.4187,
       "step": 3900
     },
     {
       "epoch": 6.7,
-      "learning_rate": 0.0003606946983546618,
-      "loss": 2.4134,
       "step": 4000
     },
     {
       "epoch": 6.7,
-      "eval_loss": 1.7167690992355347,
-      "eval_runtime": 416.8699,
-      "eval_samples_per_second": 24.919,
-      "eval_steps_per_second": 3.116,
-      "eval_wer": 0.9808165454982704,
       "step": 4000
     },
     {
       "epoch": 6.87,
-      "learning_rate": 0.0003424131627056673,
-      "loss": 2.4008,
       "step": 4100
     },
     {
       "epoch": 7.04,
-      "learning_rate": 0.00032413162705667277,
-      "loss": 2.4048,
       "step": 4200
     },
     {
       "epoch": 7.2,
-      "learning_rate": 0.0003058500914076783,
-      "loss": 2.3795,
       "step": 4300
     },
     {
       "epoch": 7.37,
-      "learning_rate": 0.00028756855575868374,
-      "loss": 2.3803,
       "step": 4400
     },
     {
       "epoch": 7.54,
-      "learning_rate": 0.0002692870201096892,
-      "loss": 2.3732,
       "step": 4500
     },
     {
       "epoch": 7.54,
-      "eval_loss": 1.6406092643737793,
-      "eval_runtime": 415.1084,
-      "eval_samples_per_second": 25.025,
-      "eval_steps_per_second": 3.129,
-      "eval_wer": 0.976432284440498,
       "step": 4500
     },
     {
       "epoch": 7.7,
-      "learning_rate": 0.0002510054844606947,
-      "loss": 2.3657,
       "step": 4600
     },
     {
       "epoch": 7.87,
-      "learning_rate": 0.0002327239488117002,
-      "loss": 2.3565,
       "step": 4700
     },
     {
       "epoch": 8.04,
-      "learning_rate": 0.00021462522851919562,
-      "loss": 2.3679,
       "step": 4800
     },
     {
       "epoch": 8.21,
-      "learning_rate": 0.0001963436928702011,
-      "loss": 2.34,
       "step": 4900
     },
     {
-      "epoch": 8.37,
-      "learning_rate": 0.00017806215722120658,
-      "loss": 2.3371,
       "step": 5000
     },
     {
-      "epoch": 8.37,
-      "eval_loss": 1.6087424755096436,
-      "eval_runtime": 417.7716,
-      "eval_samples_per_second": 24.865,
-      "eval_steps_per_second": 3.109,
-      "eval_wer": 0.9739349205468302,
       "step": 5000
     },
     {
       "epoch": 8.54,
-      "learning_rate": 0.00015978062157221207,
-      "loss": 2.3216,
       "step": 5100
     },
     {
       "epoch": 8.71,
-      "learning_rate": 0.00014149908592321755,
-      "loss": 2.3004,
       "step": 5200
     },
     {
       "epoch": 8.88,
-      "learning_rate": 0.00012321755027422303,
-      "loss": 2.3028,
       "step": 5300
     },
     {
       "epoch": 9.05,
-      "learning_rate": 0.00010493601462522852,
-      "loss": 2.3099,
       "step": 5400
     },
     {
       "epoch": 9.21,
-      "learning_rate": 8.6654478976234e-05,
-      "loss": 2.2824,
       "step": 5500
     },
     {
       "epoch": 9.21,
-      "eval_loss": 1.5476473569869995,
-      "eval_runtime": 417.8751,
-      "eval_samples_per_second": 24.859,
-      "eval_steps_per_second": 3.109,
-      "eval_wer": 0.9695691584808628,
       "step": 5500
     },
     {
       "epoch": 9.38,
-      "learning_rate": 0.0005545454545454546,
-      "loss": 2.3577,
       "step": 5600
     },
     {
       "epoch": 9.55,
-      "learning_rate": 0.0005458041958041959,
-      "loss": 2.3723,
       "step": 5700
     },
     {
       "epoch": 9.71,
-      "learning_rate": 0.000537062937062937,
-      "loss": 2.3758,
       "step": 5800
     },
     {
       "epoch": 9.88,
-      "learning_rate": 0.0005283216783216783,
-      "loss": 2.3833,
       "step": 5900
     },
     {
-      "epoch": 10.05,
-      "learning_rate": 0.0005195804195804196,
-      "loss": 2.3771,
-      "step": 6000
-    },
-    {
-      "epoch": 10.05,
-      "eval_loss": 1.6468309164047241,
-      "eval_runtime": 414.4359,
-      "eval_samples_per_second": 25.065,
-      "eval_steps_per_second": 3.134,
-      "eval_wer": 0.9773017370553305,
-      "step": 6000
-    },
-    {
-      "epoch": 10.22,
-      "learning_rate": 0.0005108391608391608,
-      "loss": 2.3673,
-      "step": 6100
-    },
-    {
-      "epoch": 10.38,
-      "learning_rate": 0.0005020979020979021,
-      "loss": 2.3555,
-      "step": 6200
-    },
-    {
-      "epoch": 10.55,
-      "learning_rate": 0.0004933566433566434,
-      "loss": 2.3645,
-      "step": 6300
-    },
-    {
-      "epoch": 10.72,
-      "learning_rate": 0.0004846153846153846,
-      "loss": 2.3617,
-      "step": 6400
-    },
-    {
-      "epoch": 10.89,
-      "learning_rate": 0.0004758741258741259,
-      "loss": 2.3499,
-      "step": 6500
-    },
-    {
-      "epoch": 10.89,
-      "eval_loss": 1.6116454601287842,
-      "eval_runtime": 413.4109,
-      "eval_samples_per_second": 25.128,
-      "eval_steps_per_second": 3.142,
-      "eval_wer": 0.9737314316369757,
-      "step": 6500
-    },
-    {
-      "epoch": 11.06,
-      "learning_rate": 0.0004671328671328671,
-      "loss": 2.3634,
-      "step": 6600
-    },
-    {
-      "epoch": 11.22,
-      "learning_rate": 0.0004583916083916084,
-      "loss": 2.3573,
-      "step": 6700
-    },
-    {
-      "epoch": 11.39,
-      "learning_rate": 0.0004496503496503497,
-      "loss": 2.355,
-      "step": 6800
-    },
-    {
-      "epoch": 11.56,
-      "learning_rate": 0.00044090909090909093,
-      "loss": 2.3543,
-      "step": 6900
-    },
-    {
-      "epoch": 11.72,
-      "learning_rate": 0.00043216783216783216,
-      "loss": 2.3283,
-      "step": 7000
-    },
-    {
-      "epoch": 11.72,
-      "eval_loss": 1.6059322357177734,
-      "eval_runtime": 409.6633,
-      "eval_samples_per_second": 25.357,
-      "eval_steps_per_second": 3.171,
-      "eval_wer": 0.9743973953419539,
-      "step": 7000
-    },
-    {
-      "epoch": 11.89,
-      "learning_rate": 0.00042342657342657344,
-      "loss": 2.3277,
-      "step": 7100
-    },
-    {
-      "epoch": 12.06,
-      "learning_rate": 0.0004146853146853147,
-      "loss": 2.3361,
-      "step": 7200
-    },
-    {
-      "epoch": 12.23,
-      "learning_rate": 0.00040594405594405596,
-      "loss": 2.3199,
-      "step": 7300
-    },
-    {
-      "epoch": 12.39,
-      "learning_rate": 0.00039720279720279725,
-      "loss": 2.3216,
-      "step": 7400
-    },
-    {
-      "epoch": 12.56,
-      "learning_rate": 0.0003884615384615385,
-      "loss": 2.3153,
-      "step": 7500
-    },
-    {
-      "epoch": 12.56,
-      "eval_loss": 1.5888867378234863,
-      "eval_runtime": 416.4655,
-      "eval_samples_per_second": 24.943,
-      "eval_steps_per_second": 3.119,
-      "eval_wer": 0.9758218177109348,
-      "step": 7500
-    },
-    {
-      "epoch": 12.73,
-      "learning_rate": 0.0003797202797202797,
-      "loss": 2.3192,
-      "step": 7600
-    },
-    {
-      "epoch": 12.9,
-      "learning_rate": 0.000370979020979021,
-      "loss": 2.3053,
-      "step": 7700
-    },
-    {
-      "epoch": 13.07,
-      "learning_rate": 0.00036223776223776223,
-      "loss": 2.3185,
-      "step": 7800
-    },
-    {
-      "epoch": 13.23,
-      "learning_rate": 0.0003534965034965035,
-      "loss": 2.3101,
-      "step": 7900
-    },
-    {
-      "epoch": 13.4,
-      "learning_rate": 0.0003447552447552448,
-      "loss": 2.3016,
-      "step": 8000
-    },
-    {
-      "epoch": 13.4,
-      "eval_loss": 1.5663487911224365,
-      "eval_runtime": 415.4876,
-      "eval_samples_per_second": 25.002,
-      "eval_steps_per_second": 3.126,
-      "eval_wer": 0.9727509850713136,
-      "step": 8000
-    },
-    {
-      "epoch": 13.57,
-      "learning_rate": 0.00033601398601398603,
-      "loss": 2.2916,
-      "step": 8100
-    },
-    {
-      "epoch": 13.73,
-      "learning_rate": 0.00032727272727272726,
-      "loss": 2.2904,
-      "step": 8200
-    },
-    {
-      "epoch": 13.9,
-      "learning_rate": 0.00031853146853146855,
-      "loss": 2.2708,
-      "step": 8300
-    },
-    {
-      "epoch": 14.07,
-      "learning_rate": 0.0003097902097902098,
-      "loss": 2.2876,
-      "step": 8400
-    },
-    {
-      "epoch": 14.24,
-      "learning_rate": 0.00030104895104895107,
-      "loss": 2.2731,
-      "step": 8500
-    },
-    {
-      "epoch": 14.24,
-      "eval_loss": 1.567448377609253,
-      "eval_runtime": 407.9046,
-      "eval_samples_per_second": 25.467,
-      "eval_steps_per_second": 3.185,
-      "eval_wer": 0.9626135375622029,
-      "step": 8500
-    },
-    {
-      "epoch": 14.41,
-      "learning_rate": 0.00029230769230769235,
-      "loss": 2.2482,
-      "step": 8600
-    },
-    {
-      "epoch": 14.57,
-      "learning_rate": 0.0002835664335664336,
-      "loss": 2.2559,
-      "step": 8700
-    },
-    {
-      "epoch": 14.74,
-      "learning_rate": 0.0002748251748251748,
-      "loss": 2.2726,
-      "step": 8800
-    },
-    {
-      "epoch": 14.91,
-      "learning_rate": 0.0002660839160839161,
-      "loss": 2.2508,
-      "step": 8900
-    },
-    {
-      "epoch": 15.08,
-      "learning_rate": 0.00025743006993006993,
-      "loss": 2.2617,
-      "step": 9000
-    },
-    {
-      "epoch": 15.08,
-      "eval_loss": 1.5032401084899902,
-      "eval_runtime": 409.6274,
-      "eval_samples_per_second": 25.36,
-      "eval_steps_per_second": 3.171,
-      "eval_wer": 0.9583402704552602,
-      "step": 9000
-    },
-    {
-      "epoch": 15.24,
-      "learning_rate": 0.0002486888111888112,
-      "loss": 2.2396,
-      "step": 9100
-    },
-    {
-      "epoch": 15.41,
-      "learning_rate": 0.00023994755244755245,
-      "loss": 2.2448,
-      "step": 9200
-    },
-    {
-      "epoch": 15.58,
-      "learning_rate": 0.0002312062937062937,
-      "loss": 2.225,
-      "step": 9300
-    },
-    {
-      "epoch": 15.74,
-      "learning_rate": 0.00022246503496503497,
-      "loss": 2.2319,
-      "step": 9400
-    },
-    {
-      "epoch": 15.91,
-      "learning_rate": 0.00021372377622377623,
-      "loss": 2.2252,
-      "step": 9500
-    },
-    {
-      "epoch": 15.91,
-      "eval_loss": 1.466213345527649,
-      "eval_runtime": 409.5049,
-      "eval_samples_per_second": 25.367,
-      "eval_steps_per_second": 3.172,
-      "eval_wer": 0.9516436354218695,
-      "step": 9500
-    },
-    {
-      "epoch": 16.08,
-      "learning_rate": 0.00020498251748251749,
-      "loss": 2.2324,
-      "step": 9600
-    },
-    {
-      "epoch": 16.25,
-      "learning_rate": 0.00019624125874125875,
-      "loss": 2.2197,
-      "step": 9700
-    },
-    {
-      "epoch": 16.42,
-      "learning_rate": 0.0001875,
-      "loss": 2.2061,
-      "step": 9800
-    },
-    {
-      "epoch": 16.58,
-      "learning_rate": 0.00017875874125874126,
-      "loss": 2.2062,
-      "step": 9900
-    },
-    {
-      "epoch": 16.75,
-      "learning_rate": 0.00017001748251748252,
-      "loss": 2.2048,
-      "step": 10000
-    },
-    {
-      "epoch": 16.75,
-      "eval_loss": 1.4410929679870605,
-      "eval_runtime": 408.38,
-      "eval_samples_per_second": 25.437,
-      "eval_steps_per_second": 3.181,
-      "eval_wer": 0.9561018924468616,
-      "step": 10000
-    },
-    {
-      "epoch": 16.92,
-      "learning_rate": 0.00016127622377622378,
-      "loss": 2.1942,
-      "step": 10100
-    },
-    {
-      "epoch": 17.09,
-      "learning_rate": 0.00015253496503496504,
-      "loss": 2.2158,
-      "step": 10200
-    },
-    {
-      "epoch": 17.25,
-      "learning_rate": 0.0001437937062937063,
-      "loss": 2.1851,
-      "step": 10300
-    },
-    {
-      "epoch": 17.42,
-      "learning_rate": 0.00013505244755244756,
-      "loss": 2.1798,
-      "step": 10400
-    },
-    {
-      "epoch": 17.59,
-      "learning_rate": 0.00012631118881118882,
-      "loss": 2.1731,
-      "step": 10500
-    },
-    {
-      "epoch": 17.59,
-      "eval_loss": 1.422843337059021,
-      "eval_runtime": 412.7138,
-      "eval_samples_per_second": 25.17,
-      "eval_steps_per_second": 3.147,
-      "eval_wer": 0.9521061102169932,
-      "step": 10500
-    },
-    {
-      "epoch": 17.75,
-      "learning_rate": 0.00011756993006993007,
-      "loss": 2.1736,
-      "step": 10600
-    },
-    {
-      "epoch": 17.92,
-      "learning_rate": 0.00010882867132867133,
-      "loss": 2.182,
-      "step": 10700
-    },
-    {
-      "epoch": 18.09,
-      "learning_rate": 0.00010008741258741259,
-      "loss": 2.1741,
-      "step": 10800
-    },
-    {
-      "epoch": 18.26,
-      "learning_rate": 9.134615384615384e-05,
-      "loss": 2.1636,
-      "step": 10900
-    },
-    {
-      "epoch": 18.43,
-      "learning_rate": 8.260489510489511e-05,
-      "loss": 2.1732,
-      "step": 11000
-    },
-    {
-      "epoch": 18.43,
-      "eval_loss": 1.4052633047103882,
-      "eval_runtime": 410.158,
-      "eval_samples_per_second": 25.327,
-      "eval_steps_per_second": 3.167,
-      "eval_wer": 0.9428566143145198,
-      "step": 11000
-    },
-    {
-      "epoch": 18.59,
-      "learning_rate": 7.386363636363637e-05,
-      "loss": 2.1666,
-      "step": 11100
-    },
-    {
-      "epoch": 18.76,
-      "learning_rate": 6.512237762237761e-05,
-      "loss": 2.1612,
-      "step": 11200
-    },
-    {
-      "epoch": 18.93,
-      "learning_rate": 5.638111888111888e-05,
-      "loss": 2.1616,
-      "step": 11300
-    },
-    {
-      "epoch": 19.1,
-      "learning_rate": 4.763986013986014e-05,
-      "loss": 2.1752,
-      "step": 11400
-    },
-    {
-      "epoch": 19.26,
-      "learning_rate": 3.88986013986014e-05,
-      "loss": 2.1502,
-      "step": 11500
-    },
-    {
-      "epoch": 19.26,
-      "eval_loss": 1.3827834129333496,
-      "eval_runtime": 410.5205,
-      "eval_samples_per_second": 25.304,
-      "eval_steps_per_second": 3.164,
-      "eval_wer": 0.9399522726011432,
-      "step": 11500
-    },
-    {
-      "epoch": 19.43,
-      "learning_rate": 3.0157342657342658e-05,
-      "loss": 2.1506,
-      "step": 11600
-    },
-    {
-      "epoch": 19.6,
-      "learning_rate": 2.1416083916083917e-05,
-      "loss": 2.1489,
-      "step": 11700
-    },
-    {
-      "epoch": 19.76,
-      "learning_rate": 1.2674825174825174e-05,
-      "loss": 2.1472,
-      "step": 11800
-    },
-    {
-      "epoch": 19.93,
-      "learning_rate": 3.933566433566434e-06,
-      "loss": 2.1453,
-      "step": 11900
-    },
-    {
-      "epoch": 20.0,
-      "step": 11940,
-      "total_flos": 2.027398301943103e+20,
-      "train_loss": 1.2195568717304786,
-      "train_runtime": 26512.2441,
-      "train_samples_per_second": 28.824,
-      "train_steps_per_second": 0.45
     }
   ],
-  "max_steps": 11940,
-  "num_train_epochs": 20,
-  "total_flos": 2.027398301943103e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.999581414817916,
+  "global_step": 5970,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.17,
+      "learning_rate": 4.9000000000000005e-05,
+      "loss": 5.3488,
       "step": 100
     },
     {
       "epoch": 0.33,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 3.2572,
       "step": 200
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.000149,
+      "loss": 2.4392,
       "step": 300
     },
     {
       "epoch": 0.67,
+      "learning_rate": 0.000199,
+      "loss": 2.2566,
       "step": 400
     },
     {
       "epoch": 0.84,
+      "learning_rate": 0.000249,
+      "loss": 2.2416,
       "step": 500
     },
     {
       "epoch": 0.84,
+      "eval_loss": 1.2866647243499756,
+      "eval_runtime": 434.4225,
+      "eval_samples_per_second": 23.912,
+      "eval_steps_per_second": 2.99,
+      "eval_wer": 0.8874521338587047,
       "step": 500
     },
     {
       "epoch": 1.01,
+      "learning_rate": 0.000299,
+      "loss": 2.2596,
       "step": 600
     },
     {
       "epoch": 1.17,
+      "learning_rate": 0.00034899999999999997,
+      "loss": 2.2575,
       "step": 700
     },
     {
       "epoch": 1.34,
+      "learning_rate": 0.00039900000000000005,
+      "loss": 2.2978,
       "step": 800
     },
     {
       "epoch": 1.51,
+      "learning_rate": 0.000449,
+      "loss": 2.2998,
       "step": 900
     },
     {
       "epoch": 1.67,
+      "learning_rate": 0.000499,
+      "loss": 2.3089,
       "step": 1000
     },
     {
       "epoch": 1.67,
+      "eval_loss": 1.8336485624313354,
+      "eval_runtime": 430.7741,
+      "eval_samples_per_second": 24.115,
+      "eval_steps_per_second": 3.016,
+      "eval_wer": 0.9547514660451005,
       "step": 1000
     },
     {
       "epoch": 1.84,
+      "learning_rate": 0.000549,
+      "loss": 2.3156,
       "step": 1100
     },
     {
       "epoch": 2.01,
+      "learning_rate": 0.000599,
+      "loss": 2.3298,
       "step": 1200
     },
     {
       "epoch": 2.18,
+      "learning_rate": 0.0006490000000000001,
+      "loss": 2.3174,
       "step": 1300
     },
     {
       "epoch": 2.34,
+      "learning_rate": 0.000699,
+      "loss": 2.349,
       "step": 1400
     },
     {
       "epoch": 2.51,
+      "learning_rate": 0.000749,
+      "loss": 2.3614,
       "step": 1500
     },
     {
       "epoch": 2.51,
+      "eval_loss": 1.5936506986618042,
+      "eval_runtime": 430.1389,
+      "eval_samples_per_second": 24.15,
+      "eval_steps_per_second": 3.02,
+      "eval_wer": 0.9468893945279983,
       "step": 1500
     },
     {
       "epoch": 2.68,
+      "learning_rate": 0.000799,
+      "loss": 2.3597,
       "step": 1600
     },
     {
       "epoch": 2.85,
+      "learning_rate": 0.000849,
+      "loss": 2.397,
       "step": 1700
     },
     {
       "epoch": 3.02,
+      "learning_rate": 0.0008990000000000001,
+      "loss": 2.4454,
       "step": 1800
     },
     {
       "epoch": 3.18,
+      "learning_rate": 0.000949,
+      "loss": 2.4806,
       "step": 1900
     },
     {
       "epoch": 3.35,
+      "learning_rate": 0.000999,
+      "loss": 2.5234,
       "step": 2000
     },
     {
       "epoch": 3.35,
+      "eval_loss": 1.9764641523361206,
+      "eval_runtime": 434.6883,
+      "eval_samples_per_second": 23.898,
+      "eval_steps_per_second": 2.988,
+      "eval_wer": 0.9866992248922434,
       "step": 2000
     },
     {
       "epoch": 3.52,
+      "learning_rate": 0.0009753148614609572,
+      "loss": 2.5559,
       "step": 2100
     },
     {
       "epoch": 3.68,
+      "learning_rate": 0.0009501259445843828,
+      "loss": 2.5543,
       "step": 2200
     },
     {
       "epoch": 3.85,
+      "learning_rate": 0.0009249370277078086,
+      "loss": 2.5819,
       "step": 2300
     },
     {
       "epoch": 4.02,
+      "learning_rate": 0.0008997481108312343,
+      "loss": 2.5837,
       "step": 2400
     },
     {
       "epoch": 4.19,
+      "learning_rate": 0.00087455919395466,
+      "loss": 2.5373,
       "step": 2500
     },
     {
       "epoch": 4.19,
+      "eval_loss": 1.9062319993972778,
+      "eval_runtime": 430.3022,
+      "eval_samples_per_second": 24.141,
+      "eval_steps_per_second": 3.019,
+      "eval_wer": 0.9916014577205542,
       "step": 2500
     },
     {
       "epoch": 4.35,
+      "learning_rate": 0.0008493702770780856,
+      "loss": 2.5617,
       "step": 2600
     },
     {
       "epoch": 4.52,
+      "learning_rate": 0.0008241813602015113,
+      "loss": 2.5553,
       "step": 2700
     },
     {
       "epoch": 4.69,
+      "learning_rate": 0.0007989924433249371,
+      "loss": 2.549,
       "step": 2800
     },
     {
       "epoch": 4.86,
+      "learning_rate": 0.0007738035264483628,
+      "loss": 2.5636,
       "step": 2900
     },
     {
       "epoch": 5.03,
+      "learning_rate": 0.0007486146095717884,
+      "loss": 2.5703,
       "step": 3000
     },
     {
       "epoch": 5.03,
+      "eval_loss": 1.977164387702942,
+      "eval_runtime": 431.1212,
+      "eval_samples_per_second": 24.095,
+      "eval_steps_per_second": 3.013,
+      "eval_wer": 0.9914719647779197,
       "step": 3000
     },
     {
       "epoch": 5.19,
+      "learning_rate": 0.0007234256926952141,
+      "loss": 2.5526,
       "step": 3100
     },
     {
       "epoch": 5.36,
+      "learning_rate": 0.0006982367758186398,
+      "loss": 2.5277,
       "step": 3200
     },
     {
       "epoch": 5.53,
+      "learning_rate": 0.0006730478589420656,
+      "loss": 2.4969,
       "step": 3300
     },
     {
       "epoch": 5.69,
+      "learning_rate": 0.0006478589420654912,
+      "loss": 2.4849,
       "step": 3400
     },
     {
       "epoch": 5.86,
+      "learning_rate": 0.0006226700251889169,
+      "loss": 2.4656,
       "step": 3500
     },
     {
       "epoch": 5.86,
+      "eval_loss": 1.8083465099334717,
+      "eval_runtime": 432.7157,
+      "eval_samples_per_second": 24.007,
+      "eval_steps_per_second": 3.002,
+      "eval_wer": 0.9829069315722293,
       "step": 3500
     },
     {
       "epoch": 6.03,
+      "learning_rate": 0.0005974811083123426,
+      "loss": 2.4858,
       "step": 3600
     },
     {
       "epoch": 6.2,
+      "learning_rate": 0.0005722921914357682,
+      "loss": 2.4552,
       "step": 3700
     },
     {
+      "epoch": 6.37,
+      "learning_rate": 0.0005471032745591939,
+      "loss": 2.4302,
       "step": 3800
     },
     {
       "epoch": 6.53,
+      "learning_rate": 0.0005219143576826196,
+      "loss": 2.4397,
       "step": 3900
     },
     {
       "epoch": 6.7,
+      "learning_rate": 0.0004967254408060454,
+      "loss": 2.4339,
       "step": 4000
     },
     {
       "epoch": 6.7,
+      "eval_loss": 1.754757046699524,
+      "eval_runtime": 442.6863,
+      "eval_samples_per_second": 23.466,
+      "eval_steps_per_second": 2.934,
+      "eval_wer": 0.9752483489649814,
       "step": 4000
     },
     {
       "epoch": 6.87,
+      "learning_rate": 0.00047153652392947104,
+      "loss": 2.4069,
       "step": 4100
     },
     {
       "epoch": 7.04,
+      "learning_rate": 0.0004463476070528967,
+      "loss": 2.3863,
       "step": 4200
     },
     {
       "epoch": 7.2,
+      "learning_rate": 0.00042115869017632243,
+      "loss": 2.3614,
       "step": 4300
     },
     {
       "epoch": 7.37,
+      "learning_rate": 0.0003959697732997481,
+      "loss": 2.3534,
       "step": 4400
     },
     {
       "epoch": 7.54,
+      "learning_rate": 0.00037078085642317383,
+      "loss": 2.344,
       "step": 4500
     },
     {
       "epoch": 7.54,
+      "eval_loss": 1.6146422624588013,
+      "eval_runtime": 432.0313,
+      "eval_samples_per_second": 24.045,
+      "eval_steps_per_second": 3.007,
+      "eval_wer": 0.9638344710213294,
       "step": 4500
     },
     {
       "epoch": 7.7,
+      "learning_rate": 0.0003455919395465995,
+      "loss": 2.3322,
       "step": 4600
     },
     {
       "epoch": 7.87,
+      "learning_rate": 0.0003204030226700252,
+      "loss": 2.315,
       "step": 4700
     },
     {
       "epoch": 8.04,
+      "learning_rate": 0.00029521410579345085,
+      "loss": 2.3035,
       "step": 4800
     },
     {
       "epoch": 8.21,
+      "learning_rate": 0.0002700251889168766,
+      "loss": 2.2715,
       "step": 4900
     },
     {
+      "epoch": 8.38,
+      "learning_rate": 0.00024483627204030224,
+      "loss": 2.2677,
       "step": 5000
     },
     {
+      "epoch": 8.38,
+      "eval_loss": 1.5104962587356567,
+      "eval_runtime": 431.1839,
+      "eval_samples_per_second": 24.092,
+      "eval_steps_per_second": 3.013,
+      "eval_wer": 0.9499232291840095,
       "step": 5000
     },
     {
       "epoch": 8.54,
+      "learning_rate": 0.00021964735516372797,
+      "loss": 2.266,
       "step": 5100
     },
     {
       "epoch": 8.71,
+      "learning_rate": 0.00019445843828715364,
+      "loss": 2.2473,
       "step": 5200
     },
     {
       "epoch": 8.88,
+      "learning_rate": 0.00016926952141057937,
+      "loss": 2.2419,
       "step": 5300
     },
     {
       "epoch": 9.05,
+      "learning_rate": 0.00014408060453400504,
+      "loss": 2.2305,
       "step": 5400
     },
     {
       "epoch": 9.21,
+      "learning_rate": 0.00011889168765743074,
+      "loss": 2.2074,
       "step": 5500
     },
     {
       "epoch": 9.21,
+      "eval_loss": 1.4190884828567505,
+      "eval_runtime": 440.4999,
+      "eval_samples_per_second": 23.582,
+      "eval_steps_per_second": 2.949,
+      "eval_wer": 0.9356790054942006,
       "step": 5500
     },
     {
       "epoch": 9.38,
+      "learning_rate": 9.370277078085642e-05,
+      "loss": 2.1936,
       "step": 5600
     },
     {
       "epoch": 9.55,
+      "learning_rate": 6.851385390428212e-05,
+      "loss": 2.1796,
       "step": 5700
     },
     {
       "epoch": 9.71,
+      "learning_rate": 4.332493702770781e-05,
+      "loss": 2.1748,
       "step": 5800
     },
     {
       "epoch": 9.88,
+      "learning_rate": 1.8136020151133502e-05,
+      "loss": 2.1846,
       "step": 5900
     },
     {
+      "epoch": 10.0,
+      "step": 5970,
+      "total_flos": 1.0051413716540667e+20,
+      "train_loss": 2.4458747799871756,
+      "train_runtime": 25997.2696,
+      "train_samples_per_second": 14.697,
+      "train_steps_per_second": 0.23
     }
   ],
+  "max_steps": 5970,
+  "num_train_epochs": 10,
+  "total_flos": 1.0051413716540667e+20,
   "trial_name": null,
   "trial_params": null
 }