AndrewMcDowell
/

wav2vec2-xls-r-1b-arabic

@@ -1,14 +1,14 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.9693832397460938,
-    "eval_runtime": 412.1508,
     "eval_samples": 10388,
-    "eval_samples_per_second": 25.204,
-    "eval_steps_per_second": 3.152,
-    "eval_wer": 0.7823963593984128,
-    "train_loss": 2.3014913469352978,
-    "train_runtime": 21335.6515,
     "train_samples": 38209,
-    "train_samples_per_second": 17.909,
-    "train_steps_per_second": 0.14
 }

 {
     "epoch": 10.0,
+    "eval_loss": 1.5198630094528198,
+    "eval_runtime": 420.7858,
     "eval_samples": 10388,
+    "eval_samples_per_second": 24.687,
+    "eval_steps_per_second": 3.087,
+    "eval_wer": 0.9682742290545165,
+    "train_loss": 2.5334128375029445,
+    "train_runtime": 24080.0149,
     "train_samples": 38209,
+    "train_samples_per_second": 15.868,
+    "train_steps_per_second": 0.248
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.9693832397460938,
-    "eval_runtime": 412.1508,
     "eval_samples": 10388,
-    "eval_samples_per_second": 25.204,
-    "eval_steps_per_second": 3.152,
-    "eval_wer": 0.7823963593984128
 }

 {
     "epoch": 10.0,
+    "eval_loss": 1.5198630094528198,
+    "eval_runtime": 420.7858,
     "eval_samples": 10388,
+    "eval_samples_per_second": 24.687,
+    "eval_steps_per_second": 3.087,
+    "eval_wer": 0.9682742290545165
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "train_loss": 2.3014913469352978,
-    "train_runtime": 21335.6515,
     "train_samples": 38209,
-    "train_samples_per_second": 17.909,
-    "train_steps_per_second": 0.14
 }

 {
     "epoch": 10.0,
+    "train_loss": 2.5334128375029445,
+    "train_runtime": 24080.0149,
     "train_samples": 38209,
+    "train_samples_per_second": 15.868,
+    "train_steps_per_second": 0.248
 }

trainer_state.json CHANGED Viewed

@@ -1,244 +1,478 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.997489539748955,
-  "global_step": 2980,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.33,
-      "learning_rate": 4.9000000000000005e-05,
-      "loss": 5.3579,
       "step": 100
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 9.900000000000001e-05,
-      "loss": 3.2697,
       "step": 200
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 0.000149,
-      "loss": 2.4711,
       "step": 300
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 0.000199,
-      "loss": 2.1202,
       "step": 400
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 0.000249,
-      "loss": 2.0846,
       "step": 500
     },
     {
-      "epoch": 1.68,
-      "eval_loss": 1.1640619039535522,
-      "eval_runtime": 414.2546,
-      "eval_samples_per_second": 25.076,
-      "eval_steps_per_second": 3.136,
-      "eval_wer": 0.8072035074088462,
       "step": 500
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 0.000299,
-      "loss": 2.1202,
       "step": 600
     },
     {
-      "epoch": 2.35,
-      "learning_rate": 0.00034899999999999997,
-      "loss": 2.1037,
       "step": 700
     },
     {
-      "epoch": 2.68,
-      "learning_rate": 0.00039900000000000005,
-      "loss": 2.0882,
       "step": 800
     },
     {
-      "epoch": 3.02,
-      "learning_rate": 0.000449,
-      "loss": 2.126,
       "step": 900
     },
     {
-      "epoch": 3.35,
-      "learning_rate": 0.000499,
-      "loss": 2.1201,
       "step": 1000
     },
     {
-      "epoch": 3.35,
-      "eval_loss": 1.1776171922683716,
-      "eval_runtime": 424.2371,
-      "eval_samples_per_second": 24.486,
-      "eval_steps_per_second": 3.062,
-      "eval_wer": 0.8329171060177221,
       "step": 1000
     },
     {
-      "epoch": 3.69,
-      "learning_rate": 0.000549,
-      "loss": 2.1435,
       "step": 1100
     },
     {
-      "epoch": 4.03,
-      "learning_rate": 0.000599,
-      "loss": 2.152,
       "step": 1200
     },
     {
-      "epoch": 4.36,
-      "learning_rate": 0.0006490000000000001,
-      "loss": 2.11,
       "step": 1300
     },
     {
-      "epoch": 4.7,
-      "learning_rate": 0.000699,
-      "loss": 2.1503,
       "step": 1400
     },
     {
-      "epoch": 5.03,
-      "learning_rate": 0.000749,
-      "loss": 2.1972,
       "step": 1500
     },
     {
-      "epoch": 5.03,
-      "eval_loss": 1.2631869316101074,
-      "eval_runtime": 410.677,
-      "eval_samples_per_second": 25.295,
-      "eval_steps_per_second": 3.163,
-      "eval_wer": 0.8723754555376732,
       "step": 1500
     },
     {
-      "epoch": 5.37,
-      "learning_rate": 0.000799,
-      "loss": 2.1788,
       "step": 1600
     },
     {
-      "epoch": 5.7,
-      "learning_rate": 0.000849,
-      "loss": 2.1774,
       "step": 1700
     },
     {
-      "epoch": 6.04,
-      "learning_rate": 0.0008990000000000001,
-      "loss": 2.2205,
       "step": 1800
     },
     {
-      "epoch": 6.37,
-      "learning_rate": 0.000949,
-      "loss": 2.2466,
       "step": 1900
     },
     {
-      "epoch": 6.71,
-      "learning_rate": 0.000999,
-      "loss": 2.2643,
       "step": 2000
     },
     {
-      "epoch": 6.71,
-      "eval_loss": 1.372324824333191,
-      "eval_runtime": 411.6031,
-      "eval_samples_per_second": 25.238,
-      "eval_steps_per_second": 3.156,
-      "eval_wer": 0.8982740440645984,
       "step": 2000
     },
     {
-      "epoch": 7.05,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 2.2996,
       "step": 2100
     },
     {
-      "epoch": 7.38,
-      "learning_rate": 0.0007979591836734694,
-      "loss": 2.2775,
       "step": 2200
     },
     {
-      "epoch": 7.72,
-      "learning_rate": 0.0006959183673469388,
-      "loss": 2.2478,
       "step": 2300
     },
     {
-      "epoch": 8.05,
-      "learning_rate": 0.0005938775510204082,
-      "loss": 2.2288,
       "step": 2400
     },
     {
-      "epoch": 8.39,
-      "learning_rate": 0.0004918367346938776,
-      "loss": 2.1649,
       "step": 2500
     },
     {
-      "epoch": 8.39,
-      "eval_loss": 1.25503671169281,
-      "eval_runtime": 416.24,
-      "eval_samples_per_second": 24.957,
-      "eval_steps_per_second": 3.121,
-      "eval_wer": 0.884196311301034,
       "step": 2500
     },
     {
-      "epoch": 8.72,
-      "learning_rate": 0.000389795918367347,
-      "loss": 2.1054,
       "step": 2600
     },
     {
-      "epoch": 9.06,
-      "learning_rate": 0.00028775510204081633,
-      "loss": 2.0872,
       "step": 2700
     },
     {
-      "epoch": 9.39,
-      "learning_rate": 0.00018571428571428572,
-      "loss": 1.9953,
       "step": 2800
     },
     {
-      "epoch": 9.73,
-      "learning_rate": 8.36734693877551e-05,
-      "loss": 1.9474,
       "step": 2900
     },
     {
       "epoch": 10.0,
-      "step": 2980,
-      "total_flos": 1.006981652948512e+20,
-      "train_loss": 2.3014913469352978,
-      "train_runtime": 21335.6515,
-      "train_samples_per_second": 17.909,
-      "train_steps_per_second": 0.14
     }
   ],
-  "max_steps": 2980,
   "num_train_epochs": 10,
-  "total_flos": 1.006981652948512e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.999163179916318,
+  "global_step": 5970,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.17,
+      "learning_rate": 0.000194,
+      "loss": 4.6647,
       "step": 100
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00039400000000000004,
+      "loss": 3.2495,
       "step": 200
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.000594,
+      "loss": 2.8044,
       "step": 300
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 0.0007940000000000001,
+      "loss": 2.6636,
       "step": 400
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.000994,
+      "loss": 2.6638,
       "step": 500
     },
     {
+      "epoch": 0.84,
+      "eval_loss": 2.3851921558380127,
+      "eval_runtime": 415.3375,
+      "eval_samples_per_second": 25.011,
+      "eval_steps_per_second": 3.128,
+      "eval_wer": 0.9974286401391124,
       "step": 500
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.0009822669104204754,
+      "loss": 2.6437,
       "step": 600
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 0.0009639853747714809,
+      "loss": 2.6394,
       "step": 700
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 0.0009457038391224862,
+      "loss": 2.6303,
       "step": 800
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 0.0009274223034734918,
+      "loss": 2.6351,
       "step": 900
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 0.0009091407678244972,
+      "loss": 2.6578,
       "step": 1000
     },
     {
+      "epoch": 1.67,
+      "eval_loss": 2.2796220779418945,
+      "eval_runtime": 416.0072,
+      "eval_samples_per_second": 24.971,
+      "eval_steps_per_second": 3.123,
+      "eval_wer": 0.9970586603030135,
       "step": 1000
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 0.0008908592321755028,
+      "loss": 2.6462,
       "step": 1100
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 0.0008725776965265082,
+      "loss": 2.6498,
       "step": 1200
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 0.0008542961608775137,
+      "loss": 2.614,
       "step": 1300
     },
     {
+      "epoch": 2.34,
+      "learning_rate": 0.0008360146252285192,
+      "loss": 2.6209,
       "step": 1400
     },
     {
+      "epoch": 2.51,
+      "learning_rate": 0.0008177330895795247,
+      "loss": 2.6016,
       "step": 1500
     },
     {
+      "epoch": 2.51,
+      "eval_loss": 2.004575252532959,
+      "eval_runtime": 417.037,
+      "eval_samples_per_second": 24.909,
+      "eval_steps_per_second": 3.115,
+      "eval_wer": 0.9960782137373513,
       "step": 1500
     },
     {
+      "epoch": 2.68,
+      "learning_rate": 0.0007994515539305302,
+      "loss": 2.5937,
       "step": 1600
     },
     {
+      "epoch": 2.85,
+      "learning_rate": 0.0007811700182815357,
+      "loss": 2.5909,
       "step": 1700
     },
     {
+      "epoch": 3.02,
+      "learning_rate": 0.0007628884826325412,
+      "loss": 2.5913,
       "step": 1800
     },
     {
+      "epoch": 3.18,
+      "learning_rate": 0.0007446069469835466,
+      "loss": 2.5828,
       "step": 1900
     },
     {
+      "epoch": 3.35,
+      "learning_rate": 0.0007263254113345521,
+      "loss": 2.5752,
       "step": 2000
     },
     {
+      "epoch": 3.35,
+      "eval_loss": 1.960595726966858,
+      "eval_runtime": 416.9162,
+      "eval_samples_per_second": 24.916,
+      "eval_steps_per_second": 3.116,
+      "eval_wer": 0.9961152117209612,
       "step": 2000
     },
     {
+      "epoch": 3.52,
+      "learning_rate": 0.0007080438756855576,
+      "loss": 2.5663,
       "step": 2100
     },
     {
+      "epoch": 3.68,
+      "learning_rate": 0.0006897623400365632,
+      "loss": 2.5729,
       "step": 2200
     },
     {
+      "epoch": 3.85,
+      "learning_rate": 0.0006714808043875685,
+      "loss": 2.5767,
       "step": 2300
     },
     {
+      "epoch": 4.02,
+      "learning_rate": 0.0006531992687385741,
+      "loss": 2.5661,
       "step": 2400
     },
     {
+      "epoch": 4.19,
+      "learning_rate": 0.0006349177330895795,
+      "loss": 2.539,
       "step": 2500
     },
     {
+      "epoch": 4.19,
+      "eval_loss": 1.8835679292678833,
+      "eval_runtime": 417.6452,
+      "eval_samples_per_second": 24.873,
+      "eval_steps_per_second": 3.11,
+      "eval_wer": 0.9939693286715874,
       "step": 2500
     },
     {
+      "epoch": 4.35,
+      "learning_rate": 0.000616636197440585,
+      "loss": 2.5237,
       "step": 2600
     },
     {
+      "epoch": 4.52,
+      "learning_rate": 0.0005983546617915904,
+      "loss": 2.5464,
       "step": 2700
     },
     {
+      "epoch": 4.69,
+      "learning_rate": 0.000580073126142596,
+      "loss": 2.5135,
       "step": 2800
     },
     {
+      "epoch": 4.86,
+      "learning_rate": 0.0005617915904936015,
+      "loss": 2.5058,
       "step": 2900
     },
+    {
+      "epoch": 5.03,
+      "learning_rate": 0.0005435100548446069,
+      "loss": 2.5214,
+      "step": 3000
+    },
+    {
+      "epoch": 5.03,
+      "eval_loss": 1.859293818473816,
+      "eval_runtime": 418.88,
+      "eval_samples_per_second": 24.799,
+      "eval_steps_per_second": 3.101,
+      "eval_wer": 0.9933033649666093,
+      "step": 3000
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 0.0005252285191956125,
+      "loss": 2.4984,
+      "step": 3100
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 0.0005069469835466179,
+      "loss": 2.4812,
+      "step": 3200
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 0.0004886654478976234,
+      "loss": 2.4626,
+      "step": 3300
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.0004703839122486289,
+      "loss": 2.476,
+      "step": 3400
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 0.00045210237659963436,
+      "loss": 2.4684,
+      "step": 3500
+    },
+    {
+      "epoch": 5.86,
+      "eval_loss": 1.781636357307434,
+      "eval_runtime": 415.6525,
+      "eval_samples_per_second": 24.992,
+      "eval_steps_per_second": 3.125,
+      "eval_wer": 0.9884566291137133,
+      "step": 3500
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 0.0004338208409506398,
+      "loss": 2.4739,
+      "step": 3600
+    },
+    {
+      "epoch": 6.2,
+      "learning_rate": 0.0004155393053016453,
+      "loss": 2.4494,
+      "step": 3700
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 0.00039725776965265084,
+      "loss": 2.4263,
+      "step": 3800
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 0.00037897623400365635,
+      "loss": 2.4187,
+      "step": 3900
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 0.0003606946983546618,
+      "loss": 2.4134,
+      "step": 4000
+    },
+    {
+      "epoch": 6.7,
+      "eval_loss": 1.7167690992355347,
+      "eval_runtime": 416.8699,
+      "eval_samples_per_second": 24.919,
+      "eval_steps_per_second": 3.116,
+      "eval_wer": 0.9808165454982704,
+      "step": 4000
+    },
+    {
+      "epoch": 6.87,
+      "learning_rate": 0.0003424131627056673,
+      "loss": 2.4008,
+      "step": 4100
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 0.00032413162705667277,
+      "loss": 2.4048,
+      "step": 4200
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 0.0003058500914076783,
+      "loss": 2.3795,
+      "step": 4300
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.00028756855575868374,
+      "loss": 2.3803,
+      "step": 4400
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 0.0002692870201096892,
+      "loss": 2.3732,
+      "step": 4500
+    },
+    {
+      "epoch": 7.54,
+      "eval_loss": 1.6406092643737793,
+      "eval_runtime": 415.1084,
+      "eval_samples_per_second": 25.025,
+      "eval_steps_per_second": 3.129,
+      "eval_wer": 0.976432284440498,
+      "step": 4500
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 0.0002510054844606947,
+      "loss": 2.3657,
+      "step": 4600
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 0.0002327239488117002,
+      "loss": 2.3565,
+      "step": 4700
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 0.00021462522851919562,
+      "loss": 2.3679,
+      "step": 4800
+    },
+    {
+      "epoch": 8.21,
+      "learning_rate": 0.0001963436928702011,
+      "loss": 2.34,
+      "step": 4900
+    },
+    {
+      "epoch": 8.37,
+      "learning_rate": 0.00017806215722120658,
+      "loss": 2.3371,
+      "step": 5000
+    },
+    {
+      "epoch": 8.37,
+      "eval_loss": 1.6087424755096436,
+      "eval_runtime": 417.7716,
+      "eval_samples_per_second": 24.865,
+      "eval_steps_per_second": 3.109,
+      "eval_wer": 0.9739349205468302,
+      "step": 5000
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 0.00015978062157221207,
+      "loss": 2.3216,
+      "step": 5100
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 0.00014149908592321755,
+      "loss": 2.3004,
+      "step": 5200
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 0.00012321755027422303,
+      "loss": 2.3028,
+      "step": 5300
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 0.00010493601462522852,
+      "loss": 2.3099,
+      "step": 5400
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 8.6654478976234e-05,
+      "loss": 2.2824,
+      "step": 5500
+    },
+    {
+      "epoch": 9.21,
+      "eval_loss": 1.5476473569869995,
+      "eval_runtime": 417.8751,
+      "eval_samples_per_second": 24.859,
+      "eval_steps_per_second": 3.109,
+      "eval_wer": 0.9695691584808628,
+      "step": 5500
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 6.83729433272395e-05,
+      "loss": 2.2888,
+      "step": 5600
+    },
+    {
+      "epoch": 9.55,
+      "learning_rate": 5.0091407678244975e-05,
+      "loss": 2.2764,
+      "step": 5700
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 3.180987202925046e-05,
+      "loss": 2.2787,
+      "step": 5800
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 1.3528336380255942e-05,
+      "loss": 2.2783,
+      "step": 5900
+    },
     {
       "epoch": 10.0,
+      "step": 5970,
+      "total_flos": 1.0137616284937745e+20,
+      "train_loss": 2.5334128375029445,
+      "train_runtime": 24080.0149,
+      "train_samples_per_second": 15.868,
+      "train_steps_per_second": 0.248
     }
   ],
+  "max_steps": 5970,
   "num_train_epochs": 10,
+  "total_flos": 1.0137616284937745e+20,
   "trial_name": null,
   "trial_params": null
 }