BilelDJ
/

clip-hugging-face-finetuned

@@ -1,12 +1,12 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.166153073310852,
-    "eval_runtime": 24.7105,
-    "eval_samples_per_second": 2.023,
-    "eval_steps_per_second": 0.283,
-    "total_flos": 58050663970068.0,
-    "train_loss": 1.8778469576500356,
-    "train_runtime": 2427.903,
-    "train_samples_per_second": 0.411,
-    "train_steps_per_second": 0.026
 }

 {
     "epoch": 2.0,
+    "eval_loss": 0.5955778956413269,
+    "eval_runtime": 6.1056,
+    "eval_samples_per_second": 1.638,
+    "eval_steps_per_second": 0.819,
+    "total_flos": 5816699796600.0,
+    "train_loss": 1.3652541448495217,
+    "train_runtime": 216.8469,
+    "train_samples_per_second": 0.461,
+    "train_steps_per_second": 0.065
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.166153073310852,
-    "eval_runtime": 24.7105,
-    "eval_samples_per_second": 2.023,
-    "eval_steps_per_second": 0.283
 }

 {
     "epoch": 2.0,
+    "eval_loss": 0.5955778956413269,
+    "eval_runtime": 6.1056,
+    "eval_samples_per_second": 1.638,
+    "eval_steps_per_second": 0.819
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "total_flos": 58050663970068.0,
-    "train_loss": 1.8778469576500356,
-    "train_runtime": 2427.903,
-    "train_samples_per_second": 0.411,
-    "train_steps_per_second": 0.026
 }

 {
     "epoch": 2.0,
+    "total_flos": 5816699796600.0,
+    "train_loss": 1.3652541448495217,
+    "train_runtime": 216.8469,
+    "train_samples_per_second": 0.461,
+    "train_steps_per_second": 0.065
 }

trainer_state.json CHANGED Viewed

@@ -3,983 +3,233 @@
   "best_model_checkpoint": null,
   "epoch": 2.0,
   "eval_steps": 1.0,
-  "global_step": 64,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03125,
-      "grad_norm": 254.00668334960938,
-      "learning_rate": 4.921875e-05,
-      "loss": 1.9525,
       "step": 1
     },
     {
-      "epoch": 0.03125,
-      "eval_loss": 1.4612890481948853,
-      "eval_runtime": 25.9325,
-      "eval_samples_per_second": 1.928,
-      "eval_steps_per_second": 0.27,
       "step": 1
     },
     {
-      "epoch": 0.0625,
-      "grad_norm": 210.81161499023438,
-      "learning_rate": 4.8437500000000005e-05,
-      "loss": 1.0619,
       "step": 2
     },
     {
-      "epoch": 0.0625,
-      "eval_loss": 3.5714147090911865,
-      "eval_runtime": 14.3357,
-      "eval_samples_per_second": 3.488,
-      "eval_steps_per_second": 0.488,
       "step": 2
     },
     {
-      "epoch": 0.09375,
-      "grad_norm": 285.1878967285156,
-      "learning_rate": 4.765625e-05,
-      "loss": 3.3708,
       "step": 3
     },
     {
-      "epoch": 0.09375,
-      "eval_loss": 2.727013349533081,
-      "eval_runtime": 19.6621,
-      "eval_samples_per_second": 2.543,
-      "eval_steps_per_second": 0.356,
       "step": 3
     },
     {
-      "epoch": 0.125,
-      "grad_norm": 218.46783447265625,
-      "learning_rate": 4.6875e-05,
-      "loss": 3.8741,
       "step": 4
     },
     {
-      "epoch": 0.125,
-      "eval_loss": 3.152341842651367,
-      "eval_runtime": 14.2606,
-      "eval_samples_per_second": 3.506,
-      "eval_steps_per_second": 0.491,
       "step": 4
     },
     {
-      "epoch": 0.15625,
-      "grad_norm": 97.45307159423828,
-      "learning_rate": 4.609375e-05,
-      "loss": 2.893,
       "step": 5
     },
     {
-      "epoch": 0.15625,
-      "eval_loss": 2.370089054107666,
-      "eval_runtime": 19.323,
-      "eval_samples_per_second": 2.588,
-      "eval_steps_per_second": 0.362,
       "step": 5
     },
     {
-      "epoch": 0.1875,
-      "grad_norm": 107.88156127929688,
-      "learning_rate": 4.5312500000000004e-05,
-      "loss": 3.0239,
       "step": 6
     },
     {
-      "epoch": 0.1875,
-      "eval_loss": 2.017429828643799,
-      "eval_runtime": 14.3416,
-      "eval_samples_per_second": 3.486,
-      "eval_steps_per_second": 0.488,
       "step": 6
     },
     {
-      "epoch": 0.21875,
-      "grad_norm": 49.51248550415039,
-      "learning_rate": 4.453125e-05,
-      "loss": 2.8805,
       "step": 7
     },
     {
-      "epoch": 0.21875,
-      "eval_loss": 1.99916410446167,
-      "eval_runtime": 23.2348,
-      "eval_samples_per_second": 2.152,
-      "eval_steps_per_second": 0.301,
       "step": 7
     },
     {
-      "epoch": 0.25,
-      "grad_norm": 30.55683708190918,
-      "learning_rate": 4.375e-05,
-      "loss": 2.8668,
       "step": 8
     },
     {
-      "epoch": 0.25,
-      "eval_loss": 1.956161379814148,
-      "eval_runtime": 14.3127,
-      "eval_samples_per_second": 3.493,
-      "eval_steps_per_second": 0.489,
       "step": 8
     },
     {
-      "epoch": 0.28125,
-      "grad_norm": 13.740416526794434,
-      "learning_rate": 4.2968750000000004e-05,
-      "loss": 2.7863,
       "step": 9
     },
     {
-      "epoch": 0.28125,
-      "eval_loss": 1.9640475511550903,
-      "eval_runtime": 18.7885,
-      "eval_samples_per_second": 2.661,
-      "eval_steps_per_second": 0.373,
       "step": 9
     },
     {
-      "epoch": 0.3125,
-      "grad_norm": 13.121553421020508,
-      "learning_rate": 4.21875e-05,
-      "loss": 2.7809,
       "step": 10
     },
     {
-      "epoch": 0.3125,
-      "eval_loss": 2.0438995361328125,
-      "eval_runtime": 14.5855,
-      "eval_samples_per_second": 3.428,
-      "eval_steps_per_second": 0.48,
       "step": 10
     },
     {
-      "epoch": 0.34375,
-      "grad_norm": 28.015024185180664,
-      "learning_rate": 4.140625e-05,
-      "loss": 2.8319,
       "step": 11
     },
     {
-      "epoch": 0.34375,
-      "eval_loss": 1.9908080101013184,
-      "eval_runtime": 20.0428,
-      "eval_samples_per_second": 2.495,
-      "eval_steps_per_second": 0.349,
       "step": 11
     },
     {
-      "epoch": 0.375,
-      "grad_norm": 14.510987281799316,
-      "learning_rate": 4.0625000000000005e-05,
-      "loss": 2.6912,
       "step": 12
     },
     {
-      "epoch": 0.375,
-      "eval_loss": 1.9438972473144531,
-      "eval_runtime": 15.1294,
-      "eval_samples_per_second": 3.305,
-      "eval_steps_per_second": 0.463,
       "step": 12
     },
     {
-      "epoch": 0.40625,
-      "grad_norm": 21.442792892456055,
-      "learning_rate": 3.984375e-05,
-      "loss": 2.9355,
       "step": 13
     },
     {
-      "epoch": 0.40625,
-      "eval_loss": 1.9830740690231323,
-      "eval_runtime": 19.4816,
-      "eval_samples_per_second": 2.567,
-      "eval_steps_per_second": 0.359,
       "step": 13
     },
-    {
-      "epoch": 0.4375,
-      "grad_norm": 11.233291625976562,
-      "learning_rate": 3.90625e-05,
-      "loss": 2.6233,
-      "step": 14
-    },
-    {
-      "epoch": 0.4375,
-      "eval_loss": 1.9741547107696533,
-      "eval_runtime": 14.0253,
-      "eval_samples_per_second": 3.565,
-      "eval_steps_per_second": 0.499,
-      "step": 14
-    },
-    {
-      "epoch": 0.46875,
-      "grad_norm": 16.227378845214844,
-      "learning_rate": 3.828125e-05,
-      "loss": 2.5995,
-      "step": 15
-    },
-    {
-      "epoch": 0.46875,
-      "eval_loss": 1.9386694431304932,
-      "eval_runtime": 20.5374,
-      "eval_samples_per_second": 2.435,
-      "eval_steps_per_second": 0.341,
-      "step": 15
-    },
-    {
-      "epoch": 0.5,
-      "grad_norm": 19.815183639526367,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 2.4588,
-      "step": 16
-    },
-    {
-      "epoch": 0.5,
-      "eval_loss": 1.8799047470092773,
-      "eval_runtime": 14.1007,
-      "eval_samples_per_second": 3.546,
-      "eval_steps_per_second": 0.496,
-      "step": 16
-    },
-    {
-      "epoch": 0.53125,
-      "grad_norm": 27.6804141998291,
-      "learning_rate": 3.671875e-05,
-      "loss": 2.6622,
-      "step": 17
-    },
-    {
-      "epoch": 0.53125,
-      "eval_loss": 1.9120107889175415,
-      "eval_runtime": 19.021,
-      "eval_samples_per_second": 2.629,
-      "eval_steps_per_second": 0.368,
-      "step": 17
-    },
-    {
-      "epoch": 0.5625,
-      "grad_norm": 53.53272247314453,
-      "learning_rate": 3.59375e-05,
-      "loss": 2.6819,
-      "step": 18
-    },
-    {
-      "epoch": 0.5625,
-      "eval_loss": 1.826271414756775,
-      "eval_runtime": 14.0375,
-      "eval_samples_per_second": 3.562,
-      "eval_steps_per_second": 0.499,
-      "step": 18
-    },
-    {
-      "epoch": 0.59375,
-      "grad_norm": 31.6351318359375,
-      "learning_rate": 3.5156250000000004e-05,
-      "loss": 2.6057,
-      "step": 19
-    },
-    {
-      "epoch": 0.59375,
-      "eval_loss": 1.8063328266143799,
-      "eval_runtime": 19.3292,
-      "eval_samples_per_second": 2.587,
-      "eval_steps_per_second": 0.362,
-      "step": 19
-    },
-    {
-      "epoch": 0.625,
-      "grad_norm": 81.76189422607422,
-      "learning_rate": 3.4375e-05,
-      "loss": 2.1173,
-      "step": 20
-    },
-    {
-      "epoch": 0.625,
-      "eval_loss": 1.813103437423706,
-      "eval_runtime": 14.0502,
-      "eval_samples_per_second": 3.559,
-      "eval_steps_per_second": 0.498,
-      "step": 20
-    },
-    {
-      "epoch": 0.65625,
-      "grad_norm": 28.440521240234375,
-      "learning_rate": 3.359375e-05,
-      "loss": 2.4934,
-      "step": 21
-    },
-    {
-      "epoch": 0.65625,
-      "eval_loss": 1.8328737020492554,
-      "eval_runtime": 19.9467,
-      "eval_samples_per_second": 2.507,
-      "eval_steps_per_second": 0.351,
-      "step": 21
-    },
-    {
-      "epoch": 0.6875,
-      "grad_norm": 31.066139221191406,
-      "learning_rate": 3.2812500000000005e-05,
-      "loss": 2.4664,
-      "step": 22
-    },
-    {
-      "epoch": 0.6875,
-      "eval_loss": 1.8729884624481201,
-      "eval_runtime": 14.8515,
-      "eval_samples_per_second": 3.367,
-      "eval_steps_per_second": 0.471,
-      "step": 22
-    },
-    {
-      "epoch": 0.71875,
-      "grad_norm": 47.6856803894043,
-      "learning_rate": 3.203125e-05,
-      "loss": 2.3591,
-      "step": 23
-    },
-    {
-      "epoch": 0.71875,
-      "eval_loss": 1.9386744499206543,
-      "eval_runtime": 19.4361,
-      "eval_samples_per_second": 2.573,
-      "eval_steps_per_second": 0.36,
-      "step": 23
-    },
-    {
-      "epoch": 0.75,
-      "grad_norm": 44.08198928833008,
-      "learning_rate": 3.125e-05,
-      "loss": 2.4319,
-      "step": 24
-    },
-    {
-      "epoch": 0.75,
-      "eval_loss": 1.9019237756729126,
-      "eval_runtime": 13.9736,
-      "eval_samples_per_second": 3.578,
-      "eval_steps_per_second": 0.501,
-      "step": 24
-    },
-    {
-      "epoch": 0.78125,
-      "grad_norm": 59.23967361450195,
-      "learning_rate": 3.0468750000000002e-05,
-      "loss": 2.5579,
-      "step": 25
-    },
-    {
-      "epoch": 0.78125,
-      "eval_loss": 1.8655019998550415,
-      "eval_runtime": 19.5942,
-      "eval_samples_per_second": 2.552,
-      "eval_steps_per_second": 0.357,
-      "step": 25
-    },
-    {
-      "epoch": 0.8125,
-      "grad_norm": 44.628658294677734,
-      "learning_rate": 2.96875e-05,
-      "loss": 2.4048,
-      "step": 26
-    },
-    {
-      "epoch": 0.8125,
-      "eval_loss": 1.8706899881362915,
-      "eval_runtime": 14.1375,
-      "eval_samples_per_second": 3.537,
-      "eval_steps_per_second": 0.495,
-      "step": 26
-    },
-    {
-      "epoch": 0.84375,
-      "grad_norm": 59.57282638549805,
-      "learning_rate": 2.890625e-05,
-      "loss": 2.7706,
-      "step": 27
-    },
-    {
-      "epoch": 0.84375,
-      "eval_loss": 1.744444727897644,
-      "eval_runtime": 19.9669,
-      "eval_samples_per_second": 2.504,
-      "eval_steps_per_second": 0.351,
-      "step": 27
-    },
-    {
-      "epoch": 0.875,
-      "grad_norm": 38.48733901977539,
-      "learning_rate": 2.8125000000000003e-05,
-      "loss": 2.7279,
-      "step": 28
-    },
-    {
-      "epoch": 0.875,
-      "eval_loss": 1.6933951377868652,
-      "eval_runtime": 14.0043,
-      "eval_samples_per_second": 3.57,
-      "eval_steps_per_second": 0.5,
-      "step": 28
-    },
-    {
-      "epoch": 0.90625,
-      "grad_norm": 38.13273620605469,
-      "learning_rate": 2.734375e-05,
-      "loss": 2.5247,
-      "step": 29
-    },
-    {
-      "epoch": 0.90625,
-      "eval_loss": 1.6971945762634277,
-      "eval_runtime": 18.8375,
-      "eval_samples_per_second": 2.654,
-      "eval_steps_per_second": 0.372,
-      "step": 29
-    },
-    {
-      "epoch": 0.9375,
-      "grad_norm": 34.31296920776367,
-      "learning_rate": 2.6562500000000002e-05,
-      "loss": 2.2336,
-      "step": 30
-    },
-    {
-      "epoch": 0.9375,
-      "eval_loss": 1.7182470560073853,
-      "eval_runtime": 14.4648,
-      "eval_samples_per_second": 3.457,
-      "eval_steps_per_second": 0.484,
-      "step": 30
-    },
-    {
-      "epoch": 0.96875,
-      "grad_norm": 34.71999740600586,
-      "learning_rate": 2.578125e-05,
-      "loss": 2.2479,
-      "step": 31
-    },
-    {
-      "epoch": 0.96875,
-      "eval_loss": 1.7286863327026367,
-      "eval_runtime": 19.0105,
-      "eval_samples_per_second": 2.63,
-      "eval_steps_per_second": 0.368,
-      "step": 31
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 54.52072525024414,
-      "learning_rate": 2.5e-05,
-      "loss": 0.9398,
-      "step": 32
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 1.7176891565322876,
-      "eval_runtime": 15.5832,
-      "eval_samples_per_second": 3.209,
-      "eval_steps_per_second": 0.449,
-      "step": 32
-    },
-    {
-      "epoch": 1.03125,
-      "grad_norm": 37.95784378051758,
-      "learning_rate": 2.4218750000000003e-05,
-      "loss": 2.2821,
-      "step": 33
-    },
-    {
-      "epoch": 1.03125,
-      "eval_loss": 1.6573299169540405,
-      "eval_runtime": 19.2268,
-      "eval_samples_per_second": 2.601,
-      "eval_steps_per_second": 0.364,
-      "step": 33
-    },
-    {
-      "epoch": 1.0625,
-      "grad_norm": 32.960391998291016,
-      "learning_rate": 2.34375e-05,
-      "loss": 2.339,
-      "step": 34
-    },
-    {
-      "epoch": 1.0625,
-      "eval_loss": 1.623481273651123,
-      "eval_runtime": 14.5998,
-      "eval_samples_per_second": 3.425,
-      "eval_steps_per_second": 0.479,
-      "step": 34
-    },
-    {
-      "epoch": 1.09375,
-      "grad_norm": 31.484209060668945,
-      "learning_rate": 2.2656250000000002e-05,
-      "loss": 1.7187,
-      "step": 35
-    },
-    {
-      "epoch": 1.09375,
-      "eval_loss": 1.5644508600234985,
-      "eval_runtime": 20.7871,
-      "eval_samples_per_second": 2.405,
-      "eval_steps_per_second": 0.337,
-      "step": 35
-    },
-    {
-      "epoch": 1.125,
-      "grad_norm": 28.109580993652344,
-      "learning_rate": 2.1875e-05,
-      "loss": 1.585,
-      "step": 36
-    },
-    {
-      "epoch": 1.125,
-      "eval_loss": 1.4872223138809204,
-      "eval_runtime": 14.0172,
-      "eval_samples_per_second": 3.567,
-      "eval_steps_per_second": 0.499,
-      "step": 36
-    },
-    {
-      "epoch": 1.15625,
-      "grad_norm": 34.407615661621094,
-      "learning_rate": 2.109375e-05,
-      "loss": 1.5801,
-      "step": 37
-    },
-    {
-      "epoch": 1.15625,
-      "eval_loss": 1.429572582244873,
-      "eval_runtime": 19.6378,
-      "eval_samples_per_second": 2.546,
-      "eval_steps_per_second": 0.356,
-      "step": 37
-    },
-    {
-      "epoch": 1.1875,
-      "grad_norm": 34.66839599609375,
-      "learning_rate": 2.0312500000000002e-05,
-      "loss": 1.8689,
-      "step": 38
-    },
-    {
-      "epoch": 1.1875,
-      "eval_loss": 1.4055802822113037,
-      "eval_runtime": 15.0122,
-      "eval_samples_per_second": 3.331,
-      "eval_steps_per_second": 0.466,
-      "step": 38
-    },
-    {
-      "epoch": 1.21875,
-      "grad_norm": 38.05352020263672,
-      "learning_rate": 1.953125e-05,
-      "loss": 1.5591,
-      "step": 39
-    },
-    {
-      "epoch": 1.21875,
-      "eval_loss": 1.398817777633667,
-      "eval_runtime": 20.1748,
-      "eval_samples_per_second": 2.478,
-      "eval_steps_per_second": 0.347,
-      "step": 39
-    },
-    {
-      "epoch": 1.25,
-      "grad_norm": 45.93744659423828,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 1.4769,
-      "step": 40
-    },
-    {
-      "epoch": 1.25,
-      "eval_loss": 1.3957644701004028,
-      "eval_runtime": 14.2141,
-      "eval_samples_per_second": 3.518,
-      "eval_steps_per_second": 0.492,
-      "step": 40
-    },
-    {
-      "epoch": 1.28125,
-      "grad_norm": 67.26871490478516,
-      "learning_rate": 1.796875e-05,
-      "loss": 1.2898,
-      "step": 41
-    },
-    {
-      "epoch": 1.28125,
-      "eval_loss": 1.3631155490875244,
-      "eval_runtime": 18.8012,
-      "eval_samples_per_second": 2.659,
-      "eval_steps_per_second": 0.372,
-      "step": 41
-    },
-    {
-      "epoch": 1.3125,
-      "grad_norm": 48.31477737426758,
-      "learning_rate": 1.71875e-05,
-      "loss": 1.4675,
-      "step": 42
-    },
-    {
-      "epoch": 1.3125,
-      "eval_loss": 1.3446946144104004,
-      "eval_runtime": 14.0177,
-      "eval_samples_per_second": 3.567,
-      "eval_steps_per_second": 0.499,
-      "step": 42
-    },
-    {
-      "epoch": 1.34375,
-      "grad_norm": 43.087947845458984,
-      "learning_rate": 1.6406250000000002e-05,
-      "loss": 1.0123,
-      "step": 43
-    },
-    {
-      "epoch": 1.34375,
-      "eval_loss": 1.3272167444229126,
-      "eval_runtime": 19.8127,
-      "eval_samples_per_second": 2.524,
-      "eval_steps_per_second": 0.353,
-      "step": 43
-    },
-    {
-      "epoch": 1.375,
-      "grad_norm": 50.14296340942383,
-      "learning_rate": 1.5625e-05,
-      "loss": 1.4516,
-      "step": 44
-    },
-    {
-      "epoch": 1.375,
-      "eval_loss": 1.3105698823928833,
-      "eval_runtime": 14.0327,
-      "eval_samples_per_second": 3.563,
-      "eval_steps_per_second": 0.499,
-      "step": 44
-    },
-    {
-      "epoch": 1.40625,
-      "grad_norm": 56.435394287109375,
-      "learning_rate": 1.484375e-05,
-      "loss": 1.2132,
-      "step": 45
-    },
-    {
-      "epoch": 1.40625,
-      "eval_loss": 1.2978880405426025,
-      "eval_runtime": 19.3431,
-      "eval_samples_per_second": 2.585,
-      "eval_steps_per_second": 0.362,
-      "step": 45
-    },
-    {
-      "epoch": 1.4375,
-      "grad_norm": 62.44044494628906,
-      "learning_rate": 1.4062500000000001e-05,
-      "loss": 1.1181,
-      "step": 46
-    },
-    {
-      "epoch": 1.4375,
-      "eval_loss": 1.2973986864089966,
-      "eval_runtime": 14.4572,
-      "eval_samples_per_second": 3.458,
-      "eval_steps_per_second": 0.484,
-      "step": 46
-    },
-    {
-      "epoch": 1.46875,
-      "grad_norm": 49.06483459472656,
-      "learning_rate": 1.3281250000000001e-05,
-      "loss": 0.7987,
-      "step": 47
-    },
-    {
-      "epoch": 1.46875,
-      "eval_loss": 1.3060061931610107,
-      "eval_runtime": 18.8411,
-      "eval_samples_per_second": 2.654,
-      "eval_steps_per_second": 0.372,
-      "step": 47
-    },
-    {
-      "epoch": 1.5,
-      "grad_norm": 59.63069534301758,
-      "learning_rate": 1.25e-05,
-      "loss": 0.7248,
-      "step": 48
-    },
-    {
-      "epoch": 1.5,
-      "eval_loss": 1.3088918924331665,
-      "eval_runtime": 16.3052,
-      "eval_samples_per_second": 3.067,
-      "eval_steps_per_second": 0.429,
-      "step": 48
-    },
-    {
-      "epoch": 1.53125,
-      "grad_norm": 85.45850372314453,
-      "learning_rate": 1.171875e-05,
-      "loss": 0.8957,
-      "step": 49
-    },
-    {
-      "epoch": 1.53125,
-      "eval_loss": 1.318437933921814,
-      "eval_runtime": 19.1539,
-      "eval_samples_per_second": 2.61,
-      "eval_steps_per_second": 0.365,
-      "step": 49
-    },
-    {
-      "epoch": 1.5625,
-      "grad_norm": 69.75704956054688,
-      "learning_rate": 1.09375e-05,
-      "loss": 0.8146,
-      "step": 50
-    },
-    {
-      "epoch": 1.5625,
-      "eval_loss": 1.3147114515304565,
-      "eval_runtime": 14.4752,
-      "eval_samples_per_second": 3.454,
-      "eval_steps_per_second": 0.484,
-      "step": 50
-    },
-    {
-      "epoch": 1.59375,
-      "grad_norm": 55.29493713378906,
-      "learning_rate": 1.0156250000000001e-05,
-      "loss": 0.7953,
-      "step": 51
-    },
-    {
-      "epoch": 1.59375,
-      "eval_loss": 1.2989192008972168,
-      "eval_runtime": 20.9074,
-      "eval_samples_per_second": 2.392,
-      "eval_steps_per_second": 0.335,
-      "step": 51
-    },
-    {
-      "epoch": 1.625,
-      "grad_norm": 71.8622817993164,
-      "learning_rate": 9.375000000000001e-06,
-      "loss": 1.1628,
-      "step": 52
-    },
-    {
-      "epoch": 1.625,
-      "eval_loss": 1.2810921669006348,
-      "eval_runtime": 14.0147,
-      "eval_samples_per_second": 3.568,
-      "eval_steps_per_second": 0.499,
-      "step": 52
-    },
-    {
-      "epoch": 1.65625,
-      "grad_norm": 71.86141204833984,
-      "learning_rate": 8.59375e-06,
-      "loss": 1.5174,
-      "step": 53
-    },
-    {
-      "epoch": 1.65625,
-      "eval_loss": 1.2605785131454468,
-      "eval_runtime": 18.7275,
-      "eval_samples_per_second": 2.67,
-      "eval_steps_per_second": 0.374,
-      "step": 53
-    },
-    {
-      "epoch": 1.6875,
-      "grad_norm": 62.22434997558594,
-      "learning_rate": 7.8125e-06,
-      "loss": 0.9822,
-      "step": 54
-    },
-    {
-      "epoch": 1.6875,
-      "eval_loss": 1.2227574586868286,
-      "eval_runtime": 13.9543,
-      "eval_samples_per_second": 3.583,
-      "eval_steps_per_second": 0.502,
-      "step": 54
-    },
-    {
-      "epoch": 1.71875,
-      "grad_norm": 54.53126525878906,
-      "learning_rate": 7.031250000000001e-06,
-      "loss": 1.0173,
-      "step": 55
-    },
-    {
-      "epoch": 1.71875,
-      "eval_loss": 1.1982362270355225,
-      "eval_runtime": 19.0289,
-      "eval_samples_per_second": 2.628,
-      "eval_steps_per_second": 0.368,
-      "step": 55
-    },
-    {
-      "epoch": 1.75,
-      "grad_norm": 76.07511138916016,
-      "learning_rate": 6.25e-06,
-      "loss": 1.3464,
-      "step": 56
-    },
-    {
-      "epoch": 1.75,
-      "eval_loss": 1.1850783824920654,
-      "eval_runtime": 14.0372,
-      "eval_samples_per_second": 3.562,
-      "eval_steps_per_second": 0.499,
-      "step": 56
-    },
-    {
-      "epoch": 1.78125,
-      "grad_norm": 72.6391830444336,
-      "learning_rate": 5.46875e-06,
-      "loss": 0.8926,
-      "step": 57
-    },
-    {
-      "epoch": 1.78125,
-      "eval_loss": 1.1799843311309814,
-      "eval_runtime": 22.4922,
-      "eval_samples_per_second": 2.223,
-      "eval_steps_per_second": 0.311,
-      "step": 57
-    },
-    {
-      "epoch": 1.8125,
-      "grad_norm": 56.88068771362305,
-      "learning_rate": 4.6875000000000004e-06,
-      "loss": 0.9163,
-      "step": 58
-    },
-    {
-      "epoch": 1.8125,
-      "eval_loss": 1.1798558235168457,
-      "eval_runtime": 14.0488,
-      "eval_samples_per_second": 3.559,
-      "eval_steps_per_second": 0.498,
-      "step": 58
-    },
-    {
-      "epoch": 1.84375,
-      "grad_norm": 45.068748474121094,
-      "learning_rate": 3.90625e-06,
-      "loss": 0.7737,
-      "step": 59
-    },
-    {
-      "epoch": 1.84375,
-      "eval_loss": 1.178802490234375,
-      "eval_runtime": 20.1914,
-      "eval_samples_per_second": 2.476,
-      "eval_steps_per_second": 0.347,
-      "step": 59
-    },
-    {
-      "epoch": 1.875,
-      "grad_norm": 65.94618225097656,
-      "learning_rate": 3.125e-06,
-      "loss": 0.9931,
-      "step": 60
-    },
-    {
-      "epoch": 1.875,
-      "eval_loss": 1.1730504035949707,
-      "eval_runtime": 14.2215,
-      "eval_samples_per_second": 3.516,
-      "eval_steps_per_second": 0.492,
-      "step": 60
-    },
-    {
-      "epoch": 1.90625,
-      "grad_norm": 67.28651428222656,
-      "learning_rate": 2.3437500000000002e-06,
-      "loss": 0.775,
-      "step": 61
-    },
-    {
-      "epoch": 1.90625,
-      "eval_loss": 1.1700712442398071,
-      "eval_runtime": 24.2206,
-      "eval_samples_per_second": 2.064,
-      "eval_steps_per_second": 0.289,
-      "step": 61
-    },
-    {
-      "epoch": 1.9375,
-      "grad_norm": 45.8297004699707,
-      "learning_rate": 1.5625e-06,
-      "loss": 0.655,
-      "step": 62
-    },
-    {
-      "epoch": 1.9375,
-      "eval_loss": 1.1683861017227173,
-      "eval_runtime": 13.9273,
-      "eval_samples_per_second": 3.59,
-      "eval_steps_per_second": 0.503,
-      "step": 62
-    },
-    {
-      "epoch": 1.96875,
-      "grad_norm": 64.58641052246094,
-      "learning_rate": 7.8125e-07,
-      "loss": 1.0303,
-      "step": 63
-    },
-    {
-      "epoch": 1.96875,
-      "eval_loss": 1.1670336723327637,
-      "eval_runtime": 22.0932,
-      "eval_samples_per_second": 2.263,
-      "eval_steps_per_second": 0.317,
-      "step": 63
-    },
     {
       "epoch": 2.0,
-      "grad_norm": 94.33624267578125,
       "learning_rate": 0.0,
-      "loss": 0.2727,
-      "step": 64
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.166153073310852,
-      "eval_runtime": 15.0662,
-      "eval_samples_per_second": 3.319,
-      "eval_steps_per_second": 0.465,
-      "step": 64
     },
     {
       "epoch": 2.0,
-      "step": 64,
-      "total_flos": 58050663970068.0,
-      "train_loss": 1.8778469576500356,
-      "train_runtime": 2427.903,
-      "train_samples_per_second": 0.411,
-      "train_steps_per_second": 0.026
     }
   ],
   "logging_steps": 1.0,
-  "max_steps": 64,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
@@ -995,8 +245,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 58050663970068.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 2.0,
   "eval_steps": 1.0,
+  "global_step": 14,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.14285714285714285,
+      "grad_norm": 203.78257751464844,
+      "learning_rate": 4.642857142857143e-05,
+      "loss": 0.8088,
       "step": 1
     },
     {
+      "epoch": 0.14285714285714285,
+      "eval_loss": 1.0832017660140991,
+      "eval_runtime": 4.4764,
+      "eval_samples_per_second": 2.234,
+      "eval_steps_per_second": 1.117,
       "step": 1
     },
     {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 551.1321411132812,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 1.5034,
       "step": 2
     },
     {
+      "epoch": 0.2857142857142857,
+      "eval_loss": 0.8266311883926392,
+      "eval_runtime": 2.9969,
+      "eval_samples_per_second": 3.337,
+      "eval_steps_per_second": 1.668,
       "step": 2
     },
     {
+      "epoch": 0.42857142857142855,
+      "grad_norm": 342.6697998046875,
+      "learning_rate": 3.928571428571429e-05,
+      "loss": 1.617,
       "step": 3
     },
     {
+      "epoch": 0.42857142857142855,
+      "eval_loss": 0.7760497331619263,
+      "eval_runtime": 2.9732,
+      "eval_samples_per_second": 3.363,
+      "eval_steps_per_second": 1.682,
       "step": 3
     },
     {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 792.9654541015625,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 2.2375,
       "step": 4
     },
     {
+      "epoch": 0.5714285714285714,
+      "eval_loss": 0.7384463548660278,
+      "eval_runtime": 3.1473,
+      "eval_samples_per_second": 3.177,
+      "eval_steps_per_second": 1.589,
       "step": 4
     },
     {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 210.89300537109375,
+      "learning_rate": 3.2142857142857144e-05,
+      "loss": 1.5411,
       "step": 5
     },
     {
+      "epoch": 0.7142857142857143,
+      "eval_loss": 0.82770174741745,
+      "eval_runtime": 3.0122,
+      "eval_samples_per_second": 3.32,
+      "eval_steps_per_second": 1.66,
       "step": 5
     },
     {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 314.6759338378906,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 2.4631,
       "step": 6
     },
     {
+      "epoch": 0.8571428571428571,
+      "eval_loss": 0.44329363107681274,
+      "eval_runtime": 4.1331,
+      "eval_samples_per_second": 2.42,
+      "eval_steps_per_second": 1.21,
       "step": 6
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 17.239919662475586,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0217,
       "step": 7
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.9471458196640015,
+      "eval_runtime": 3.013,
+      "eval_samples_per_second": 3.319,
+      "eval_steps_per_second": 1.659,
       "step": 7
     },
     {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 213.36294555664062,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 2.4217,
       "step": 8
     },
     {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.9182891845703125,
+      "eval_runtime": 2.9638,
+      "eval_samples_per_second": 3.374,
+      "eval_steps_per_second": 1.687,
       "step": 8
     },
     {
+      "epoch": 1.2857142857142856,
+      "grad_norm": 200.6674346923828,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 2.0588,
       "step": 9
     },
     {
+      "epoch": 1.2857142857142856,
+      "eval_loss": 0.7376034259796143,
+      "eval_runtime": 2.958,
+      "eval_samples_per_second": 3.381,
+      "eval_steps_per_second": 1.69,
       "step": 9
     },
     {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 215.76296997070312,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 1.6484,
       "step": 10
     },
     {
+      "epoch": 1.4285714285714286,
+      "eval_loss": 0.5826703906059265,
+      "eval_runtime": 2.9863,
+      "eval_samples_per_second": 3.349,
+      "eval_steps_per_second": 1.674,
       "step": 10
     },
     {
+      "epoch": 1.5714285714285714,
+      "grad_norm": 122.98780059814453,
+      "learning_rate": 1.0714285714285714e-05,
+      "loss": 0.9379,
       "step": 11
     },
     {
+      "epoch": 1.5714285714285714,
+      "eval_loss": 0.5854327082633972,
+      "eval_runtime": 2.9738,
+      "eval_samples_per_second": 3.363,
+      "eval_steps_per_second": 1.681,
       "step": 11
     },
     {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 110.82337951660156,
+      "learning_rate": 7.142857142857143e-06,
+      "loss": 0.8608,
       "step": 12
     },
     {
+      "epoch": 1.7142857142857144,
+      "eval_loss": 0.5832847952842712,
+      "eval_runtime": 6.4862,
+      "eval_samples_per_second": 1.542,
+      "eval_steps_per_second": 0.771,
       "step": 12
     },
     {
+      "epoch": 1.8571428571428572,
+      "grad_norm": 91.99958801269531,
+      "learning_rate": 3.5714285714285714e-06,
+      "loss": 0.958,
       "step": 13
     },
     {
+      "epoch": 1.8571428571428572,
+      "eval_loss": 0.5970481634140015,
+      "eval_runtime": 2.9762,
+      "eval_samples_per_second": 3.36,
+      "eval_steps_per_second": 1.68,
       "step": 13
     },
     {
       "epoch": 2.0,
+      "grad_norm": 28.6821346282959,
       "learning_rate": 0.0,
+      "loss": 0.0355,
+      "step": 14
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.5955778956413269,
+      "eval_runtime": 5.3785,
+      "eval_samples_per_second": 1.859,
+      "eval_steps_per_second": 0.93,
+      "step": 14
     },
     {
       "epoch": 2.0,
+      "step": 14,
+      "total_flos": 5816699796600.0,
+      "train_loss": 1.3652541448495217,
+      "train_runtime": 216.8469,
+      "train_samples_per_second": 0.461,
+      "train_steps_per_second": 0.065
     }
   ],
   "logging_steps": 1.0,
+  "max_steps": 14,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 5816699796600.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }