BilelDJ
/

clip-hugging-face-finetuned

@@ -1,12 +1,12 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.4227830171585083,
-    "eval_runtime": 69.4956,
-    "eval_samples_per_second": 2.158,
-    "eval_steps_per_second": 0.043,
-    "total_flos": 115984993944204.0,
-    "train_loss": 1.1255573146045208,
-    "train_runtime": 4694.1264,
-    "train_samples_per_second": 0.425,
-    "train_steps_per_second": 0.007
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.166153073310852,
+    "eval_runtime": 24.7105,
+    "eval_samples_per_second": 2.023,
+    "eval_steps_per_second": 0.283,
+    "total_flos": 58050663970068.0,
+    "train_loss": 1.8778469576500356,
+    "train_runtime": 2427.903,
+    "train_samples_per_second": 0.411,
+    "train_steps_per_second": 0.026
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.4227830171585083,
-    "eval_runtime": 69.4956,
-    "eval_samples_per_second": 2.158,
-    "eval_steps_per_second": 0.043
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.166153073310852,
+    "eval_runtime": 24.7105,
+    "eval_samples_per_second": 2.023,
+    "eval_steps_per_second": 0.283
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "total_flos": 115984993944204.0,
-    "train_loss": 1.1255573146045208,
-    "train_runtime": 4694.1264,
-    "train_samples_per_second": 0.425,
-    "train_steps_per_second": 0.007
 }

 {
     "epoch": 2.0,
+    "total_flos": 58050663970068.0,
+    "train_loss": 1.8778469576500356,
+    "train_runtime": 2427.903,
+    "train_samples_per_second": 0.411,
+    "train_steps_per_second": 0.026
 }

trainer_state.json CHANGED Viewed

@@ -3,503 +3,983 @@
   "best_model_checkpoint": null,
   "epoch": 2.0,
   "eval_steps": 1.0,
-  "global_step": 32,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0625,
-      "grad_norm": 125.37348937988281,
       "learning_rate": 4.8437500000000005e-05,
-      "loss": 1.8261,
-      "step": 1
     },
     {
       "epoch": 0.0625,
-      "eval_loss": 1.7808233499526978,
-      "eval_runtime": 101.8647,
-      "eval_samples_per_second": 1.473,
-      "eval_steps_per_second": 0.029,
-      "step": 1
     },
     {
       "epoch": 0.125,
-      "grad_norm": 251.37063598632812,
       "learning_rate": 4.6875e-05,
-      "loss": 1.7935,
-      "step": 2
     },
     {
       "epoch": 0.125,
-      "eval_loss": 1.623749852180481,
-      "eval_runtime": 94.4381,
-      "eval_samples_per_second": 1.588,
-      "eval_steps_per_second": 0.032,
-      "step": 2
     },
     {
       "epoch": 0.1875,
-      "grad_norm": 117.00857543945312,
       "learning_rate": 4.5312500000000004e-05,
-      "loss": 2.2498,
-      "step": 3
     },
     {
       "epoch": 0.1875,
-      "eval_loss": 1.741827130317688,
-      "eval_runtime": 70.4069,
-      "eval_samples_per_second": 2.13,
-      "eval_steps_per_second": 0.043,
-      "step": 3
     },
     {
       "epoch": 0.25,
-      "grad_norm": 102.61508178710938,
       "learning_rate": 4.375e-05,
-      "loss": 1.9536,
-      "step": 4
     },
     {
       "epoch": 0.25,
-      "eval_loss": 1.7777817249298096,
-      "eval_runtime": 72.2698,
-      "eval_samples_per_second": 2.076,
-      "eval_steps_per_second": 0.042,
-      "step": 4
     },
     {
       "epoch": 0.3125,
-      "grad_norm": 73.9283676147461,
       "learning_rate": 4.21875e-05,
-      "loss": 2.1207,
-      "step": 5
     },
     {
       "epoch": 0.3125,
-      "eval_loss": 1.7881625890731812,
-      "eval_runtime": 70.2676,
-      "eval_samples_per_second": 2.135,
-      "eval_steps_per_second": 0.043,
-      "step": 5
     },
     {
       "epoch": 0.375,
-      "grad_norm": 82.38343811035156,
       "learning_rate": 4.0625000000000005e-05,
-      "loss": 2.1623,
-      "step": 6
     },
     {
       "epoch": 0.375,
-      "eval_loss": 1.8577982187271118,
-      "eval_runtime": 72.0998,
-      "eval_samples_per_second": 2.08,
-      "eval_steps_per_second": 0.042,
-      "step": 6
     },
     {
       "epoch": 0.4375,
-      "grad_norm": 57.1233024597168,
       "learning_rate": 3.90625e-05,
-      "loss": 2.0764,
-      "step": 7
     },
     {
       "epoch": 0.4375,
-      "eval_loss": 1.8867578506469727,
-      "eval_runtime": 88.6197,
-      "eval_samples_per_second": 1.693,
-      "eval_steps_per_second": 0.034,
-      "step": 7
     },
     {
       "epoch": 0.5,
-      "grad_norm": 56.74623107910156,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 2.206,
-      "step": 8
     },
     {
       "epoch": 0.5,
-      "eval_loss": 1.8570754528045654,
-      "eval_runtime": 68.277,
-      "eval_samples_per_second": 2.197,
-      "eval_steps_per_second": 0.044,
-      "step": 8
     },
     {
       "epoch": 0.5625,
-      "grad_norm": 55.427146911621094,
       "learning_rate": 3.59375e-05,
-      "loss": 2.2791,
-      "step": 9
     },
     {
       "epoch": 0.5625,
-      "eval_loss": 1.8133898973464966,
-      "eval_runtime": 67.77,
-      "eval_samples_per_second": 2.213,
-      "eval_steps_per_second": 0.044,
-      "step": 9
     },
     {
       "epoch": 0.625,
-      "grad_norm": 48.58964157104492,
       "learning_rate": 3.4375e-05,
-      "loss": 2.2276,
-      "step": 10
     },
     {
       "epoch": 0.625,
-      "eval_loss": 1.759128451347351,
-      "eval_runtime": 66.1185,
-      "eval_samples_per_second": 2.269,
-      "eval_steps_per_second": 0.045,
-      "step": 10
     },
     {
       "epoch": 0.6875,
-      "grad_norm": 58.89248275756836,
       "learning_rate": 3.2812500000000005e-05,
-      "loss": 1.826,
-      "step": 11
     },
     {
       "epoch": 0.6875,
-      "eval_loss": 1.6688445806503296,
-      "eval_runtime": 67.5679,
-      "eval_samples_per_second": 2.22,
-      "eval_steps_per_second": 0.044,
-      "step": 11
     },
     {
       "epoch": 0.75,
-      "grad_norm": 46.2577018737793,
       "learning_rate": 3.125e-05,
-      "loss": 1.668,
-      "step": 12
     },
     {
       "epoch": 0.75,
-      "eval_loss": 1.5710270404815674,
-      "eval_runtime": 67.265,
-      "eval_samples_per_second": 2.23,
-      "eval_steps_per_second": 0.045,
-      "step": 12
     },
     {
       "epoch": 0.8125,
-      "grad_norm": 42.970054626464844,
       "learning_rate": 2.96875e-05,
-      "loss": 1.8039,
-      "step": 13
     },
     {
       "epoch": 0.8125,
-      "eval_loss": 1.527113914489746,
-      "eval_runtime": 66.977,
-      "eval_samples_per_second": 2.24,
-      "eval_steps_per_second": 0.045,
-      "step": 13
     },
     {
       "epoch": 0.875,
-      "grad_norm": 48.52293395996094,
       "learning_rate": 2.8125000000000003e-05,
-      "loss": 1.7761,
-      "step": 14
     },
     {
       "epoch": 0.875,
-      "eval_loss": 1.497421383857727,
-      "eval_runtime": 68.3346,
-      "eval_samples_per_second": 2.195,
-      "eval_steps_per_second": 0.044,
-      "step": 14
     },
     {
       "epoch": 0.9375,
-      "grad_norm": 43.09657287597656,
       "learning_rate": 2.6562500000000002e-05,
-      "loss": 1.5512,
-      "step": 15
     },
     {
       "epoch": 0.9375,
-      "eval_loss": 1.479906439781189,
-      "eval_runtime": 67.7193,
-      "eval_samples_per_second": 2.215,
-      "eval_steps_per_second": 0.044,
-      "step": 15
     },
     {
       "epoch": 1.0,
-      "grad_norm": 49.768165588378906,
       "learning_rate": 2.5e-05,
-      "loss": 1.0115,
-      "step": 16
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.4686092138290405,
-      "eval_runtime": 65.0137,
-      "eval_samples_per_second": 2.307,
-      "eval_steps_per_second": 0.046,
-      "step": 16
     },
     {
       "epoch": 1.0625,
-      "grad_norm": 24.204669952392578,
       "learning_rate": 2.34375e-05,
-      "loss": 0.4346,
-      "step": 17
     },
     {
       "epoch": 1.0625,
-      "eval_loss": 1.4616279602050781,
-      "eval_runtime": 66.0842,
-      "eval_samples_per_second": 2.27,
-      "eval_steps_per_second": 0.045,
-      "step": 17
     },
     {
       "epoch": 1.125,
-      "grad_norm": 18.588682174682617,
       "learning_rate": 2.1875e-05,
-      "loss": 0.3421,
-      "step": 18
     },
     {
       "epoch": 1.125,
-      "eval_loss": 1.4559637308120728,
-      "eval_runtime": 67.549,
-      "eval_samples_per_second": 2.221,
-      "eval_steps_per_second": 0.044,
-      "step": 18
     },
     {
       "epoch": 1.1875,
-      "grad_norm": 20.04482078552246,
       "learning_rate": 2.0312500000000002e-05,
-      "loss": 0.3134,
-      "step": 19
     },
     {
       "epoch": 1.1875,
-      "eval_loss": 1.4582462310791016,
-      "eval_runtime": 65.9148,
-      "eval_samples_per_second": 2.276,
-      "eval_steps_per_second": 0.046,
-      "step": 19
     },
     {
       "epoch": 1.25,
-      "grad_norm": 23.909494400024414,
       "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.2237,
-      "step": 20
     },
     {
       "epoch": 1.25,
-      "eval_loss": 1.467896819114685,
-      "eval_runtime": 66.108,
-      "eval_samples_per_second": 2.269,
-      "eval_steps_per_second": 0.045,
-      "step": 20
     },
     {
       "epoch": 1.3125,
-      "grad_norm": 33.90362548828125,
       "learning_rate": 1.71875e-05,
-      "loss": 0.6518,
-      "step": 21
     },
     {
       "epoch": 1.3125,
-      "eval_loss": 1.4688968658447266,
-      "eval_runtime": 69.8941,
-      "eval_samples_per_second": 2.146,
-      "eval_steps_per_second": 0.043,
-      "step": 21
     },
     {
       "epoch": 1.375,
-      "grad_norm": 30.035762786865234,
       "learning_rate": 1.5625e-05,
-      "loss": 0.3559,
-      "step": 22
     },
     {
       "epoch": 1.375,
-      "eval_loss": 1.4729983806610107,
-      "eval_runtime": 67.5966,
-      "eval_samples_per_second": 2.219,
-      "eval_steps_per_second": 0.044,
-      "step": 22
     },
     {
       "epoch": 1.4375,
-      "grad_norm": 28.968109130859375,
       "learning_rate": 1.4062500000000001e-05,
-      "loss": 0.38,
-      "step": 23
     },
     {
       "epoch": 1.4375,
-      "eval_loss": 1.4652482271194458,
-      "eval_runtime": 68.3514,
-      "eval_samples_per_second": 2.195,
-      "eval_steps_per_second": 0.044,
-      "step": 23
     },
     {
       "epoch": 1.5,
-      "grad_norm": 29.879552841186523,
       "learning_rate": 1.25e-05,
-      "loss": 0.3887,
-      "step": 24
     },
     {
       "epoch": 1.5,
-      "eval_loss": 1.4595154523849487,
-      "eval_runtime": 66.69,
-      "eval_samples_per_second": 2.249,
-      "eval_steps_per_second": 0.045,
-      "step": 24
     },
     {
       "epoch": 1.5625,
-      "grad_norm": 28.710205078125,
       "learning_rate": 1.09375e-05,
-      "loss": 0.3202,
-      "step": 25
     },
     {
       "epoch": 1.5625,
-      "eval_loss": 1.4468400478363037,
-      "eval_runtime": 68.3647,
-      "eval_samples_per_second": 2.194,
-      "eval_steps_per_second": 0.044,
-      "step": 25
     },
     {
       "epoch": 1.625,
-      "grad_norm": 27.124183654785156,
       "learning_rate": 9.375000000000001e-06,
-      "loss": 0.2525,
-      "step": 26
     },
     {
       "epoch": 1.625,
-      "eval_loss": 1.438510775566101,
-      "eval_runtime": 65.3338,
-      "eval_samples_per_second": 2.296,
-      "eval_steps_per_second": 0.046,
-      "step": 26
     },
     {
       "epoch": 1.6875,
-      "grad_norm": 31.146799087524414,
       "learning_rate": 7.8125e-06,
-      "loss": 0.5361,
-      "step": 27
     },
     {
       "epoch": 1.6875,
-      "eval_loss": 1.4363871812820435,
-      "eval_runtime": 79.7494,
-      "eval_samples_per_second": 1.881,
-      "eval_steps_per_second": 0.038,
-      "step": 27
     },
     {
       "epoch": 1.75,
-      "grad_norm": 30.060962677001953,
       "learning_rate": 6.25e-06,
-      "loss": 0.3427,
-      "step": 28
     },
     {
       "epoch": 1.75,
-      "eval_loss": 1.435764193534851,
-      "eval_runtime": 89.795,
-      "eval_samples_per_second": 1.67,
-      "eval_steps_per_second": 0.033,
-      "step": 28
     },
     {
       "epoch": 1.8125,
-      "grad_norm": 28.790109634399414,
       "learning_rate": 4.6875000000000004e-06,
-      "loss": 0.2529,
-      "step": 29
     },
     {
       "epoch": 1.8125,
-      "eval_loss": 1.4345921277999878,
-      "eval_runtime": 67.6708,
-      "eval_samples_per_second": 2.217,
-      "eval_steps_per_second": 0.044,
-      "step": 29
     },
     {
       "epoch": 1.875,
-      "grad_norm": 26.701284408569336,
       "learning_rate": 3.125e-06,
-      "loss": 0.1857,
-      "step": 30
     },
     {
       "epoch": 1.875,
-      "eval_loss": 1.4300572872161865,
-      "eval_runtime": 68.0502,
-      "eval_samples_per_second": 2.204,
-      "eval_steps_per_second": 0.044,
-      "step": 30
     },
     {
       "epoch": 1.9375,
-      "grad_norm": 32.15977096557617,
       "learning_rate": 1.5625e-06,
-      "loss": 0.3143,
-      "step": 31
     },
     {
       "epoch": 1.9375,
-      "eval_loss": 1.424769639968872,
-      "eval_runtime": 66.6233,
-      "eval_samples_per_second": 2.251,
-      "eval_steps_per_second": 0.045,
-      "step": 31
     },
     {
       "epoch": 2.0,
-      "grad_norm": 24.524354934692383,
       "learning_rate": 0.0,
-      "loss": 0.1912,
-      "step": 32
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.4227830171585083,
-      "eval_runtime": 68.629,
-      "eval_samples_per_second": 2.186,
-      "eval_steps_per_second": 0.044,
-      "step": 32
     },
     {
       "epoch": 2.0,
-      "step": 32,
-      "total_flos": 115984993944204.0,
-      "train_loss": 1.1255573146045208,
-      "train_runtime": 4694.1264,
-      "train_samples_per_second": 0.425,
-      "train_steps_per_second": 0.007
     }
   ],
   "logging_steps": 1.0,
-  "max_steps": 32,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
@@ -515,8 +995,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 115984993944204.0,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 2.0,
   "eval_steps": 1.0,
+  "global_step": 64,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.03125,
+      "grad_norm": 254.00668334960938,
+      "learning_rate": 4.921875e-05,
+      "loss": 1.9525,
+      "step": 1
+    },
+    {
+      "epoch": 0.03125,
+      "eval_loss": 1.4612890481948853,
+      "eval_runtime": 25.9325,
+      "eval_samples_per_second": 1.928,
+      "eval_steps_per_second": 0.27,
+      "step": 1
+    },
     {
       "epoch": 0.0625,
+      "grad_norm": 210.81161499023438,
       "learning_rate": 4.8437500000000005e-05,
+      "loss": 1.0619,
+      "step": 2
     },
     {
       "epoch": 0.0625,
+      "eval_loss": 3.5714147090911865,
+      "eval_runtime": 14.3357,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 0.488,
+      "step": 2
+    },
+    {
+      "epoch": 0.09375,
+      "grad_norm": 285.1878967285156,
+      "learning_rate": 4.765625e-05,
+      "loss": 3.3708,
+      "step": 3
+    },
+    {
+      "epoch": 0.09375,
+      "eval_loss": 2.727013349533081,
+      "eval_runtime": 19.6621,
+      "eval_samples_per_second": 2.543,
+      "eval_steps_per_second": 0.356,
+      "step": 3
     },
     {
       "epoch": 0.125,
+      "grad_norm": 218.46783447265625,
       "learning_rate": 4.6875e-05,
+      "loss": 3.8741,
+      "step": 4
     },
     {
       "epoch": 0.125,
+      "eval_loss": 3.152341842651367,
+      "eval_runtime": 14.2606,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 0.491,
+      "step": 4
+    },
+    {
+      "epoch": 0.15625,
+      "grad_norm": 97.45307159423828,
+      "learning_rate": 4.609375e-05,
+      "loss": 2.893,
+      "step": 5
+    },
+    {
+      "epoch": 0.15625,
+      "eval_loss": 2.370089054107666,
+      "eval_runtime": 19.323,
+      "eval_samples_per_second": 2.588,
+      "eval_steps_per_second": 0.362,
+      "step": 5
     },
     {
       "epoch": 0.1875,
+      "grad_norm": 107.88156127929688,
       "learning_rate": 4.5312500000000004e-05,
+      "loss": 3.0239,
+      "step": 6
     },
     {
       "epoch": 0.1875,
+      "eval_loss": 2.017429828643799,
+      "eval_runtime": 14.3416,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 0.488,
+      "step": 6
+    },
+    {
+      "epoch": 0.21875,
+      "grad_norm": 49.51248550415039,
+      "learning_rate": 4.453125e-05,
+      "loss": 2.8805,
+      "step": 7
+    },
+    {
+      "epoch": 0.21875,
+      "eval_loss": 1.99916410446167,
+      "eval_runtime": 23.2348,
+      "eval_samples_per_second": 2.152,
+      "eval_steps_per_second": 0.301,
+      "step": 7
     },
     {
       "epoch": 0.25,
+      "grad_norm": 30.55683708190918,
       "learning_rate": 4.375e-05,
+      "loss": 2.8668,
+      "step": 8
     },
     {
       "epoch": 0.25,
+      "eval_loss": 1.956161379814148,
+      "eval_runtime": 14.3127,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 0.489,
+      "step": 8
+    },
+    {
+      "epoch": 0.28125,
+      "grad_norm": 13.740416526794434,
+      "learning_rate": 4.2968750000000004e-05,
+      "loss": 2.7863,
+      "step": 9
+    },
+    {
+      "epoch": 0.28125,
+      "eval_loss": 1.9640475511550903,
+      "eval_runtime": 18.7885,
+      "eval_samples_per_second": 2.661,
+      "eval_steps_per_second": 0.373,
+      "step": 9
     },
     {
       "epoch": 0.3125,
+      "grad_norm": 13.121553421020508,
       "learning_rate": 4.21875e-05,
+      "loss": 2.7809,
+      "step": 10
     },
     {
       "epoch": 0.3125,
+      "eval_loss": 2.0438995361328125,
+      "eval_runtime": 14.5855,
+      "eval_samples_per_second": 3.428,
+      "eval_steps_per_second": 0.48,
+      "step": 10
+    },
+    {
+      "epoch": 0.34375,
+      "grad_norm": 28.015024185180664,
+      "learning_rate": 4.140625e-05,
+      "loss": 2.8319,
+      "step": 11
+    },
+    {
+      "epoch": 0.34375,
+      "eval_loss": 1.9908080101013184,
+      "eval_runtime": 20.0428,
+      "eval_samples_per_second": 2.495,
+      "eval_steps_per_second": 0.349,
+      "step": 11
     },
     {
       "epoch": 0.375,
+      "grad_norm": 14.510987281799316,
       "learning_rate": 4.0625000000000005e-05,
+      "loss": 2.6912,
+      "step": 12
     },
     {
       "epoch": 0.375,
+      "eval_loss": 1.9438972473144531,
+      "eval_runtime": 15.1294,
+      "eval_samples_per_second": 3.305,
+      "eval_steps_per_second": 0.463,
+      "step": 12
+    },
+    {
+      "epoch": 0.40625,
+      "grad_norm": 21.442792892456055,
+      "learning_rate": 3.984375e-05,
+      "loss": 2.9355,
+      "step": 13
+    },
+    {
+      "epoch": 0.40625,
+      "eval_loss": 1.9830740690231323,
+      "eval_runtime": 19.4816,
+      "eval_samples_per_second": 2.567,
+      "eval_steps_per_second": 0.359,
+      "step": 13
     },
     {
       "epoch": 0.4375,
+      "grad_norm": 11.233291625976562,
       "learning_rate": 3.90625e-05,
+      "loss": 2.6233,
+      "step": 14
     },
     {
       "epoch": 0.4375,
+      "eval_loss": 1.9741547107696533,
+      "eval_runtime": 14.0253,
+      "eval_samples_per_second": 3.565,
+      "eval_steps_per_second": 0.499,
+      "step": 14
+    },
+    {
+      "epoch": 0.46875,
+      "grad_norm": 16.227378845214844,
+      "learning_rate": 3.828125e-05,
+      "loss": 2.5995,
+      "step": 15
+    },
+    {
+      "epoch": 0.46875,
+      "eval_loss": 1.9386694431304932,
+      "eval_runtime": 20.5374,
+      "eval_samples_per_second": 2.435,
+      "eval_steps_per_second": 0.341,
+      "step": 15
     },
     {
       "epoch": 0.5,
+      "grad_norm": 19.815183639526367,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 2.4588,
+      "step": 16
     },
     {
       "epoch": 0.5,
+      "eval_loss": 1.8799047470092773,
+      "eval_runtime": 14.1007,
+      "eval_samples_per_second": 3.546,
+      "eval_steps_per_second": 0.496,
+      "step": 16
+    },
+    {
+      "epoch": 0.53125,
+      "grad_norm": 27.6804141998291,
+      "learning_rate": 3.671875e-05,
+      "loss": 2.6622,
+      "step": 17
+    },
+    {
+      "epoch": 0.53125,
+      "eval_loss": 1.9120107889175415,
+      "eval_runtime": 19.021,
+      "eval_samples_per_second": 2.629,
+      "eval_steps_per_second": 0.368,
+      "step": 17
     },
     {
       "epoch": 0.5625,
+      "grad_norm": 53.53272247314453,
       "learning_rate": 3.59375e-05,
+      "loss": 2.6819,
+      "step": 18
     },
     {
       "epoch": 0.5625,
+      "eval_loss": 1.826271414756775,
+      "eval_runtime": 14.0375,
+      "eval_samples_per_second": 3.562,
+      "eval_steps_per_second": 0.499,
+      "step": 18
+    },
+    {
+      "epoch": 0.59375,
+      "grad_norm": 31.6351318359375,
+      "learning_rate": 3.5156250000000004e-05,
+      "loss": 2.6057,
+      "step": 19
+    },
+    {
+      "epoch": 0.59375,
+      "eval_loss": 1.8063328266143799,
+      "eval_runtime": 19.3292,
+      "eval_samples_per_second": 2.587,
+      "eval_steps_per_second": 0.362,
+      "step": 19
     },
     {
       "epoch": 0.625,
+      "grad_norm": 81.76189422607422,
       "learning_rate": 3.4375e-05,
+      "loss": 2.1173,
+      "step": 20
     },
     {
       "epoch": 0.625,
+      "eval_loss": 1.813103437423706,
+      "eval_runtime": 14.0502,
+      "eval_samples_per_second": 3.559,
+      "eval_steps_per_second": 0.498,
+      "step": 20
+    },
+    {
+      "epoch": 0.65625,
+      "grad_norm": 28.440521240234375,
+      "learning_rate": 3.359375e-05,
+      "loss": 2.4934,
+      "step": 21
+    },
+    {
+      "epoch": 0.65625,
+      "eval_loss": 1.8328737020492554,
+      "eval_runtime": 19.9467,
+      "eval_samples_per_second": 2.507,
+      "eval_steps_per_second": 0.351,
+      "step": 21
     },
     {
       "epoch": 0.6875,
+      "grad_norm": 31.066139221191406,
       "learning_rate": 3.2812500000000005e-05,
+      "loss": 2.4664,
+      "step": 22
     },
     {
       "epoch": 0.6875,
+      "eval_loss": 1.8729884624481201,
+      "eval_runtime": 14.8515,
+      "eval_samples_per_second": 3.367,
+      "eval_steps_per_second": 0.471,
+      "step": 22
+    },
+    {
+      "epoch": 0.71875,
+      "grad_norm": 47.6856803894043,
+      "learning_rate": 3.203125e-05,
+      "loss": 2.3591,
+      "step": 23
+    },
+    {
+      "epoch": 0.71875,
+      "eval_loss": 1.9386744499206543,
+      "eval_runtime": 19.4361,
+      "eval_samples_per_second": 2.573,
+      "eval_steps_per_second": 0.36,
+      "step": 23
     },
     {
       "epoch": 0.75,
+      "grad_norm": 44.08198928833008,
       "learning_rate": 3.125e-05,
+      "loss": 2.4319,
+      "step": 24
     },
     {
       "epoch": 0.75,
+      "eval_loss": 1.9019237756729126,
+      "eval_runtime": 13.9736,
+      "eval_samples_per_second": 3.578,
+      "eval_steps_per_second": 0.501,
+      "step": 24
+    },
+    {
+      "epoch": 0.78125,
+      "grad_norm": 59.23967361450195,
+      "learning_rate": 3.0468750000000002e-05,
+      "loss": 2.5579,
+      "step": 25
+    },
+    {
+      "epoch": 0.78125,
+      "eval_loss": 1.8655019998550415,
+      "eval_runtime": 19.5942,
+      "eval_samples_per_second": 2.552,
+      "eval_steps_per_second": 0.357,
+      "step": 25
     },
     {
       "epoch": 0.8125,
+      "grad_norm": 44.628658294677734,
       "learning_rate": 2.96875e-05,
+      "loss": 2.4048,
+      "step": 26
     },
     {
       "epoch": 0.8125,
+      "eval_loss": 1.8706899881362915,
+      "eval_runtime": 14.1375,
+      "eval_samples_per_second": 3.537,
+      "eval_steps_per_second": 0.495,
+      "step": 26
+    },
+    {
+      "epoch": 0.84375,
+      "grad_norm": 59.57282638549805,
+      "learning_rate": 2.890625e-05,
+      "loss": 2.7706,
+      "step": 27
+    },
+    {
+      "epoch": 0.84375,
+      "eval_loss": 1.744444727897644,
+      "eval_runtime": 19.9669,
+      "eval_samples_per_second": 2.504,
+      "eval_steps_per_second": 0.351,
+      "step": 27
     },
     {
       "epoch": 0.875,
+      "grad_norm": 38.48733901977539,
       "learning_rate": 2.8125000000000003e-05,
+      "loss": 2.7279,
+      "step": 28
     },
     {
       "epoch": 0.875,
+      "eval_loss": 1.6933951377868652,
+      "eval_runtime": 14.0043,
+      "eval_samples_per_second": 3.57,
+      "eval_steps_per_second": 0.5,
+      "step": 28
+    },
+    {
+      "epoch": 0.90625,
+      "grad_norm": 38.13273620605469,
+      "learning_rate": 2.734375e-05,
+      "loss": 2.5247,
+      "step": 29
+    },
+    {
+      "epoch": 0.90625,
+      "eval_loss": 1.6971945762634277,
+      "eval_runtime": 18.8375,
+      "eval_samples_per_second": 2.654,
+      "eval_steps_per_second": 0.372,
+      "step": 29
     },
     {
       "epoch": 0.9375,
+      "grad_norm": 34.31296920776367,
       "learning_rate": 2.6562500000000002e-05,
+      "loss": 2.2336,
+      "step": 30
     },
     {
       "epoch": 0.9375,
+      "eval_loss": 1.7182470560073853,
+      "eval_runtime": 14.4648,
+      "eval_samples_per_second": 3.457,
+      "eval_steps_per_second": 0.484,
+      "step": 30
+    },
+    {
+      "epoch": 0.96875,
+      "grad_norm": 34.71999740600586,
+      "learning_rate": 2.578125e-05,
+      "loss": 2.2479,
+      "step": 31
+    },
+    {
+      "epoch": 0.96875,
+      "eval_loss": 1.7286863327026367,
+      "eval_runtime": 19.0105,
+      "eval_samples_per_second": 2.63,
+      "eval_steps_per_second": 0.368,
+      "step": 31
     },
     {
       "epoch": 1.0,
+      "grad_norm": 54.52072525024414,
       "learning_rate": 2.5e-05,
+      "loss": 0.9398,
+      "step": 32
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.7176891565322876,
+      "eval_runtime": 15.5832,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 0.449,
+      "step": 32
+    },
+    {
+      "epoch": 1.03125,
+      "grad_norm": 37.95784378051758,
+      "learning_rate": 2.4218750000000003e-05,
+      "loss": 2.2821,
+      "step": 33
+    },
+    {
+      "epoch": 1.03125,
+      "eval_loss": 1.6573299169540405,
+      "eval_runtime": 19.2268,
+      "eval_samples_per_second": 2.601,
+      "eval_steps_per_second": 0.364,
+      "step": 33
     },
     {
       "epoch": 1.0625,
+      "grad_norm": 32.960391998291016,
       "learning_rate": 2.34375e-05,
+      "loss": 2.339,
+      "step": 34
     },
     {
       "epoch": 1.0625,
+      "eval_loss": 1.623481273651123,
+      "eval_runtime": 14.5998,
+      "eval_samples_per_second": 3.425,
+      "eval_steps_per_second": 0.479,
+      "step": 34
+    },
+    {
+      "epoch": 1.09375,
+      "grad_norm": 31.484209060668945,
+      "learning_rate": 2.2656250000000002e-05,
+      "loss": 1.7187,
+      "step": 35
+    },
+    {
+      "epoch": 1.09375,
+      "eval_loss": 1.5644508600234985,
+      "eval_runtime": 20.7871,
+      "eval_samples_per_second": 2.405,
+      "eval_steps_per_second": 0.337,
+      "step": 35
     },
     {
       "epoch": 1.125,
+      "grad_norm": 28.109580993652344,
       "learning_rate": 2.1875e-05,
+      "loss": 1.585,
+      "step": 36
     },
     {
       "epoch": 1.125,
+      "eval_loss": 1.4872223138809204,
+      "eval_runtime": 14.0172,
+      "eval_samples_per_second": 3.567,
+      "eval_steps_per_second": 0.499,
+      "step": 36
+    },
+    {
+      "epoch": 1.15625,
+      "grad_norm": 34.407615661621094,
+      "learning_rate": 2.109375e-05,
+      "loss": 1.5801,
+      "step": 37
+    },
+    {
+      "epoch": 1.15625,
+      "eval_loss": 1.429572582244873,
+      "eval_runtime": 19.6378,
+      "eval_samples_per_second": 2.546,
+      "eval_steps_per_second": 0.356,
+      "step": 37
     },
     {
       "epoch": 1.1875,
+      "grad_norm": 34.66839599609375,
       "learning_rate": 2.0312500000000002e-05,
+      "loss": 1.8689,
+      "step": 38
     },
     {
       "epoch": 1.1875,
+      "eval_loss": 1.4055802822113037,
+      "eval_runtime": 15.0122,
+      "eval_samples_per_second": 3.331,
+      "eval_steps_per_second": 0.466,
+      "step": 38
+    },
+    {
+      "epoch": 1.21875,
+      "grad_norm": 38.05352020263672,
+      "learning_rate": 1.953125e-05,
+      "loss": 1.5591,
+      "step": 39
+    },
+    {
+      "epoch": 1.21875,
+      "eval_loss": 1.398817777633667,
+      "eval_runtime": 20.1748,
+      "eval_samples_per_second": 2.478,
+      "eval_steps_per_second": 0.347,
+      "step": 39
     },
     {
       "epoch": 1.25,
+      "grad_norm": 45.93744659423828,
       "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.4769,
+      "step": 40
     },
     {
       "epoch": 1.25,
+      "eval_loss": 1.3957644701004028,
+      "eval_runtime": 14.2141,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 0.492,
+      "step": 40
+    },
+    {
+      "epoch": 1.28125,
+      "grad_norm": 67.26871490478516,
+      "learning_rate": 1.796875e-05,
+      "loss": 1.2898,
+      "step": 41
+    },
+    {
+      "epoch": 1.28125,
+      "eval_loss": 1.3631155490875244,
+      "eval_runtime": 18.8012,
+      "eval_samples_per_second": 2.659,
+      "eval_steps_per_second": 0.372,
+      "step": 41
     },
     {
       "epoch": 1.3125,
+      "grad_norm": 48.31477737426758,
       "learning_rate": 1.71875e-05,
+      "loss": 1.4675,
+      "step": 42
     },
     {
       "epoch": 1.3125,
+      "eval_loss": 1.3446946144104004,
+      "eval_runtime": 14.0177,
+      "eval_samples_per_second": 3.567,
+      "eval_steps_per_second": 0.499,
+      "step": 42
+    },
+    {
+      "epoch": 1.34375,
+      "grad_norm": 43.087947845458984,
+      "learning_rate": 1.6406250000000002e-05,
+      "loss": 1.0123,
+      "step": 43
+    },
+    {
+      "epoch": 1.34375,
+      "eval_loss": 1.3272167444229126,
+      "eval_runtime": 19.8127,
+      "eval_samples_per_second": 2.524,
+      "eval_steps_per_second": 0.353,
+      "step": 43
     },
     {
       "epoch": 1.375,
+      "grad_norm": 50.14296340942383,
       "learning_rate": 1.5625e-05,
+      "loss": 1.4516,
+      "step": 44
     },
     {
       "epoch": 1.375,
+      "eval_loss": 1.3105698823928833,
+      "eval_runtime": 14.0327,
+      "eval_samples_per_second": 3.563,
+      "eval_steps_per_second": 0.499,
+      "step": 44
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 56.435394287109375,
+      "learning_rate": 1.484375e-05,
+      "loss": 1.2132,
+      "step": 45
+    },
+    {
+      "epoch": 1.40625,
+      "eval_loss": 1.2978880405426025,
+      "eval_runtime": 19.3431,
+      "eval_samples_per_second": 2.585,
+      "eval_steps_per_second": 0.362,
+      "step": 45
     },
     {
       "epoch": 1.4375,
+      "grad_norm": 62.44044494628906,
       "learning_rate": 1.4062500000000001e-05,
+      "loss": 1.1181,
+      "step": 46
     },
     {
       "epoch": 1.4375,
+      "eval_loss": 1.2973986864089966,
+      "eval_runtime": 14.4572,
+      "eval_samples_per_second": 3.458,
+      "eval_steps_per_second": 0.484,
+      "step": 46
+    },
+    {
+      "epoch": 1.46875,
+      "grad_norm": 49.06483459472656,
+      "learning_rate": 1.3281250000000001e-05,
+      "loss": 0.7987,
+      "step": 47
+    },
+    {
+      "epoch": 1.46875,
+      "eval_loss": 1.3060061931610107,
+      "eval_runtime": 18.8411,
+      "eval_samples_per_second": 2.654,
+      "eval_steps_per_second": 0.372,
+      "step": 47
     },
     {
       "epoch": 1.5,
+      "grad_norm": 59.63069534301758,
       "learning_rate": 1.25e-05,
+      "loss": 0.7248,
+      "step": 48
     },
     {
       "epoch": 1.5,
+      "eval_loss": 1.3088918924331665,
+      "eval_runtime": 16.3052,
+      "eval_samples_per_second": 3.067,
+      "eval_steps_per_second": 0.429,
+      "step": 48
+    },
+    {
+      "epoch": 1.53125,
+      "grad_norm": 85.45850372314453,
+      "learning_rate": 1.171875e-05,
+      "loss": 0.8957,
+      "step": 49
+    },
+    {
+      "epoch": 1.53125,
+      "eval_loss": 1.318437933921814,
+      "eval_runtime": 19.1539,
+      "eval_samples_per_second": 2.61,
+      "eval_steps_per_second": 0.365,
+      "step": 49
     },
     {
       "epoch": 1.5625,
+      "grad_norm": 69.75704956054688,
       "learning_rate": 1.09375e-05,
+      "loss": 0.8146,
+      "step": 50
     },
     {
       "epoch": 1.5625,
+      "eval_loss": 1.3147114515304565,
+      "eval_runtime": 14.4752,
+      "eval_samples_per_second": 3.454,
+      "eval_steps_per_second": 0.484,
+      "step": 50
+    },
+    {
+      "epoch": 1.59375,
+      "grad_norm": 55.29493713378906,
+      "learning_rate": 1.0156250000000001e-05,
+      "loss": 0.7953,
+      "step": 51
+    },
+    {
+      "epoch": 1.59375,
+      "eval_loss": 1.2989192008972168,
+      "eval_runtime": 20.9074,
+      "eval_samples_per_second": 2.392,
+      "eval_steps_per_second": 0.335,
+      "step": 51
     },
     {
       "epoch": 1.625,
+      "grad_norm": 71.8622817993164,
       "learning_rate": 9.375000000000001e-06,
+      "loss": 1.1628,
+      "step": 52
     },
     {
       "epoch": 1.625,
+      "eval_loss": 1.2810921669006348,
+      "eval_runtime": 14.0147,
+      "eval_samples_per_second": 3.568,
+      "eval_steps_per_second": 0.499,
+      "step": 52
+    },
+    {
+      "epoch": 1.65625,
+      "grad_norm": 71.86141204833984,
+      "learning_rate": 8.59375e-06,
+      "loss": 1.5174,
+      "step": 53
+    },
+    {
+      "epoch": 1.65625,
+      "eval_loss": 1.2605785131454468,
+      "eval_runtime": 18.7275,
+      "eval_samples_per_second": 2.67,
+      "eval_steps_per_second": 0.374,
+      "step": 53
     },
     {
       "epoch": 1.6875,
+      "grad_norm": 62.22434997558594,
       "learning_rate": 7.8125e-06,
+      "loss": 0.9822,
+      "step": 54
     },
     {
       "epoch": 1.6875,
+      "eval_loss": 1.2227574586868286,
+      "eval_runtime": 13.9543,
+      "eval_samples_per_second": 3.583,
+      "eval_steps_per_second": 0.502,
+      "step": 54
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 54.53126525878906,
+      "learning_rate": 7.031250000000001e-06,
+      "loss": 1.0173,
+      "step": 55
+    },
+    {
+      "epoch": 1.71875,
+      "eval_loss": 1.1982362270355225,
+      "eval_runtime": 19.0289,
+      "eval_samples_per_second": 2.628,
+      "eval_steps_per_second": 0.368,
+      "step": 55
     },
     {
       "epoch": 1.75,
+      "grad_norm": 76.07511138916016,
       "learning_rate": 6.25e-06,
+      "loss": 1.3464,
+      "step": 56
     },
     {
       "epoch": 1.75,
+      "eval_loss": 1.1850783824920654,
+      "eval_runtime": 14.0372,
+      "eval_samples_per_second": 3.562,
+      "eval_steps_per_second": 0.499,
+      "step": 56
+    },
+    {
+      "epoch": 1.78125,
+      "grad_norm": 72.6391830444336,
+      "learning_rate": 5.46875e-06,
+      "loss": 0.8926,
+      "step": 57
+    },
+    {
+      "epoch": 1.78125,
+      "eval_loss": 1.1799843311309814,
+      "eval_runtime": 22.4922,
+      "eval_samples_per_second": 2.223,
+      "eval_steps_per_second": 0.311,
+      "step": 57
     },
     {
       "epoch": 1.8125,
+      "grad_norm": 56.88068771362305,
       "learning_rate": 4.6875000000000004e-06,
+      "loss": 0.9163,
+      "step": 58
     },
     {
       "epoch": 1.8125,
+      "eval_loss": 1.1798558235168457,
+      "eval_runtime": 14.0488,
+      "eval_samples_per_second": 3.559,
+      "eval_steps_per_second": 0.498,
+      "step": 58
+    },
+    {
+      "epoch": 1.84375,
+      "grad_norm": 45.068748474121094,
+      "learning_rate": 3.90625e-06,
+      "loss": 0.7737,
+      "step": 59
+    },
+    {
+      "epoch": 1.84375,
+      "eval_loss": 1.178802490234375,
+      "eval_runtime": 20.1914,
+      "eval_samples_per_second": 2.476,
+      "eval_steps_per_second": 0.347,
+      "step": 59
     },
     {
       "epoch": 1.875,
+      "grad_norm": 65.94618225097656,
       "learning_rate": 3.125e-06,
+      "loss": 0.9931,
+      "step": 60
     },
     {
       "epoch": 1.875,
+      "eval_loss": 1.1730504035949707,
+      "eval_runtime": 14.2215,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 0.492,
+      "step": 60
+    },
+    {
+      "epoch": 1.90625,
+      "grad_norm": 67.28651428222656,
+      "learning_rate": 2.3437500000000002e-06,
+      "loss": 0.775,
+      "step": 61
+    },
+    {
+      "epoch": 1.90625,
+      "eval_loss": 1.1700712442398071,
+      "eval_runtime": 24.2206,
+      "eval_samples_per_second": 2.064,
+      "eval_steps_per_second": 0.289,
+      "step": 61
     },
     {
       "epoch": 1.9375,
+      "grad_norm": 45.8297004699707,
       "learning_rate": 1.5625e-06,
+      "loss": 0.655,
+      "step": 62
     },
     {
       "epoch": 1.9375,
+      "eval_loss": 1.1683861017227173,
+      "eval_runtime": 13.9273,
+      "eval_samples_per_second": 3.59,
+      "eval_steps_per_second": 0.503,
+      "step": 62
+    },
+    {
+      "epoch": 1.96875,
+      "grad_norm": 64.58641052246094,
+      "learning_rate": 7.8125e-07,
+      "loss": 1.0303,
+      "step": 63
+    },
+    {
+      "epoch": 1.96875,
+      "eval_loss": 1.1670336723327637,
+      "eval_runtime": 22.0932,
+      "eval_samples_per_second": 2.263,
+      "eval_steps_per_second": 0.317,
+      "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 94.33624267578125,
       "learning_rate": 0.0,
+      "loss": 0.2727,
+      "step": 64
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.166153073310852,
+      "eval_runtime": 15.0662,
+      "eval_samples_per_second": 3.319,
+      "eval_steps_per_second": 0.465,
+      "step": 64
     },
     {
       "epoch": 2.0,
+      "step": 64,
+      "total_flos": 58050663970068.0,
+      "train_loss": 1.8778469576500356,
+      "train_runtime": 2427.903,
+      "train_samples_per_second": 0.411,
+      "train_steps_per_second": 0.026
     }
   ],
   "logging_steps": 1.0,
+  "max_steps": 64,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 58050663970068.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }