Training in progress, step 2404, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -64

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:232b68b8ddafb01df2984a10e33488829130b30e041e48d066b54939473e6ff6
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:92e58e8695630ff5ccb135b4333064504c3cd8bd2865e2fc6fd39f128ab7e34e
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7069a14fcc9bff0c6bc9038483cdefb26decf1998e8d418211dfbfa3e4a8af5e
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:b52225a14b00d71733d4f2de52564812db584c9351e5759268e2690175489248
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e79bcfaf683538279e39272f16342dfc788f3ded86099a7f67e3c0cbc2e642c8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2ad5e4b3f643cc8277d6ec1988fa3ef711691975814d2464a77f58b0a264633
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfecd979e55961cee0575d5f79cb68e42062200bea1d0b301500013e33f96097
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:119e87fda9d6cbceb29a4ec44787fae3f1908a40119a5846fa63f99a34ad8544
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.23246362805366516,
   "best_model_checkpoint": "./fine-tuned/checkpoint-2000",
-  "epoch": 3.3250207813798838,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -25,9 +25,9 @@
     {
       "epoch": 0.1662510390689942,
       "eval_loss": 0.35283052921295166,
-      "eval_runtime": 38.0523,
-      "eval_samples_per_second": 12.982,
-      "eval_steps_per_second": 1.629,
       "step": 100
     },
     {
@@ -47,9 +47,9 @@
     {
       "epoch": 0.3325020781379884,
       "eval_loss": 0.30865946412086487,
-      "eval_runtime": 38.2162,
-      "eval_samples_per_second": 12.926,
-      "eval_steps_per_second": 1.622,
       "step": 200
     },
     {
@@ -69,9 +69,9 @@
     {
       "epoch": 0.49875311720698257,
       "eval_loss": 0.2891499996185303,
-      "eval_runtime": 38.1858,
-      "eval_samples_per_second": 12.937,
-      "eval_steps_per_second": 1.624,
       "step": 300
     },
     {
@@ -91,9 +91,9 @@
     {
       "epoch": 0.6650041562759768,
       "eval_loss": 0.2757515609264374,
-      "eval_runtime": 38.2247,
-      "eval_samples_per_second": 12.924,
-      "eval_steps_per_second": 1.622,
       "step": 400
     },
     {
@@ -113,9 +113,9 @@
     {
       "epoch": 0.8312551953449709,
       "eval_loss": 0.2673098146915436,
-      "eval_runtime": 38.0207,
-      "eval_samples_per_second": 12.993,
-      "eval_steps_per_second": 1.631,
       "step": 500
     },
     {
@@ -135,9 +135,9 @@
     {
       "epoch": 0.9975062344139651,
       "eval_loss": 0.26070085167884827,
-      "eval_runtime": 37.7694,
-      "eval_samples_per_second": 13.079,
-      "eval_steps_per_second": 1.642,
       "step": 600
     },
     {
@@ -157,9 +157,9 @@
     {
       "epoch": 1.1637572734829593,
       "eval_loss": 0.256939560174942,
-      "eval_runtime": 38.0385,
-      "eval_samples_per_second": 12.987,
-      "eval_steps_per_second": 1.63,
       "step": 700
     },
     {
@@ -179,9 +179,9 @@
     {
       "epoch": 1.3300083125519535,
       "eval_loss": 0.2525966763496399,
-      "eval_runtime": 38.1831,
-      "eval_samples_per_second": 12.938,
-      "eval_steps_per_second": 1.624,
       "step": 800
     },
     {
@@ -201,9 +201,9 @@
     {
       "epoch": 1.4962593516209477,
       "eval_loss": 0.24994711577892303,
-      "eval_runtime": 37.4678,
-      "eval_samples_per_second": 13.185,
-      "eval_steps_per_second": 1.655,
       "step": 900
     },
     {
@@ -223,9 +223,9 @@
     {
       "epoch": 1.6625103906899419,
       "eval_loss": 0.246443971991539,
-      "eval_runtime": 37.8324,
-      "eval_samples_per_second": 13.058,
-      "eval_steps_per_second": 1.639,
       "step": 1000
     },
     {
@@ -245,9 +245,9 @@
     {
       "epoch": 1.828761429758936,
       "eval_loss": 0.24409395456314087,
-      "eval_runtime": 37.7821,
-      "eval_samples_per_second": 13.075,
-      "eval_steps_per_second": 1.641,
       "step": 1100
     },
     {
@@ -267,9 +267,9 @@
     {
       "epoch": 1.9950124688279303,
       "eval_loss": 0.2411041557788849,
-      "eval_runtime": 37.3119,
-      "eval_samples_per_second": 13.24,
-      "eval_steps_per_second": 1.662,
       "step": 1200
     },
     {
@@ -289,9 +289,9 @@
     {
       "epoch": 2.1612635078969245,
       "eval_loss": 0.23963774740695953,
-      "eval_runtime": 37.7867,
-      "eval_samples_per_second": 13.073,
-      "eval_steps_per_second": 1.641,
       "step": 1300
     },
     {
@@ -311,9 +311,9 @@
     {
       "epoch": 2.3275145469659186,
       "eval_loss": 0.23829442262649536,
-      "eval_runtime": 37.7411,
-      "eval_samples_per_second": 13.089,
-      "eval_steps_per_second": 1.643,
       "step": 1400
     },
     {
@@ -333,9 +333,9 @@
     {
       "epoch": 2.493765586034913,
       "eval_loss": 0.2369847148656845,
-      "eval_runtime": 38.1397,
-      "eval_samples_per_second": 12.952,
-      "eval_steps_per_second": 1.626,
       "step": 1500
     },
     {
@@ -355,9 +355,9 @@
     {
       "epoch": 2.660016625103907,
       "eval_loss": 0.23503336310386658,
-      "eval_runtime": 37.7531,
-      "eval_samples_per_second": 13.085,
-      "eval_steps_per_second": 1.642,
       "step": 1600
     },
     {
@@ -377,9 +377,9 @@
     {
       "epoch": 2.826267664172901,
       "eval_loss": 0.23422521352767944,
-      "eval_runtime": 37.8729,
-      "eval_samples_per_second": 13.044,
-      "eval_steps_per_second": 1.637,
       "step": 1700
     },
     {
@@ -399,9 +399,9 @@
     {
       "epoch": 2.9925187032418954,
       "eval_loss": 0.23330263793468475,
-      "eval_runtime": 37.8678,
-      "eval_samples_per_second": 13.045,
-      "eval_steps_per_second": 1.637,
       "step": 1800
     },
     {
@@ -421,9 +421,9 @@
     {
       "epoch": 3.1587697423108896,
       "eval_loss": 0.23302872478961945,
-      "eval_runtime": 38.1436,
-      "eval_samples_per_second": 12.951,
-      "eval_steps_per_second": 1.625,
       "step": 1900
     },
     {
@@ -443,10 +443,98 @@
     {
       "epoch": 3.3250207813798838,
       "eval_loss": 0.23246362805366516,
-      "eval_runtime": 37.97,
-      "eval_samples_per_second": 13.01,
-      "eval_steps_per_second": 1.633,
       "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -461,12 +549,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.948482562424832e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.23246362805366516,
   "best_model_checkpoint": "./fine-tuned/checkpoint-2000",
+  "epoch": 3.99667497921862,
   "eval_steps": 100,
+  "global_step": 2404,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.1662510390689942,
       "eval_loss": 0.35283052921295166,
+      "eval_runtime": 36.3275,
+      "eval_samples_per_second": 13.598,
+      "eval_steps_per_second": 1.707,
       "step": 100
     },
     {
     {
       "epoch": 0.3325020781379884,
       "eval_loss": 0.30865946412086487,
+      "eval_runtime": 36.5834,
+      "eval_samples_per_second": 13.503,
+      "eval_steps_per_second": 1.695,
       "step": 200
     },
     {
     {
       "epoch": 0.49875311720698257,
       "eval_loss": 0.2891499996185303,
+      "eval_runtime": 36.4356,
+      "eval_samples_per_second": 13.558,
+      "eval_steps_per_second": 1.702,
       "step": 300
     },
     {
     {
       "epoch": 0.6650041562759768,
       "eval_loss": 0.2757515609264374,
+      "eval_runtime": 36.561,
+      "eval_samples_per_second": 13.512,
+      "eval_steps_per_second": 1.696,
       "step": 400
     },
     {
     {
       "epoch": 0.8312551953449709,
       "eval_loss": 0.2673098146915436,
+      "eval_runtime": 36.4611,
+      "eval_samples_per_second": 13.549,
+      "eval_steps_per_second": 1.7,
       "step": 500
     },
     {
     {
       "epoch": 0.9975062344139651,
       "eval_loss": 0.26070085167884827,
+      "eval_runtime": 36.5977,
+      "eval_samples_per_second": 13.498,
+      "eval_steps_per_second": 1.694,
       "step": 600
     },
     {
     {
       "epoch": 1.1637572734829593,
       "eval_loss": 0.256939560174942,
+      "eval_runtime": 36.5571,
+      "eval_samples_per_second": 13.513,
+      "eval_steps_per_second": 1.696,
       "step": 700
     },
     {
     {
       "epoch": 1.3300083125519535,
       "eval_loss": 0.2525966763496399,
+      "eval_runtime": 36.5366,
+      "eval_samples_per_second": 13.521,
+      "eval_steps_per_second": 1.697,
       "step": 800
     },
     {
     {
       "epoch": 1.4962593516209477,
       "eval_loss": 0.24994711577892303,
+      "eval_runtime": 36.5909,
+      "eval_samples_per_second": 13.501,
+      "eval_steps_per_second": 1.694,
       "step": 900
     },
     {
     {
       "epoch": 1.6625103906899419,
       "eval_loss": 0.246443971991539,
+      "eval_runtime": 36.514,
+      "eval_samples_per_second": 13.529,
+      "eval_steps_per_second": 1.698,
       "step": 1000
     },
     {
     {
       "epoch": 1.828761429758936,
       "eval_loss": 0.24409395456314087,
+      "eval_runtime": 36.5322,
+      "eval_samples_per_second": 13.522,
+      "eval_steps_per_second": 1.697,
       "step": 1100
     },
     {
     {
       "epoch": 1.9950124688279303,
       "eval_loss": 0.2411041557788849,
+      "eval_runtime": 36.4594,
+      "eval_samples_per_second": 13.549,
+      "eval_steps_per_second": 1.701,
       "step": 1200
     },
     {
     {
       "epoch": 2.1612635078969245,
       "eval_loss": 0.23963774740695953,
+      "eval_runtime": 36.6761,
+      "eval_samples_per_second": 13.469,
+      "eval_steps_per_second": 1.69,
       "step": 1300
     },
     {
     {
       "epoch": 2.3275145469659186,
       "eval_loss": 0.23829442262649536,
+      "eval_runtime": 36.5959,
+      "eval_samples_per_second": 13.499,
+      "eval_steps_per_second": 1.694,
       "step": 1400
     },
     {
     {
       "epoch": 2.493765586034913,
       "eval_loss": 0.2369847148656845,
+      "eval_runtime": 36.5924,
+      "eval_samples_per_second": 13.5,
+      "eval_steps_per_second": 1.694,
       "step": 1500
     },
     {
     {
       "epoch": 2.660016625103907,
       "eval_loss": 0.23503336310386658,
+      "eval_runtime": 36.5255,
+      "eval_samples_per_second": 13.525,
+      "eval_steps_per_second": 1.697,
       "step": 1600
     },
     {
     {
       "epoch": 2.826267664172901,
       "eval_loss": 0.23422521352767944,
+      "eval_runtime": 36.5068,
+      "eval_samples_per_second": 13.532,
+      "eval_steps_per_second": 1.698,
       "step": 1700
     },
     {
     {
       "epoch": 2.9925187032418954,
       "eval_loss": 0.23330263793468475,
+      "eval_runtime": 36.5181,
+      "eval_samples_per_second": 13.528,
+      "eval_steps_per_second": 1.698,
       "step": 1800
     },
     {
     {
       "epoch": 3.1587697423108896,
       "eval_loss": 0.23302872478961945,
+      "eval_runtime": 36.6159,
+      "eval_samples_per_second": 13.491,
+      "eval_steps_per_second": 1.693,
       "step": 1900
     },
     {
     {
       "epoch": 3.3250207813798838,
       "eval_loss": 0.23246362805366516,
+      "eval_runtime": 36.5215,
+      "eval_samples_per_second": 13.526,
+      "eval_steps_per_second": 1.698,
       "step": 2000
+    },
+    {
+      "epoch": 3.408146300914381,
+      "grad_norm": 19064.091796875,
+      "learning_rate": 4.4176372712146424e-06,
+      "loss": 0.2531,
+      "step": 2050
+    },
+    {
+      "epoch": 3.491271820448878,
+      "grad_norm": 24487.681640625,
+      "learning_rate": 3.793677204658902e-06,
+      "loss": 0.2763,
+      "step": 2100
+    },
+    {
+      "epoch": 3.491271820448878,
+      "eval_loss": 0.23180559277534485,
+      "eval_runtime": 36.4965,
+      "eval_samples_per_second": 13.536,
+      "eval_steps_per_second": 1.699,
+      "step": 2100
+    },
+    {
+      "epoch": 3.574397339983375,
+      "grad_norm": 33160.66015625,
+      "learning_rate": 3.1697171381031614e-06,
+      "loss": 0.2706,
+      "step": 2150
+    },
+    {
+      "epoch": 3.657522859517872,
+      "grad_norm": 20284.03515625,
+      "learning_rate": 2.545757071547421e-06,
+      "loss": 0.2521,
+      "step": 2200
+    },
+    {
+      "epoch": 3.657522859517872,
+      "eval_loss": 0.23114623129367828,
+      "eval_runtime": 36.5506,
+      "eval_samples_per_second": 13.516,
+      "eval_steps_per_second": 1.696,
+      "step": 2200
+    },
+    {
+      "epoch": 3.7406483790523692,
+      "grad_norm": 55974.03125,
+      "learning_rate": 1.9217970049916804e-06,
+      "loss": 0.2542,
+      "step": 2250
+    },
+    {
+      "epoch": 3.8237738985868663,
+      "grad_norm": 18724.478515625,
+      "learning_rate": 1.2978369384359402e-06,
+      "loss": 0.2684,
+      "step": 2300
+    },
+    {
+      "epoch": 3.8237738985868663,
+      "eval_loss": 0.23083852231502533,
+      "eval_runtime": 36.3806,
+      "eval_samples_per_second": 13.579,
+      "eval_steps_per_second": 1.704,
+      "step": 2300
+    },
+    {
+      "epoch": 3.9068994181213634,
+      "grad_norm": 26152.619140625,
+      "learning_rate": 6.738768718801997e-07,
+      "loss": 0.2582,
+      "step": 2350
+    },
+    {
+      "epoch": 3.9900249376558605,
+      "grad_norm": 20345.572265625,
+      "learning_rate": 4.9916805324459236e-08,
+      "loss": 0.2529,
+      "step": 2400
+    },
+    {
+      "epoch": 3.9900249376558605,
+      "eval_loss": 0.23079748451709747,
+      "eval_runtime": 36.4645,
+      "eval_samples_per_second": 13.547,
+      "eval_steps_per_second": 1.7,
+      "step": 2400
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.342112942882816e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null