Training in progress, step 230, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18fdbc0c4f0a856bb851756d41e848c7f8da8cdd3c8bb06d2d6bed157cd6e47f
 size 97307544

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9dc04d9131f70be891a19381878614c297c393a909fdfe2b429dde61e4fcefa
 size 97307544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:593b4b5069ea3e92bd5dd2bd90ebd76f7ec8bccb3efe79a2301c144ab29a07b4
 size 49846260

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0cd8f2a46be5f132346e24f7e0d29bb24f82edd72eb9fee14693d4eecfd4237
 size 49846260

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74a5cf5e988307b7bc5ac99195c5626f83509282efb2453403481b5a9c2074a3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:afe870df998feb02da0faa0e10164a513510cb4301dca9513fbf4cb6ab260322
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70b35dc00d38fbc94393b01bb750de67a9e73be3bb058ea334b16afbeab55729
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:406b12b84118dfa4a046518d4e2a656e48bb88fb0ae0e36c6b540e90cacbc244
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2911679068262698,
   "eval_steps": 386,
-  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1590,6 +1590,41 @@
       "learning_rate": 9.948034849431831e-05,
       "loss": 0.939,
       "step": 225
     }
   ],
   "logging_steps": 1,
@@ -1609,7 +1644,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.515358636310528e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2976383047557425,
   "eval_steps": 386,
+  "global_step": 230,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.948034849431831e-05,
       "loss": 0.939,
       "step": 225
+    },
+    {
+      "epoch": 0.29246198641216437,
+      "grad_norm": 0.9793195724487305,
+      "learning_rate": 9.947440310820852e-05,
+      "loss": 1.0998,
+      "step": 226
+    },
+    {
+      "epoch": 0.29375606599805887,
+      "grad_norm": 0.8190125823020935,
+      "learning_rate": 9.946842408408583e-05,
+      "loss": 0.9606,
+      "step": 227
+    },
+    {
+      "epoch": 0.2950501455839534,
+      "grad_norm": 0.8229602575302124,
+      "learning_rate": 9.946241142601543e-05,
+      "loss": 0.7944,
+      "step": 228
+    },
+    {
+      "epoch": 0.29634422516984793,
+      "grad_norm": 0.8640865683555603,
+      "learning_rate": 9.945636513808537e-05,
+      "loss": 1.112,
+      "step": 229
+    },
+    {
+      "epoch": 0.2976383047557425,
+      "grad_norm": 0.774501621723175,
+      "learning_rate": 9.945028522440653e-05,
+      "loss": 0.8986,
+      "step": 230
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.5712554948952064e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null