Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff8cae616e41b6eeadfd895301ce06f02907c037312d6d128cbc6789ddc9b7f8
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:315cc7c051b473192a40e084a48672f15517860b79a7e635412d43a2b7735dd0
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec073b4caedc3cfb8350822a4965385a3c9d2c064db1caa88ca86be33b024ab7
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c74669ef67aabc5e0d81a6d4e567dcb6b7e40b251a0940ea227414ffc855699
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45cef88be00665fc8a314476e14e0a14878c0d750e849e6b98a7e57eddf92a77
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:02f3437ea10d0a715eeb7233b0cae888cbf029eb2873b835c8997e8f990128ac
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6080dc3c4f31046c753abd07ed5f1a8449e11695e9772af37e8337628bc01d7f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f32a07717606d664792d4ebfd434223710fe948a637ff5f34234da98aa96ac43
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.42202475666999817,
-  "best_model_checkpoint": "mikhail-panzo/ceb_b128_le5_s4000/checkpoint-1000",
-  "epoch": 78.43137254901961,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -163,6 +163,84 @@
       "eval_samples_per_second": 28.3,
       "eval_steps_per_second": 3.616,
       "step": 1000
     }
   ],
   "logging_steps": 50,
@@ -182,7 +260,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.176673010094044e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.41040292382240295,
+  "best_model_checkpoint": "mikhail-panzo/ceb_b128_le5_s4000/checkpoint-1500",
+  "epoch": 117.6470588235294,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.3,
       "eval_steps_per_second": 3.616,
       "step": 1000
+    },
+    {
+      "epoch": 82.3529411764706,
+      "grad_norm": 0.9115990400314331,
+      "learning_rate": 5.245e-06,
+      "loss": 0.47,
+      "step": 1050
+    },
+    {
+      "epoch": 86.27450980392157,
+      "grad_norm": 0.6754831075668335,
+      "learning_rate": 5.495000000000001e-06,
+      "loss": 0.4605,
+      "step": 1100
+    },
+    {
+      "epoch": 90.19607843137256,
+      "grad_norm": 1.0708327293395996,
+      "learning_rate": 5.745000000000001e-06,
+      "loss": 0.458,
+      "step": 1150
+    },
+    {
+      "epoch": 94.11764705882354,
+      "grad_norm": 0.7757265567779541,
+      "learning_rate": 5.995000000000001e-06,
+      "loss": 0.456,
+      "step": 1200
+    },
+    {
+      "epoch": 98.03921568627452,
+      "grad_norm": 1.1435647010803223,
+      "learning_rate": 6.245000000000001e-06,
+      "loss": 0.4576,
+      "step": 1250
+    },
+    {
+      "epoch": 101.96078431372548,
+      "grad_norm": 0.8143028020858765,
+      "learning_rate": 6.4950000000000005e-06,
+      "loss": 0.4518,
+      "step": 1300
+    },
+    {
+      "epoch": 105.88235294117646,
+      "grad_norm": 0.8940721750259399,
+      "learning_rate": 6.745000000000001e-06,
+      "loss": 0.4515,
+      "step": 1350
+    },
+    {
+      "epoch": 109.80392156862744,
+      "grad_norm": 1.8656580448150635,
+      "learning_rate": 6.995000000000001e-06,
+      "loss": 0.4516,
+      "step": 1400
+    },
+    {
+      "epoch": 113.72549019607843,
+      "grad_norm": 0.7817286252975464,
+      "learning_rate": 7.245000000000001e-06,
+      "loss": 0.4412,
+      "step": 1450
+    },
+    {
+      "epoch": 117.6470588235294,
+      "grad_norm": 1.806294322013855,
+      "learning_rate": 7.495000000000001e-06,
+      "loss": 0.4466,
+      "step": 1500
+    },
+    {
+      "epoch": 117.6470588235294,
+      "eval_loss": 0.41040292382240295,
+      "eval_runtime": 6.4965,
+      "eval_samples_per_second": 27.707,
+      "eval_steps_per_second": 3.54,
+      "step": 1500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.26453987568258e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null