Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315cc7c051b473192a40e084a48672f15517860b79a7e635412d43a2b7735dd0
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:568beaea7b10151ac36b16502a905b74eb42e9692e9cf626d4e54483d9f62675
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c74669ef67aabc5e0d81a6d4e567dcb6b7e40b251a0940ea227414ffc855699
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:07e91e95945e3993b28704b8a8ff0fe58a187246a0cce963427a80f323bcbc41
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02f3437ea10d0a715eeb7233b0cae888cbf029eb2873b835c8997e8f990128ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ef10d6e78066e1e0b64d0a4f7c5c873eaaaea2dfe3daf019e2a56206b658ad5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f32a07717606d664792d4ebfd434223710fe948a637ff5f34234da98aa96ac43
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8200c7911b70674e95f6ea3c4fd4f7c5a623c58e7efa3752996c3106e6a97146
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.41040292382240295,
-  "best_model_checkpoint": "mikhail-panzo/ceb_b128_le5_s4000/checkpoint-1500",
-  "epoch": 117.6470588235294,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -241,6 +241,84 @@
       "eval_samples_per_second": 27.707,
       "eval_steps_per_second": 3.54,
       "step": 1500
     }
   ],
   "logging_steps": 50,
@@ -260,7 +338,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.26453987568258e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4016592502593994,
+  "best_model_checkpoint": "mikhail-panzo/ceb_b128_le5_s4000/checkpoint-2000",
+  "epoch": 156.86274509803923,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.707,
       "eval_steps_per_second": 3.54,
       "step": 1500
+    },
+    {
+      "epoch": 121.56862745098039,
+      "grad_norm": 0.6831104755401611,
+      "learning_rate": 7.745e-06,
+      "loss": 0.4461,
+      "step": 1550
+    },
+    {
+      "epoch": 125.49019607843137,
+      "grad_norm": 1.195868968963623,
+      "learning_rate": 7.995e-06,
+      "loss": 0.4429,
+      "step": 1600
+    },
+    {
+      "epoch": 129.41176470588235,
+      "grad_norm": 1.1746853590011597,
+      "learning_rate": 8.245000000000002e-06,
+      "loss": 0.4358,
+      "step": 1650
+    },
+    {
+      "epoch": 133.33333333333334,
+      "grad_norm": 1.2797439098358154,
+      "learning_rate": 8.495e-06,
+      "loss": 0.4383,
+      "step": 1700
+    },
+    {
+      "epoch": 137.2549019607843,
+      "grad_norm": 0.6744837760925293,
+      "learning_rate": 8.745000000000002e-06,
+      "loss": 0.4416,
+      "step": 1750
+    },
+    {
+      "epoch": 141.1764705882353,
+      "grad_norm": 0.7655614018440247,
+      "learning_rate": 8.995000000000001e-06,
+      "loss": 0.4338,
+      "step": 1800
+    },
+    {
+      "epoch": 145.09803921568627,
+      "grad_norm": 0.9920282363891602,
+      "learning_rate": 9.245e-06,
+      "loss": 0.4337,
+      "step": 1850
+    },
+    {
+      "epoch": 149.01960784313727,
+      "grad_norm": 0.9740642309188843,
+      "learning_rate": 9.495000000000001e-06,
+      "loss": 0.4309,
+      "step": 1900
+    },
+    {
+      "epoch": 152.94117647058823,
+      "grad_norm": 0.9331285953521729,
+      "learning_rate": 9.745e-06,
+      "loss": 0.4337,
+      "step": 1950
+    },
+    {
+      "epoch": 156.86274509803923,
+      "grad_norm": 0.8512988686561584,
+      "learning_rate": 9.995000000000002e-06,
+      "loss": 0.4289,
+      "step": 2000
+    },
+    {
+      "epoch": 156.86274509803923,
+      "eval_loss": 0.4016592502593994,
+      "eval_runtime": 6.4392,
+      "eval_samples_per_second": 27.954,
+      "eval_steps_per_second": 3.572,
+      "step": 2000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.352128118839037e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null