Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:568beaea7b10151ac36b16502a905b74eb42e9692e9cf626d4e54483d9f62675
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:3125c5cdd907859825b85e2b44f1a2c45eced9608219b8491212276b64dd40b6
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07e91e95945e3993b28704b8a8ff0fe58a187246a0cce963427a80f323bcbc41
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:36e743907e3ef9df701cfdaa04f41653cedb1fb402064f70e353c7669c6b3222
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ef10d6e78066e1e0b64d0a4f7c5c873eaaaea2dfe3daf019e2a56206b658ad5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6562043b413fa7e5997eaf05f34bba7850c0b7649af0796d00c8d62fb292ee1d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8200c7911b70674e95f6ea3c4fd4f7c5a623c58e7efa3752996c3106e6a97146
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d180e6bb7b7c41ee65a41a5e646849b13af9646efdef1095f15a2a7e5f3cda1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4016592502593994,
-  "best_model_checkpoint": "mikhail-panzo/ceb_b128_le5_s4000/checkpoint-2000",
-  "epoch": 156.86274509803923,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -319,6 +319,84 @@
       "eval_samples_per_second": 27.954,
       "eval_steps_per_second": 3.572,
       "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -338,7 +416,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.352128118839037e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.39692553877830505,
+  "best_model_checkpoint": "mikhail-panzo/ceb_b128_le5_s4000/checkpoint-2500",
+  "epoch": 196.07843137254903,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.954,
       "eval_steps_per_second": 3.572,
       "step": 2000
+    },
+    {
+      "epoch": 160.7843137254902,
+      "grad_norm": 0.7746613025665283,
+      "learning_rate": 9.755e-06,
+      "loss": 0.4306,
+      "step": 2050
+    },
+    {
+      "epoch": 164.7058823529412,
+      "grad_norm": 0.6868831515312195,
+      "learning_rate": 9.505000000000001e-06,
+      "loss": 0.4302,
+      "step": 2100
+    },
+    {
+      "epoch": 168.62745098039215,
+      "grad_norm": 1.010834813117981,
+      "learning_rate": 9.255e-06,
+      "loss": 0.4254,
+      "step": 2150
+    },
+    {
+      "epoch": 172.54901960784315,
+      "grad_norm": 1.054592490196228,
+      "learning_rate": 9.005000000000001e-06,
+      "loss": 0.4248,
+      "step": 2200
+    },
+    {
+      "epoch": 176.47058823529412,
+      "grad_norm": 0.8121660351753235,
+      "learning_rate": 8.755e-06,
+      "loss": 0.4227,
+      "step": 2250
+    },
+    {
+      "epoch": 180.3921568627451,
+      "grad_norm": 0.6637047529220581,
+      "learning_rate": 8.505e-06,
+      "loss": 0.4232,
+      "step": 2300
+    },
+    {
+      "epoch": 184.31372549019608,
+      "grad_norm": 1.0822277069091797,
+      "learning_rate": 8.255000000000001e-06,
+      "loss": 0.4226,
+      "step": 2350
+    },
+    {
+      "epoch": 188.23529411764707,
+      "grad_norm": 0.759693443775177,
+      "learning_rate": 8.005e-06,
+      "loss": 0.4236,
+      "step": 2400
+    },
+    {
+      "epoch": 192.15686274509804,
+      "grad_norm": 0.576042652130127,
+      "learning_rate": 7.755000000000001e-06,
+      "loss": 0.4162,
+      "step": 2450
+    },
+    {
+      "epoch": 196.07843137254903,
+      "grad_norm": 0.8360034227371216,
+      "learning_rate": 7.505e-06,
+      "loss": 0.4223,
+      "step": 2500
+    },
+    {
+      "epoch": 196.07843137254903,
+      "eval_loss": 0.39692553877830505,
+      "eval_runtime": 6.4387,
+      "eval_samples_per_second": 27.956,
+      "eval_steps_per_second": 3.572,
+      "step": 2500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.440105584628308e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null