Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8d21651e5db2ed67f31319a652131e535151d2fbf4e6b24b3edeb923bb9d99f
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f49478b3558087de3ef1a10558e5e95232e5021f5554b1a3c06b2ca1a4c1837
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f742d32e28e8158fb337c29ed9b09546167bb83f74364f94ebdc185bff0685
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c3d2f41767d06de85b925c048cc0009bb7905dc81e830f65ec94b3a302a2b4a
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e7a2dc2fd34210e38a0dafa68768e7a8ac00e877b03b70d54a43bd027bc5930
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0adb4fd9f26d958c1229bd5f580059c7a1f34ab63e309cc84449bd74e51f61ac
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cbb951fc4257a68dab12f51ae2258de85fc85dd8c8f4de0474b3e6fac987a51
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e73199a599db3ee4dbee079b2308a29999c25a67f748ab52b6cc64d7c9b3df0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.39598318934440613,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3500",
-  "epoch": 297.029702970297,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1177,6 +1177,84 @@
       "eval_samples_per_second": 26.065,
       "eval_steps_per_second": 3.33,
       "step": 7500
     }
   ],
   "logging_steps": 50,
@@ -1191,12 +1269,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.103931252887646e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.39598318934440613,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le4_s8000/checkpoint-3500",
+  "epoch": 316.83168316831683,
   "eval_steps": 500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.065,
       "eval_steps_per_second": 3.33,
       "step": 7500
+    },
+    {
+      "epoch": 299.009900990099,
+      "grad_norm": 0.5674709677696228,
+      "learning_rate": 7.533333333333334e-06,
+      "loss": 0.3317,
+      "step": 7550
+    },
+    {
+      "epoch": 300.990099009901,
+      "grad_norm": 0.5428618788719177,
+      "learning_rate": 6.700000000000001e-06,
+      "loss": 0.3322,
+      "step": 7600
+    },
+    {
+      "epoch": 302.970297029703,
+      "grad_norm": 0.6271554827690125,
+      "learning_rate": 5.866666666666667e-06,
+      "loss": 0.3337,
+      "step": 7650
+    },
+    {
+      "epoch": 304.9504950495049,
+      "grad_norm": 0.41911429166793823,
+      "learning_rate": 5.033333333333334e-06,
+      "loss": 0.329,
+      "step": 7700
+    },
+    {
+      "epoch": 306.9306930693069,
+      "grad_norm": 0.4316006600856781,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.3338,
+      "step": 7750
+    },
+    {
+      "epoch": 308.91089108910893,
+      "grad_norm": 0.5471222400665283,
+      "learning_rate": 3.3666666666666665e-06,
+      "loss": 0.3316,
+      "step": 7800
+    },
+    {
+      "epoch": 310.8910891089109,
+      "grad_norm": 0.5605342388153076,
+      "learning_rate": 2.5333333333333334e-06,
+      "loss": 0.3289,
+      "step": 7850
+    },
+    {
+      "epoch": 312.8712871287129,
+      "grad_norm": 0.5504734516143799,
+      "learning_rate": 1.7000000000000002e-06,
+      "loss": 0.3303,
+      "step": 7900
+    },
+    {
+      "epoch": 314.8514851485148,
+      "grad_norm": 0.5514795780181885,
+      "learning_rate": 8.666666666666667e-07,
+      "loss": 0.3282,
+      "step": 7950
+    },
+    {
+      "epoch": 316.83168316831683,
+      "grad_norm": 0.5700021982192993,
+      "learning_rate": 3.3333333333333334e-08,
+      "loss": 0.3348,
+      "step": 8000
+    },
+    {
+      "epoch": 316.83168316831683,
+      "eval_loss": 0.4050144553184509,
+      "eval_runtime": 6.8387,
+      "eval_samples_per_second": 26.321,
+      "eval_steps_per_second": 3.363,
+      "step": 8000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.643923525044128e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null