Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc7d4984e009e222caf14f9cce835f05a8e8524f472a0d22ca84c171c150beec
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:30d951c379da9e40e925d0e9823bfafd91b398b9c593f0fbd9f7aacf86d39488
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:457a3902e6a8487099865095185585c7c2b90dc26d7acc62a70929b853118ddb
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:e50dd72dbdf52c58ab0a34685c567d0a859e2ac19bb2d944204af4086178fa28
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1615a764b0428a2c06f1fafaddb3b4ef6ebe772078b47b01a8d10e2ab7b73853
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:778b3eb7f69f0b8d1febc7d7292dba969822e2d3a8eb043627219091aed28184
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8452e8180915c2a4933789804dc213986b2971ca2876fd0285cc8294b6a4c56
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe9df1d7779a957d8857092ecc09a3b38d73d9d62600477c7a2f5f4fc70c502b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4178585410118103,
-  "best_model_checkpoint": "mikhail_panzo/zlm-fil_b64_le5_s8000/checkpoint-2500",
-  "epoch": 108.69565217391305,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -397,6 +397,84 @@
       "eval_samples_per_second": 12.334,
       "eval_steps_per_second": 1.609,
       "step": 2500
     }
   ],
   "logging_steps": 50,
@@ -416,7 +494,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.030301728544464e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.41350311040878296,
+  "best_model_checkpoint": "mikhail_panzo/zlm-fil_b64_le5_s8000/checkpoint-3000",
+  "epoch": 130.43478260869566,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.334,
       "eval_steps_per_second": 1.609,
       "step": 2500
+    },
+    {
+      "epoch": 110.8695652173913,
+      "grad_norm": 1.3769398927688599,
+      "learning_rate": 9.085e-06,
+      "loss": 0.4406,
+      "step": 2550
+    },
+    {
+      "epoch": 113.04347826086956,
+      "grad_norm": 0.9913681745529175,
+      "learning_rate": 9.001666666666667e-06,
+      "loss": 0.4389,
+      "step": 2600
+    },
+    {
+      "epoch": 115.21739130434783,
+      "grad_norm": 1.1747106313705444,
+      "learning_rate": 8.918333333333334e-06,
+      "loss": 0.4386,
+      "step": 2650
+    },
+    {
+      "epoch": 117.3913043478261,
+      "grad_norm": 1.0514781475067139,
+      "learning_rate": 8.835000000000001e-06,
+      "loss": 0.4393,
+      "step": 2700
+    },
+    {
+      "epoch": 119.56521739130434,
+      "grad_norm": 1.8967915773391724,
+      "learning_rate": 8.751666666666668e-06,
+      "loss": 0.4421,
+      "step": 2750
+    },
+    {
+      "epoch": 121.73913043478261,
+      "grad_norm": 0.8795832395553589,
+      "learning_rate": 8.668333333333335e-06,
+      "loss": 0.436,
+      "step": 2800
+    },
+    {
+      "epoch": 123.91304347826087,
+      "grad_norm": 0.7928704023361206,
+      "learning_rate": 8.585000000000002e-06,
+      "loss": 0.4333,
+      "step": 2850
+    },
+    {
+      "epoch": 126.08695652173913,
+      "grad_norm": 1.2805510759353638,
+      "learning_rate": 8.501666666666667e-06,
+      "loss": 0.4326,
+      "step": 2900
+    },
+    {
+      "epoch": 128.2608695652174,
+      "grad_norm": 1.420920968055725,
+      "learning_rate": 8.418333333333334e-06,
+      "loss": 0.4317,
+      "step": 2950
+    },
+    {
+      "epoch": 130.43478260869566,
+      "grad_norm": 0.7063888907432556,
+      "learning_rate": 8.335e-06,
+      "loss": 0.4344,
+      "step": 3000
+    },
+    {
+      "epoch": 130.43478260869566,
+      "eval_loss": 0.41350311040878296,
+      "eval_runtime": 12.8066,
+      "eval_samples_per_second": 12.572,
+      "eval_steps_per_second": 1.64,
+      "step": 3000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.635834796240768e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null