Training in progress, step 6000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d4028ba97760f329a3677325bcedc4fde68e377bfd1c88c108a2a047b0837f3
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c90f04ab07ebd466dc2aebcf0b4b67140c7fdc27748d3ec5cb616acf18ad539
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8625c4613fa8390df21c5d9227e8836dedc5870a492af9f524b26f63997fd9b9
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4d30a086259676925eccbdc6518ad47f1b47f06760a576e87b560557cffacf8
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e814e69ac405112ac0e823a174f61a291238359cb5e185b2802f269183d97fb3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b78a35397517539ceb5abaec4c078472043c61c90e9313f43ee762be5908798
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dee3257d3a4af7b415f176d6a1dc5bb5df29afc75892217ee55cd71b710b6a5c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04ff002b31b6cc0a01a54d1e3c6f626c5449fc0c5290b11a28578f7f1a9d96b1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3218235671520233,
-  "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-5500",
-  "epoch": 9.214659685863875,
   "eval_steps": 500,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -865,6 +865,84 @@
       "eval_samples_per_second": 30.365,
       "eval_steps_per_second": 3.799,
       "step": 5500
     }
   ],
   "logging_steps": 50,
@@ -884,7 +962,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.854783789898643e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.31853485107421875,
+  "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-6000",
+  "epoch": 10.052356020942408,
   "eval_steps": 500,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.365,
       "eval_steps_per_second": 3.799,
       "step": 5500
+    },
+    {
+      "epoch": 9.298429319371728,
+      "grad_norm": 1.0284796953201294,
+      "learning_rate": 6.452e-05,
+      "loss": 0.356,
+      "step": 5550
+    },
+    {
+      "epoch": 9.38219895287958,
+      "grad_norm": 1.8278234004974365,
+      "learning_rate": 6.402e-05,
+      "loss": 0.356,
+      "step": 5600
+    },
+    {
+      "epoch": 9.465968586387435,
+      "grad_norm": 0.9208963513374329,
+      "learning_rate": 6.352e-05,
+      "loss": 0.3504,
+      "step": 5650
+    },
+    {
+      "epoch": 9.549738219895287,
+      "grad_norm": 1.295639991760254,
+      "learning_rate": 6.302e-05,
+      "loss": 0.3551,
+      "step": 5700
+    },
+    {
+      "epoch": 9.633507853403142,
+      "grad_norm": 0.9757601022720337,
+      "learning_rate": 6.252e-05,
+      "loss": 0.3529,
+      "step": 5750
+    },
+    {
+      "epoch": 9.717277486910994,
+      "grad_norm": 1.451418399810791,
+      "learning_rate": 6.202e-05,
+      "loss": 0.3537,
+      "step": 5800
+    },
+    {
+      "epoch": 9.801047120418849,
+      "grad_norm": 2.2001028060913086,
+      "learning_rate": 6.152e-05,
+      "loss": 0.3522,
+      "step": 5850
+    },
+    {
+      "epoch": 9.884816753926701,
+      "grad_norm": 1.1149827241897583,
+      "learning_rate": 6.102e-05,
+      "loss": 0.3472,
+      "step": 5900
+    },
+    {
+      "epoch": 9.968586387434556,
+      "grad_norm": 1.4035720825195312,
+      "learning_rate": 6.0519999999999997e-05,
+      "loss": 0.3525,
+      "step": 5950
+    },
+    {
+      "epoch": 10.052356020942408,
+      "grad_norm": 1.0732487440109253,
+      "learning_rate": 6.002e-05,
+      "loss": 0.3485,
+      "step": 6000
+    },
+    {
+      "epoch": 10.052356020942408,
+      "eval_loss": 0.31853485107421875,
+      "eval_runtime": 271.779,
+      "eval_samples_per_second": 31.235,
+      "eval_steps_per_second": 3.908,
+      "step": 6000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.0748974547355264e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null