Training in progress, step 3500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ee760036bd756361470f528d4ec7376115fb68748fa38362e88c40e07ef9522
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:496158892ef6f1b16a4adb70da5d5ef8bea4d4e7a9f957a9a6c135da931ce57c
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaf4569976454937eea43c00a16f8f139fec421442a724a7ef012f3b4590cecc
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:1023f70e0e98439d17243ec462d604fc30b3d89014f3443daadb033a23e653e2
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0bd26a66f18a63513b4644dff9bbce4420bc172da7cc36bbc9e2bbc11796d8c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aac92226f0d21eb319c78dbae49877455a40d317910aac9583ab04de32de7d1c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:944131a8cfe7c888a8dee4aec652300305a40382e916372dab3fcd26a65bac19
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ccd61c3eccb4c4508bcc2fc4d263b434bb910fdf4295c867e005e4b128c82ef
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.39678552746772766,
-  "best_model_checkpoint": "mikhail-panzo/zlm_b128_le5_s8000/checkpoint-3000",
-  "epoch": 5.026178010471204,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -475,6 +475,84 @@
       "eval_samples_per_second": 33.139,
       "eval_steps_per_second": 4.146,
       "step": 3000
     }
   ],
   "logging_steps": 50,
@@ -494,7 +572,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.37491824204009e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.39255669713020325,
+  "best_model_checkpoint": "mikhail-panzo/zlm_b128_le5_s8000/checkpoint-3500",
+  "epoch": 5.863874345549738,
   "eval_steps": 500,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.139,
       "eval_steps_per_second": 4.146,
       "step": 3000
+    },
+    {
+      "epoch": 5.109947643979058,
+      "grad_norm": 1.1454211473464966,
+      "learning_rate": 8.255000000000001e-06,
+      "loss": 0.4422,
+      "step": 3050
+    },
+    {
+      "epoch": 5.193717277486911,
+      "grad_norm": 1.8685294389724731,
+      "learning_rate": 8.171666666666668e-06,
+      "loss": 0.4426,
+      "step": 3100
+    },
+    {
+      "epoch": 5.277486910994765,
+      "grad_norm": 1.6863799095153809,
+      "learning_rate": 8.088333333333334e-06,
+      "loss": 0.4398,
+      "step": 3150
+    },
+    {
+      "epoch": 5.361256544502618,
+      "grad_norm": 2.249805212020874,
+      "learning_rate": 8.005e-06,
+      "loss": 0.4384,
+      "step": 3200
+    },
+    {
+      "epoch": 5.445026178010472,
+      "grad_norm": 2.1187326908111572,
+      "learning_rate": 7.921666666666667e-06,
+      "loss": 0.4431,
+      "step": 3250
+    },
+    {
+      "epoch": 5.528795811518324,
+      "grad_norm": 1.8476357460021973,
+      "learning_rate": 7.838333333333334e-06,
+      "loss": 0.4434,
+      "step": 3300
+    },
+    {
+      "epoch": 5.612565445026178,
+      "grad_norm": 1.6522760391235352,
+      "learning_rate": 7.755000000000001e-06,
+      "loss": 0.4343,
+      "step": 3350
+    },
+    {
+      "epoch": 5.696335078534031,
+      "grad_norm": 1.3926664590835571,
+      "learning_rate": 7.671666666666668e-06,
+      "loss": 0.4365,
+      "step": 3400
+    },
+    {
+      "epoch": 5.780104712041885,
+      "grad_norm": 2.1967947483062744,
+      "learning_rate": 7.588333333333334e-06,
+      "loss": 0.4362,
+      "step": 3450
+    },
+    {
+      "epoch": 5.863874345549738,
+      "grad_norm": 1.5428054332733154,
+      "learning_rate": 7.505e-06,
+      "loss": 0.4337,
+      "step": 3500
+    },
+    {
+      "epoch": 5.863874345549738,
+      "eval_loss": 0.39255669713020325,
+      "eval_runtime": 251.4241,
+      "eval_samples_per_second": 33.764,
+      "eval_steps_per_second": 4.224,
+      "step": 3500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 6.269975786347891e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null