Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:496158892ef6f1b16a4adb70da5d5ef8bea4d4e7a9f957a9a6c135da931ce57c
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a566c630ec234c66676ffbfeda2cfd33511458dae9b9488372ca6efc201f15c
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1023f70e0e98439d17243ec462d604fc30b3d89014f3443daadb033a23e653e2
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:25ec60ee1db5c3d66eba9a1d285b183355df194496a8d7760e09084a618f821a
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aac92226f0d21eb319c78dbae49877455a40d317910aac9583ab04de32de7d1c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:56cc8e2d77d54e9e58cdbed4bf8357f729e20efe110f0bdfcd24e4976aebb3b0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ccd61c3eccb4c4508bcc2fc4d263b434bb910fdf4295c867e005e4b128c82ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bd01f1a543bd9ecb58737837f10f865ac053c6c89fa1a7cdbd04da0c2caf558
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.39255669713020325,
-  "best_model_checkpoint": "mikhail-panzo/zlm_b128_le5_s8000/checkpoint-3500",
-  "epoch": 5.863874345549738,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -553,6 +553,84 @@
       "eval_samples_per_second": 33.764,
       "eval_steps_per_second": 4.224,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -572,7 +650,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.269975786347891e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3837336301803589,
+  "best_model_checkpoint": "mikhail-panzo/zlm_b128_le5_s8000/checkpoint-4000",
+  "epoch": 6.701570680628272,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.764,
       "eval_steps_per_second": 4.224,
       "step": 3500
+    },
+    {
+      "epoch": 5.947643979057592,
+      "grad_norm": 1.7545124292373657,
+      "learning_rate": 7.421666666666667e-06,
+      "loss": 0.4292,
+      "step": 3550
+    },
+    {
+      "epoch": 6.031413612565445,
+      "grad_norm": 1.1912785768508911,
+      "learning_rate": 7.338333333333334e-06,
+      "loss": 0.4293,
+      "step": 3600
+    },
+    {
+      "epoch": 6.115183246073299,
+      "grad_norm": 1.549297571182251,
+      "learning_rate": 7.255000000000001e-06,
+      "loss": 0.4333,
+      "step": 3650
+    },
+    {
+      "epoch": 6.198952879581152,
+      "grad_norm": 1.8822449445724487,
+      "learning_rate": 7.171666666666667e-06,
+      "loss": 0.4308,
+      "step": 3700
+    },
+    {
+      "epoch": 6.282722513089006,
+      "grad_norm": 1.6894242763519287,
+      "learning_rate": 7.088333333333334e-06,
+      "loss": 0.4336,
+      "step": 3750
+    },
+    {
+      "epoch": 6.366492146596858,
+      "grad_norm": 1.63300621509552,
+      "learning_rate": 7.005000000000001e-06,
+      "loss": 0.432,
+      "step": 3800
+    },
+    {
+      "epoch": 6.450261780104712,
+      "grad_norm": 1.4569647312164307,
+      "learning_rate": 6.921666666666668e-06,
+      "loss": 0.4302,
+      "step": 3850
+    },
+    {
+      "epoch": 6.534031413612565,
+      "grad_norm": 1.3649786710739136,
+      "learning_rate": 6.838333333333334e-06,
+      "loss": 0.4277,
+      "step": 3900
+    },
+    {
+      "epoch": 6.617801047120419,
+      "grad_norm": 1.6974161863327026,
+      "learning_rate": 6.7550000000000005e-06,
+      "loss": 0.4329,
+      "step": 3950
+    },
+    {
+      "epoch": 6.701570680628272,
+      "grad_norm": 8.575983047485352,
+      "learning_rate": 6.6716666666666674e-06,
+      "loss": 0.4282,
+      "step": 4000
+    },
+    {
+      "epoch": 6.701570680628272,
+      "eval_loss": 0.3837336301803589,
+      "eval_runtime": 252.6194,
+      "eval_samples_per_second": 33.604,
+      "eval_steps_per_second": 4.204,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 7.164514367145274e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null