Training in progress, step 12000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f4bc91b2bf1d4a600334b1faa106af9988bbfd956f7192f84cc46e78a068110
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:56a801f7874b64e033e7d65093ff6a670b591b9e352bb55a9efedb82bb7bd081
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:064a18e6c4d9e599dfb3d70c36124b53d38c2edc52983709d3ae7adeb24da2e8
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:d15e5170813dcff285d169be8481933a4cb0c9a73034315f866ed759fa591047
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2719dc48cfd7b0c8e47595f5673050b1706a0337b7156e3973f160d025717221
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:23d7f02c1a1a9aea0c08b9ee9ea167031247ef6b9121df34e7f784a8ef6bb970
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca290528005f495cfd7077923dce176b5d944942c2e6ddb59ada2a96248ccd53
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2891075898e42caf114b73a9c8652d14f8fed0b39122b829f8ae7578e63f2a0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.3699803650379181,
   "best_model_checkpoint": "mikhail-panzo/zlm_b32_le5_s12000/checkpoint-11500",
-  "epoch": 4.816753926701571,
   "eval_steps": 500,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1801,6 +1801,84 @@
       "eval_samples_per_second": 28.557,
       "eval_steps_per_second": 3.573,
       "step": 11500
     }
   ],
   "logging_steps": 50,
@@ -1815,12 +1893,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.149805174423712e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.3699803650379181,
   "best_model_checkpoint": "mikhail-panzo/zlm_b32_le5_s12000/checkpoint-11500",
+  "epoch": 5.026178010471204,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.557,
       "eval_steps_per_second": 3.573,
       "step": 11500
+    },
+    {
+      "epoch": 4.837696335078534,
+      "grad_norm": 1.7664463520050049,
+      "learning_rate": 4.5500000000000004e-07,
+      "loss": 0.4102,
+      "step": 11550
+    },
+    {
+      "epoch": 4.858638743455497,
+      "grad_norm": 2.0069000720977783,
+      "learning_rate": 4.0500000000000004e-07,
+      "loss": 0.4026,
+      "step": 11600
+    },
+    {
+      "epoch": 4.879581151832461,
+      "grad_norm": 1.475438117980957,
+      "learning_rate": 3.55e-07,
+      "loss": 0.4132,
+      "step": 11650
+    },
+    {
+      "epoch": 4.900523560209424,
+      "grad_norm": 1.6426637172698975,
+      "learning_rate": 3.0500000000000004e-07,
+      "loss": 0.4082,
+      "step": 11700
+    },
+    {
+      "epoch": 4.9214659685863875,
+      "grad_norm": 1.6717259883880615,
+      "learning_rate": 2.55e-07,
+      "loss": 0.4115,
+      "step": 11750
+    },
+    {
+      "epoch": 4.942408376963351,
+      "grad_norm": 1.9856605529785156,
+      "learning_rate": 2.0500000000000002e-07,
+      "loss": 0.4064,
+      "step": 11800
+    },
+    {
+      "epoch": 4.963350785340314,
+      "grad_norm": 2.535362958908081,
+      "learning_rate": 1.5500000000000002e-07,
+      "loss": 0.4126,
+      "step": 11850
+    },
+    {
+      "epoch": 4.984293193717278,
+      "grad_norm": 1.6207140684127808,
+      "learning_rate": 1.0500000000000001e-07,
+      "loss": 0.4139,
+      "step": 11900
+    },
+    {
+      "epoch": 5.005235602094241,
+      "grad_norm": 1.4156582355499268,
+      "learning_rate": 5.5e-08,
+      "loss": 0.409,
+      "step": 11950
+    },
+    {
+      "epoch": 5.026178010471204,
+      "grad_norm": 3.40710186958313,
+      "learning_rate": 5e-09,
+      "loss": 0.4088,
+      "step": 12000
+    },
+    {
+      "epoch": 5.026178010471204,
+      "eval_loss": 0.3706651031970978,
+      "eval_runtime": 299.1328,
+      "eval_samples_per_second": 28.379,
+      "eval_steps_per_second": 3.55,
+      "step": 12000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.37491824204009e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null