Training in progress, step 6500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d2b3399969fb74960ee01ffd897aef3b9bf5e7209f6f0ea877a12153f361408
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7a9ff8c6f099453e24c907ca48e18d629eeebd26b25e5d67dd78c92f08d9ec7
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7746ae2b28b16ee5e4dc0d43c7ed500663b9d82298a7c15d1500a39d65d9d274
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7dbfca172321951aa3408c63e50180be9688454b3122fc35e2e279441fcd5a2
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b78a35397517539ceb5abaec4c078472043c61c90e9313f43ee762be5908798
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc4bf9efeacd197a3755be03d6b9b32a091466296d5d750906cf5632d21aec65
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cc3a4f205edd4add2b834d8b0c7057cd9c53044c257143116c01897f3cb6067
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9050220365c3d4317bfb9eee77e3abcc137e10ebf0d1b1a7e4370a6b88a28327
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3189197778701782,
-  "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-6000",
-  "epoch": 10.052356020942408,
   "eval_steps": 500,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -943,6 +943,84 @@
       "eval_samples_per_second": 31.055,
       "eval_steps_per_second": 3.885,
       "step": 6000
     }
   ],
   "logging_steps": 50,
@@ -962,7 +1040,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0748974547355264e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.31707289814949036,
+  "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-6500",
+  "epoch": 10.890052356020943,
   "eval_steps": 500,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 31.055,
       "eval_steps_per_second": 3.885,
       "step": 6000
+    },
+    {
+      "epoch": 10.136125654450261,
+      "grad_norm": 1.572178840637207,
+      "learning_rate": 3.253333333333333e-05,
+      "loss": 0.3492,
+      "step": 6050
+    },
+    {
+      "epoch": 10.219895287958115,
+      "grad_norm": 1.063959002494812,
+      "learning_rate": 3.1700000000000005e-05,
+      "loss": 0.3525,
+      "step": 6100
+    },
+    {
+      "epoch": 10.303664921465968,
+      "grad_norm": 1.1579703092575073,
+      "learning_rate": 3.086666666666667e-05,
+      "loss": 0.3486,
+      "step": 6150
+    },
+    {
+      "epoch": 10.387434554973822,
+      "grad_norm": 1.4260714054107666,
+      "learning_rate": 3.0033333333333336e-05,
+      "loss": 0.3483,
+      "step": 6200
+    },
+    {
+      "epoch": 10.471204188481675,
+      "grad_norm": 1.453321099281311,
+      "learning_rate": 2.9199999999999998e-05,
+      "loss": 0.3481,
+      "step": 6250
+    },
+    {
+      "epoch": 10.55497382198953,
+      "grad_norm": 1.8545498847961426,
+      "learning_rate": 2.836666666666667e-05,
+      "loss": 0.3482,
+      "step": 6300
+    },
+    {
+      "epoch": 10.638743455497382,
+      "grad_norm": 1.073957920074463,
+      "learning_rate": 2.7533333333333333e-05,
+      "loss": 0.348,
+      "step": 6350
+    },
+    {
+      "epoch": 10.722513089005236,
+      "grad_norm": 1.0049316883087158,
+      "learning_rate": 2.6700000000000002e-05,
+      "loss": 0.3487,
+      "step": 6400
+    },
+    {
+      "epoch": 10.806282722513089,
+      "grad_norm": 1.4970500469207764,
+      "learning_rate": 2.5866666666666667e-05,
+      "loss": 0.3468,
+      "step": 6450
+    },
+    {
+      "epoch": 10.890052356020943,
+      "grad_norm": 1.6566526889801025,
+      "learning_rate": 2.5033333333333336e-05,
+      "loss": 0.3469,
+      "step": 6500
+    },
+    {
+      "epoch": 10.890052356020943,
+      "eval_loss": 0.31707289814949036,
+      "eval_runtime": 275.2143,
+      "eval_samples_per_second": 30.845,
+      "eval_steps_per_second": 3.859,
+      "step": 6500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.1645139306201984e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null