Training in progress, step 7500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe86bce794369a030b7e521f27de15cf4235f7aa862942218875ece91d06b6e4
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:188d0d1c582e736e2eec2d1d5382875e9492db41c1fbe88ec1c106466a2b07ec
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:146631882fb8806e1d460db4544fbf8f9846b9fa9f7ff247327205e9dfbacf4c
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a712edfd21efaec231d91aaab20ede1aa0cfd4ebe31363aa2fdfa6f036773d5
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df46d3d4f1e913ffb19628cfb705cfc89c4c62f616f9a3eaf73dc07159ae1b7e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f87f712128c90495b5215cdd4ffe095bd74b9df4d54c07a1c61e31f0311ddf7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daeb05df4b8e66ba31dae19891f97bd4e45562f69ab9218cf2f814c65584015e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:46a6ecce960b3a775d6eb50742229bab81345e6cd64cb3dc52202422c15ec1c7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.41767898201942444,
   "best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-2000",
-  "epoch": 311.1111111111111,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1099,6 +1099,84 @@
       "eval_samples_per_second": 21.343,
       "eval_steps_per_second": 2.685,
       "step": 7000
     }
   ],
   "logging_steps": 50,
@@ -1118,7 +1196,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0157349216725568e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.41767898201942444,
   "best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-2000",
+  "epoch": 333.3333333333333,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.343,
       "eval_steps_per_second": 2.685,
       "step": 7000
+    },
+    {
+      "epoch": 313.3333333333333,
+      "grad_norm": 1.0152688026428223,
+      "learning_rate": 1.59e-05,
+      "loss": 0.349,
+      "step": 7050
+    },
+    {
+      "epoch": 315.55555555555554,
+      "grad_norm": 0.8982745409011841,
+      "learning_rate": 1.5066666666666668e-05,
+      "loss": 0.344,
+      "step": 7100
+    },
+    {
+      "epoch": 317.77777777777777,
+      "grad_norm": 0.6351937651634216,
+      "learning_rate": 1.4233333333333335e-05,
+      "loss": 0.3506,
+      "step": 7150
+    },
+    {
+      "epoch": 320.0,
+      "grad_norm": 1.3145679235458374,
+      "learning_rate": 1.3400000000000002e-05,
+      "loss": 0.348,
+      "step": 7200
+    },
+    {
+      "epoch": 322.22222222222223,
+      "grad_norm": 0.6973692178726196,
+      "learning_rate": 1.2566666666666668e-05,
+      "loss": 0.3434,
+      "step": 7250
+    },
+    {
+      "epoch": 324.44444444444446,
+      "grad_norm": 0.5259793996810913,
+      "learning_rate": 1.1733333333333333e-05,
+      "loss": 0.3386,
+      "step": 7300
+    },
+    {
+      "epoch": 326.6666666666667,
+      "grad_norm": 0.8734486103057861,
+      "learning_rate": 1.09e-05,
+      "loss": 0.3423,
+      "step": 7350
+    },
+    {
+      "epoch": 328.8888888888889,
+      "grad_norm": 0.7098037600517273,
+      "learning_rate": 1.0066666666666668e-05,
+      "loss": 0.3412,
+      "step": 7400
+    },
+    {
+      "epoch": 331.1111111111111,
+      "grad_norm": 1.8435242176055908,
+      "learning_rate": 9.233333333333334e-06,
+      "loss": 0.3395,
+      "step": 7450
+    },
+    {
+      "epoch": 333.3333333333333,
+      "grad_norm": 0.5290047526359558,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.3447,
+      "step": 7500
+    },
+    {
+      "epoch": 333.3333333333333,
+      "eval_loss": 0.42537641525268555,
+      "eval_runtime": 7.5684,
+      "eval_samples_per_second": 21.009,
+      "eval_steps_per_second": 2.643,
+      "step": 7500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.0882778098582685e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null