Training in progress, step 7500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be1af62ce679fec44c6a2ef505e7a86dd3be2443d46dc17f477cf0c8f9b14685
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:403cfbffc7ee4007065e4824a75bc209469efb1d3eaf4b78bdcdc4b8e425ae79
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aba3b3463e55db8f4fec1eefbd85db6b8463a3cf70a9bc8f8d66daa21d39bfe
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f82a7c0b927ee4293785e8b97633d22c4746dbad1b0c92376ee3f5578e79116
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b29b7ac3fd9a0e682d95173845901bfa8ffe79dceb66372f749527a981b4aec
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:795fe76cfd6ac22612e53f90e3708fe6447c8d1c969f78a57978bb17493086b1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbbb103ab5c01e2a91659adff089a9b4717297cd8e8e74182bd3fa3fb8f51b04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ef84ad524da6dbaaadb8576fa258a66ac5d4b080583a172fefc45887ff84f46
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.41427454352378845,
   "best_model_checkpoint": "mikhail_panzo/ceb_b128_le3_s8000/checkpoint-500",
-  "epoch": 549.0196078431372,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1099,6 +1099,84 @@
       "eval_samples_per_second": 26.722,
       "eval_steps_per_second": 3.415,
       "step": 7000
     }
   ],
   "logging_steps": 50,
@@ -1118,7 +1196,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5229554622744013e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.41427454352378845,
   "best_model_checkpoint": "mikhail_panzo/ceb_b128_le3_s8000/checkpoint-500",
+  "epoch": 588.2352941176471,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.722,
       "eval_steps_per_second": 3.415,
       "step": 7000
+    },
+    {
+      "epoch": 552.9411764705883,
+      "grad_norm": 0.06083720177412033,
+      "learning_rate": 0.00015866666666666668,
+      "loss": 1.42,
+      "step": 7050
+    },
+    {
+      "epoch": 556.8627450980392,
+      "grad_norm": 0.07482324540615082,
+      "learning_rate": 0.00015033333333333335,
+      "loss": 1.4184,
+      "step": 7100
+    },
+    {
+      "epoch": 560.7843137254902,
+      "grad_norm": 0.05342550203204155,
+      "learning_rate": 0.00014199999999999998,
+      "loss": 1.4186,
+      "step": 7150
+    },
+    {
+      "epoch": 564.7058823529412,
+      "grad_norm": 0.09053777158260345,
+      "learning_rate": 0.00013366666666666667,
+      "loss": 1.4191,
+      "step": 7200
+    },
+    {
+      "epoch": 568.6274509803922,
+      "grad_norm": 0.08072460442781448,
+      "learning_rate": 0.00012533333333333334,
+      "loss": 1.42,
+      "step": 7250
+    },
+    {
+      "epoch": 572.5490196078431,
+      "grad_norm": 0.09836099296808243,
+      "learning_rate": 0.00011700000000000001,
+      "loss": 1.4193,
+      "step": 7300
+    },
+    {
+      "epoch": 576.4705882352941,
+      "grad_norm": 0.05738500505685806,
+      "learning_rate": 0.00010866666666666666,
+      "loss": 1.42,
+      "step": 7350
+    },
+    {
+      "epoch": 580.3921568627451,
+      "grad_norm": 0.06691340357065201,
+      "learning_rate": 0.00010033333333333334,
+      "loss": 1.4185,
+      "step": 7400
+    },
+    {
+      "epoch": 584.3137254901961,
+      "grad_norm": 0.06185409054160118,
+      "learning_rate": 9.2e-05,
+      "loss": 1.4172,
+      "step": 7450
+    },
+    {
+      "epoch": 588.2352941176471,
+      "grad_norm": 0.14216652512550354,
+      "learning_rate": 8.366666666666666e-05,
+      "loss": 1.4194,
+      "step": 7500
+    },
+    {
+      "epoch": 588.2352941176471,
+      "eval_loss": 1.4361063241958618,
+      "eval_runtime": 6.733,
+      "eval_samples_per_second": 26.734,
+      "eval_steps_per_second": 3.416,
+      "step": 7500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.631701918768069e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null