Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:beb5fca3fc1fcff1543e0affba1ea0f3d7e63e616f4ac7bc2bd9f877a534cfa5
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a1e633058b95f47f65c79059f0ca1870fd950eeed8ea3b7764103c4535d1bcf
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10dc93a915785a67aa8cd65522967f57cab55e67d0fa76b045d7a794e94055d6
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa2735f54793b147e234a82f7e2eabcbc436c7b6648d80a4c84e95d5d3e5e1a6
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bf2e8e416936cf8f439e26111c4885ea7eb78961a1138cdb6b5117961ec9a25
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:546eb67e9ac703715999e4a48906215e9d1d8502c3d871bfb0192cba37d95e1c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d0c8197704a7bb1a9cd063906e8c9528da8878f5947aa3e4b199b3cad744f2f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d5f3d8c50de5135fa1eaff60803f0dc2d050c5320f2d6fc6ce71885e40e8d10
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.43174561858177185,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le3_s4000/checkpoint-500",
-  "epoch": 138.6138613861386,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -553,6 +553,84 @@
       "eval_samples_per_second": 23.61,
       "eval_steps_per_second": 3.017,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -567,12 +645,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.78207684271391e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.43174561858177185,
   "best_model_checkpoint": "mikhail_panzo/ceb_b64_le3_s4000/checkpoint-500",
+  "epoch": 158.41584158415841,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.61,
       "eval_steps_per_second": 3.017,
       "step": 3500
+    },
+    {
+      "epoch": 140.59405940594058,
+      "grad_norm": 0.12027638405561447,
+      "learning_rate": 0.0002255,
+      "loss": 1.4324,
+      "step": 3550
+    },
+    {
+      "epoch": 142.5742574257426,
+      "grad_norm": 0.09972293674945831,
+      "learning_rate": 0.00020050000000000002,
+      "loss": 1.4279,
+      "step": 3600
+    },
+    {
+      "epoch": 144.55445544554456,
+      "grad_norm": 0.09432188421487808,
+      "learning_rate": 0.00017549999999999998,
+      "loss": 1.4291,
+      "step": 3650
+    },
+    {
+      "epoch": 146.53465346534654,
+      "grad_norm": 0.03693811222910881,
+      "learning_rate": 0.0001505,
+      "loss": 1.4256,
+      "step": 3700
+    },
+    {
+      "epoch": 148.5148514851485,
+      "grad_norm": 0.09755226969718933,
+      "learning_rate": 0.00012550000000000001,
+      "loss": 1.4282,
+      "step": 3750
+    },
+    {
+      "epoch": 150.4950495049505,
+      "grad_norm": 0.06700865924358368,
+      "learning_rate": 0.0001005,
+      "loss": 1.429,
+      "step": 3800
+    },
+    {
+      "epoch": 152.47524752475246,
+      "grad_norm": 0.05731944367289543,
+      "learning_rate": 7.55e-05,
+      "loss": 1.4262,
+      "step": 3850
+    },
+    {
+      "epoch": 154.45544554455446,
+      "grad_norm": 0.0998513400554657,
+      "learning_rate": 5.05e-05,
+      "loss": 1.4264,
+      "step": 3900
+    },
+    {
+      "epoch": 156.43564356435644,
+      "grad_norm": 0.11622010171413422,
+      "learning_rate": 2.55e-05,
+      "loss": 1.4273,
+      "step": 3950
+    },
+    {
+      "epoch": 158.41584158415841,
+      "grad_norm": 0.05505739524960518,
+      "learning_rate": 5e-07,
+      "loss": 1.4278,
+      "step": 4000
+    },
+    {
+      "epoch": 158.41584158415841,
+      "eval_loss": 1.4322056770324707,
+      "eval_runtime": 6.6584,
+      "eval_samples_per_second": 27.034,
+      "eval_steps_per_second": 3.454,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.322114324975938e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null