Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:188d0d1c582e736e2eec2d1d5382875e9492db41c1fbe88ec1c106466a2b07ec
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:eceda0d19725c7e2e2c77b3a104966fcc3d57681a4b523ecdf21f43f5fa0ee51
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a712edfd21efaec231d91aaab20ede1aa0cfd4ebe31363aa2fdfa6f036773d5
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec8c680684da01ca7c440c427816b3a17cdb48da1e3800ff44e6295258d3292d
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f87f712128c90495b5215cdd4ffe095bd74b9df4d54c07a1c61e31f0311ddf7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:07c0b2f427b1052fb24dceb73f158cfa57198b87c4992deba7fedea2db5e9bd1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46a6ecce960b3a775d6eb50742229bab81345e6cd64cb3dc52202422c15ec1c7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2dc91c63b416eaf729d985969526750ffbadb96ebf18f73584ff35d9ca5f08c2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.41767898201942444,
   "best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-2000",
-  "epoch": 333.3333333333333,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1177,6 +1177,84 @@
       "eval_samples_per_second": 21.009,
       "eval_steps_per_second": 2.643,
       "step": 7500
     }
   ],
   "logging_steps": 50,
@@ -1191,12 +1269,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.0882778098582685e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.41767898201942444,
   "best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-2000",
+  "epoch": 355.55555555555554,
   "eval_steps": 500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.009,
       "eval_steps_per_second": 2.643,
       "step": 7500
+    },
+    {
+      "epoch": 335.55555555555554,
+      "grad_norm": 0.7335402965545654,
+      "learning_rate": 7.5666666666666665e-06,
+      "loss": 0.3512,
+      "step": 7550
+    },
+    {
+      "epoch": 337.77777777777777,
+      "grad_norm": 0.5599180459976196,
+      "learning_rate": 6.733333333333333e-06,
+      "loss": 0.3449,
+      "step": 7600
+    },
+    {
+      "epoch": 340.0,
+      "grad_norm": 0.6823892593383789,
+      "learning_rate": 5.9e-06,
+      "loss": 0.3431,
+      "step": 7650
+    },
+    {
+      "epoch": 342.22222222222223,
+      "grad_norm": 0.6472559571266174,
+      "learning_rate": 5.066666666666667e-06,
+      "loss": 0.3407,
+      "step": 7700
+    },
+    {
+      "epoch": 344.44444444444446,
+      "grad_norm": 0.6288905143737793,
+      "learning_rate": 4.233333333333333e-06,
+      "loss": 0.3439,
+      "step": 7750
+    },
+    {
+      "epoch": 346.6666666666667,
+      "grad_norm": 0.8924105167388916,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.3458,
+      "step": 7800
+    },
+    {
+      "epoch": 348.8888888888889,
+      "grad_norm": 0.6726309657096863,
+      "learning_rate": 2.566666666666667e-06,
+      "loss": 0.3421,
+      "step": 7850
+    },
+    {
+      "epoch": 351.1111111111111,
+      "grad_norm": 0.45373550057411194,
+      "learning_rate": 1.7333333333333334e-06,
+      "loss": 0.3392,
+      "step": 7900
+    },
+    {
+      "epoch": 353.3333333333333,
+      "grad_norm": 0.7311224341392517,
+      "learning_rate": 9e-07,
+      "loss": 0.3432,
+      "step": 7950
+    },
+    {
+      "epoch": 355.55555555555554,
+      "grad_norm": 0.7168406248092651,
+      "learning_rate": 6.666666666666667e-08,
+      "loss": 0.3371,
+      "step": 8000
+    },
+    {
+      "epoch": 355.55555555555554,
+      "eval_loss": 0.4246142506599426,
+      "eval_runtime": 7.4147,
+      "eval_samples_per_second": 21.444,
+      "eval_steps_per_second": 2.697,
+      "step": 8000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.160835352354054e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null