Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c40c6de7444148be371ad64018106aad8e6968c48ad4f1a5ba76c5bbb3457825
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:1299d4f1af262ec6ea8954bf3eef8f3fc7544a0e714353dfeaebf4bf62fa1ace
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cde8fb2c9d2fad7abe888cd8eebf39657d7017c06365654c14e57548a415a268
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:f48ab820dba57bfcef1153ac7b583dafe37425f3a6758334d4f47dd0d2e1470b
 size 1155772233

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c9bf8a55d2767cc2209da3cec6b29014b65c97cebef0df143ce81d06133a59d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:830fc52a0124fdca52368150d3b42c759356c29ec8af3826289864102f89fc8d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b37e9ef30e383e795affd2915d5979e774d36e929b105a379fff9b722cf9675
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b861104f137d1fe8ca8f0827472a7b8a3a6723f1ff99340210bc3ae74cc04899
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3965218663215637,
-  "best_model_checkpoint": "mikhail_panzo/ceb_b32_le5_s4000/checkpoint-3500",
-  "epoch": 69.3069306930693,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -553,6 +553,84 @@
       "eval_samples_per_second": 24.833,
       "eval_steps_per_second": 3.173,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -567,12 +645,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.89071129766222e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3955015242099762,
+  "best_model_checkpoint": "mikhail_panzo/ceb_b32_le5_s4000/checkpoint-4000",
+  "epoch": 79.20792079207921,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.833,
       "eval_steps_per_second": 3.173,
       "step": 3500
+    },
+    {
+      "epoch": 70.29702970297029,
+      "grad_norm": 1.282522439956665,
+      "learning_rate": 2.2550000000000004e-06,
+      "loss": 0.4161,
+      "step": 3550
+    },
+    {
+      "epoch": 71.2871287128713,
+      "grad_norm": 1.1820783615112305,
+      "learning_rate": 2.0050000000000003e-06,
+      "loss": 0.4195,
+      "step": 3600
+    },
+    {
+      "epoch": 72.27722772277228,
+      "grad_norm": 0.9852460622787476,
+      "learning_rate": 1.7550000000000001e-06,
+      "loss": 0.4242,
+      "step": 3650
+    },
+    {
+      "epoch": 73.26732673267327,
+      "grad_norm": 1.0779832601547241,
+      "learning_rate": 1.505e-06,
+      "loss": 0.4216,
+      "step": 3700
+    },
+    {
+      "epoch": 74.25742574257426,
+      "grad_norm": 0.9809712171554565,
+      "learning_rate": 1.255e-06,
+      "loss": 0.4187,
+      "step": 3750
+    },
+    {
+      "epoch": 75.24752475247524,
+      "grad_norm": 1.067606806755066,
+      "learning_rate": 1.0050000000000001e-06,
+      "loss": 0.4295,
+      "step": 3800
+    },
+    {
+      "epoch": 76.23762376237623,
+      "grad_norm": 1.027479887008667,
+      "learning_rate": 7.550000000000001e-07,
+      "loss": 0.4257,
+      "step": 3850
+    },
+    {
+      "epoch": 77.22772277227723,
+      "grad_norm": 1.2920273542404175,
+      "learning_rate": 5.05e-07,
+      "loss": 0.4236,
+      "step": 3900
+    },
+    {
+      "epoch": 78.21782178217822,
+      "grad_norm": 1.445709466934204,
+      "learning_rate": 2.55e-07,
+      "loss": 0.4216,
+      "step": 3950
+    },
+    {
+      "epoch": 79.20792079207921,
+      "grad_norm": 1.045529842376709,
+      "learning_rate": 5e-09,
+      "loss": 0.4241,
+      "step": 4000
+    },
+    {
+      "epoch": 79.20792079207921,
+      "eval_loss": 0.3955015242099762,
+      "eval_runtime": 7.4685,
+      "eval_samples_per_second": 24.101,
+      "eval_steps_per_second": 3.08,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.161155031107257e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null