Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5daca19a9d98bef95d72b2c8d4e570439ffb46daaca1deb4cdcd8cfec5b37538
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd197944ef30bba68a18692299ccad4440d71b7ddceb502e235ae7ccea52132e
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb065185dbf3eccb8d87dcb0722b0edb449479a2675edc910348b86f3ecb13ab
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:70418e1fe7e4c1715986f73a679e8374c436108d69c979b82825d562d2ea6baf
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:640bedb08eec72a233ca8e975e7f0a7d408be3f14e8ad50a5be94d5a84aad3f6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a6f3812d92375eb90656050b61d516615ac22112b7371a83edcc7e7cfcd760b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe3012fb121cd84e6e41f718fd33de9e34ed33145ada7b055f7e25e49408431d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:71a96715f430c2eb0d6104363f54769b2c1bdb005671dc81f0d67833a84ba743
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2825608253479004,
-  "best_model_checkpoint": "miner_id_24/checkpoint-450",
-  "epoch": 0.061479609262927795,
   "eval_steps": 50,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -402,6 +402,49 @@
       "eval_samples_per_second": 12.371,
       "eval_steps_per_second": 3.095,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -425,12 +468,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.1743338884707123e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.278167724609375,
+  "best_model_checkpoint": "miner_id_24/checkpoint-500",
+  "epoch": 0.06831067695880866,
   "eval_steps": 50,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.371,
       "eval_steps_per_second": 3.095,
       "step": 450
+    },
+    {
+      "epoch": 0.06284582280210396,
+      "grad_norm": 2.7525129318237305,
+      "learning_rate": 4.22247514272324e-06,
+      "loss": 1.6018,
+      "step": 460
+    },
+    {
+      "epoch": 0.06421203634128014,
+      "grad_norm": 2.8838653564453125,
+      "learning_rate": 2.38191152001518e-06,
+      "loss": 1.5308,
+      "step": 470
+    },
+    {
+      "epoch": 0.06557824988045631,
+      "grad_norm": 5.232061386108398,
+      "learning_rate": 1.0607805071688306e-06,
+      "loss": 2.0601,
+      "step": 480
+    },
+    {
+      "epoch": 0.06694446341963249,
+      "grad_norm": 10.109563827514648,
+      "learning_rate": 2.655185216791625e-07,
+      "loss": 3.0144,
+      "step": 490
+    },
+    {
+      "epoch": 0.06831067695880866,
+      "grad_norm": 52.57897186279297,
+      "learning_rate": 0.0,
+      "loss": 4.9246,
+      "step": 500
+    },
+    {
+      "epoch": 0.06831067695880866,
+      "eval_loss": 1.278167724609375,
+      "eval_runtime": 249.0701,
+      "eval_samples_per_second": 12.374,
+      "eval_steps_per_second": 3.096,
+      "step": 500
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.3040204184236851e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null