Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d79b44104cdc99a3bccccffad3654524fd59b33877f95cef2cb315e7b57a0380
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:b04d7ba97e11b6f80221b1a32f69ab11db98ddffc1fd6d4fc0bb78d3df2af47c
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:532313d39ac966d66564c3f694eea8c1e0f1a76ecf5669063e3ee6fb99fe6fb3
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c8e35b7b04457ae558e234427bc43a9283ae291c1191ab101c66f97155aaaf2
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b11a169aa63b990ce77f060c59a3a3da92a1ef763dd4702f44a7446e18c7d31
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:38f52d9bf379d8d086b75b5a848ee8c67ea2f92dd8a4561356a16d6ecf38670b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d95f3fb1f9df4cdd5f470d1684a242bf1d1940d47b9622802f603a91ffa5bc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.6932556629180908,
-  "best_model_checkpoint": "miner_id_24/checkpoint-10",
-  "epoch": 0.0423728813559322,
   "eval_steps": 5,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,92 @@
       "eval_samples_per_second": 6.433,
       "eval_steps_per_second": 3.217,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -129,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2348147665797120.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.577897310256958,
+  "best_model_checkpoint": "miner_id_24/checkpoint-20",
+  "epoch": 0.0847457627118644,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.433,
       "eval_steps_per_second": 3.217,
       "step": 10
+    },
+    {
+      "epoch": 0.046610169491525424,
+      "grad_norm": 0.4901130199432373,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 1.9861,
+      "step": 11
+    },
+    {
+      "epoch": 0.05084745762711865,
+      "grad_norm": 0.5694382786750793,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 1.5954,
+      "step": 12
+    },
+    {
+      "epoch": 0.05508474576271186,
+      "grad_norm": 0.4953717291355133,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 2.0111,
+      "step": 13
+    },
+    {
+      "epoch": 0.059322033898305086,
+      "grad_norm": 0.7269114851951599,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 1.484,
+      "step": 14
+    },
+    {
+      "epoch": 0.0635593220338983,
+      "grad_norm": 0.9006850123405457,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.7068,
+      "step": 15
+    },
+    {
+      "epoch": 0.0635593220338983,
+      "eval_loss": 1.6160073280334473,
+      "eval_runtime": 15.5466,
+      "eval_samples_per_second": 6.432,
+      "eval_steps_per_second": 3.216,
+      "step": 15
+    },
+    {
+      "epoch": 0.06779661016949153,
+      "grad_norm": 0.6504830121994019,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.9114,
+      "step": 16
+    },
+    {
+      "epoch": 0.07203389830508475,
+      "grad_norm": 0.4439529776573181,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 1.7195,
+      "step": 17
+    },
+    {
+      "epoch": 0.07627118644067797,
+      "grad_norm": 0.44182923436164856,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 1.6958,
+      "step": 18
+    },
+    {
+      "epoch": 0.08050847457627118,
+      "grad_norm": 0.5301311612129211,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.5541,
+      "step": 19
+    },
+    {
+      "epoch": 0.0847457627118644,
+      "grad_norm": 0.5610678791999817,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 1.1802,
+      "step": 20
+    },
+    {
+      "epoch": 0.0847457627118644,
+      "eval_loss": 1.577897310256958,
+      "eval_runtime": 15.5103,
+      "eval_samples_per_second": 6.447,
+      "eval_steps_per_second": 3.224,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4696295331594240.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null