Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8f21b84ca7e697c285a67c800bb05e0084bf6ebbd84824486ef963eaa8b2cc9
 size 17640136

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcc77b6ace17984e669236156fa3df3c8a9330c11eb43c59450dc697746dec26
 size 17640136

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6fd76e72372001be6ac665d4542099fb9cb706c0248bfbbed5413f3dcd5cbf4
 size 9568884

 version https://git-lfs.github.com/spec/v1
+oid sha256:4de6bd5319097d270e859e1187f9c1c5736fb261e859fbd9e47ec8844a83ba77
 size 9568884

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f84b7eed8ce383f213fa2c01c69e8fe6d926bcb9bee31ed27ce8dad8d9e48e50
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ac9ef8a8d750dd06f1b2f32aa7dc4ccd0792acf7e63e2006163d178a7597fee
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d95f3fb1f9df4cdd5f470d1684a242bf1d1940d47b9622802f603a91ffa5bc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7564018368721008,
-  "best_model_checkpoint": "miner_id_24/checkpoint-10",
-  "epoch": 0.014524328249818447,
   "eval_steps": 5,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,92 @@
       "eval_samples_per_second": 6.794,
       "eval_steps_per_second": 3.397,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -129,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 89038163804160.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5926273465156555,
+  "best_model_checkpoint": "miner_id_24/checkpoint-20",
+  "epoch": 0.029048656499636893,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.794,
       "eval_steps_per_second": 3.397,
       "step": 10
+    },
+    {
+      "epoch": 0.01597676107480029,
+      "grad_norm": 2.6293785572052,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 0.6937,
+      "step": 11
+    },
+    {
+      "epoch": 0.017429193899782137,
+      "grad_norm": 2.701237440109253,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 0.5721,
+      "step": 12
+    },
+    {
+      "epoch": 0.01888162672476398,
+      "grad_norm": 3.045431137084961,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 0.7206,
+      "step": 13
+    },
+    {
+      "epoch": 0.020334059549745823,
+      "grad_norm": 3.3756155967712402,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 0.9821,
+      "step": 14
+    },
+    {
+      "epoch": 0.02178649237472767,
+      "grad_norm": 1.8901863098144531,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.723,
+      "step": 15
+    },
+    {
+      "epoch": 0.02178649237472767,
+      "eval_loss": 0.6116396188735962,
+      "eval_runtime": 42.7141,
+      "eval_samples_per_second": 6.789,
+      "eval_steps_per_second": 3.395,
+      "step": 15
+    },
+    {
+      "epoch": 0.023238925199709513,
+      "grad_norm": 2.060173749923706,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 0.5475,
+      "step": 16
+    },
+    {
+      "epoch": 0.024691358024691357,
+      "grad_norm": 1.7230088710784912,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 0.671,
+      "step": 17
+    },
+    {
+      "epoch": 0.026143790849673203,
+      "grad_norm": 2.830660343170166,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 0.9291,
+      "step": 18
+    },
+    {
+      "epoch": 0.027596223674655047,
+      "grad_norm": 1.9140468835830688,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.5569,
+      "step": 19
+    },
+    {
+      "epoch": 0.029048656499636893,
+      "grad_norm": 1.8352031707763672,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.6341,
+      "step": 20
+    },
+    {
+      "epoch": 0.029048656499636893,
+      "eval_loss": 0.5926273465156555,
+      "eval_runtime": 42.6687,
+      "eval_samples_per_second": 6.797,
+      "eval_steps_per_second": 3.398,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 178076327608320.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null