Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5a439a6cef4ecb4cfb0552ccc4bb8f183dbaa21404b66a6d87e683af193576a
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:f732bef2952e9d32f19e762db18002aed6c12f6c825354edc05263531b046467
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ff994df58fd21bbc62e850340ee2f3ff5c1ed1827118259fd6cb1c9c64e4ac9
-size 170920084

 version https://git-lfs.github.com/spec/v1
+oid sha256:2feeebd9398df71afacce59452b2c73c4adb2295cd53299eb4c2ded241ccce8f
+size 170920532

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddf89d8c106de4f39d61df2d30ed6ada0e5dc66c4de0a061bc16e3b4bc537498
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:574041858ad47610f1228962be219c1774ebe5acbf20c9a7bf53d14a3ca80f21
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596785cc644037bdf9b1374ba5340995054de5f4bde563878d8bc4f03a7aa10e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8d9346c4fcc90fb1ec8546736583b76a4fae6bc25cb93181337c187d15da94a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.770531177520752,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.03910833007430583,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,135 @@
       "eval_samples_per_second": 12.57,
       "eval_steps_per_second": 3.143,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2349209733903155e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6793892979621887,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.07821666014861166,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.57,
       "eval_steps_per_second": 3.143,
       "step": 150
+    },
+    {
+      "epoch": 0.041715552079259546,
+      "grad_norm": 10.44023609161377,
+      "learning_rate": 0.0001697631521134985,
+      "loss": 2.5952,
+      "step": 160
+    },
+    {
+      "epoch": 0.04432277408421327,
+      "grad_norm": 13.444787979125977,
+      "learning_rate": 0.00016585113790650388,
+      "loss": 2.6771,
+      "step": 170
+    },
+    {
+      "epoch": 0.046929996089166995,
+      "grad_norm": 15.03112506866455,
+      "learning_rate": 0.0001617524614946192,
+      "loss": 3.0433,
+      "step": 180
+    },
+    {
+      "epoch": 0.04953721809412071,
+      "grad_norm": 13.681419372558594,
+      "learning_rate": 0.0001574787410214407,
+      "loss": 3.3614,
+      "step": 190
+    },
+    {
+      "epoch": 0.052144440099074436,
+      "grad_norm": 25.215314865112305,
+      "learning_rate": 0.00015304209081197425,
+      "loss": 3.507,
+      "step": 200
+    },
+    {
+      "epoch": 0.052144440099074436,
+      "eval_loss": 0.7421609163284302,
+      "eval_runtime": 513.024,
+      "eval_samples_per_second": 12.592,
+      "eval_steps_per_second": 3.148,
+      "step": 200
+    },
+    {
+      "epoch": 0.05475166210402816,
+      "grad_norm": 9.96532917022705,
+      "learning_rate": 0.00014845508703326504,
+      "loss": 2.2643,
+      "step": 210
+    },
+    {
+      "epoch": 0.05735888410898188,
+      "grad_norm": 12.444780349731445,
+      "learning_rate": 0.00014373073204588556,
+      "loss": 2.6161,
+      "step": 220
+    },
+    {
+      "epoch": 0.0599661061139356,
+      "grad_norm": 13.275497436523438,
+      "learning_rate": 0.00013888241754733208,
+      "loss": 2.9035,
+      "step": 230
+    },
+    {
+      "epoch": 0.06257332811888933,
+      "grad_norm": 22.568071365356445,
+      "learning_rate": 0.00013392388661180303,
+      "loss": 3.1491,
+      "step": 240
+    },
+    {
+      "epoch": 0.06518055012384305,
+      "grad_norm": 18.894039154052734,
+      "learning_rate": 0.0001288691947339621,
+      "loss": 3.6063,
+      "step": 250
+    },
+    {
+      "epoch": 0.06518055012384305,
+      "eval_loss": 0.7025501132011414,
+      "eval_runtime": 512.1493,
+      "eval_samples_per_second": 12.614,
+      "eval_steps_per_second": 3.153,
+      "step": 250
+    },
+    {
+      "epoch": 0.06778777212879676,
+      "grad_norm": 9.569221496582031,
+      "learning_rate": 0.0001237326699871115,
+      "loss": 2.3234,
+      "step": 260
+    },
+    {
+      "epoch": 0.07039499413375049,
+      "grad_norm": 12.406023979187012,
+      "learning_rate": 0.00011852887240871145,
+      "loss": 2.2466,
+      "step": 270
+    },
+    {
+      "epoch": 0.07300221613870421,
+      "grad_norm": 14.062081336975098,
+      "learning_rate": 0.00011327255272837221,
+      "loss": 2.8102,
+      "step": 280
+    },
+    {
+      "epoch": 0.07560943814365793,
+      "grad_norm": 12.484160423278809,
+      "learning_rate": 0.00010797861055530831,
+      "loss": 2.9179,
+      "step": 290
+    },
+    {
+      "epoch": 0.07821666014861166,
+      "grad_norm": 19.24785804748535,
+      "learning_rate": 0.00010266205214377748,
+      "loss": 3.4329,
+      "step": 300
+    },
+    {
+      "epoch": 0.07821666014861166,
+      "eval_loss": 0.6793892979621887,
+      "eval_runtime": 512.6051,
+      "eval_samples_per_second": 12.602,
+      "eval_steps_per_second": 3.151,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.487523283595428e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null