Training in progress, step 76, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +194 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57d6404bc12da28d0683ed4c7b2e381f36ef3fd9a6952fb9d125e9ba62a2c5bb
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:e193d54116587c2aa95c323ec1e7e62074d39621eeeb0327dacc97d6a618e25e
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df5727c35f10330d0d3f2a4217ba0c2b67034d5f77fdfbd811dbdeaa38334f04
 size 640009682

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c05cc9c4f97c58bb2739999a084bea21e3e5ae2a7573f87d3619b16a2c51668
 size 640009682

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5aa918d4be00d32d2930a640b4aa4050349f0a6c7cf3f741267f8038c2328a1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:acb76e2ea992bfc0efd6b12fc0809327345f7ce53886c49f0efeb19b97149230
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eff4e51807fc2798ef7e3176a7ae7a505f7b610c949cf8c1d65662116e17ea14
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8ddabf60630e29c65bf15d4d38a70b53e1096fcbf23378832f8b10226895763
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.9108405113220215,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.4729530002955956,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,196 @@
       "eval_samples_per_second": 4.415,
       "eval_steps_per_second": 4.415,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -404,12 +594,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.3188848695640064e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.9108405113220215,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.7188885604493054,
   "eval_steps": 25,
+  "global_step": 76,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.415,
       "eval_steps_per_second": 4.415,
       "step": 50
+    },
+    {
+      "epoch": 0.4824120603015075,
+      "grad_norm": 0.629723846912384,
+      "learning_rate": 9.916118258515936e-05,
+      "loss": 1.1712,
+      "step": 51
+    },
+    {
+      "epoch": 0.4918711203074195,
+      "grad_norm": 0.7443132996559143,
+      "learning_rate": 9.421851671977372e-05,
+      "loss": 1.1707,
+      "step": 52
+    },
+    {
+      "epoch": 0.5013301803133313,
+      "grad_norm": 0.46892011165618896,
+      "learning_rate": 8.940340387142462e-05,
+      "loss": 0.8093,
+      "step": 53
+    },
+    {
+      "epoch": 0.5107892403192432,
+      "grad_norm": 0.43437010049819946,
+      "learning_rate": 8.47245211989213e-05,
+      "loss": 0.8652,
+      "step": 54
+    },
+    {
+      "epoch": 0.5202483003251552,
+      "grad_norm": 0.3998465836048126,
+      "learning_rate": 8.019030036508827e-05,
+      "loss": 0.8075,
+      "step": 55
+    },
+    {
+      "epoch": 0.5297073603310671,
+      "grad_norm": 0.4319959282875061,
+      "learning_rate": 7.580891234233904e-05,
+      "loss": 0.8248,
+      "step": 56
+    },
+    {
+      "epoch": 0.539166420336979,
+      "grad_norm": 0.4736616015434265,
+      "learning_rate": 7.158825268803127e-05,
+      "loss": 0.9148,
+      "step": 57
+    },
+    {
+      "epoch": 0.5486254803428909,
+      "grad_norm": 0.3903331458568573,
+      "learning_rate": 6.75359273161392e-05,
+      "loss": 0.8549,
+      "step": 58
+    },
+    {
+      "epoch": 0.5580845403488028,
+      "grad_norm": 0.428145170211792,
+      "learning_rate": 6.365923879088219e-05,
+      "loss": 0.8272,
+      "step": 59
+    },
+    {
+      "epoch": 0.5675436003547147,
+      "grad_norm": 0.5180810689926147,
+      "learning_rate": 5.996517316701069e-05,
+      "loss": 0.9229,
+      "step": 60
+    },
+    {
+      "epoch": 0.5770026603606266,
+      "grad_norm": 0.47326382994651794,
+      "learning_rate": 5.646038740046304e-05,
+      "loss": 0.768,
+      "step": 61
+    },
+    {
+      "epoch": 0.5864617203665385,
+      "grad_norm": 0.47181880474090576,
+      "learning_rate": 5.315119735208132e-05,
+      "loss": 0.973,
+      "step": 62
+    },
+    {
+      "epoch": 0.5959207803724504,
+      "grad_norm": 0.48134690523147583,
+      "learning_rate": 5.004356640600297e-05,
+      "loss": 0.8445,
+      "step": 63
+    },
+    {
+      "epoch": 0.6053798403783625,
+      "grad_norm": 0.4601708650588989,
+      "learning_rate": 4.71430947232396e-05,
+      "loss": 0.898,
+      "step": 64
+    },
+    {
+      "epoch": 0.6148389003842744,
+      "grad_norm": 0.4865597188472748,
+      "learning_rate": 4.4455009149808265e-05,
+      "loss": 0.922,
+      "step": 65
+    },
+    {
+      "epoch": 0.6242979603901863,
+      "grad_norm": 0.47632795572280884,
+      "learning_rate": 4.1984153797601665e-05,
+      "loss": 0.936,
+      "step": 66
+    },
+    {
+      "epoch": 0.6337570203960982,
+      "grad_norm": 0.5297707319259644,
+      "learning_rate": 3.9734981314971234e-05,
+      "loss": 0.9437,
+      "step": 67
+    },
+    {
+      "epoch": 0.6432160804020101,
+      "grad_norm": 0.46655818819999695,
+      "learning_rate": 3.771154486275363e-05,
+      "loss": 0.7435,
+      "step": 68
+    },
+    {
+      "epoch": 0.652675140407922,
+      "grad_norm": 0.513863205909729,
+      "learning_rate": 3.591749081020113e-05,
+      "loss": 0.9687,
+      "step": 69
+    },
+    {
+      "epoch": 0.6621342004138339,
+      "grad_norm": 0.5340255498886108,
+      "learning_rate": 3.435605216397765e-05,
+      "loss": 1.0353,
+      "step": 70
+    },
+    {
+      "epoch": 0.6715932604197458,
+      "grad_norm": 0.45835715532302856,
+      "learning_rate": 3.303004274206237e-05,
+      "loss": 0.864,
+      "step": 71
+    },
+    {
+      "epoch": 0.6810523204256577,
+      "grad_norm": 0.4819653034210205,
+      "learning_rate": 3.194185210305936e-05,
+      "loss": 1.0022,
+      "step": 72
+    },
+    {
+      "epoch": 0.6905113804315696,
+      "grad_norm": 0.5713886618614197,
+      "learning_rate": 3.1093441240051626e-05,
+      "loss": 1.0681,
+      "step": 73
+    },
+    {
+      "epoch": 0.6999704404374816,
+      "grad_norm": 0.5911141633987427,
+      "learning_rate": 3.048633904675892e-05,
+      "loss": 0.9129,
+      "step": 74
+    },
+    {
+      "epoch": 0.7094295004433935,
+      "grad_norm": 0.5698217749595642,
+      "learning_rate": 3.012163956236801e-05,
+      "loss": 1.0666,
+      "step": 75
+    },
+    {
+      "epoch": 0.7094295004433935,
+      "eval_loss": 0.8948501348495483,
+      "eval_runtime": 11.3345,
+      "eval_samples_per_second": 4.411,
+      "eval_steps_per_second": 4.411,
+      "step": 75
+    },
+    {
+      "epoch": 0.7188885604493054,
+      "grad_norm": 0.5917747616767883,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 1.0924,
+      "step": 76
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.002568490422108e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null