Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:deaf17e4eb73a48c86f668cee3d16b2d2e4ac920e80c2d9bc49537a366c88a60
 size 838906392

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec23aeb0e190b8980ef34cf4c18c24710c410b93a79fb75ce699e2335f86d955
 size 838906392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51e30d01525465b0362fc4fd5dcf71a4fddf5ecfdaf7c823345702539f897c82
 size 426360596

 version https://git-lfs.github.com/spec/v1
+oid sha256:248c65ffd1da58fc1bb593d7344eb67b5d929f8e80dd9569eb9101c4591a17f0
 size 426360596

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b5e85bab9429dbcd6c01fa98ef85afd8b65fc9d0c7f91c9bcd7e6deac3dcc97
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c5f146512a4471cd8aaddeac1f4ded6bb126918e63f4a0cccb7462bdce0eddb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.0026835536118596792,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.16129032258064516,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 9.553,
       "eval_steps_per_second": 2.388,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.54593783037952e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.0014413581229746342,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.24193548387096775,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.553,
       "eval_steps_per_second": 2.388,
       "step": 100
+    },
+    {
+      "epoch": 0.1629032258064516,
+      "grad_norm": 0.13364097476005554,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.0067,
+      "step": 101
+    },
+    {
+      "epoch": 0.16451612903225807,
+      "grad_norm": 0.36112499237060547,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.0166,
+      "step": 102
+    },
+    {
+      "epoch": 0.16612903225806452,
+      "grad_norm": 0.3356890082359314,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 0.0147,
+      "step": 103
+    },
+    {
+      "epoch": 0.16774193548387098,
+      "grad_norm": 0.1406908631324768,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 0.0142,
+      "step": 104
+    },
+    {
+      "epoch": 0.1693548387096774,
+      "grad_norm": 0.3340584635734558,
+      "learning_rate": 5e-05,
+      "loss": 0.0101,
+      "step": 105
+    },
+    {
+      "epoch": 0.17096774193548386,
+      "grad_norm": 0.24642154574394226,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.0096,
+      "step": 106
+    },
+    {
+      "epoch": 0.17258064516129032,
+      "grad_norm": 0.2866198718547821,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.0103,
+      "step": 107
+    },
+    {
+      "epoch": 0.17419354838709677,
+      "grad_norm": 0.063316710293293,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.0019,
+      "step": 108
+    },
+    {
+      "epoch": 0.17580645161290323,
+      "grad_norm": 0.3815213441848755,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.0111,
+      "step": 109
+    },
+    {
+      "epoch": 0.1774193548387097,
+      "grad_norm": 0.49047574400901794,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.0176,
+      "step": 110
+    },
+    {
+      "epoch": 0.17903225806451614,
+      "grad_norm": 0.329447865486145,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.0208,
+      "step": 111
+    },
+    {
+      "epoch": 0.18064516129032257,
+      "grad_norm": 0.23379217088222504,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.0129,
+      "step": 112
+    },
+    {
+      "epoch": 0.18225806451612903,
+      "grad_norm": 0.3418707251548767,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.023,
+      "step": 113
+    },
+    {
+      "epoch": 0.18387096774193548,
+      "grad_norm": 0.3231382668018341,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.0211,
+      "step": 114
+    },
+    {
+      "epoch": 0.18548387096774194,
+      "grad_norm": 0.2852570414543152,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.0215,
+      "step": 115
+    },
+    {
+      "epoch": 0.1870967741935484,
+      "grad_norm": 0.37215906381607056,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.0114,
+      "step": 116
+    },
+    {
+      "epoch": 0.18870967741935485,
+      "grad_norm": 0.1520654708147049,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.0055,
+      "step": 117
+    },
+    {
+      "epoch": 0.19032258064516128,
+      "grad_norm": 0.2428535670042038,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.0073,
+      "step": 118
+    },
+    {
+      "epoch": 0.19193548387096773,
+      "grad_norm": 0.33777958154678345,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.0269,
+      "step": 119
+    },
+    {
+      "epoch": 0.1935483870967742,
+      "grad_norm": 0.16641807556152344,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.005,
+      "step": 120
+    },
+    {
+      "epoch": 0.19516129032258064,
+      "grad_norm": 0.2343873828649521,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.0077,
+      "step": 121
+    },
+    {
+      "epoch": 0.1967741935483871,
+      "grad_norm": 0.05236392095685005,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.0023,
+      "step": 122
+    },
+    {
+      "epoch": 0.19838709677419356,
+      "grad_norm": 0.35883286595344543,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.0192,
+      "step": 123
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.22238776087760925,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0082,
+      "step": 124
+    },
+    {
+      "epoch": 0.20161290322580644,
+      "grad_norm": 0.40833768248558044,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.0072,
+      "step": 125
+    },
+    {
+      "epoch": 0.2032258064516129,
+      "grad_norm": 0.08354021608829498,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.0026,
+      "step": 126
+    },
+    {
+      "epoch": 0.20483870967741935,
+      "grad_norm": 0.10409270972013474,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 0.0029,
+      "step": 127
+    },
+    {
+      "epoch": 0.2064516129032258,
+      "grad_norm": 0.09194610267877579,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 0.0032,
+      "step": 128
+    },
+    {
+      "epoch": 0.20806451612903226,
+      "grad_norm": 0.05515625327825546,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 0.0024,
+      "step": 129
+    },
+    {
+      "epoch": 0.20967741935483872,
+      "grad_norm": 0.41631606221199036,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 0.0086,
+      "step": 130
+    },
+    {
+      "epoch": 0.21129032258064517,
+      "grad_norm": 0.42728376388549805,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 0.0199,
+      "step": 131
+    },
+    {
+      "epoch": 0.2129032258064516,
+      "grad_norm": 0.028320245444774628,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 0.0011,
+      "step": 132
+    },
+    {
+      "epoch": 0.21451612903225806,
+      "grad_norm": 0.5399638414382935,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.0074,
+      "step": 133
+    },
+    {
+      "epoch": 0.2161290322580645,
+      "grad_norm": 0.4056585133075714,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 0.0373,
+      "step": 134
+    },
+    {
+      "epoch": 0.21774193548387097,
+      "grad_norm": 0.024112937971949577,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 0.001,
+      "step": 135
+    },
+    {
+      "epoch": 0.21935483870967742,
+      "grad_norm": 0.5993265509605408,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.0085,
+      "step": 136
+    },
+    {
+      "epoch": 0.22096774193548388,
+      "grad_norm": 0.01217877957969904,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.0007,
+      "step": 137
+    },
+    {
+      "epoch": 0.22258064516129034,
+      "grad_norm": 0.027175255119800568,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 0.0011,
+      "step": 138
+    },
+    {
+      "epoch": 0.22419354838709676,
+      "grad_norm": 0.2425202876329422,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 0.0095,
+      "step": 139
+    },
+    {
+      "epoch": 0.22580645161290322,
+      "grad_norm": 0.023758340626955032,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 0.0011,
+      "step": 140
+    },
+    {
+      "epoch": 0.22741935483870968,
+      "grad_norm": 0.09955063462257385,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 0.0026,
+      "step": 141
+    },
+    {
+      "epoch": 0.22903225806451613,
+      "grad_norm": 0.053477123379707336,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 0.0016,
+      "step": 142
+    },
+    {
+      "epoch": 0.2306451612903226,
+      "grad_norm": 0.24645189940929413,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0056,
+      "step": 143
+    },
+    {
+      "epoch": 0.23225806451612904,
+      "grad_norm": 0.9248583316802979,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 0.0523,
+      "step": 144
+    },
+    {
+      "epoch": 0.23387096774193547,
+      "grad_norm": 0.018480895087122917,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 0.0008,
+      "step": 145
+    },
+    {
+      "epoch": 0.23548387096774193,
+      "grad_norm": 0.11874135583639145,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 0.0032,
+      "step": 146
+    },
+    {
+      "epoch": 0.23709677419354838,
+      "grad_norm": 1.3977549076080322,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 0.0507,
+      "step": 147
+    },
+    {
+      "epoch": 0.23870967741935484,
+      "grad_norm": 0.04528358578681946,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 0.0012,
+      "step": 148
+    },
+    {
+      "epoch": 0.2403225806451613,
+      "grad_norm": 2.37878155708313,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.1519,
+      "step": 149
+    },
+    {
+      "epoch": 0.24193548387096775,
+      "grad_norm": 2.7409751415252686,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.0659,
+      "step": 150
+    },
+    {
+      "epoch": 0.24193548387096775,
+      "eval_loss": 0.0014413581229746342,
+      "eval_runtime": 109.2477,
+      "eval_samples_per_second": 9.556,
+      "eval_steps_per_second": 2.389,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.81890674556928e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null