Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24b57cd11e3ec56d1819479eb0cfd29a290f1a379e677845fa83a00104819adc
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:90b82f637fbbcf9c18388e17a27e644c3ff1d0d44dff9ccb0924da82c5c8232a
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb44a7844f5cef2d21cabfad70c1eb64c6d5d1e02cba80beba8a6df40ed1f64
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:6eaeec56bc85ff8d8e8333454c95a6a06d76ecbc2de728340a6f9cf4f93280fa
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9e6df8cc6aab8d327734713f68bf4f7da8a4c480516ffd2365e8d9c7bd0a1e7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a4f36987e11361af142b76065c8b4ca44b0deb82d95957e3e64d5a688508174
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7389817237854004,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.017681902572716825,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.527,
       "eval_steps_per_second": 3.383,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.430999619600384e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6781367659568787,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.026522853859075237,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.527,
       "eval_steps_per_second": 3.383,
       "step": 100
+    },
+    {
+      "epoch": 0.017858721598443993,
+      "grad_norm": 8.920741081237793,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 3.3914,
+      "step": 101
+    },
+    {
+      "epoch": 0.018035540624171162,
+      "grad_norm": 7.691524982452393,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 3.4589,
+      "step": 102
+    },
+    {
+      "epoch": 0.01821235964989833,
+      "grad_norm": 4.382842063903809,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 2.9892,
+      "step": 103
+    },
+    {
+      "epoch": 0.018389178675625496,
+      "grad_norm": 4.469934463500977,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 3.1142,
+      "step": 104
+    },
+    {
+      "epoch": 0.018565997701352664,
+      "grad_norm": 4.711705207824707,
+      "learning_rate": 5e-05,
+      "loss": 3.1713,
+      "step": 105
+    },
+    {
+      "epoch": 0.018742816727079833,
+      "grad_norm": 4.239561080932617,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 3.0092,
+      "step": 106
+    },
+    {
+      "epoch": 0.018919635752807,
+      "grad_norm": 3.846534013748169,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 3.0243,
+      "step": 107
+    },
+    {
+      "epoch": 0.01909645477853417,
+      "grad_norm": 3.866678476333618,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 2.8102,
+      "step": 108
+    },
+    {
+      "epoch": 0.01927327380426134,
+      "grad_norm": 3.4842145442962646,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 2.7249,
+      "step": 109
+    },
+    {
+      "epoch": 0.019450092829988507,
+      "grad_norm": 3.4887750148773193,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 2.8563,
+      "step": 110
+    },
+    {
+      "epoch": 0.019626911855715676,
+      "grad_norm": 3.680882453918457,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 2.6713,
+      "step": 111
+    },
+    {
+      "epoch": 0.019803730881442844,
+      "grad_norm": 4.103943347930908,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 3.0004,
+      "step": 112
+    },
+    {
+      "epoch": 0.019980549907170013,
+      "grad_norm": 3.867415428161621,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 2.8714,
+      "step": 113
+    },
+    {
+      "epoch": 0.020157368932897178,
+      "grad_norm": 3.6518120765686035,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 2.4498,
+      "step": 114
+    },
+    {
+      "epoch": 0.020334187958624347,
+      "grad_norm": 3.914706230163574,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 2.7675,
+      "step": 115
+    },
+    {
+      "epoch": 0.020511006984351515,
+      "grad_norm": 3.9167869091033936,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 2.8318,
+      "step": 116
+    },
+    {
+      "epoch": 0.020687826010078684,
+      "grad_norm": 3.727733850479126,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 2.715,
+      "step": 117
+    },
+    {
+      "epoch": 0.020864645035805852,
+      "grad_norm": 3.9161274433135986,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 2.7997,
+      "step": 118
+    },
+    {
+      "epoch": 0.02104146406153302,
+      "grad_norm": 3.6844944953918457,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 2.752,
+      "step": 119
+    },
+    {
+      "epoch": 0.02121828308726019,
+      "grad_norm": 4.133869647979736,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 2.7113,
+      "step": 120
+    },
+    {
+      "epoch": 0.021395102112987358,
+      "grad_norm": 3.8387954235076904,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 2.5577,
+      "step": 121
+    },
+    {
+      "epoch": 0.021571921138714527,
+      "grad_norm": 3.6142640113830566,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 2.6402,
+      "step": 122
+    },
+    {
+      "epoch": 0.021748740164441695,
+      "grad_norm": 3.8690361976623535,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 2.6052,
+      "step": 123
+    },
+    {
+      "epoch": 0.02192555919016886,
+      "grad_norm": 3.8395142555236816,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.6495,
+      "step": 124
+    },
+    {
+      "epoch": 0.02210237821589603,
+      "grad_norm": 4.113121032714844,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 2.6376,
+      "step": 125
+    },
+    {
+      "epoch": 0.022279197241623198,
+      "grad_norm": 3.76629376411438,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 2.5573,
+      "step": 126
+    },
+    {
+      "epoch": 0.022456016267350366,
+      "grad_norm": 3.7748351097106934,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 2.6338,
+      "step": 127
+    },
+    {
+      "epoch": 0.022632835293077535,
+      "grad_norm": 3.8269357681274414,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 2.7441,
+      "step": 128
+    },
+    {
+      "epoch": 0.022809654318804704,
+      "grad_norm": 3.811927556991577,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 2.5824,
+      "step": 129
+    },
+    {
+      "epoch": 0.022986473344531872,
+      "grad_norm": 3.9410016536712646,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 2.8725,
+      "step": 130
+    },
+    {
+      "epoch": 0.02316329237025904,
+      "grad_norm": 3.8563146591186523,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 2.5051,
+      "step": 131
+    },
+    {
+      "epoch": 0.02334011139598621,
+      "grad_norm": 3.753028392791748,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 2.6026,
+      "step": 132
+    },
+    {
+      "epoch": 0.023516930421713378,
+      "grad_norm": 3.807447910308838,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 2.4886,
+      "step": 133
+    },
+    {
+      "epoch": 0.023693749447440543,
+      "grad_norm": 3.8522281646728516,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 2.5633,
+      "step": 134
+    },
+    {
+      "epoch": 0.02387056847316771,
+      "grad_norm": 3.8721601963043213,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 2.5071,
+      "step": 135
+    },
+    {
+      "epoch": 0.02404738749889488,
+      "grad_norm": 4.0354461669921875,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 2.7198,
+      "step": 136
+    },
+    {
+      "epoch": 0.02422420652462205,
+      "grad_norm": 3.5654656887054443,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 2.4604,
+      "step": 137
+    },
+    {
+      "epoch": 0.024401025550349217,
+      "grad_norm": 3.723776340484619,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 2.6183,
+      "step": 138
+    },
+    {
+      "epoch": 0.024577844576076386,
+      "grad_norm": 3.5163791179656982,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 2.4345,
+      "step": 139
+    },
+    {
+      "epoch": 0.024754663601803555,
+      "grad_norm": 3.7013096809387207,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 2.2734,
+      "step": 140
+    },
+    {
+      "epoch": 0.024931482627530723,
+      "grad_norm": 3.5966262817382812,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 2.4084,
+      "step": 141
+    },
+    {
+      "epoch": 0.025108301653257892,
+      "grad_norm": 3.8784823417663574,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 2.5505,
+      "step": 142
+    },
+    {
+      "epoch": 0.02528512067898506,
+      "grad_norm": 3.960005760192871,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.3651,
+      "step": 143
+    },
+    {
+      "epoch": 0.025461939704712225,
+      "grad_norm": 3.905780792236328,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 2.4459,
+      "step": 144
+    },
+    {
+      "epoch": 0.025638758730439394,
+      "grad_norm": 3.7308545112609863,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 2.3803,
+      "step": 145
+    },
+    {
+      "epoch": 0.025815577756166563,
+      "grad_norm": 4.277618408203125,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 2.5735,
+      "step": 146
+    },
+    {
+      "epoch": 0.02599239678189373,
+      "grad_norm": 4.1843180656433105,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 2.5866,
+      "step": 147
+    },
+    {
+      "epoch": 0.0261692158076209,
+      "grad_norm": 3.8520991802215576,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 2.2892,
+      "step": 148
+    },
+    {
+      "epoch": 0.02634603483334807,
+      "grad_norm": 3.938481330871582,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 2.2478,
+      "step": 149
+    },
+    {
+      "epoch": 0.026522853859075237,
+      "grad_norm": 4.657419681549072,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 2.4547,
+      "step": 150
+    },
+    {
+      "epoch": 0.026522853859075237,
+      "eval_loss": 0.6781367659568787,
+      "eval_runtime": 703.6237,
+      "eval_samples_per_second": 13.537,
+      "eval_steps_per_second": 3.385,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.146499429400576e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null