Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dda8208b1cd0ba44b9fdf867af501c1bd06142a9f834e685ba6435b4625fb295
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7bed5bf6e403571cd4b2c52593e152f4e8a5d742b792e28bbacf835a35b61e2
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cbc32dc14f4cbb600f6ce1a7b620c31b16731a9b4db97c7a7d90aa72e1ca9d7
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdaa1eb075669105165ecff759347bd28db820270f008c4fdafba25a4463644d
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a53bffa166e1c766256324a84ed685c220d1afee191bcf64d759d9ae0762bef
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e29024cee0e32918d804c461b1559b02a369606d17096809c8f0b30b8f84677b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1050190925598145,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.02520478890989288,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 47.71,
       "eval_steps_per_second": 11.938,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4772337901633536.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0116993188858032,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.05040957781978576,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.71,
       "eval_steps_per_second": 11.938,
       "step": 50
+    },
+    {
+      "epoch": 0.02570888468809074,
+      "grad_norm": 1.292781949043274,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.9901,
+      "step": 51
+    },
+    {
+      "epoch": 0.026212980466288595,
+      "grad_norm": 1.1206916570663452,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.0152,
+      "step": 52
+    },
+    {
+      "epoch": 0.02671707624448645,
+      "grad_norm": 0.8595021367073059,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 0.9863,
+      "step": 53
+    },
+    {
+      "epoch": 0.02722117202268431,
+      "grad_norm": 0.6013736724853516,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.0146,
+      "step": 54
+    },
+    {
+      "epoch": 0.027725267800882167,
+      "grad_norm": 0.5559196472167969,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 0.9531,
+      "step": 55
+    },
+    {
+      "epoch": 0.028229363579080024,
+      "grad_norm": 0.5038899779319763,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 0.9519,
+      "step": 56
+    },
+    {
+      "epoch": 0.028733459357277884,
+      "grad_norm": 0.44719502329826355,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 0.9766,
+      "step": 57
+    },
+    {
+      "epoch": 0.02923755513547574,
+      "grad_norm": 0.4539150297641754,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 0.9853,
+      "step": 58
+    },
+    {
+      "epoch": 0.029741650913673597,
+      "grad_norm": 0.45345962047576904,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 0.9229,
+      "step": 59
+    },
+    {
+      "epoch": 0.030245746691871456,
+      "grad_norm": 0.4743633568286896,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 0.9564,
+      "step": 60
+    },
+    {
+      "epoch": 0.030749842470069313,
+      "grad_norm": 0.484157532453537,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 0.9582,
+      "step": 61
+    },
+    {
+      "epoch": 0.03125393824826717,
+      "grad_norm": 0.44355064630508423,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.9991,
+      "step": 62
+    },
+    {
+      "epoch": 0.03175803402646503,
+      "grad_norm": 0.40092796087265015,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.915,
+      "step": 63
+    },
+    {
+      "epoch": 0.032262129804662885,
+      "grad_norm": 0.3976602554321289,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 0.891,
+      "step": 64
+    },
+    {
+      "epoch": 0.03276622558286074,
+      "grad_norm": 0.41375917196273804,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 0.9286,
+      "step": 65
+    },
+    {
+      "epoch": 0.0332703213610586,
+      "grad_norm": 0.4368148148059845,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 0.9392,
+      "step": 66
+    },
+    {
+      "epoch": 0.03377441713925646,
+      "grad_norm": 0.4674438536167145,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.9399,
+      "step": 67
+    },
+    {
+      "epoch": 0.03427851291745432,
+      "grad_norm": 0.4300023913383484,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 0.9015,
+      "step": 68
+    },
+    {
+      "epoch": 0.034782608695652174,
+      "grad_norm": 0.44563958048820496,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 0.9133,
+      "step": 69
+    },
+    {
+      "epoch": 0.03528670447385003,
+      "grad_norm": 0.4508240222930908,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 0.9124,
+      "step": 70
+    },
+    {
+      "epoch": 0.03579080025204789,
+      "grad_norm": 0.48746979236602783,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 0.9495,
+      "step": 71
+    },
+    {
+      "epoch": 0.036294896030245744,
+      "grad_norm": 0.5286091566085815,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 0.9482,
+      "step": 72
+    },
+    {
+      "epoch": 0.03679899180844361,
+      "grad_norm": 0.5450381636619568,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 0.9255,
+      "step": 73
+    },
+    {
+      "epoch": 0.03730308758664146,
+      "grad_norm": 0.5480132102966309,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.9612,
+      "step": 74
+    },
+    {
+      "epoch": 0.03780718336483932,
+      "grad_norm": 0.5725929737091064,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.0166,
+      "step": 75
+    },
+    {
+      "epoch": 0.038311279143037176,
+      "grad_norm": 0.5540945529937744,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.9842,
+      "step": 76
+    },
+    {
+      "epoch": 0.03881537492123503,
+      "grad_norm": 0.593117356300354,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 0.9666,
+      "step": 77
+    },
+    {
+      "epoch": 0.03931947069943289,
+      "grad_norm": 0.7941222190856934,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 0.9603,
+      "step": 78
+    },
+    {
+      "epoch": 0.03982356647763075,
+      "grad_norm": 0.6581109166145325,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 0.9778,
+      "step": 79
+    },
+    {
+      "epoch": 0.04032766225582861,
+      "grad_norm": 0.707141101360321,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.0769,
+      "step": 80
+    },
+    {
+      "epoch": 0.040831758034026465,
+      "grad_norm": 0.7098904252052307,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.0253,
+      "step": 81
+    },
+    {
+      "epoch": 0.04133585381222432,
+      "grad_norm": 0.725770115852356,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 0.9254,
+      "step": 82
+    },
+    {
+      "epoch": 0.04183994959042218,
+      "grad_norm": 0.8920672535896301,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 0.9655,
+      "step": 83
+    },
+    {
+      "epoch": 0.04234404536862004,
+      "grad_norm": 0.8527565002441406,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 0.924,
+      "step": 84
+    },
+    {
+      "epoch": 0.0428481411468179,
+      "grad_norm": 0.9886060357093811,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 0.8559,
+      "step": 85
+    },
+    {
+      "epoch": 0.043352236925015754,
+      "grad_norm": 0.9404958486557007,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.7445,
+      "step": 86
+    },
+    {
+      "epoch": 0.04385633270321361,
+      "grad_norm": 1.1955063343048096,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 1.0882,
+      "step": 87
+    },
+    {
+      "epoch": 0.04436042848141147,
+      "grad_norm": 1.2329496145248413,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.8986,
+      "step": 88
+    },
+    {
+      "epoch": 0.04486452425960932,
+      "grad_norm": 1.3696224689483643,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.0774,
+      "step": 89
+    },
+    {
+      "epoch": 0.045368620037807186,
+      "grad_norm": 1.3210687637329102,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.8344,
+      "step": 90
+    },
+    {
+      "epoch": 0.04587271581600504,
+      "grad_norm": 1.2450342178344727,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.9926,
+      "step": 91
+    },
+    {
+      "epoch": 0.0463768115942029,
+      "grad_norm": 1.536271572113037,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.9797,
+      "step": 92
+    },
+    {
+      "epoch": 0.046880907372400756,
+      "grad_norm": 1.8610961437225342,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.1009,
+      "step": 93
+    },
+    {
+      "epoch": 0.04738500315059861,
+      "grad_norm": 1.8540403842926025,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.1389,
+      "step": 94
+    },
+    {
+      "epoch": 0.04788909892879647,
+      "grad_norm": 2.1709673404693604,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 0.9783,
+      "step": 95
+    },
+    {
+      "epoch": 0.04839319470699433,
+      "grad_norm": 2.641937494277954,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.1573,
+      "step": 96
+    },
+    {
+      "epoch": 0.04889729048519219,
+      "grad_norm": 2.51130747795105,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.1294,
+      "step": 97
+    },
+    {
+      "epoch": 0.049401386263390044,
+      "grad_norm": 2.792402505874634,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.3566,
+      "step": 98
+    },
+    {
+      "epoch": 0.0499054820415879,
+      "grad_norm": 3.161710023880005,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.4144,
+      "step": 99
+    },
+    {
+      "epoch": 0.05040957781978576,
+      "grad_norm": 6.212632656097412,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 1.7334,
+      "step": 100
+    },
+    {
+      "epoch": 0.05040957781978576,
+      "eval_loss": 1.0116993188858032,
+      "eval_runtime": 70.2364,
+      "eval_samples_per_second": 47.568,
+      "eval_steps_per_second": 11.903,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9486712185028608.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null