Training in progress, step 13000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18518c164df026440f068fac8233b3bff2d8d4502ff38a32a862597f23f6b7c0
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4e31724b0cf74835ae0b9aaeff5c05e7e852cb9e158de0e35d8a673c930d429
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c73b91ebf8be54d28c1c49c244582f7f70def8a8258d400992d104200bbf23d2
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:98033794262f4774a192ebe69b4dfddba3edee43a3cce40cedfd5c1785391e67
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:113d12b5af2a861076397bdce257b8a1e5a1daabe8a5aaee5bfcbdb6024fca69
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:3526295826c2a8db767925a5ee2fce15661c2f21ba999bd2bc96732400f36f2d
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.518637920612533,
   "eval_steps": 500,
-  "global_step": 12500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11258,6 +11258,456 @@
       "mean_token_accuracy": 0.8074711799621582,
       "num_tokens": 13840892.0,
       "step": 12500
     }
   ],
   "logging_steps": 10,
@@ -11277,7 +11727,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6741415131650048e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.619383437437034,
   "eval_steps": 500,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8074711799621582,
       "num_tokens": 13840892.0,
       "step": 12500
+    },
+    {
+      "epoch": 2.5206528309490226,
+      "grad_norm": 14.0625,
+      "learning_rate": 3.196991067230842e-06,
+      "loss": 0.8395,
+      "mean_token_accuracy": 0.797085040807724,
+      "num_tokens": 13852682.0,
+      "step": 12510
+    },
+    {
+      "epoch": 2.5226677412855127,
+      "grad_norm": 10.4375,
+      "learning_rate": 3.183558331654242e-06,
+      "loss": 0.7477,
+      "mean_token_accuracy": 0.8105276763439179,
+      "num_tokens": 13864663.0,
+      "step": 12520
+    },
+    {
+      "epoch": 2.524682651622003,
+      "grad_norm": 10.5625,
+      "learning_rate": 3.1701255960776416e-06,
+      "loss": 0.6768,
+      "mean_token_accuracy": 0.8293303847312927,
+      "num_tokens": 13876171.0,
+      "step": 12530
+    },
+    {
+      "epoch": 2.5266975619584926,
+      "grad_norm": 9.625,
+      "learning_rate": 3.156692860501041e-06,
+      "loss": 0.72,
+      "mean_token_accuracy": 0.8201279520988465,
+      "num_tokens": 13887876.0,
+      "step": 12540
+    },
+    {
+      "epoch": 2.5287124722949827,
+      "grad_norm": 15.6875,
+      "learning_rate": 3.143260124924441e-06,
+      "loss": 0.8625,
+      "mean_token_accuracy": 0.7869448184967041,
+      "num_tokens": 13898022.0,
+      "step": 12550
+    },
+    {
+      "epoch": 2.530727382631473,
+      "grad_norm": 12.625,
+      "learning_rate": 3.129827389347841e-06,
+      "loss": 0.8983,
+      "mean_token_accuracy": 0.7845638215541839,
+      "num_tokens": 13909748.0,
+      "step": 12560
+    },
+    {
+      "epoch": 2.532742292967963,
+      "grad_norm": 10.25,
+      "learning_rate": 3.1163946537712408e-06,
+      "loss": 0.8229,
+      "mean_token_accuracy": 0.7928247213363647,
+      "num_tokens": 13922277.0,
+      "step": 12570
+    },
+    {
+      "epoch": 2.534757203304453,
+      "grad_norm": 11.125,
+      "learning_rate": 3.102961918194641e-06,
+      "loss": 0.7876,
+      "mean_token_accuracy": 0.7989083111286164,
+      "num_tokens": 13934598.0,
+      "step": 12580
+    },
+    {
+      "epoch": 2.536772113640943,
+      "grad_norm": 12.9375,
+      "learning_rate": 3.0895291826180406e-06,
+      "loss": 0.7705,
+      "mean_token_accuracy": 0.8085067272186279,
+      "num_tokens": 13944920.0,
+      "step": 12590
+    },
+    {
+      "epoch": 2.538787023977433,
+      "grad_norm": 12.1875,
+      "learning_rate": 3.0760964470414402e-06,
+      "loss": 0.8116,
+      "mean_token_accuracy": 0.7995778679847717,
+      "num_tokens": 13956061.0,
+      "step": 12600
+    },
+    {
+      "epoch": 2.540801934313923,
+      "grad_norm": 9.9375,
+      "learning_rate": 3.06266371146484e-06,
+      "loss": 0.767,
+      "mean_token_accuracy": 0.8065134942531585,
+      "num_tokens": 13967029.0,
+      "step": 12610
+    },
+    {
+      "epoch": 2.542816844650413,
+      "grad_norm": 11.25,
+      "learning_rate": 3.04923097588824e-06,
+      "loss": 0.8058,
+      "mean_token_accuracy": 0.7920451164245605,
+      "num_tokens": 13978641.0,
+      "step": 12620
+    },
+    {
+      "epoch": 2.544831754986903,
+      "grad_norm": 11.1875,
+      "learning_rate": 3.0357982403116397e-06,
+      "loss": 0.7992,
+      "mean_token_accuracy": 0.7988592565059662,
+      "num_tokens": 13989687.0,
+      "step": 12630
+    },
+    {
+      "epoch": 2.546846665323393,
+      "grad_norm": 14.125,
+      "learning_rate": 3.02236550473504e-06,
+      "loss": 0.6931,
+      "mean_token_accuracy": 0.8216106593608856,
+      "num_tokens": 14001448.0,
+      "step": 12640
+    },
+    {
+      "epoch": 2.548861575659883,
+      "grad_norm": 12.6875,
+      "learning_rate": 3.008932769158439e-06,
+      "loss": 0.8851,
+      "mean_token_accuracy": 0.7797039806842804,
+      "num_tokens": 14012660.0,
+      "step": 12650
+    },
+    {
+      "epoch": 2.550876485996373,
+      "grad_norm": 11.0625,
+      "learning_rate": 2.995500033581839e-06,
+      "loss": 0.8223,
+      "mean_token_accuracy": 0.7970936000347137,
+      "num_tokens": 14023087.0,
+      "step": 12660
+    },
+    {
+      "epoch": 2.552891396332863,
+      "grad_norm": 10.25,
+      "learning_rate": 2.982067298005239e-06,
+      "loss": 0.7795,
+      "mean_token_accuracy": 0.8052306652069092,
+      "num_tokens": 14035227.0,
+      "step": 12670
+    },
+    {
+      "epoch": 2.5549063066693534,
+      "grad_norm": 10.6875,
+      "learning_rate": 2.968634562428639e-06,
+      "loss": 0.8418,
+      "mean_token_accuracy": 0.7952195703983307,
+      "num_tokens": 14046084.0,
+      "step": 12680
+    },
+    {
+      "epoch": 2.5569212170058435,
+      "grad_norm": 11.625,
+      "learning_rate": 2.9552018268520386e-06,
+      "loss": 0.7606,
+      "mean_token_accuracy": 0.8044079065322876,
+      "num_tokens": 14055858.0,
+      "step": 12690
+    },
+    {
+      "epoch": 2.5589361273423332,
+      "grad_norm": 11.375,
+      "learning_rate": 2.9417690912754388e-06,
+      "loss": 0.7828,
+      "mean_token_accuracy": 0.8071886241436005,
+      "num_tokens": 14067097.0,
+      "step": 12700
+    },
+    {
+      "epoch": 2.5609510376788234,
+      "grad_norm": 14.1875,
+      "learning_rate": 2.928336355698838e-06,
+      "loss": 0.8814,
+      "mean_token_accuracy": 0.7862110197544098,
+      "num_tokens": 14077884.0,
+      "step": 12710
+    },
+    {
+      "epoch": 2.5629659480153135,
+      "grad_norm": 11.8125,
+      "learning_rate": 2.914903620122238e-06,
+      "loss": 0.8627,
+      "mean_token_accuracy": 0.7814090967178344,
+      "num_tokens": 14088843.0,
+      "step": 12720
+    },
+    {
+      "epoch": 2.5649808583518032,
+      "grad_norm": 14.6875,
+      "learning_rate": 2.901470884545638e-06,
+      "loss": 0.8469,
+      "mean_token_accuracy": 0.7937661349773407,
+      "num_tokens": 14100309.0,
+      "step": 12730
+    },
+    {
+      "epoch": 2.5669957686882934,
+      "grad_norm": 11.1875,
+      "learning_rate": 2.888038148969038e-06,
+      "loss": 0.8517,
+      "mean_token_accuracy": 0.790552693605423,
+      "num_tokens": 14110323.0,
+      "step": 12740
+    },
+    {
+      "epoch": 2.5690106790247835,
+      "grad_norm": 12.625,
+      "learning_rate": 2.874605413392438e-06,
+      "loss": 0.8309,
+      "mean_token_accuracy": 0.795288497209549,
+      "num_tokens": 14121179.0,
+      "step": 12750
+    },
+    {
+      "epoch": 2.5710255893612732,
+      "grad_norm": 11.9375,
+      "learning_rate": 2.8611726778158373e-06,
+      "loss": 0.8162,
+      "mean_token_accuracy": 0.7960000455379486,
+      "num_tokens": 14132215.0,
+      "step": 12760
+    },
+    {
+      "epoch": 2.5730404996977634,
+      "grad_norm": 11.875,
+      "learning_rate": 2.847739942239237e-06,
+      "loss": 0.794,
+      "mean_token_accuracy": 0.8040944337844849,
+      "num_tokens": 14142028.0,
+      "step": 12770
+    },
+    {
+      "epoch": 2.5750554100342535,
+      "grad_norm": 9.6875,
+      "learning_rate": 2.834307206662637e-06,
+      "loss": 0.9474,
+      "mean_token_accuracy": 0.7681374192237854,
+      "num_tokens": 14153369.0,
+      "step": 12780
+    },
+    {
+      "epoch": 2.5770703203707432,
+      "grad_norm": 11.5625,
+      "learning_rate": 2.820874471086037e-06,
+      "loss": 0.8301,
+      "mean_token_accuracy": 0.7957022428512573,
+      "num_tokens": 14165045.0,
+      "step": 12790
+    },
+    {
+      "epoch": 2.5790852307072334,
+      "grad_norm": 13.9375,
+      "learning_rate": 2.807441735509437e-06,
+      "loss": 0.7298,
+      "mean_token_accuracy": 0.812953507900238,
+      "num_tokens": 14175171.0,
+      "step": 12800
+    },
+    {
+      "epoch": 2.5811001410437235,
+      "grad_norm": 10.0625,
+      "learning_rate": 2.794008999932837e-06,
+      "loss": 0.8874,
+      "mean_token_accuracy": 0.7833206593990326,
+      "num_tokens": 14186567.0,
+      "step": 12810
+    },
+    {
+      "epoch": 2.5831150513802137,
+      "grad_norm": 14.4375,
+      "learning_rate": 2.780576264356236e-06,
+      "loss": 0.7494,
+      "mean_token_accuracy": 0.8073345363140106,
+      "num_tokens": 14196603.0,
+      "step": 12820
+    },
+    {
+      "epoch": 2.585129961716704,
+      "grad_norm": 12.6875,
+      "learning_rate": 2.7671435287796363e-06,
+      "loss": 0.7582,
+      "mean_token_accuracy": 0.8067417740821838,
+      "num_tokens": 14207335.0,
+      "step": 12830
+    },
+    {
+      "epoch": 2.5871448720531935,
+      "grad_norm": 12.375,
+      "learning_rate": 2.753710793203036e-06,
+      "loss": 0.7523,
+      "mean_token_accuracy": 0.8145627319812775,
+      "num_tokens": 14218474.0,
+      "step": 12840
+    },
+    {
+      "epoch": 2.5891597823896837,
+      "grad_norm": 10.375,
+      "learning_rate": 2.740278057626436e-06,
+      "loss": 0.8045,
+      "mean_token_accuracy": 0.8010720014572144,
+      "num_tokens": 14229469.0,
+      "step": 12850
+    },
+    {
+      "epoch": 2.591174692726174,
+      "grad_norm": 12.625,
+      "learning_rate": 2.7268453220498358e-06,
+      "loss": 0.8266,
+      "mean_token_accuracy": 0.7978542387485504,
+      "num_tokens": 14240757.0,
+      "step": 12860
+    },
+    {
+      "epoch": 2.5931896030626636,
+      "grad_norm": 11.3125,
+      "learning_rate": 2.713412586473235e-06,
+      "loss": 0.8082,
+      "mean_token_accuracy": 0.7974193513393402,
+      "num_tokens": 14251148.0,
+      "step": 12870
+    },
+    {
+      "epoch": 2.5952045133991537,
+      "grad_norm": 11.3125,
+      "learning_rate": 2.699979850896635e-06,
+      "loss": 0.8217,
+      "mean_token_accuracy": 0.7950396835803986,
+      "num_tokens": 14263499.0,
+      "step": 12880
+    },
+    {
+      "epoch": 2.597219423735644,
+      "grad_norm": 12.4375,
+      "learning_rate": 2.6865471153200352e-06,
+      "loss": 0.7426,
+      "mean_token_accuracy": 0.8107175350189209,
+      "num_tokens": 14273600.0,
+      "step": 12890
+    },
+    {
+      "epoch": 2.5992343340721336,
+      "grad_norm": 12.1875,
+      "learning_rate": 2.673114379743435e-06,
+      "loss": 0.7092,
+      "mean_token_accuracy": 0.8177358627319335,
+      "num_tokens": 14284136.0,
+      "step": 12900
+    },
+    {
+      "epoch": 2.6012492444086237,
+      "grad_norm": 12.625,
+      "learning_rate": 2.659681644166835e-06,
+      "loss": 0.7701,
+      "mean_token_accuracy": 0.8068889915943146,
+      "num_tokens": 14294590.0,
+      "step": 12910
+    },
+    {
+      "epoch": 2.603264154745114,
+      "grad_norm": 11.375,
+      "learning_rate": 2.6462489085902347e-06,
+      "loss": 0.8433,
+      "mean_token_accuracy": 0.7921142339706421,
+      "num_tokens": 14305206.0,
+      "step": 12920
+    },
+    {
+      "epoch": 2.605279065081604,
+      "grad_norm": 9.75,
+      "learning_rate": 2.6328161730136344e-06,
+      "loss": 0.7931,
+      "mean_token_accuracy": 0.7983499586582183,
+      "num_tokens": 14315998.0,
+      "step": 12930
+    },
+    {
+      "epoch": 2.607293975418094,
+      "grad_norm": 14.4375,
+      "learning_rate": 2.619383437437034e-06,
+      "loss": 0.8605,
+      "mean_token_accuracy": 0.7901061117649079,
+      "num_tokens": 14326408.0,
+      "step": 12940
+    },
+    {
+      "epoch": 2.609308885754584,
+      "grad_norm": 8.6875,
+      "learning_rate": 2.605950701860434e-06,
+      "loss": 0.8868,
+      "mean_token_accuracy": 0.7825572431087494,
+      "num_tokens": 14337843.0,
+      "step": 12950
+    },
+    {
+      "epoch": 2.611323796091074,
+      "grad_norm": 11.0,
+      "learning_rate": 2.592517966283834e-06,
+      "loss": 0.7792,
+      "mean_token_accuracy": 0.7979351162910462,
+      "num_tokens": 14348649.0,
+      "step": 12960
+    },
+    {
+      "epoch": 2.613338706427564,
+      "grad_norm": 10.5,
+      "learning_rate": 2.579085230707234e-06,
+      "loss": 0.832,
+      "mean_token_accuracy": 0.7962626338005065,
+      "num_tokens": 14360145.0,
+      "step": 12970
+    },
+    {
+      "epoch": 2.615353616764054,
+      "grad_norm": 9.5,
+      "learning_rate": 2.5656524951306332e-06,
+      "loss": 0.8188,
+      "mean_token_accuracy": 0.7971078157424927,
+      "num_tokens": 14371903.0,
+      "step": 12980
+    },
+    {
+      "epoch": 2.617368527100544,
+      "grad_norm": 10.1875,
+      "learning_rate": 2.5522197595540333e-06,
+      "loss": 0.837,
+      "mean_token_accuracy": 0.7964988470077514,
+      "num_tokens": 14381687.0,
+      "step": 12990
+    },
+    {
+      "epoch": 2.619383437437034,
+      "grad_norm": 12.8125,
+      "learning_rate": 2.538787023977433e-06,
+      "loss": 0.9483,
+      "mean_token_accuracy": 0.7685989677906037,
+      "num_tokens": 14393395.0,
+      "step": 13000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.7403253820080128e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null