Training in progress, step 13500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4e31724b0cf74835ae0b9aaeff5c05e7e852cb9e158de0e35d8a673c930d429
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5a9bd42305a39ea10e14897e10ee483294601df6c8b6bb20eb9acc7de3a5b74
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98033794262f4774a192ebe69b4dfddba3edee43a3cce40cedfd5c1785391e67
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fd3300583dc98302b4bc1805b201303b140f489f169bc005adefa8fde0fce38
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3526295826c2a8db767925a5ee2fce15661c2f21ba999bd2bc96732400f36f2d
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ce5bfd25fb939a324385a4adfd5b1d29fedc6793352a13b276f53eccc661d15
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.619383437437034,
   "eval_steps": 500,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11708,6 +11708,456 @@
       "mean_token_accuracy": 0.7685989677906037,
       "num_tokens": 14393395.0,
       "step": 13000
     }
   ],
   "logging_steps": 10,
@@ -11727,7 +12177,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7403253820080128e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.7201289542615354,
   "eval_steps": 500,
+  "global_step": 13500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7685989677906037,
       "num_tokens": 14393395.0,
       "step": 13000
+    },
+    {
+      "epoch": 2.621398347773524,
+      "grad_norm": 10.5,
+      "learning_rate": 2.525354288400833e-06,
+      "loss": 0.7726,
+      "mean_token_accuracy": 0.8112367451190948,
+      "num_tokens": 14405357.0,
+      "step": 13010
+    },
+    {
+      "epoch": 2.623413258110014,
+      "grad_norm": 10.5,
+      "learning_rate": 2.511921552824233e-06,
+      "loss": 0.8883,
+      "mean_token_accuracy": 0.7785914719104767,
+      "num_tokens": 14416733.0,
+      "step": 13020
+    },
+    {
+      "epoch": 2.625428168446504,
+      "grad_norm": 11.0625,
+      "learning_rate": 2.4984888172476325e-06,
+      "loss": 0.8215,
+      "mean_token_accuracy": 0.7950002431869507,
+      "num_tokens": 14428394.0,
+      "step": 13030
+    },
+    {
+      "epoch": 2.627443078782994,
+      "grad_norm": 11.75,
+      "learning_rate": 2.4850560816710326e-06,
+      "loss": 0.7974,
+      "mean_token_accuracy": 0.8010411977767944,
+      "num_tokens": 14439149.0,
+      "step": 13040
+    },
+    {
+      "epoch": 2.629457989119484,
+      "grad_norm": 11.75,
+      "learning_rate": 2.4716233460944323e-06,
+      "loss": 0.7182,
+      "mean_token_accuracy": 0.8175202190876008,
+      "num_tokens": 14449655.0,
+      "step": 13050
+    },
+    {
+      "epoch": 2.631472899455974,
+      "grad_norm": 10.625,
+      "learning_rate": 2.458190610517832e-06,
+      "loss": 0.7572,
+      "mean_token_accuracy": 0.8045202255249023,
+      "num_tokens": 14459975.0,
+      "step": 13060
+    },
+    {
+      "epoch": 2.6334878097924643,
+      "grad_norm": 13.0,
+      "learning_rate": 2.444757874941232e-06,
+      "loss": 0.7044,
+      "mean_token_accuracy": 0.81912060379982,
+      "num_tokens": 14470362.0,
+      "step": 13070
+    },
+    {
+      "epoch": 2.6355027201289545,
+      "grad_norm": 10.25,
+      "learning_rate": 2.4313251393646317e-06,
+      "loss": 0.8873,
+      "mean_token_accuracy": 0.7796810269355774,
+      "num_tokens": 14482051.0,
+      "step": 13080
+    },
+    {
+      "epoch": 2.637517630465444,
+      "grad_norm": 12.4375,
+      "learning_rate": 2.417892403788032e-06,
+      "loss": 0.8495,
+      "mean_token_accuracy": 0.7927891492843628,
+      "num_tokens": 14493266.0,
+      "step": 13090
+    },
+    {
+      "epoch": 2.6395325408019343,
+      "grad_norm": 9.125,
+      "learning_rate": 2.4044596682114315e-06,
+      "loss": 0.7857,
+      "mean_token_accuracy": 0.7974917531013489,
+      "num_tokens": 14505920.0,
+      "step": 13100
+    },
+    {
+      "epoch": 2.6415474511384245,
+      "grad_norm": 11.0,
+      "learning_rate": 2.3910269326348312e-06,
+      "loss": 0.7904,
+      "mean_token_accuracy": 0.7985158562660217,
+      "num_tokens": 14517589.0,
+      "step": 13110
+    },
+    {
+      "epoch": 2.643562361474914,
+      "grad_norm": 12.4375,
+      "learning_rate": 2.3775941970582313e-06,
+      "loss": 0.7822,
+      "mean_token_accuracy": 0.7983147978782654,
+      "num_tokens": 14528137.0,
+      "step": 13120
+    },
+    {
+      "epoch": 2.6455772718114043,
+      "grad_norm": 11.5,
+      "learning_rate": 2.364161461481631e-06,
+      "loss": 0.7523,
+      "mean_token_accuracy": 0.8122865617275238,
+      "num_tokens": 14539021.0,
+      "step": 13130
+    },
+    {
+      "epoch": 2.6475921821478945,
+      "grad_norm": 11.875,
+      "learning_rate": 2.3507287259050307e-06,
+      "loss": 0.8472,
+      "mean_token_accuracy": 0.7906874716281891,
+      "num_tokens": 14551105.0,
+      "step": 13140
+    },
+    {
+      "epoch": 2.649607092484384,
+      "grad_norm": 11.875,
+      "learning_rate": 2.337295990328431e-06,
+      "loss": 0.8266,
+      "mean_token_accuracy": 0.7899503231048584,
+      "num_tokens": 14561956.0,
+      "step": 13150
+    },
+    {
+      "epoch": 2.6516220028208743,
+      "grad_norm": 13.75,
+      "learning_rate": 2.3238632547518305e-06,
+      "loss": 0.6823,
+      "mean_token_accuracy": 0.8246838212013244,
+      "num_tokens": 14572323.0,
+      "step": 13160
+    },
+    {
+      "epoch": 2.6536369131573645,
+      "grad_norm": 12.75,
+      "learning_rate": 2.31043051917523e-06,
+      "loss": 0.8422,
+      "mean_token_accuracy": 0.7883449614048004,
+      "num_tokens": 14583428.0,
+      "step": 13170
+    },
+    {
+      "epoch": 2.6556518234938546,
+      "grad_norm": 12.125,
+      "learning_rate": 2.2969977835986303e-06,
+      "loss": 0.7448,
+      "mean_token_accuracy": 0.8116320252418519,
+      "num_tokens": 14593189.0,
+      "step": 13180
+    },
+    {
+      "epoch": 2.657666733830345,
+      "grad_norm": 12.875,
+      "learning_rate": 2.28356504802203e-06,
+      "loss": 0.7905,
+      "mean_token_accuracy": 0.8049618184566498,
+      "num_tokens": 14604815.0,
+      "step": 13190
+    },
+    {
+      "epoch": 2.6596816441668345,
+      "grad_norm": 10.625,
+      "learning_rate": 2.2701323124454296e-06,
+      "loss": 0.8403,
+      "mean_token_accuracy": 0.7927229404449463,
+      "num_tokens": 14616104.0,
+      "step": 13200
+    },
+    {
+      "epoch": 2.6616965545033247,
+      "grad_norm": 15.75,
+      "learning_rate": 2.2566995768688297e-06,
+      "loss": 0.7988,
+      "mean_token_accuracy": 0.8040601491928101,
+      "num_tokens": 14626600.0,
+      "step": 13210
+    },
+    {
+      "epoch": 2.663711464839815,
+      "grad_norm": 11.6875,
+      "learning_rate": 2.2432668412922294e-06,
+      "loss": 0.7137,
+      "mean_token_accuracy": 0.8165888667106629,
+      "num_tokens": 14637101.0,
+      "step": 13220
+    },
+    {
+      "epoch": 2.6657263751763045,
+      "grad_norm": 12.5,
+      "learning_rate": 2.229834105715629e-06,
+      "loss": 0.7265,
+      "mean_token_accuracy": 0.8147784769535065,
+      "num_tokens": 14647761.0,
+      "step": 13230
+    },
+    {
+      "epoch": 2.6677412855127947,
+      "grad_norm": 10.4375,
+      "learning_rate": 2.216401370139029e-06,
+      "loss": 0.7454,
+      "mean_token_accuracy": 0.8097371995449066,
+      "num_tokens": 14658218.0,
+      "step": 13240
+    },
+    {
+      "epoch": 2.669756195849285,
+      "grad_norm": 10.375,
+      "learning_rate": 2.202968634562429e-06,
+      "loss": 0.7277,
+      "mean_token_accuracy": 0.8119274914264679,
+      "num_tokens": 14669077.0,
+      "step": 13250
+    },
+    {
+      "epoch": 2.6717711061857745,
+      "grad_norm": 11.0625,
+      "learning_rate": 2.1895358989858286e-06,
+      "loss": 0.8152,
+      "mean_token_accuracy": 0.7921769440174102,
+      "num_tokens": 14680555.0,
+      "step": 13260
+    },
+    {
+      "epoch": 2.6737860165222647,
+      "grad_norm": 15.3125,
+      "learning_rate": 2.1761031634092282e-06,
+      "loss": 0.776,
+      "mean_token_accuracy": 0.8004971742630005,
+      "num_tokens": 14691228.0,
+      "step": 13270
+    },
+    {
+      "epoch": 2.675800926858755,
+      "grad_norm": 10.5625,
+      "learning_rate": 2.1626704278326283e-06,
+      "loss": 0.7987,
+      "mean_token_accuracy": 0.7978484213352204,
+      "num_tokens": 14702555.0,
+      "step": 13280
+    },
+    {
+      "epoch": 2.677815837195245,
+      "grad_norm": 10.6875,
+      "learning_rate": 2.149237692256028e-06,
+      "loss": 0.9027,
+      "mean_token_accuracy": 0.7809522151947021,
+      "num_tokens": 14713437.0,
+      "step": 13290
+    },
+    {
+      "epoch": 2.679830747531735,
+      "grad_norm": 16.125,
+      "learning_rate": 2.1358049566794277e-06,
+      "loss": 0.7883,
+      "mean_token_accuracy": 0.805361670255661,
+      "num_tokens": 14725318.0,
+      "step": 13300
+    },
+    {
+      "epoch": 2.681845657868225,
+      "grad_norm": 12.0625,
+      "learning_rate": 2.122372221102828e-06,
+      "loss": 0.8495,
+      "mean_token_accuracy": 0.7887078404426575,
+      "num_tokens": 14736729.0,
+      "step": 13310
+    },
+    {
+      "epoch": 2.683860568204715,
+      "grad_norm": 10.3125,
+      "learning_rate": 2.1089394855262275e-06,
+      "loss": 0.7301,
+      "mean_token_accuracy": 0.8114965260028839,
+      "num_tokens": 14747781.0,
+      "step": 13320
+    },
+    {
+      "epoch": 2.685875478541205,
+      "grad_norm": 9.8125,
+      "learning_rate": 2.095506749949627e-06,
+      "loss": 0.7964,
+      "mean_token_accuracy": 0.7989574909210205,
+      "num_tokens": 14758609.0,
+      "step": 13330
+    },
+    {
+      "epoch": 2.687890388877695,
+      "grad_norm": 11.1875,
+      "learning_rate": 2.0820740143730273e-06,
+      "loss": 0.9205,
+      "mean_token_accuracy": 0.779743617773056,
+      "num_tokens": 14770464.0,
+      "step": 13340
+    },
+    {
+      "epoch": 2.689905299214185,
+      "grad_norm": 12.0625,
+      "learning_rate": 2.068641278796427e-06,
+      "loss": 0.8432,
+      "mean_token_accuracy": 0.788221025466919,
+      "num_tokens": 14783187.0,
+      "step": 13350
+    },
+    {
+      "epoch": 2.691920209550675,
+      "grad_norm": 11.25,
+      "learning_rate": 2.0552085432198266e-06,
+      "loss": 0.7166,
+      "mean_token_accuracy": 0.8211326837539673,
+      "num_tokens": 14794959.0,
+      "step": 13360
+    },
+    {
+      "epoch": 2.693935119887165,
+      "grad_norm": 12.5625,
+      "learning_rate": 2.0417758076432268e-06,
+      "loss": 0.7359,
+      "mean_token_accuracy": 0.8126482903957367,
+      "num_tokens": 14805848.0,
+      "step": 13370
+    },
+    {
+      "epoch": 2.695950030223655,
+      "grad_norm": 10.5625,
+      "learning_rate": 2.028343072066627e-06,
+      "loss": 0.7513,
+      "mean_token_accuracy": 0.8137486338615417,
+      "num_tokens": 14817111.0,
+      "step": 13380
+    },
+    {
+      "epoch": 2.697964940560145,
+      "grad_norm": 13.8125,
+      "learning_rate": 2.014910336490026e-06,
+      "loss": 0.827,
+      "mean_token_accuracy": 0.7981631934642792,
+      "num_tokens": 14827755.0,
+      "step": 13390
+    },
+    {
+      "epoch": 2.699979850896635,
+      "grad_norm": 10.5,
+      "learning_rate": 2.0014776009134262e-06,
+      "loss": 0.7427,
+      "mean_token_accuracy": 0.8144878685474396,
+      "num_tokens": 14840080.0,
+      "step": 13400
+    },
+    {
+      "epoch": 2.701994761233125,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.988044865336826e-06,
+      "loss": 0.8199,
+      "mean_token_accuracy": 0.7990254759788513,
+      "num_tokens": 14852571.0,
+      "step": 13410
+    },
+    {
+      "epoch": 2.704009671569615,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.974612129760226e-06,
+      "loss": 0.8714,
+      "mean_token_accuracy": 0.788819420337677,
+      "num_tokens": 14865165.0,
+      "step": 13420
+    },
+    {
+      "epoch": 2.7060245819061053,
+      "grad_norm": 10.75,
+      "learning_rate": 1.9611793941836257e-06,
+      "loss": 0.8413,
+      "mean_token_accuracy": 0.7880795717239379,
+      "num_tokens": 14875987.0,
+      "step": 13430
+    },
+    {
+      "epoch": 2.7080394922425954,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.9477466586070254e-06,
+      "loss": 0.8133,
+      "mean_token_accuracy": 0.7958886742591857,
+      "num_tokens": 14887222.0,
+      "step": 13440
+    },
+    {
+      "epoch": 2.710054402579085,
+      "grad_norm": 11.625,
+      "learning_rate": 1.9343139230304255e-06,
+      "loss": 0.8375,
+      "mean_token_accuracy": 0.7916811347007752,
+      "num_tokens": 14897992.0,
+      "step": 13450
+    },
+    {
+      "epoch": 2.7120693129155753,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.920881187453825e-06,
+      "loss": 0.7921,
+      "mean_token_accuracy": 0.8102820634841919,
+      "num_tokens": 14909769.0,
+      "step": 13460
+    },
+    {
+      "epoch": 2.7140842232520654,
+      "grad_norm": 14.4375,
+      "learning_rate": 1.907448451877225e-06,
+      "loss": 0.7959,
+      "mean_token_accuracy": 0.8004967868328094,
+      "num_tokens": 14920552.0,
+      "step": 13470
+    },
+    {
+      "epoch": 2.716099133588555,
+      "grad_norm": 14.5625,
+      "learning_rate": 1.8940157163006247e-06,
+      "loss": 0.8219,
+      "mean_token_accuracy": 0.796020919084549,
+      "num_tokens": 14932205.0,
+      "step": 13480
+    },
+    {
+      "epoch": 2.7181140439250453,
+      "grad_norm": 11.0,
+      "learning_rate": 1.8805829807240246e-06,
+      "loss": 0.7236,
+      "mean_token_accuracy": 0.8162269771099091,
+      "num_tokens": 14944469.0,
+      "step": 13490
+    },
+    {
+      "epoch": 2.7201289542615354,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.8671502451474243e-06,
+      "loss": 0.8344,
+      "mean_token_accuracy": 0.7941052973270416,
+      "num_tokens": 14956201.0,
+      "step": 13500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.807875931971379e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null