Training in progress, step 11500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:653a7bb4c0270ae2dd03d344965c51599b26df08817400d9611fe8bd0497aa7e
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:c78f458d11eae9e4154eb728cce06719d74e09c423918147e47d15f28937e92f
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49ab3488ed04a08a6119dd62c223dc3bd691b1d8c04575c9d55a422631b4cec4
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:036c2c1f7cdbea44cbf7137c6b1c3cf16b5447a1c3d590934dbf649691bc4729
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a92df46ff7ec03358cd9241260e8a718523df24a66e616bac3dad8000c153e0c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f9a4928c3c29f8d8ffe6d8c80c93af4c98237f714bf32b55ba4f3d5d67a23da
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.216401370139029,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9908,6 +9908,456 @@
       "mean_token_accuracy": 0.7765659749507904,
       "num_tokens": 12178091.0,
       "step": 11000
     }
   ],
   "logging_steps": 10,
@@ -9927,7 +10377,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4726200960407552e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.3171468869635303,
   "eval_steps": 500,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7765659749507904,
       "num_tokens": 12178091.0,
       "step": 11000
+    },
+    {
+      "epoch": 2.2184162804755188,
+      "grad_norm": 11.5625,
+      "learning_rate": 5.211901403720868e-06,
+      "loss": 0.8083,
+      "mean_token_accuracy": 0.7975468277931214,
+      "num_tokens": 12188970.0,
+      "step": 11010
+    },
+    {
+      "epoch": 2.220431190812009,
+      "grad_norm": 10.0,
+      "learning_rate": 5.198468668144267e-06,
+      "loss": 0.7398,
+      "mean_token_accuracy": 0.809011173248291,
+      "num_tokens": 12201125.0,
+      "step": 11020
+    },
+    {
+      "epoch": 2.222446101148499,
+      "grad_norm": 8.8125,
+      "learning_rate": 5.185035932567668e-06,
+      "loss": 0.8308,
+      "mean_token_accuracy": 0.7948459804058075,
+      "num_tokens": 12214789.0,
+      "step": 11030
+    },
+    {
+      "epoch": 2.2244610114849888,
+      "grad_norm": 11.625,
+      "learning_rate": 5.171603196991067e-06,
+      "loss": 0.7774,
+      "mean_token_accuracy": 0.8057547986507416,
+      "num_tokens": 12224991.0,
+      "step": 11040
+    },
+    {
+      "epoch": 2.226475921821479,
+      "grad_norm": 9.0,
+      "learning_rate": 5.158170461414468e-06,
+      "loss": 0.8747,
+      "mean_token_accuracy": 0.7873781383037567,
+      "num_tokens": 12235996.0,
+      "step": 11050
+    },
+    {
+      "epoch": 2.228490832157969,
+      "grad_norm": 13.625,
+      "learning_rate": 5.144737725837868e-06,
+      "loss": 0.8058,
+      "mean_token_accuracy": 0.800428307056427,
+      "num_tokens": 12247704.0,
+      "step": 11060
+    },
+    {
+      "epoch": 2.2305057424944588,
+      "grad_norm": 10.375,
+      "learning_rate": 5.1313049902612665e-06,
+      "loss": 0.8622,
+      "mean_token_accuracy": 0.7865659236907959,
+      "num_tokens": 12259569.0,
+      "step": 11070
+    },
+    {
+      "epoch": 2.232520652830949,
+      "grad_norm": 14.0,
+      "learning_rate": 5.117872254684667e-06,
+      "loss": 0.7844,
+      "mean_token_accuracy": 0.8082635223865509,
+      "num_tokens": 12269981.0,
+      "step": 11080
+    },
+    {
+      "epoch": 2.234535563167439,
+      "grad_norm": 12.1875,
+      "learning_rate": 5.104439519108067e-06,
+      "loss": 0.8389,
+      "mean_token_accuracy": 0.7902609288692475,
+      "num_tokens": 12281790.0,
+      "step": 11090
+    },
+    {
+      "epoch": 2.236550473503929,
+      "grad_norm": 13.0625,
+      "learning_rate": 5.091006783531467e-06,
+      "loss": 0.7349,
+      "mean_token_accuracy": 0.8109230279922486,
+      "num_tokens": 12292218.0,
+      "step": 11100
+    },
+    {
+      "epoch": 2.238565383840419,
+      "grad_norm": 11.8125,
+      "learning_rate": 5.077574047954866e-06,
+      "loss": 0.8892,
+      "mean_token_accuracy": 0.7831051290035248,
+      "num_tokens": 12303549.0,
+      "step": 11110
+    },
+    {
+      "epoch": 2.240580294176909,
+      "grad_norm": 16.125,
+      "learning_rate": 5.0641413123782666e-06,
+      "loss": 0.8981,
+      "mean_token_accuracy": 0.779134213924408,
+      "num_tokens": 12314039.0,
+      "step": 11120
+    },
+    {
+      "epoch": 2.242595204513399,
+      "grad_norm": 15.1875,
+      "learning_rate": 5.050708576801666e-06,
+      "loss": 0.8596,
+      "mean_token_accuracy": 0.795196259021759,
+      "num_tokens": 12323912.0,
+      "step": 11130
+    },
+    {
+      "epoch": 2.2446101148498894,
+      "grad_norm": 12.75,
+      "learning_rate": 5.037275841225066e-06,
+      "loss": 0.8716,
+      "mean_token_accuracy": 0.7830780863761901,
+      "num_tokens": 12335963.0,
+      "step": 11140
+    },
+    {
+      "epoch": 2.246625025186379,
+      "grad_norm": 9.6875,
+      "learning_rate": 5.023843105648466e-06,
+      "loss": 0.7997,
+      "mean_token_accuracy": 0.7968696773052215,
+      "num_tokens": 12347034.0,
+      "step": 11150
+    },
+    {
+      "epoch": 2.2486399355228692,
+      "grad_norm": 12.6875,
+      "learning_rate": 5.010410370071865e-06,
+      "loss": 0.8812,
+      "mean_token_accuracy": 0.7810611367225647,
+      "num_tokens": 12359524.0,
+      "step": 11160
+    },
+    {
+      "epoch": 2.2506548458593594,
+      "grad_norm": 11.3125,
+      "learning_rate": 4.996977634495265e-06,
+      "loss": 0.8117,
+      "mean_token_accuracy": 0.8003436684608459,
+      "num_tokens": 12369580.0,
+      "step": 11170
+    },
+    {
+      "epoch": 2.252669756195849,
+      "grad_norm": 13.3125,
+      "learning_rate": 4.9835448989186655e-06,
+      "loss": 0.8,
+      "mean_token_accuracy": 0.7997420608997345,
+      "num_tokens": 12380449.0,
+      "step": 11180
+    },
+    {
+      "epoch": 2.2546846665323392,
+      "grad_norm": 11.5625,
+      "learning_rate": 4.970112163342065e-06,
+      "loss": 0.7495,
+      "mean_token_accuracy": 0.812464052438736,
+      "num_tokens": 12391160.0,
+      "step": 11190
+    },
+    {
+      "epoch": 2.2566995768688294,
+      "grad_norm": 10.75,
+      "learning_rate": 4.956679427765465e-06,
+      "loss": 0.8713,
+      "mean_token_accuracy": 0.7861813962459564,
+      "num_tokens": 12403496.0,
+      "step": 11200
+    },
+    {
+      "epoch": 2.2587144872053195,
+      "grad_norm": 12.4375,
+      "learning_rate": 4.9432466921888646e-06,
+      "loss": 0.7124,
+      "mean_token_accuracy": 0.8236021995544434,
+      "num_tokens": 12414075.0,
+      "step": 11210
+    },
+    {
+      "epoch": 2.2607293975418092,
+      "grad_norm": 12.1875,
+      "learning_rate": 4.929813956612264e-06,
+      "loss": 0.82,
+      "mean_token_accuracy": 0.7931098341941833,
+      "num_tokens": 12424499.0,
+      "step": 11220
+    },
+    {
+      "epoch": 2.2627443078782994,
+      "grad_norm": 12.25,
+      "learning_rate": 4.916381221035664e-06,
+      "loss": 0.7704,
+      "mean_token_accuracy": 0.8014878571033478,
+      "num_tokens": 12435957.0,
+      "step": 11230
+    },
+    {
+      "epoch": 2.2647592182147895,
+      "grad_norm": 12.3125,
+      "learning_rate": 4.9029484854590644e-06,
+      "loss": 0.8023,
+      "mean_token_accuracy": 0.798302048444748,
+      "num_tokens": 12447051.0,
+      "step": 11240
+    },
+    {
+      "epoch": 2.2667741285512797,
+      "grad_norm": 11.0,
+      "learning_rate": 4.889515749882464e-06,
+      "loss": 0.8716,
+      "mean_token_accuracy": 0.7819954872131347,
+      "num_tokens": 12458100.0,
+      "step": 11250
+    },
+    {
+      "epoch": 2.2687890388877694,
+      "grad_norm": 11.0,
+      "learning_rate": 4.876083014305864e-06,
+      "loss": 0.767,
+      "mean_token_accuracy": 0.8059248864650727,
+      "num_tokens": 12469697.0,
+      "step": 11260
+    },
+    {
+      "epoch": 2.2708039492242595,
+      "grad_norm": 10.625,
+      "learning_rate": 4.8626502787292635e-06,
+      "loss": 0.7644,
+      "mean_token_accuracy": 0.8037352323532104,
+      "num_tokens": 12482462.0,
+      "step": 11270
+    },
+    {
+      "epoch": 2.2728188595607497,
+      "grad_norm": 13.9375,
+      "learning_rate": 4.849217543152663e-06,
+      "loss": 0.8345,
+      "mean_token_accuracy": 0.7897806167602539,
+      "num_tokens": 12494660.0,
+      "step": 11280
+    },
+    {
+      "epoch": 2.2748337698972394,
+      "grad_norm": 10.875,
+      "learning_rate": 4.835784807576064e-06,
+      "loss": 0.7907,
+      "mean_token_accuracy": 0.8008930742740631,
+      "num_tokens": 12505534.0,
+      "step": 11290
+    },
+    {
+      "epoch": 2.2768486802337295,
+      "grad_norm": 12.3125,
+      "learning_rate": 4.822352071999463e-06,
+      "loss": 0.8689,
+      "mean_token_accuracy": 0.789547073841095,
+      "num_tokens": 12516343.0,
+      "step": 11300
+    },
+    {
+      "epoch": 2.2788635905702197,
+      "grad_norm": 12.5625,
+      "learning_rate": 4.808919336422863e-06,
+      "loss": 0.8781,
+      "mean_token_accuracy": 0.7866406381130219,
+      "num_tokens": 12527325.0,
+      "step": 11310
+    },
+    {
+      "epoch": 2.2808785009067094,
+      "grad_norm": 12.5,
+      "learning_rate": 4.795486600846263e-06,
+      "loss": 0.7903,
+      "mean_token_accuracy": 0.8062444806098938,
+      "num_tokens": 12538802.0,
+      "step": 11320
+    },
+    {
+      "epoch": 2.2828934112431996,
+      "grad_norm": 13.3125,
+      "learning_rate": 4.7820538652696624e-06,
+      "loss": 0.7503,
+      "mean_token_accuracy": 0.8119116723537445,
+      "num_tokens": 12549546.0,
+      "step": 11330
+    },
+    {
+      "epoch": 2.2849083215796897,
+      "grad_norm": 14.125,
+      "learning_rate": 4.768621129693062e-06,
+      "loss": 0.8099,
+      "mean_token_accuracy": 0.8033313393592835,
+      "num_tokens": 12560090.0,
+      "step": 11340
+    },
+    {
+      "epoch": 2.28692323191618,
+      "grad_norm": 13.0625,
+      "learning_rate": 4.755188394116463e-06,
+      "loss": 0.9013,
+      "mean_token_accuracy": 0.7799701750278473,
+      "num_tokens": 12571882.0,
+      "step": 11350
+    },
+    {
+      "epoch": 2.28893814225267,
+      "grad_norm": 11.5,
+      "learning_rate": 4.741755658539862e-06,
+      "loss": 0.8159,
+      "mean_token_accuracy": 0.7954154729843139,
+      "num_tokens": 12583570.0,
+      "step": 11360
+    },
+    {
+      "epoch": 2.2909530525891597,
+      "grad_norm": 13.8125,
+      "learning_rate": 4.728322922963262e-06,
+      "loss": 0.7928,
+      "mean_token_accuracy": 0.800947493314743,
+      "num_tokens": 12594636.0,
+      "step": 11370
+    },
+    {
+      "epoch": 2.29296796292565,
+      "grad_norm": 13.4375,
+      "learning_rate": 4.714890187386662e-06,
+      "loss": 0.7321,
+      "mean_token_accuracy": 0.813873153924942,
+      "num_tokens": 12605481.0,
+      "step": 11380
+    },
+    {
+      "epoch": 2.29498287326214,
+      "grad_norm": 8.125,
+      "learning_rate": 4.701457451810061e-06,
+      "loss": 0.7956,
+      "mean_token_accuracy": 0.8005879402160645,
+      "num_tokens": 12616477.0,
+      "step": 11390
+    },
+    {
+      "epoch": 2.2969977835986297,
+      "grad_norm": 12.5,
+      "learning_rate": 4.688024716233461e-06,
+      "loss": 0.8169,
+      "mean_token_accuracy": 0.7956750094890594,
+      "num_tokens": 12627070.0,
+      "step": 11400
+    },
+    {
+      "epoch": 2.29901269393512,
+      "grad_norm": 12.9375,
+      "learning_rate": 4.674591980656862e-06,
+      "loss": 0.8507,
+      "mean_token_accuracy": 0.7936709105968476,
+      "num_tokens": 12639024.0,
+      "step": 11410
+    },
+    {
+      "epoch": 2.30102760427161,
+      "grad_norm": 11.0625,
+      "learning_rate": 4.661159245080261e-06,
+      "loss": 0.7626,
+      "mean_token_accuracy": 0.8066515803337098,
+      "num_tokens": 12649628.0,
+      "step": 11420
+    },
+    {
+      "epoch": 2.3030425146080997,
+      "grad_norm": 13.5625,
+      "learning_rate": 4.647726509503661e-06,
+      "loss": 0.829,
+      "mean_token_accuracy": 0.7963403999805451,
+      "num_tokens": 12660338.0,
+      "step": 11430
+    },
+    {
+      "epoch": 2.30505742494459,
+      "grad_norm": 9.9375,
+      "learning_rate": 4.634293773927061e-06,
+      "loss": 0.8586,
+      "mean_token_accuracy": 0.7866991460323334,
+      "num_tokens": 12672143.0,
+      "step": 11440
+    },
+    {
+      "epoch": 2.30707233528108,
+      "grad_norm": 9.9375,
+      "learning_rate": 4.62086103835046e-06,
+      "loss": 0.7363,
+      "mean_token_accuracy": 0.8156927347183227,
+      "num_tokens": 12681970.0,
+      "step": 11450
+    },
+    {
+      "epoch": 2.30908724561757,
+      "grad_norm": 11.5,
+      "learning_rate": 4.60742830277386e-06,
+      "loss": 0.7685,
+      "mean_token_accuracy": 0.8116656005382538,
+      "num_tokens": 12692199.0,
+      "step": 11460
+    },
+    {
+      "epoch": 2.31110215595406,
+      "grad_norm": 11.3125,
+      "learning_rate": 4.5939955671972605e-06,
+      "loss": 0.7485,
+      "mean_token_accuracy": 0.8076441287994385,
+      "num_tokens": 12702476.0,
+      "step": 11470
+    },
+    {
+      "epoch": 2.31311706629055,
+      "grad_norm": 12.5625,
+      "learning_rate": 4.58056283162066e-06,
+      "loss": 0.7926,
+      "mean_token_accuracy": 0.8072655260562897,
+      "num_tokens": 12712782.0,
+      "step": 11480
+    },
+    {
+      "epoch": 2.31513197662704,
+      "grad_norm": 15.9375,
+      "learning_rate": 4.56713009604406e-06,
+      "loss": 0.8342,
+      "mean_token_accuracy": 0.7965205907821655,
+      "num_tokens": 12723427.0,
+      "step": 11490
+    },
+    {
+      "epoch": 2.3171468869635303,
+      "grad_norm": 11.5625,
+      "learning_rate": 4.5536973604674596e-06,
+      "loss": 0.7846,
+      "mean_token_accuracy": 0.8073502600193023,
+      "num_tokens": 12733862.0,
+      "step": 11500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5401013006618624e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null