Training in progress, step 12500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3e424925fa2b2770536f70d1899af46260c1bbb5c290c98396f2248352c7add
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:18518c164df026440f068fac8233b3bff2d8d4502ff38a32a862597f23f6b7c0
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be8d0890e7228cd98f10766bc63bebe515a3fa05be0c7762618a01f87fa2799c
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:c73b91ebf8be54d28c1c49c244582f7f70def8a8258d400992d104200bbf23d2
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdff80ed8983588a862f2109bcc080c93759e076260079b20d08888071ee3452
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:113d12b5af2a861076397bdce257b8a1e5a1daabe8a5aaee5bfcbdb6024fca69
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.4178924037880316,
   "eval_steps": 500,
-  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10808,6 +10808,456 @@
       "mean_token_accuracy": 0.8190572082996368,
       "num_tokens": 13294166.0,
       "step": 12000
     }
   ],
   "logging_steps": 10,
@@ -10827,7 +11277,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6084473958017024e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.518637920612533,
   "eval_steps": 500,
+  "global_step": 12500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8190572082996368,
       "num_tokens": 13294166.0,
       "step": 12000
+    },
+    {
+      "epoch": 2.4199073141245213,
+      "grad_norm": 10.5625,
+      "learning_rate": 3.868627846060851e-06,
+      "loss": 0.7126,
+      "mean_token_accuracy": 0.8174474656581878,
+      "num_tokens": 13305628.0,
+      "step": 12010
+    },
+    {
+      "epoch": 2.4219222244610115,
+      "grad_norm": 12.75,
+      "learning_rate": 3.855195110484251e-06,
+      "loss": 0.6862,
+      "mean_token_accuracy": 0.8214840114116668,
+      "num_tokens": 13316153.0,
+      "step": 12020
+    },
+    {
+      "epoch": 2.4239371347975016,
+      "grad_norm": 10.125,
+      "learning_rate": 3.84176237490765e-06,
+      "loss": 0.8504,
+      "mean_token_accuracy": 0.7878824770450592,
+      "num_tokens": 13327124.0,
+      "step": 12030
+    },
+    {
+      "epoch": 2.4259520451339913,
+      "grad_norm": 14.0,
+      "learning_rate": 3.82832963933105e-06,
+      "loss": 0.7197,
+      "mean_token_accuracy": 0.8142663776874542,
+      "num_tokens": 13337746.0,
+      "step": 12040
+    },
+    {
+      "epoch": 2.4279669554704815,
+      "grad_norm": 13.125,
+      "learning_rate": 3.81489690375445e-06,
+      "loss": 0.7603,
+      "mean_token_accuracy": 0.8075387954711915,
+      "num_tokens": 13349108.0,
+      "step": 12050
+    },
+    {
+      "epoch": 2.4299818658069716,
+      "grad_norm": 12.125,
+      "learning_rate": 3.80146416817785e-06,
+      "loss": 0.7589,
+      "mean_token_accuracy": 0.8082424461841583,
+      "num_tokens": 13359297.0,
+      "step": 12060
+    },
+    {
+      "epoch": 2.4319967761434618,
+      "grad_norm": 11.5625,
+      "learning_rate": 3.7880314326012495e-06,
+      "loss": 0.8093,
+      "mean_token_accuracy": 0.8029668807983399,
+      "num_tokens": 13370587.0,
+      "step": 12070
+    },
+    {
+      "epoch": 2.4340116864799515,
+      "grad_norm": 12.0,
+      "learning_rate": 3.7745986970246496e-06,
+      "loss": 0.7561,
+      "mean_token_accuracy": 0.8101776361465454,
+      "num_tokens": 13381606.0,
+      "step": 12080
+    },
+    {
+      "epoch": 2.4360265968164416,
+      "grad_norm": 10.0625,
+      "learning_rate": 3.7611659614480493e-06,
+      "loss": 0.8599,
+      "mean_token_accuracy": 0.7864530384540558,
+      "num_tokens": 13394004.0,
+      "step": 12090
+    },
+    {
+      "epoch": 2.4380415071529318,
+      "grad_norm": 11.4375,
+      "learning_rate": 3.747733225871449e-06,
+      "loss": 0.87,
+      "mean_token_accuracy": 0.7880048811435699,
+      "num_tokens": 13405785.0,
+      "step": 12100
+    },
+    {
+      "epoch": 2.440056417489422,
+      "grad_norm": 11.375,
+      "learning_rate": 3.7343004902948486e-06,
+      "loss": 0.8041,
+      "mean_token_accuracy": 0.7979571759700775,
+      "num_tokens": 13418406.0,
+      "step": 12110
+    },
+    {
+      "epoch": 2.4420713278259116,
+      "grad_norm": 13.5,
+      "learning_rate": 3.7208677547182487e-06,
+      "loss": 0.7067,
+      "mean_token_accuracy": 0.8095525324344635,
+      "num_tokens": 13428380.0,
+      "step": 12120
+    },
+    {
+      "epoch": 2.444086238162402,
+      "grad_norm": 10.625,
+      "learning_rate": 3.7074350191416484e-06,
+      "loss": 0.8096,
+      "mean_token_accuracy": 0.79591383934021,
+      "num_tokens": 13439614.0,
+      "step": 12130
+    },
+    {
+      "epoch": 2.446101148498892,
+      "grad_norm": 10.75,
+      "learning_rate": 3.6940022835650485e-06,
+      "loss": 0.8097,
+      "mean_token_accuracy": 0.7982459485530853,
+      "num_tokens": 13450951.0,
+      "step": 12140
+    },
+    {
+      "epoch": 2.4481160588353816,
+      "grad_norm": 10.375,
+      "learning_rate": 3.6805695479884478e-06,
+      "loss": 0.82,
+      "mean_token_accuracy": 0.7986723423004151,
+      "num_tokens": 13461483.0,
+      "step": 12150
+    },
+    {
+      "epoch": 2.450130969171872,
+      "grad_norm": 12.125,
+      "learning_rate": 3.667136812411848e-06,
+      "loss": 0.7788,
+      "mean_token_accuracy": 0.80440074801445,
+      "num_tokens": 13472237.0,
+      "step": 12160
+    },
+    {
+      "epoch": 2.452145879508362,
+      "grad_norm": 9.625,
+      "learning_rate": 3.6537040768352476e-06,
+      "loss": 0.8397,
+      "mean_token_accuracy": 0.7989638984203339,
+      "num_tokens": 13483806.0,
+      "step": 12170
+    },
+    {
+      "epoch": 2.454160789844852,
+      "grad_norm": 11.4375,
+      "learning_rate": 3.6402713412586477e-06,
+      "loss": 0.7816,
+      "mean_token_accuracy": 0.8013097047805786,
+      "num_tokens": 13493924.0,
+      "step": 12180
+    },
+    {
+      "epoch": 2.456175700181342,
+      "grad_norm": 15.8125,
+      "learning_rate": 3.6268386056820478e-06,
+      "loss": 0.7321,
+      "mean_token_accuracy": 0.815697294473648,
+      "num_tokens": 13505064.0,
+      "step": 12190
+    },
+    {
+      "epoch": 2.458190610517832,
+      "grad_norm": 10.3125,
+      "learning_rate": 3.6134058701054475e-06,
+      "loss": 0.766,
+      "mean_token_accuracy": 0.8088764250278473,
+      "num_tokens": 13515435.0,
+      "step": 12200
+    },
+    {
+      "epoch": 2.460205520854322,
+      "grad_norm": 11.6875,
+      "learning_rate": 3.5999731345288467e-06,
+      "loss": 0.8167,
+      "mean_token_accuracy": 0.7981218516826629,
+      "num_tokens": 13526529.0,
+      "step": 12210
+    },
+    {
+      "epoch": 2.4622204311908122,
+      "grad_norm": 11.5625,
+      "learning_rate": 3.586540398952247e-06,
+      "loss": 0.8728,
+      "mean_token_accuracy": 0.7834985911846161,
+      "num_tokens": 13537408.0,
+      "step": 12220
+    },
+    {
+      "epoch": 2.464235341527302,
+      "grad_norm": 9.9375,
+      "learning_rate": 3.573107663375647e-06,
+      "loss": 0.8162,
+      "mean_token_accuracy": 0.7954578995704651,
+      "num_tokens": 13547488.0,
+      "step": 12230
+    },
+    {
+      "epoch": 2.466250251863792,
+      "grad_norm": 12.0,
+      "learning_rate": 3.5596749277990466e-06,
+      "loss": 0.8507,
+      "mean_token_accuracy": 0.7890534639358521,
+      "num_tokens": 13558242.0,
+      "step": 12240
+    },
+    {
+      "epoch": 2.4682651622002822,
+      "grad_norm": 11.1875,
+      "learning_rate": 3.5462421922224467e-06,
+      "loss": 0.7756,
+      "mean_token_accuracy": 0.8034618675708771,
+      "num_tokens": 13568217.0,
+      "step": 12250
+    },
+    {
+      "epoch": 2.470280072536772,
+      "grad_norm": 13.3125,
+      "learning_rate": 3.532809456645846e-06,
+      "loss": 0.8328,
+      "mean_token_accuracy": 0.7975371956825257,
+      "num_tokens": 13579334.0,
+      "step": 12260
+    },
+    {
+      "epoch": 2.472294982873262,
+      "grad_norm": 11.8125,
+      "learning_rate": 3.519376721069246e-06,
+      "loss": 0.7325,
+      "mean_token_accuracy": 0.8158390104770661,
+      "num_tokens": 13589924.0,
+      "step": 12270
+    },
+    {
+      "epoch": 2.4743098932097523,
+      "grad_norm": 9.9375,
+      "learning_rate": 3.5059439854926458e-06,
+      "loss": 0.9189,
+      "mean_token_accuracy": 0.7810778141021728,
+      "num_tokens": 13601915.0,
+      "step": 12280
+    },
+    {
+      "epoch": 2.476324803546242,
+      "grad_norm": 11.1875,
+      "learning_rate": 3.492511249916046e-06,
+      "loss": 0.7933,
+      "mean_token_accuracy": 0.804823362827301,
+      "num_tokens": 13613049.0,
+      "step": 12290
+    },
+    {
+      "epoch": 2.478339713882732,
+      "grad_norm": 11.0625,
+      "learning_rate": 3.4790785143394455e-06,
+      "loss": 0.7509,
+      "mean_token_accuracy": 0.8156402170658111,
+      "num_tokens": 13624399.0,
+      "step": 12300
+    },
+    {
+      "epoch": 2.4803546242192223,
+      "grad_norm": 15.0625,
+      "learning_rate": 3.4656457787628457e-06,
+      "loss": 0.7869,
+      "mean_token_accuracy": 0.8047832548618317,
+      "num_tokens": 13635186.0,
+      "step": 12310
+    },
+    {
+      "epoch": 2.4823695345557124,
+      "grad_norm": 13.5,
+      "learning_rate": 3.452213043186245e-06,
+      "loss": 0.826,
+      "mean_token_accuracy": 0.7985908687114716,
+      "num_tokens": 13644792.0,
+      "step": 12320
+    },
+    {
+      "epoch": 2.484384444892202,
+      "grad_norm": 10.0625,
+      "learning_rate": 3.438780307609645e-06,
+      "loss": 0.8709,
+      "mean_token_accuracy": 0.7914902806282044,
+      "num_tokens": 13656993.0,
+      "step": 12330
+    },
+    {
+      "epoch": 2.4863993552286923,
+      "grad_norm": 10.1875,
+      "learning_rate": 3.4253475720330447e-06,
+      "loss": 0.8268,
+      "mean_token_accuracy": 0.7995809733867645,
+      "num_tokens": 13669719.0,
+      "step": 12340
+    },
+    {
+      "epoch": 2.4884142655651824,
+      "grad_norm": 9.375,
+      "learning_rate": 3.411914836456445e-06,
+      "loss": 0.8012,
+      "mean_token_accuracy": 0.7969933092594147,
+      "num_tokens": 13679980.0,
+      "step": 12350
+    },
+    {
+      "epoch": 2.4904291759016726,
+      "grad_norm": 10.5,
+      "learning_rate": 3.3984821008798445e-06,
+      "loss": 0.8088,
+      "mean_token_accuracy": 0.8042493402957916,
+      "num_tokens": 13691125.0,
+      "step": 12360
+    },
+    {
+      "epoch": 2.4924440862381623,
+      "grad_norm": 11.0,
+      "learning_rate": 3.385049365303244e-06,
+      "loss": 0.8507,
+      "mean_token_accuracy": 0.7906042397022247,
+      "num_tokens": 13701602.0,
+      "step": 12370
+    },
+    {
+      "epoch": 2.4944589965746524,
+      "grad_norm": 12.9375,
+      "learning_rate": 3.371616629726644e-06,
+      "loss": 0.7928,
+      "mean_token_accuracy": 0.8045152962207794,
+      "num_tokens": 13711693.0,
+      "step": 12380
+    },
+    {
+      "epoch": 2.4964739069111426,
+      "grad_norm": 10.125,
+      "learning_rate": 3.358183894150044e-06,
+      "loss": 0.8049,
+      "mean_token_accuracy": 0.7998487055301666,
+      "num_tokens": 13723412.0,
+      "step": 12390
+    },
+    {
+      "epoch": 2.4984888172476323,
+      "grad_norm": 10.625,
+      "learning_rate": 3.3447511585734436e-06,
+      "loss": 0.7884,
+      "mean_token_accuracy": 0.7947759389877319,
+      "num_tokens": 13733833.0,
+      "step": 12400
+    },
+    {
+      "epoch": 2.5005037275841224,
+      "grad_norm": 10.5625,
+      "learning_rate": 3.3313184229968437e-06,
+      "loss": 0.7059,
+      "mean_token_accuracy": 0.814959716796875,
+      "num_tokens": 13744955.0,
+      "step": 12410
+    },
+    {
+      "epoch": 2.5025186379206126,
+      "grad_norm": 12.125,
+      "learning_rate": 3.317885687420244e-06,
+      "loss": 0.8388,
+      "mean_token_accuracy": 0.7952327311038971,
+      "num_tokens": 13755393.0,
+      "step": 12420
+    },
+    {
+      "epoch": 2.5045335482571023,
+      "grad_norm": 10.25,
+      "learning_rate": 3.304452951843643e-06,
+      "loss": 0.8153,
+      "mean_token_accuracy": 0.8019894421100616,
+      "num_tokens": 13766163.0,
+      "step": 12430
+    },
+    {
+      "epoch": 2.5065484585935924,
+      "grad_norm": 10.0,
+      "learning_rate": 3.2910202162670428e-06,
+      "loss": 0.839,
+      "mean_token_accuracy": 0.7980442643165588,
+      "num_tokens": 13778064.0,
+      "step": 12440
+    },
+    {
+      "epoch": 2.5085633689300826,
+      "grad_norm": 13.75,
+      "learning_rate": 3.277587480690443e-06,
+      "loss": 0.7933,
+      "mean_token_accuracy": 0.8014937698841095,
+      "num_tokens": 13788785.0,
+      "step": 12450
+    },
+    {
+      "epoch": 2.5105782792665727,
+      "grad_norm": 13.0625,
+      "learning_rate": 3.2641547451138426e-06,
+      "loss": 0.8186,
+      "mean_token_accuracy": 0.7962758064270019,
+      "num_tokens": 13800349.0,
+      "step": 12460
+    },
+    {
+      "epoch": 2.512593189603063,
+      "grad_norm": 10.5,
+      "learning_rate": 3.2507220095372427e-06,
+      "loss": 0.8279,
+      "mean_token_accuracy": 0.7982799649238587,
+      "num_tokens": 13810275.0,
+      "step": 12470
+    },
+    {
+      "epoch": 2.5146080999395526,
+      "grad_norm": 12.875,
+      "learning_rate": 3.237289273960642e-06,
+      "loss": 0.7193,
+      "mean_token_accuracy": 0.8151337385177613,
+      "num_tokens": 13820122.0,
+      "step": 12480
+    },
+    {
+      "epoch": 2.5166230102760427,
+      "grad_norm": 13.1875,
+      "learning_rate": 3.223856538384042e-06,
+      "loss": 0.8233,
+      "mean_token_accuracy": 0.7997250974178314,
+      "num_tokens": 13830787.0,
+      "step": 12490
+    },
+    {
+      "epoch": 2.518637920612533,
+      "grad_norm": 12.75,
+      "learning_rate": 3.2104238028074417e-06,
+      "loss": 0.7905,
+      "mean_token_accuracy": 0.8074711799621582,
+      "num_tokens": 13840892.0,
+      "step": 12500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.6741415131650048e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null