Training in progress, step 14500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:071ff40e66008578cff6a11839a98b3bd55870fb4ecd78b520fd649a835f02e1
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:87d564460f84baac9ace9dc44cd612f3da4c9738f97e9806a8457bb9462e95db
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0402536afc76b268263c8a44f7565c5d35ba54094497cf95e3c11e92a054cd5
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ace8d39e9d75867a54c7c346772698f7c6e42165925320fb3b2367daa7c674e
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7200e211c4af21388df4ea9729221c37205d2f4defca496f0d1b43ecbe09b628
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e3f275449dfbc8efc7d2d2f06d134c7b39e55b8e539f36e09b007c731c81c65
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.8208744710860367,
   "eval_steps": 500,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12608,6 +12608,456 @@
       "mean_token_accuracy": 0.7995685517787934,
       "num_tokens": 15509702.0,
       "step": 14000
     }
   ],
   "logging_steps": 10,
@@ -12627,7 +13077,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.874850530342093e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.921619987910538,
   "eval_steps": 500,
+  "global_step": 14500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7995685517787934,
       "num_tokens": 15509702.0,
       "step": 14000
+    },
+    {
+      "epoch": 2.8228893814225264,
+      "grad_norm": 12.5625,
+      "learning_rate": 1.1820807307408155e-06,
+      "loss": 0.7108,
+      "mean_token_accuracy": 0.8189300537109375,
+      "num_tokens": 15519975.0,
+      "step": 14010
+    },
+    {
+      "epoch": 2.8249042917590166,
+      "grad_norm": 12.75,
+      "learning_rate": 1.1686479951642154e-06,
+      "loss": 0.817,
+      "mean_token_accuracy": 0.8028945684432983,
+      "num_tokens": 15530042.0,
+      "step": 14020
+    },
+    {
+      "epoch": 2.8269192020955067,
+      "grad_norm": 11.0,
+      "learning_rate": 1.155215259587615e-06,
+      "loss": 0.8255,
+      "mean_token_accuracy": 0.7976077675819397,
+      "num_tokens": 15540964.0,
+      "step": 14030
+    },
+    {
+      "epoch": 2.828934112431997,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.141782524011015e-06,
+      "loss": 0.8116,
+      "mean_token_accuracy": 0.7950972735881805,
+      "num_tokens": 15551879.0,
+      "step": 14040
+    },
+    {
+      "epoch": 2.830949022768487,
+      "grad_norm": 15.5625,
+      "learning_rate": 1.1283497884344149e-06,
+      "loss": 0.8752,
+      "mean_token_accuracy": 0.7869309186935425,
+      "num_tokens": 15563299.0,
+      "step": 14050
+    },
+    {
+      "epoch": 2.8329639331049767,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.1149170528578145e-06,
+      "loss": 0.842,
+      "mean_token_accuracy": 0.7949115037918091,
+      "num_tokens": 15573972.0,
+      "step": 14060
+    },
+    {
+      "epoch": 2.834978843441467,
+      "grad_norm": 12.5,
+      "learning_rate": 1.1014843172812144e-06,
+      "loss": 0.9261,
+      "mean_token_accuracy": 0.778299605846405,
+      "num_tokens": 15587253.0,
+      "step": 14070
+    },
+    {
+      "epoch": 2.836993753777957,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.0880515817046141e-06,
+      "loss": 0.8781,
+      "mean_token_accuracy": 0.7811039209365844,
+      "num_tokens": 15598147.0,
+      "step": 14080
+    },
+    {
+      "epoch": 2.8390086641144467,
+      "grad_norm": 14.375,
+      "learning_rate": 1.074618846128014e-06,
+      "loss": 0.887,
+      "mean_token_accuracy": 0.7856419622898102,
+      "num_tokens": 15609722.0,
+      "step": 14090
+    },
+    {
+      "epoch": 2.841023574450937,
+      "grad_norm": 14.1875,
+      "learning_rate": 1.061186110551414e-06,
+      "loss": 0.8371,
+      "mean_token_accuracy": 0.7899275839328765,
+      "num_tokens": 15620950.0,
+      "step": 14100
+    },
+    {
+      "epoch": 2.843038484787427,
+      "grad_norm": 13.625,
+      "learning_rate": 1.0477533749748136e-06,
+      "loss": 0.8213,
+      "mean_token_accuracy": 0.8016888916492462,
+      "num_tokens": 15632384.0,
+      "step": 14110
+    },
+    {
+      "epoch": 2.8450533951239168,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.0343206393982135e-06,
+      "loss": 0.8916,
+      "mean_token_accuracy": 0.781292325258255,
+      "num_tokens": 15643502.0,
+      "step": 14120
+    },
+    {
+      "epoch": 2.847068305460407,
+      "grad_norm": 10.75,
+      "learning_rate": 1.0208879038216134e-06,
+      "loss": 0.8747,
+      "mean_token_accuracy": 0.7830813884735107,
+      "num_tokens": 15655219.0,
+      "step": 14130
+    },
+    {
+      "epoch": 2.849083215796897,
+      "grad_norm": 11.875,
+      "learning_rate": 1.007455168245013e-06,
+      "loss": 0.8008,
+      "mean_token_accuracy": 0.8025586724281311,
+      "num_tokens": 15665158.0,
+      "step": 14140
+    },
+    {
+      "epoch": 2.851098126133387,
+      "grad_norm": 10.625,
+      "learning_rate": 9.94022432668413e-07,
+      "loss": 0.8352,
+      "mean_token_accuracy": 0.7977402985095978,
+      "num_tokens": 15677733.0,
+      "step": 14150
+    },
+    {
+      "epoch": 2.8531130364698774,
+      "grad_norm": 10.5625,
+      "learning_rate": 9.805896970918128e-07,
+      "loss": 0.8434,
+      "mean_token_accuracy": 0.7951288640499115,
+      "num_tokens": 15688430.0,
+      "step": 14160
+    },
+    {
+      "epoch": 2.855127946806367,
+      "grad_norm": 11.75,
+      "learning_rate": 9.671569615152127e-07,
+      "loss": 0.8963,
+      "mean_token_accuracy": 0.7789243698120117,
+      "num_tokens": 15700376.0,
+      "step": 14170
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 13.0,
+      "learning_rate": 9.537242259386124e-07,
+      "loss": 0.8915,
+      "mean_token_accuracy": 0.7802317202091217,
+      "num_tokens": 15710761.0,
+      "step": 14180
+    },
+    {
+      "epoch": 2.8591577674793474,
+      "grad_norm": 12.125,
+      "learning_rate": 9.402914903620123e-07,
+      "loss": 0.6912,
+      "mean_token_accuracy": 0.8160697996616364,
+      "num_tokens": 15721644.0,
+      "step": 14190
+    },
+    {
+      "epoch": 2.861172677815837,
+      "grad_norm": 12.0,
+      "learning_rate": 9.268587547854121e-07,
+      "loss": 0.7238,
+      "mean_token_accuracy": 0.8155933260917664,
+      "num_tokens": 15732607.0,
+      "step": 14200
+    },
+    {
+      "epoch": 2.863187588152327,
+      "grad_norm": 9.125,
+      "learning_rate": 9.134260192088119e-07,
+      "loss": 0.8317,
+      "mean_token_accuracy": 0.7980758368968963,
+      "num_tokens": 15745252.0,
+      "step": 14210
+    },
+    {
+      "epoch": 2.8652024984888174,
+      "grad_norm": 11.0625,
+      "learning_rate": 8.999932836322117e-07,
+      "loss": 0.7692,
+      "mean_token_accuracy": 0.812389326095581,
+      "num_tokens": 15756570.0,
+      "step": 14220
+    },
+    {
+      "epoch": 2.867217408825307,
+      "grad_norm": 12.0,
+      "learning_rate": 8.865605480556117e-07,
+      "loss": 0.807,
+      "mean_token_accuracy": 0.8013573944568634,
+      "num_tokens": 15768196.0,
+      "step": 14230
+    },
+    {
+      "epoch": 2.869232319161797,
+      "grad_norm": 10.1875,
+      "learning_rate": 8.731278124790115e-07,
+      "loss": 0.8102,
+      "mean_token_accuracy": 0.7977238118648529,
+      "num_tokens": 15780108.0,
+      "step": 14240
+    },
+    {
+      "epoch": 2.8712472294982874,
+      "grad_norm": 10.75,
+      "learning_rate": 8.596950769024113e-07,
+      "loss": 0.7232,
+      "mean_token_accuracy": 0.8186571359634399,
+      "num_tokens": 15790323.0,
+      "step": 14250
+    },
+    {
+      "epoch": 2.8732621398347775,
+      "grad_norm": 10.75,
+      "learning_rate": 8.46262341325811e-07,
+      "loss": 0.7311,
+      "mean_token_accuracy": 0.8196884751319885,
+      "num_tokens": 15801035.0,
+      "step": 14260
+    },
+    {
+      "epoch": 2.8752770501712672,
+      "grad_norm": 12.5625,
+      "learning_rate": 8.328296057492109e-07,
+      "loss": 0.9671,
+      "mean_token_accuracy": 0.7726804137229919,
+      "num_tokens": 15812082.0,
+      "step": 14270
+    },
+    {
+      "epoch": 2.8772919605077574,
+      "grad_norm": 13.75,
+      "learning_rate": 8.193968701726107e-07,
+      "loss": 0.7606,
+      "mean_token_accuracy": 0.8072145521640778,
+      "num_tokens": 15822853.0,
+      "step": 14280
+    },
+    {
+      "epoch": 2.8793068708442475,
+      "grad_norm": 14.75,
+      "learning_rate": 8.059641345960105e-07,
+      "loss": 0.8093,
+      "mean_token_accuracy": 0.8010785162448884,
+      "num_tokens": 15832947.0,
+      "step": 14290
+    },
+    {
+      "epoch": 2.8813217811807377,
+      "grad_norm": 11.5,
+      "learning_rate": 7.925313990194104e-07,
+      "loss": 0.8572,
+      "mean_token_accuracy": 0.7934750914573669,
+      "num_tokens": 15843708.0,
+      "step": 14300
+    },
+    {
+      "epoch": 2.8833366915172274,
+      "grad_norm": 10.625,
+      "learning_rate": 7.790986634428102e-07,
+      "loss": 0.7406,
+      "mean_token_accuracy": 0.813157856464386,
+      "num_tokens": 15855097.0,
+      "step": 14310
+    },
+    {
+      "epoch": 2.8853516018537175,
+      "grad_norm": 13.875,
+      "learning_rate": 7.6566592786621e-07,
+      "loss": 0.8571,
+      "mean_token_accuracy": 0.7906988859176636,
+      "num_tokens": 15866641.0,
+      "step": 14320
+    },
+    {
+      "epoch": 2.8873665121902077,
+      "grad_norm": 12.0625,
+      "learning_rate": 7.522331922896098e-07,
+      "loss": 0.7257,
+      "mean_token_accuracy": 0.815925520658493,
+      "num_tokens": 15877191.0,
+      "step": 14330
+    },
+    {
+      "epoch": 2.8893814225266974,
+      "grad_norm": 10.6875,
+      "learning_rate": 7.388004567130097e-07,
+      "loss": 0.8654,
+      "mean_token_accuracy": 0.7846165299415588,
+      "num_tokens": 15888129.0,
+      "step": 14340
+    },
+    {
+      "epoch": 2.8913963328631875,
+      "grad_norm": 11.625,
+      "learning_rate": 7.253677211364094e-07,
+      "loss": 0.7777,
+      "mean_token_accuracy": 0.807235324382782,
+      "num_tokens": 15899237.0,
+      "step": 14350
+    },
+    {
+      "epoch": 2.8934112431996777,
+      "grad_norm": 14.625,
+      "learning_rate": 7.119349855598092e-07,
+      "loss": 0.769,
+      "mean_token_accuracy": 0.8052566349506378,
+      "num_tokens": 15910090.0,
+      "step": 14360
+    },
+    {
+      "epoch": 2.8954261535361674,
+      "grad_norm": 9.5625,
+      "learning_rate": 6.985022499832092e-07,
+      "loss": 0.7232,
+      "mean_token_accuracy": 0.821067851781845,
+      "num_tokens": 15920709.0,
+      "step": 14370
+    },
+    {
+      "epoch": 2.8974410638726575,
+      "grad_norm": 11.9375,
+      "learning_rate": 6.85069514406609e-07,
+      "loss": 0.7402,
+      "mean_token_accuracy": 0.8163648307323456,
+      "num_tokens": 15933274.0,
+      "step": 14380
+    },
+    {
+      "epoch": 2.8994559742091477,
+      "grad_norm": 13.75,
+      "learning_rate": 6.716367788300088e-07,
+      "loss": 0.8013,
+      "mean_token_accuracy": 0.8017265141010285,
+      "num_tokens": 15943313.0,
+      "step": 14390
+    },
+    {
+      "epoch": 2.901470884545638,
+      "grad_norm": 13.25,
+      "learning_rate": 6.582040432534086e-07,
+      "loss": 0.8565,
+      "mean_token_accuracy": 0.786570030450821,
+      "num_tokens": 15952883.0,
+      "step": 14400
+    },
+    {
+      "epoch": 2.903485794882128,
+      "grad_norm": 14.5,
+      "learning_rate": 6.447713076768085e-07,
+      "loss": 0.7816,
+      "mean_token_accuracy": 0.8096172749996186,
+      "num_tokens": 15964351.0,
+      "step": 14410
+    },
+    {
+      "epoch": 2.9055007052186177,
+      "grad_norm": 11.8125,
+      "learning_rate": 6.313385721002083e-07,
+      "loss": 0.8196,
+      "mean_token_accuracy": 0.7991693377494812,
+      "num_tokens": 15975245.0,
+      "step": 14420
+    },
+    {
+      "epoch": 2.907515615555108,
+      "grad_norm": 11.875,
+      "learning_rate": 6.179058365236081e-07,
+      "loss": 0.7624,
+      "mean_token_accuracy": 0.8095822989940643,
+      "num_tokens": 15986457.0,
+      "step": 14430
+    },
+    {
+      "epoch": 2.909530525891598,
+      "grad_norm": 11.125,
+      "learning_rate": 6.04473100947008e-07,
+      "loss": 0.7871,
+      "mean_token_accuracy": 0.8019815146923065,
+      "num_tokens": 15997870.0,
+      "step": 14440
+    },
+    {
+      "epoch": 2.9115454362280877,
+      "grad_norm": 12.6875,
+      "learning_rate": 5.910403653704078e-07,
+      "loss": 0.7562,
+      "mean_token_accuracy": 0.8092824459075928,
+      "num_tokens": 16008778.0,
+      "step": 14450
+    },
+    {
+      "epoch": 2.913560346564578,
+      "grad_norm": 10.4375,
+      "learning_rate": 5.776076297938075e-07,
+      "loss": 0.7719,
+      "mean_token_accuracy": 0.8073769569396972,
+      "num_tokens": 16020048.0,
+      "step": 14460
+    },
+    {
+      "epoch": 2.915575256901068,
+      "grad_norm": 11.5,
+      "learning_rate": 5.641748942172074e-07,
+      "loss": 0.8207,
+      "mean_token_accuracy": 0.7947039902210236,
+      "num_tokens": 16032290.0,
+      "step": 14470
+    },
+    {
+      "epoch": 2.9175901672375577,
+      "grad_norm": 13.75,
+      "learning_rate": 5.507421586406072e-07,
+      "loss": 0.7469,
+      "mean_token_accuracy": 0.8104640543460846,
+      "num_tokens": 16043678.0,
+      "step": 14480
+    },
+    {
+      "epoch": 2.919605077574048,
+      "grad_norm": 11.375,
+      "learning_rate": 5.37309423064007e-07,
+      "loss": 0.9164,
+      "mean_token_accuracy": 0.7859593093395233,
+      "num_tokens": 16055184.0,
+      "step": 14490
+    },
+    {
+      "epoch": 2.921619987910538,
+      "grad_norm": 15.125,
+      "learning_rate": 5.238766874874068e-07,
+      "loss": 0.8604,
+      "mean_token_accuracy": 0.7894056618213654,
+      "num_tokens": 16065206.0,
+      "step": 14500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.9417933454309376e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null