Training in progress, step 14000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5a9bd42305a39ea10e14897e10ee483294601df6c8b6bb20eb9acc7de3a5b74
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:071ff40e66008578cff6a11839a98b3bd55870fb4ecd78b520fd649a835f02e1
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fd3300583dc98302b4bc1805b201303b140f489f169bc005adefa8fde0fce38
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0402536afc76b268263c8a44f7565c5d35ba54094497cf95e3c11e92a054cd5
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ce5bfd25fb939a324385a4adfd5b1d29fedc6793352a13b276f53eccc661d15
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:7200e211c4af21388df4ea9729221c37205d2f4defca496f0d1b43ecbe09b628
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.7201289542615354,
   "eval_steps": 500,
-  "global_step": 13500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12158,6 +12158,456 @@
       "mean_token_accuracy": 0.7941052973270416,
       "num_tokens": 14956201.0,
       "step": 13500
     }
   ],
   "logging_steps": 10,
@@ -12177,7 +12627,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.807875931971379e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8208744710860367,
   "eval_steps": 500,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7941052973270416,
       "num_tokens": 14956201.0,
       "step": 13500
+    },
+    {
+      "epoch": 2.722143864598025,
+      "grad_norm": 13.3125,
+      "learning_rate": 1.8537175095708242e-06,
+      "loss": 0.8932,
+      "mean_token_accuracy": 0.7903563916683197,
+      "num_tokens": 14968110.0,
+      "step": 13510
+    },
+    {
+      "epoch": 2.7241587749345153,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.8402847739942239e-06,
+      "loss": 0.8239,
+      "mean_token_accuracy": 0.7959101080894471,
+      "num_tokens": 14979544.0,
+      "step": 13520
+    },
+    {
+      "epoch": 2.7261736852710055,
+      "grad_norm": 14.25,
+      "learning_rate": 1.8268520384176238e-06,
+      "loss": 0.8986,
+      "mean_token_accuracy": 0.7841361403465271,
+      "num_tokens": 14990853.0,
+      "step": 13530
+    },
+    {
+      "epoch": 2.7281885956074956,
+      "grad_norm": 9.5,
+      "learning_rate": 1.8134193028410239e-06,
+      "loss": 0.7908,
+      "mean_token_accuracy": 0.7991403341293335,
+      "num_tokens": 15002448.0,
+      "step": 13540
+    },
+    {
+      "epoch": 2.7302035059439858,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.7999865672644234e-06,
+      "loss": 0.8348,
+      "mean_token_accuracy": 0.797630226612091,
+      "num_tokens": 15012426.0,
+      "step": 13550
+    },
+    {
+      "epoch": 2.7322184162804755,
+      "grad_norm": 12.375,
+      "learning_rate": 1.7865538316878235e-06,
+      "loss": 0.829,
+      "mean_token_accuracy": 0.8008688688278198,
+      "num_tokens": 15023568.0,
+      "step": 13560
+    },
+    {
+      "epoch": 2.7342333266169656,
+      "grad_norm": 11.875,
+      "learning_rate": 1.7731210961112234e-06,
+      "loss": 0.8301,
+      "mean_token_accuracy": 0.7909713625907898,
+      "num_tokens": 15033450.0,
+      "step": 13570
+    },
+    {
+      "epoch": 2.7362482369534558,
+      "grad_norm": 10.875,
+      "learning_rate": 1.759688360534623e-06,
+      "loss": 0.797,
+      "mean_token_accuracy": 0.8022173583507538,
+      "num_tokens": 15045140.0,
+      "step": 13580
+    },
+    {
+      "epoch": 2.7382631472899455,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.746255624958023e-06,
+      "loss": 0.8381,
+      "mean_token_accuracy": 0.7926445186138154,
+      "num_tokens": 15056256.0,
+      "step": 13590
+    },
+    {
+      "epoch": 2.7402780576264356,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.7328228893814228e-06,
+      "loss": 0.8104,
+      "mean_token_accuracy": 0.7977364182472229,
+      "num_tokens": 15068134.0,
+      "step": 13600
+    },
+    {
+      "epoch": 2.7422929679629258,
+      "grad_norm": 10.125,
+      "learning_rate": 1.7193901538048225e-06,
+      "loss": 0.8133,
+      "mean_token_accuracy": 0.8040676951408386,
+      "num_tokens": 15079578.0,
+      "step": 13610
+    },
+    {
+      "epoch": 2.7443078782994155,
+      "grad_norm": 11.0,
+      "learning_rate": 1.7059574182282224e-06,
+      "loss": 0.9289,
+      "mean_token_accuracy": 0.7738179624080658,
+      "num_tokens": 15090034.0,
+      "step": 13620
+    },
+    {
+      "epoch": 2.7463227886359056,
+      "grad_norm": 11.375,
+      "learning_rate": 1.692524682651622e-06,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.7958697319030762,
+      "num_tokens": 15101919.0,
+      "step": 13630
+    },
+    {
+      "epoch": 2.7483376989723958,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.679091947075022e-06,
+      "loss": 0.8911,
+      "mean_token_accuracy": 0.7814191520214081,
+      "num_tokens": 15114084.0,
+      "step": 13640
+    },
+    {
+      "epoch": 2.750352609308886,
+      "grad_norm": 12.75,
+      "learning_rate": 1.6656592114984219e-06,
+      "loss": 0.7362,
+      "mean_token_accuracy": 0.8138824105262756,
+      "num_tokens": 15124878.0,
+      "step": 13650
+    },
+    {
+      "epoch": 2.7523675196453756,
+      "grad_norm": 11.75,
+      "learning_rate": 1.6522264759218216e-06,
+      "loss": 0.8195,
+      "mean_token_accuracy": 0.793831080198288,
+      "num_tokens": 15135525.0,
+      "step": 13660
+    },
+    {
+      "epoch": 2.7543824299818658,
+      "grad_norm": 9.8125,
+      "learning_rate": 1.6387937403452214e-06,
+      "loss": 0.7857,
+      "mean_token_accuracy": 0.8074389100074768,
+      "num_tokens": 15147692.0,
+      "step": 13670
+    },
+    {
+      "epoch": 2.756397340318356,
+      "grad_norm": 10.125,
+      "learning_rate": 1.6253610047686213e-06,
+      "loss": 0.9199,
+      "mean_token_accuracy": 0.7814192116260529,
+      "num_tokens": 15159592.0,
+      "step": 13680
+    },
+    {
+      "epoch": 2.758412250654846,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.611928269192021e-06,
+      "loss": 0.7825,
+      "mean_token_accuracy": 0.7981011807918549,
+      "num_tokens": 15171601.0,
+      "step": 13690
+    },
+    {
+      "epoch": 2.760427160991336,
+      "grad_norm": 14.9375,
+      "learning_rate": 1.598495533615421e-06,
+      "loss": 0.9254,
+      "mean_token_accuracy": 0.777032095193863,
+      "num_tokens": 15182890.0,
+      "step": 13700
+    },
+    {
+      "epoch": 2.762442071327826,
+      "grad_norm": 12.125,
+      "learning_rate": 1.5850627980388208e-06,
+      "loss": 0.7658,
+      "mean_token_accuracy": 0.8108864903450013,
+      "num_tokens": 15193434.0,
+      "step": 13710
+    },
+    {
+      "epoch": 2.764456981664316,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.5716300624622205e-06,
+      "loss": 0.7604,
+      "mean_token_accuracy": 0.8065372705459595,
+      "num_tokens": 15204253.0,
+      "step": 13720
+    },
+    {
+      "epoch": 2.766471892000806,
+      "grad_norm": 12.75,
+      "learning_rate": 1.5581973268856204e-06,
+      "loss": 0.7993,
+      "mean_token_accuracy": 0.8044365346431732,
+      "num_tokens": 15214089.0,
+      "step": 13730
+    },
+    {
+      "epoch": 2.768486802337296,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.5447645913090203e-06,
+      "loss": 0.8261,
+      "mean_token_accuracy": 0.7986261487007141,
+      "num_tokens": 15224909.0,
+      "step": 13740
+    },
+    {
+      "epoch": 2.770501712673786,
+      "grad_norm": 16.125,
+      "learning_rate": 1.53133185573242e-06,
+      "loss": 0.9516,
+      "mean_token_accuracy": 0.7706651806831359,
+      "num_tokens": 15237744.0,
+      "step": 13750
+    },
+    {
+      "epoch": 2.772516623010276,
+      "grad_norm": 18.25,
+      "learning_rate": 1.5178991201558199e-06,
+      "loss": 0.8024,
+      "mean_token_accuracy": 0.8005965650081635,
+      "num_tokens": 15248510.0,
+      "step": 13760
+    },
+    {
+      "epoch": 2.774531533346766,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.5044663845792195e-06,
+      "loss": 0.7795,
+      "mean_token_accuracy": 0.8093705713748932,
+      "num_tokens": 15258924.0,
+      "step": 13770
+    },
+    {
+      "epoch": 2.776546443683256,
+      "grad_norm": 8.9375,
+      "learning_rate": 1.4910336490026194e-06,
+      "loss": 0.822,
+      "mean_token_accuracy": 0.8004359900951385,
+      "num_tokens": 15270012.0,
+      "step": 13780
+    },
+    {
+      "epoch": 2.7785613540197462,
+      "grad_norm": 13.6875,
+      "learning_rate": 1.4776009134260193e-06,
+      "loss": 0.7118,
+      "mean_token_accuracy": 0.8202294111251831,
+      "num_tokens": 15280170.0,
+      "step": 13790
+    },
+    {
+      "epoch": 2.7805762643562364,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.464168177849419e-06,
+      "loss": 0.7994,
+      "mean_token_accuracy": 0.8046676278114319,
+      "num_tokens": 15291487.0,
+      "step": 13800
+    },
+    {
+      "epoch": 2.782591174692726,
+      "grad_norm": 11.375,
+      "learning_rate": 1.450735442272819e-06,
+      "loss": 0.7917,
+      "mean_token_accuracy": 0.7997995793819428,
+      "num_tokens": 15302931.0,
+      "step": 13810
+    },
+    {
+      "epoch": 2.7846060850292162,
+      "grad_norm": 11.75,
+      "learning_rate": 1.437302706696219e-06,
+      "loss": 0.8199,
+      "mean_token_accuracy": 0.7960925221443176,
+      "num_tokens": 15313041.0,
+      "step": 13820
+    },
+    {
+      "epoch": 2.7866209953657064,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.4238699711196185e-06,
+      "loss": 0.7861,
+      "mean_token_accuracy": 0.8075309932231903,
+      "num_tokens": 15324592.0,
+      "step": 13830
+    },
+    {
+      "epoch": 2.788635905702196,
+      "grad_norm": 10.75,
+      "learning_rate": 1.4104372355430186e-06,
+      "loss": 0.9482,
+      "mean_token_accuracy": 0.7787281274795532,
+      "num_tokens": 15336954.0,
+      "step": 13840
+    },
+    {
+      "epoch": 2.7906508160386863,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.3970044999664185e-06,
+      "loss": 0.7294,
+      "mean_token_accuracy": 0.81562819480896,
+      "num_tokens": 15346970.0,
+      "step": 13850
+    },
+    {
+      "epoch": 2.7926657263751764,
+      "grad_norm": 12.5,
+      "learning_rate": 1.3835717643898182e-06,
+      "loss": 0.8401,
+      "mean_token_accuracy": 0.7911224365234375,
+      "num_tokens": 15357988.0,
+      "step": 13860
+    },
+    {
+      "epoch": 2.794680636711666,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.370139028813218e-06,
+      "loss": 0.8417,
+      "mean_token_accuracy": 0.7968161761760711,
+      "num_tokens": 15368806.0,
+      "step": 13870
+    },
+    {
+      "epoch": 2.7966955470481563,
+      "grad_norm": 12.875,
+      "learning_rate": 1.3567062932366175e-06,
+      "loss": 0.8506,
+      "mean_token_accuracy": 0.7901014566421509,
+      "num_tokens": 15378192.0,
+      "step": 13880
+    },
+    {
+      "epoch": 2.7987104573846464,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.3432735576600176e-06,
+      "loss": 0.7323,
+      "mean_token_accuracy": 0.812350469827652,
+      "num_tokens": 15388640.0,
+      "step": 13890
+    },
+    {
+      "epoch": 2.8007253677211366,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.3298408220834175e-06,
+      "loss": 0.7982,
+      "mean_token_accuracy": 0.8071064949035645,
+      "num_tokens": 15398587.0,
+      "step": 13900
+    },
+    {
+      "epoch": 2.8027402780576267,
+      "grad_norm": 10.25,
+      "learning_rate": 1.3164080865068172e-06,
+      "loss": 0.9217,
+      "mean_token_accuracy": 0.7764141440391541,
+      "num_tokens": 15408343.0,
+      "step": 13910
+    },
+    {
+      "epoch": 2.8047551883941164,
+      "grad_norm": 12.25,
+      "learning_rate": 1.302975350930217e-06,
+      "loss": 0.7961,
+      "mean_token_accuracy": 0.799578857421875,
+      "num_tokens": 15419485.0,
+      "step": 13920
+    },
+    {
+      "epoch": 2.8067700987306066,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.289542615353617e-06,
+      "loss": 0.8453,
+      "mean_token_accuracy": 0.794361412525177,
+      "num_tokens": 15431130.0,
+      "step": 13930
+    },
+    {
+      "epoch": 2.8087850090670967,
+      "grad_norm": 14.75,
+      "learning_rate": 1.2761098797770167e-06,
+      "loss": 0.8325,
+      "mean_token_accuracy": 0.7931640625,
+      "num_tokens": 15442377.0,
+      "step": 13940
+    },
+    {
+      "epoch": 2.8107999194035864,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.2626771442004166e-06,
+      "loss": 0.7471,
+      "mean_token_accuracy": 0.8172047972679138,
+      "num_tokens": 15453500.0,
+      "step": 13950
+    },
+    {
+      "epoch": 2.8128148297400766,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.2492444086238162e-06,
+      "loss": 0.8275,
+      "mean_token_accuracy": 0.7963262915611267,
+      "num_tokens": 15465388.0,
+      "step": 13960
+    },
+    {
+      "epoch": 2.8148297400765667,
+      "grad_norm": 12.875,
+      "learning_rate": 1.2358116730472161e-06,
+      "loss": 0.7675,
+      "mean_token_accuracy": 0.8086236357688904,
+      "num_tokens": 15475972.0,
+      "step": 13970
+    },
+    {
+      "epoch": 2.8168446504130564,
+      "grad_norm": 10.0,
+      "learning_rate": 1.222378937470616e-06,
+      "loss": 0.7866,
+      "mean_token_accuracy": 0.8052810370922089,
+      "num_tokens": 15489313.0,
+      "step": 13980
+    },
+    {
+      "epoch": 2.8188595607495466,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.208946201894016e-06,
+      "loss": 0.7903,
+      "mean_token_accuracy": 0.805169427394867,
+      "num_tokens": 15500110.0,
+      "step": 13990
+    },
+    {
+      "epoch": 2.8208744710860367,
+      "grad_norm": 13.5,
+      "learning_rate": 1.1955134663174156e-06,
+      "loss": 0.8045,
+      "mean_token_accuracy": 0.7995685517787934,
+      "num_tokens": 15509702.0,
+      "step": 14000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.874850530342093e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null