{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 15.0,
  "eval_steps": 500,
  "global_step": 184080,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04074315514993481,
      "grad_norm": 3.903106689453125,
      "learning_rate": 0.00029918513689700127,
      "loss": 0.9601,
      "step": 500
    },
    {
      "epoch": 0.08148631029986962,
      "grad_norm": 3.642774820327759,
      "learning_rate": 0.0002983702737940026,
      "loss": 0.744,
      "step": 1000
    },
    {
      "epoch": 0.12222946544980444,
      "grad_norm": 4.203257083892822,
      "learning_rate": 0.0002975554106910039,
      "loss": 0.663,
      "step": 1500
    },
    {
      "epoch": 0.16297262059973924,
      "grad_norm": 2.7387123107910156,
      "learning_rate": 0.0002967405475880052,
      "loss": 0.6473,
      "step": 2000
    },
    {
      "epoch": 0.20371577574967406,
      "grad_norm": 2.6161465644836426,
      "learning_rate": 0.0002959256844850065,
      "loss": 0.6125,
      "step": 2500
    },
    {
      "epoch": 0.24445893089960888,
      "grad_norm": 3.320974826812744,
      "learning_rate": 0.0002951108213820078,
      "loss": 0.5998,
      "step": 3000
    },
    {
      "epoch": 0.28520208604954367,
      "grad_norm": 4.985175132751465,
      "learning_rate": 0.0002942959582790091,
      "loss": 0.5967,
      "step": 3500
    },
    {
      "epoch": 0.3259452411994785,
      "grad_norm": 6.540027141571045,
      "learning_rate": 0.0002934810951760104,
      "loss": 0.5819,
      "step": 4000
    },
    {
      "epoch": 0.3666883963494133,
      "grad_norm": 3.4271512031555176,
      "learning_rate": 0.0002926662320730117,
      "loss": 0.5757,
      "step": 4500
    },
    {
      "epoch": 0.4074315514993481,
      "grad_norm": 3.7698581218719482,
      "learning_rate": 0.000291851368970013,
      "loss": 0.5771,
      "step": 5000
    },
    {
      "epoch": 0.44817470664928294,
      "grad_norm": 2.0958902835845947,
      "learning_rate": 0.0002910365058670143,
      "loss": 0.5675,
      "step": 5500
    },
    {
      "epoch": 0.48891786179921776,
      "grad_norm": 4.36754035949707,
      "learning_rate": 0.0002902216427640156,
      "loss": 0.5763,
      "step": 6000
    },
    {
      "epoch": 0.5296610169491526,
      "grad_norm": 5.100747585296631,
      "learning_rate": 0.00028940677966101693,
      "loss": 0.5672,
      "step": 6500
    },
    {
      "epoch": 0.5704041720990873,
      "grad_norm": 6.8754706382751465,
      "learning_rate": 0.0002885919165580182,
      "loss": 0.5628,
      "step": 7000
    },
    {
      "epoch": 0.6111473272490222,
      "grad_norm": 5.301522731781006,
      "learning_rate": 0.00028777705345501956,
      "loss": 0.5605,
      "step": 7500
    },
    {
      "epoch": 0.651890482398957,
      "grad_norm": 8.210878372192383,
      "learning_rate": 0.00028696219035202086,
      "loss": 0.5641,
      "step": 8000
    },
    {
      "epoch": 0.6926336375488917,
      "grad_norm": 4.496593475341797,
      "learning_rate": 0.00028614732724902215,
      "loss": 0.5588,
      "step": 8500
    },
    {
      "epoch": 0.7333767926988266,
      "grad_norm": 7.538310527801514,
      "learning_rate": 0.00028533246414602344,
      "loss": 0.5566,
      "step": 9000
    },
    {
      "epoch": 0.7741199478487614,
      "grad_norm": 4.999146461486816,
      "learning_rate": 0.00028451760104302473,
      "loss": 0.5517,
      "step": 9500
    },
    {
      "epoch": 0.8148631029986962,
      "grad_norm": 4.847980976104736,
      "learning_rate": 0.000283702737940026,
      "loss": 0.5477,
      "step": 10000
    },
    {
      "epoch": 0.855606258148631,
      "grad_norm": 4.664384841918945,
      "learning_rate": 0.00028288787483702737,
      "loss": 0.5397,
      "step": 10500
    },
    {
      "epoch": 0.8963494132985659,
      "grad_norm": 4.311728477478027,
      "learning_rate": 0.00028207301173402866,
      "loss": 0.5472,
      "step": 11000
    },
    {
      "epoch": 0.9370925684485006,
      "grad_norm": 5.360546588897705,
      "learning_rate": 0.00028125814863102995,
      "loss": 0.5385,
      "step": 11500
    },
    {
      "epoch": 0.9778357235984355,
      "grad_norm": 3.150179624557495,
      "learning_rate": 0.00028044328552803124,
      "loss": 0.5401,
      "step": 12000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.8012048006057739,
      "eval_loss": 0.49401503801345825,
      "eval_runtime": 1.3172,
      "eval_samples_per_second": 1890.412,
      "eval_steps_per_second": 236.871,
      "step": 12272
    },
    {
      "epoch": 1.0185788787483703,
      "grad_norm": 3.4617180824279785,
      "learning_rate": 0.00027962842242503253,
      "loss": 0.5329,
      "step": 12500
    },
    {
      "epoch": 1.0593220338983051,
      "grad_norm": 7.187256813049316,
      "learning_rate": 0.0002788135593220339,
      "loss": 0.5108,
      "step": 13000
    },
    {
      "epoch": 1.1000651890482398,
      "grad_norm": 4.215635299682617,
      "learning_rate": 0.00027799869621903517,
      "loss": 0.5191,
      "step": 13500
    },
    {
      "epoch": 1.1408083441981747,
      "grad_norm": 4.481944561004639,
      "learning_rate": 0.00027718383311603646,
      "loss": 0.5174,
      "step": 14000
    },
    {
      "epoch": 1.1815514993481095,
      "grad_norm": 4.972257614135742,
      "learning_rate": 0.0002763689700130378,
      "loss": 0.5196,
      "step": 14500
    },
    {
      "epoch": 1.2222946544980444,
      "grad_norm": 5.708983421325684,
      "learning_rate": 0.0002755541069100391,
      "loss": 0.5073,
      "step": 15000
    },
    {
      "epoch": 1.263037809647979,
      "grad_norm": 5.030546188354492,
      "learning_rate": 0.0002747392438070404,
      "loss": 0.5152,
      "step": 15500
    },
    {
      "epoch": 1.303780964797914,
      "grad_norm": 4.728239059448242,
      "learning_rate": 0.0002739243807040417,
      "loss": 0.5247,
      "step": 16000
    },
    {
      "epoch": 1.3445241199478488,
      "grad_norm": 4.776140213012695,
      "learning_rate": 0.000273109517601043,
      "loss": 0.5102,
      "step": 16500
    },
    {
      "epoch": 1.3852672750977835,
      "grad_norm": 4.450869560241699,
      "learning_rate": 0.0002722946544980443,
      "loss": 0.5118,
      "step": 17000
    },
    {
      "epoch": 1.4260104302477183,
      "grad_norm": 4.613271236419678,
      "learning_rate": 0.0002714797913950456,
      "loss": 0.5085,
      "step": 17500
    },
    {
      "epoch": 1.4667535853976532,
      "grad_norm": 4.2194623947143555,
      "learning_rate": 0.0002706649282920469,
      "loss": 0.5282,
      "step": 18000
    },
    {
      "epoch": 1.5074967405475879,
      "grad_norm": 4.356075286865234,
      "learning_rate": 0.00026985006518904825,
      "loss": 0.5075,
      "step": 18500
    },
    {
      "epoch": 1.548239895697523,
      "grad_norm": 8.015960693359375,
      "learning_rate": 0.00026903520208604954,
      "loss": 0.5145,
      "step": 19000
    },
    {
      "epoch": 1.5889830508474576,
      "grad_norm": 6.6733622550964355,
      "learning_rate": 0.00026822033898305083,
      "loss": 0.5018,
      "step": 19500
    },
    {
      "epoch": 1.6297262059973925,
      "grad_norm": 3.486973524093628,
      "learning_rate": 0.0002674054758800521,
      "loss": 0.5006,
      "step": 20000
    },
    {
      "epoch": 1.6704693611473274,
      "grad_norm": 4.118797779083252,
      "learning_rate": 0.0002665906127770534,
      "loss": 0.5051,
      "step": 20500
    },
    {
      "epoch": 1.711212516297262,
      "grad_norm": 4.919340133666992,
      "learning_rate": 0.00026577574967405476,
      "loss": 0.5079,
      "step": 21000
    },
    {
      "epoch": 1.7519556714471969,
      "grad_norm": 3.561168670654297,
      "learning_rate": 0.00026496088657105605,
      "loss": 0.5105,
      "step": 21500
    },
    {
      "epoch": 1.7926988265971318,
      "grad_norm": 5.326131820678711,
      "learning_rate": 0.00026414602346805735,
      "loss": 0.5162,
      "step": 22000
    },
    {
      "epoch": 1.8334419817470664,
      "grad_norm": 3.9515340328216553,
      "learning_rate": 0.00026333116036505864,
      "loss": 0.5163,
      "step": 22500
    },
    {
      "epoch": 1.8741851368970013,
      "grad_norm": 6.732409477233887,
      "learning_rate": 0.00026251629726205993,
      "loss": 0.512,
      "step": 23000
    },
    {
      "epoch": 1.9149282920469362,
      "grad_norm": 5.766730308532715,
      "learning_rate": 0.0002617014341590612,
      "loss": 0.5007,
      "step": 23500
    },
    {
      "epoch": 1.9556714471968708,
      "grad_norm": 5.24583625793457,
      "learning_rate": 0.00026088657105606257,
      "loss": 0.5088,
      "step": 24000
    },
    {
      "epoch": 1.996414602346806,
      "grad_norm": 3.472561836242676,
      "learning_rate": 0.00026007170795306386,
      "loss": 0.5153,
      "step": 24500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8184738755226135,
      "eval_loss": 0.4847101867198944,
      "eval_runtime": 1.3225,
      "eval_samples_per_second": 1882.752,
      "eval_steps_per_second": 235.911,
      "step": 24544
    },
    {
      "epoch": 2.0371577574967406,
      "grad_norm": 4.283546447753906,
      "learning_rate": 0.0002592568448500652,
      "loss": 0.4772,
      "step": 25000
    },
    {
      "epoch": 2.077900912646675,
      "grad_norm": 5.344771385192871,
      "learning_rate": 0.0002584419817470665,
      "loss": 0.4858,
      "step": 25500
    },
    {
      "epoch": 2.1186440677966103,
      "grad_norm": 14.693000793457031,
      "learning_rate": 0.0002576271186440678,
      "loss": 0.4782,
      "step": 26000
    },
    {
      "epoch": 2.159387222946545,
      "grad_norm": 8.06513786315918,
      "learning_rate": 0.0002568122555410691,
      "loss": 0.4741,
      "step": 26500
    },
    {
      "epoch": 2.2001303780964796,
      "grad_norm": 7.284698963165283,
      "learning_rate": 0.00025599739243807037,
      "loss": 0.4711,
      "step": 27000
    },
    {
      "epoch": 2.2408735332464147,
      "grad_norm": 6.03895378112793,
      "learning_rate": 0.00025518252933507166,
      "loss": 0.4814,
      "step": 27500
    },
    {
      "epoch": 2.2816166883963493,
      "grad_norm": 3.84562349319458,
      "learning_rate": 0.000254367666232073,
      "loss": 0.4822,
      "step": 28000
    },
    {
      "epoch": 2.322359843546284,
      "grad_norm": 4.05625581741333,
      "learning_rate": 0.0002535528031290743,
      "loss": 0.485,
      "step": 28500
    },
    {
      "epoch": 2.363102998696219,
      "grad_norm": 7.177305221557617,
      "learning_rate": 0.0002527379400260756,
      "loss": 0.4811,
      "step": 29000
    },
    {
      "epoch": 2.4038461538461537,
      "grad_norm": 4.273186683654785,
      "learning_rate": 0.0002519230769230769,
      "loss": 0.493,
      "step": 29500
    },
    {
      "epoch": 2.444589308996089,
      "grad_norm": 5.3822550773620605,
      "learning_rate": 0.0002511082138200782,
      "loss": 0.4774,
      "step": 30000
    },
    {
      "epoch": 2.4853324641460235,
      "grad_norm": 3.5965328216552734,
      "learning_rate": 0.0002502933507170795,
      "loss": 0.4861,
      "step": 30500
    },
    {
      "epoch": 2.526075619295958,
      "grad_norm": 5.224465847015381,
      "learning_rate": 0.0002494784876140808,
      "loss": 0.4882,
      "step": 31000
    },
    {
      "epoch": 2.5668187744458932,
      "grad_norm": 5.249507427215576,
      "learning_rate": 0.0002486636245110821,
      "loss": 0.4839,
      "step": 31500
    },
    {
      "epoch": 2.607561929595828,
      "grad_norm": 4.794619560241699,
      "learning_rate": 0.00024784876140808345,
      "loss": 0.4873,
      "step": 32000
    },
    {
      "epoch": 2.648305084745763,
      "grad_norm": 4.630086421966553,
      "learning_rate": 0.00024703389830508474,
      "loss": 0.4845,
      "step": 32500
    },
    {
      "epoch": 2.6890482398956976,
      "grad_norm": 4.3539509773254395,
      "learning_rate": 0.00024621903520208603,
      "loss": 0.4859,
      "step": 33000
    },
    {
      "epoch": 2.7297913950456323,
      "grad_norm": 20.075387954711914,
      "learning_rate": 0.0002454041720990873,
      "loss": 0.4851,
      "step": 33500
    },
    {
      "epoch": 2.770534550195567,
      "grad_norm": 4.735180854797363,
      "learning_rate": 0.0002445893089960886,
      "loss": 0.48,
      "step": 34000
    },
    {
      "epoch": 2.811277705345502,
      "grad_norm": 5.288419246673584,
      "learning_rate": 0.00024377444589308996,
      "loss": 0.4855,
      "step": 34500
    },
    {
      "epoch": 2.8520208604954367,
      "grad_norm": 6.113040447235107,
      "learning_rate": 0.00024295958279009125,
      "loss": 0.4841,
      "step": 35000
    },
    {
      "epoch": 2.8927640156453718,
      "grad_norm": 4.200971603393555,
      "learning_rate": 0.00024214471968709255,
      "loss": 0.4822,
      "step": 35500
    },
    {
      "epoch": 2.9335071707953064,
      "grad_norm": 7.652894496917725,
      "learning_rate": 0.00024132985658409386,
      "loss": 0.4869,
      "step": 36000
    },
    {
      "epoch": 2.974250325945241,
      "grad_norm": 4.877824783325195,
      "learning_rate": 0.00024051499348109516,
      "loss": 0.4912,
      "step": 36500
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8281124234199524,
      "eval_loss": 0.4560346305370331,
      "eval_runtime": 1.321,
      "eval_samples_per_second": 1884.942,
      "eval_steps_per_second": 236.186,
      "step": 36816
    },
    {
      "epoch": 3.014993481095176,
      "grad_norm": 3.8338561058044434,
      "learning_rate": 0.00023970013037809645,
      "loss": 0.468,
      "step": 37000
    },
    {
      "epoch": 3.055736636245111,
      "grad_norm": 5.0123748779296875,
      "learning_rate": 0.00023888526727509777,
      "loss": 0.4518,
      "step": 37500
    },
    {
      "epoch": 3.0964797913950455,
      "grad_norm": 9.168608665466309,
      "learning_rate": 0.00023807040417209906,
      "loss": 0.4526,
      "step": 38000
    },
    {
      "epoch": 3.1372229465449806,
      "grad_norm": 4.855980396270752,
      "learning_rate": 0.00023725554106910038,
      "loss": 0.4552,
      "step": 38500
    },
    {
      "epoch": 3.1779661016949152,
      "grad_norm": 4.631063461303711,
      "learning_rate": 0.00023644067796610167,
      "loss": 0.4522,
      "step": 39000
    },
    {
      "epoch": 3.21870925684485,
      "grad_norm": 9.133448600769043,
      "learning_rate": 0.00023562581486310296,
      "loss": 0.4465,
      "step": 39500
    },
    {
      "epoch": 3.259452411994785,
      "grad_norm": 7.025015830993652,
      "learning_rate": 0.0002348109517601043,
      "loss": 0.4596,
      "step": 40000
    },
    {
      "epoch": 3.3001955671447196,
      "grad_norm": 8.170782089233398,
      "learning_rate": 0.0002339960886571056,
      "loss": 0.4654,
      "step": 40500
    },
    {
      "epoch": 3.3409387222946547,
      "grad_norm": 6.369460582733154,
      "learning_rate": 0.0002331812255541069,
      "loss": 0.4616,
      "step": 41000
    },
    {
      "epoch": 3.3816818774445894,
      "grad_norm": 5.916182994842529,
      "learning_rate": 0.0002323663624511082,
      "loss": 0.4554,
      "step": 41500
    },
    {
      "epoch": 3.422425032594524,
      "grad_norm": 5.56029748916626,
      "learning_rate": 0.0002315514993481095,
      "loss": 0.4624,
      "step": 42000
    },
    {
      "epoch": 3.463168187744459,
      "grad_norm": 5.766366004943848,
      "learning_rate": 0.00023073663624511082,
      "loss": 0.457,
      "step": 42500
    },
    {
      "epoch": 3.5039113428943938,
      "grad_norm": 5.249857425689697,
      "learning_rate": 0.0002299217731421121,
      "loss": 0.4606,
      "step": 43000
    },
    {
      "epoch": 3.5446544980443284,
      "grad_norm": 4.910796642303467,
      "learning_rate": 0.0002291069100391134,
      "loss": 0.464,
      "step": 43500
    },
    {
      "epoch": 3.5853976531942635,
      "grad_norm": 5.275523662567139,
      "learning_rate": 0.00022829204693611472,
      "loss": 0.4583,
      "step": 44000
    },
    {
      "epoch": 3.626140808344198,
      "grad_norm": 11.771350860595703,
      "learning_rate": 0.000227477183833116,
      "loss": 0.4621,
      "step": 44500
    },
    {
      "epoch": 3.666883963494133,
      "grad_norm": 7.764673233032227,
      "learning_rate": 0.0002266623207301173,
      "loss": 0.4576,
      "step": 45000
    },
    {
      "epoch": 3.707627118644068,
      "grad_norm": 4.956336498260498,
      "learning_rate": 0.00022584745762711862,
      "loss": 0.4569,
      "step": 45500
    },
    {
      "epoch": 3.7483702737940026,
      "grad_norm": 6.102591514587402,
      "learning_rate": 0.0002250325945241199,
      "loss": 0.4647,
      "step": 46000
    },
    {
      "epoch": 3.7891134289439377,
      "grad_norm": 5.401261806488037,
      "learning_rate": 0.0002242177314211212,
      "loss": 0.4647,
      "step": 46500
    },
    {
      "epoch": 3.8298565840938723,
      "grad_norm": 12.162174224853516,
      "learning_rate": 0.00022340286831812255,
      "loss": 0.4625,
      "step": 47000
    },
    {
      "epoch": 3.870599739243807,
      "grad_norm": 4.017864227294922,
      "learning_rate": 0.00022258800521512384,
      "loss": 0.468,
      "step": 47500
    },
    {
      "epoch": 3.9113428943937416,
      "grad_norm": 12.498366355895996,
      "learning_rate": 0.00022177314211212516,
      "loss": 0.4596,
      "step": 48000
    },
    {
      "epoch": 3.9520860495436767,
      "grad_norm": 4.957953929901123,
      "learning_rate": 0.00022095827900912645,
      "loss": 0.4548,
      "step": 48500
    },
    {
      "epoch": 3.9928292046936114,
      "grad_norm": 5.928701877593994,
      "learning_rate": 0.00022014341590612774,
      "loss": 0.464,
      "step": 49000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.8305220603942871,
      "eval_loss": 0.4340663552284241,
      "eval_runtime": 1.3194,
      "eval_samples_per_second": 1887.196,
      "eval_steps_per_second": 236.468,
      "step": 49088
    },
    {
      "epoch": 4.0335723598435465,
      "grad_norm": 4.664974689483643,
      "learning_rate": 0.00021932855280312906,
      "loss": 0.4384,
      "step": 49500
    },
    {
      "epoch": 4.074315514993481,
      "grad_norm": 3.3654301166534424,
      "learning_rate": 0.00021851368970013035,
      "loss": 0.4275,
      "step": 50000
    },
    {
      "epoch": 4.115058670143416,
      "grad_norm": 4.866460800170898,
      "learning_rate": 0.00021769882659713165,
      "loss": 0.4352,
      "step": 50500
    },
    {
      "epoch": 4.15580182529335,
      "grad_norm": 8.825949668884277,
      "learning_rate": 0.00021688396349413296,
      "loss": 0.4496,
      "step": 51000
    },
    {
      "epoch": 4.196544980443286,
      "grad_norm": 5.245996475219727,
      "learning_rate": 0.00021606910039113426,
      "loss": 0.4337,
      "step": 51500
    },
    {
      "epoch": 4.237288135593221,
      "grad_norm": 5.545227527618408,
      "learning_rate": 0.0002152542372881356,
      "loss": 0.4411,
      "step": 52000
    },
    {
      "epoch": 4.278031290743155,
      "grad_norm": 6.717356204986572,
      "learning_rate": 0.0002144393741851369,
      "loss": 0.4269,
      "step": 52500
    },
    {
      "epoch": 4.31877444589309,
      "grad_norm": 8.492136001586914,
      "learning_rate": 0.00021362451108213819,
      "loss": 0.442,
      "step": 53000
    },
    {
      "epoch": 4.3595176010430245,
      "grad_norm": 5.132699012756348,
      "learning_rate": 0.0002128096479791395,
      "loss": 0.4416,
      "step": 53500
    },
    {
      "epoch": 4.400260756192959,
      "grad_norm": 6.465219974517822,
      "learning_rate": 0.0002119947848761408,
      "loss": 0.4335,
      "step": 54000
    },
    {
      "epoch": 4.441003911342895,
      "grad_norm": 7.386136531829834,
      "learning_rate": 0.0002111799217731421,
      "loss": 0.4445,
      "step": 54500
    },
    {
      "epoch": 4.481747066492829,
      "grad_norm": 6.41326379776001,
      "learning_rate": 0.0002103650586701434,
      "loss": 0.4423,
      "step": 55000
    },
    {
      "epoch": 4.522490221642764,
      "grad_norm": 4.29447603225708,
      "learning_rate": 0.0002095501955671447,
      "loss": 0.4418,
      "step": 55500
    },
    {
      "epoch": 4.563233376792699,
      "grad_norm": 6.019310474395752,
      "learning_rate": 0.00020873533246414602,
      "loss": 0.4514,
      "step": 56000
    },
    {
      "epoch": 4.603976531942633,
      "grad_norm": 6.619298458099365,
      "learning_rate": 0.0002079204693611473,
      "loss": 0.4478,
      "step": 56500
    },
    {
      "epoch": 4.644719687092568,
      "grad_norm": 4.534068584442139,
      "learning_rate": 0.0002071056062581486,
      "loss": 0.4329,
      "step": 57000
    },
    {
      "epoch": 4.6854628422425035,
      "grad_norm": 5.2728705406188965,
      "learning_rate": 0.00020629074315514992,
      "loss": 0.4497,
      "step": 57500
    },
    {
      "epoch": 4.726205997392438,
      "grad_norm": 6.30247688293457,
      "learning_rate": 0.0002054758800521512,
      "loss": 0.4456,
      "step": 58000
    },
    {
      "epoch": 4.766949152542373,
      "grad_norm": 7.561068058013916,
      "learning_rate": 0.0002046610169491525,
      "loss": 0.431,
      "step": 58500
    },
    {
      "epoch": 4.8076923076923075,
      "grad_norm": 4.328912258148193,
      "learning_rate": 0.00020384615384615385,
      "loss": 0.4478,
      "step": 59000
    },
    {
      "epoch": 4.848435462842242,
      "grad_norm": 5.667147636413574,
      "learning_rate": 0.00020303129074315514,
      "loss": 0.447,
      "step": 59500
    },
    {
      "epoch": 4.889178617992178,
      "grad_norm": 7.303271770477295,
      "learning_rate": 0.00020221642764015643,
      "loss": 0.4471,
      "step": 60000
    },
    {
      "epoch": 4.929921773142112,
      "grad_norm": 8.89727783203125,
      "learning_rate": 0.00020140156453715775,
      "loss": 0.4364,
      "step": 60500
    },
    {
      "epoch": 4.970664928292047,
      "grad_norm": 8.339994430541992,
      "learning_rate": 0.00020058670143415904,
      "loss": 0.4353,
      "step": 61000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.8293172717094421,
      "eval_loss": 0.4341069459915161,
      "eval_runtime": 1.3178,
      "eval_samples_per_second": 1889.479,
      "eval_steps_per_second": 236.754,
      "step": 61360
    },
    {
      "epoch": 5.011408083441982,
      "grad_norm": 7.215118885040283,
      "learning_rate": 0.00019977183833116036,
      "loss": 0.4335,
      "step": 61500
    },
    {
      "epoch": 5.052151238591916,
      "grad_norm": 7.2029948234558105,
      "learning_rate": 0.00019895697522816165,
      "loss": 0.4108,
      "step": 62000
    },
    {
      "epoch": 5.092894393741851,
      "grad_norm": 6.144858360290527,
      "learning_rate": 0.00019814211212516294,
      "loss": 0.4135,
      "step": 62500
    },
    {
      "epoch": 5.1336375488917865,
      "grad_norm": 4.722171306610107,
      "learning_rate": 0.00019732724902216426,
      "loss": 0.4115,
      "step": 63000
    },
    {
      "epoch": 5.174380704041721,
      "grad_norm": 4.787344932556152,
      "learning_rate": 0.00019651238591916555,
      "loss": 0.4076,
      "step": 63500
    },
    {
      "epoch": 5.215123859191656,
      "grad_norm": 6.03846549987793,
      "learning_rate": 0.00019569752281616684,
      "loss": 0.4095,
      "step": 64000
    },
    {
      "epoch": 5.25586701434159,
      "grad_norm": 7.532809257507324,
      "learning_rate": 0.00019488265971316816,
      "loss": 0.4243,
      "step": 64500
    },
    {
      "epoch": 5.296610169491525,
      "grad_norm": 6.647561550140381,
      "learning_rate": 0.00019406779661016945,
      "loss": 0.42,
      "step": 65000
    },
    {
      "epoch": 5.337353324641461,
      "grad_norm": 5.684433937072754,
      "learning_rate": 0.0001932529335071708,
      "loss": 0.4159,
      "step": 65500
    },
    {
      "epoch": 5.378096479791395,
      "grad_norm": 7.678234100341797,
      "learning_rate": 0.0001924380704041721,
      "loss": 0.4176,
      "step": 66000
    },
    {
      "epoch": 5.41883963494133,
      "grad_norm": 5.400735855102539,
      "learning_rate": 0.00019162320730117338,
      "loss": 0.4274,
      "step": 66500
    },
    {
      "epoch": 5.459582790091265,
      "grad_norm": 5.919491767883301,
      "learning_rate": 0.0001908083441981747,
      "loss": 0.4169,
      "step": 67000
    },
    {
      "epoch": 5.500325945241199,
      "grad_norm": 6.391634941101074,
      "learning_rate": 0.000189993481095176,
      "loss": 0.4268,
      "step": 67500
    },
    {
      "epoch": 5.541069100391134,
      "grad_norm": 7.8892598152160645,
      "learning_rate": 0.00018917861799217729,
      "loss": 0.4405,
      "step": 68000
    },
    {
      "epoch": 5.581812255541069,
      "grad_norm": 6.917752265930176,
      "learning_rate": 0.0001883637548891786,
      "loss": 0.4315,
      "step": 68500
    },
    {
      "epoch": 5.622555410691004,
      "grad_norm": 4.250978946685791,
      "learning_rate": 0.0001875488917861799,
      "loss": 0.4246,
      "step": 69000
    },
    {
      "epoch": 5.663298565840939,
      "grad_norm": 5.358656883239746,
      "learning_rate": 0.00018673402868318121,
      "loss": 0.4247,
      "step": 69500
    },
    {
      "epoch": 5.704041720990873,
      "grad_norm": 4.514699935913086,
      "learning_rate": 0.0001859191655801825,
      "loss": 0.4262,
      "step": 70000
    },
    {
      "epoch": 5.744784876140808,
      "grad_norm": 11.332836151123047,
      "learning_rate": 0.0001851043024771838,
      "loss": 0.4237,
      "step": 70500
    },
    {
      "epoch": 5.7855280312907436,
      "grad_norm": 5.727877140045166,
      "learning_rate": 0.00018428943937418514,
      "loss": 0.4274,
      "step": 71000
    },
    {
      "epoch": 5.826271186440678,
      "grad_norm": 6.998444080352783,
      "learning_rate": 0.00018347457627118644,
      "loss": 0.4238,
      "step": 71500
    },
    {
      "epoch": 5.867014341590613,
      "grad_norm": 5.800847053527832,
      "learning_rate": 0.00018265971316818773,
      "loss": 0.4227,
      "step": 72000
    },
    {
      "epoch": 5.9077574967405475,
      "grad_norm": 7.31454610824585,
      "learning_rate": 0.00018184485006518905,
      "loss": 0.4253,
      "step": 72500
    },
    {
      "epoch": 5.948500651890482,
      "grad_norm": 4.428360939025879,
      "learning_rate": 0.00018102998696219034,
      "loss": 0.4222,
      "step": 73000
    },
    {
      "epoch": 5.989243807040417,
      "grad_norm": 9.301764488220215,
      "learning_rate": 0.00018021512385919163,
      "loss": 0.4222,
      "step": 73500
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8353413939476013,
      "eval_loss": 0.44214770197868347,
      "eval_runtime": 1.3197,
      "eval_samples_per_second": 1886.794,
      "eval_steps_per_second": 236.418,
      "step": 73632
    },
    {
      "epoch": 6.029986962190352,
      "grad_norm": 6.792418956756592,
      "learning_rate": 0.00017940026075619295,
      "loss": 0.4018,
      "step": 74000
    },
    {
      "epoch": 6.070730117340287,
      "grad_norm": 6.61313009262085,
      "learning_rate": 0.00017858539765319424,
      "loss": 0.3939,
      "step": 74500
    },
    {
      "epoch": 6.111473272490222,
      "grad_norm": 8.967741966247559,
      "learning_rate": 0.00017777053455019556,
      "loss": 0.4004,
      "step": 75000
    },
    {
      "epoch": 6.152216427640156,
      "grad_norm": 6.612297534942627,
      "learning_rate": 0.00017695567144719685,
      "loss": 0.3961,
      "step": 75500
    },
    {
      "epoch": 6.192959582790091,
      "grad_norm": 9.913805961608887,
      "learning_rate": 0.00017614080834419814,
      "loss": 0.4053,
      "step": 76000
    },
    {
      "epoch": 6.2337027379400265,
      "grad_norm": 4.443258285522461,
      "learning_rate": 0.00017532594524119946,
      "loss": 0.3973,
      "step": 76500
    },
    {
      "epoch": 6.274445893089961,
      "grad_norm": 5.371773719787598,
      "learning_rate": 0.00017451108213820075,
      "loss": 0.4087,
      "step": 77000
    },
    {
      "epoch": 6.315189048239896,
      "grad_norm": 6.071609020233154,
      "learning_rate": 0.00017369621903520204,
      "loss": 0.3996,
      "step": 77500
    },
    {
      "epoch": 6.3559322033898304,
      "grad_norm": 5.897058486938477,
      "learning_rate": 0.0001728813559322034,
      "loss": 0.4043,
      "step": 78000
    },
    {
      "epoch": 6.396675358539765,
      "grad_norm": 5.877638339996338,
      "learning_rate": 0.00017206649282920468,
      "loss": 0.3951,
      "step": 78500
    },
    {
      "epoch": 6.4374185136897,
      "grad_norm": 9.41858959197998,
      "learning_rate": 0.000171251629726206,
      "loss": 0.4085,
      "step": 79000
    },
    {
      "epoch": 6.478161668839635,
      "grad_norm": 8.160734176635742,
      "learning_rate": 0.0001704367666232073,
      "loss": 0.3991,
      "step": 79500
    },
    {
      "epoch": 6.51890482398957,
      "grad_norm": 6.51933479309082,
      "learning_rate": 0.00016962190352020858,
      "loss": 0.3991,
      "step": 80000
    },
    {
      "epoch": 6.559647979139505,
      "grad_norm": 7.687954425811768,
      "learning_rate": 0.0001688070404172099,
      "loss": 0.4079,
      "step": 80500
    },
    {
      "epoch": 6.600391134289439,
      "grad_norm": 6.864954471588135,
      "learning_rate": 0.0001679921773142112,
      "loss": 0.4164,
      "step": 81000
    },
    {
      "epoch": 6.641134289439374,
      "grad_norm": 6.034685134887695,
      "learning_rate": 0.00016717731421121248,
      "loss": 0.4102,
      "step": 81500
    },
    {
      "epoch": 6.681877444589309,
      "grad_norm": 7.361028671264648,
      "learning_rate": 0.0001663624511082138,
      "loss": 0.4005,
      "step": 82000
    },
    {
      "epoch": 6.722620599739244,
      "grad_norm": 5.541783332824707,
      "learning_rate": 0.0001655475880052151,
      "loss": 0.4052,
      "step": 82500
    },
    {
      "epoch": 6.763363754889179,
      "grad_norm": 5.331331729888916,
      "learning_rate": 0.00016473272490221644,
      "loss": 0.4057,
      "step": 83000
    },
    {
      "epoch": 6.804106910039113,
      "grad_norm": 7.785317420959473,
      "learning_rate": 0.00016391786179921773,
      "loss": 0.4026,
      "step": 83500
    },
    {
      "epoch": 6.844850065189048,
      "grad_norm": 5.022272109985352,
      "learning_rate": 0.00016310299869621902,
      "loss": 0.4216,
      "step": 84000
    },
    {
      "epoch": 6.885593220338983,
      "grad_norm": 7.107814788818359,
      "learning_rate": 0.00016228813559322034,
      "loss": 0.4037,
      "step": 84500
    },
    {
      "epoch": 6.926336375488918,
      "grad_norm": 3.8505802154541016,
      "learning_rate": 0.00016147327249022163,
      "loss": 0.405,
      "step": 85000
    },
    {
      "epoch": 6.967079530638853,
      "grad_norm": 8.499777793884277,
      "learning_rate": 0.00016065840938722293,
      "loss": 0.4029,
      "step": 85500
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.8180722594261169,
      "eval_loss": 0.4692268967628479,
      "eval_runtime": 1.3326,
      "eval_samples_per_second": 1868.517,
      "eval_steps_per_second": 234.127,
      "step": 85904
    },
    {
      "epoch": 7.0078226857887875,
      "grad_norm": 8.198366165161133,
      "learning_rate": 0.00015984354628422424,
      "loss": 0.4028,
      "step": 86000
    },
    {
      "epoch": 7.048565840938722,
      "grad_norm": 6.649056911468506,
      "learning_rate": 0.00015902868318122554,
      "loss": 0.3791,
      "step": 86500
    },
    {
      "epoch": 7.089308996088657,
      "grad_norm": 7.850377559661865,
      "learning_rate": 0.00015821382007822685,
      "loss": 0.3787,
      "step": 87000
    },
    {
      "epoch": 7.130052151238592,
      "grad_norm": 7.855784893035889,
      "learning_rate": 0.00015739895697522815,
      "loss": 0.3811,
      "step": 87500
    },
    {
      "epoch": 7.170795306388527,
      "grad_norm": 14.966862678527832,
      "learning_rate": 0.00015658409387222944,
      "loss": 0.3871,
      "step": 88000
    },
    {
      "epoch": 7.211538461538462,
      "grad_norm": 5.9177374839782715,
      "learning_rate": 0.00015576923076923076,
      "loss": 0.376,
      "step": 88500
    },
    {
      "epoch": 7.252281616688396,
      "grad_norm": 5.932408332824707,
      "learning_rate": 0.00015495436766623205,
      "loss": 0.3838,
      "step": 89000
    },
    {
      "epoch": 7.293024771838331,
      "grad_norm": 7.744556903839111,
      "learning_rate": 0.00015413950456323334,
      "loss": 0.3867,
      "step": 89500
    },
    {
      "epoch": 7.333767926988266,
      "grad_norm": 7.432311058044434,
      "learning_rate": 0.00015332464146023469,
      "loss": 0.3845,
      "step": 90000
    },
    {
      "epoch": 7.374511082138201,
      "grad_norm": 7.201303005218506,
      "learning_rate": 0.00015250977835723598,
      "loss": 0.3834,
      "step": 90500
    },
    {
      "epoch": 7.415254237288136,
      "grad_norm": 3.4944007396698,
      "learning_rate": 0.00015169491525423727,
      "loss": 0.3909,
      "step": 91000
    },
    {
      "epoch": 7.4559973924380705,
      "grad_norm": 6.2556657791137695,
      "learning_rate": 0.0001508800521512386,
      "loss": 0.3938,
      "step": 91500
    },
    {
      "epoch": 7.496740547588005,
      "grad_norm": 7.523508548736572,
      "learning_rate": 0.00015006518904823988,
      "loss": 0.3992,
      "step": 92000
    },
    {
      "epoch": 7.53748370273794,
      "grad_norm": 5.762405872344971,
      "learning_rate": 0.00014925032594524117,
      "loss": 0.3917,
      "step": 92500
    },
    {
      "epoch": 7.578226857887875,
      "grad_norm": 8.949166297912598,
      "learning_rate": 0.0001484354628422425,
      "loss": 0.3834,
      "step": 93000
    },
    {
      "epoch": 7.61897001303781,
      "grad_norm": 4.509227275848389,
      "learning_rate": 0.0001476205997392438,
      "loss": 0.3933,
      "step": 93500
    },
    {
      "epoch": 7.659713168187745,
      "grad_norm": 5.531521797180176,
      "learning_rate": 0.0001468057366362451,
      "loss": 0.3859,
      "step": 94000
    },
    {
      "epoch": 7.700456323337679,
      "grad_norm": 5.2612199783325195,
      "learning_rate": 0.0001459908735332464,
      "loss": 0.3936,
      "step": 94500
    },
    {
      "epoch": 7.741199478487614,
      "grad_norm": 4.627740383148193,
      "learning_rate": 0.0001451760104302477,
      "loss": 0.3887,
      "step": 95000
    },
    {
      "epoch": 7.781942633637549,
      "grad_norm": 6.574594020843506,
      "learning_rate": 0.00014436114732724903,
      "loss": 0.3967,
      "step": 95500
    },
    {
      "epoch": 7.822685788787483,
      "grad_norm": 5.698920726776123,
      "learning_rate": 0.00014354628422425032,
      "loss": 0.3921,
      "step": 96000
    },
    {
      "epoch": 7.863428943937419,
      "grad_norm": 5.864577770233154,
      "learning_rate": 0.0001427314211212516,
      "loss": 0.3956,
      "step": 96500
    },
    {
      "epoch": 7.904172099087353,
      "grad_norm": 6.24297571182251,
      "learning_rate": 0.00014191655801825293,
      "loss": 0.3858,
      "step": 97000
    },
    {
      "epoch": 7.944915254237288,
      "grad_norm": 8.538432121276855,
      "learning_rate": 0.00014110169491525422,
      "loss": 0.3908,
      "step": 97500
    },
    {
      "epoch": 7.985658409387223,
      "grad_norm": 7.12125301361084,
      "learning_rate": 0.00014028683181225551,
      "loss": 0.383,
      "step": 98000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.8289156556129456,
      "eval_loss": 0.44527527689933777,
      "eval_runtime": 1.3229,
      "eval_samples_per_second": 1882.174,
      "eval_steps_per_second": 235.839,
      "step": 98176
    },
    {
      "epoch": 8.026401564537158,
      "grad_norm": 7.813417434692383,
      "learning_rate": 0.00013947196870925683,
      "loss": 0.3787,
      "step": 98500
    },
    {
      "epoch": 8.067144719687093,
      "grad_norm": 3.498260974884033,
      "learning_rate": 0.00013865710560625815,
      "loss": 0.364,
      "step": 99000
    },
    {
      "epoch": 8.107887874837028,
      "grad_norm": 9.351615905761719,
      "learning_rate": 0.00013784224250325944,
      "loss": 0.3563,
      "step": 99500
    },
    {
      "epoch": 8.148631029986962,
      "grad_norm": 7.781288146972656,
      "learning_rate": 0.00013702737940026073,
      "loss": 0.3716,
      "step": 100000
    },
    {
      "epoch": 8.189374185136897,
      "grad_norm": 5.724454879760742,
      "learning_rate": 0.00013621251629726205,
      "loss": 0.3652,
      "step": 100500
    },
    {
      "epoch": 8.230117340286832,
      "grad_norm": 9.131338119506836,
      "learning_rate": 0.00013539765319426334,
      "loss": 0.3612,
      "step": 101000
    },
    {
      "epoch": 8.270860495436766,
      "grad_norm": 5.579758167266846,
      "learning_rate": 0.00013458279009126466,
      "loss": 0.3572,
      "step": 101500
    },
    {
      "epoch": 8.3116036505867,
      "grad_norm": 6.081691265106201,
      "learning_rate": 0.00013376792698826596,
      "loss": 0.3676,
      "step": 102000
    },
    {
      "epoch": 8.352346805736635,
      "grad_norm": 6.019130229949951,
      "learning_rate": 0.00013295306388526727,
      "loss": 0.3736,
      "step": 102500
    },
    {
      "epoch": 8.393089960886572,
      "grad_norm": 6.4277520179748535,
      "learning_rate": 0.00013213820078226857,
      "loss": 0.3751,
      "step": 103000
    },
    {
      "epoch": 8.433833116036507,
      "grad_norm": 5.163478851318359,
      "learning_rate": 0.00013132333767926986,
      "loss": 0.3644,
      "step": 103500
    },
    {
      "epoch": 8.474576271186441,
      "grad_norm": 8.87482738494873,
      "learning_rate": 0.00013050847457627118,
      "loss": 0.3773,
      "step": 104000
    },
    {
      "epoch": 8.515319426336376,
      "grad_norm": 8.43389892578125,
      "learning_rate": 0.00012969361147327247,
      "loss": 0.3719,
      "step": 104500
    },
    {
      "epoch": 8.55606258148631,
      "grad_norm": 8.175873756408691,
      "learning_rate": 0.00012887874837027379,
      "loss": 0.3705,
      "step": 105000
    },
    {
      "epoch": 8.596805736636245,
      "grad_norm": 8.418452262878418,
      "learning_rate": 0.00012806388526727508,
      "loss": 0.3659,
      "step": 105500
    },
    {
      "epoch": 8.63754889178618,
      "grad_norm": 8.548479080200195,
      "learning_rate": 0.0001272490221642764,
      "loss": 0.3717,
      "step": 106000
    },
    {
      "epoch": 8.678292046936114,
      "grad_norm": 10.910712242126465,
      "learning_rate": 0.0001264341590612777,
      "loss": 0.3781,
      "step": 106500
    },
    {
      "epoch": 8.719035202086049,
      "grad_norm": 8.324716567993164,
      "learning_rate": 0.000125619295958279,
      "loss": 0.374,
      "step": 107000
    },
    {
      "epoch": 8.759778357235984,
      "grad_norm": 5.817783355712891,
      "learning_rate": 0.0001248044328552803,
      "loss": 0.3832,
      "step": 107500
    },
    {
      "epoch": 8.800521512385918,
      "grad_norm": 9.91129207611084,
      "learning_rate": 0.0001239895697522816,
      "loss": 0.3654,
      "step": 108000
    },
    {
      "epoch": 8.841264667535853,
      "grad_norm": 8.04560375213623,
      "learning_rate": 0.0001231747066492829,
      "loss": 0.3699,
      "step": 108500
    },
    {
      "epoch": 8.88200782268579,
      "grad_norm": 11.4994535446167,
      "learning_rate": 0.00012235984354628423,
      "loss": 0.3781,
      "step": 109000
    },
    {
      "epoch": 8.922750977835724,
      "grad_norm": 4.676961421966553,
      "learning_rate": 0.0001215449804432855,
      "loss": 0.3687,
      "step": 109500
    },
    {
      "epoch": 8.963494132985659,
      "grad_norm": 6.12169885635376,
      "learning_rate": 0.00012073011734028682,
      "loss": 0.3747,
      "step": 110000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.827309250831604,
      "eval_loss": 0.46961989998817444,
      "eval_runtime": 1.3213,
      "eval_samples_per_second": 1884.538,
      "eval_steps_per_second": 236.135,
      "step": 110448
    },
    {
      "epoch": 9.004237288135593,
      "grad_norm": 6.265937328338623,
      "learning_rate": 0.00011991525423728813,
      "loss": 0.3752,
      "step": 110500
    },
    {
      "epoch": 9.044980443285528,
      "grad_norm": 6.089844703674316,
      "learning_rate": 0.00011910039113428943,
      "loss": 0.3437,
      "step": 111000
    },
    {
      "epoch": 9.085723598435463,
      "grad_norm": 7.488919258117676,
      "learning_rate": 0.00011828552803129073,
      "loss": 0.3527,
      "step": 111500
    },
    {
      "epoch": 9.126466753585397,
      "grad_norm": 6.6519880294799805,
      "learning_rate": 0.00011747066492829203,
      "loss": 0.3472,
      "step": 112000
    },
    {
      "epoch": 9.167209908735332,
      "grad_norm": 7.983816146850586,
      "learning_rate": 0.00011665580182529335,
      "loss": 0.3488,
      "step": 112500
    },
    {
      "epoch": 9.207953063885267,
      "grad_norm": 13.244793891906738,
      "learning_rate": 0.00011584093872229466,
      "loss": 0.3501,
      "step": 113000
    },
    {
      "epoch": 9.248696219035201,
      "grad_norm": 6.926385402679443,
      "learning_rate": 0.00011502607561929595,
      "loss": 0.3453,
      "step": 113500
    },
    {
      "epoch": 9.289439374185136,
      "grad_norm": 7.311298847198486,
      "learning_rate": 0.00011421121251629725,
      "loss": 0.3503,
      "step": 114000
    },
    {
      "epoch": 9.330182529335072,
      "grad_norm": 9.733807563781738,
      "learning_rate": 0.00011339634941329856,
      "loss": 0.3468,
      "step": 114500
    },
    {
      "epoch": 9.370925684485007,
      "grad_norm": 7.297422409057617,
      "learning_rate": 0.00011258148631029986,
      "loss": 0.348,
      "step": 115000
    },
    {
      "epoch": 9.411668839634942,
      "grad_norm": 6.385975360870361,
      "learning_rate": 0.00011176662320730115,
      "loss": 0.3488,
      "step": 115500
    },
    {
      "epoch": 9.452411994784876,
      "grad_norm": 8.360762596130371,
      "learning_rate": 0.00011095176010430247,
      "loss": 0.3566,
      "step": 116000
    },
    {
      "epoch": 9.493155149934811,
      "grad_norm": 6.85322380065918,
      "learning_rate": 0.00011013689700130378,
      "loss": 0.3539,
      "step": 116500
    },
    {
      "epoch": 9.533898305084746,
      "grad_norm": 4.121145725250244,
      "learning_rate": 0.00010932203389830507,
      "loss": 0.3479,
      "step": 117000
    },
    {
      "epoch": 9.57464146023468,
      "grad_norm": 7.666519641876221,
      "learning_rate": 0.00010850717079530637,
      "loss": 0.3596,
      "step": 117500
    },
    {
      "epoch": 9.615384615384615,
      "grad_norm": 3.9264354705810547,
      "learning_rate": 0.00010769230769230768,
      "loss": 0.3528,
      "step": 118000
    },
    {
      "epoch": 9.65612777053455,
      "grad_norm": 4.1888628005981445,
      "learning_rate": 0.00010687744458930898,
      "loss": 0.3551,
      "step": 118500
    },
    {
      "epoch": 9.696870925684484,
      "grad_norm": 7.83024787902832,
      "learning_rate": 0.00010606258148631028,
      "loss": 0.352,
      "step": 119000
    },
    {
      "epoch": 9.737614080834419,
      "grad_norm": 7.1189775466918945,
      "learning_rate": 0.0001052477183833116,
      "loss": 0.3518,
      "step": 119500
    },
    {
      "epoch": 9.778357235984355,
      "grad_norm": 4.77902889251709,
      "learning_rate": 0.0001044328552803129,
      "loss": 0.3597,
      "step": 120000
    },
    {
      "epoch": 9.81910039113429,
      "grad_norm": 4.481916904449463,
      "learning_rate": 0.0001036179921773142,
      "loss": 0.3545,
      "step": 120500
    },
    {
      "epoch": 9.859843546284225,
      "grad_norm": 6.678202152252197,
      "learning_rate": 0.0001028031290743155,
      "loss": 0.3594,
      "step": 121000
    },
    {
      "epoch": 9.90058670143416,
      "grad_norm": 7.169829368591309,
      "learning_rate": 0.0001019882659713168,
      "loss": 0.3671,
      "step": 121500
    },
    {
      "epoch": 9.941329856584094,
      "grad_norm": 6.8596954345703125,
      "learning_rate": 0.00010117340286831812,
      "loss": 0.3573,
      "step": 122000
    },
    {
      "epoch": 9.982073011734029,
      "grad_norm": 5.630370616912842,
      "learning_rate": 0.00010035853976531943,
      "loss": 0.358,
      "step": 122500
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.8216867446899414,
      "eval_loss": 0.4697018563747406,
      "eval_runtime": 1.4536,
      "eval_samples_per_second": 1712.939,
      "eval_steps_per_second": 214.633,
      "step": 122720
    },
    {
      "epoch": 10.022816166883963,
      "grad_norm": 7.8582563400268555,
      "learning_rate": 9.954367666232072e-05,
      "loss": 0.3421,
      "step": 123000
    },
    {
      "epoch": 10.063559322033898,
      "grad_norm": 5.61686897277832,
      "learning_rate": 9.872881355932202e-05,
      "loss": 0.3366,
      "step": 123500
    },
    {
      "epoch": 10.104302477183833,
      "grad_norm": 4.817770481109619,
      "learning_rate": 9.791395045632333e-05,
      "loss": 0.3324,
      "step": 124000
    },
    {
      "epoch": 10.145045632333767,
      "grad_norm": 7.12018346786499,
      "learning_rate": 9.709908735332463e-05,
      "loss": 0.3396,
      "step": 124500
    },
    {
      "epoch": 10.185788787483702,
      "grad_norm": 7.464737892150879,
      "learning_rate": 9.628422425032592e-05,
      "loss": 0.328,
      "step": 125000
    },
    {
      "epoch": 10.226531942633638,
      "grad_norm": 6.617951393127441,
      "learning_rate": 9.546936114732724e-05,
      "loss": 0.3322,
      "step": 125500
    },
    {
      "epoch": 10.267275097783573,
      "grad_norm": 5.367532253265381,
      "learning_rate": 9.465449804432855e-05,
      "loss": 0.3381,
      "step": 126000
    },
    {
      "epoch": 10.308018252933508,
      "grad_norm": 5.73697566986084,
      "learning_rate": 9.383963494132985e-05,
      "loss": 0.3373,
      "step": 126500
    },
    {
      "epoch": 10.348761408083442,
      "grad_norm": 6.999211311340332,
      "learning_rate": 9.302477183833115e-05,
      "loss": 0.3492,
      "step": 127000
    },
    {
      "epoch": 10.389504563233377,
      "grad_norm": 8.014629364013672,
      "learning_rate": 9.220990873533245e-05,
      "loss": 0.3357,
      "step": 127500
    },
    {
      "epoch": 10.430247718383312,
      "grad_norm": 2.979501247406006,
      "learning_rate": 9.139504563233377e-05,
      "loss": 0.3454,
      "step": 128000
    },
    {
      "epoch": 10.470990873533246,
      "grad_norm": 6.654340744018555,
      "learning_rate": 9.058018252933507e-05,
      "loss": 0.3341,
      "step": 128500
    },
    {
      "epoch": 10.51173402868318,
      "grad_norm": 12.858227729797363,
      "learning_rate": 8.976531942633637e-05,
      "loss": 0.3374,
      "step": 129000
    },
    {
      "epoch": 10.552477183833116,
      "grad_norm": 5.78167200088501,
      "learning_rate": 8.895045632333767e-05,
      "loss": 0.3355,
      "step": 129500
    },
    {
      "epoch": 10.59322033898305,
      "grad_norm": 5.449274063110352,
      "learning_rate": 8.813559322033898e-05,
      "loss": 0.3319,
      "step": 130000
    },
    {
      "epoch": 10.633963494132985,
      "grad_norm": 5.581720352172852,
      "learning_rate": 8.732073011734028e-05,
      "loss": 0.3368,
      "step": 130500
    },
    {
      "epoch": 10.674706649282921,
      "grad_norm": 4.549544811248779,
      "learning_rate": 8.650586701434157e-05,
      "loss": 0.337,
      "step": 131000
    },
    {
      "epoch": 10.715449804432856,
      "grad_norm": 7.047801971435547,
      "learning_rate": 8.569100391134289e-05,
      "loss": 0.3379,
      "step": 131500
    },
    {
      "epoch": 10.75619295958279,
      "grad_norm": 6.940357208251953,
      "learning_rate": 8.48761408083442e-05,
      "loss": 0.3346,
      "step": 132000
    },
    {
      "epoch": 10.796936114732725,
      "grad_norm": 7.460022926330566,
      "learning_rate": 8.406127770534549e-05,
      "loss": 0.3376,
      "step": 132500
    },
    {
      "epoch": 10.83767926988266,
      "grad_norm": 6.966940402984619,
      "learning_rate": 8.32464146023468e-05,
      "loss": 0.3411,
      "step": 133000
    },
    {
      "epoch": 10.878422425032594,
      "grad_norm": 10.613677024841309,
      "learning_rate": 8.24315514993481e-05,
      "loss": 0.3327,
      "step": 133500
    },
    {
      "epoch": 10.91916558018253,
      "grad_norm": 10.274152755737305,
      "learning_rate": 8.161668839634942e-05,
      "loss": 0.3473,
      "step": 134000
    },
    {
      "epoch": 10.959908735332464,
      "grad_norm": 7.0212531089782715,
      "learning_rate": 8.080182529335071e-05,
      "loss": 0.3303,
      "step": 134500
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.8317269086837769,
      "eval_loss": 0.4647621810436249,
      "eval_runtime": 1.3255,
      "eval_samples_per_second": 1878.604,
      "eval_steps_per_second": 235.391,
      "step": 134992
    },
    {
      "epoch": 11.000651890482398,
      "grad_norm": 8.909475326538086,
      "learning_rate": 7.998696219035201e-05,
      "loss": 0.3416,
      "step": 135000
    },
    {
      "epoch": 11.041395045632333,
      "grad_norm": 4.088283538818359,
      "learning_rate": 7.917209908735332e-05,
      "loss": 0.3166,
      "step": 135500
    },
    {
      "epoch": 11.082138200782268,
      "grad_norm": 9.196639060974121,
      "learning_rate": 7.835723598435462e-05,
      "loss": 0.3051,
      "step": 136000
    },
    {
      "epoch": 11.122881355932204,
      "grad_norm": 10.478038787841797,
      "learning_rate": 7.754237288135592e-05,
      "loss": 0.313,
      "step": 136500
    },
    {
      "epoch": 11.163624511082139,
      "grad_norm": 4.56273889541626,
      "learning_rate": 7.672750977835722e-05,
      "loss": 0.309,
      "step": 137000
    },
    {
      "epoch": 11.204367666232073,
      "grad_norm": 4.975307941436768,
      "learning_rate": 7.591264667535854e-05,
      "loss": 0.3155,
      "step": 137500
    },
    {
      "epoch": 11.245110821382008,
      "grad_norm": 5.600803852081299,
      "learning_rate": 7.509778357235985e-05,
      "loss": 0.3149,
      "step": 138000
    },
    {
      "epoch": 11.285853976531943,
      "grad_norm": 7.03154993057251,
      "learning_rate": 7.428292046936114e-05,
      "loss": 0.3152,
      "step": 138500
    },
    {
      "epoch": 11.326597131681877,
      "grad_norm": 8.76091194152832,
      "learning_rate": 7.346805736636244e-05,
      "loss": 0.312,
      "step": 139000
    },
    {
      "epoch": 11.367340286831812,
      "grad_norm": 9.583663940429688,
      "learning_rate": 7.265319426336375e-05,
      "loss": 0.3243,
      "step": 139500
    },
    {
      "epoch": 11.408083441981747,
      "grad_norm": 9.958258628845215,
      "learning_rate": 7.183833116036505e-05,
      "loss": 0.3181,
      "step": 140000
    },
    {
      "epoch": 11.448826597131681,
      "grad_norm": 3.404904365539551,
      "learning_rate": 7.102346805736636e-05,
      "loss": 0.3163,
      "step": 140500
    },
    {
      "epoch": 11.489569752281616,
      "grad_norm": 9.134025573730469,
      "learning_rate": 7.020860495436766e-05,
      "loss": 0.3177,
      "step": 141000
    },
    {
      "epoch": 11.53031290743155,
      "grad_norm": 6.284767150878906,
      "learning_rate": 6.939374185136897e-05,
      "loss": 0.3191,
      "step": 141500
    },
    {
      "epoch": 11.571056062581487,
      "grad_norm": 7.031715393066406,
      "learning_rate": 6.857887874837027e-05,
      "loss": 0.3317,
      "step": 142000
    },
    {
      "epoch": 11.611799217731422,
      "grad_norm": 7.3375701904296875,
      "learning_rate": 6.776401564537158e-05,
      "loss": 0.3267,
      "step": 142500
    },
    {
      "epoch": 11.652542372881356,
      "grad_norm": 8.83748722076416,
      "learning_rate": 6.694915254237287e-05,
      "loss": 0.3224,
      "step": 143000
    },
    {
      "epoch": 11.693285528031291,
      "grad_norm": 6.867518424987793,
      "learning_rate": 6.613428943937419e-05,
      "loss": 0.3198,
      "step": 143500
    },
    {
      "epoch": 11.734028683181226,
      "grad_norm": 5.260651588439941,
      "learning_rate": 6.531942633637548e-05,
      "loss": 0.334,
      "step": 144000
    },
    {
      "epoch": 11.77477183833116,
      "grad_norm": 10.229621887207031,
      "learning_rate": 6.450456323337679e-05,
      "loss": 0.323,
      "step": 144500
    },
    {
      "epoch": 11.815514993481095,
      "grad_norm": 6.193679332733154,
      "learning_rate": 6.368970013037809e-05,
      "loss": 0.3199,
      "step": 145000
    },
    {
      "epoch": 11.85625814863103,
      "grad_norm": 12.822961807250977,
      "learning_rate": 6.28748370273794e-05,
      "loss": 0.3147,
      "step": 145500
    },
    {
      "epoch": 11.897001303780964,
      "grad_norm": 5.895133018493652,
      "learning_rate": 6.20599739243807e-05,
      "loss": 0.3224,
      "step": 146000
    },
    {
      "epoch": 11.937744458930899,
      "grad_norm": 7.426725387573242,
      "learning_rate": 6.124511082138199e-05,
      "loss": 0.3225,
      "step": 146500
    },
    {
      "epoch": 11.978487614080834,
      "grad_norm": 7.344216346740723,
      "learning_rate": 6.0430247718383304e-05,
      "loss": 0.3217,
      "step": 147000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.8385542035102844,
      "eval_loss": 0.46182990074157715,
      "eval_runtime": 1.3337,
      "eval_samples_per_second": 1867.055,
      "eval_steps_per_second": 233.944,
      "step": 147264
    },
    {
      "epoch": 12.01923076923077,
      "grad_norm": 10.5087308883667,
      "learning_rate": 5.961538461538461e-05,
      "loss": 0.3042,
      "step": 147500
    },
    {
      "epoch": 12.059973924380705,
      "grad_norm": 8.808194160461426,
      "learning_rate": 5.8800521512385915e-05,
      "loss": 0.3082,
      "step": 148000
    },
    {
      "epoch": 12.10071707953064,
      "grad_norm": 7.892021656036377,
      "learning_rate": 5.798565840938721e-05,
      "loss": 0.3056,
      "step": 148500
    },
    {
      "epoch": 12.141460234680574,
      "grad_norm": 15.09066390991211,
      "learning_rate": 5.7170795306388525e-05,
      "loss": 0.3009,
      "step": 149000
    },
    {
      "epoch": 12.182203389830509,
      "grad_norm": 5.65404748916626,
      "learning_rate": 5.6355932203389824e-05,
      "loss": 0.2953,
      "step": 149500
    },
    {
      "epoch": 12.222946544980443,
      "grad_norm": 5.266693592071533,
      "learning_rate": 5.554106910039113e-05,
      "loss": 0.3039,
      "step": 150000
    },
    {
      "epoch": 12.263689700130378,
      "grad_norm": 5.97900390625,
      "learning_rate": 5.4726205997392434e-05,
      "loss": 0.3092,
      "step": 150500
    },
    {
      "epoch": 12.304432855280313,
      "grad_norm": 5.256963729858398,
      "learning_rate": 5.391134289439374e-05,
      "loss": 0.3038,
      "step": 151000
    },
    {
      "epoch": 12.345176010430247,
      "grad_norm": 4.532575607299805,
      "learning_rate": 5.309647979139504e-05,
      "loss": 0.3036,
      "step": 151500
    },
    {
      "epoch": 12.385919165580182,
      "grad_norm": 13.202447891235352,
      "learning_rate": 5.228161668839635e-05,
      "loss": 0.3082,
      "step": 152000
    },
    {
      "epoch": 12.426662320730117,
      "grad_norm": 4.857356071472168,
      "learning_rate": 5.146675358539765e-05,
      "loss": 0.3152,
      "step": 152500
    },
    {
      "epoch": 12.467405475880053,
      "grad_norm": 12.999934196472168,
      "learning_rate": 5.065189048239895e-05,
      "loss": 0.2988,
      "step": 153000
    },
    {
      "epoch": 12.508148631029988,
      "grad_norm": 11.07997989654541,
      "learning_rate": 4.983702737940025e-05,
      "loss": 0.2916,
      "step": 153500
    },
    {
      "epoch": 12.548891786179922,
      "grad_norm": 10.225973129272461,
      "learning_rate": 4.902216427640156e-05,
      "loss": 0.3082,
      "step": 154000
    },
    {
      "epoch": 12.589634941329857,
      "grad_norm": 6.595233917236328,
      "learning_rate": 4.820730117340286e-05,
      "loss": 0.2983,
      "step": 154500
    },
    {
      "epoch": 12.630378096479792,
      "grad_norm": 11.456032752990723,
      "learning_rate": 4.7392438070404173e-05,
      "loss": 0.2993,
      "step": 155000
    },
    {
      "epoch": 12.671121251629726,
      "grad_norm": 3.197129964828491,
      "learning_rate": 4.657757496740547e-05,
      "loss": 0.3092,
      "step": 155500
    },
    {
      "epoch": 12.711864406779661,
      "grad_norm": 9.233892440795898,
      "learning_rate": 4.576271186440678e-05,
      "loss": 0.3147,
      "step": 156000
    },
    {
      "epoch": 12.752607561929596,
      "grad_norm": 9.97753620147705,
      "learning_rate": 4.4947848761408075e-05,
      "loss": 0.3096,
      "step": 156500
    },
    {
      "epoch": 12.79335071707953,
      "grad_norm": 4.499653339385986,
      "learning_rate": 4.413298565840939e-05,
      "loss": 0.3133,
      "step": 157000
    },
    {
      "epoch": 12.834093872229465,
      "grad_norm": 10.976215362548828,
      "learning_rate": 4.3318122555410686e-05,
      "loss": 0.3072,
      "step": 157500
    },
    {
      "epoch": 12.8748370273794,
      "grad_norm": 6.7622222900390625,
      "learning_rate": 4.2503259452412e-05,
      "loss": 0.3022,
      "step": 158000
    },
    {
      "epoch": 12.915580182529336,
      "grad_norm": 4.525916576385498,
      "learning_rate": 4.1688396349413296e-05,
      "loss": 0.3007,
      "step": 158500
    },
    {
      "epoch": 12.95632333767927,
      "grad_norm": 5.4914937019348145,
      "learning_rate": 4.08735332464146e-05,
      "loss": 0.3018,
      "step": 159000
    },
    {
      "epoch": 12.997066492829205,
      "grad_norm": 2.6769869327545166,
      "learning_rate": 4.00586701434159e-05,
      "loss": 0.31,
      "step": 159500
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.8333333134651184,
      "eval_loss": 0.4795839488506317,
      "eval_runtime": 1.334,
      "eval_samples_per_second": 1866.506,
      "eval_steps_per_second": 233.875,
      "step": 159536
    },
    {
      "epoch": 13.03780964797914,
      "grad_norm": 10.202288627624512,
      "learning_rate": 3.924380704041721e-05,
      "loss": 0.2912,
      "step": 160000
    },
    {
      "epoch": 13.078552803129075,
      "grad_norm": 10.005829811096191,
      "learning_rate": 3.842894393741851e-05,
      "loss": 0.2903,
      "step": 160500
    },
    {
      "epoch": 13.11929595827901,
      "grad_norm": 8.387802124023438,
      "learning_rate": 3.761408083441981e-05,
      "loss": 0.2958,
      "step": 161000
    },
    {
      "epoch": 13.160039113428944,
      "grad_norm": 8.90290355682373,
      "learning_rate": 3.679921773142112e-05,
      "loss": 0.2888,
      "step": 161500
    },
    {
      "epoch": 13.200782268578878,
      "grad_norm": 5.165438652038574,
      "learning_rate": 3.5984354628422425e-05,
      "loss": 0.2893,
      "step": 162000
    },
    {
      "epoch": 13.241525423728813,
      "grad_norm": 2.830979347229004,
      "learning_rate": 3.5169491525423724e-05,
      "loss": 0.2853,
      "step": 162500
    },
    {
      "epoch": 13.282268578878748,
      "grad_norm": 2.843163013458252,
      "learning_rate": 3.435462842242503e-05,
      "loss": 0.2959,
      "step": 163000
    },
    {
      "epoch": 13.323011734028682,
      "grad_norm": 4.648179054260254,
      "learning_rate": 3.3539765319426334e-05,
      "loss": 0.284,
      "step": 163500
    },
    {
      "epoch": 13.363754889178619,
      "grad_norm": 5.032766342163086,
      "learning_rate": 3.272490221642764e-05,
      "loss": 0.2878,
      "step": 164000
    },
    {
      "epoch": 13.404498044328554,
      "grad_norm": 7.90156888961792,
      "learning_rate": 3.1910039113428944e-05,
      "loss": 0.2875,
      "step": 164500
    },
    {
      "epoch": 13.445241199478488,
      "grad_norm": 11.70608139038086,
      "learning_rate": 3.109517601043025e-05,
      "loss": 0.2878,
      "step": 165000
    },
    {
      "epoch": 13.485984354628423,
      "grad_norm": 5.858490943908691,
      "learning_rate": 3.028031290743155e-05,
      "loss": 0.2937,
      "step": 165500
    },
    {
      "epoch": 13.526727509778357,
      "grad_norm": 6.127008438110352,
      "learning_rate": 2.9465449804432853e-05,
      "loss": 0.3018,
      "step": 166000
    },
    {
      "epoch": 13.567470664928292,
      "grad_norm": 4.150237083435059,
      "learning_rate": 2.8650586701434158e-05,
      "loss": 0.2872,
      "step": 166500
    },
    {
      "epoch": 13.608213820078227,
      "grad_norm": 7.22696590423584,
      "learning_rate": 2.7835723598435463e-05,
      "loss": 0.2961,
      "step": 167000
    },
    {
      "epoch": 13.648956975228161,
      "grad_norm": 6.957706928253174,
      "learning_rate": 2.7020860495436762e-05,
      "loss": 0.2959,
      "step": 167500
    },
    {
      "epoch": 13.689700130378096,
      "grad_norm": 4.021911144256592,
      "learning_rate": 2.6205997392438067e-05,
      "loss": 0.2987,
      "step": 168000
    },
    {
      "epoch": 13.73044328552803,
      "grad_norm": 8.233077049255371,
      "learning_rate": 2.539113428943937e-05,
      "loss": 0.2836,
      "step": 168500
    },
    {
      "epoch": 13.771186440677965,
      "grad_norm": 7.3989996910095215,
      "learning_rate": 2.4576271186440674e-05,
      "loss": 0.2933,
      "step": 169000
    },
    {
      "epoch": 13.811929595827902,
      "grad_norm": 8.355257034301758,
      "learning_rate": 2.376140808344198e-05,
      "loss": 0.2952,
      "step": 169500
    },
    {
      "epoch": 13.852672750977836,
      "grad_norm": 5.879607677459717,
      "learning_rate": 2.294654498044328e-05,
      "loss": 0.2905,
      "step": 170000
    },
    {
      "epoch": 13.893415906127771,
      "grad_norm": 5.699237823486328,
      "learning_rate": 2.2131681877444586e-05,
      "loss": 0.2831,
      "step": 170500
    },
    {
      "epoch": 13.934159061277706,
      "grad_norm": 8.38525676727295,
      "learning_rate": 2.131681877444589e-05,
      "loss": 0.2875,
      "step": 171000
    },
    {
      "epoch": 13.97490221642764,
      "grad_norm": 6.9236884117126465,
      "learning_rate": 2.0501955671447193e-05,
      "loss": 0.2831,
      "step": 171500
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.8329316973686218,
      "eval_loss": 0.47016894817352295,
      "eval_runtime": 1.3327,
      "eval_samples_per_second": 1868.413,
      "eval_steps_per_second": 234.114,
      "step": 171808
    },
    {
      "epoch": 14.015645371577575,
      "grad_norm": 9.040024757385254,
      "learning_rate": 1.9687092568448498e-05,
      "loss": 0.2883,
      "step": 172000
    },
    {
      "epoch": 14.05638852672751,
      "grad_norm": 6.120582580566406,
      "learning_rate": 1.8872229465449803e-05,
      "loss": 0.2801,
      "step": 172500
    },
    {
      "epoch": 14.097131681877444,
      "grad_norm": 6.5708231925964355,
      "learning_rate": 1.8057366362451105e-05,
      "loss": 0.2812,
      "step": 173000
    },
    {
      "epoch": 14.137874837027379,
      "grad_norm": 5.712596416473389,
      "learning_rate": 1.724250325945241e-05,
      "loss": 0.2755,
      "step": 173500
    },
    {
      "epoch": 14.178617992177314,
      "grad_norm": 7.235519886016846,
      "learning_rate": 1.6427640156453715e-05,
      "loss": 0.2783,
      "step": 174000
    },
    {
      "epoch": 14.219361147327248,
      "grad_norm": 5.238685131072998,
      "learning_rate": 1.5612777053455017e-05,
      "loss": 0.2853,
      "step": 174500
    },
    {
      "epoch": 14.260104302477185,
      "grad_norm": 13.084671974182129,
      "learning_rate": 1.4797913950456322e-05,
      "loss": 0.2821,
      "step": 175000
    },
    {
      "epoch": 14.30084745762712,
      "grad_norm": 7.484078884124756,
      "learning_rate": 1.3983050847457626e-05,
      "loss": 0.2752,
      "step": 175500
    },
    {
      "epoch": 14.341590612777054,
      "grad_norm": 10.945302963256836,
      "learning_rate": 1.3168187744458931e-05,
      "loss": 0.2762,
      "step": 176000
    },
    {
      "epoch": 14.382333767926989,
      "grad_norm": 7.497392654418945,
      "learning_rate": 1.2353324641460234e-05,
      "loss": 0.2746,
      "step": 176500
    },
    {
      "epoch": 14.423076923076923,
      "grad_norm": 7.040989398956299,
      "learning_rate": 1.1538461538461538e-05,
      "loss": 0.2714,
      "step": 177000
    },
    {
      "epoch": 14.463820078226858,
      "grad_norm": 6.180129051208496,
      "learning_rate": 1.0723598435462841e-05,
      "loss": 0.2803,
      "step": 177500
    },
    {
      "epoch": 14.504563233376793,
      "grad_norm": 7.157106876373291,
      "learning_rate": 9.908735332464146e-06,
      "loss": 0.2806,
      "step": 178000
    },
    {
      "epoch": 14.545306388526727,
      "grad_norm": 7.6546549797058105,
      "learning_rate": 9.093872229465448e-06,
      "loss": 0.2743,
      "step": 178500
    },
    {
      "epoch": 14.586049543676662,
      "grad_norm": 12.521781921386719,
      "learning_rate": 8.279009126466753e-06,
      "loss": 0.2767,
      "step": 179000
    },
    {
      "epoch": 14.626792698826597,
      "grad_norm": 8.26363468170166,
      "learning_rate": 7.464146023468057e-06,
      "loss": 0.2786,
      "step": 179500
    },
    {
      "epoch": 14.667535853976531,
      "grad_norm": 11.818924903869629,
      "learning_rate": 6.649282920469361e-06,
      "loss": 0.2793,
      "step": 180000
    },
    {
      "epoch": 14.708279009126468,
      "grad_norm": 6.852982044219971,
      "learning_rate": 5.834419817470664e-06,
      "loss": 0.278,
      "step": 180500
    },
    {
      "epoch": 14.749022164276402,
      "grad_norm": 9.380203247070312,
      "learning_rate": 5.019556714471968e-06,
      "loss": 0.2865,
      "step": 181000
    },
    {
      "epoch": 14.789765319426337,
      "grad_norm": 9.000452041625977,
      "learning_rate": 4.2046936114732716e-06,
      "loss": 0.2724,
      "step": 181500
    },
    {
      "epoch": 14.830508474576272,
      "grad_norm": 10.235718727111816,
      "learning_rate": 3.389830508474576e-06,
      "loss": 0.2848,
      "step": 182000
    },
    {
      "epoch": 14.871251629726206,
      "grad_norm": 10.63862419128418,
      "learning_rate": 2.5749674054758798e-06,
      "loss": 0.2727,
      "step": 182500
    },
    {
      "epoch": 14.911994784876141,
      "grad_norm": 5.451516628265381,
      "learning_rate": 1.7601043024771837e-06,
      "loss": 0.2792,
      "step": 183000
    },
    {
      "epoch": 14.952737940026076,
      "grad_norm": 9.59731388092041,
      "learning_rate": 9.452411994784876e-07,
      "loss": 0.2769,
      "step": 183500
    },
    {
      "epoch": 14.99348109517601,
      "grad_norm": 8.583584785461426,
      "learning_rate": 1.303780964797914e-07,
      "loss": 0.2847,
      "step": 184000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.8361445665359497,
      "eval_loss": 0.4780777394771576,
      "eval_runtime": 1.3244,
      "eval_samples_per_second": 1880.148,
      "eval_steps_per_second": 235.585,
      "step": 184080
    },
    {
      "epoch": 15.0,
      "step": 184080,
      "total_flos": 3.9548824343529984e+17,
      "train_loss": 0.39708766919641275,
      "train_runtime": 5187.75,
      "train_samples_per_second": 1135.469,
      "train_steps_per_second": 35.484
    }
  ],
  "logging_steps": 500,
  "max_steps": 184080,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 15,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.9548824343529984e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}