{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 9.991755976916735,
  "eval_steps": 500,
  "global_step": 6060,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0016488046166529267,
      "grad_norm": 380.0,
      "learning_rate": 3.300330033003301e-07,
      "loss": 35.4867,
      "step": 1
    },
    {
      "epoch": 0.008244023083264633,
      "grad_norm": 308.0,
      "learning_rate": 1.65016501650165e-06,
      "loss": 34.8873,
      "step": 5
    },
    {
      "epoch": 0.016488046166529265,
      "grad_norm": 306.0,
      "learning_rate": 3.3003300330033e-06,
      "loss": 34.9252,
      "step": 10
    },
    {
      "epoch": 0.0247320692497939,
      "grad_norm": 163.0,
      "learning_rate": 4.950495049504951e-06,
      "loss": 31.7188,
      "step": 15
    },
    {
      "epoch": 0.03297609233305853,
      "grad_norm": 110.5,
      "learning_rate": 6.6006600660066e-06,
      "loss": 28.5443,
      "step": 20
    },
    {
      "epoch": 0.041220115416323165,
      "grad_norm": 72.5,
      "learning_rate": 8.250825082508252e-06,
      "loss": 24.1835,
      "step": 25
    },
    {
      "epoch": 0.0494641384995878,
      "grad_norm": 39.5,
      "learning_rate": 9.900990099009901e-06,
      "loss": 21.6514,
      "step": 30
    },
    {
      "epoch": 0.057708161582852434,
      "grad_norm": 19.0,
      "learning_rate": 1.155115511551155e-05,
      "loss": 19.5766,
      "step": 35
    },
    {
      "epoch": 0.06595218466611706,
      "grad_norm": 16.25,
      "learning_rate": 1.32013201320132e-05,
      "loss": 18.5587,
      "step": 40
    },
    {
      "epoch": 0.0741962077493817,
      "grad_norm": 13.125,
      "learning_rate": 1.4851485148514851e-05,
      "loss": 17.2984,
      "step": 45
    },
    {
      "epoch": 0.08244023083264633,
      "grad_norm": 9.375,
      "learning_rate": 1.6501650165016504e-05,
      "loss": 16.2291,
      "step": 50
    },
    {
      "epoch": 0.09068425391591096,
      "grad_norm": 7.5,
      "learning_rate": 1.8151815181518153e-05,
      "loss": 15.5459,
      "step": 55
    },
    {
      "epoch": 0.0989282769991756,
      "grad_norm": 5.1875,
      "learning_rate": 1.9801980198019803e-05,
      "loss": 15.0494,
      "step": 60
    },
    {
      "epoch": 0.10717230008244023,
      "grad_norm": 3.546875,
      "learning_rate": 2.1452145214521452e-05,
      "loss": 14.5263,
      "step": 65
    },
    {
      "epoch": 0.11541632316570487,
      "grad_norm": 3.21875,
      "learning_rate": 2.31023102310231e-05,
      "loss": 14.0492,
      "step": 70
    },
    {
      "epoch": 0.1236603462489695,
      "grad_norm": 3.34375,
      "learning_rate": 2.4752475247524754e-05,
      "loss": 14.0437,
      "step": 75
    },
    {
      "epoch": 0.13190436933223412,
      "grad_norm": 4.03125,
      "learning_rate": 2.64026402640264e-05,
      "loss": 13.4269,
      "step": 80
    },
    {
      "epoch": 0.14014839241549876,
      "grad_norm": 4.46875,
      "learning_rate": 2.8052805280528056e-05,
      "loss": 13.1438,
      "step": 85
    },
    {
      "epoch": 0.1483924154987634,
      "grad_norm": 5.4375,
      "learning_rate": 2.9702970297029702e-05,
      "loss": 12.8682,
      "step": 90
    },
    {
      "epoch": 0.15663643858202803,
      "grad_norm": 7.5625,
      "learning_rate": 3.135313531353136e-05,
      "loss": 12.1682,
      "step": 95
    },
    {
      "epoch": 0.16488046166529266,
      "grad_norm": 9.6875,
      "learning_rate": 3.300330033003301e-05,
      "loss": 11.6708,
      "step": 100
    },
    {
      "epoch": 0.1731244847485573,
      "grad_norm": 13.875,
      "learning_rate": 3.465346534653465e-05,
      "loss": 10.6173,
      "step": 105
    },
    {
      "epoch": 0.18136850783182193,
      "grad_norm": 20.375,
      "learning_rate": 3.6303630363036307e-05,
      "loss": 9.3535,
      "step": 110
    },
    {
      "epoch": 0.18961253091508656,
      "grad_norm": 23.0,
      "learning_rate": 3.7953795379537956e-05,
      "loss": 7.0394,
      "step": 115
    },
    {
      "epoch": 0.1978565539983512,
      "grad_norm": 19.0,
      "learning_rate": 3.9603960396039605e-05,
      "loss": 4.5084,
      "step": 120
    },
    {
      "epoch": 0.20610057708161583,
      "grad_norm": 5.34375,
      "learning_rate": 4.1254125412541255e-05,
      "loss": 2.7198,
      "step": 125
    },
    {
      "epoch": 0.21434460016488047,
      "grad_norm": 1.8671875,
      "learning_rate": 4.2904290429042904e-05,
      "loss": 1.9952,
      "step": 130
    },
    {
      "epoch": 0.2225886232481451,
      "grad_norm": 1.0078125,
      "learning_rate": 4.455445544554456e-05,
      "loss": 1.7411,
      "step": 135
    },
    {
      "epoch": 0.23083264633140974,
      "grad_norm": 0.95703125,
      "learning_rate": 4.62046204620462e-05,
      "loss": 1.5998,
      "step": 140
    },
    {
      "epoch": 0.23907666941467437,
      "grad_norm": 1.0859375,
      "learning_rate": 4.785478547854786e-05,
      "loss": 1.5183,
      "step": 145
    },
    {
      "epoch": 0.247320692497939,
      "grad_norm": 1.28125,
      "learning_rate": 4.950495049504951e-05,
      "loss": 1.4489,
      "step": 150
    },
    {
      "epoch": 0.25556471558120364,
      "grad_norm": 1.09375,
      "learning_rate": 5.115511551155116e-05,
      "loss": 1.3924,
      "step": 155
    },
    {
      "epoch": 0.26380873866446825,
      "grad_norm": 0.703125,
      "learning_rate": 5.28052805280528e-05,
      "loss": 1.3648,
      "step": 160
    },
    {
      "epoch": 0.2720527617477329,
      "grad_norm": 0.71484375,
      "learning_rate": 5.445544554455446e-05,
      "loss": 1.3461,
      "step": 165
    },
    {
      "epoch": 0.2802967848309975,
      "grad_norm": 0.671875,
      "learning_rate": 5.610561056105611e-05,
      "loss": 1.3065,
      "step": 170
    },
    {
      "epoch": 0.2885408079142622,
      "grad_norm": 0.98828125,
      "learning_rate": 5.7755775577557755e-05,
      "loss": 1.2809,
      "step": 175
    },
    {
      "epoch": 0.2967848309975268,
      "grad_norm": 0.640625,
      "learning_rate": 5.9405940594059404e-05,
      "loss": 1.2647,
      "step": 180
    },
    {
      "epoch": 0.30502885408079145,
      "grad_norm": 1.296875,
      "learning_rate": 6.105610561056106e-05,
      "loss": 1.2387,
      "step": 185
    },
    {
      "epoch": 0.31327287716405605,
      "grad_norm": 1.1171875,
      "learning_rate": 6.270627062706272e-05,
      "loss": 1.24,
      "step": 190
    },
    {
      "epoch": 0.3215169002473207,
      "grad_norm": 1.4765625,
      "learning_rate": 6.435643564356436e-05,
      "loss": 1.2108,
      "step": 195
    },
    {
      "epoch": 0.3297609233305853,
      "grad_norm": 1.7578125,
      "learning_rate": 6.600660066006602e-05,
      "loss": 1.2026,
      "step": 200
    },
    {
      "epoch": 0.33800494641385,
      "grad_norm": 1.78125,
      "learning_rate": 6.765676567656766e-05,
      "loss": 1.1894,
      "step": 205
    },
    {
      "epoch": 0.3462489694971146,
      "grad_norm": 1.5234375,
      "learning_rate": 6.93069306930693e-05,
      "loss": 1.2093,
      "step": 210
    },
    {
      "epoch": 0.35449299258037925,
      "grad_norm": 1.0703125,
      "learning_rate": 7.095709570957097e-05,
      "loss": 1.1768,
      "step": 215
    },
    {
      "epoch": 0.36273701566364386,
      "grad_norm": 1.6171875,
      "learning_rate": 7.260726072607261e-05,
      "loss": 1.1946,
      "step": 220
    },
    {
      "epoch": 0.37098103874690846,
      "grad_norm": 2.828125,
      "learning_rate": 7.425742574257426e-05,
      "loss": 1.1678,
      "step": 225
    },
    {
      "epoch": 0.3792250618301731,
      "grad_norm": 1.5,
      "learning_rate": 7.590759075907591e-05,
      "loss": 1.1618,
      "step": 230
    },
    {
      "epoch": 0.38746908491343773,
      "grad_norm": 0.84375,
      "learning_rate": 7.755775577557755e-05,
      "loss": 1.1585,
      "step": 235
    },
    {
      "epoch": 0.3957131079967024,
      "grad_norm": 1.5546875,
      "learning_rate": 7.920792079207921e-05,
      "loss": 1.1519,
      "step": 240
    },
    {
      "epoch": 0.403957131079967,
      "grad_norm": 1.84375,
      "learning_rate": 8.085808580858087e-05,
      "loss": 1.1408,
      "step": 245
    },
    {
      "epoch": 0.41220115416323166,
      "grad_norm": 1.40625,
      "learning_rate": 8.250825082508251e-05,
      "loss": 1.138,
      "step": 250
    },
    {
      "epoch": 0.42044517724649627,
      "grad_norm": 0.80859375,
      "learning_rate": 8.415841584158417e-05,
      "loss": 1.1375,
      "step": 255
    },
    {
      "epoch": 0.42868920032976093,
      "grad_norm": 1.4296875,
      "learning_rate": 8.580858085808581e-05,
      "loss": 1.1193,
      "step": 260
    },
    {
      "epoch": 0.43693322341302554,
      "grad_norm": 2.15625,
      "learning_rate": 8.745874587458746e-05,
      "loss": 1.1178,
      "step": 265
    },
    {
      "epoch": 0.4451772464962902,
      "grad_norm": 0.984375,
      "learning_rate": 8.910891089108912e-05,
      "loss": 1.1038,
      "step": 270
    },
    {
      "epoch": 0.4534212695795548,
      "grad_norm": 1.5546875,
      "learning_rate": 9.075907590759076e-05,
      "loss": 1.1148,
      "step": 275
    },
    {
      "epoch": 0.46166529266281947,
      "grad_norm": 0.84765625,
      "learning_rate": 9.24092409240924e-05,
      "loss": 1.112,
      "step": 280
    },
    {
      "epoch": 0.4699093157460841,
      "grad_norm": 1.1640625,
      "learning_rate": 9.405940594059406e-05,
      "loss": 1.0882,
      "step": 285
    },
    {
      "epoch": 0.47815333882934874,
      "grad_norm": 3.5625,
      "learning_rate": 9.570957095709572e-05,
      "loss": 1.0873,
      "step": 290
    },
    {
      "epoch": 0.48639736191261335,
      "grad_norm": 0.80078125,
      "learning_rate": 9.735973597359736e-05,
      "loss": 1.0982,
      "step": 295
    },
    {
      "epoch": 0.494641384995878,
      "grad_norm": 1.171875,
      "learning_rate": 9.900990099009902e-05,
      "loss": 1.074,
      "step": 300
    },
    {
      "epoch": 0.5028854080791426,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00010066006600660067,
      "loss": 1.0719,
      "step": 305
    },
    {
      "epoch": 0.5111294311624073,
      "grad_norm": 4.96875,
      "learning_rate": 0.00010231023102310232,
      "loss": 1.0816,
      "step": 310
    },
    {
      "epoch": 0.5193734542456719,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00010396039603960397,
      "loss": 1.0681,
      "step": 315
    },
    {
      "epoch": 0.5276174773289365,
      "grad_norm": 5.6875,
      "learning_rate": 0.0001056105610561056,
      "loss": 1.0689,
      "step": 320
    },
    {
      "epoch": 0.5358615004122012,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00010726072607260727,
      "loss": 1.0712,
      "step": 325
    },
    {
      "epoch": 0.5441055234954658,
      "grad_norm": 0.9375,
      "learning_rate": 0.00010891089108910893,
      "loss": 1.063,
      "step": 330
    },
    {
      "epoch": 0.5523495465787304,
      "grad_norm": 0.8125,
      "learning_rate": 0.00011056105610561056,
      "loss": 1.0622,
      "step": 335
    },
    {
      "epoch": 0.560593569661995,
      "grad_norm": 5.0,
      "learning_rate": 0.00011221122112211223,
      "loss": 1.0614,
      "step": 340
    },
    {
      "epoch": 0.5688375927452597,
      "grad_norm": 2.0,
      "learning_rate": 0.00011386138613861385,
      "loss": 1.0611,
      "step": 345
    },
    {
      "epoch": 0.5770816158285244,
      "grad_norm": 1.75,
      "learning_rate": 0.00011551155115511551,
      "loss": 1.0451,
      "step": 350
    },
    {
      "epoch": 0.5853256389117889,
      "grad_norm": 2.359375,
      "learning_rate": 0.00011716171617161718,
      "loss": 1.0506,
      "step": 355
    },
    {
      "epoch": 0.5935696619950536,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00011881188118811881,
      "loss": 1.0414,
      "step": 360
    },
    {
      "epoch": 0.6018136850783182,
      "grad_norm": 2.703125,
      "learning_rate": 0.00012046204620462047,
      "loss": 1.0334,
      "step": 365
    },
    {
      "epoch": 0.6100577081615829,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00012211221122112212,
      "loss": 1.0388,
      "step": 370
    },
    {
      "epoch": 0.6183017312448474,
      "grad_norm": 0.86328125,
      "learning_rate": 0.00012376237623762376,
      "loss": 1.0251,
      "step": 375
    },
    {
      "epoch": 0.6265457543281121,
      "grad_norm": 2.234375,
      "learning_rate": 0.00012541254125412543,
      "loss": 1.0315,
      "step": 380
    },
    {
      "epoch": 0.6347897774113768,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00012706270627062708,
      "loss": 1.0342,
      "step": 385
    },
    {
      "epoch": 0.6430338004946414,
      "grad_norm": 1.609375,
      "learning_rate": 0.00012871287128712872,
      "loss": 1.0258,
      "step": 390
    },
    {
      "epoch": 0.651277823577906,
      "grad_norm": 1.53125,
      "learning_rate": 0.00013036303630363036,
      "loss": 1.02,
      "step": 395
    },
    {
      "epoch": 0.6595218466611706,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00013201320132013203,
      "loss": 1.0053,
      "step": 400
    },
    {
      "epoch": 0.6677658697444353,
      "grad_norm": 2.09375,
      "learning_rate": 0.00013366336633663367,
      "loss": 1.0217,
      "step": 405
    },
    {
      "epoch": 0.6760098928277,
      "grad_norm": 1.796875,
      "learning_rate": 0.00013531353135313532,
      "loss": 1.0066,
      "step": 410
    },
    {
      "epoch": 0.6842539159109645,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00013696369636963699,
      "loss": 1.0141,
      "step": 415
    },
    {
      "epoch": 0.6924979389942292,
      "grad_norm": 1.46875,
      "learning_rate": 0.0001386138613861386,
      "loss": 1.0028,
      "step": 420
    },
    {
      "epoch": 0.7007419620774938,
      "grad_norm": 3.875,
      "learning_rate": 0.00014026402640264027,
      "loss": 1.0207,
      "step": 425
    },
    {
      "epoch": 0.7089859851607585,
      "grad_norm": 1.0,
      "learning_rate": 0.00014191419141914194,
      "loss": 1.0122,
      "step": 430
    },
    {
      "epoch": 0.717230008244023,
      "grad_norm": 2.359375,
      "learning_rate": 0.00014356435643564356,
      "loss": 1.0145,
      "step": 435
    },
    {
      "epoch": 0.7254740313272877,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00014521452145214523,
      "loss": 1.0031,
      "step": 440
    },
    {
      "epoch": 0.7337180544105524,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00014686468646864687,
      "loss": 0.9987,
      "step": 445
    },
    {
      "epoch": 0.7419620774938169,
      "grad_norm": 4.59375,
      "learning_rate": 0.0001485148514851485,
      "loss": 1.0024,
      "step": 450
    },
    {
      "epoch": 0.7502061005770816,
      "grad_norm": 1.1875,
      "learning_rate": 0.00015016501650165018,
      "loss": 1.0048,
      "step": 455
    },
    {
      "epoch": 0.7584501236603463,
      "grad_norm": 3.5,
      "learning_rate": 0.00015181518151815182,
      "loss": 1.0039,
      "step": 460
    },
    {
      "epoch": 0.7666941467436109,
      "grad_norm": 5.59375,
      "learning_rate": 0.00015346534653465347,
      "loss": 1.0092,
      "step": 465
    },
    {
      "epoch": 0.7749381698268755,
      "grad_norm": 3.578125,
      "learning_rate": 0.0001551155115511551,
      "loss": 1.0078,
      "step": 470
    },
    {
      "epoch": 0.7831821929101401,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015676567656765678,
      "loss": 1.0005,
      "step": 475
    },
    {
      "epoch": 0.7914262159934048,
      "grad_norm": 3.765625,
      "learning_rate": 0.00015841584158415842,
      "loss": 0.9895,
      "step": 480
    },
    {
      "epoch": 0.7996702390766695,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00016006600660066006,
      "loss": 0.9923,
      "step": 485
    },
    {
      "epoch": 0.807914262159934,
      "grad_norm": 2.703125,
      "learning_rate": 0.00016171617161716173,
      "loss": 0.9996,
      "step": 490
    },
    {
      "epoch": 0.8161582852431987,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00016336633663366338,
      "loss": 0.9955,
      "step": 495
    },
    {
      "epoch": 0.8244023083264633,
      "grad_norm": 4.03125,
      "learning_rate": 0.00016501650165016502,
      "loss": 0.9931,
      "step": 500
    },
    {
      "epoch": 0.832646331409728,
      "grad_norm": 4.15625,
      "learning_rate": 0.0001666666666666667,
      "loss": 1.0061,
      "step": 505
    },
    {
      "epoch": 0.8408903544929925,
      "grad_norm": 2.640625,
      "learning_rate": 0.00016831683168316833,
      "loss": 1.0086,
      "step": 510
    },
    {
      "epoch": 0.8491343775762572,
      "grad_norm": 1.296875,
      "learning_rate": 0.00016996699669966997,
      "loss": 0.9886,
      "step": 515
    },
    {
      "epoch": 0.8573784006595219,
      "grad_norm": 14.4375,
      "learning_rate": 0.00017161716171617162,
      "loss": 0.9933,
      "step": 520
    },
    {
      "epoch": 0.8656224237427865,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017326732673267329,
      "loss": 1.0033,
      "step": 525
    },
    {
      "epoch": 0.8738664468260511,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00017491749174917493,
      "loss": 0.9905,
      "step": 530
    },
    {
      "epoch": 0.8821104699093157,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017656765676567657,
      "loss": 0.9717,
      "step": 535
    },
    {
      "epoch": 0.8903544929925804,
      "grad_norm": 1.390625,
      "learning_rate": 0.00017821782178217824,
      "loss": 0.9656,
      "step": 540
    },
    {
      "epoch": 0.8985985160758451,
      "grad_norm": 3.625,
      "learning_rate": 0.00017986798679867986,
      "loss": 0.9827,
      "step": 545
    },
    {
      "epoch": 0.9068425391591096,
      "grad_norm": 3.453125,
      "learning_rate": 0.00018151815181518153,
      "loss": 0.9865,
      "step": 550
    },
    {
      "epoch": 0.9150865622423743,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001831683168316832,
      "loss": 0.9815,
      "step": 555
    },
    {
      "epoch": 0.9233305853256389,
      "grad_norm": 1.578125,
      "learning_rate": 0.0001848184818481848,
      "loss": 0.9799,
      "step": 560
    },
    {
      "epoch": 0.9315746084089035,
      "grad_norm": 3.4375,
      "learning_rate": 0.00018646864686468648,
      "loss": 0.9611,
      "step": 565
    },
    {
      "epoch": 0.9398186314921682,
      "grad_norm": 1.046875,
      "learning_rate": 0.00018811881188118812,
      "loss": 0.9652,
      "step": 570
    },
    {
      "epoch": 0.9480626545754328,
      "grad_norm": 9.3125,
      "learning_rate": 0.00018976897689768977,
      "loss": 0.9676,
      "step": 575
    },
    {
      "epoch": 0.9563066776586975,
      "grad_norm": 1.3125,
      "learning_rate": 0.00019141914191419144,
      "loss": 0.9692,
      "step": 580
    },
    {
      "epoch": 0.964550700741962,
      "grad_norm": 6.4375,
      "learning_rate": 0.00019306930693069308,
      "loss": 0.9694,
      "step": 585
    },
    {
      "epoch": 0.9727947238252267,
      "grad_norm": 1.25,
      "learning_rate": 0.00019471947194719472,
      "loss": 0.9823,
      "step": 590
    },
    {
      "epoch": 0.9810387469084914,
      "grad_norm": 2.28125,
      "learning_rate": 0.00019636963696369636,
      "loss": 0.97,
      "step": 595
    },
    {
      "epoch": 0.989282769991756,
      "grad_norm": 1.34375,
      "learning_rate": 0.00019801980198019803,
      "loss": 0.9746,
      "step": 600
    },
    {
      "epoch": 0.9975267930750206,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019966996699669968,
      "loss": 0.964,
      "step": 605
    },
    {
      "epoch": 0.9991755976916735,
      "eval_loss": 2.485042095184326,
      "eval_runtime": 0.2808,
      "eval_samples_per_second": 35.608,
      "eval_steps_per_second": 3.561,
      "step": 606
    },
    {
      "epoch": 1.0057708161582852,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019999973456433681,
      "loss": 0.9535,
      "step": 610
    },
    {
      "epoch": 1.0140148392415498,
      "grad_norm": 2.6875,
      "learning_rate": 0.00019999865623437013,
      "loss": 0.9553,
      "step": 615
    },
    {
      "epoch": 1.0222588623248146,
      "grad_norm": 4.96875,
      "learning_rate": 0.00019999674842930876,
      "loss": 0.9556,
      "step": 620
    },
    {
      "epoch": 1.030502885408079,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019999401116497763,
      "loss": 0.9746,
      "step": 625
    },
    {
      "epoch": 1.0387469084913439,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000199990444464082,
      "loss": 0.9639,
      "step": 630
    },
    {
      "epoch": 1.0469909315746084,
      "grad_norm": 1.65625,
      "learning_rate": 0.00019998604835620717,
      "loss": 0.9585,
      "step": 635
    },
    {
      "epoch": 1.055234954657873,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00019998082287781826,
      "loss": 0.9563,
      "step": 640
    },
    {
      "epoch": 1.0634789777411378,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00019997476807225985,
      "loss": 0.9489,
      "step": 645
    },
    {
      "epoch": 1.0717230008244023,
      "grad_norm": 4.15625,
      "learning_rate": 0.00019996788398975578,
      "loss": 0.9474,
      "step": 650
    },
    {
      "epoch": 1.0799670239076669,
      "grad_norm": 5.53125,
      "learning_rate": 0.0001999601706874085,
      "loss": 0.9407,
      "step": 655
    },
    {
      "epoch": 1.0882110469909316,
      "grad_norm": 2.875,
      "learning_rate": 0.00019995162822919883,
      "loss": 0.9514,
      "step": 660
    },
    {
      "epoch": 1.0964550700741962,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00019994225668598526,
      "loss": 0.9502,
      "step": 665
    },
    {
      "epoch": 1.104699093157461,
      "grad_norm": 2.796875,
      "learning_rate": 0.0001999320561355035,
      "loss": 0.9502,
      "step": 670
    },
    {
      "epoch": 1.1129431162407255,
      "grad_norm": 2.0,
      "learning_rate": 0.00019992102666236566,
      "loss": 0.9455,
      "step": 675
    },
    {
      "epoch": 1.12118713932399,
      "grad_norm": 0.90625,
      "learning_rate": 0.00019990916835805974,
      "loss": 0.9429,
      "step": 680
    },
    {
      "epoch": 1.1294311624072548,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00019989648132094873,
      "loss": 0.9348,
      "step": 685
    },
    {
      "epoch": 1.1376751854905194,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00019988296565626987,
      "loss": 0.939,
      "step": 690
    },
    {
      "epoch": 1.145919208573784,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0001998686214761337,
      "loss": 0.9374,
      "step": 695
    },
    {
      "epoch": 1.1541632316570487,
      "grad_norm": 1.375,
      "learning_rate": 0.00019985344889952327,
      "loss": 0.9326,
      "step": 700
    },
    {
      "epoch": 1.1624072547403133,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00019983744805229296,
      "loss": 0.9308,
      "step": 705
    },
    {
      "epoch": 1.1706512778235778,
      "grad_norm": 1.75,
      "learning_rate": 0.00019982061906716764,
      "loss": 0.9436,
      "step": 710
    },
    {
      "epoch": 1.1788953009068426,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00019980296208374143,
      "loss": 0.9369,
      "step": 715
    },
    {
      "epoch": 1.1871393239901071,
      "grad_norm": 20.0,
      "learning_rate": 0.00019978447724847652,
      "loss": 0.9334,
      "step": 720
    },
    {
      "epoch": 1.195383347073372,
      "grad_norm": 1.46875,
      "learning_rate": 0.00019976516471470216,
      "loss": 0.9416,
      "step": 725
    },
    {
      "epoch": 1.2036273701566365,
      "grad_norm": 8.75,
      "learning_rate": 0.0001997450246426131,
      "loss": 0.9382,
      "step": 730
    },
    {
      "epoch": 1.211871393239901,
      "grad_norm": 0.86328125,
      "learning_rate": 0.0001997240571992685,
      "loss": 0.9315,
      "step": 735
    },
    {
      "epoch": 1.2201154163231658,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00019970226255859038,
      "loss": 0.9266,
      "step": 740
    },
    {
      "epoch": 1.2283594394064303,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0001996796409013623,
      "loss": 0.9299,
      "step": 745
    },
    {
      "epoch": 1.2366034624896949,
      "grad_norm": 1.0,
      "learning_rate": 0.0001996561924152278,
      "loss": 0.9202,
      "step": 750
    },
    {
      "epoch": 1.2448474855729597,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019963191729468888,
      "loss": 0.9149,
      "step": 755
    },
    {
      "epoch": 1.2530915086562242,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00019960681574110426,
      "loss": 0.9165,
      "step": 760
    },
    {
      "epoch": 1.2613355317394888,
      "grad_norm": 2.484375,
      "learning_rate": 0.00019958088796268793,
      "loss": 0.9188,
      "step": 765
    },
    {
      "epoch": 1.2695795548227535,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0001995541341745072,
      "loss": 0.9274,
      "step": 770
    },
    {
      "epoch": 1.277823577906018,
      "grad_norm": 3.21875,
      "learning_rate": 0.0001995265545984811,
      "loss": 0.9136,
      "step": 775
    },
    {
      "epoch": 1.2860676009892829,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019949814946337838,
      "loss": 0.9251,
      "step": 780
    },
    {
      "epoch": 1.2943116240725474,
      "grad_norm": 3.078125,
      "learning_rate": 0.00019946891900481578,
      "loss": 0.9176,
      "step": 785
    },
    {
      "epoch": 1.302555647155812,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001994388634652559,
      "loss": 0.9283,
      "step": 790
    },
    {
      "epoch": 1.3107996702390767,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019940798309400526,
      "loss": 0.9221,
      "step": 795
    },
    {
      "epoch": 1.3190436933223413,
      "grad_norm": 1.421875,
      "learning_rate": 0.00019937627814721237,
      "loss": 0.9199,
      "step": 800
    },
    {
      "epoch": 1.327287716405606,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00019934374888786537,
      "loss": 0.9163,
      "step": 805
    },
    {
      "epoch": 1.3355317394888706,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00019931039558578997,
      "loss": 0.9181,
      "step": 810
    },
    {
      "epoch": 1.3437757625721352,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019927621851764725,
      "loss": 0.9276,
      "step": 815
    },
    {
      "epoch": 1.3520197856553997,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00019924121796693127,
      "loss": 0.9199,
      "step": 820
    },
    {
      "epoch": 1.3602638087386645,
      "grad_norm": 1.078125,
      "learning_rate": 0.0001992053942239668,
      "loss": 0.9213,
      "step": 825
    },
    {
      "epoch": 1.368507831821929,
      "grad_norm": 1.296875,
      "learning_rate": 0.00019916874758590684,
      "loss": 0.9228,
      "step": 830
    },
    {
      "epoch": 1.3767518549051938,
      "grad_norm": 1.3125,
      "learning_rate": 0.00019913127835673023,
      "loss": 0.9149,
      "step": 835
    },
    {
      "epoch": 1.3849958779884584,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00019909298684723904,
      "loss": 0.9086,
      "step": 840
    },
    {
      "epoch": 1.393239901071723,
      "grad_norm": 1.125,
      "learning_rate": 0.00019905387337505612,
      "loss": 0.9092,
      "step": 845
    },
    {
      "epoch": 1.4014839241549877,
      "grad_norm": 2.828125,
      "learning_rate": 0.0001990139382646223,
      "loss": 0.9041,
      "step": 850
    },
    {
      "epoch": 1.4097279472382522,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00019897318184719385,
      "loss": 0.9093,
      "step": 855
    },
    {
      "epoch": 1.417971970321517,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019893160446083963,
      "loss": 0.909,
      "step": 860
    },
    {
      "epoch": 1.4262159934047816,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00019888920645043831,
      "loss": 0.9014,
      "step": 865
    },
    {
      "epoch": 1.434460016488046,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019884598816767563,
      "loss": 0.9036,
      "step": 870
    },
    {
      "epoch": 1.4427040395713109,
      "grad_norm": 2.234375,
      "learning_rate": 0.00019880194997104123,
      "loss": 0.8999,
      "step": 875
    },
    {
      "epoch": 1.4509480626545754,
      "grad_norm": 2.3125,
      "learning_rate": 0.00019875709222582594,
      "loss": 0.9,
      "step": 880
    },
    {
      "epoch": 1.45919208573784,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00019871141530411853,
      "loss": 0.8955,
      "step": 885
    },
    {
      "epoch": 1.4674361088211048,
      "grad_norm": 1.65625,
      "learning_rate": 0.00019866491958480284,
      "loss": 0.9042,
      "step": 890
    },
    {
      "epoch": 1.4756801319043693,
      "grad_norm": 0.96875,
      "learning_rate": 0.00019861760545355442,
      "loss": 0.9177,
      "step": 895
    },
    {
      "epoch": 1.4839241549876339,
      "grad_norm": 4.5625,
      "learning_rate": 0.00019856947330283752,
      "loss": 0.8974,
      "step": 900
    },
    {
      "epoch": 1.4921681780708986,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00019852052353190166,
      "loss": 0.9064,
      "step": 905
    },
    {
      "epoch": 1.5004122011541632,
      "grad_norm": 3.796875,
      "learning_rate": 0.0001984707565467785,
      "loss": 0.9086,
      "step": 910
    },
    {
      "epoch": 1.508656224237428,
      "grad_norm": 6.6875,
      "learning_rate": 0.00019842017276027832,
      "loss": 0.9069,
      "step": 915
    },
    {
      "epoch": 1.5169002473206925,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00019836877259198662,
      "loss": 0.898,
      "step": 920
    },
    {
      "epoch": 1.525144270403957,
      "grad_norm": 2.484375,
      "learning_rate": 0.0001983165564682608,
      "loss": 0.8999,
      "step": 925
    },
    {
      "epoch": 1.5333882934872216,
      "grad_norm": 1.34375,
      "learning_rate": 0.00019826352482222638,
      "loss": 0.8987,
      "step": 930
    },
    {
      "epoch": 1.5416323165704864,
      "grad_norm": 1.421875,
      "learning_rate": 0.00019820967809377357,
      "loss": 0.8791,
      "step": 935
    },
    {
      "epoch": 1.5498763396537512,
      "grad_norm": 0.80859375,
      "learning_rate": 0.00019815501672955358,
      "loss": 0.8887,
      "step": 940
    },
    {
      "epoch": 1.5581203627370157,
      "grad_norm": 6.0,
      "learning_rate": 0.0001980995411829749,
      "loss": 0.8955,
      "step": 945
    },
    {
      "epoch": 1.5663643858202803,
      "grad_norm": 0.8984375,
      "learning_rate": 0.00019804325191419956,
      "loss": 0.8991,
      "step": 950
    },
    {
      "epoch": 1.5746084089035448,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00019798614939013932,
      "loss": 0.8916,
      "step": 955
    },
    {
      "epoch": 1.5828524319868096,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019792823408445174,
      "loss": 0.9048,
      "step": 960
    },
    {
      "epoch": 1.5910964550700744,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001978695064775363,
      "loss": 0.8828,
      "step": 965
    },
    {
      "epoch": 1.599340478153339,
      "grad_norm": 0.96875,
      "learning_rate": 0.00019780996705653044,
      "loss": 0.8864,
      "step": 970
    },
    {
      "epoch": 1.6075845012366035,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00019774961631530545,
      "loss": 0.8908,
      "step": 975
    },
    {
      "epoch": 1.615828524319868,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001976884547544624,
      "loss": 0.8853,
      "step": 980
    },
    {
      "epoch": 1.6240725474031328,
      "grad_norm": 2.84375,
      "learning_rate": 0.0001976264828813281,
      "loss": 0.8835,
      "step": 985
    },
    {
      "epoch": 1.6323165704863973,
      "grad_norm": 2.296875,
      "learning_rate": 0.00019756370120995066,
      "loss": 0.8817,
      "step": 990
    },
    {
      "epoch": 1.640560593569662,
      "grad_norm": 27.25,
      "learning_rate": 0.0001975001102610954,
      "loss": 0.8972,
      "step": 995
    },
    {
      "epoch": 1.6488046166529267,
      "grad_norm": 9.75,
      "learning_rate": 0.0001974357105622405,
      "loss": 0.9076,
      "step": 1000
    },
    {
      "epoch": 1.6570486397361912,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0001973705026475726,
      "loss": 0.9001,
      "step": 1005
    },
    {
      "epoch": 1.6652926628194558,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019730448705798239,
      "loss": 0.9172,
      "step": 1010
    },
    {
      "epoch": 1.6735366859027205,
      "grad_norm": 1.375,
      "learning_rate": 0.0001972376643410601,
      "loss": 0.8945,
      "step": 1015
    },
    {
      "epoch": 1.6817807089859853,
      "grad_norm": 2.71875,
      "learning_rate": 0.00019717003505109095,
      "loss": 0.8857,
      "step": 1020
    },
    {
      "epoch": 1.6900247320692499,
      "grad_norm": 1.4375,
      "learning_rate": 0.00019710159974905064,
      "loss": 0.8852,
      "step": 1025
    },
    {
      "epoch": 1.6982687551525144,
      "grad_norm": 2.984375,
      "learning_rate": 0.00019703235900260055,
      "loss": 0.8795,
      "step": 1030
    },
    {
      "epoch": 1.706512778235779,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019696231338608316,
      "loss": 0.8926,
      "step": 1035
    },
    {
      "epoch": 1.7147568013190437,
      "grad_norm": 4.90625,
      "learning_rate": 0.00019689146348051719,
      "loss": 0.8927,
      "step": 1040
    },
    {
      "epoch": 1.7230008244023083,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001968198098735929,
      "loss": 0.8762,
      "step": 1045
    },
    {
      "epoch": 1.731244847485573,
      "grad_norm": 6.75,
      "learning_rate": 0.0001967473531596671,
      "loss": 0.8886,
      "step": 1050
    },
    {
      "epoch": 1.7394888705688376,
      "grad_norm": 12.125,
      "learning_rate": 0.00019667409393975822,
      "loss": 0.8865,
      "step": 1055
    },
    {
      "epoch": 1.7477328936521022,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019660003282154147,
      "loss": 0.887,
      "step": 1060
    },
    {
      "epoch": 1.7559769167353667,
      "grad_norm": 0.84765625,
      "learning_rate": 0.00019652517041934356,
      "loss": 0.8669,
      "step": 1065
    },
    {
      "epoch": 1.7642209398186315,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00019644950735413788,
      "loss": 0.8774,
      "step": 1070
    },
    {
      "epoch": 1.7724649629018963,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00019637304425353916,
      "loss": 0.8717,
      "step": 1075
    },
    {
      "epoch": 1.7807089859851608,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0001962957817517982,
      "loss": 0.8769,
      "step": 1080
    },
    {
      "epoch": 1.7889530090684254,
      "grad_norm": 4.59375,
      "learning_rate": 0.0001962177204897969,
      "loss": 0.872,
      "step": 1085
    },
    {
      "epoch": 1.79719703215169,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001961388611150427,
      "loss": 0.8727,
      "step": 1090
    },
    {
      "epoch": 1.8054410552349547,
      "grad_norm": 2.171875,
      "learning_rate": 0.00019605920428166323,
      "loss": 0.8671,
      "step": 1095
    },
    {
      "epoch": 1.8136850783182195,
      "grad_norm": 7.78125,
      "learning_rate": 0.00019597875065040094,
      "loss": 0.8927,
      "step": 1100
    },
    {
      "epoch": 1.821929101401484,
      "grad_norm": 10.9375,
      "learning_rate": 0.00019589750088860766,
      "loss": 0.881,
      "step": 1105
    },
    {
      "epoch": 1.8301731244847486,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000195815455670239,
      "loss": 0.8793,
      "step": 1110
    },
    {
      "epoch": 1.838417147568013,
      "grad_norm": 3.890625,
      "learning_rate": 0.00019573261567584874,
      "loss": 0.8795,
      "step": 1115
    },
    {
      "epoch": 1.8466611706512777,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019564898159258324,
      "loss": 0.8933,
      "step": 1120
    },
    {
      "epoch": 1.8549051937345424,
      "grad_norm": 0.921875,
      "learning_rate": 0.00019556455411417573,
      "loss": 0.8626,
      "step": 1125
    },
    {
      "epoch": 1.8631492168178072,
      "grad_norm": 1.5625,
      "learning_rate": 0.0001954793339409405,
      "loss": 0.8616,
      "step": 1130
    },
    {
      "epoch": 1.8713932399010718,
      "grad_norm": 2.625,
      "learning_rate": 0.00019539332177976714,
      "loss": 0.8693,
      "step": 1135
    },
    {
      "epoch": 1.8796372629843363,
      "grad_norm": 0.875,
      "learning_rate": 0.00019530651834411474,
      "loss": 0.8659,
      "step": 1140
    },
    {
      "epoch": 1.8878812860676009,
      "grad_norm": 6.0,
      "learning_rate": 0.00019521892435400587,
      "loss": 0.8666,
      "step": 1145
    },
    {
      "epoch": 1.8961253091508656,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019513054053602055,
      "loss": 0.8601,
      "step": 1150
    },
    {
      "epoch": 1.9043693322341304,
      "grad_norm": 2.125,
      "learning_rate": 0.00019504136762329047,
      "loss": 0.8631,
      "step": 1155
    },
    {
      "epoch": 1.912613355317395,
      "grad_norm": 3.296875,
      "learning_rate": 0.00019495140635549261,
      "loss": 0.8833,
      "step": 1160
    },
    {
      "epoch": 1.9208573784006595,
      "grad_norm": 2.4375,
      "learning_rate": 0.00019486065747884333,
      "loss": 0.8555,
      "step": 1165
    },
    {
      "epoch": 1.929101401483924,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0001947691217460921,
      "loss": 0.8602,
      "step": 1170
    },
    {
      "epoch": 1.9373454245671888,
      "grad_norm": 1.546875,
      "learning_rate": 0.0001946767999165152,
      "loss": 0.8553,
      "step": 1175
    },
    {
      "epoch": 1.9455894476504534,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00019458369275590954,
      "loss": 0.8588,
      "step": 1180
    },
    {
      "epoch": 1.9538334707337182,
      "grad_norm": 2.21875,
      "learning_rate": 0.00019448980103658613,
      "loss": 0.8529,
      "step": 1185
    },
    {
      "epoch": 1.9620774938169827,
      "grad_norm": 8.6875,
      "learning_rate": 0.00019439512553736394,
      "loss": 0.8441,
      "step": 1190
    },
    {
      "epoch": 1.9703215169002473,
      "grad_norm": 0.83984375,
      "learning_rate": 0.0001942996670435632,
      "loss": 0.8526,
      "step": 1195
    },
    {
      "epoch": 1.9785655399835118,
      "grad_norm": 6.0625,
      "learning_rate": 0.0001942034263469989,
      "loss": 0.8547,
      "step": 1200
    },
    {
      "epoch": 1.9868095630667766,
      "grad_norm": 13.0625,
      "learning_rate": 0.0001941064042459745,
      "loss": 0.8686,
      "step": 1205
    },
    {
      "epoch": 1.9950535861500414,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00019400860154527493,
      "loss": 0.8499,
      "step": 1210
    },
    {
      "epoch": 2.0,
      "eval_loss": 2.4393434524536133,
      "eval_runtime": 0.2359,
      "eval_samples_per_second": 42.391,
      "eval_steps_per_second": 4.239,
      "step": 1213
    },
    {
      "epoch": 2.003297609233306,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001939100190561601,
      "loss": 0.8486,
      "step": 1215
    },
    {
      "epoch": 2.0115416323165705,
      "grad_norm": 2.515625,
      "learning_rate": 0.00019381065759635822,
      "loss": 0.8375,
      "step": 1220
    },
    {
      "epoch": 2.019785655399835,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001937105179900589,
      "loss": 0.8531,
      "step": 1225
    },
    {
      "epoch": 2.0280296784830996,
      "grad_norm": 1.75,
      "learning_rate": 0.00019360960106790643,
      "loss": 0.8369,
      "step": 1230
    },
    {
      "epoch": 2.0362737015663646,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00019350790766699282,
      "loss": 0.8276,
      "step": 1235
    },
    {
      "epoch": 2.044517724649629,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001934054386308508,
      "loss": 0.8289,
      "step": 1240
    },
    {
      "epoch": 2.0527617477328937,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00019330219480944694,
      "loss": 0.8292,
      "step": 1245
    },
    {
      "epoch": 2.061005770816158,
      "grad_norm": 0.828125,
      "learning_rate": 0.0001931981770591745,
      "loss": 0.8305,
      "step": 1250
    },
    {
      "epoch": 2.0692497938994228,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00019309338624284644,
      "loss": 0.8243,
      "step": 1255
    },
    {
      "epoch": 2.0774938169826878,
      "grad_norm": 1.265625,
      "learning_rate": 0.00019298782322968815,
      "loss": 0.8225,
      "step": 1260
    },
    {
      "epoch": 2.0857378400659523,
      "grad_norm": 4.03125,
      "learning_rate": 0.0001928814888953303,
      "loss": 0.8212,
      "step": 1265
    },
    {
      "epoch": 2.093981863149217,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001927743841218016,
      "loss": 0.8188,
      "step": 1270
    },
    {
      "epoch": 2.1022258862324814,
      "grad_norm": 1.015625,
      "learning_rate": 0.00019266650979752136,
      "loss": 0.8209,
      "step": 1275
    },
    {
      "epoch": 2.110469909315746,
      "grad_norm": 8.25,
      "learning_rate": 0.00019255786681729225,
      "loss": 0.8242,
      "step": 1280
    },
    {
      "epoch": 2.1187139323990105,
      "grad_norm": 5.53125,
      "learning_rate": 0.00019244845608229293,
      "loss": 0.828,
      "step": 1285
    },
    {
      "epoch": 2.1269579554822755,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00019233827850007027,
      "loss": 0.8159,
      "step": 1290
    },
    {
      "epoch": 2.13520197856554,
      "grad_norm": 7.03125,
      "learning_rate": 0.00019222733498453222,
      "loss": 0.8196,
      "step": 1295
    },
    {
      "epoch": 2.1434460016488046,
      "grad_norm": 0.84765625,
      "learning_rate": 0.00019211562645594002,
      "loss": 0.8231,
      "step": 1300
    },
    {
      "epoch": 2.151690024732069,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00019200315384090044,
      "loss": 0.8073,
      "step": 1305
    },
    {
      "epoch": 2.1599340478153337,
      "grad_norm": 1.484375,
      "learning_rate": 0.00019188991807235844,
      "loss": 0.8255,
      "step": 1310
    },
    {
      "epoch": 2.1681780708985987,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0001917759200895891,
      "loss": 0.8185,
      "step": 1315
    },
    {
      "epoch": 2.1764220939818633,
      "grad_norm": 8.0,
      "learning_rate": 0.00019166116083819002,
      "loss": 0.8174,
      "step": 1320
    },
    {
      "epoch": 2.184666117065128,
      "grad_norm": 0.96875,
      "learning_rate": 0.00019154564127007336,
      "loss": 0.8263,
      "step": 1325
    },
    {
      "epoch": 2.1929101401483924,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001914293623434581,
      "loss": 0.8333,
      "step": 1330
    },
    {
      "epoch": 2.201154163231657,
      "grad_norm": 2.546875,
      "learning_rate": 0.00019131232502286188,
      "loss": 0.8227,
      "step": 1335
    },
    {
      "epoch": 2.209398186314922,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019119453027909323,
      "loss": 0.8123,
      "step": 1340
    },
    {
      "epoch": 2.2176422093981865,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0001910759790892433,
      "loss": 0.8129,
      "step": 1345
    },
    {
      "epoch": 2.225886232481451,
      "grad_norm": 0.90625,
      "learning_rate": 0.0001909566724366779,
      "loss": 0.8101,
      "step": 1350
    },
    {
      "epoch": 2.2341302555647156,
      "grad_norm": 2.203125,
      "learning_rate": 0.00019083661131102933,
      "loss": 0.8205,
      "step": 1355
    },
    {
      "epoch": 2.24237427864798,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00019071579670818808,
      "loss": 0.8228,
      "step": 1360
    },
    {
      "epoch": 2.2506183017312447,
      "grad_norm": 0.546875,
      "learning_rate": 0.00019059422963029464,
      "loss": 0.8123,
      "step": 1365
    },
    {
      "epoch": 2.2588623248145097,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00019047191108573125,
      "loss": 0.8227,
      "step": 1370
    },
    {
      "epoch": 2.267106347897774,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00019034884208911335,
      "loss": 0.814,
      "step": 1375
    },
    {
      "epoch": 2.2753503709810388,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00019022502366128135,
      "loss": 0.819,
      "step": 1380
    },
    {
      "epoch": 2.2835943940643033,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00019010045682929213,
      "loss": 0.8074,
      "step": 1385
    },
    {
      "epoch": 2.291838417147568,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00018997514262641035,
      "loss": 0.8224,
      "step": 1390
    },
    {
      "epoch": 2.300082440230833,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0001898490820921001,
      "loss": 0.8096,
      "step": 1395
    },
    {
      "epoch": 2.3083264633140974,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00018972227627201617,
      "loss": 0.8102,
      "step": 1400
    },
    {
      "epoch": 2.316570486397362,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0001895947262179954,
      "loss": 0.8113,
      "step": 1405
    },
    {
      "epoch": 2.3248145094806265,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00018946643298804793,
      "loss": 0.8109,
      "step": 1410
    },
    {
      "epoch": 2.333058532563891,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00018933739764634847,
      "loss": 0.809,
      "step": 1415
    },
    {
      "epoch": 2.3413025556471556,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0001892076212632274,
      "loss": 0.8153,
      "step": 1420
    },
    {
      "epoch": 2.3495465787304206,
      "grad_norm": 0.578125,
      "learning_rate": 0.00018907710491516199,
      "loss": 0.8161,
      "step": 1425
    },
    {
      "epoch": 2.357790601813685,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00018894584968476733,
      "loss": 0.8141,
      "step": 1430
    },
    {
      "epoch": 2.3660346248969497,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00018881385666078755,
      "loss": 0.8102,
      "step": 1435
    },
    {
      "epoch": 2.3742786479802143,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00018868112693808665,
      "loss": 0.8124,
      "step": 1440
    },
    {
      "epoch": 2.382522671063479,
      "grad_norm": 0.609375,
      "learning_rate": 0.00018854766161763932,
      "loss": 0.8033,
      "step": 1445
    },
    {
      "epoch": 2.390766694146744,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00018841346180652213,
      "loss": 0.812,
      "step": 1450
    },
    {
      "epoch": 2.3990107172300084,
      "grad_norm": 0.46875,
      "learning_rate": 0.00018827852861790398,
      "loss": 0.8059,
      "step": 1455
    },
    {
      "epoch": 2.407254740313273,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00018814286317103714,
      "loss": 0.8021,
      "step": 1460
    },
    {
      "epoch": 2.4154987633965375,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00018800646659124782,
      "loss": 0.8036,
      "step": 1465
    },
    {
      "epoch": 2.423742786479802,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00018786934000992688,
      "loss": 0.8045,
      "step": 1470
    },
    {
      "epoch": 2.4319868095630666,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00018773148456452046,
      "loss": 0.8108,
      "step": 1475
    },
    {
      "epoch": 2.4402308326463316,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00018759290139852048,
      "loss": 0.8097,
      "step": 1480
    },
    {
      "epoch": 2.448474855729596,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00018745359166145523,
      "loss": 0.8052,
      "step": 1485
    },
    {
      "epoch": 2.4567188788128607,
      "grad_norm": 1.203125,
      "learning_rate": 0.00018731355650887985,
      "loss": 0.8016,
      "step": 1490
    },
    {
      "epoch": 2.464962901896125,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00018717279710236666,
      "loss": 0.8077,
      "step": 1495
    },
    {
      "epoch": 2.4732069249793898,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00018703131460949554,
      "loss": 0.8031,
      "step": 1500
    },
    {
      "epoch": 2.4814509480626548,
      "grad_norm": 5.46875,
      "learning_rate": 0.00018688911020384432,
      "loss": 0.8062,
      "step": 1505
    },
    {
      "epoch": 2.4896949711459193,
      "grad_norm": 0.7421875,
      "learning_rate": 0.000186746185064979,
      "loss": 0.8156,
      "step": 1510
    },
    {
      "epoch": 2.497938994229184,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00018660254037844388,
      "loss": 0.8083,
      "step": 1515
    },
    {
      "epoch": 2.5061830173124484,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00018645817733575193,
      "loss": 0.812,
      "step": 1520
    },
    {
      "epoch": 2.514427040395713,
      "grad_norm": 3.671875,
      "learning_rate": 0.00018631309713437467,
      "loss": 0.796,
      "step": 1525
    },
    {
      "epoch": 2.5226710634789775,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001861673009777325,
      "loss": 0.7988,
      "step": 1530
    },
    {
      "epoch": 2.5309150865622425,
      "grad_norm": 1.546875,
      "learning_rate": 0.00018602079007518438,
      "loss": 0.7988,
      "step": 1535
    },
    {
      "epoch": 2.539159109645507,
      "grad_norm": 0.4375,
      "learning_rate": 0.00018587356564201817,
      "loss": 0.8045,
      "step": 1540
    },
    {
      "epoch": 2.5474031327287716,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0001857256288994402,
      "loss": 0.8112,
      "step": 1545
    },
    {
      "epoch": 2.555647155812036,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00018557698107456549,
      "loss": 0.808,
      "step": 1550
    },
    {
      "epoch": 2.563891178895301,
      "grad_norm": 0.453125,
      "learning_rate": 0.00018542762340040722,
      "loss": 0.7958,
      "step": 1555
    },
    {
      "epoch": 2.5721352019785657,
      "grad_norm": 0.859375,
      "learning_rate": 0.00018527755711586678,
      "loss": 0.8008,
      "step": 1560
    },
    {
      "epoch": 2.5803792250618303,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00018512678346572337,
      "loss": 0.7995,
      "step": 1565
    },
    {
      "epoch": 2.588623248145095,
      "grad_norm": 0.734375,
      "learning_rate": 0.00018497530370062363,
      "loss": 0.7974,
      "step": 1570
    },
    {
      "epoch": 2.5968672712283594,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0001848231190770714,
      "loss": 0.7929,
      "step": 1575
    },
    {
      "epoch": 2.605111294311624,
      "grad_norm": 0.78125,
      "learning_rate": 0.00018467023085741717,
      "loss": 0.8014,
      "step": 1580
    },
    {
      "epoch": 2.6133553173948885,
      "grad_norm": 0.9140625,
      "learning_rate": 0.00018451664030984773,
      "loss": 0.7944,
      "step": 1585
    },
    {
      "epoch": 2.6215993404781535,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00018436234870837547,
      "loss": 0.7937,
      "step": 1590
    },
    {
      "epoch": 2.629843363561418,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00018420735733282807,
      "loss": 0.7983,
      "step": 1595
    },
    {
      "epoch": 2.6380873866446826,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00018405166746883762,
      "loss": 0.7924,
      "step": 1600
    },
    {
      "epoch": 2.646331409727947,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00018389528040783012,
      "loss": 0.7953,
      "step": 1605
    },
    {
      "epoch": 2.654575432811212,
      "grad_norm": 0.578125,
      "learning_rate": 0.00018373819744701476,
      "loss": 0.7893,
      "step": 1610
    },
    {
      "epoch": 2.6628194558944767,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00018358041988937305,
      "loss": 0.7945,
      "step": 1615
    },
    {
      "epoch": 2.671063478977741,
      "grad_norm": 0.8125,
      "learning_rate": 0.00018342194904364813,
      "loss": 0.7894,
      "step": 1620
    },
    {
      "epoch": 2.6793075020610058,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00018326278622433386,
      "loss": 0.7925,
      "step": 1625
    },
    {
      "epoch": 2.6875515251442703,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00018310293275166392,
      "loss": 0.7978,
      "step": 1630
    },
    {
      "epoch": 2.695795548227535,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00018294238995160094,
      "loss": 0.792,
      "step": 1635
    },
    {
      "epoch": 2.7040395713107994,
      "grad_norm": 0.671875,
      "learning_rate": 0.00018278115915582526,
      "loss": 0.8069,
      "step": 1640
    },
    {
      "epoch": 2.7122835943940644,
      "grad_norm": 1.515625,
      "learning_rate": 0.0001826192417017242,
      "loss": 0.8048,
      "step": 1645
    },
    {
      "epoch": 2.720527617477329,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00018245663893238075,
      "loss": 0.8009,
      "step": 1650
    },
    {
      "epoch": 2.7287716405605935,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001822933521965625,
      "loss": 0.7903,
      "step": 1655
    },
    {
      "epoch": 2.737015663643858,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00018212938284871047,
      "loss": 0.7917,
      "step": 1660
    },
    {
      "epoch": 2.745259686727123,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00018196473224892784,
      "loss": 0.7886,
      "step": 1665
    },
    {
      "epoch": 2.7535037098103876,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001817994017629687,
      "loss": 0.7933,
      "step": 1670
    },
    {
      "epoch": 2.761747732893652,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00018163339276222666,
      "loss": 0.792,
      "step": 1675
    },
    {
      "epoch": 2.7699917559769167,
      "grad_norm": 0.65625,
      "learning_rate": 0.00018146670662372354,
      "loss": 0.7825,
      "step": 1680
    },
    {
      "epoch": 2.7782357790601813,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001812993447300979,
      "loss": 0.7929,
      "step": 1685
    },
    {
      "epoch": 2.786479802143446,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00018113130846959368,
      "loss": 0.7925,
      "step": 1690
    },
    {
      "epoch": 2.7947238252267104,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0001809625992360485,
      "loss": 0.7888,
      "step": 1695
    },
    {
      "epoch": 2.8029678483099754,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00018079321842888227,
      "loss": 0.7995,
      "step": 1700
    },
    {
      "epoch": 2.81121187139324,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00018062316745308542,
      "loss": 0.7939,
      "step": 1705
    },
    {
      "epoch": 2.8194558944765045,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0001804524477192075,
      "loss": 0.79,
      "step": 1710
    },
    {
      "epoch": 2.827699917559769,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0001802810606433451,
      "loss": 0.7927,
      "step": 1715
    },
    {
      "epoch": 2.835943940643034,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00018010900764713048,
      "loss": 0.796,
      "step": 1720
    },
    {
      "epoch": 2.8441879637262986,
      "grad_norm": 0.75,
      "learning_rate": 0.0001799362901577196,
      "loss": 0.7921,
      "step": 1725
    },
    {
      "epoch": 2.852431986809563,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00017976290960778024,
      "loss": 0.79,
      "step": 1730
    },
    {
      "epoch": 2.8606760098928277,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0001795888674354802,
      "loss": 0.7927,
      "step": 1735
    },
    {
      "epoch": 2.868920032976092,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00017941416508447536,
      "loss": 0.7917,
      "step": 1740
    },
    {
      "epoch": 2.8771640560593568,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001792388040038977,
      "loss": 0.7905,
      "step": 1745
    },
    {
      "epoch": 2.8854080791426218,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00017906278564834324,
      "loss": 0.7934,
      "step": 1750
    },
    {
      "epoch": 2.8936521022258863,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00017888611147786002,
      "loss": 0.7957,
      "step": 1755
    },
    {
      "epoch": 2.901896125309151,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00017870878295793598,
      "loss": 0.7793,
      "step": 1760
    },
    {
      "epoch": 2.9101401483924154,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0001785308015594868,
      "loss": 0.7912,
      "step": 1765
    },
    {
      "epoch": 2.91838417147568,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00017835216875884368,
      "loss": 0.7842,
      "step": 1770
    },
    {
      "epoch": 2.926628194558945,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00017817288603774116,
      "loss": 0.784,
      "step": 1775
    },
    {
      "epoch": 2.9348722176422095,
      "grad_norm": 0.828125,
      "learning_rate": 0.00017799295488330467,
      "loss": 0.7934,
      "step": 1780
    },
    {
      "epoch": 2.943116240725474,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00017781237678803847,
      "loss": 0.7867,
      "step": 1785
    },
    {
      "epoch": 2.9513602638087386,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00017763115324981294,
      "loss": 0.7911,
      "step": 1790
    },
    {
      "epoch": 2.959604286892003,
      "grad_norm": 0.703125,
      "learning_rate": 0.00017744928577185243,
      "loss": 0.7914,
      "step": 1795
    },
    {
      "epoch": 2.9678483099752677,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00017726677586272263,
      "loss": 0.7917,
      "step": 1800
    },
    {
      "epoch": 2.9760923330585327,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00017708362503631814,
      "loss": 0.7819,
      "step": 1805
    },
    {
      "epoch": 2.9843363561417973,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00017689983481184989,
      "loss": 0.7842,
      "step": 1810
    },
    {
      "epoch": 2.992580379225062,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00017671540671383243,
      "loss": 0.7939,
      "step": 1815
    },
    {
      "epoch": 2.9991755976916736,
      "eval_loss": 2.4241690635681152,
      "eval_runtime": 0.2578,
      "eval_samples_per_second": 38.793,
      "eval_steps_per_second": 3.879,
      "step": 1819
    },
    {
      "epoch": 3.0008244023083264,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00017653034227207152,
      "loss": 0.7885,
      "step": 1820
    },
    {
      "epoch": 3.009068425391591,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00017634464302165124,
      "loss": 0.772,
      "step": 1825
    },
    {
      "epoch": 3.017312448474856,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0001761583105029213,
      "loss": 0.7668,
      "step": 1830
    },
    {
      "epoch": 3.0255564715581205,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00017597134626148427,
      "loss": 0.77,
      "step": 1835
    },
    {
      "epoch": 3.033800494641385,
      "grad_norm": 0.88671875,
      "learning_rate": 0.0001757837518481829,
      "loss": 0.7713,
      "step": 1840
    },
    {
      "epoch": 3.0420445177246496,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00017559552881908695,
      "loss": 0.7748,
      "step": 1845
    },
    {
      "epoch": 3.050288540807914,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00017540667873548063,
      "loss": 0.7653,
      "step": 1850
    },
    {
      "epoch": 3.058532563891179,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00017521720316384935,
      "loss": 0.7706,
      "step": 1855
    },
    {
      "epoch": 3.0667765869744437,
      "grad_norm": 0.9140625,
      "learning_rate": 0.00017502710367586687,
      "loss": 0.7633,
      "step": 1860
    },
    {
      "epoch": 3.075020610057708,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00017483638184838239,
      "loss": 0.7568,
      "step": 1865
    },
    {
      "epoch": 3.0832646331409728,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0001746450392634071,
      "loss": 0.757,
      "step": 1870
    },
    {
      "epoch": 3.0915086562242373,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0001744530775081015,
      "loss": 0.7701,
      "step": 1875
    },
    {
      "epoch": 3.099752679307502,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00017426049817476197,
      "loss": 0.7717,
      "step": 1880
    },
    {
      "epoch": 3.107996702390767,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00017406730286080753,
      "loss": 0.7647,
      "step": 1885
    },
    {
      "epoch": 3.1162407254740314,
      "grad_norm": 0.5,
      "learning_rate": 0.00017387349316876666,
      "loss": 0.7618,
      "step": 1890
    },
    {
      "epoch": 3.124484748557296,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00017367907070626424,
      "loss": 0.7712,
      "step": 1895
    },
    {
      "epoch": 3.1327287716405605,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00017348403708600772,
      "loss": 0.7635,
      "step": 1900
    },
    {
      "epoch": 3.140972794723825,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001732883939257742,
      "loss": 0.7591,
      "step": 1905
    },
    {
      "epoch": 3.14921681780709,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00017309214284839678,
      "loss": 0.7664,
      "step": 1910
    },
    {
      "epoch": 3.1574608408903546,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00017289528548175114,
      "loss": 0.7633,
      "step": 1915
    },
    {
      "epoch": 3.165704863973619,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00017269782345874203,
      "loss": 0.7676,
      "step": 1920
    },
    {
      "epoch": 3.1739488870568837,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0001724997584172898,
      "loss": 0.7712,
      "step": 1925
    },
    {
      "epoch": 3.1821929101401483,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00017230109200031668,
      "loss": 0.7631,
      "step": 1930
    },
    {
      "epoch": 3.190436933223413,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00017210182585573327,
      "loss": 0.7664,
      "step": 1935
    },
    {
      "epoch": 3.198680956306678,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017190196163642483,
      "loss": 0.7653,
      "step": 1940
    },
    {
      "epoch": 3.2069249793899424,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001717015010002376,
      "loss": 0.7677,
      "step": 1945
    },
    {
      "epoch": 3.215169002473207,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00017150044560996488,
      "loss": 0.7628,
      "step": 1950
    },
    {
      "epoch": 3.2234130255564715,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00017129879713333356,
      "loss": 0.7604,
      "step": 1955
    },
    {
      "epoch": 3.231657048639736,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00017109655724298995,
      "loss": 0.7664,
      "step": 1960
    },
    {
      "epoch": 3.239901071723001,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017089372761648616,
      "loss": 0.7679,
      "step": 1965
    },
    {
      "epoch": 3.2481450948062656,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00017069030993626603,
      "loss": 0.7621,
      "step": 1970
    },
    {
      "epoch": 3.25638911788953,
      "grad_norm": 0.703125,
      "learning_rate": 0.00017048630588965117,
      "loss": 0.7747,
      "step": 1975
    },
    {
      "epoch": 3.2646331409727947,
      "grad_norm": 0.625,
      "learning_rate": 0.00017028171716882714,
      "loss": 0.7655,
      "step": 1980
    },
    {
      "epoch": 3.272877164056059,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00017007654547082922,
      "loss": 0.768,
      "step": 1985
    },
    {
      "epoch": 3.281121187139324,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00016987079249752843,
      "loss": 0.7631,
      "step": 1990
    },
    {
      "epoch": 3.2893652102225888,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00016966445995561727,
      "loss": 0.7686,
      "step": 1995
    },
    {
      "epoch": 3.2976092333058533,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00016945754955659595,
      "loss": 0.7695,
      "step": 2000
    },
    {
      "epoch": 3.305853256389118,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00016925006301675763,
      "loss": 0.7548,
      "step": 2005
    },
    {
      "epoch": 3.3140972794723824,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0001690420020571747,
      "loss": 0.7642,
      "step": 2010
    },
    {
      "epoch": 3.322341302555647,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00016883336840368412,
      "loss": 0.7706,
      "step": 2015
    },
    {
      "epoch": 3.330585325638912,
      "grad_norm": 0.4375,
      "learning_rate": 0.0001686241637868734,
      "loss": 0.7693,
      "step": 2020
    },
    {
      "epoch": 3.3388293487221765,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00016841438994206595,
      "loss": 0.7616,
      "step": 2025
    },
    {
      "epoch": 3.347073371805441,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0001682040486093071,
      "loss": 0.7661,
      "step": 2030
    },
    {
      "epoch": 3.3553173948887056,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00016799314153334916,
      "loss": 0.7543,
      "step": 2035
    },
    {
      "epoch": 3.36356141797197,
      "grad_norm": 0.92578125,
      "learning_rate": 0.00016778167046363734,
      "loss": 0.757,
      "step": 2040
    },
    {
      "epoch": 3.371805441055235,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00016756963715429502,
      "loss": 0.7647,
      "step": 2045
    },
    {
      "epoch": 3.3800494641384997,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00016735704336410943,
      "loss": 0.7562,
      "step": 2050
    },
    {
      "epoch": 3.3882934872217643,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0001671438908565167,
      "loss": 0.7573,
      "step": 2055
    },
    {
      "epoch": 3.396537510305029,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00016693018139958763,
      "loss": 0.7585,
      "step": 2060
    },
    {
      "epoch": 3.4047815333882934,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00016671591676601272,
      "loss": 0.7538,
      "step": 2065
    },
    {
      "epoch": 3.413025556471558,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00016650109873308765,
      "loss": 0.7635,
      "step": 2070
    },
    {
      "epoch": 3.421269579554823,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00016628572908269841,
      "loss": 0.7605,
      "step": 2075
    },
    {
      "epoch": 3.4295136026380875,
      "grad_norm": 0.421875,
      "learning_rate": 0.00016606980960130665,
      "loss": 0.7511,
      "step": 2080
    },
    {
      "epoch": 3.437757625721352,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00016585334207993476,
      "loss": 0.757,
      "step": 2085
    },
    {
      "epoch": 3.4460016488046166,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00016563632831415102,
      "loss": 0.7616,
      "step": 2090
    },
    {
      "epoch": 3.454245671887881,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00016541877010405477,
      "loss": 0.7605,
      "step": 2095
    },
    {
      "epoch": 3.462489694971146,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00016520066925426144,
      "loss": 0.7564,
      "step": 2100
    },
    {
      "epoch": 3.4707337180544107,
      "grad_norm": 0.59375,
      "learning_rate": 0.00016498202757388758,
      "loss": 0.7627,
      "step": 2105
    },
    {
      "epoch": 3.478977741137675,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0001647628468765358,
      "loss": 0.7514,
      "step": 2110
    },
    {
      "epoch": 3.4872217642209398,
      "grad_norm": 0.640625,
      "learning_rate": 0.0001645431289802799,
      "loss": 0.7616,
      "step": 2115
    },
    {
      "epoch": 3.4954657873042043,
      "grad_norm": 0.546875,
      "learning_rate": 0.00016432287570764952,
      "loss": 0.7639,
      "step": 2120
    },
    {
      "epoch": 3.503709810387469,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0001641020888856153,
      "loss": 0.7642,
      "step": 2125
    },
    {
      "epoch": 3.511953833470734,
      "grad_norm": 0.609375,
      "learning_rate": 0.00016388077034557355,
      "loss": 0.7511,
      "step": 2130
    },
    {
      "epoch": 3.5201978565539984,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0001636589219233311,
      "loss": 0.7513,
      "step": 2135
    },
    {
      "epoch": 3.528441879637263,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00016343654545909007,
      "loss": 0.7568,
      "step": 2140
    },
    {
      "epoch": 3.5366859027205275,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00016321364279743266,
      "loss": 0.7562,
      "step": 2145
    },
    {
      "epoch": 3.5449299258037925,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016299021578730579,
      "loss": 0.7591,
      "step": 2150
    },
    {
      "epoch": 3.553173948887057,
      "grad_norm": 0.59375,
      "learning_rate": 0.00016276626628200568,
      "loss": 0.7665,
      "step": 2155
    },
    {
      "epoch": 3.5614179719703216,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00016254179613916278,
      "loss": 0.7604,
      "step": 2160
    },
    {
      "epoch": 3.569661995053586,
      "grad_norm": 1.0,
      "learning_rate": 0.000162316807220726,
      "loss": 0.7504,
      "step": 2165
    },
    {
      "epoch": 3.5779060181368507,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00016209130139294744,
      "loss": 0.7646,
      "step": 2170
    },
    {
      "epoch": 3.5861500412201153,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00016186528052636692,
      "loss": 0.7562,
      "step": 2175
    },
    {
      "epoch": 3.59439406430338,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00016163874649579647,
      "loss": 0.7501,
      "step": 2180
    },
    {
      "epoch": 3.602638087386645,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00016141170118030463,
      "loss": 0.7548,
      "step": 2185
    },
    {
      "epoch": 3.6108821104699094,
      "grad_norm": 0.453125,
      "learning_rate": 0.0001611841464632011,
      "loss": 0.7582,
      "step": 2190
    },
    {
      "epoch": 3.619126133553174,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00016095608423202098,
      "loss": 0.7517,
      "step": 2195
    },
    {
      "epoch": 3.6273701566364385,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00016072751637850904,
      "loss": 0.7563,
      "step": 2200
    },
    {
      "epoch": 3.6356141797197035,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00016049844479860422,
      "loss": 0.7566,
      "step": 2205
    },
    {
      "epoch": 3.643858202802968,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00016026887139242372,
      "loss": 0.7515,
      "step": 2210
    },
    {
      "epoch": 3.6521022258862326,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0001600387980642474,
      "loss": 0.754,
      "step": 2215
    },
    {
      "epoch": 3.660346248969497,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0001598082267225018,
      "loss": 0.7608,
      "step": 2220
    },
    {
      "epoch": 3.6685902720527617,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0001595771592797445,
      "loss": 0.7574,
      "step": 2225
    },
    {
      "epoch": 3.676834295136026,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0001593455976526482,
      "loss": 0.7526,
      "step": 2230
    },
    {
      "epoch": 3.6850783182192908,
      "grad_norm": 0.40625,
      "learning_rate": 0.0001591135437619847,
      "loss": 0.7546,
      "step": 2235
    },
    {
      "epoch": 3.6933223413025558,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00015888099953260905,
      "loss": 0.7574,
      "step": 2240
    },
    {
      "epoch": 3.7015663643858203,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0001586479668934437,
      "loss": 0.7548,
      "step": 2245
    },
    {
      "epoch": 3.709810387469085,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0001584144477774623,
      "loss": 0.7519,
      "step": 2250
    },
    {
      "epoch": 3.7180544105523494,
      "grad_norm": 0.75,
      "learning_rate": 0.0001581804441216738,
      "loss": 0.761,
      "step": 2255
    },
    {
      "epoch": 3.7262984336356144,
      "grad_norm": 0.86328125,
      "learning_rate": 0.00015794595786710632,
      "loss": 0.7552,
      "step": 2260
    },
    {
      "epoch": 3.734542456718879,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00015771099095879108,
      "loss": 0.7573,
      "step": 2265
    },
    {
      "epoch": 3.7427864798021435,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00015747554534574626,
      "loss": 0.753,
      "step": 2270
    },
    {
      "epoch": 3.751030502885408,
      "grad_norm": 0.46875,
      "learning_rate": 0.0001572396229809608,
      "loss": 0.7587,
      "step": 2275
    },
    {
      "epoch": 3.7592745259686726,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00015700322582137827,
      "loss": 0.7505,
      "step": 2280
    },
    {
      "epoch": 3.767518549051937,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0001567663558278806,
      "loss": 0.747,
      "step": 2285
    },
    {
      "epoch": 3.7757625721352017,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001565290149652718,
      "loss": 0.763,
      "step": 2290
    },
    {
      "epoch": 3.7840065952184667,
      "grad_norm": 0.640625,
      "learning_rate": 0.00015629120520226165,
      "loss": 0.7547,
      "step": 2295
    },
    {
      "epoch": 3.7922506183017313,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00015605292851144942,
      "loss": 0.7537,
      "step": 2300
    },
    {
      "epoch": 3.800494641384996,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00015581418686930743,
      "loss": 0.754,
      "step": 2305
    },
    {
      "epoch": 3.8087386644682604,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00015557498225616487,
      "loss": 0.7407,
      "step": 2310
    },
    {
      "epoch": 3.8169826875515254,
      "grad_norm": 0.546875,
      "learning_rate": 0.00015533531665619098,
      "loss": 0.7556,
      "step": 2315
    },
    {
      "epoch": 3.82522671063479,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00015509519205737896,
      "loss": 0.7516,
      "step": 2320
    },
    {
      "epoch": 3.8334707337180545,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001548546104515294,
      "loss": 0.7506,
      "step": 2325
    },
    {
      "epoch": 3.841714756801319,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0001546135738342335,
      "loss": 0.7524,
      "step": 2330
    },
    {
      "epoch": 3.8499587798845836,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0001543720842048569,
      "loss": 0.748,
      "step": 2335
    },
    {
      "epoch": 3.858202802967848,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00015413014356652286,
      "loss": 0.7503,
      "step": 2340
    },
    {
      "epoch": 3.8664468260511127,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00015388775392609564,
      "loss": 0.754,
      "step": 2345
    },
    {
      "epoch": 3.8746908491343777,
      "grad_norm": 0.439453125,
      "learning_rate": 0.000153644917294164,
      "loss": 0.7511,
      "step": 2350
    },
    {
      "epoch": 3.882934872217642,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0001534016356850244,
      "loss": 0.7492,
      "step": 2355
    },
    {
      "epoch": 3.8911788953009068,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00015315791111666425,
      "loss": 0.7529,
      "step": 2360
    },
    {
      "epoch": 3.8994229183841713,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00015291374561074536,
      "loss": 0.7481,
      "step": 2365
    },
    {
      "epoch": 3.9076669414674363,
      "grad_norm": 0.431640625,
      "learning_rate": 0.000152669141192587,
      "loss": 0.752,
      "step": 2370
    },
    {
      "epoch": 3.915910964550701,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00015242409989114916,
      "loss": 0.7389,
      "step": 2375
    },
    {
      "epoch": 3.9241549876339654,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00015217862373901575,
      "loss": 0.7521,
      "step": 2380
    },
    {
      "epoch": 3.93239901071723,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0001519327147723776,
      "loss": 0.742,
      "step": 2385
    },
    {
      "epoch": 3.9406430338004945,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00015168637503101584,
      "loss": 0.7499,
      "step": 2390
    },
    {
      "epoch": 3.948887056883759,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00015143960655828468,
      "loss": 0.7516,
      "step": 2395
    },
    {
      "epoch": 3.957131079967024,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00015119241140109467,
      "loss": 0.7493,
      "step": 2400
    },
    {
      "epoch": 3.9653751030502886,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0001509447916098956,
      "loss": 0.7445,
      "step": 2405
    },
    {
      "epoch": 3.973619126133553,
      "grad_norm": 0.40625,
      "learning_rate": 0.0001506967492386596,
      "loss": 0.7535,
      "step": 2410
    },
    {
      "epoch": 3.9818631492168177,
      "grad_norm": 0.466796875,
      "learning_rate": 0.000150448286344864,
      "loss": 0.7411,
      "step": 2415
    },
    {
      "epoch": 3.9901071723000827,
      "grad_norm": 0.87890625,
      "learning_rate": 0.00015019940498947428,
      "loss": 0.7484,
      "step": 2420
    },
    {
      "epoch": 3.9983511953833473,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00014995010723692714,
      "loss": 0.7465,
      "step": 2425
    },
    {
      "epoch": 4.0,
      "eval_loss": 2.436275005340576,
      "eval_runtime": 0.2365,
      "eval_samples_per_second": 42.283,
      "eval_steps_per_second": 4.228,
      "step": 2426
    },
    {
      "epoch": 4.006595218466612,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00014970039515511304,
      "loss": 0.7483,
      "step": 2430
    },
    {
      "epoch": 4.014839241549876,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00014945027081535937,
      "loss": 0.7256,
      "step": 2435
    },
    {
      "epoch": 4.023083264633141,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00014919973629241314,
      "loss": 0.7386,
      "step": 2440
    },
    {
      "epoch": 4.0313272877164055,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0001489487936644237,
      "loss": 0.7329,
      "step": 2445
    },
    {
      "epoch": 4.03957131079967,
      "grad_norm": 0.84765625,
      "learning_rate": 0.00014869744501292561,
      "loss": 0.7317,
      "step": 2450
    },
    {
      "epoch": 4.047815333882935,
      "grad_norm": 0.4375,
      "learning_rate": 0.00014844569242282148,
      "loss": 0.7278,
      "step": 2455
    },
    {
      "epoch": 4.056059356966199,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00014819353798236427,
      "loss": 0.73,
      "step": 2460
    },
    {
      "epoch": 4.064303380049465,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0001479409837831404,
      "loss": 0.7357,
      "step": 2465
    },
    {
      "epoch": 4.072547403132729,
      "grad_norm": 0.78125,
      "learning_rate": 0.00014768803192005223,
      "loss": 0.7341,
      "step": 2470
    },
    {
      "epoch": 4.080791426215994,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00014743468449130063,
      "loss": 0.7367,
      "step": 2475
    },
    {
      "epoch": 4.089035449299258,
      "grad_norm": 0.53125,
      "learning_rate": 0.00014718094359836772,
      "loss": 0.7322,
      "step": 2480
    },
    {
      "epoch": 4.097279472382523,
      "grad_norm": 0.453125,
      "learning_rate": 0.00014692681134599925,
      "loss": 0.73,
      "step": 2485
    },
    {
      "epoch": 4.105523495465787,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0001466722898421873,
      "loss": 0.7364,
      "step": 2490
    },
    {
      "epoch": 4.113767518549052,
      "grad_norm": 0.4375,
      "learning_rate": 0.00014641738119815266,
      "loss": 0.7267,
      "step": 2495
    },
    {
      "epoch": 4.122011541632316,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00014616208752832758,
      "loss": 0.7282,
      "step": 2500
    },
    {
      "epoch": 4.130255564715581,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00014590641095033787,
      "loss": 0.7251,
      "step": 2505
    },
    {
      "epoch": 4.1384995877988455,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0001456503535849855,
      "loss": 0.7391,
      "step": 2510
    },
    {
      "epoch": 4.14674361088211,
      "grad_norm": 0.546875,
      "learning_rate": 0.0001453939175562312,
      "loss": 0.7346,
      "step": 2515
    },
    {
      "epoch": 4.1549876339653755,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00014513710499117647,
      "loss": 0.7362,
      "step": 2520
    },
    {
      "epoch": 4.16323165704864,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00014487991802004623,
      "loss": 0.731,
      "step": 2525
    },
    {
      "epoch": 4.171475680131905,
      "grad_norm": 0.484375,
      "learning_rate": 0.00014462235877617098,
      "loss": 0.7285,
      "step": 2530
    },
    {
      "epoch": 4.179719703215169,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0001443644293959693,
      "loss": 0.7386,
      "step": 2535
    },
    {
      "epoch": 4.187963726298434,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00014410613201892985,
      "loss": 0.7376,
      "step": 2540
    },
    {
      "epoch": 4.196207749381698,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0001438474687875938,
      "loss": 0.731,
      "step": 2545
    },
    {
      "epoch": 4.204451772464963,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00014358844184753712,
      "loss": 0.7238,
      "step": 2550
    },
    {
      "epoch": 4.212695795548227,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00014332905334735261,
      "loss": 0.7246,
      "step": 2555
    },
    {
      "epoch": 4.220939818631492,
      "grad_norm": 0.5625,
      "learning_rate": 0.00014306930543863219,
      "loss": 0.7394,
      "step": 2560
    },
    {
      "epoch": 4.2291838417147565,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00014280920027594907,
      "loss": 0.7306,
      "step": 2565
    },
    {
      "epoch": 4.237427864798021,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00014254874001683976,
      "loss": 0.7418,
      "step": 2570
    },
    {
      "epoch": 4.2456718878812865,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00014228792682178623,
      "loss": 0.7291,
      "step": 2575
    },
    {
      "epoch": 4.253915910964551,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00014202676285419812,
      "loss": 0.7273,
      "step": 2580
    },
    {
      "epoch": 4.262159934047816,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00014176525028039452,
      "loss": 0.7311,
      "step": 2585
    },
    {
      "epoch": 4.27040395713108,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00014150339126958633,
      "loss": 0.7214,
      "step": 2590
    },
    {
      "epoch": 4.278647980214345,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00014124118799385796,
      "loss": 0.7324,
      "step": 2595
    },
    {
      "epoch": 4.286892003297609,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00014097864262814955,
      "loss": 0.7397,
      "step": 2600
    },
    {
      "epoch": 4.295136026380874,
      "grad_norm": 0.625,
      "learning_rate": 0.00014071575735023875,
      "loss": 0.7382,
      "step": 2605
    },
    {
      "epoch": 4.303380049464138,
      "grad_norm": 0.46875,
      "learning_rate": 0.0001404525343407228,
      "loss": 0.7324,
      "step": 2610
    },
    {
      "epoch": 4.311624072547403,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00014018897578300035,
      "loss": 0.7327,
      "step": 2615
    },
    {
      "epoch": 4.319868095630667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0001399250838632533,
      "loss": 0.7419,
      "step": 2620
    },
    {
      "epoch": 4.328112118713932,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0001396608607704289,
      "loss": 0.738,
      "step": 2625
    },
    {
      "epoch": 4.336356141797197,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00013939630869622133,
      "loss": 0.7412,
      "step": 2630
    },
    {
      "epoch": 4.344600164880462,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00013913142983505364,
      "loss": 0.7336,
      "step": 2635
    },
    {
      "epoch": 4.3528441879637265,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00013886622638405952,
      "loss": 0.7282,
      "step": 2640
    },
    {
      "epoch": 4.361088211046991,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00013860070054306516,
      "loss": 0.7306,
      "step": 2645
    },
    {
      "epoch": 4.369332234130256,
      "grad_norm": 0.84765625,
      "learning_rate": 0.0001383348545145708,
      "loss": 0.7279,
      "step": 2650
    },
    {
      "epoch": 4.37757625721352,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0001380686905037327,
      "loss": 0.7355,
      "step": 2655
    },
    {
      "epoch": 4.385820280296785,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00013780221071834476,
      "loss": 0.7336,
      "step": 2660
    },
    {
      "epoch": 4.394064303380049,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0001375354173688201,
      "loss": 0.7314,
      "step": 2665
    },
    {
      "epoch": 4.402308326463314,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00013726831266817278,
      "loss": 0.7344,
      "step": 2670
    },
    {
      "epoch": 4.410552349546578,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00013700089883199966,
      "loss": 0.7361,
      "step": 2675
    },
    {
      "epoch": 4.418796372629844,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0001367331780784616,
      "loss": 0.7322,
      "step": 2680
    },
    {
      "epoch": 4.427040395713108,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00013646515262826552,
      "loss": 0.7332,
      "step": 2685
    },
    {
      "epoch": 4.435284418796373,
      "grad_norm": 0.46875,
      "learning_rate": 0.00013619682470464558,
      "loss": 0.7321,
      "step": 2690
    },
    {
      "epoch": 4.4435284418796375,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00013592819653334505,
      "loss": 0.7262,
      "step": 2695
    },
    {
      "epoch": 4.451772464962902,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0001356592703425976,
      "loss": 0.7273,
      "step": 2700
    },
    {
      "epoch": 4.460016488046167,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00013539004836310894,
      "loss": 0.7378,
      "step": 2705
    },
    {
      "epoch": 4.468260511129431,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0001351205328280385,
      "loss": 0.7254,
      "step": 2710
    },
    {
      "epoch": 4.476504534212696,
      "grad_norm": 0.53125,
      "learning_rate": 0.00013485072597298038,
      "loss": 0.729,
      "step": 2715
    },
    {
      "epoch": 4.48474855729596,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00013458063003594543,
      "loss": 0.7375,
      "step": 2720
    },
    {
      "epoch": 4.492992580379225,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0001343102472573423,
      "loss": 0.7278,
      "step": 2725
    },
    {
      "epoch": 4.501236603462489,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00013403957987995882,
      "loss": 0.7363,
      "step": 2730
    },
    {
      "epoch": 4.509480626545754,
      "grad_norm": 0.515625,
      "learning_rate": 0.00013376863014894375,
      "loss": 0.7341,
      "step": 2735
    },
    {
      "epoch": 4.517724649629019,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00013349740031178784,
      "loss": 0.7325,
      "step": 2740
    },
    {
      "epoch": 4.525968672712284,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00013322589261830517,
      "loss": 0.7376,
      "step": 2745
    },
    {
      "epoch": 4.534212695795548,
      "grad_norm": 0.4375,
      "learning_rate": 0.00013295410932061478,
      "loss": 0.727,
      "step": 2750
    },
    {
      "epoch": 4.542456718878813,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00013268205267312174,
      "loss": 0.729,
      "step": 2755
    },
    {
      "epoch": 4.5507007419620775,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00013240972493249847,
      "loss": 0.7355,
      "step": 2760
    },
    {
      "epoch": 4.558944765045342,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00013213712835766607,
      "loss": 0.7362,
      "step": 2765
    },
    {
      "epoch": 4.567188788128607,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0001318642652097757,
      "loss": 0.7319,
      "step": 2770
    },
    {
      "epoch": 4.575432811211871,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00013159113775218964,
      "loss": 0.7265,
      "step": 2775
    },
    {
      "epoch": 4.583676834295136,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00013131774825046245,
      "loss": 0.7343,
      "step": 2780
    },
    {
      "epoch": 4.5919208573784,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00013104409897232258,
      "loss": 0.7231,
      "step": 2785
    },
    {
      "epoch": 4.600164880461666,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00013077019218765305,
      "loss": 0.7305,
      "step": 2790
    },
    {
      "epoch": 4.60840890354493,
      "grad_norm": 0.40625,
      "learning_rate": 0.00013049603016847296,
      "loss": 0.7311,
      "step": 2795
    },
    {
      "epoch": 4.616652926628195,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00013022161518891855,
      "loss": 0.7347,
      "step": 2800
    },
    {
      "epoch": 4.624896949711459,
      "grad_norm": 0.421875,
      "learning_rate": 0.00012994694952522435,
      "loss": 0.7395,
      "step": 2805
    },
    {
      "epoch": 4.633140972794724,
      "grad_norm": 0.40625,
      "learning_rate": 0.00012967203545570418,
      "loss": 0.7332,
      "step": 2810
    },
    {
      "epoch": 4.6413849958779885,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0001293968752607325,
      "loss": 0.7326,
      "step": 2815
    },
    {
      "epoch": 4.649629018961253,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00012912147122272523,
      "loss": 0.7317,
      "step": 2820
    },
    {
      "epoch": 4.657873042044518,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00012884582562612095,
      "loss": 0.7336,
      "step": 2825
    },
    {
      "epoch": 4.666117065127782,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00012856994075736197,
      "loss": 0.7283,
      "step": 2830
    },
    {
      "epoch": 4.674361088211047,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00012829381890487536,
      "loss": 0.7366,
      "step": 2835
    },
    {
      "epoch": 4.682605111294311,
      "grad_norm": 0.8515625,
      "learning_rate": 0.00012801746235905384,
      "loss": 0.7377,
      "step": 2840
    },
    {
      "epoch": 4.690849134377576,
      "grad_norm": 0.40625,
      "learning_rate": 0.00012774087341223695,
      "loss": 0.7357,
      "step": 2845
    },
    {
      "epoch": 4.699093157460841,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00012746405435869198,
      "loss": 0.7307,
      "step": 2850
    },
    {
      "epoch": 4.707337180544106,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00012718700749459486,
      "loss": 0.7307,
      "step": 2855
    },
    {
      "epoch": 4.71558120362737,
      "grad_norm": 0.5625,
      "learning_rate": 0.0001269097351180112,
      "loss": 0.7244,
      "step": 2860
    },
    {
      "epoch": 4.723825226710635,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00012663223952887723,
      "loss": 0.7321,
      "step": 2865
    },
    {
      "epoch": 4.732069249793899,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0001263545230289807,
      "loss": 0.7243,
      "step": 2870
    },
    {
      "epoch": 4.740313272877164,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00012607658792194174,
      "loss": 0.7282,
      "step": 2875
    },
    {
      "epoch": 4.7485572959604285,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0001257984365131938,
      "loss": 0.7239,
      "step": 2880
    },
    {
      "epoch": 4.756801319043693,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00012552007110996463,
      "loss": 0.7273,
      "step": 2885
    },
    {
      "epoch": 4.765045342126958,
      "grad_norm": 0.65625,
      "learning_rate": 0.00012524149402125685,
      "loss": 0.7251,
      "step": 2890
    },
    {
      "epoch": 4.773289365210223,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00012496270755782914,
      "loss": 0.739,
      "step": 2895
    },
    {
      "epoch": 4.781533388293488,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00012468371403217684,
      "loss": 0.7344,
      "step": 2900
    },
    {
      "epoch": 4.789777411376752,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00012440451575851285,
      "loss": 0.7314,
      "step": 2905
    },
    {
      "epoch": 4.798021434460017,
      "grad_norm": 0.5,
      "learning_rate": 0.00012412511505274844,
      "loss": 0.7269,
      "step": 2910
    },
    {
      "epoch": 4.806265457543281,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00012384551423247407,
      "loss": 0.7292,
      "step": 2915
    },
    {
      "epoch": 4.814509480626546,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00012356571561693996,
      "loss": 0.7227,
      "step": 2920
    },
    {
      "epoch": 4.82275350370981,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00012328572152703725,
      "loss": 0.7311,
      "step": 2925
    },
    {
      "epoch": 4.830997526793075,
      "grad_norm": 0.59375,
      "learning_rate": 0.00012300553428527832,
      "loss": 0.7315,
      "step": 2930
    },
    {
      "epoch": 4.8392415498763395,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00012272515621577782,
      "loss": 0.7376,
      "step": 2935
    },
    {
      "epoch": 4.847485572959604,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00012244458964423327,
      "loss": 0.7305,
      "step": 2940
    },
    {
      "epoch": 4.855729596042869,
      "grad_norm": 0.515625,
      "learning_rate": 0.00012216383689790574,
      "loss": 0.7279,
      "step": 2945
    },
    {
      "epoch": 4.863973619126133,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00012188290030560063,
      "loss": 0.7299,
      "step": 2950
    },
    {
      "epoch": 4.872217642209399,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00012160178219764837,
      "loss": 0.7253,
      "step": 2955
    },
    {
      "epoch": 4.880461665292663,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00012132048490588492,
      "loss": 0.7291,
      "step": 2960
    },
    {
      "epoch": 4.888705688375928,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00012103901076363269,
      "loss": 0.7244,
      "step": 2965
    },
    {
      "epoch": 4.896949711459192,
      "grad_norm": 0.53125,
      "learning_rate": 0.0001207573621056809,
      "loss": 0.7279,
      "step": 2970
    },
    {
      "epoch": 4.905193734542457,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00012047554126826643,
      "loss": 0.7297,
      "step": 2975
    },
    {
      "epoch": 4.913437757625721,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00012019355058905435,
      "loss": 0.7285,
      "step": 2980
    },
    {
      "epoch": 4.921681780708986,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00011991139240711857,
      "loss": 0.7312,
      "step": 2985
    },
    {
      "epoch": 4.92992580379225,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00011962906906292238,
      "loss": 0.7284,
      "step": 2990
    },
    {
      "epoch": 4.938169826875515,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00011934658289829902,
      "loss": 0.7336,
      "step": 2995
    },
    {
      "epoch": 4.9464138499587795,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00011906393625643244,
      "loss": 0.7281,
      "step": 3000
    },
    {
      "epoch": 4.954657873042045,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00011878113148183758,
      "loss": 0.7271,
      "step": 3005
    },
    {
      "epoch": 4.9629018961253095,
      "grad_norm": 0.5,
      "learning_rate": 0.00011849817092034118,
      "loss": 0.7229,
      "step": 3010
    },
    {
      "epoch": 4.971145919208574,
      "grad_norm": 0.4375,
      "learning_rate": 0.00011821505691906216,
      "loss": 0.7318,
      "step": 3015
    },
    {
      "epoch": 4.979389942291839,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00011793179182639218,
      "loss": 0.7366,
      "step": 3020
    },
    {
      "epoch": 4.987633965375103,
      "grad_norm": 0.421875,
      "learning_rate": 0.00011764837799197622,
      "loss": 0.7337,
      "step": 3025
    },
    {
      "epoch": 4.995877988458368,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00011736481776669306,
      "loss": 0.7312,
      "step": 3030
    },
    {
      "epoch": 4.999175597691673,
      "eval_loss": 2.439051389694214,
      "eval_runtime": 0.2596,
      "eval_samples_per_second": 38.523,
      "eval_steps_per_second": 3.852,
      "step": 3032
    },
    {
      "epoch": 5.004122011541632,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0001170811135026357,
      "loss": 0.7263,
      "step": 3035
    },
    {
      "epoch": 5.012366034624897,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00011679726755309205,
      "loss": 0.7183,
      "step": 3040
    },
    {
      "epoch": 5.020610057708161,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00011651328227252517,
      "loss": 0.723,
      "step": 3045
    },
    {
      "epoch": 5.028854080791426,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00011622916001655388,
      "loss": 0.7185,
      "step": 3050
    },
    {
      "epoch": 5.0370981038746905,
      "grad_norm": 0.546875,
      "learning_rate": 0.00011594490314193323,
      "loss": 0.7132,
      "step": 3055
    },
    {
      "epoch": 5.045342126957956,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00011566051400653486,
      "loss": 0.7054,
      "step": 3060
    },
    {
      "epoch": 5.0535861500412205,
      "grad_norm": 0.421875,
      "learning_rate": 0.00011537599496932752,
      "loss": 0.7197,
      "step": 3065
    },
    {
      "epoch": 5.061830173124485,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00011509134839035748,
      "loss": 0.7157,
      "step": 3070
    },
    {
      "epoch": 5.07007419620775,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00011480657663072896,
      "loss": 0.7093,
      "step": 3075
    },
    {
      "epoch": 5.078318219291014,
      "grad_norm": 0.59375,
      "learning_rate": 0.0001145216820525845,
      "loss": 0.7286,
      "step": 3080
    },
    {
      "epoch": 5.086562242374279,
      "grad_norm": 0.421875,
      "learning_rate": 0.00011423666701908547,
      "loss": 0.7105,
      "step": 3085
    },
    {
      "epoch": 5.094806265457543,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00011395153389439233,
      "loss": 0.7072,
      "step": 3090
    },
    {
      "epoch": 5.103050288540808,
      "grad_norm": 0.40625,
      "learning_rate": 0.00011366628504364509,
      "loss": 0.7156,
      "step": 3095
    },
    {
      "epoch": 5.111294311624072,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00011338092283294377,
      "loss": 0.7052,
      "step": 3100
    },
    {
      "epoch": 5.119538334707337,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00011309544962932862,
      "loss": 0.7197,
      "step": 3105
    },
    {
      "epoch": 5.127782357790601,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00011280986780076057,
      "loss": 0.7195,
      "step": 3110
    },
    {
      "epoch": 5.136026380873867,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00011252417971610163,
      "loss": 0.7062,
      "step": 3115
    },
    {
      "epoch": 5.144270403957131,
      "grad_norm": 0.546875,
      "learning_rate": 0.00011223838774509514,
      "loss": 0.7225,
      "step": 3120
    },
    {
      "epoch": 5.152514427040396,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00011195249425834615,
      "loss": 0.7106,
      "step": 3125
    },
    {
      "epoch": 5.1607584501236605,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00011166650162730188,
      "loss": 0.7174,
      "step": 3130
    },
    {
      "epoch": 5.169002473206925,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00011138041222423177,
      "loss": 0.7208,
      "step": 3135
    },
    {
      "epoch": 5.17724649629019,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00011109422842220805,
      "loss": 0.716,
      "step": 3140
    },
    {
      "epoch": 5.185490519373454,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00011080795259508608,
      "loss": 0.717,
      "step": 3145
    },
    {
      "epoch": 5.193734542456719,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00011052158711748434,
      "loss": 0.7093,
      "step": 3150
    },
    {
      "epoch": 5.201978565539983,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00011023513436476511,
      "loss": 0.7129,
      "step": 3155
    },
    {
      "epoch": 5.210222588623248,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00010994859671301462,
      "loss": 0.7168,
      "step": 3160
    },
    {
      "epoch": 5.218466611706512,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0001096619765390232,
      "loss": 0.7158,
      "step": 3165
    },
    {
      "epoch": 5.226710634789778,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00010937527622026575,
      "loss": 0.7229,
      "step": 3170
    },
    {
      "epoch": 5.234954657873042,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00010908849813488203,
      "loss": 0.7151,
      "step": 3175
    },
    {
      "epoch": 5.243198680956307,
      "grad_norm": 0.40625,
      "learning_rate": 0.00010880164466165674,
      "loss": 0.7185,
      "step": 3180
    },
    {
      "epoch": 5.2514427040395715,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00010851471817999997,
      "loss": 0.7113,
      "step": 3185
    },
    {
      "epoch": 5.259686727122836,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00010822772106992747,
      "loss": 0.7178,
      "step": 3190
    },
    {
      "epoch": 5.267930750206101,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00010794065571204072,
      "loss": 0.7106,
      "step": 3195
    },
    {
      "epoch": 5.276174773289365,
      "grad_norm": 0.484375,
      "learning_rate": 0.0001076535244875074,
      "loss": 0.7136,
      "step": 3200
    },
    {
      "epoch": 5.28441879637263,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00010736632977804149,
      "loss": 0.7138,
      "step": 3205
    },
    {
      "epoch": 5.292662819455894,
      "grad_norm": 0.65625,
      "learning_rate": 0.00010707907396588361,
      "loss": 0.7192,
      "step": 3210
    },
    {
      "epoch": 5.300906842539159,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00010679175943378119,
      "loss": 0.7068,
      "step": 3215
    },
    {
      "epoch": 5.309150865622423,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00010650438856496872,
      "loss": 0.7095,
      "step": 3220
    },
    {
      "epoch": 5.317394888705689,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00010621696374314807,
      "loss": 0.7118,
      "step": 3225
    },
    {
      "epoch": 5.325638911788953,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00010592948735246854,
      "loss": 0.711,
      "step": 3230
    },
    {
      "epoch": 5.333882934872218,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00010564196177750725,
      "loss": 0.7172,
      "step": 3235
    },
    {
      "epoch": 5.342126957955482,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0001053543894032493,
      "loss": 0.7171,
      "step": 3240
    },
    {
      "epoch": 5.350370981038747,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00010506677261506797,
      "loss": 0.7153,
      "step": 3245
    },
    {
      "epoch": 5.3586150041220115,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00010477911379870488,
      "loss": 0.7162,
      "step": 3250
    },
    {
      "epoch": 5.366859027205276,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00010449141534025045,
      "loss": 0.7067,
      "step": 3255
    },
    {
      "epoch": 5.375103050288541,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00010420367962612372,
      "loss": 0.7117,
      "step": 3260
    },
    {
      "epoch": 5.383347073371805,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00010391590904305284,
      "loss": 0.7175,
      "step": 3265
    },
    {
      "epoch": 5.39159109645507,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00010362810597805526,
      "loss": 0.7109,
      "step": 3270
    },
    {
      "epoch": 5.399835119538334,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00010334027281841781,
      "loss": 0.7136,
      "step": 3275
    },
    {
      "epoch": 5.4080791426216,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00010305241195167687,
      "loss": 0.7123,
      "step": 3280
    },
    {
      "epoch": 5.416323165704864,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00010276452576559879,
      "loss": 0.7132,
      "step": 3285
    },
    {
      "epoch": 5.424567188788129,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00010247661664815986,
      "loss": 0.7161,
      "step": 3290
    },
    {
      "epoch": 5.432811211871393,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00010218868698752658,
      "loss": 0.7122,
      "step": 3295
    },
    {
      "epoch": 5.441055234954658,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00010190073917203589,
      "loss": 0.7167,
      "step": 3300
    },
    {
      "epoch": 5.4492992580379225,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00010161277559017528,
      "loss": 0.7143,
      "step": 3305
    },
    {
      "epoch": 5.457543281121187,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00010132479863056303,
      "loss": 0.7163,
      "step": 3310
    },
    {
      "epoch": 5.465787304204452,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00010103681068192845,
      "loss": 0.7173,
      "step": 3315
    },
    {
      "epoch": 5.474031327287716,
      "grad_norm": 0.484375,
      "learning_rate": 0.00010074881413309193,
      "loss": 0.714,
      "step": 3320
    },
    {
      "epoch": 5.482275350370981,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00010046081137294516,
      "loss": 0.7128,
      "step": 3325
    },
    {
      "epoch": 5.490519373454246,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00010017280479043147,
      "loss": 0.7242,
      "step": 3330
    },
    {
      "epoch": 5.498763396537511,
      "grad_norm": 0.421875,
      "learning_rate": 9.988479677452584e-05,
      "loss": 0.7196,
      "step": 3335
    },
    {
      "epoch": 5.507007419620775,
      "grad_norm": 0.40625,
      "learning_rate": 9.959678971421508e-05,
      "loss": 0.714,
      "step": 3340
    },
    {
      "epoch": 5.51525144270404,
      "grad_norm": 0.412109375,
      "learning_rate": 9.930878599847821e-05,
      "loss": 0.7173,
      "step": 3345
    },
    {
      "epoch": 5.523495465787304,
      "grad_norm": 0.46484375,
      "learning_rate": 9.902078801626636e-05,
      "loss": 0.7137,
      "step": 3350
    },
    {
      "epoch": 5.531739488870569,
      "grad_norm": 0.423828125,
      "learning_rate": 9.873279815648318e-05,
      "loss": 0.7125,
      "step": 3355
    },
    {
      "epoch": 5.539983511953833,
      "grad_norm": 0.451171875,
      "learning_rate": 9.844481880796491e-05,
      "loss": 0.7173,
      "step": 3360
    },
    {
      "epoch": 5.548227535037098,
      "grad_norm": 0.451171875,
      "learning_rate": 9.815685235946068e-05,
      "loss": 0.7134,
      "step": 3365
    },
    {
      "epoch": 5.5564715581203625,
      "grad_norm": 0.470703125,
      "learning_rate": 9.786890119961253e-05,
      "loss": 0.7199,
      "step": 3370
    },
    {
      "epoch": 5.564715581203627,
      "grad_norm": 0.419921875,
      "learning_rate": 9.758096771693573e-05,
      "loss": 0.7116,
      "step": 3375
    },
    {
      "epoch": 5.572959604286892,
      "grad_norm": 0.42578125,
      "learning_rate": 9.729305429979887e-05,
      "loss": 0.7131,
      "step": 3380
    },
    {
      "epoch": 5.581203627370156,
      "grad_norm": 0.47265625,
      "learning_rate": 9.700516333640415e-05,
      "loss": 0.7172,
      "step": 3385
    },
    {
      "epoch": 5.589447650453422,
      "grad_norm": 0.427734375,
      "learning_rate": 9.671729721476746e-05,
      "loss": 0.7121,
      "step": 3390
    },
    {
      "epoch": 5.597691673536686,
      "grad_norm": 0.4375,
      "learning_rate": 9.642945832269874e-05,
      "loss": 0.7187,
      "step": 3395
    },
    {
      "epoch": 5.605935696619951,
      "grad_norm": 0.42578125,
      "learning_rate": 9.614164904778196e-05,
      "loss": 0.7108,
      "step": 3400
    },
    {
      "epoch": 5.614179719703215,
      "grad_norm": 0.421875,
      "learning_rate": 9.585387177735547e-05,
      "loss": 0.7099,
      "step": 3405
    },
    {
      "epoch": 5.62242374278648,
      "grad_norm": 0.447265625,
      "learning_rate": 9.556612889849214e-05,
      "loss": 0.7169,
      "step": 3410
    },
    {
      "epoch": 5.630667765869744,
      "grad_norm": 0.5390625,
      "learning_rate": 9.527842279797953e-05,
      "loss": 0.7118,
      "step": 3415
    },
    {
      "epoch": 5.638911788953009,
      "grad_norm": 0.396484375,
      "learning_rate": 9.499075586230013e-05,
      "loss": 0.7148,
      "step": 3420
    },
    {
      "epoch": 5.6471558120362735,
      "grad_norm": 0.39453125,
      "learning_rate": 9.470313047761167e-05,
      "loss": 0.7166,
      "step": 3425
    },
    {
      "epoch": 5.655399835119538,
      "grad_norm": 0.52734375,
      "learning_rate": 9.44155490297271e-05,
      "loss": 0.7156,
      "step": 3430
    },
    {
      "epoch": 5.663643858202803,
      "grad_norm": 0.4765625,
      "learning_rate": 9.412801390409497e-05,
      "loss": 0.707,
      "step": 3435
    },
    {
      "epoch": 5.671887881286068,
      "grad_norm": 0.4296875,
      "learning_rate": 9.38405274857796e-05,
      "loss": 0.7125,
      "step": 3440
    },
    {
      "epoch": 5.680131904369333,
      "grad_norm": 0.453125,
      "learning_rate": 9.355309215944124e-05,
      "loss": 0.7153,
      "step": 3445
    },
    {
      "epoch": 5.688375927452597,
      "grad_norm": 0.45703125,
      "learning_rate": 9.326571030931637e-05,
      "loss": 0.7143,
      "step": 3450
    },
    {
      "epoch": 5.696619950535862,
      "grad_norm": 0.42578125,
      "learning_rate": 9.297838431919794e-05,
      "loss": 0.7192,
      "step": 3455
    },
    {
      "epoch": 5.704863973619126,
      "grad_norm": 0.4765625,
      "learning_rate": 9.269111657241548e-05,
      "loss": 0.7151,
      "step": 3460
    },
    {
      "epoch": 5.713107996702391,
      "grad_norm": 0.62109375,
      "learning_rate": 9.240390945181543e-05,
      "loss": 0.7171,
      "step": 3465
    },
    {
      "epoch": 5.721352019785655,
      "grad_norm": 0.42578125,
      "learning_rate": 9.211676533974131e-05,
      "loss": 0.7111,
      "step": 3470
    },
    {
      "epoch": 5.72959604286892,
      "grad_norm": 0.47265625,
      "learning_rate": 9.182968661801412e-05,
      "loss": 0.7111,
      "step": 3475
    },
    {
      "epoch": 5.737840065952184,
      "grad_norm": 0.408203125,
      "learning_rate": 9.154267566791223e-05,
      "loss": 0.7211,
      "step": 3480
    },
    {
      "epoch": 5.746084089035449,
      "grad_norm": 0.43359375,
      "learning_rate": 9.125573487015203e-05,
      "loss": 0.7165,
      "step": 3485
    },
    {
      "epoch": 5.7543281121187135,
      "grad_norm": 0.404296875,
      "learning_rate": 9.096886660486797e-05,
      "loss": 0.7082,
      "step": 3490
    },
    {
      "epoch": 5.762572135201978,
      "grad_norm": 0.41015625,
      "learning_rate": 9.068207325159284e-05,
      "loss": 0.7136,
      "step": 3495
    },
    {
      "epoch": 5.7708161582852435,
      "grad_norm": 0.4140625,
      "learning_rate": 9.039535718923804e-05,
      "loss": 0.714,
      "step": 3500
    },
    {
      "epoch": 5.779060181368508,
      "grad_norm": 0.41015625,
      "learning_rate": 9.01087207960739e-05,
      "loss": 0.7174,
      "step": 3505
    },
    {
      "epoch": 5.787304204451773,
      "grad_norm": 0.54296875,
      "learning_rate": 8.982216644970979e-05,
      "loss": 0.7071,
      "step": 3510
    },
    {
      "epoch": 5.795548227535037,
      "grad_norm": 0.43359375,
      "learning_rate": 8.953569652707459e-05,
      "loss": 0.7081,
      "step": 3515
    },
    {
      "epoch": 5.803792250618302,
      "grad_norm": 0.44140625,
      "learning_rate": 8.924931340439694e-05,
      "loss": 0.7124,
      "step": 3520
    },
    {
      "epoch": 5.812036273701566,
      "grad_norm": 0.41796875,
      "learning_rate": 8.896301945718541e-05,
      "loss": 0.7115,
      "step": 3525
    },
    {
      "epoch": 5.820280296784831,
      "grad_norm": 0.396484375,
      "learning_rate": 8.867681706020894e-05,
      "loss": 0.7134,
      "step": 3530
    },
    {
      "epoch": 5.828524319868095,
      "grad_norm": 0.40234375,
      "learning_rate": 8.839070858747697e-05,
      "loss": 0.7169,
      "step": 3535
    },
    {
      "epoch": 5.83676834295136,
      "grad_norm": 0.58203125,
      "learning_rate": 8.810469641222001e-05,
      "loss": 0.7154,
      "step": 3540
    },
    {
      "epoch": 5.845012366034625,
      "grad_norm": 0.51171875,
      "learning_rate": 8.781878290686959e-05,
      "loss": 0.7182,
      "step": 3545
    },
    {
      "epoch": 5.85325638911789,
      "grad_norm": 0.45703125,
      "learning_rate": 8.753297044303896e-05,
      "loss": 0.7128,
      "step": 3550
    },
    {
      "epoch": 5.8615004122011545,
      "grad_norm": 0.44140625,
      "learning_rate": 8.724726139150318e-05,
      "loss": 0.7083,
      "step": 3555
    },
    {
      "epoch": 5.869744435284419,
      "grad_norm": 0.421875,
      "learning_rate": 8.696165812217953e-05,
      "loss": 0.7175,
      "step": 3560
    },
    {
      "epoch": 5.877988458367684,
      "grad_norm": 0.404296875,
      "learning_rate": 8.667616300410778e-05,
      "loss": 0.7174,
      "step": 3565
    },
    {
      "epoch": 5.886232481450948,
      "grad_norm": 0.46875,
      "learning_rate": 8.639077840543077e-05,
      "loss": 0.7173,
      "step": 3570
    },
    {
      "epoch": 5.894476504534213,
      "grad_norm": 0.388671875,
      "learning_rate": 8.610550669337433e-05,
      "loss": 0.7147,
      "step": 3575
    },
    {
      "epoch": 5.902720527617477,
      "grad_norm": 0.39453125,
      "learning_rate": 8.582035023422815e-05,
      "loss": 0.7169,
      "step": 3580
    },
    {
      "epoch": 5.910964550700742,
      "grad_norm": 0.484375,
      "learning_rate": 8.553531139332582e-05,
      "loss": 0.7237,
      "step": 3585
    },
    {
      "epoch": 5.919208573784006,
      "grad_norm": 0.3984375,
      "learning_rate": 8.525039253502529e-05,
      "loss": 0.7134,
      "step": 3590
    },
    {
      "epoch": 5.927452596867271,
      "grad_norm": 0.443359375,
      "learning_rate": 8.496559602268928e-05,
      "loss": 0.7189,
      "step": 3595
    },
    {
      "epoch": 5.935696619950535,
      "grad_norm": 0.50390625,
      "learning_rate": 8.468092421866573e-05,
      "loss": 0.717,
      "step": 3600
    },
    {
      "epoch": 5.943940643033801,
      "grad_norm": 0.38671875,
      "learning_rate": 8.439637948426801e-05,
      "loss": 0.7094,
      "step": 3605
    },
    {
      "epoch": 5.952184666117065,
      "grad_norm": 0.40234375,
      "learning_rate": 8.411196417975558e-05,
      "loss": 0.7019,
      "step": 3610
    },
    {
      "epoch": 5.96042868920033,
      "grad_norm": 0.40625,
      "learning_rate": 8.382768066431425e-05,
      "loss": 0.7127,
      "step": 3615
    },
    {
      "epoch": 5.9686727122835945,
      "grad_norm": 0.54296875,
      "learning_rate": 8.354353129603668e-05,
      "loss": 0.7133,
      "step": 3620
    },
    {
      "epoch": 5.976916735366859,
      "grad_norm": 0.427734375,
      "learning_rate": 8.325951843190274e-05,
      "loss": 0.7182,
      "step": 3625
    },
    {
      "epoch": 5.985160758450124,
      "grad_norm": 0.40234375,
      "learning_rate": 8.297564442776014e-05,
      "loss": 0.7053,
      "step": 3630
    },
    {
      "epoch": 5.993404781533388,
      "grad_norm": 0.44140625,
      "learning_rate": 8.269191163830467e-05,
      "loss": 0.7253,
      "step": 3635
    },
    {
      "epoch": 6.0,
      "eval_loss": 2.459299325942993,
      "eval_runtime": 0.2463,
      "eval_samples_per_second": 40.595,
      "eval_steps_per_second": 4.059,
      "step": 3639
    },
    {
      "epoch": 6.001648804616653,
      "grad_norm": 0.408203125,
      "learning_rate": 8.240832241706068e-05,
      "loss": 0.7144,
      "step": 3640
    },
    {
      "epoch": 6.009892827699917,
      "grad_norm": 0.5625,
      "learning_rate": 8.212487911636184e-05,
      "loss": 0.7102,
      "step": 3645
    },
    {
      "epoch": 6.018136850783182,
      "grad_norm": 0.640625,
      "learning_rate": 8.184158408733131e-05,
      "loss": 0.7073,
      "step": 3650
    },
    {
      "epoch": 6.026380873866446,
      "grad_norm": 0.421875,
      "learning_rate": 8.155843967986236e-05,
      "loss": 0.6914,
      "step": 3655
    },
    {
      "epoch": 6.034624896949712,
      "grad_norm": 0.421875,
      "learning_rate": 8.127544824259889e-05,
      "loss": 0.7095,
      "step": 3660
    },
    {
      "epoch": 6.042868920032976,
      "grad_norm": 0.427734375,
      "learning_rate": 8.099261212291601e-05,
      "loss": 0.7006,
      "step": 3665
    },
    {
      "epoch": 6.051112943116241,
      "grad_norm": 0.408203125,
      "learning_rate": 8.070993366690029e-05,
      "loss": 0.6983,
      "step": 3670
    },
    {
      "epoch": 6.0593569661995055,
      "grad_norm": 0.412109375,
      "learning_rate": 8.042741521933071e-05,
      "loss": 0.7086,
      "step": 3675
    },
    {
      "epoch": 6.06760098928277,
      "grad_norm": 0.41015625,
      "learning_rate": 8.014505912365893e-05,
      "loss": 0.7039,
      "step": 3680
    },
    {
      "epoch": 6.075845012366035,
      "grad_norm": 0.435546875,
      "learning_rate": 7.986286772198986e-05,
      "loss": 0.7056,
      "step": 3685
    },
    {
      "epoch": 6.084089035449299,
      "grad_norm": 0.41015625,
      "learning_rate": 7.958084335506239e-05,
      "loss": 0.6957,
      "step": 3690
    },
    {
      "epoch": 6.092333058532564,
      "grad_norm": 0.416015625,
      "learning_rate": 7.929898836222983e-05,
      "loss": 0.7052,
      "step": 3695
    },
    {
      "epoch": 6.100577081615828,
      "grad_norm": 0.46875,
      "learning_rate": 7.90173050814406e-05,
      "loss": 0.6982,
      "step": 3700
    },
    {
      "epoch": 6.108821104699093,
      "grad_norm": 0.50390625,
      "learning_rate": 7.873579584921869e-05,
      "loss": 0.7029,
      "step": 3705
    },
    {
      "epoch": 6.117065127782358,
      "grad_norm": 0.451171875,
      "learning_rate": 7.84544630006445e-05,
      "loss": 0.7015,
      "step": 3710
    },
    {
      "epoch": 6.125309150865623,
      "grad_norm": 0.427734375,
      "learning_rate": 7.817330886933527e-05,
      "loss": 0.7073,
      "step": 3715
    },
    {
      "epoch": 6.133553173948887,
      "grad_norm": 0.416015625,
      "learning_rate": 7.789233578742582e-05,
      "loss": 0.7092,
      "step": 3720
    },
    {
      "epoch": 6.141797197032152,
      "grad_norm": 0.490234375,
      "learning_rate": 7.761154608554927e-05,
      "loss": 0.7025,
      "step": 3725
    },
    {
      "epoch": 6.150041220115416,
      "grad_norm": 0.412109375,
      "learning_rate": 7.733094209281756e-05,
      "loss": 0.7048,
      "step": 3730
    },
    {
      "epoch": 6.158285243198681,
      "grad_norm": 0.404296875,
      "learning_rate": 7.705052613680211e-05,
      "loss": 0.7029,
      "step": 3735
    },
    {
      "epoch": 6.1665292662819455,
      "grad_norm": 0.453125,
      "learning_rate": 7.677030054351477e-05,
      "loss": 0.701,
      "step": 3740
    },
    {
      "epoch": 6.17477328936521,
      "grad_norm": 0.439453125,
      "learning_rate": 7.649026763738827e-05,
      "loss": 0.7067,
      "step": 3745
    },
    {
      "epoch": 6.183017312448475,
      "grad_norm": 0.451171875,
      "learning_rate": 7.6210429741257e-05,
      "loss": 0.7055,
      "step": 3750
    },
    {
      "epoch": 6.191261335531739,
      "grad_norm": 0.423828125,
      "learning_rate": 7.593078917633787e-05,
      "loss": 0.7104,
      "step": 3755
    },
    {
      "epoch": 6.199505358615004,
      "grad_norm": 0.380859375,
      "learning_rate": 7.565134826221083e-05,
      "loss": 0.703,
      "step": 3760
    },
    {
      "epoch": 6.207749381698269,
      "grad_norm": 0.431640625,
      "learning_rate": 7.537210931679987e-05,
      "loss": 0.6998,
      "step": 3765
    },
    {
      "epoch": 6.215993404781534,
      "grad_norm": 0.427734375,
      "learning_rate": 7.509307465635358e-05,
      "loss": 0.6976,
      "step": 3770
    },
    {
      "epoch": 6.224237427864798,
      "grad_norm": 0.42578125,
      "learning_rate": 7.481424659542609e-05,
      "loss": 0.7025,
      "step": 3775
    },
    {
      "epoch": 6.232481450948063,
      "grad_norm": 0.421875,
      "learning_rate": 7.453562744685778e-05,
      "loss": 0.6971,
      "step": 3780
    },
    {
      "epoch": 6.240725474031327,
      "grad_norm": 0.3984375,
      "learning_rate": 7.425721952175618e-05,
      "loss": 0.6984,
      "step": 3785
    },
    {
      "epoch": 6.248969497114592,
      "grad_norm": 0.59765625,
      "learning_rate": 7.39790251294767e-05,
      "loss": 0.7012,
      "step": 3790
    },
    {
      "epoch": 6.2572135201978565,
      "grad_norm": 0.466796875,
      "learning_rate": 7.370104657760361e-05,
      "loss": 0.7012,
      "step": 3795
    },
    {
      "epoch": 6.265457543281121,
      "grad_norm": 0.439453125,
      "learning_rate": 7.342328617193067e-05,
      "loss": 0.7069,
      "step": 3800
    },
    {
      "epoch": 6.273701566364386,
      "grad_norm": 0.408203125,
      "learning_rate": 7.314574621644225e-05,
      "loss": 0.6998,
      "step": 3805
    },
    {
      "epoch": 6.28194558944765,
      "grad_norm": 0.427734375,
      "learning_rate": 7.286842901329412e-05,
      "loss": 0.695,
      "step": 3810
    },
    {
      "epoch": 6.290189612530915,
      "grad_norm": 0.421875,
      "learning_rate": 7.259133686279429e-05,
      "loss": 0.7045,
      "step": 3815
    },
    {
      "epoch": 6.29843363561418,
      "grad_norm": 0.478515625,
      "learning_rate": 7.231447206338407e-05,
      "loss": 0.7062,
      "step": 3820
    },
    {
      "epoch": 6.306677658697445,
      "grad_norm": 0.408203125,
      "learning_rate": 7.203783691161883e-05,
      "loss": 0.6975,
      "step": 3825
    },
    {
      "epoch": 6.314921681780709,
      "grad_norm": 0.41796875,
      "learning_rate": 7.176143370214914e-05,
      "loss": 0.7035,
      "step": 3830
    },
    {
      "epoch": 6.323165704863974,
      "grad_norm": 0.46484375,
      "learning_rate": 7.148526472770154e-05,
      "loss": 0.7071,
      "step": 3835
    },
    {
      "epoch": 6.331409727947238,
      "grad_norm": 0.49609375,
      "learning_rate": 7.12093322790597e-05,
      "loss": 0.7022,
      "step": 3840
    },
    {
      "epoch": 6.339653751030503,
      "grad_norm": 0.515625,
      "learning_rate": 7.09336386450453e-05,
      "loss": 0.7104,
      "step": 3845
    },
    {
      "epoch": 6.347897774113767,
      "grad_norm": 0.423828125,
      "learning_rate": 7.065818611249915e-05,
      "loss": 0.7028,
      "step": 3850
    },
    {
      "epoch": 6.356141797197032,
      "grad_norm": 0.43359375,
      "learning_rate": 7.038297696626206e-05,
      "loss": 0.7049,
      "step": 3855
    },
    {
      "epoch": 6.3643858202802965,
      "grad_norm": 0.421875,
      "learning_rate": 7.010801348915608e-05,
      "loss": 0.7074,
      "step": 3860
    },
    {
      "epoch": 6.372629843363561,
      "grad_norm": 0.423828125,
      "learning_rate": 6.983329796196534e-05,
      "loss": 0.7001,
      "step": 3865
    },
    {
      "epoch": 6.380873866446826,
      "grad_norm": 0.5703125,
      "learning_rate": 6.955883266341741e-05,
      "loss": 0.7006,
      "step": 3870
    },
    {
      "epoch": 6.389117889530091,
      "grad_norm": 0.4140625,
      "learning_rate": 6.928461987016413e-05,
      "loss": 0.7113,
      "step": 3875
    },
    {
      "epoch": 6.397361912613356,
      "grad_norm": 0.416015625,
      "learning_rate": 6.901066185676295e-05,
      "loss": 0.6964,
      "step": 3880
    },
    {
      "epoch": 6.40560593569662,
      "grad_norm": 0.42578125,
      "learning_rate": 6.873696089565786e-05,
      "loss": 0.7086,
      "step": 3885
    },
    {
      "epoch": 6.413849958779885,
      "grad_norm": 0.5078125,
      "learning_rate": 6.846351925716068e-05,
      "loss": 0.698,
      "step": 3890
    },
    {
      "epoch": 6.422093981863149,
      "grad_norm": 0.443359375,
      "learning_rate": 6.819033920943219e-05,
      "loss": 0.6997,
      "step": 3895
    },
    {
      "epoch": 6.430338004946414,
      "grad_norm": 0.4765625,
      "learning_rate": 6.791742301846326e-05,
      "loss": 0.7031,
      "step": 3900
    },
    {
      "epoch": 6.438582028029678,
      "grad_norm": 0.427734375,
      "learning_rate": 6.764477294805615e-05,
      "loss": 0.7026,
      "step": 3905
    },
    {
      "epoch": 6.446826051112943,
      "grad_norm": 0.458984375,
      "learning_rate": 6.737239125980573e-05,
      "loss": 0.7006,
      "step": 3910
    },
    {
      "epoch": 6.4550700741962075,
      "grad_norm": 0.412109375,
      "learning_rate": 6.710028021308061e-05,
      "loss": 0.6971,
      "step": 3915
    },
    {
      "epoch": 6.463314097279472,
      "grad_norm": 0.400390625,
      "learning_rate": 6.682844206500445e-05,
      "loss": 0.7028,
      "step": 3920
    },
    {
      "epoch": 6.471558120362737,
      "grad_norm": 0.392578125,
      "learning_rate": 6.655687907043734e-05,
      "loss": 0.7053,
      "step": 3925
    },
    {
      "epoch": 6.479802143446002,
      "grad_norm": 0.4296875,
      "learning_rate": 6.62855934819569e-05,
      "loss": 0.6995,
      "step": 3930
    },
    {
      "epoch": 6.488046166529267,
      "grad_norm": 0.40234375,
      "learning_rate": 6.601458754983978e-05,
      "loss": 0.6971,
      "step": 3935
    },
    {
      "epoch": 6.496290189612531,
      "grad_norm": 0.462890625,
      "learning_rate": 6.574386352204289e-05,
      "loss": 0.7029,
      "step": 3940
    },
    {
      "epoch": 6.504534212695796,
      "grad_norm": 0.408203125,
      "learning_rate": 6.547342364418481e-05,
      "loss": 0.7011,
      "step": 3945
    },
    {
      "epoch": 6.51277823577906,
      "grad_norm": 0.4296875,
      "learning_rate": 6.520327015952713e-05,
      "loss": 0.699,
      "step": 3950
    },
    {
      "epoch": 6.521022258862325,
      "grad_norm": 0.431640625,
      "learning_rate": 6.493340530895583e-05,
      "loss": 0.6987,
      "step": 3955
    },
    {
      "epoch": 6.529266281945589,
      "grad_norm": 0.3828125,
      "learning_rate": 6.466383133096267e-05,
      "loss": 0.7095,
      "step": 3960
    },
    {
      "epoch": 6.537510305028854,
      "grad_norm": 0.443359375,
      "learning_rate": 6.439455046162677e-05,
      "loss": 0.704,
      "step": 3965
    },
    {
      "epoch": 6.545754328112118,
      "grad_norm": 0.474609375,
      "learning_rate": 6.412556493459581e-05,
      "loss": 0.7127,
      "step": 3970
    },
    {
      "epoch": 6.553998351195383,
      "grad_norm": 0.431640625,
      "learning_rate": 6.385687698106781e-05,
      "loss": 0.7019,
      "step": 3975
    },
    {
      "epoch": 6.562242374278648,
      "grad_norm": 0.3984375,
      "learning_rate": 6.358848882977233e-05,
      "loss": 0.702,
      "step": 3980
    },
    {
      "epoch": 6.570486397361913,
      "grad_norm": 0.443359375,
      "learning_rate": 6.332040270695219e-05,
      "loss": 0.7086,
      "step": 3985
    },
    {
      "epoch": 6.5787304204451775,
      "grad_norm": 0.408203125,
      "learning_rate": 6.305262083634488e-05,
      "loss": 0.7086,
      "step": 3990
    },
    {
      "epoch": 6.586974443528442,
      "grad_norm": 0.443359375,
      "learning_rate": 6.278514543916415e-05,
      "loss": 0.7087,
      "step": 3995
    },
    {
      "epoch": 6.595218466611707,
      "grad_norm": 0.41015625,
      "learning_rate": 6.251797873408161e-05,
      "loss": 0.6976,
      "step": 4000
    },
    {
      "epoch": 6.603462489694971,
      "grad_norm": 0.478515625,
      "learning_rate": 6.225112293720836e-05,
      "loss": 0.6968,
      "step": 4005
    },
    {
      "epoch": 6.611706512778236,
      "grad_norm": 0.41796875,
      "learning_rate": 6.198458026207652e-05,
      "loss": 0.7039,
      "step": 4010
    },
    {
      "epoch": 6.6199505358615,
      "grad_norm": 0.40234375,
      "learning_rate": 6.171835291962088e-05,
      "loss": 0.702,
      "step": 4015
    },
    {
      "epoch": 6.628194558944765,
      "grad_norm": 0.4296875,
      "learning_rate": 6.145244311816063e-05,
      "loss": 0.7004,
      "step": 4020
    },
    {
      "epoch": 6.636438582028029,
      "grad_norm": 0.5,
      "learning_rate": 6.1186853063381e-05,
      "loss": 0.6988,
      "step": 4025
    },
    {
      "epoch": 6.644682605111294,
      "grad_norm": 0.427734375,
      "learning_rate": 6.092158495831486e-05,
      "loss": 0.7019,
      "step": 4030
    },
    {
      "epoch": 6.6529266281945585,
      "grad_norm": 0.4609375,
      "learning_rate": 6.065664100332478e-05,
      "loss": 0.7082,
      "step": 4035
    },
    {
      "epoch": 6.661170651277824,
      "grad_norm": 0.4375,
      "learning_rate": 6.039202339608432e-05,
      "loss": 0.7008,
      "step": 4040
    },
    {
      "epoch": 6.6694146743610885,
      "grad_norm": 0.44921875,
      "learning_rate": 6.012773433156017e-05,
      "loss": 0.7022,
      "step": 4045
    },
    {
      "epoch": 6.677658697444353,
      "grad_norm": 0.404296875,
      "learning_rate": 5.986377600199371e-05,
      "loss": 0.6986,
      "step": 4050
    },
    {
      "epoch": 6.685902720527618,
      "grad_norm": 0.42578125,
      "learning_rate": 5.9600150596883066e-05,
      "loss": 0.6989,
      "step": 4055
    },
    {
      "epoch": 6.694146743610882,
      "grad_norm": 0.43359375,
      "learning_rate": 5.933686030296459e-05,
      "loss": 0.6993,
      "step": 4060
    },
    {
      "epoch": 6.702390766694147,
      "grad_norm": 0.419921875,
      "learning_rate": 5.907390730419507e-05,
      "loss": 0.6977,
      "step": 4065
    },
    {
      "epoch": 6.710634789777411,
      "grad_norm": 0.41015625,
      "learning_rate": 5.881129378173347e-05,
      "loss": 0.7019,
      "step": 4070
    },
    {
      "epoch": 6.718878812860676,
      "grad_norm": 0.40625,
      "learning_rate": 5.854902191392284e-05,
      "loss": 0.6936,
      "step": 4075
    },
    {
      "epoch": 6.72712283594394,
      "grad_norm": 0.494140625,
      "learning_rate": 5.828709387627218e-05,
      "loss": 0.7002,
      "step": 4080
    },
    {
      "epoch": 6.735366859027205,
      "grad_norm": 0.435546875,
      "learning_rate": 5.802551184143865e-05,
      "loss": 0.7026,
      "step": 4085
    },
    {
      "epoch": 6.74361088211047,
      "grad_norm": 0.404296875,
      "learning_rate": 5.7764277979209094e-05,
      "loss": 0.7151,
      "step": 4090
    },
    {
      "epoch": 6.751854905193735,
      "grad_norm": 0.416015625,
      "learning_rate": 5.750339445648252e-05,
      "loss": 0.7055,
      "step": 4095
    },
    {
      "epoch": 6.760098928276999,
      "grad_norm": 0.4140625,
      "learning_rate": 5.724286343725185e-05,
      "loss": 0.7032,
      "step": 4100
    },
    {
      "epoch": 6.768342951360264,
      "grad_norm": 0.421875,
      "learning_rate": 5.6982687082585994e-05,
      "loss": 0.7008,
      "step": 4105
    },
    {
      "epoch": 6.7765869744435285,
      "grad_norm": 0.400390625,
      "learning_rate": 5.6722867550612116e-05,
      "loss": 0.6998,
      "step": 4110
    },
    {
      "epoch": 6.784830997526793,
      "grad_norm": 0.404296875,
      "learning_rate": 5.6463406996497456e-05,
      "loss": 0.6961,
      "step": 4115
    },
    {
      "epoch": 6.793075020610058,
      "grad_norm": 0.412109375,
      "learning_rate": 5.620430757243156e-05,
      "loss": 0.6963,
      "step": 4120
    },
    {
      "epoch": 6.801319043693322,
      "grad_norm": 0.40234375,
      "learning_rate": 5.5945571427608526e-05,
      "loss": 0.7083,
      "step": 4125
    },
    {
      "epoch": 6.809563066776587,
      "grad_norm": 0.419921875,
      "learning_rate": 5.5687200708209076e-05,
      "loss": 0.704,
      "step": 4130
    },
    {
      "epoch": 6.817807089859851,
      "grad_norm": 0.4140625,
      "learning_rate": 5.542919755738275e-05,
      "loss": 0.7061,
      "step": 4135
    },
    {
      "epoch": 6.826051112943116,
      "grad_norm": 0.478515625,
      "learning_rate": 5.5171564115230254e-05,
      "loss": 0.7037,
      "step": 4140
    },
    {
      "epoch": 6.83429513602638,
      "grad_norm": 0.408203125,
      "learning_rate": 5.491430251878551e-05,
      "loss": 0.715,
      "step": 4145
    },
    {
      "epoch": 6.842539159109646,
      "grad_norm": 0.421875,
      "learning_rate": 5.4657414901998095e-05,
      "loss": 0.7023,
      "step": 4150
    },
    {
      "epoch": 6.85078318219291,
      "grad_norm": 0.4453125,
      "learning_rate": 5.4400903395715366e-05,
      "loss": 0.6967,
      "step": 4155
    },
    {
      "epoch": 6.859027205276175,
      "grad_norm": 0.40625,
      "learning_rate": 5.4144770127665024e-05,
      "loss": 0.7073,
      "step": 4160
    },
    {
      "epoch": 6.8672712283594395,
      "grad_norm": 0.43359375,
      "learning_rate": 5.388901722243724e-05,
      "loss": 0.6954,
      "step": 4165
    },
    {
      "epoch": 6.875515251442704,
      "grad_norm": 0.400390625,
      "learning_rate": 5.363364680146725e-05,
      "loss": 0.7044,
      "step": 4170
    },
    {
      "epoch": 6.883759274525969,
      "grad_norm": 0.412109375,
      "learning_rate": 5.3378660983017536e-05,
      "loss": 0.7045,
      "step": 4175
    },
    {
      "epoch": 6.892003297609233,
      "grad_norm": 0.404296875,
      "learning_rate": 5.31240618821604e-05,
      "loss": 0.7029,
      "step": 4180
    },
    {
      "epoch": 6.900247320692498,
      "grad_norm": 0.396484375,
      "learning_rate": 5.286985161076029e-05,
      "loss": 0.7018,
      "step": 4185
    },
    {
      "epoch": 6.908491343775762,
      "grad_norm": 0.4140625,
      "learning_rate": 5.2616032277456463e-05,
      "loss": 0.7102,
      "step": 4190
    },
    {
      "epoch": 6.916735366859028,
      "grad_norm": 0.3828125,
      "learning_rate": 5.236260598764535e-05,
      "loss": 0.7078,
      "step": 4195
    },
    {
      "epoch": 6.924979389942292,
      "grad_norm": 0.51953125,
      "learning_rate": 5.210957484346314e-05,
      "loss": 0.7055,
      "step": 4200
    },
    {
      "epoch": 6.933223413025557,
      "grad_norm": 0.423828125,
      "learning_rate": 5.185694094376843e-05,
      "loss": 0.7068,
      "step": 4205
    },
    {
      "epoch": 6.941467436108821,
      "grad_norm": 0.412109375,
      "learning_rate": 5.160470638412461e-05,
      "loss": 0.6911,
      "step": 4210
    },
    {
      "epoch": 6.949711459192086,
      "grad_norm": 0.388671875,
      "learning_rate": 5.135287325678271e-05,
      "loss": 0.7047,
      "step": 4215
    },
    {
      "epoch": 6.95795548227535,
      "grad_norm": 0.435546875,
      "learning_rate": 5.1101443650663764e-05,
      "loss": 0.6989,
      "step": 4220
    },
    {
      "epoch": 6.966199505358615,
      "grad_norm": 0.416015625,
      "learning_rate": 5.085041965134183e-05,
      "loss": 0.6975,
      "step": 4225
    },
    {
      "epoch": 6.9744435284418795,
      "grad_norm": 0.412109375,
      "learning_rate": 5.059980334102637e-05,
      "loss": 0.7055,
      "step": 4230
    },
    {
      "epoch": 6.982687551525144,
      "grad_norm": 0.39453125,
      "learning_rate": 5.034959679854532e-05,
      "loss": 0.6983,
      "step": 4235
    },
    {
      "epoch": 6.990931574608409,
      "grad_norm": 0.4296875,
      "learning_rate": 5.009980209932743e-05,
      "loss": 0.7046,
      "step": 4240
    },
    {
      "epoch": 6.999175597691673,
      "grad_norm": 0.38671875,
      "learning_rate": 4.985042131538545e-05,
      "loss": 0.7042,
      "step": 4245
    },
    {
      "epoch": 6.999175597691673,
      "eval_loss": 2.4711008071899414,
      "eval_runtime": 0.2631,
      "eval_samples_per_second": 38.011,
      "eval_steps_per_second": 3.801,
      "step": 4245
    },
    {
      "epoch": 7.007419620774938,
      "grad_norm": 0.49609375,
      "learning_rate": 4.960145651529856e-05,
      "loss": 0.6792,
      "step": 4250
    },
    {
      "epoch": 7.015663643858203,
      "grad_norm": 0.53125,
      "learning_rate": 4.9352909764195576e-05,
      "loss": 0.6999,
      "step": 4255
    },
    {
      "epoch": 7.023907666941468,
      "grad_norm": 0.4296875,
      "learning_rate": 4.9104783123737566e-05,
      "loss": 0.6999,
      "step": 4260
    },
    {
      "epoch": 7.032151690024732,
      "grad_norm": 0.3984375,
      "learning_rate": 4.885707865210093e-05,
      "loss": 0.7018,
      "step": 4265
    },
    {
      "epoch": 7.040395713107997,
      "grad_norm": 0.400390625,
      "learning_rate": 4.860979840396016e-05,
      "loss": 0.6912,
      "step": 4270
    },
    {
      "epoch": 7.048639736191261,
      "grad_norm": 0.45703125,
      "learning_rate": 4.836294443047088e-05,
      "loss": 0.6945,
      "step": 4275
    },
    {
      "epoch": 7.056883759274526,
      "grad_norm": 0.44921875,
      "learning_rate": 4.8116518779252885e-05,
      "loss": 0.6905,
      "step": 4280
    },
    {
      "epoch": 7.0651277823577905,
      "grad_norm": 0.39453125,
      "learning_rate": 4.787052349437295e-05,
      "loss": 0.691,
      "step": 4285
    },
    {
      "epoch": 7.073371805441055,
      "grad_norm": 0.408203125,
      "learning_rate": 4.762496061632814e-05,
      "loss": 0.6843,
      "step": 4290
    },
    {
      "epoch": 7.08161582852432,
      "grad_norm": 0.388671875,
      "learning_rate": 4.7379832182028814e-05,
      "loss": 0.6951,
      "step": 4295
    },
    {
      "epoch": 7.089859851607584,
      "grad_norm": 0.408203125,
      "learning_rate": 4.713514022478155e-05,
      "loss": 0.6893,
      "step": 4300
    },
    {
      "epoch": 7.09810387469085,
      "grad_norm": 0.4453125,
      "learning_rate": 4.689088677427249e-05,
      "loss": 0.6952,
      "step": 4305
    },
    {
      "epoch": 7.106347897774114,
      "grad_norm": 0.427734375,
      "learning_rate": 4.6647073856550415e-05,
      "loss": 0.6958,
      "step": 4310
    },
    {
      "epoch": 7.114591920857379,
      "grad_norm": 0.4140625,
      "learning_rate": 4.6403703494009875e-05,
      "loss": 0.6946,
      "step": 4315
    },
    {
      "epoch": 7.122835943940643,
      "grad_norm": 0.427734375,
      "learning_rate": 4.6160777705374524e-05,
      "loss": 0.6996,
      "step": 4320
    },
    {
      "epoch": 7.131079967023908,
      "grad_norm": 0.408203125,
      "learning_rate": 4.591829850568046e-05,
      "loss": 0.6969,
      "step": 4325
    },
    {
      "epoch": 7.139323990107172,
      "grad_norm": 0.439453125,
      "learning_rate": 4.567626790625921e-05,
      "loss": 0.6868,
      "step": 4330
    },
    {
      "epoch": 7.147568013190437,
      "grad_norm": 0.4609375,
      "learning_rate": 4.543468791472131e-05,
      "loss": 0.69,
      "step": 4335
    },
    {
      "epoch": 7.155812036273701,
      "grad_norm": 0.40625,
      "learning_rate": 4.519356053493958e-05,
      "loss": 0.6979,
      "step": 4340
    },
    {
      "epoch": 7.164056059356966,
      "grad_norm": 0.408203125,
      "learning_rate": 4.495288776703241e-05,
      "loss": 0.7022,
      "step": 4345
    },
    {
      "epoch": 7.1723000824402305,
      "grad_norm": 0.41015625,
      "learning_rate": 4.471267160734731e-05,
      "loss": 0.6874,
      "step": 4350
    },
    {
      "epoch": 7.180544105523495,
      "grad_norm": 0.40625,
      "learning_rate": 4.447291404844424e-05,
      "loss": 0.6982,
      "step": 4355
    },
    {
      "epoch": 7.18878812860676,
      "grad_norm": 0.404296875,
      "learning_rate": 4.4233617079079236e-05,
      "loss": 0.7015,
      "step": 4360
    },
    {
      "epoch": 7.197032151690025,
      "grad_norm": 0.39453125,
      "learning_rate": 4.399478268418771e-05,
      "loss": 0.6919,
      "step": 4365
    },
    {
      "epoch": 7.20527617477329,
      "grad_norm": 0.412109375,
      "learning_rate": 4.375641284486808e-05,
      "loss": 0.6867,
      "step": 4370
    },
    {
      "epoch": 7.213520197856554,
      "grad_norm": 0.3984375,
      "learning_rate": 4.3518509538365425e-05,
      "loss": 0.6929,
      "step": 4375
    },
    {
      "epoch": 7.221764220939819,
      "grad_norm": 0.40234375,
      "learning_rate": 4.328107473805487e-05,
      "loss": 0.7013,
      "step": 4380
    },
    {
      "epoch": 7.230008244023083,
      "grad_norm": 0.4140625,
      "learning_rate": 4.3044110413425395e-05,
      "loss": 0.6879,
      "step": 4385
    },
    {
      "epoch": 7.238252267106348,
      "grad_norm": 0.439453125,
      "learning_rate": 4.2807618530063565e-05,
      "loss": 0.6918,
      "step": 4390
    },
    {
      "epoch": 7.246496290189612,
      "grad_norm": 0.39453125,
      "learning_rate": 4.257160104963696e-05,
      "loss": 0.6965,
      "step": 4395
    },
    {
      "epoch": 7.254740313272877,
      "grad_norm": 0.41015625,
      "learning_rate": 4.23360599298781e-05,
      "loss": 0.6963,
      "step": 4400
    },
    {
      "epoch": 7.2629843363561415,
      "grad_norm": 0.408203125,
      "learning_rate": 4.210099712456822e-05,
      "loss": 0.69,
      "step": 4405
    },
    {
      "epoch": 7.271228359439406,
      "grad_norm": 0.396484375,
      "learning_rate": 4.1866414583520877e-05,
      "loss": 0.6955,
      "step": 4410
    },
    {
      "epoch": 7.2794723825226715,
      "grad_norm": 0.408203125,
      "learning_rate": 4.163231425256595e-05,
      "loss": 0.6888,
      "step": 4415
    },
    {
      "epoch": 7.287716405605936,
      "grad_norm": 0.408203125,
      "learning_rate": 4.139869807353357e-05,
      "loss": 0.6998,
      "step": 4420
    },
    {
      "epoch": 7.295960428689201,
      "grad_norm": 0.396484375,
      "learning_rate": 4.1165567984237764e-05,
      "loss": 0.6963,
      "step": 4425
    },
    {
      "epoch": 7.304204451772465,
      "grad_norm": 0.38671875,
      "learning_rate": 4.0932925918460516e-05,
      "loss": 0.6922,
      "step": 4430
    },
    {
      "epoch": 7.31244847485573,
      "grad_norm": 0.40625,
      "learning_rate": 4.070077380593579e-05,
      "loss": 0.6969,
      "step": 4435
    },
    {
      "epoch": 7.320692497938994,
      "grad_norm": 0.39453125,
      "learning_rate": 4.046911357233343e-05,
      "loss": 0.6893,
      "step": 4440
    },
    {
      "epoch": 7.328936521022259,
      "grad_norm": 0.412109375,
      "learning_rate": 4.02379471392431e-05,
      "loss": 0.6902,
      "step": 4445
    },
    {
      "epoch": 7.337180544105523,
      "grad_norm": 0.419921875,
      "learning_rate": 4.000727642415867e-05,
      "loss": 0.7053,
      "step": 4450
    },
    {
      "epoch": 7.345424567188788,
      "grad_norm": 0.4140625,
      "learning_rate": 3.977710334046193e-05,
      "loss": 0.6942,
      "step": 4455
    },
    {
      "epoch": 7.353668590272052,
      "grad_norm": 0.404296875,
      "learning_rate": 3.954742979740695e-05,
      "loss": 0.7078,
      "step": 4460
    },
    {
      "epoch": 7.361912613355317,
      "grad_norm": 0.4375,
      "learning_rate": 3.9318257700104174e-05,
      "loss": 0.6932,
      "step": 4465
    },
    {
      "epoch": 7.370156636438582,
      "grad_norm": 0.470703125,
      "learning_rate": 3.9089588949504655e-05,
      "loss": 0.6955,
      "step": 4470
    },
    {
      "epoch": 7.378400659521847,
      "grad_norm": 0.478515625,
      "learning_rate": 3.8861425442384135e-05,
      "loss": 0.6969,
      "step": 4475
    },
    {
      "epoch": 7.3866446826051115,
      "grad_norm": 0.4140625,
      "learning_rate": 3.863376907132752e-05,
      "loss": 0.6949,
      "step": 4480
    },
    {
      "epoch": 7.394888705688376,
      "grad_norm": 0.396484375,
      "learning_rate": 3.840662172471315e-05,
      "loss": 0.7005,
      "step": 4485
    },
    {
      "epoch": 7.403132728771641,
      "grad_norm": 0.453125,
      "learning_rate": 3.8179985286696986e-05,
      "loss": 0.6935,
      "step": 4490
    },
    {
      "epoch": 7.411376751854905,
      "grad_norm": 0.40234375,
      "learning_rate": 3.7953861637197085e-05,
      "loss": 0.6923,
      "step": 4495
    },
    {
      "epoch": 7.41962077493817,
      "grad_norm": 0.390625,
      "learning_rate": 3.772825265187802e-05,
      "loss": 0.6923,
      "step": 4500
    },
    {
      "epoch": 7.427864798021434,
      "grad_norm": 0.421875,
      "learning_rate": 3.75031602021353e-05,
      "loss": 0.6979,
      "step": 4505
    },
    {
      "epoch": 7.436108821104699,
      "grad_norm": 0.390625,
      "learning_rate": 3.727858615507974e-05,
      "loss": 0.6977,
      "step": 4510
    },
    {
      "epoch": 7.444352844187963,
      "grad_norm": 0.41015625,
      "learning_rate": 3.705453237352227e-05,
      "loss": 0.7043,
      "step": 4515
    },
    {
      "epoch": 7.452596867271229,
      "grad_norm": 0.404296875,
      "learning_rate": 3.683100071595813e-05,
      "loss": 0.6956,
      "step": 4520
    },
    {
      "epoch": 7.460840890354493,
      "grad_norm": 0.40234375,
      "learning_rate": 3.660799303655166e-05,
      "loss": 0.6974,
      "step": 4525
    },
    {
      "epoch": 7.469084913437758,
      "grad_norm": 0.43359375,
      "learning_rate": 3.638551118512089e-05,
      "loss": 0.7013,
      "step": 4530
    },
    {
      "epoch": 7.4773289365210225,
      "grad_norm": 0.435546875,
      "learning_rate": 3.616355700712221e-05,
      "loss": 0.6966,
      "step": 4535
    },
    {
      "epoch": 7.485572959604287,
      "grad_norm": 0.400390625,
      "learning_rate": 3.594213234363486e-05,
      "loss": 0.6964,
      "step": 4540
    },
    {
      "epoch": 7.493816982687552,
      "grad_norm": 0.412109375,
      "learning_rate": 3.5721239031346066e-05,
      "loss": 0.6922,
      "step": 4545
    },
    {
      "epoch": 7.502061005770816,
      "grad_norm": 0.419921875,
      "learning_rate": 3.550087890253544e-05,
      "loss": 0.6948,
      "step": 4550
    },
    {
      "epoch": 7.510305028854081,
      "grad_norm": 0.423828125,
      "learning_rate": 3.5281053785059925e-05,
      "loss": 0.695,
      "step": 4555
    },
    {
      "epoch": 7.518549051937345,
      "grad_norm": 0.39453125,
      "learning_rate": 3.506176550233863e-05,
      "loss": 0.6949,
      "step": 4560
    },
    {
      "epoch": 7.52679307502061,
      "grad_norm": 0.44921875,
      "learning_rate": 3.484301587333772e-05,
      "loss": 0.6903,
      "step": 4565
    },
    {
      "epoch": 7.535037098103874,
      "grad_norm": 0.404296875,
      "learning_rate": 3.462480671255515e-05,
      "loss": 0.6983,
      "step": 4570
    },
    {
      "epoch": 7.543281121187139,
      "grad_norm": 0.416015625,
      "learning_rate": 3.440713983000601e-05,
      "loss": 0.6964,
      "step": 4575
    },
    {
      "epoch": 7.551525144270404,
      "grad_norm": 0.412109375,
      "learning_rate": 3.419001703120709e-05,
      "loss": 0.6934,
      "step": 4580
    },
    {
      "epoch": 7.559769167353669,
      "grad_norm": 0.392578125,
      "learning_rate": 3.397344011716216e-05,
      "loss": 0.7035,
      "step": 4585
    },
    {
      "epoch": 7.568013190436933,
      "grad_norm": 0.40625,
      "learning_rate": 3.3757410884346894e-05,
      "loss": 0.6827,
      "step": 4590
    },
    {
      "epoch": 7.576257213520198,
      "grad_norm": 0.39453125,
      "learning_rate": 3.354193112469407e-05,
      "loss": 0.6979,
      "step": 4595
    },
    {
      "epoch": 7.5845012366034625,
      "grad_norm": 0.419921875,
      "learning_rate": 3.332700262557864e-05,
      "loss": 0.7002,
      "step": 4600
    },
    {
      "epoch": 7.592745259686727,
      "grad_norm": 0.419921875,
      "learning_rate": 3.3112627169802946e-05,
      "loss": 0.6996,
      "step": 4605
    },
    {
      "epoch": 7.600989282769992,
      "grad_norm": 0.4140625,
      "learning_rate": 3.289880653558188e-05,
      "loss": 0.6942,
      "step": 4610
    },
    {
      "epoch": 7.609233305853256,
      "grad_norm": 0.4296875,
      "learning_rate": 3.2685542496528185e-05,
      "loss": 0.7002,
      "step": 4615
    },
    {
      "epoch": 7.617477328936521,
      "grad_norm": 0.38671875,
      "learning_rate": 3.2472836821637744e-05,
      "loss": 0.6953,
      "step": 4620
    },
    {
      "epoch": 7.625721352019785,
      "grad_norm": 0.40234375,
      "learning_rate": 3.2260691275274835e-05,
      "loss": 0.7001,
      "step": 4625
    },
    {
      "epoch": 7.633965375103051,
      "grad_norm": 0.4140625,
      "learning_rate": 3.204910761715763e-05,
      "loss": 0.6935,
      "step": 4630
    },
    {
      "epoch": 7.642209398186315,
      "grad_norm": 0.40625,
      "learning_rate": 3.1838087602343344e-05,
      "loss": 0.6973,
      "step": 4635
    },
    {
      "epoch": 7.65045342126958,
      "grad_norm": 0.392578125,
      "learning_rate": 3.162763298121408e-05,
      "loss": 0.6962,
      "step": 4640
    },
    {
      "epoch": 7.658697444352844,
      "grad_norm": 0.396484375,
      "learning_rate": 3.1417745499461934e-05,
      "loss": 0.6986,
      "step": 4645
    },
    {
      "epoch": 7.666941467436109,
      "grad_norm": 0.40625,
      "learning_rate": 3.120842689807468e-05,
      "loss": 0.7008,
      "step": 4650
    },
    {
      "epoch": 7.6751854905193735,
      "grad_norm": 0.396484375,
      "learning_rate": 3.099967891332132e-05,
      "loss": 0.698,
      "step": 4655
    },
    {
      "epoch": 7.683429513602638,
      "grad_norm": 0.400390625,
      "learning_rate": 3.079150327673766e-05,
      "loss": 0.6996,
      "step": 4660
    },
    {
      "epoch": 7.691673536685903,
      "grad_norm": 0.458984375,
      "learning_rate": 3.058390171511196e-05,
      "loss": 0.6973,
      "step": 4665
    },
    {
      "epoch": 7.699917559769167,
      "grad_norm": 0.419921875,
      "learning_rate": 3.0376875950470617e-05,
      "loss": 0.6972,
      "step": 4670
    },
    {
      "epoch": 7.708161582852432,
      "grad_norm": 0.447265625,
      "learning_rate": 3.0170427700063873e-05,
      "loss": 0.6962,
      "step": 4675
    },
    {
      "epoch": 7.716405605935696,
      "grad_norm": 0.4140625,
      "learning_rate": 2.996455867635155e-05,
      "loss": 0.7006,
      "step": 4680
    },
    {
      "epoch": 7.724649629018961,
      "grad_norm": 0.408203125,
      "learning_rate": 2.9759270586988865e-05,
      "loss": 0.7017,
      "step": 4685
    },
    {
      "epoch": 7.732893652102226,
      "grad_norm": 0.427734375,
      "learning_rate": 2.9554565134812294e-05,
      "loss": 0.7051,
      "step": 4690
    },
    {
      "epoch": 7.741137675185491,
      "grad_norm": 0.392578125,
      "learning_rate": 2.9350444017825385e-05,
      "loss": 0.6909,
      "step": 4695
    },
    {
      "epoch": 7.749381698268755,
      "grad_norm": 0.400390625,
      "learning_rate": 2.9146908929184713e-05,
      "loss": 0.6939,
      "step": 4700
    },
    {
      "epoch": 7.75762572135202,
      "grad_norm": 0.435546875,
      "learning_rate": 2.894396155718585e-05,
      "loss": 0.6956,
      "step": 4705
    },
    {
      "epoch": 7.765869744435284,
      "grad_norm": 0.419921875,
      "learning_rate": 2.874160358524931e-05,
      "loss": 0.6962,
      "step": 4710
    },
    {
      "epoch": 7.774113767518549,
      "grad_norm": 0.451171875,
      "learning_rate": 2.853983669190664e-05,
      "loss": 0.6911,
      "step": 4715
    },
    {
      "epoch": 7.7823577906018135,
      "grad_norm": 0.423828125,
      "learning_rate": 2.8338662550786443e-05,
      "loss": 0.6954,
      "step": 4720
    },
    {
      "epoch": 7.790601813685078,
      "grad_norm": 0.404296875,
      "learning_rate": 2.8138082830600554e-05,
      "loss": 0.694,
      "step": 4725
    },
    {
      "epoch": 7.798845836768343,
      "grad_norm": 0.40625,
      "learning_rate": 2.7938099195130153e-05,
      "loss": 0.6935,
      "step": 4730
    },
    {
      "epoch": 7.807089859851608,
      "grad_norm": 0.416015625,
      "learning_rate": 2.7738713303211982e-05,
      "loss": 0.6885,
      "step": 4735
    },
    {
      "epoch": 7.815333882934873,
      "grad_norm": 0.4375,
      "learning_rate": 2.753992680872457e-05,
      "loss": 0.7002,
      "step": 4740
    },
    {
      "epoch": 7.823577906018137,
      "grad_norm": 0.3984375,
      "learning_rate": 2.7341741360574548e-05,
      "loss": 0.6928,
      "step": 4745
    },
    {
      "epoch": 7.831821929101402,
      "grad_norm": 0.466796875,
      "learning_rate": 2.7144158602682924e-05,
      "loss": 0.6959,
      "step": 4750
    },
    {
      "epoch": 7.840065952184666,
      "grad_norm": 0.40625,
      "learning_rate": 2.6947180173971508e-05,
      "loss": 0.6907,
      "step": 4755
    },
    {
      "epoch": 7.848309975267931,
      "grad_norm": 0.435546875,
      "learning_rate": 2.6750807708349267e-05,
      "loss": 0.6982,
      "step": 4760
    },
    {
      "epoch": 7.856553998351195,
      "grad_norm": 0.40234375,
      "learning_rate": 2.6555042834698773e-05,
      "loss": 0.6945,
      "step": 4765
    },
    {
      "epoch": 7.86479802143446,
      "grad_norm": 0.427734375,
      "learning_rate": 2.6359887176862718e-05,
      "loss": 0.695,
      "step": 4770
    },
    {
      "epoch": 7.8730420445177245,
      "grad_norm": 0.396484375,
      "learning_rate": 2.6165342353630428e-05,
      "loss": 0.694,
      "step": 4775
    },
    {
      "epoch": 7.881286067600989,
      "grad_norm": 0.412109375,
      "learning_rate": 2.5971409978724458e-05,
      "loss": 0.6986,
      "step": 4780
    },
    {
      "epoch": 7.889530090684254,
      "grad_norm": 0.419921875,
      "learning_rate": 2.577809166078716e-05,
      "loss": 0.6935,
      "step": 4785
    },
    {
      "epoch": 7.897774113767518,
      "grad_norm": 0.421875,
      "learning_rate": 2.558538900336741e-05,
      "loss": 0.6991,
      "step": 4790
    },
    {
      "epoch": 7.906018136850783,
      "grad_norm": 0.384765625,
      "learning_rate": 2.5393303604907205e-05,
      "loss": 0.6974,
      "step": 4795
    },
    {
      "epoch": 7.914262159934048,
      "grad_norm": 0.396484375,
      "learning_rate": 2.5201837058728505e-05,
      "loss": 0.6956,
      "step": 4800
    },
    {
      "epoch": 7.922506183017313,
      "grad_norm": 0.40625,
      "learning_rate": 2.5010990953019975e-05,
      "loss": 0.6927,
      "step": 4805
    },
    {
      "epoch": 7.930750206100577,
      "grad_norm": 0.3984375,
      "learning_rate": 2.4820766870823807e-05,
      "loss": 0.688,
      "step": 4810
    },
    {
      "epoch": 7.938994229183842,
      "grad_norm": 0.40625,
      "learning_rate": 2.4631166390022574e-05,
      "loss": 0.695,
      "step": 4815
    },
    {
      "epoch": 7.947238252267106,
      "grad_norm": 0.4296875,
      "learning_rate": 2.4442191083326195e-05,
      "loss": 0.7014,
      "step": 4820
    },
    {
      "epoch": 7.955482275350371,
      "grad_norm": 0.396484375,
      "learning_rate": 2.425384251825882e-05,
      "loss": 0.6955,
      "step": 4825
    },
    {
      "epoch": 7.963726298433635,
      "grad_norm": 0.42578125,
      "learning_rate": 2.4066122257145894e-05,
      "loss": 0.6934,
      "step": 4830
    },
    {
      "epoch": 7.9719703215169,
      "grad_norm": 0.388671875,
      "learning_rate": 2.387903185710115e-05,
      "loss": 0.6909,
      "step": 4835
    },
    {
      "epoch": 7.9802143446001645,
      "grad_norm": 0.419921875,
      "learning_rate": 2.3692572870013718e-05,
      "loss": 0.691,
      "step": 4840
    },
    {
      "epoch": 7.98845836768343,
      "grad_norm": 0.41796875,
      "learning_rate": 2.3506746842535242e-05,
      "loss": 0.6929,
      "step": 4845
    },
    {
      "epoch": 7.9967023907666945,
      "grad_norm": 0.40625,
      "learning_rate": 2.3321555316067045e-05,
      "loss": 0.6928,
      "step": 4850
    },
    {
      "epoch": 8.0,
      "eval_loss": 2.471337080001831,
      "eval_runtime": 0.2361,
      "eval_samples_per_second": 42.357,
      "eval_steps_per_second": 4.236,
      "step": 4852
    },
    {
      "epoch": 8.004946413849959,
      "grad_norm": 0.423828125,
      "learning_rate": 2.313699982674736e-05,
      "loss": 0.6913,
      "step": 4855
    },
    {
      "epoch": 8.013190436933224,
      "grad_norm": 0.427734375,
      "learning_rate": 2.295308190543859e-05,
      "loss": 0.6943,
      "step": 4860
    },
    {
      "epoch": 8.021434460016488,
      "grad_norm": 0.453125,
      "learning_rate": 2.276980307771458e-05,
      "loss": 0.6958,
      "step": 4865
    },
    {
      "epoch": 8.029678483099753,
      "grad_norm": 0.3984375,
      "learning_rate": 2.2587164863847975e-05,
      "loss": 0.6957,
      "step": 4870
    },
    {
      "epoch": 8.037922506183017,
      "grad_norm": 0.392578125,
      "learning_rate": 2.2405168778797646e-05,
      "loss": 0.6914,
      "step": 4875
    },
    {
      "epoch": 8.046166529266282,
      "grad_norm": 0.408203125,
      "learning_rate": 2.222381633219608e-05,
      "loss": 0.6904,
      "step": 4880
    },
    {
      "epoch": 8.054410552349546,
      "grad_norm": 0.435546875,
      "learning_rate": 2.204310902833685e-05,
      "loss": 0.6921,
      "step": 4885
    },
    {
      "epoch": 8.062654575432811,
      "grad_norm": 0.435546875,
      "learning_rate": 2.1863048366162208e-05,
      "loss": 0.6926,
      "step": 4890
    },
    {
      "epoch": 8.070898598516075,
      "grad_norm": 0.380859375,
      "learning_rate": 2.1683635839250537e-05,
      "loss": 0.6938,
      "step": 4895
    },
    {
      "epoch": 8.07914262159934,
      "grad_norm": 0.408203125,
      "learning_rate": 2.15048729358041e-05,
      "loss": 0.6936,
      "step": 4900
    },
    {
      "epoch": 8.087386644682605,
      "grad_norm": 0.392578125,
      "learning_rate": 2.1326761138636553e-05,
      "loss": 0.6959,
      "step": 4905
    },
    {
      "epoch": 8.09563066776587,
      "grad_norm": 0.400390625,
      "learning_rate": 2.114930192516076e-05,
      "loss": 0.6883,
      "step": 4910
    },
    {
      "epoch": 8.103874690849134,
      "grad_norm": 0.404296875,
      "learning_rate": 2.097249676737648e-05,
      "loss": 0.6989,
      "step": 4915
    },
    {
      "epoch": 8.112118713932398,
      "grad_norm": 0.44921875,
      "learning_rate": 2.0796347131858186e-05,
      "loss": 0.6915,
      "step": 4920
    },
    {
      "epoch": 8.120362737015663,
      "grad_norm": 0.408203125,
      "learning_rate": 2.0620854479742834e-05,
      "loss": 0.6893,
      "step": 4925
    },
    {
      "epoch": 8.12860676009893,
      "grad_norm": 0.3984375,
      "learning_rate": 2.044602026671786e-05,
      "loss": 0.699,
      "step": 4930
    },
    {
      "epoch": 8.136850783182194,
      "grad_norm": 0.3984375,
      "learning_rate": 2.027184594300898e-05,
      "loss": 0.6962,
      "step": 4935
    },
    {
      "epoch": 8.145094806265458,
      "grad_norm": 0.40625,
      "learning_rate": 2.0098332953368272e-05,
      "loss": 0.6869,
      "step": 4940
    },
    {
      "epoch": 8.153338829348723,
      "grad_norm": 0.40625,
      "learning_rate": 1.9925482737062085e-05,
      "loss": 0.6957,
      "step": 4945
    },
    {
      "epoch": 8.161582852431987,
      "grad_norm": 0.40234375,
      "learning_rate": 1.9753296727859195e-05,
      "loss": 0.692,
      "step": 4950
    },
    {
      "epoch": 8.169826875515252,
      "grad_norm": 0.39453125,
      "learning_rate": 1.9581776354018854e-05,
      "loss": 0.6985,
      "step": 4955
    },
    {
      "epoch": 8.178070898598516,
      "grad_norm": 0.41015625,
      "learning_rate": 1.941092303827896e-05,
      "loss": 0.6876,
      "step": 4960
    },
    {
      "epoch": 8.186314921681781,
      "grad_norm": 0.392578125,
      "learning_rate": 1.9240738197844278e-05,
      "loss": 0.6863,
      "step": 4965
    },
    {
      "epoch": 8.194558944765046,
      "grad_norm": 0.40234375,
      "learning_rate": 1.9071223244374614e-05,
      "loss": 0.694,
      "step": 4970
    },
    {
      "epoch": 8.20280296784831,
      "grad_norm": 0.39453125,
      "learning_rate": 1.8902379583973208e-05,
      "loss": 0.6936,
      "step": 4975
    },
    {
      "epoch": 8.211046990931575,
      "grad_norm": 0.404296875,
      "learning_rate": 1.8734208617174988e-05,
      "loss": 0.6926,
      "step": 4980
    },
    {
      "epoch": 8.21929101401484,
      "grad_norm": 0.3984375,
      "learning_rate": 1.856671173893497e-05,
      "loss": 0.6921,
      "step": 4985
    },
    {
      "epoch": 8.227535037098104,
      "grad_norm": 0.408203125,
      "learning_rate": 1.839989033861673e-05,
      "loss": 0.6893,
      "step": 4990
    },
    {
      "epoch": 8.235779060181368,
      "grad_norm": 0.4140625,
      "learning_rate": 1.8233745799980817e-05,
      "loss": 0.6931,
      "step": 4995
    },
    {
      "epoch": 8.244023083264633,
      "grad_norm": 0.408203125,
      "learning_rate": 1.8068279501173335e-05,
      "loss": 0.6842,
      "step": 5000
    },
    {
      "epoch": 8.252267106347897,
      "grad_norm": 0.400390625,
      "learning_rate": 1.790349281471445e-05,
      "loss": 0.6998,
      "step": 5005
    },
    {
      "epoch": 8.260511129431162,
      "grad_norm": 0.404296875,
      "learning_rate": 1.773938710748706e-05,
      "loss": 0.6946,
      "step": 5010
    },
    {
      "epoch": 8.268755152514426,
      "grad_norm": 0.39453125,
      "learning_rate": 1.757596374072543e-05,
      "loss": 0.6901,
      "step": 5015
    },
    {
      "epoch": 8.276999175597691,
      "grad_norm": 0.412109375,
      "learning_rate": 1.741322407000391e-05,
      "loss": 0.6938,
      "step": 5020
    },
    {
      "epoch": 8.285243198680956,
      "grad_norm": 0.416015625,
      "learning_rate": 1.7251169445225657e-05,
      "loss": 0.6922,
      "step": 5025
    },
    {
      "epoch": 8.29348722176422,
      "grad_norm": 0.392578125,
      "learning_rate": 1.70898012106115e-05,
      "loss": 0.6844,
      "step": 5030
    },
    {
      "epoch": 8.301731244847485,
      "grad_norm": 0.404296875,
      "learning_rate": 1.692912070468874e-05,
      "loss": 0.6968,
      "step": 5035
    },
    {
      "epoch": 8.309975267930751,
      "grad_norm": 0.390625,
      "learning_rate": 1.676912926028007e-05,
      "loss": 0.6977,
      "step": 5040
    },
    {
      "epoch": 8.318219291014016,
      "grad_norm": 0.40625,
      "learning_rate": 1.660982820449247e-05,
      "loss": 0.6995,
      "step": 5045
    },
    {
      "epoch": 8.32646331409728,
      "grad_norm": 0.38671875,
      "learning_rate": 1.6451218858706374e-05,
      "loss": 0.6934,
      "step": 5050
    },
    {
      "epoch": 8.334707337180545,
      "grad_norm": 0.400390625,
      "learning_rate": 1.6293302538564382e-05,
      "loss": 0.6954,
      "step": 5055
    },
    {
      "epoch": 8.34295136026381,
      "grad_norm": 0.423828125,
      "learning_rate": 1.6136080553960687e-05,
      "loss": 0.6942,
      "step": 5060
    },
    {
      "epoch": 8.351195383347074,
      "grad_norm": 0.408203125,
      "learning_rate": 1.5979554209030024e-05,
      "loss": 0.6887,
      "step": 5065
    },
    {
      "epoch": 8.359439406430338,
      "grad_norm": 0.388671875,
      "learning_rate": 1.5823724802136865e-05,
      "loss": 0.6948,
      "step": 5070
    },
    {
      "epoch": 8.367683429513603,
      "grad_norm": 0.404296875,
      "learning_rate": 1.5668593625864715e-05,
      "loss": 0.695,
      "step": 5075
    },
    {
      "epoch": 8.375927452596867,
      "grad_norm": 0.396484375,
      "learning_rate": 1.5514161967005337e-05,
      "loss": 0.7057,
      "step": 5080
    },
    {
      "epoch": 8.384171475680132,
      "grad_norm": 0.419921875,
      "learning_rate": 1.536043110654809e-05,
      "loss": 0.6906,
      "step": 5085
    },
    {
      "epoch": 8.392415498763397,
      "grad_norm": 0.4140625,
      "learning_rate": 1.5207402319669306e-05,
      "loss": 0.6909,
      "step": 5090
    },
    {
      "epoch": 8.400659521846661,
      "grad_norm": 0.40625,
      "learning_rate": 1.505507687572173e-05,
      "loss": 0.6841,
      "step": 5095
    },
    {
      "epoch": 8.408903544929926,
      "grad_norm": 0.392578125,
      "learning_rate": 1.4903456038223939e-05,
      "loss": 0.6889,
      "step": 5100
    },
    {
      "epoch": 8.41714756801319,
      "grad_norm": 0.38671875,
      "learning_rate": 1.4752541064849946e-05,
      "loss": 0.6908,
      "step": 5105
    },
    {
      "epoch": 8.425391591096455,
      "grad_norm": 0.392578125,
      "learning_rate": 1.4602333207418651e-05,
      "loss": 0.6949,
      "step": 5110
    },
    {
      "epoch": 8.43363561417972,
      "grad_norm": 0.400390625,
      "learning_rate": 1.4452833711883628e-05,
      "loss": 0.691,
      "step": 5115
    },
    {
      "epoch": 8.441879637262984,
      "grad_norm": 0.388671875,
      "learning_rate": 1.4304043818322565e-05,
      "loss": 0.6855,
      "step": 5120
    },
    {
      "epoch": 8.450123660346248,
      "grad_norm": 0.404296875,
      "learning_rate": 1.4155964760927176e-05,
      "loss": 0.6937,
      "step": 5125
    },
    {
      "epoch": 8.458367683429513,
      "grad_norm": 0.390625,
      "learning_rate": 1.4008597767992871e-05,
      "loss": 0.6922,
      "step": 5130
    },
    {
      "epoch": 8.466611706512778,
      "grad_norm": 0.423828125,
      "learning_rate": 1.3861944061908583e-05,
      "loss": 0.6929,
      "step": 5135
    },
    {
      "epoch": 8.474855729596042,
      "grad_norm": 0.39453125,
      "learning_rate": 1.3716004859146592e-05,
      "loss": 0.6898,
      "step": 5140
    },
    {
      "epoch": 8.483099752679308,
      "grad_norm": 0.3984375,
      "learning_rate": 1.3570781370252582e-05,
      "loss": 0.6851,
      "step": 5145
    },
    {
      "epoch": 8.491343775762573,
      "grad_norm": 0.416015625,
      "learning_rate": 1.3426274799835337e-05,
      "loss": 0.6846,
      "step": 5150
    },
    {
      "epoch": 8.499587798845837,
      "grad_norm": 0.412109375,
      "learning_rate": 1.328248634655701e-05,
      "loss": 0.7024,
      "step": 5155
    },
    {
      "epoch": 8.507831821929102,
      "grad_norm": 0.419921875,
      "learning_rate": 1.3139417203123027e-05,
      "loss": 0.6881,
      "step": 5160
    },
    {
      "epoch": 8.516075845012367,
      "grad_norm": 0.404296875,
      "learning_rate": 1.2997068556272263e-05,
      "loss": 0.7002,
      "step": 5165
    },
    {
      "epoch": 8.524319868095631,
      "grad_norm": 0.40234375,
      "learning_rate": 1.2855441586767113e-05,
      "loss": 0.6909,
      "step": 5170
    },
    {
      "epoch": 8.532563891178896,
      "grad_norm": 0.39453125,
      "learning_rate": 1.2714537469383858e-05,
      "loss": 0.6878,
      "step": 5175
    },
    {
      "epoch": 8.54080791426216,
      "grad_norm": 0.390625,
      "learning_rate": 1.2574357372902767e-05,
      "loss": 0.6917,
      "step": 5180
    },
    {
      "epoch": 8.549051937345425,
      "grad_norm": 0.40234375,
      "learning_rate": 1.243490246009842e-05,
      "loss": 0.689,
      "step": 5185
    },
    {
      "epoch": 8.55729596042869,
      "grad_norm": 0.41015625,
      "learning_rate": 1.2296173887730123e-05,
      "loss": 0.6859,
      "step": 5190
    },
    {
      "epoch": 8.565539983511954,
      "grad_norm": 0.392578125,
      "learning_rate": 1.215817280653232e-05,
      "loss": 0.6858,
      "step": 5195
    },
    {
      "epoch": 8.573784006595218,
      "grad_norm": 0.412109375,
      "learning_rate": 1.2020900361204968e-05,
      "loss": 0.6894,
      "step": 5200
    },
    {
      "epoch": 8.582028029678483,
      "grad_norm": 0.396484375,
      "learning_rate": 1.1884357690404158e-05,
      "loss": 0.6886,
      "step": 5205
    },
    {
      "epoch": 8.590272052761748,
      "grad_norm": 0.396484375,
      "learning_rate": 1.1748545926732535e-05,
      "loss": 0.6903,
      "step": 5210
    },
    {
      "epoch": 8.598516075845012,
      "grad_norm": 0.392578125,
      "learning_rate": 1.1613466196729984e-05,
      "loss": 0.7021,
      "step": 5215
    },
    {
      "epoch": 8.606760098928277,
      "grad_norm": 0.408203125,
      "learning_rate": 1.1479119620864276e-05,
      "loss": 0.6826,
      "step": 5220
    },
    {
      "epoch": 8.615004122011541,
      "grad_norm": 0.40234375,
      "learning_rate": 1.1345507313521786e-05,
      "loss": 0.6954,
      "step": 5225
    },
    {
      "epoch": 8.623248145094806,
      "grad_norm": 0.40625,
      "learning_rate": 1.1212630382998213e-05,
      "loss": 0.6877,
      "step": 5230
    },
    {
      "epoch": 8.63149216817807,
      "grad_norm": 0.388671875,
      "learning_rate": 1.1080489931489391e-05,
      "loss": 0.696,
      "step": 5235
    },
    {
      "epoch": 8.639736191261335,
      "grad_norm": 0.392578125,
      "learning_rate": 1.0949087055082252e-05,
      "loss": 0.6977,
      "step": 5240
    },
    {
      "epoch": 8.6479802143446,
      "grad_norm": 0.38671875,
      "learning_rate": 1.0818422843745512e-05,
      "loss": 0.6924,
      "step": 5245
    },
    {
      "epoch": 8.656224237427864,
      "grad_norm": 0.40234375,
      "learning_rate": 1.0688498381320855e-05,
      "loss": 0.6941,
      "step": 5250
    },
    {
      "epoch": 8.664468260511129,
      "grad_norm": 0.390625,
      "learning_rate": 1.0559314745513805e-05,
      "loss": 0.6878,
      "step": 5255
    },
    {
      "epoch": 8.672712283594395,
      "grad_norm": 0.41015625,
      "learning_rate": 1.0430873007884857e-05,
      "loss": 0.6975,
      "step": 5260
    },
    {
      "epoch": 8.68095630667766,
      "grad_norm": 0.40625,
      "learning_rate": 1.0303174233840528e-05,
      "loss": 0.6863,
      "step": 5265
    },
    {
      "epoch": 8.689200329760924,
      "grad_norm": 0.41015625,
      "learning_rate": 1.0176219482624616e-05,
      "loss": 0.7022,
      "step": 5270
    },
    {
      "epoch": 8.697444352844188,
      "grad_norm": 0.4140625,
      "learning_rate": 1.0050009807309325e-05,
      "loss": 0.6892,
      "step": 5275
    },
    {
      "epoch": 8.705688375927453,
      "grad_norm": 0.39453125,
      "learning_rate": 9.924546254786493e-06,
      "loss": 0.6839,
      "step": 5280
    },
    {
      "epoch": 8.713932399010718,
      "grad_norm": 0.41796875,
      "learning_rate": 9.799829865759069e-06,
      "loss": 0.6821,
      "step": 5285
    },
    {
      "epoch": 8.722176422093982,
      "grad_norm": 0.388671875,
      "learning_rate": 9.675861674732312e-06,
      "loss": 0.6885,
      "step": 5290
    },
    {
      "epoch": 8.730420445177247,
      "grad_norm": 0.421875,
      "learning_rate": 9.552642710005299e-06,
      "loss": 0.6965,
      "step": 5295
    },
    {
      "epoch": 8.738664468260511,
      "grad_norm": 0.404296875,
      "learning_rate": 9.430173993662451e-06,
      "loss": 0.6971,
      "step": 5300
    },
    {
      "epoch": 8.746908491343776,
      "grad_norm": 0.396484375,
      "learning_rate": 9.308456541564881e-06,
      "loss": 0.6847,
      "step": 5305
    },
    {
      "epoch": 8.75515251442704,
      "grad_norm": 0.404296875,
      "learning_rate": 9.187491363342093e-06,
      "loss": 0.6982,
      "step": 5310
    },
    {
      "epoch": 8.763396537510305,
      "grad_norm": 0.443359375,
      "learning_rate": 9.067279462383615e-06,
      "loss": 0.6906,
      "step": 5315
    },
    {
      "epoch": 8.77164056059357,
      "grad_norm": 0.41015625,
      "learning_rate": 8.947821835830616e-06,
      "loss": 0.6981,
      "step": 5320
    },
    {
      "epoch": 8.779884583676834,
      "grad_norm": 0.416015625,
      "learning_rate": 8.829119474567671e-06,
      "loss": 0.6972,
      "step": 5325
    },
    {
      "epoch": 8.788128606760099,
      "grad_norm": 0.408203125,
      "learning_rate": 8.711173363214553e-06,
      "loss": 0.6875,
      "step": 5330
    },
    {
      "epoch": 8.796372629843363,
      "grad_norm": 0.43359375,
      "learning_rate": 8.593984480118011e-06,
      "loss": 0.6904,
      "step": 5335
    },
    {
      "epoch": 8.804616652926628,
      "grad_norm": 0.412109375,
      "learning_rate": 8.47755379734373e-06,
      "loss": 0.6886,
      "step": 5340
    },
    {
      "epoch": 8.812860676009892,
      "grad_norm": 0.431640625,
      "learning_rate": 8.361882280668165e-06,
      "loss": 0.6919,
      "step": 5345
    },
    {
      "epoch": 8.821104699093157,
      "grad_norm": 0.388671875,
      "learning_rate": 8.24697088957066e-06,
      "loss": 0.6934,
      "step": 5350
    },
    {
      "epoch": 8.829348722176421,
      "grad_norm": 0.38671875,
      "learning_rate": 8.132820577225387e-06,
      "loss": 0.6882,
      "step": 5355
    },
    {
      "epoch": 8.837592745259688,
      "grad_norm": 0.390625,
      "learning_rate": 8.019432290493457e-06,
      "loss": 0.7015,
      "step": 5360
    },
    {
      "epoch": 8.845836768342952,
      "grad_norm": 0.39453125,
      "learning_rate": 7.906806969915148e-06,
      "loss": 0.689,
      "step": 5365
    },
    {
      "epoch": 8.854080791426217,
      "grad_norm": 0.400390625,
      "learning_rate": 7.794945549701993e-06,
      "loss": 0.6866,
      "step": 5370
    },
    {
      "epoch": 8.862324814509481,
      "grad_norm": 0.40234375,
      "learning_rate": 7.683848957729056e-06,
      "loss": 0.696,
      "step": 5375
    },
    {
      "epoch": 8.870568837592746,
      "grad_norm": 0.4140625,
      "learning_rate": 7.573518115527289e-06,
      "loss": 0.6824,
      "step": 5380
    },
    {
      "epoch": 8.87881286067601,
      "grad_norm": 0.39453125,
      "learning_rate": 7.463953938275858e-06,
      "loss": 0.6941,
      "step": 5385
    },
    {
      "epoch": 8.887056883759275,
      "grad_norm": 0.390625,
      "learning_rate": 7.355157334794516e-06,
      "loss": 0.6901,
      "step": 5390
    },
    {
      "epoch": 8.89530090684254,
      "grad_norm": 0.404296875,
      "learning_rate": 7.247129207536152e-06,
      "loss": 0.688,
      "step": 5395
    },
    {
      "epoch": 8.903544929925804,
      "grad_norm": 0.39453125,
      "learning_rate": 7.1398704525792e-06,
      "loss": 0.6906,
      "step": 5400
    },
    {
      "epoch": 8.911788953009069,
      "grad_norm": 0.42578125,
      "learning_rate": 7.0333819596203e-06,
      "loss": 0.6878,
      "step": 5405
    },
    {
      "epoch": 8.920032976092333,
      "grad_norm": 0.404296875,
      "learning_rate": 6.927664611966811e-06,
      "loss": 0.6965,
      "step": 5410
    },
    {
      "epoch": 8.928276999175598,
      "grad_norm": 0.40234375,
      "learning_rate": 6.8227192865295995e-06,
      "loss": 0.69,
      "step": 5415
    },
    {
      "epoch": 8.936521022258862,
      "grad_norm": 0.390625,
      "learning_rate": 6.718546853815688e-06,
      "loss": 0.6857,
      "step": 5420
    },
    {
      "epoch": 8.944765045342127,
      "grad_norm": 0.4140625,
      "learning_rate": 6.6151481779211155e-06,
      "loss": 0.6922,
      "step": 5425
    },
    {
      "epoch": 8.953009068425391,
      "grad_norm": 0.40234375,
      "learning_rate": 6.512524116523633e-06,
      "loss": 0.6885,
      "step": 5430
    },
    {
      "epoch": 8.961253091508656,
      "grad_norm": 0.4375,
      "learning_rate": 6.410675520875742e-06,
      "loss": 0.6854,
      "step": 5435
    },
    {
      "epoch": 8.96949711459192,
      "grad_norm": 0.40625,
      "learning_rate": 6.30960323579749e-06,
      "loss": 0.6966,
      "step": 5440
    },
    {
      "epoch": 8.977741137675185,
      "grad_norm": 0.392578125,
      "learning_rate": 6.209308099669597e-06,
      "loss": 0.6962,
      "step": 5445
    },
    {
      "epoch": 8.98598516075845,
      "grad_norm": 0.408203125,
      "learning_rate": 6.109790944426397e-06,
      "loss": 0.707,
      "step": 5450
    },
    {
      "epoch": 8.994229183841714,
      "grad_norm": 0.41015625,
      "learning_rate": 6.011052595549038e-06,
      "loss": 0.6924,
      "step": 5455
    },
    {
      "epoch": 8.999175597691673,
      "eval_loss": 2.4814510345458984,
      "eval_runtime": 0.2587,
      "eval_samples_per_second": 38.654,
      "eval_steps_per_second": 3.865,
      "step": 5458
    },
    {
      "epoch": 9.002473206924979,
      "grad_norm": 0.3984375,
      "learning_rate": 5.913093872058528e-06,
      "loss": 0.6875,
      "step": 5460
    },
    {
      "epoch": 9.010717230008243,
      "grad_norm": 0.404296875,
      "learning_rate": 5.81591558650898e-06,
      "loss": 0.6871,
      "step": 5465
    },
    {
      "epoch": 9.01896125309151,
      "grad_norm": 0.396484375,
      "learning_rate": 5.719518544980929e-06,
      "loss": 0.6887,
      "step": 5470
    },
    {
      "epoch": 9.027205276174774,
      "grad_norm": 0.4453125,
      "learning_rate": 5.623903547074549e-06,
      "loss": 0.7051,
      "step": 5475
    },
    {
      "epoch": 9.035449299258039,
      "grad_norm": 0.40625,
      "learning_rate": 5.529071385903084e-06,
      "loss": 0.694,
      "step": 5480
    },
    {
      "epoch": 9.043693322341303,
      "grad_norm": 0.40234375,
      "learning_rate": 5.43502284808628e-06,
      "loss": 0.6839,
      "step": 5485
    },
    {
      "epoch": 9.051937345424568,
      "grad_norm": 0.396484375,
      "learning_rate": 5.341758713743828e-06,
      "loss": 0.6906,
      "step": 5490
    },
    {
      "epoch": 9.060181368507832,
      "grad_norm": 0.39453125,
      "learning_rate": 5.249279756488878e-06,
      "loss": 0.6895,
      "step": 5495
    },
    {
      "epoch": 9.068425391591097,
      "grad_norm": 0.396484375,
      "learning_rate": 5.157586743421672e-06,
      "loss": 0.6937,
      "step": 5500
    },
    {
      "epoch": 9.076669414674361,
      "grad_norm": 0.392578125,
      "learning_rate": 5.066680435123106e-06,
      "loss": 0.7007,
      "step": 5505
    },
    {
      "epoch": 9.084913437757626,
      "grad_norm": 0.384765625,
      "learning_rate": 4.976561585648509e-06,
      "loss": 0.6864,
      "step": 5510
    },
    {
      "epoch": 9.09315746084089,
      "grad_norm": 0.3984375,
      "learning_rate": 4.887230942521337e-06,
      "loss": 0.6886,
      "step": 5515
    },
    {
      "epoch": 9.101401483924155,
      "grad_norm": 0.404296875,
      "learning_rate": 4.798689246727006e-06,
      "loss": 0.6965,
      "step": 5520
    },
    {
      "epoch": 9.10964550700742,
      "grad_norm": 0.3984375,
      "learning_rate": 4.710937232706691e-06,
      "loss": 0.6888,
      "step": 5525
    },
    {
      "epoch": 9.117889530090684,
      "grad_norm": 0.404296875,
      "learning_rate": 4.623975628351273e-06,
      "loss": 0.6937,
      "step": 5530
    },
    {
      "epoch": 9.126133553173949,
      "grad_norm": 0.396484375,
      "learning_rate": 4.537805154995278e-06,
      "loss": 0.6989,
      "step": 5535
    },
    {
      "epoch": 9.134377576257213,
      "grad_norm": 0.408203125,
      "learning_rate": 4.452426527410947e-06,
      "loss": 0.69,
      "step": 5540
    },
    {
      "epoch": 9.142621599340478,
      "grad_norm": 0.4296875,
      "learning_rate": 4.36784045380223e-06,
      "loss": 0.6952,
      "step": 5545
    },
    {
      "epoch": 9.150865622423742,
      "grad_norm": 0.39453125,
      "learning_rate": 4.2840476357989825e-06,
      "loss": 0.6909,
      "step": 5550
    },
    {
      "epoch": 9.159109645507007,
      "grad_norm": 0.39453125,
      "learning_rate": 4.20104876845111e-06,
      "loss": 0.6835,
      "step": 5555
    },
    {
      "epoch": 9.167353668590271,
      "grad_norm": 0.404296875,
      "learning_rate": 4.118844540222788e-06,
      "loss": 0.7042,
      "step": 5560
    },
    {
      "epoch": 9.175597691673536,
      "grad_norm": 0.404296875,
      "learning_rate": 4.037435632986786e-06,
      "loss": 0.693,
      "step": 5565
    },
    {
      "epoch": 9.1838417147568,
      "grad_norm": 0.39453125,
      "learning_rate": 3.95682272201876e-06,
      "loss": 0.6854,
      "step": 5570
    },
    {
      "epoch": 9.192085737840065,
      "grad_norm": 0.392578125,
      "learning_rate": 3.877006475991729e-06,
      "loss": 0.6937,
      "step": 5575
    },
    {
      "epoch": 9.200329760923331,
      "grad_norm": 0.3984375,
      "learning_rate": 3.797987556970495e-06,
      "loss": 0.6968,
      "step": 5580
    },
    {
      "epoch": 9.208573784006596,
      "grad_norm": 0.400390625,
      "learning_rate": 3.7197666204060955e-06,
      "loss": 0.6902,
      "step": 5585
    },
    {
      "epoch": 9.21681780708986,
      "grad_norm": 0.400390625,
      "learning_rate": 3.6423443151304526e-06,
      "loss": 0.6896,
      "step": 5590
    },
    {
      "epoch": 9.225061830173125,
      "grad_norm": 0.41796875,
      "learning_rate": 3.565721283350931e-06,
      "loss": 0.696,
      "step": 5595
    },
    {
      "epoch": 9.23330585325639,
      "grad_norm": 0.408203125,
      "learning_rate": 3.4898981606450333e-06,
      "loss": 0.6895,
      "step": 5600
    },
    {
      "epoch": 9.241549876339654,
      "grad_norm": 0.39453125,
      "learning_rate": 3.414875575955101e-06,
      "loss": 0.6845,
      "step": 5605
    },
    {
      "epoch": 9.249793899422919,
      "grad_norm": 0.400390625,
      "learning_rate": 3.3406541515832003e-06,
      "loss": 0.6908,
      "step": 5610
    },
    {
      "epoch": 9.258037922506183,
      "grad_norm": 0.396484375,
      "learning_rate": 3.267234503185823e-06,
      "loss": 0.6885,
      "step": 5615
    },
    {
      "epoch": 9.266281945589448,
      "grad_norm": 0.3984375,
      "learning_rate": 3.1946172397688267e-06,
      "loss": 0.6921,
      "step": 5620
    },
    {
      "epoch": 9.274525968672712,
      "grad_norm": 0.404296875,
      "learning_rate": 3.1228029636824475e-06,
      "loss": 0.6927,
      "step": 5625
    },
    {
      "epoch": 9.282769991755977,
      "grad_norm": 0.39453125,
      "learning_rate": 3.051792270616216e-06,
      "loss": 0.689,
      "step": 5630
    },
    {
      "epoch": 9.291014014839241,
      "grad_norm": 0.416015625,
      "learning_rate": 2.981585749594051e-06,
      "loss": 0.6962,
      "step": 5635
    },
    {
      "epoch": 9.299258037922506,
      "grad_norm": 0.39453125,
      "learning_rate": 2.912183982969385e-06,
      "loss": 0.6873,
      "step": 5640
    },
    {
      "epoch": 9.30750206100577,
      "grad_norm": 0.39453125,
      "learning_rate": 2.8435875464203343e-06,
      "loss": 0.6839,
      "step": 5645
    },
    {
      "epoch": 9.315746084089035,
      "grad_norm": 0.3828125,
      "learning_rate": 2.7757970089449024e-06,
      "loss": 0.6884,
      "step": 5650
    },
    {
      "epoch": 9.3239901071723,
      "grad_norm": 0.3984375,
      "learning_rate": 2.708812932856253e-06,
      "loss": 0.6865,
      "step": 5655
    },
    {
      "epoch": 9.332234130255564,
      "grad_norm": 0.396484375,
      "learning_rate": 2.6426358737781098e-06,
      "loss": 0.6944,
      "step": 5660
    },
    {
      "epoch": 9.340478153338829,
      "grad_norm": 0.39453125,
      "learning_rate": 2.577266380640053e-06,
      "loss": 0.6866,
      "step": 5665
    },
    {
      "epoch": 9.348722176422093,
      "grad_norm": 0.40234375,
      "learning_rate": 2.5127049956730207e-06,
      "loss": 0.6917,
      "step": 5670
    },
    {
      "epoch": 9.356966199505358,
      "grad_norm": 0.384765625,
      "learning_rate": 2.448952254404846e-06,
      "loss": 0.6984,
      "step": 5675
    },
    {
      "epoch": 9.365210222588622,
      "grad_norm": 0.39453125,
      "learning_rate": 2.3860086856557383e-06,
      "loss": 0.6881,
      "step": 5680
    },
    {
      "epoch": 9.373454245671887,
      "grad_norm": 0.41015625,
      "learning_rate": 2.3238748115339324e-06,
      "loss": 0.689,
      "step": 5685
    },
    {
      "epoch": 9.381698268755153,
      "grad_norm": 0.39453125,
      "learning_rate": 2.2625511474313685e-06,
      "loss": 0.6968,
      "step": 5690
    },
    {
      "epoch": 9.389942291838418,
      "grad_norm": 0.43359375,
      "learning_rate": 2.2020382020194074e-06,
      "loss": 0.6923,
      "step": 5695
    },
    {
      "epoch": 9.398186314921682,
      "grad_norm": 0.439453125,
      "learning_rate": 2.1423364772445887e-06,
      "loss": 0.6929,
      "step": 5700
    },
    {
      "epoch": 9.406430338004947,
      "grad_norm": 0.41015625,
      "learning_rate": 2.0834464683245346e-06,
      "loss": 0.6948,
      "step": 5705
    },
    {
      "epoch": 9.414674361088212,
      "grad_norm": 0.40234375,
      "learning_rate": 2.025368663743743e-06,
      "loss": 0.6956,
      "step": 5710
    },
    {
      "epoch": 9.422918384171476,
      "grad_norm": 0.435546875,
      "learning_rate": 1.968103545249611e-06,
      "loss": 0.6857,
      "step": 5715
    },
    {
      "epoch": 9.43116240725474,
      "grad_norm": 0.427734375,
      "learning_rate": 1.91165158784844e-06,
      "loss": 0.6871,
      "step": 5720
    },
    {
      "epoch": 9.439406430338005,
      "grad_norm": 0.390625,
      "learning_rate": 1.8560132598014368e-06,
      "loss": 0.6864,
      "step": 5725
    },
    {
      "epoch": 9.44765045342127,
      "grad_norm": 0.400390625,
      "learning_rate": 1.8011890226208527e-06,
      "loss": 0.6922,
      "step": 5730
    },
    {
      "epoch": 9.455894476504534,
      "grad_norm": 0.3984375,
      "learning_rate": 1.7471793310662287e-06,
      "loss": 0.6973,
      "step": 5735
    },
    {
      "epoch": 9.464138499587799,
      "grad_norm": 0.396484375,
      "learning_rate": 1.6939846331405108e-06,
      "loss": 0.6954,
      "step": 5740
    },
    {
      "epoch": 9.472382522671063,
      "grad_norm": 0.392578125,
      "learning_rate": 1.6416053700863964e-06,
      "loss": 0.6983,
      "step": 5745
    },
    {
      "epoch": 9.480626545754328,
      "grad_norm": 0.408203125,
      "learning_rate": 1.5900419763826614e-06,
      "loss": 0.6904,
      "step": 5750
    },
    {
      "epoch": 9.488870568837593,
      "grad_norm": 0.41015625,
      "learning_rate": 1.5392948797405827e-06,
      "loss": 0.7001,
      "step": 5755
    },
    {
      "epoch": 9.497114591920857,
      "grad_norm": 0.42578125,
      "learning_rate": 1.489364501100332e-06,
      "loss": 0.6978,
      "step": 5760
    },
    {
      "epoch": 9.505358615004122,
      "grad_norm": 0.3984375,
      "learning_rate": 1.4402512546275114e-06,
      "loss": 0.6974,
      "step": 5765
    },
    {
      "epoch": 9.513602638087386,
      "grad_norm": 0.42578125,
      "learning_rate": 1.3919555477097668e-06,
      "loss": 0.6885,
      "step": 5770
    },
    {
      "epoch": 9.52184666117065,
      "grad_norm": 0.416015625,
      "learning_rate": 1.344477780953346e-06,
      "loss": 0.6884,
      "step": 5775
    },
    {
      "epoch": 9.530090684253915,
      "grad_norm": 0.400390625,
      "learning_rate": 1.2978183481797801e-06,
      "loss": 0.6899,
      "step": 5780
    },
    {
      "epoch": 9.53833470733718,
      "grad_norm": 0.392578125,
      "learning_rate": 1.251977636422641e-06,
      "loss": 0.6897,
      "step": 5785
    },
    {
      "epoch": 9.546578730420444,
      "grad_norm": 0.390625,
      "learning_rate": 1.2069560259243328e-06,
      "loss": 0.6933,
      "step": 5790
    },
    {
      "epoch": 9.55482275350371,
      "grad_norm": 0.4140625,
      "learning_rate": 1.1627538901329172e-06,
      "loss": 0.6868,
      "step": 5795
    },
    {
      "epoch": 9.563066776586975,
      "grad_norm": 0.39453125,
      "learning_rate": 1.1193715956990258e-06,
      "loss": 0.6855,
      "step": 5800
    },
    {
      "epoch": 9.57131079967024,
      "grad_norm": 0.400390625,
      "learning_rate": 1.076809502472831e-06,
      "loss": 0.6977,
      "step": 5805
    },
    {
      "epoch": 9.579554822753504,
      "grad_norm": 0.396484375,
      "learning_rate": 1.035067963501024e-06,
      "loss": 0.6969,
      "step": 5810
    },
    {
      "epoch": 9.587798845836769,
      "grad_norm": 0.400390625,
      "learning_rate": 9.94147325023953e-07,
      "loss": 0.6982,
      "step": 5815
    },
    {
      "epoch": 9.596042868920033,
      "grad_norm": 0.388671875,
      "learning_rate": 9.540479264726676e-07,
      "loss": 0.6865,
      "step": 5820
    },
    {
      "epoch": 9.604286892003298,
      "grad_norm": 0.40625,
      "learning_rate": 9.147701004661446e-07,
      "loss": 0.6897,
      "step": 5825
    },
    {
      "epoch": 9.612530915086563,
      "grad_norm": 0.404296875,
      "learning_rate": 8.763141728085789e-07,
      "loss": 0.6837,
      "step": 5830
    },
    {
      "epoch": 9.620774938169827,
      "grad_norm": 0.396484375,
      "learning_rate": 8.386804624865851e-07,
      "loss": 0.6865,
      "step": 5835
    },
    {
      "epoch": 9.629018961253092,
      "grad_norm": 0.39453125,
      "learning_rate": 8.018692816666118e-07,
      "loss": 0.6907,
      "step": 5840
    },
    {
      "epoch": 9.637262984336356,
      "grad_norm": 0.39453125,
      "learning_rate": 7.658809356923424e-07,
      "loss": 0.6902,
      "step": 5845
    },
    {
      "epoch": 9.64550700741962,
      "grad_norm": 0.39453125,
      "learning_rate": 7.307157230821426e-07,
      "loss": 0.6925,
      "step": 5850
    },
    {
      "epoch": 9.653751030502885,
      "grad_norm": 0.3984375,
      "learning_rate": 6.963739355266286e-07,
      "loss": 0.6911,
      "step": 5855
    },
    {
      "epoch": 9.66199505358615,
      "grad_norm": 0.39453125,
      "learning_rate": 6.628558578862021e-07,
      "loss": 0.6838,
      "step": 5860
    },
    {
      "epoch": 9.670239076669414,
      "grad_norm": 0.388671875,
      "learning_rate": 6.301617681886863e-07,
      "loss": 0.6883,
      "step": 5865
    },
    {
      "epoch": 9.678483099752679,
      "grad_norm": 0.408203125,
      "learning_rate": 5.982919376270823e-07,
      "loss": 0.6908,
      "step": 5870
    },
    {
      "epoch": 9.686727122835944,
      "grad_norm": 0.416015625,
      "learning_rate": 5.672466305572388e-07,
      "loss": 0.6908,
      "step": 5875
    },
    {
      "epoch": 9.694971145919208,
      "grad_norm": 0.408203125,
      "learning_rate": 5.370261044956971e-07,
      "loss": 0.6962,
      "step": 5880
    },
    {
      "epoch": 9.703215169002473,
      "grad_norm": 0.396484375,
      "learning_rate": 5.07630610117582e-07,
      "loss": 0.6932,
      "step": 5885
    },
    {
      "epoch": 9.711459192085737,
      "grad_norm": 0.390625,
      "learning_rate": 4.790603912544489e-07,
      "loss": 0.6878,
      "step": 5890
    },
    {
      "epoch": 9.719703215169002,
      "grad_norm": 0.400390625,
      "learning_rate": 4.5131568489236166e-07,
      "loss": 0.6946,
      "step": 5895
    },
    {
      "epoch": 9.727947238252266,
      "grad_norm": 0.4296875,
      "learning_rate": 4.2439672116982855e-07,
      "loss": 0.6853,
      "step": 5900
    },
    {
      "epoch": 9.73619126133553,
      "grad_norm": 0.396484375,
      "learning_rate": 3.983037233759368e-07,
      "loss": 0.6914,
      "step": 5905
    },
    {
      "epoch": 9.744435284418797,
      "grad_norm": 0.404296875,
      "learning_rate": 3.73036907948543e-07,
      "loss": 0.6898,
      "step": 5910
    },
    {
      "epoch": 9.752679307502062,
      "grad_norm": 0.388671875,
      "learning_rate": 3.485964844723744e-07,
      "loss": 0.6888,
      "step": 5915
    },
    {
      "epoch": 9.760923330585326,
      "grad_norm": 0.412109375,
      "learning_rate": 3.2498265567739717e-07,
      "loss": 0.6824,
      "step": 5920
    },
    {
      "epoch": 9.76916735366859,
      "grad_norm": 0.3984375,
      "learning_rate": 3.0219561743707326e-07,
      "loss": 0.691,
      "step": 5925
    },
    {
      "epoch": 9.777411376751855,
      "grad_norm": 0.40234375,
      "learning_rate": 2.8023555876673937e-07,
      "loss": 0.6862,
      "step": 5930
    },
    {
      "epoch": 9.78565539983512,
      "grad_norm": 0.396484375,
      "learning_rate": 2.5910266182207486e-07,
      "loss": 0.6933,
      "step": 5935
    },
    {
      "epoch": 9.793899422918384,
      "grad_norm": 0.400390625,
      "learning_rate": 2.3879710189753656e-07,
      "loss": 0.6926,
      "step": 5940
    },
    {
      "epoch": 9.802143446001649,
      "grad_norm": 0.3984375,
      "learning_rate": 2.1931904742495957e-07,
      "loss": 0.6807,
      "step": 5945
    },
    {
      "epoch": 9.810387469084914,
      "grad_norm": 0.388671875,
      "learning_rate": 2.0066865997212525e-07,
      "loss": 0.6923,
      "step": 5950
    },
    {
      "epoch": 9.818631492168178,
      "grad_norm": 0.39453125,
      "learning_rate": 1.8284609424142895e-07,
      "loss": 0.6885,
      "step": 5955
    },
    {
      "epoch": 9.826875515251443,
      "grad_norm": 0.392578125,
      "learning_rate": 1.6585149806860324e-07,
      "loss": 0.6862,
      "step": 5960
    },
    {
      "epoch": 9.835119538334707,
      "grad_norm": 0.4140625,
      "learning_rate": 1.4968501242148547e-07,
      "loss": 0.6955,
      "step": 5965
    },
    {
      "epoch": 9.843363561417972,
      "grad_norm": 0.404296875,
      "learning_rate": 1.3434677139885222e-07,
      "loss": 0.6957,
      "step": 5970
    },
    {
      "epoch": 9.851607584501236,
      "grad_norm": 0.419921875,
      "learning_rate": 1.1983690222929778e-07,
      "loss": 0.6915,
      "step": 5975
    },
    {
      "epoch": 9.8598516075845,
      "grad_norm": 0.39453125,
      "learning_rate": 1.0615552527017958e-07,
      "loss": 0.701,
      "step": 5980
    },
    {
      "epoch": 9.868095630667765,
      "grad_norm": 0.40234375,
      "learning_rate": 9.330275400666332e-08,
      "loss": 0.6959,
      "step": 5985
    },
    {
      "epoch": 9.87633965375103,
      "grad_norm": 0.396484375,
      "learning_rate": 8.127869505069053e-08,
      "loss": 0.6885,
      "step": 5990
    },
    {
      "epoch": 9.884583676834295,
      "grad_norm": 0.40234375,
      "learning_rate": 7.00834481402013e-08,
      "loss": 0.6842,
      "step": 5995
    },
    {
      "epoch": 9.892827699917559,
      "grad_norm": 0.38671875,
      "learning_rate": 5.971710613821291e-08,
      "loss": 0.6956,
      "step": 6000
    },
    {
      "epoch": 9.901071723000824,
      "grad_norm": 0.3984375,
      "learning_rate": 5.0179755032109253e-08,
      "loss": 0.6898,
      "step": 6005
    },
    {
      "epoch": 9.90931574608409,
      "grad_norm": 0.3828125,
      "learning_rate": 4.147147393290807e-08,
      "loss": 0.6899,
      "step": 6010
    },
    {
      "epoch": 9.917559769167354,
      "grad_norm": 0.404296875,
      "learning_rate": 3.359233507459481e-08,
      "loss": 0.697,
      "step": 6015
    },
    {
      "epoch": 9.925803792250619,
      "grad_norm": 0.408203125,
      "learning_rate": 2.6542403813545334e-08,
      "loss": 0.6938,
      "step": 6020
    },
    {
      "epoch": 9.934047815333884,
      "grad_norm": 0.3828125,
      "learning_rate": 2.0321738627981923e-08,
      "loss": 0.686,
      "step": 6025
    },
    {
      "epoch": 9.942291838417148,
      "grad_norm": 0.40234375,
      "learning_rate": 1.4930391117451426e-08,
      "loss": 0.6874,
      "step": 6030
    },
    {
      "epoch": 9.950535861500413,
      "grad_norm": 0.404296875,
      "learning_rate": 1.0368406002436715e-08,
      "loss": 0.6934,
      "step": 6035
    },
    {
      "epoch": 9.958779884583677,
      "grad_norm": 0.400390625,
      "learning_rate": 6.635821124001406e-09,
      "loss": 0.6913,
      "step": 6040
    },
    {
      "epoch": 9.967023907666942,
      "grad_norm": 0.388671875,
      "learning_rate": 3.732667443390181e-09,
      "loss": 0.6895,
      "step": 6045
    },
    {
      "epoch": 9.975267930750206,
      "grad_norm": 0.3984375,
      "learning_rate": 1.6589690418955528e-09,
      "loss": 0.6968,
      "step": 6050
    },
    {
      "epoch": 9.983511953833471,
      "grad_norm": 0.3984375,
      "learning_rate": 4.147431205359098e-10,
      "loss": 0.6946,
      "step": 6055
    },
    {
      "epoch": 9.991755976916735,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0,
      "loss": 0.6936,
      "step": 6060
    },
    {
      "epoch": 9.991755976916735,
      "eval_loss": 2.4860482215881348,
      "eval_runtime": 0.2343,
      "eval_samples_per_second": 42.675,
      "eval_steps_per_second": 4.267,
      "step": 6060
    },
    {
      "epoch": 9.991755976916735,
      "step": 6060,
      "total_flos": 1.8500974249565487e+19,
      "train_loss": 1.1020318522705104,
      "train_runtime": 14653.0399,
      "train_samples_per_second": 26.478,
      "train_steps_per_second": 0.414
    }
  ],
  "logging_steps": 5,
  "max_steps": 6060,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 100,
  "total_flos": 1.8500974249565487e+19,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}