{
  "best_metric": 0.2861185371875763,
  "best_model_checkpoint": "./output/checkpoint-4950",
  "epoch": 0.23760380166082656,
  "eval_steps": 150,
  "global_step": 4950,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00048000768012288196,
      "grad_norm": 3.486281394958496,
      "learning_rate": 1.25e-05,
      "loss": 1.0289,
      "step": 10
    },
    {
      "epoch": 0.0009600153602457639,
      "grad_norm": 2.1935863494873047,
      "learning_rate": 2.5e-05,
      "loss": 0.9951,
      "step": 20
    },
    {
      "epoch": 0.0014400230403686458,
      "grad_norm": 3.4478511810302734,
      "learning_rate": 3.75e-05,
      "loss": 0.9388,
      "step": 30
    },
    {
      "epoch": 0.0019200307204915279,
      "grad_norm": 2.691068410873413,
      "learning_rate": 5e-05,
      "loss": 0.8044,
      "step": 40
    },
    {
      "epoch": 0.00240003840061441,
      "grad_norm": 2.139169692993164,
      "learning_rate": 6.25e-05,
      "loss": 0.8025,
      "step": 50
    },
    {
      "epoch": 0.0028800460807372917,
      "grad_norm": 2.469996213912964,
      "learning_rate": 7.5e-05,
      "loss": 0.7399,
      "step": 60
    },
    {
      "epoch": 0.003360053760860174,
      "grad_norm": 2.2517919540405273,
      "learning_rate": 8.75e-05,
      "loss": 0.8193,
      "step": 70
    },
    {
      "epoch": 0.0038400614409830557,
      "grad_norm": 1.635170578956604,
      "learning_rate": 0.0001,
      "loss": 0.7265,
      "step": 80
    },
    {
      "epoch": 0.004320069121105938,
      "grad_norm": 1.8425480127334595,
      "learning_rate": 0.00011250000000000001,
      "loss": 0.8385,
      "step": 90
    },
    {
      "epoch": 0.00480007680122882,
      "grad_norm": 1.8267455101013184,
      "learning_rate": 0.000125,
      "loss": 0.7206,
      "step": 100
    },
    {
      "epoch": 0.0052800844813517015,
      "grad_norm": 3.9897067546844482,
      "learning_rate": 0.00012499871543489787,
      "loss": 0.8521,
      "step": 110
    },
    {
      "epoch": 0.005760092161474583,
      "grad_norm": 1.4424850940704346,
      "learning_rate": 0.00012499486179239495,
      "loss": 0.786,
      "step": 120
    },
    {
      "epoch": 0.006240099841597465,
      "grad_norm": 1.5792715549468994,
      "learning_rate": 0.00012498843923089938,
      "loss": 0.7806,
      "step": 130
    },
    {
      "epoch": 0.006720107521720348,
      "grad_norm": 1.833365559577942,
      "learning_rate": 0.0001249794480144175,
      "loss": 0.7891,
      "step": 140
    },
    {
      "epoch": 0.00720011520184323,
      "grad_norm": 1.9310444593429565,
      "learning_rate": 0.000124967888512543,
      "loss": 0.7546,
      "step": 150
    },
    {
      "epoch": 0.00720011520184323,
      "eval_loss": 0.7839200496673584,
      "eval_runtime": 60.9478,
      "eval_samples_per_second": 8.204,
      "eval_steps_per_second": 8.204,
      "step": 150
    },
    {
      "epoch": 0.007680122881966111,
      "grad_norm": 1.7887605428695679,
      "learning_rate": 0.00012495376120044173,
      "loss": 0.825,
      "step": 160
    },
    {
      "epoch": 0.008160130562088993,
      "grad_norm": 1.9253674745559692,
      "learning_rate": 0.00012493706665883217,
      "loss": 0.8215,
      "step": 170
    },
    {
      "epoch": 0.008640138242211876,
      "grad_norm": 2.3752224445343018,
      "learning_rate": 0.00012491780557396154,
      "loss": 0.7901,
      "step": 180
    },
    {
      "epoch": 0.009120145922334757,
      "grad_norm": 1.8245501518249512,
      "learning_rate": 0.00012489597873757756,
      "loss": 0.738,
      "step": 190
    },
    {
      "epoch": 0.00960015360245764,
      "grad_norm": 1.6711477041244507,
      "learning_rate": 0.00012487158704689602,
      "loss": 0.7923,
      "step": 200
    },
    {
      "epoch": 0.01008016128258052,
      "grad_norm": 1.5818885564804077,
      "learning_rate": 0.0001248446315045638,
      "loss": 0.7663,
      "step": 210
    },
    {
      "epoch": 0.010560168962703403,
      "grad_norm": 1.8983091115951538,
      "learning_rate": 0.00012481511321861763,
      "loss": 0.7402,
      "step": 220
    },
    {
      "epoch": 0.011040176642826286,
      "grad_norm": 1.7394636869430542,
      "learning_rate": 0.00012478303340243864,
      "loss": 0.8088,
      "step": 230
    },
    {
      "epoch": 0.011520184322949167,
      "grad_norm": 1.5733236074447632,
      "learning_rate": 0.00012474839337470246,
      "loss": 0.7407,
      "step": 240
    },
    {
      "epoch": 0.01200019200307205,
      "grad_norm": 1.5478943586349487,
      "learning_rate": 0.0001247111945593249,
      "loss": 0.6991,
      "step": 250
    },
    {
      "epoch": 0.01248019968319493,
      "grad_norm": 2.1309940814971924,
      "learning_rate": 0.00012467143848540359,
      "loss": 0.653,
      "step": 260
    },
    {
      "epoch": 0.012960207363317813,
      "grad_norm": 1.9541335105895996,
      "learning_rate": 0.000124629126787155,
      "loss": 0.7636,
      "step": 270
    },
    {
      "epoch": 0.013440215043440696,
      "grad_norm": 1.5597686767578125,
      "learning_rate": 0.00012458426120384738,
      "loss": 0.8328,
      "step": 280
    },
    {
      "epoch": 0.013920222723563577,
      "grad_norm": 1.7825485467910767,
      "learning_rate": 0.00012453684357972906,
      "loss": 0.7783,
      "step": 290
    },
    {
      "epoch": 0.01440023040368646,
      "grad_norm": 1.2723634243011475,
      "learning_rate": 0.00012448687586395289,
      "loss": 0.7732,
      "step": 300
    },
    {
      "epoch": 0.01440023040368646,
      "eval_loss": 0.7451309561729431,
      "eval_runtime": 61.885,
      "eval_samples_per_second": 8.079,
      "eval_steps_per_second": 8.079,
      "step": 300
    },
    {
      "epoch": 0.01488023808380934,
      "grad_norm": 1.9444048404693604,
      "learning_rate": 0.00012443436011049593,
      "loss": 0.7809,
      "step": 310
    },
    {
      "epoch": 0.015360245763932223,
      "grad_norm": 2.960118532180786,
      "learning_rate": 0.0001243792984780751,
      "loss": 0.7279,
      "step": 320
    },
    {
      "epoch": 0.015840253444055104,
      "grad_norm": 4.004322528839111,
      "learning_rate": 0.00012432169323005853,
      "loss": 0.7319,
      "step": 330
    },
    {
      "epoch": 0.016320261124177986,
      "grad_norm": 1.6123781204223633,
      "learning_rate": 0.00012426154673437223,
      "loss": 0.7856,
      "step": 340
    },
    {
      "epoch": 0.01680026880430087,
      "grad_norm": 1.5967341661453247,
      "learning_rate": 0.00012419886146340314,
      "loss": 0.7009,
      "step": 350
    },
    {
      "epoch": 0.017280276484423752,
      "grad_norm": 2.500964403152466,
      "learning_rate": 0.0001241336399938972,
      "loss": 0.6882,
      "step": 360
    },
    {
      "epoch": 0.017760284164546634,
      "grad_norm": 1.9537205696105957,
      "learning_rate": 0.00012406588500685355,
      "loss": 0.7615,
      "step": 370
    },
    {
      "epoch": 0.018240291844669514,
      "grad_norm": 1.5712380409240723,
      "learning_rate": 0.00012399559928741435,
      "loss": 0.7034,
      "step": 380
    },
    {
      "epoch": 0.018720299524792396,
      "grad_norm": 1.46733558177948,
      "learning_rate": 0.00012392278572475023,
      "loss": 0.7124,
      "step": 390
    },
    {
      "epoch": 0.01920030720491528,
      "grad_norm": 1.8978666067123413,
      "learning_rate": 0.0001238474473119416,
      "loss": 0.6794,
      "step": 400
    },
    {
      "epoch": 0.01968031488503816,
      "grad_norm": 1.6113531589508057,
      "learning_rate": 0.00012376958714585545,
      "loss": 0.7563,
      "step": 410
    },
    {
      "epoch": 0.02016032256516104,
      "grad_norm": 2.033883810043335,
      "learning_rate": 0.0001236892084270183,
      "loss": 0.6972,
      "step": 420
    },
    {
      "epoch": 0.020640330245283924,
      "grad_norm": 1.3285993337631226,
      "learning_rate": 0.00012360631445948448,
      "loss": 0.6758,
      "step": 430
    },
    {
      "epoch": 0.021120337925406806,
      "grad_norm": 2.2260289192199707,
      "learning_rate": 0.00012352090865070026,
      "loss": 0.7832,
      "step": 440
    },
    {
      "epoch": 0.02160034560552969,
      "grad_norm": 1.1047931909561157,
      "learning_rate": 0.00012343299451136397,
      "loss": 0.6462,
      "step": 450
    },
    {
      "epoch": 0.02160034560552969,
      "eval_loss": 0.7070700526237488,
      "eval_runtime": 62.1391,
      "eval_samples_per_second": 8.046,
      "eval_steps_per_second": 8.046,
      "step": 450
    },
    {
      "epoch": 0.02208035328565257,
      "grad_norm": 1.809122085571289,
      "learning_rate": 0.00012334257565528155,
      "loss": 0.7272,
      "step": 460
    },
    {
      "epoch": 0.02256036096577545,
      "grad_norm": 1.6679526567459106,
      "learning_rate": 0.000123249655799218,
      "loss": 0.6841,
      "step": 470
    },
    {
      "epoch": 0.023040368645898333,
      "grad_norm": 1.6490862369537354,
      "learning_rate": 0.00012315423876274468,
      "loss": 0.6908,
      "step": 480
    },
    {
      "epoch": 0.023520376326021216,
      "grad_norm": 2.0154590606689453,
      "learning_rate": 0.0001230563284680822,
      "loss": 0.6357,
      "step": 490
    },
    {
      "epoch": 0.0240003840061441,
      "grad_norm": 1.7147201299667358,
      "learning_rate": 0.00012295592893993935,
      "loss": 0.5972,
      "step": 500
    },
    {
      "epoch": 0.02448039168626698,
      "grad_norm": 1.8253982067108154,
      "learning_rate": 0.00012285304430534745,
      "loss": 0.7825,
      "step": 510
    },
    {
      "epoch": 0.02496039936638986,
      "grad_norm": 1.478890061378479,
      "learning_rate": 0.00012274767879349083,
      "loss": 0.7078,
      "step": 520
    },
    {
      "epoch": 0.025440407046512743,
      "grad_norm": 1.8913421630859375,
      "learning_rate": 0.00012263983673553306,
      "loss": 0.846,
      "step": 530
    },
    {
      "epoch": 0.025920414726635626,
      "grad_norm": 1.9144928455352783,
      "learning_rate": 0.0001225295225644387,
      "loss": 0.6446,
      "step": 540
    },
    {
      "epoch": 0.02640042240675851,
      "grad_norm": 1.6806931495666504,
      "learning_rate": 0.0001224167408147913,
      "loss": 0.6377,
      "step": 550
    },
    {
      "epoch": 0.02688043008688139,
      "grad_norm": 1.958608627319336,
      "learning_rate": 0.0001223014961226068,
      "loss": 0.6293,
      "step": 560
    },
    {
      "epoch": 0.02736043776700427,
      "grad_norm": 1.256000280380249,
      "learning_rate": 0.00012218379322514317,
      "loss": 0.6248,
      "step": 570
    },
    {
      "epoch": 0.027840445447127153,
      "grad_norm": 2.0567476749420166,
      "learning_rate": 0.00012206363696070545,
      "loss": 0.7073,
      "step": 580
    },
    {
      "epoch": 0.028320453127250036,
      "grad_norm": 1.905060052871704,
      "learning_rate": 0.0001219410322684471,
      "loss": 0.7045,
      "step": 590
    },
    {
      "epoch": 0.02880046080737292,
      "grad_norm": 2.1038753986358643,
      "learning_rate": 0.0001218159841881668,
      "loss": 0.6682,
      "step": 600
    },
    {
      "epoch": 0.02880046080737292,
      "eval_loss": 0.6902744174003601,
      "eval_runtime": 61.3895,
      "eval_samples_per_second": 8.145,
      "eval_steps_per_second": 8.145,
      "step": 600
    },
    {
      "epoch": 0.0292804684874958,
      "grad_norm": 1.615721344947815,
      "learning_rate": 0.00012168849786010133,
      "loss": 0.7247,
      "step": 610
    },
    {
      "epoch": 0.02976047616761868,
      "grad_norm": 1.6086972951889038,
      "learning_rate": 0.00012155857852471433,
      "loss": 0.8192,
      "step": 620
    },
    {
      "epoch": 0.030240483847741563,
      "grad_norm": 1.6571546792984009,
      "learning_rate": 0.0001214262315224808,
      "loss": 0.6439,
      "step": 630
    },
    {
      "epoch": 0.030720491527864446,
      "grad_norm": 2.127092123031616,
      "learning_rate": 0.00012129146229366766,
      "loss": 0.6725,
      "step": 640
    },
    {
      "epoch": 0.03120049920798733,
      "grad_norm": 1.851282000541687,
      "learning_rate": 0.00012115427637811003,
      "loss": 0.75,
      "step": 650
    },
    {
      "epoch": 0.03168050688811021,
      "grad_norm": 3.761329174041748,
      "learning_rate": 0.00012101467941498357,
      "loss": 0.7204,
      "step": 660
    },
    {
      "epoch": 0.032160514568233094,
      "grad_norm": 1.758489966392517,
      "learning_rate": 0.0001208726771425727,
      "loss": 0.7712,
      "step": 670
    },
    {
      "epoch": 0.03264052224835597,
      "grad_norm": 1.886300802230835,
      "learning_rate": 0.00012072827539803463,
      "loss": 0.6929,
      "step": 680
    },
    {
      "epoch": 0.03312052992847886,
      "grad_norm": 1.5907173156738281,
      "learning_rate": 0.00012058148011715949,
      "loss": 0.6444,
      "step": 690
    },
    {
      "epoch": 0.03360053760860174,
      "grad_norm": 2.343543529510498,
      "learning_rate": 0.00012043229733412636,
      "loss": 0.6888,
      "step": 700
    },
    {
      "epoch": 0.03408054528872462,
      "grad_norm": 1.9524741172790527,
      "learning_rate": 0.0001202807331812551,
      "loss": 0.6849,
      "step": 710
    },
    {
      "epoch": 0.034560552968847504,
      "grad_norm": 1.4159011840820312,
      "learning_rate": 0.00012012679388875441,
      "loss": 0.687,
      "step": 720
    },
    {
      "epoch": 0.03504056064897038,
      "grad_norm": 3.416790246963501,
      "learning_rate": 0.00011997048578446568,
      "loss": 0.6828,
      "step": 730
    },
    {
      "epoch": 0.03552056832909327,
      "grad_norm": 2.313704013824463,
      "learning_rate": 0.00011981181529360282,
      "loss": 0.6053,
      "step": 740
    },
    {
      "epoch": 0.03600057600921615,
      "grad_norm": 1.5428639650344849,
      "learning_rate": 0.00011965078893848828,
      "loss": 0.7499,
      "step": 750
    },
    {
      "epoch": 0.03600057600921615,
      "eval_loss": 0.658706784248352,
      "eval_runtime": 61.2293,
      "eval_samples_per_second": 8.166,
      "eval_steps_per_second": 8.166,
      "step": 750
    },
    {
      "epoch": 0.03648058368933903,
      "grad_norm": 2.4018890857696533,
      "learning_rate": 0.00011948741333828481,
      "loss": 0.6682,
      "step": 760
    },
    {
      "epoch": 0.03696059136946191,
      "grad_norm": 1.5699872970581055,
      "learning_rate": 0.00011932169520872344,
      "loss": 0.6918,
      "step": 770
    },
    {
      "epoch": 0.03744059904958479,
      "grad_norm": 1.87309992313385,
      "learning_rate": 0.00011915364136182738,
      "loss": 0.7011,
      "step": 780
    },
    {
      "epoch": 0.03792060672970768,
      "grad_norm": 1.9307374954223633,
      "learning_rate": 0.0001189832587056321,
      "loss": 0.6178,
      "step": 790
    },
    {
      "epoch": 0.03840061440983056,
      "grad_norm": 2.2145516872406006,
      "learning_rate": 0.00011881055424390119,
      "loss": 0.6826,
      "step": 800
    },
    {
      "epoch": 0.03888062208995344,
      "grad_norm": 1.3896249532699585,
      "learning_rate": 0.00011863553507583869,
      "loss": 0.6697,
      "step": 810
    },
    {
      "epoch": 0.03936062977007632,
      "grad_norm": 1.995367407798767,
      "learning_rate": 0.00011845820839579708,
      "loss": 0.68,
      "step": 820
    },
    {
      "epoch": 0.0398406374501992,
      "grad_norm": 1.6380889415740967,
      "learning_rate": 0.00011827858149298162,
      "loss": 0.6187,
      "step": 830
    },
    {
      "epoch": 0.04032064513032208,
      "grad_norm": 2.2140791416168213,
      "learning_rate": 0.00011809666175115075,
      "loss": 0.6588,
      "step": 840
    },
    {
      "epoch": 0.04080065281044497,
      "grad_norm": 1.9542447328567505,
      "learning_rate": 0.00011791245664831251,
      "loss": 0.6506,
      "step": 850
    },
    {
      "epoch": 0.04128066049056785,
      "grad_norm": 2.109924793243408,
      "learning_rate": 0.0001177259737564172,
      "loss": 0.6949,
      "step": 860
    },
    {
      "epoch": 0.04176066817069073,
      "grad_norm": 1.3225544691085815,
      "learning_rate": 0.00011753722074104613,
      "loss": 0.653,
      "step": 870
    },
    {
      "epoch": 0.04224067585081361,
      "grad_norm": 2.2029776573181152,
      "learning_rate": 0.00011734620536109644,
      "loss": 0.6019,
      "step": 880
    },
    {
      "epoch": 0.04272068353093649,
      "grad_norm": 2.164807081222534,
      "learning_rate": 0.00011715293546846223,
      "loss": 0.7775,
      "step": 890
    },
    {
      "epoch": 0.04320069121105938,
      "grad_norm": 2.733882427215576,
      "learning_rate": 0.00011695741900771184,
      "loss": 0.6274,
      "step": 900
    },
    {
      "epoch": 0.04320069121105938,
      "eval_loss": 0.6309913992881775,
      "eval_runtime": 59.1183,
      "eval_samples_per_second": 8.458,
      "eval_steps_per_second": 8.458,
      "step": 900
    },
    {
      "epoch": 0.04368069889118226,
      "grad_norm": 2.2526729106903076,
      "learning_rate": 0.00011675966401576116,
      "loss": 0.6463,
      "step": 910
    },
    {
      "epoch": 0.04416070657130514,
      "grad_norm": 2.290404796600342,
      "learning_rate": 0.00011655967862154335,
      "loss": 0.6139,
      "step": 920
    },
    {
      "epoch": 0.04464071425142802,
      "grad_norm": 1.7690914869308472,
      "learning_rate": 0.0001163574710456747,
      "loss": 0.627,
      "step": 930
    },
    {
      "epoch": 0.0451207219315509,
      "grad_norm": 2.310748815536499,
      "learning_rate": 0.00011615304960011663,
      "loss": 0.6715,
      "step": 940
    },
    {
      "epoch": 0.04560072961167379,
      "grad_norm": 1.7351702451705933,
      "learning_rate": 0.00011594642268783415,
      "loss": 0.6878,
      "step": 950
    },
    {
      "epoch": 0.04608073729179667,
      "grad_norm": 3.423177719116211,
      "learning_rate": 0.00011573759880245027,
      "loss": 0.5831,
      "step": 960
    },
    {
      "epoch": 0.04656074497191955,
      "grad_norm": 1.9682544469833374,
      "learning_rate": 0.00011552658652789703,
      "loss": 0.6101,
      "step": 970
    },
    {
      "epoch": 0.04704075265204243,
      "grad_norm": 2.090428590774536,
      "learning_rate": 0.00011531339453806258,
      "loss": 0.672,
      "step": 980
    },
    {
      "epoch": 0.04752076033216531,
      "grad_norm": 2.082552909851074,
      "learning_rate": 0.00011509803159643458,
      "loss": 0.7586,
      "step": 990
    },
    {
      "epoch": 0.0480007680122882,
      "grad_norm": 2.0125648975372314,
      "learning_rate": 0.00011488050655574003,
      "loss": 0.6429,
      "step": 1000
    },
    {
      "epoch": 0.04848077569241108,
      "grad_norm": 1.69572913646698,
      "learning_rate": 0.00011466082835758141,
      "loss": 0.6767,
      "step": 1010
    },
    {
      "epoch": 0.04896078337253396,
      "grad_norm": 2.2850522994995117,
      "learning_rate": 0.000114439006032069,
      "loss": 0.5563,
      "step": 1020
    },
    {
      "epoch": 0.04944079105265684,
      "grad_norm": 2.108039140701294,
      "learning_rate": 0.00011421504869744978,
      "loss": 0.5944,
      "step": 1030
    },
    {
      "epoch": 0.04992079873277972,
      "grad_norm": 2.622957229614258,
      "learning_rate": 0.0001139889655597326,
      "loss": 0.5736,
      "step": 1040
    },
    {
      "epoch": 0.05040080641290261,
      "grad_norm": 1.1852195262908936,
      "learning_rate": 0.00011376076591230974,
      "loss": 0.6071,
      "step": 1050
    },
    {
      "epoch": 0.05040080641290261,
      "eval_loss": 0.602868914604187,
      "eval_runtime": 59.514,
      "eval_samples_per_second": 8.401,
      "eval_steps_per_second": 8.401,
      "step": 1050
    },
    {
      "epoch": 0.050880814093025487,
      "grad_norm": 2.5270371437072754,
      "learning_rate": 0.00011353045913557492,
      "loss": 0.6547,
      "step": 1060
    },
    {
      "epoch": 0.05136082177314837,
      "grad_norm": 2.509129762649536,
      "learning_rate": 0.00011329805469653768,
      "loss": 0.5011,
      "step": 1070
    },
    {
      "epoch": 0.05184082945327125,
      "grad_norm": 1.941102385520935,
      "learning_rate": 0.00011306356214843422,
      "loss": 0.6047,
      "step": 1080
    },
    {
      "epoch": 0.05232083713339413,
      "grad_norm": 2.13960599899292,
      "learning_rate": 0.00011282699113033477,
      "loss": 0.6171,
      "step": 1090
    },
    {
      "epoch": 0.05280084481351702,
      "grad_norm": 2.701411008834839,
      "learning_rate": 0.00011258835136674729,
      "loss": 0.5637,
      "step": 1100
    },
    {
      "epoch": 0.053280852493639896,
      "grad_norm": 1.7313449382781982,
      "learning_rate": 0.00011234765266721778,
      "loss": 0.5701,
      "step": 1110
    },
    {
      "epoch": 0.05376086017376278,
      "grad_norm": 1.791354775428772,
      "learning_rate": 0.00011210490492592703,
      "loss": 0.5819,
      "step": 1120
    },
    {
      "epoch": 0.05424086785388566,
      "grad_norm": 3.2996606826782227,
      "learning_rate": 0.0001118601181212839,
      "loss": 0.5881,
      "step": 1130
    },
    {
      "epoch": 0.05472087553400854,
      "grad_norm": 2.691493272781372,
      "learning_rate": 0.00011161330231551515,
      "loss": 0.6034,
      "step": 1140
    },
    {
      "epoch": 0.05520088321413143,
      "grad_norm": 1.8457846641540527,
      "learning_rate": 0.00011136446765425187,
      "loss": 0.5384,
      "step": 1150
    },
    {
      "epoch": 0.055680890894254306,
      "grad_norm": 2.529970645904541,
      "learning_rate": 0.00011111362436611234,
      "loss": 0.6849,
      "step": 1160
    },
    {
      "epoch": 0.05616089857437719,
      "grad_norm": 2.3314290046691895,
      "learning_rate": 0.00011086078276228167,
      "loss": 0.6218,
      "step": 1170
    },
    {
      "epoch": 0.05664090625450007,
      "grad_norm": 1.7115833759307861,
      "learning_rate": 0.00011060595323608789,
      "loss": 0.6119,
      "step": 1180
    },
    {
      "epoch": 0.05712091393462295,
      "grad_norm": 3.3060827255249023,
      "learning_rate": 0.00011034914626257467,
      "loss": 0.5631,
      "step": 1190
    },
    {
      "epoch": 0.05760092161474584,
      "grad_norm": 3.3217291831970215,
      "learning_rate": 0.0001100903723980709,
      "loss": 0.5279,
      "step": 1200
    },
    {
      "epoch": 0.05760092161474584,
      "eval_loss": 0.5909702181816101,
      "eval_runtime": 59.156,
      "eval_samples_per_second": 8.452,
      "eval_steps_per_second": 8.452,
      "step": 1200
    },
    {
      "epoch": 0.058080929294868716,
      "grad_norm": 1.9998270273208618,
      "learning_rate": 0.00010982964227975658,
      "loss": 0.5025,
      "step": 1210
    },
    {
      "epoch": 0.0585609369749916,
      "grad_norm": 1.7229317426681519,
      "learning_rate": 0.00010956696662522569,
      "loss": 0.6364,
      "step": 1220
    },
    {
      "epoch": 0.05904094465511448,
      "grad_norm": 1.984908938407898,
      "learning_rate": 0.00010930235623204551,
      "loss": 0.6313,
      "step": 1230
    },
    {
      "epoch": 0.05952095233523736,
      "grad_norm": 1.7476377487182617,
      "learning_rate": 0.00010903582197731294,
      "loss": 0.5867,
      "step": 1240
    },
    {
      "epoch": 0.06000096001536025,
      "grad_norm": 2.9715921878814697,
      "learning_rate": 0.00010876737481720722,
      "loss": 0.6064,
      "step": 1250
    },
    {
      "epoch": 0.060480967695483126,
      "grad_norm": 1.8386729955673218,
      "learning_rate": 0.0001084970257865397,
      "loss": 0.686,
      "step": 1260
    },
    {
      "epoch": 0.06096097537560601,
      "grad_norm": 4.205181121826172,
      "learning_rate": 0.00010822478599830008,
      "loss": 0.6305,
      "step": 1270
    },
    {
      "epoch": 0.06144098305572889,
      "grad_norm": 2.282146453857422,
      "learning_rate": 0.00010795066664319983,
      "loss": 0.5688,
      "step": 1280
    },
    {
      "epoch": 0.06192099073585177,
      "grad_norm": 2.2334952354431152,
      "learning_rate": 0.00010767467898921197,
      "loss": 0.6306,
      "step": 1290
    },
    {
      "epoch": 0.06240099841597466,
      "grad_norm": 1.6228522062301636,
      "learning_rate": 0.00010739683438110797,
      "loss": 0.5603,
      "step": 1300
    },
    {
      "epoch": 0.06288100609609754,
      "grad_norm": 2.812373161315918,
      "learning_rate": 0.00010711714423999145,
      "loss": 0.6842,
      "step": 1310
    },
    {
      "epoch": 0.06336101377622042,
      "grad_norm": 2.0494391918182373,
      "learning_rate": 0.00010683562006282861,
      "loss": 0.6159,
      "step": 1320
    },
    {
      "epoch": 0.06384102145634331,
      "grad_norm": 2.493551731109619,
      "learning_rate": 0.00010655227342197574,
      "loss": 0.6127,
      "step": 1330
    },
    {
      "epoch": 0.06432102913646619,
      "grad_norm": 2.1908137798309326,
      "learning_rate": 0.00010626711596470343,
      "loss": 0.6028,
      "step": 1340
    },
    {
      "epoch": 0.06480103681658907,
      "grad_norm": 2.069295644760132,
      "learning_rate": 0.0001059801594127179,
      "loss": 0.5356,
      "step": 1350
    },
    {
      "epoch": 0.06480103681658907,
      "eval_loss": 0.5636016130447388,
      "eval_runtime": 58.5795,
      "eval_samples_per_second": 8.535,
      "eval_steps_per_second": 8.535,
      "step": 1350
    },
    {
      "epoch": 0.06528104449671195,
      "grad_norm": 2.296053171157837,
      "learning_rate": 0.00010569141556167905,
      "loss": 0.5766,
      "step": 1360
    },
    {
      "epoch": 0.06576105217683482,
      "grad_norm": 2.211242198944092,
      "learning_rate": 0.00010540089628071566,
      "loss": 0.5189,
      "step": 1370
    },
    {
      "epoch": 0.06624105985695772,
      "grad_norm": 2.0951342582702637,
      "learning_rate": 0.00010510861351193747,
      "loss": 0.5785,
      "step": 1380
    },
    {
      "epoch": 0.0667210675370806,
      "grad_norm": 2.3294575214385986,
      "learning_rate": 0.00010481457926994435,
      "loss": 0.6079,
      "step": 1390
    },
    {
      "epoch": 0.06720107521720348,
      "grad_norm": 3.330477714538574,
      "learning_rate": 0.0001045188056413323,
      "loss": 0.5553,
      "step": 1400
    },
    {
      "epoch": 0.06768108289732636,
      "grad_norm": 2.775559425354004,
      "learning_rate": 0.00010422130478419676,
      "loss": 0.603,
      "step": 1410
    },
    {
      "epoch": 0.06816109057744923,
      "grad_norm": 2.7562248706817627,
      "learning_rate": 0.00010392208892763269,
      "loss": 0.5427,
      "step": 1420
    },
    {
      "epoch": 0.06864109825757213,
      "grad_norm": 2.4770357608795166,
      "learning_rate": 0.00010362117037123204,
      "loss": 0.551,
      "step": 1430
    },
    {
      "epoch": 0.06912110593769501,
      "grad_norm": 2.755504608154297,
      "learning_rate": 0.00010331856148457803,
      "loss": 0.5406,
      "step": 1440
    },
    {
      "epoch": 0.06960111361781789,
      "grad_norm": 1.8643813133239746,
      "learning_rate": 0.00010301427470673678,
      "loss": 0.5878,
      "step": 1450
    },
    {
      "epoch": 0.07008112129794077,
      "grad_norm": 1.6759915351867676,
      "learning_rate": 0.00010270832254574588,
      "loss": 0.5373,
      "step": 1460
    },
    {
      "epoch": 0.07056112897806364,
      "grad_norm": 3.030816078186035,
      "learning_rate": 0.00010240071757810036,
      "loss": 0.5793,
      "step": 1470
    },
    {
      "epoch": 0.07104113665818654,
      "grad_norm": 1.5345056056976318,
      "learning_rate": 0.00010209147244823564,
      "loss": 0.569,
      "step": 1480
    },
    {
      "epoch": 0.07152114433830942,
      "grad_norm": 2.1356072425842285,
      "learning_rate": 0.00010178059986800773,
      "loss": 0.5577,
      "step": 1490
    },
    {
      "epoch": 0.0720011520184323,
      "grad_norm": 2.0510830879211426,
      "learning_rate": 0.00010146811261617085,
      "loss": 0.5804,
      "step": 1500
    },
    {
      "epoch": 0.0720011520184323,
      "eval_loss": 0.5485201478004456,
      "eval_runtime": 58.4893,
      "eval_samples_per_second": 8.549,
      "eval_steps_per_second": 8.549,
      "step": 1500
    },
    {
      "epoch": 0.07248115969855518,
      "grad_norm": 2.772350788116455,
      "learning_rate": 0.00010115402353785197,
      "loss": 0.5241,
      "step": 1510
    },
    {
      "epoch": 0.07296116737867805,
      "grad_norm": 2.548069953918457,
      "learning_rate": 0.00010083834554402292,
      "loss": 0.575,
      "step": 1520
    },
    {
      "epoch": 0.07344117505880095,
      "grad_norm": 3.097839832305908,
      "learning_rate": 0.00010052109161096958,
      "loss": 0.5429,
      "step": 1530
    },
    {
      "epoch": 0.07392118273892383,
      "grad_norm": 2.8165719509124756,
      "learning_rate": 0.00010020227477975852,
      "loss": 0.5654,
      "step": 1540
    },
    {
      "epoch": 0.0744011904190467,
      "grad_norm": 3.1746392250061035,
      "learning_rate": 9.9881908155701e-05,
      "loss": 0.5246,
      "step": 1550
    },
    {
      "epoch": 0.07488119809916959,
      "grad_norm": 1.6946598291397095,
      "learning_rate": 9.956000490781411e-05,
      "loss": 0.5705,
      "step": 1560
    },
    {
      "epoch": 0.07536120577929246,
      "grad_norm": 2.273514986038208,
      "learning_rate": 9.923657826827957e-05,
      "loss": 0.5285,
      "step": 1570
    },
    {
      "epoch": 0.07584121345941536,
      "grad_norm": 2.8173811435699463,
      "learning_rate": 9.891164153189976e-05,
      "loss": 0.5363,
      "step": 1580
    },
    {
      "epoch": 0.07632122113953824,
      "grad_norm": 2.351550579071045,
      "learning_rate": 9.858520805555123e-05,
      "loss": 0.4827,
      "step": 1590
    },
    {
      "epoch": 0.07680122881966112,
      "grad_norm": 1.9897059202194214,
      "learning_rate": 9.825729125763561e-05,
      "loss": 0.4728,
      "step": 1600
    },
    {
      "epoch": 0.077281236499784,
      "grad_norm": 2.3484151363372803,
      "learning_rate": 9.792790461752813e-05,
      "loss": 0.5283,
      "step": 1610
    },
    {
      "epoch": 0.07776124417990687,
      "grad_norm": 1.8204355239868164,
      "learning_rate": 9.759706167502343e-05,
      "loss": 0.4393,
      "step": 1620
    },
    {
      "epoch": 0.07824125186002977,
      "grad_norm": 2.1863272190093994,
      "learning_rate": 9.726477602977905e-05,
      "loss": 0.4301,
      "step": 1630
    },
    {
      "epoch": 0.07872125954015265,
      "grad_norm": 3.2772369384765625,
      "learning_rate": 9.69310613407564e-05,
      "loss": 0.5861,
      "step": 1640
    },
    {
      "epoch": 0.07920126722027553,
      "grad_norm": 2.3052899837493896,
      "learning_rate": 9.659593132565929e-05,
      "loss": 0.5565,
      "step": 1650
    },
    {
      "epoch": 0.07920126722027553,
      "eval_loss": 0.5264848470687866,
      "eval_runtime": 59.1966,
      "eval_samples_per_second": 8.446,
      "eval_steps_per_second": 8.446,
      "step": 1650
    },
    {
      "epoch": 0.0796812749003984,
      "grad_norm": 2.761004686355591,
      "learning_rate": 9.625939976037002e-05,
      "loss": 0.5724,
      "step": 1660
    },
    {
      "epoch": 0.08016128258052128,
      "grad_norm": 4.054920196533203,
      "learning_rate": 9.59214804783831e-05,
      "loss": 0.5474,
      "step": 1670
    },
    {
      "epoch": 0.08064129026064416,
      "grad_norm": 2.541372060775757,
      "learning_rate": 9.558218737023671e-05,
      "loss": 0.5512,
      "step": 1680
    },
    {
      "epoch": 0.08112129794076706,
      "grad_norm": 2.4117777347564697,
      "learning_rate": 9.524153438294159e-05,
      "loss": 0.5326,
      "step": 1690
    },
    {
      "epoch": 0.08160130562088994,
      "grad_norm": 1.7388354539871216,
      "learning_rate": 9.489953551940783e-05,
      "loss": 0.5812,
      "step": 1700
    },
    {
      "epoch": 0.08208131330101281,
      "grad_norm": 2.907522201538086,
      "learning_rate": 9.455620483786914e-05,
      "loss": 0.5277,
      "step": 1710
    },
    {
      "epoch": 0.0825613209811357,
      "grad_norm": 3.023404598236084,
      "learning_rate": 9.421155645130514e-05,
      "loss": 0.5067,
      "step": 1720
    },
    {
      "epoch": 0.08304132866125857,
      "grad_norm": 2.3857407569885254,
      "learning_rate": 9.38656045268611e-05,
      "loss": 0.5584,
      "step": 1730
    },
    {
      "epoch": 0.08352133634138147,
      "grad_norm": 2.357882022857666,
      "learning_rate": 9.351836328526563e-05,
      "loss": 0.4815,
      "step": 1740
    },
    {
      "epoch": 0.08400134402150435,
      "grad_norm": 2.72175931930542,
      "learning_rate": 9.316984700024612e-05,
      "loss": 0.4833,
      "step": 1750
    },
    {
      "epoch": 0.08448135170162722,
      "grad_norm": 4.187307834625244,
      "learning_rate": 9.2820069997942e-05,
      "loss": 0.4374,
      "step": 1760
    },
    {
      "epoch": 0.0849613593817501,
      "grad_norm": 2.7726268768310547,
      "learning_rate": 9.246904665631588e-05,
      "loss": 0.4434,
      "step": 1770
    },
    {
      "epoch": 0.08544136706187298,
      "grad_norm": 2.523861885070801,
      "learning_rate": 9.211679140456242e-05,
      "loss": 0.483,
      "step": 1780
    },
    {
      "epoch": 0.08592137474199588,
      "grad_norm": 2.8732693195343018,
      "learning_rate": 9.176331872251536e-05,
      "loss": 0.4951,
      "step": 1790
    },
    {
      "epoch": 0.08640138242211876,
      "grad_norm": 4.408439636230469,
      "learning_rate": 9.140864314005222e-05,
      "loss": 0.5217,
      "step": 1800
    },
    {
      "epoch": 0.08640138242211876,
      "eval_loss": 0.5057191252708435,
      "eval_runtime": 58.5417,
      "eval_samples_per_second": 8.541,
      "eval_steps_per_second": 8.541,
      "step": 1800
    },
    {
      "epoch": 0.08688139010224163,
      "grad_norm": 3.707916736602783,
      "learning_rate": 9.105277923649698e-05,
      "loss": 0.5883,
      "step": 1810
    },
    {
      "epoch": 0.08736139778236451,
      "grad_norm": 2.6621925830841064,
      "learning_rate": 9.06957416400209e-05,
      "loss": 0.5833,
      "step": 1820
    },
    {
      "epoch": 0.08784140546248739,
      "grad_norm": 2.840649366378784,
      "learning_rate": 9.03375450270412e-05,
      "loss": 0.547,
      "step": 1830
    },
    {
      "epoch": 0.08832141314261029,
      "grad_norm": 1.9120944738388062,
      "learning_rate": 8.997820412161764e-05,
      "loss": 0.478,
      "step": 1840
    },
    {
      "epoch": 0.08880142082273317,
      "grad_norm": 4.03352165222168,
      "learning_rate": 8.961773369484738e-05,
      "loss": 0.4763,
      "step": 1850
    },
    {
      "epoch": 0.08928142850285604,
      "grad_norm": 3.096217632293701,
      "learning_rate": 8.925614856425786e-05,
      "loss": 0.4778,
      "step": 1860
    },
    {
      "epoch": 0.08976143618297892,
      "grad_norm": 1.808524250984192,
      "learning_rate": 8.88934635931975e-05,
      "loss": 0.4592,
      "step": 1870
    },
    {
      "epoch": 0.0902414438631018,
      "grad_norm": 3.0843780040740967,
      "learning_rate": 8.852969369022494e-05,
      "loss": 0.5724,
      "step": 1880
    },
    {
      "epoch": 0.0907214515432247,
      "grad_norm": 2.0292181968688965,
      "learning_rate": 8.816485380849613e-05,
      "loss": 0.4707,
      "step": 1890
    },
    {
      "epoch": 0.09120145922334758,
      "grad_norm": 5.531368255615234,
      "learning_rate": 8.779895894514961e-05,
      "loss": 0.5315,
      "step": 1900
    },
    {
      "epoch": 0.09168146690347045,
      "grad_norm": 2.3030762672424316,
      "learning_rate": 8.743202414069011e-05,
      "loss": 0.429,
      "step": 1910
    },
    {
      "epoch": 0.09216147458359333,
      "grad_norm": 1.8457183837890625,
      "learning_rate": 8.706406447837023e-05,
      "loss": 0.4247,
      "step": 1920
    },
    {
      "epoch": 0.09264148226371621,
      "grad_norm": 3.036836624145508,
      "learning_rate": 8.669509508357052e-05,
      "loss": 0.4799,
      "step": 1930
    },
    {
      "epoch": 0.0931214899438391,
      "grad_norm": 2.6028459072113037,
      "learning_rate": 8.632513112317761e-05,
      "loss": 0.5178,
      "step": 1940
    },
    {
      "epoch": 0.09360149762396199,
      "grad_norm": 2.7364983558654785,
      "learning_rate": 8.59541878049609e-05,
      "loss": 0.5356,
      "step": 1950
    },
    {
      "epoch": 0.09360149762396199,
      "eval_loss": 0.48100805282592773,
      "eval_runtime": 58.7127,
      "eval_samples_per_second": 8.516,
      "eval_steps_per_second": 8.516,
      "step": 1950
    },
    {
      "epoch": 0.09408150530408486,
      "grad_norm": 3.1542744636535645,
      "learning_rate": 8.558228037694728e-05,
      "loss": 0.4766,
      "step": 1960
    },
    {
      "epoch": 0.09456151298420774,
      "grad_norm": 2.741800308227539,
      "learning_rate": 8.520942412679447e-05,
      "loss": 0.4572,
      "step": 1970
    },
    {
      "epoch": 0.09504152066433062,
      "grad_norm": 2.472324848175049,
      "learning_rate": 8.483563438116257e-05,
      "loss": 0.5412,
      "step": 1980
    },
    {
      "epoch": 0.09552152834445352,
      "grad_norm": 5.480724334716797,
      "learning_rate": 8.446092650508393e-05,
      "loss": 0.5414,
      "step": 1990
    },
    {
      "epoch": 0.0960015360245764,
      "grad_norm": 2.432443380355835,
      "learning_rate": 8.408531590133172e-05,
      "loss": 0.5036,
      "step": 2000
    },
    {
      "epoch": 0.09648154370469927,
      "grad_norm": 3.158270835876465,
      "learning_rate": 8.370881800978673e-05,
      "loss": 0.547,
      "step": 2010
    },
    {
      "epoch": 0.09696155138482215,
      "grad_norm": 2.1253409385681152,
      "learning_rate": 8.333144830680262e-05,
      "loss": 0.4572,
      "step": 2020
    },
    {
      "epoch": 0.09744155906494503,
      "grad_norm": 4.447808742523193,
      "learning_rate": 8.29532223045698e-05,
      "loss": 0.5676,
      "step": 2030
    },
    {
      "epoch": 0.09792156674506793,
      "grad_norm": 2.5801315307617188,
      "learning_rate": 8.257415555047785e-05,
      "loss": 0.4345,
      "step": 2040
    },
    {
      "epoch": 0.0984015744251908,
      "grad_norm": 2.949495315551758,
      "learning_rate": 8.21942636264763e-05,
      "loss": 0.467,
      "step": 2050
    },
    {
      "epoch": 0.09888158210531368,
      "grad_norm": 2.605377435684204,
      "learning_rate": 8.181356214843422e-05,
      "loss": 0.5395,
      "step": 2060
    },
    {
      "epoch": 0.09936158978543656,
      "grad_norm": 2.72349214553833,
      "learning_rate": 8.143206676549826e-05,
      "loss": 0.507,
      "step": 2070
    },
    {
      "epoch": 0.09984159746555944,
      "grad_norm": 2.1272902488708496,
      "learning_rate": 8.10497931594494e-05,
      "loss": 0.4821,
      "step": 2080
    },
    {
      "epoch": 0.10032160514568234,
      "grad_norm": 2.3479998111724854,
      "learning_rate": 8.066675704405836e-05,
      "loss": 0.4633,
      "step": 2090
    },
    {
      "epoch": 0.10080161282580521,
      "grad_norm": 3.148271083831787,
      "learning_rate": 8.028297416443952e-05,
      "loss": 0.5192,
      "step": 2100
    },
    {
      "epoch": 0.10080161282580521,
      "eval_loss": 0.4648917317390442,
      "eval_runtime": 58.5632,
      "eval_samples_per_second": 8.538,
      "eval_steps_per_second": 8.538,
      "step": 2100
    },
    {
      "epoch": 0.1012816205059281,
      "grad_norm": 3.325272798538208,
      "learning_rate": 7.989846029640397e-05,
      "loss": 0.456,
      "step": 2110
    },
    {
      "epoch": 0.10176162818605097,
      "grad_norm": 2.5918984413146973,
      "learning_rate": 7.951323124581069e-05,
      "loss": 0.538,
      "step": 2120
    },
    {
      "epoch": 0.10224163586617385,
      "grad_norm": 4.771481990814209,
      "learning_rate": 7.91273028479172e-05,
      "loss": 0.608,
      "step": 2130
    },
    {
      "epoch": 0.10272164354629675,
      "grad_norm": 1.8593765497207642,
      "learning_rate": 7.874069096672831e-05,
      "loss": 0.4702,
      "step": 2140
    },
    {
      "epoch": 0.10320165122641962,
      "grad_norm": 4.961474418640137,
      "learning_rate": 7.83534114943442e-05,
      "loss": 0.4629,
      "step": 2150
    },
    {
      "epoch": 0.1036816589065425,
      "grad_norm": 3.506437063217163,
      "learning_rate": 7.796548035030715e-05,
      "loss": 0.4999,
      "step": 2160
    },
    {
      "epoch": 0.10416166658666538,
      "grad_norm": 1.6953083276748657,
      "learning_rate": 7.757691348094703e-05,
      "loss": 0.4157,
      "step": 2170
    },
    {
      "epoch": 0.10464167426678826,
      "grad_norm": 2.1404876708984375,
      "learning_rate": 7.718772685872595e-05,
      "loss": 0.421,
      "step": 2180
    },
    {
      "epoch": 0.10512168194691116,
      "grad_norm": 2.6381192207336426,
      "learning_rate": 7.679793648158159e-05,
      "loss": 0.4313,
      "step": 2190
    },
    {
      "epoch": 0.10560168962703403,
      "grad_norm": 5.151418209075928,
      "learning_rate": 7.640755837226965e-05,
      "loss": 0.5405,
      "step": 2200
    },
    {
      "epoch": 0.10608169730715691,
      "grad_norm": 2.6047308444976807,
      "learning_rate": 7.601660857770522e-05,
      "loss": 0.4657,
      "step": 2210
    },
    {
      "epoch": 0.10656170498727979,
      "grad_norm": 2.994880437850952,
      "learning_rate": 7.562510316830308e-05,
      "loss": 0.4819,
      "step": 2220
    },
    {
      "epoch": 0.10704171266740267,
      "grad_norm": 3.9328067302703857,
      "learning_rate": 7.523305823731723e-05,
      "loss": 0.4318,
      "step": 2230
    },
    {
      "epoch": 0.10752172034752557,
      "grad_norm": 2.0902812480926514,
      "learning_rate": 7.484048990017919e-05,
      "loss": 0.4011,
      "step": 2240
    },
    {
      "epoch": 0.10800172802764844,
      "grad_norm": 3.035555601119995,
      "learning_rate": 7.444741429383578e-05,
      "loss": 0.508,
      "step": 2250
    },
    {
      "epoch": 0.10800172802764844,
      "eval_loss": 0.4519488215446472,
      "eval_runtime": 58.5684,
      "eval_samples_per_second": 8.537,
      "eval_steps_per_second": 8.537,
      "step": 2250
    },
    {
      "epoch": 0.10848173570777132,
      "grad_norm": 2.6738250255584717,
      "learning_rate": 7.405384757608555e-05,
      "loss": 0.4951,
      "step": 2260
    },
    {
      "epoch": 0.1089617433878942,
      "grad_norm": 3.0879971981048584,
      "learning_rate": 7.36598059249148e-05,
      "loss": 0.4399,
      "step": 2270
    },
    {
      "epoch": 0.10944175106801708,
      "grad_norm": 2.5605053901672363,
      "learning_rate": 7.326530553783243e-05,
      "loss": 0.4153,
      "step": 2280
    },
    {
      "epoch": 0.10992175874813997,
      "grad_norm": 3.265760898590088,
      "learning_rate": 7.287036263120425e-05,
      "loss": 0.4771,
      "step": 2290
    },
    {
      "epoch": 0.11040176642826285,
      "grad_norm": 2.6800436973571777,
      "learning_rate": 7.247499343958621e-05,
      "loss": 0.5163,
      "step": 2300
    },
    {
      "epoch": 0.11088177410838573,
      "grad_norm": 3.173676013946533,
      "learning_rate": 7.207921421505724e-05,
      "loss": 0.4613,
      "step": 2310
    },
    {
      "epoch": 0.11136178178850861,
      "grad_norm": 2.116957902908325,
      "learning_rate": 7.168304122655113e-05,
      "loss": 0.4414,
      "step": 2320
    },
    {
      "epoch": 0.11184178946863149,
      "grad_norm": 2.3690202236175537,
      "learning_rate": 7.128649075918768e-05,
      "loss": 0.4114,
      "step": 2330
    },
    {
      "epoch": 0.11232179714875438,
      "grad_norm": 1.9245723485946655,
      "learning_rate": 7.088957911360347e-05,
      "loss": 0.4807,
      "step": 2340
    },
    {
      "epoch": 0.11280180482887726,
      "grad_norm": 3.2188150882720947,
      "learning_rate": 7.049232260528163e-05,
      "loss": 0.4136,
      "step": 2350
    },
    {
      "epoch": 0.11328181250900014,
      "grad_norm": 2.3686788082122803,
      "learning_rate": 7.009473756388128e-05,
      "loss": 0.428,
      "step": 2360
    },
    {
      "epoch": 0.11376182018912302,
      "grad_norm": 3.466979742050171,
      "learning_rate": 6.969684033256622e-05,
      "loss": 0.4484,
      "step": 2370
    },
    {
      "epoch": 0.1142418278692459,
      "grad_norm": 3.3120009899139404,
      "learning_rate": 6.92986472673332e-05,
      "loss": 0.4242,
      "step": 2380
    },
    {
      "epoch": 0.1147218355493688,
      "grad_norm": 3.3849294185638428,
      "learning_rate": 6.890017473633946e-05,
      "loss": 0.4853,
      "step": 2390
    },
    {
      "epoch": 0.11520184322949167,
      "grad_norm": 3.2085886001586914,
      "learning_rate": 6.850143911923011e-05,
      "loss": 0.4913,
      "step": 2400
    },
    {
      "epoch": 0.11520184322949167,
      "eval_loss": 0.4310162365436554,
      "eval_runtime": 59.0523,
      "eval_samples_per_second": 8.467,
      "eval_steps_per_second": 8.467,
      "step": 2400
    },
    {
      "epoch": 0.11568185090961455,
      "grad_norm": 3.3066141605377197,
      "learning_rate": 6.81024568064646e-05,
      "loss": 0.4273,
      "step": 2410
    },
    {
      "epoch": 0.11616185858973743,
      "grad_norm": 3.3977138996124268,
      "learning_rate": 6.770324419864309e-05,
      "loss": 0.4404,
      "step": 2420
    },
    {
      "epoch": 0.11664186626986031,
      "grad_norm": 3.0221588611602783,
      "learning_rate": 6.73038177058323e-05,
      "loss": 0.4424,
      "step": 2430
    },
    {
      "epoch": 0.1171218739499832,
      "grad_norm": 3.2543933391571045,
      "learning_rate": 6.690419374689087e-05,
      "loss": 0.4391,
      "step": 2440
    },
    {
      "epoch": 0.11760188163010608,
      "grad_norm": 2.9402315616607666,
      "learning_rate": 6.650438874879456e-05,
      "loss": 0.4705,
      "step": 2450
    },
    {
      "epoch": 0.11808188931022896,
      "grad_norm": 3.0324795246124268,
      "learning_rate": 6.61044191459609e-05,
      "loss": 0.462,
      "step": 2460
    },
    {
      "epoch": 0.11856189699035184,
      "grad_norm": 3.064758777618408,
      "learning_rate": 6.57043013795737e-05,
      "loss": 0.4797,
      "step": 2470
    },
    {
      "epoch": 0.11904190467047472,
      "grad_norm": 2.4350626468658447,
      "learning_rate": 6.530405189690719e-05,
      "loss": 0.3864,
      "step": 2480
    },
    {
      "epoch": 0.11952191235059761,
      "grad_norm": 1.769813060760498,
      "learning_rate": 6.49036871506499e-05,
      "loss": 0.3925,
      "step": 2490
    },
    {
      "epoch": 0.1200019200307205,
      "grad_norm": 2.513709306716919,
      "learning_rate": 6.450322359822846e-05,
      "loss": 0.5172,
      "step": 2500
    },
    {
      "epoch": 0.12048192771084337,
      "grad_norm": 3.5314691066741943,
      "learning_rate": 6.410267770113098e-05,
      "loss": 0.4905,
      "step": 2510
    },
    {
      "epoch": 0.12096193539096625,
      "grad_norm": 4.197941303253174,
      "learning_rate": 6.370206592423045e-05,
      "loss": 0.4174,
      "step": 2520
    },
    {
      "epoch": 0.12144194307108913,
      "grad_norm": 2.9191370010375977,
      "learning_rate": 6.330140473510796e-05,
      "loss": 0.4848,
      "step": 2530
    },
    {
      "epoch": 0.12192195075121202,
      "grad_norm": 2.9711387157440186,
      "learning_rate": 6.29007106033757e-05,
      "loss": 0.4168,
      "step": 2540
    },
    {
      "epoch": 0.1224019584313349,
      "grad_norm": 2.4669296741485596,
      "learning_rate": 6.25e-05,
      "loss": 0.4075,
      "step": 2550
    },
    {
      "epoch": 0.1224019584313349,
      "eval_loss": 0.40828070044517517,
      "eval_runtime": 58.5927,
      "eval_samples_per_second": 8.533,
      "eval_steps_per_second": 8.533,
      "step": 2550
    },
    {
      "epoch": 0.12288196611145778,
      "grad_norm": 4.635783672332764,
      "learning_rate": 6.20992893966243e-05,
      "loss": 0.4526,
      "step": 2560
    },
    {
      "epoch": 0.12336197379158066,
      "grad_norm": 5.554015159606934,
      "learning_rate": 6.169859526489204e-05,
      "loss": 0.3551,
      "step": 2570
    },
    {
      "epoch": 0.12384198147170354,
      "grad_norm": 2.8367717266082764,
      "learning_rate": 6.129793407576955e-05,
      "loss": 0.3604,
      "step": 2580
    },
    {
      "epoch": 0.12432198915182643,
      "grad_norm": 3.270982503890991,
      "learning_rate": 6.089732229886904e-05,
      "loss": 0.3244,
      "step": 2590
    },
    {
      "epoch": 0.12480199683194931,
      "grad_norm": 3.5090410709381104,
      "learning_rate": 6.049677640177155e-05,
      "loss": 0.4183,
      "step": 2600
    },
    {
      "epoch": 0.1252820045120722,
      "grad_norm": 3.698909044265747,
      "learning_rate": 6.00963128493501e-05,
      "loss": 0.3979,
      "step": 2610
    },
    {
      "epoch": 0.12576201219219507,
      "grad_norm": 3.076627492904663,
      "learning_rate": 5.969594810309284e-05,
      "loss": 0.4454,
      "step": 2620
    },
    {
      "epoch": 0.12624201987231795,
      "grad_norm": 2.651093006134033,
      "learning_rate": 5.929569862042631e-05,
      "loss": 0.4112,
      "step": 2630
    },
    {
      "epoch": 0.12672202755244083,
      "grad_norm": 3.1747634410858154,
      "learning_rate": 5.889558085403911e-05,
      "loss": 0.3534,
      "step": 2640
    },
    {
      "epoch": 0.1272020352325637,
      "grad_norm": 2.6014153957366943,
      "learning_rate": 5.849561125120545e-05,
      "loss": 0.4378,
      "step": 2650
    },
    {
      "epoch": 0.12768204291268662,
      "grad_norm": 2.431269645690918,
      "learning_rate": 5.809580625310912e-05,
      "loss": 0.4231,
      "step": 2660
    },
    {
      "epoch": 0.1281620505928095,
      "grad_norm": 2.9507458209991455,
      "learning_rate": 5.769618229416773e-05,
      "loss": 0.4853,
      "step": 2670
    },
    {
      "epoch": 0.12864205827293237,
      "grad_norm": 2.2027647495269775,
      "learning_rate": 5.7296755801356926e-05,
      "loss": 0.3994,
      "step": 2680
    },
    {
      "epoch": 0.12912206595305525,
      "grad_norm": 3.082066535949707,
      "learning_rate": 5.6897543193535414e-05,
      "loss": 0.4034,
      "step": 2690
    },
    {
      "epoch": 0.12960207363317813,
      "grad_norm": 2.181668758392334,
      "learning_rate": 5.649856088076989e-05,
      "loss": 0.3602,
      "step": 2700
    },
    {
      "epoch": 0.12960207363317813,
      "eval_loss": 0.3923640251159668,
      "eval_runtime": 58.5767,
      "eval_samples_per_second": 8.536,
      "eval_steps_per_second": 8.536,
      "step": 2700
    },
    {
      "epoch": 0.130082081313301,
      "grad_norm": 5.291566848754883,
      "learning_rate": 5.609982526366054e-05,
      "loss": 0.4421,
      "step": 2710
    },
    {
      "epoch": 0.1305620889934239,
      "grad_norm": 3.109696626663208,
      "learning_rate": 5.570135273266683e-05,
      "loss": 0.3627,
      "step": 2720
    },
    {
      "epoch": 0.13104209667354677,
      "grad_norm": 3.31439471244812,
      "learning_rate": 5.53031596674338e-05,
      "loss": 0.3116,
      "step": 2730
    },
    {
      "epoch": 0.13152210435366965,
      "grad_norm": 3.7352068424224854,
      "learning_rate": 5.490526243611873e-05,
      "loss": 0.473,
      "step": 2740
    },
    {
      "epoch": 0.13200211203379253,
      "grad_norm": 2.8093996047973633,
      "learning_rate": 5.450767739471837e-05,
      "loss": 0.3924,
      "step": 2750
    },
    {
      "epoch": 0.13248211971391544,
      "grad_norm": 3.779240131378174,
      "learning_rate": 5.411042088639655e-05,
      "loss": 0.3758,
      "step": 2760
    },
    {
      "epoch": 0.13296212739403832,
      "grad_norm": 2.9588847160339355,
      "learning_rate": 5.371350924081234e-05,
      "loss": 0.52,
      "step": 2770
    },
    {
      "epoch": 0.1334421350741612,
      "grad_norm": 3.544367551803589,
      "learning_rate": 5.331695877344888e-05,
      "loss": 0.3354,
      "step": 2780
    },
    {
      "epoch": 0.13392214275428407,
      "grad_norm": 4.774150371551514,
      "learning_rate": 5.292078578494275e-05,
      "loss": 0.4077,
      "step": 2790
    },
    {
      "epoch": 0.13440215043440695,
      "grad_norm": 3.1573004722595215,
      "learning_rate": 5.2525006560413816e-05,
      "loss": 0.413,
      "step": 2800
    },
    {
      "epoch": 0.13488215811452983,
      "grad_norm": 2.6079556941986084,
      "learning_rate": 5.212963736879578e-05,
      "loss": 0.4531,
      "step": 2810
    },
    {
      "epoch": 0.1353621657946527,
      "grad_norm": 4.687212944030762,
      "learning_rate": 5.173469446216757e-05,
      "loss": 0.4227,
      "step": 2820
    },
    {
      "epoch": 0.1358421734747756,
      "grad_norm": 2.6594161987304688,
      "learning_rate": 5.134019407508521e-05,
      "loss": 0.4175,
      "step": 2830
    },
    {
      "epoch": 0.13632218115489847,
      "grad_norm": 2.729649305343628,
      "learning_rate": 5.0946152423914456e-05,
      "loss": 0.3897,
      "step": 2840
    },
    {
      "epoch": 0.13680218883502135,
      "grad_norm": 2.4435248374938965,
      "learning_rate": 5.0552585706164246e-05,
      "loss": 0.3896,
      "step": 2850
    },
    {
      "epoch": 0.13680218883502135,
      "eval_loss": 0.37911713123321533,
      "eval_runtime": 59.0438,
      "eval_samples_per_second": 8.468,
      "eval_steps_per_second": 8.468,
      "step": 2850
    },
    {
      "epoch": 0.13728219651514426,
      "grad_norm": 3.553377389907837,
      "learning_rate": 5.015951009982081e-05,
      "loss": 0.4397,
      "step": 2860
    },
    {
      "epoch": 0.13776220419526714,
      "grad_norm": 2.946424961090088,
      "learning_rate": 4.976694176268278e-05,
      "loss": 0.3949,
      "step": 2870
    },
    {
      "epoch": 0.13824221187539001,
      "grad_norm": 5.494218349456787,
      "learning_rate": 4.937489683169692e-05,
      "loss": 0.3685,
      "step": 2880
    },
    {
      "epoch": 0.1387222195555129,
      "grad_norm": 4.4390645027160645,
      "learning_rate": 4.8983391422294786e-05,
      "loss": 0.3959,
      "step": 2890
    },
    {
      "epoch": 0.13920222723563577,
      "grad_norm": 3.203294038772583,
      "learning_rate": 4.8592441627730355e-05,
      "loss": 0.3552,
      "step": 2900
    },
    {
      "epoch": 0.13968223491575865,
      "grad_norm": 3.381826162338257,
      "learning_rate": 4.820206351841842e-05,
      "loss": 0.3927,
      "step": 2910
    },
    {
      "epoch": 0.14016224259588153,
      "grad_norm": 2.6966798305511475,
      "learning_rate": 4.781227314127405e-05,
      "loss": 0.3921,
      "step": 2920
    },
    {
      "epoch": 0.1406422502760044,
      "grad_norm": 3.0251457691192627,
      "learning_rate": 4.7423086519052966e-05,
      "loss": 0.3313,
      "step": 2930
    },
    {
      "epoch": 0.1411222579561273,
      "grad_norm": 3.5906548500061035,
      "learning_rate": 4.703451964969287e-05,
      "loss": 0.3781,
      "step": 2940
    },
    {
      "epoch": 0.14160226563625017,
      "grad_norm": 5.123362064361572,
      "learning_rate": 4.66465885056558e-05,
      "loss": 0.4294,
      "step": 2950
    },
    {
      "epoch": 0.14208227331637308,
      "grad_norm": 4.508088111877441,
      "learning_rate": 4.62593090332717e-05,
      "loss": 0.3946,
      "step": 2960
    },
    {
      "epoch": 0.14256228099649595,
      "grad_norm": 1.7549320459365845,
      "learning_rate": 4.587269715208281e-05,
      "loss": 0.2938,
      "step": 2970
    },
    {
      "epoch": 0.14304228867661883,
      "grad_norm": 4.515349388122559,
      "learning_rate": 4.5486768754189305e-05,
      "loss": 0.322,
      "step": 2980
    },
    {
      "epoch": 0.1435222963567417,
      "grad_norm": 1.871363639831543,
      "learning_rate": 4.510153970359606e-05,
      "loss": 0.308,
      "step": 2990
    },
    {
      "epoch": 0.1440023040368646,
      "grad_norm": 3.683393716812134,
      "learning_rate": 4.4717025835560476e-05,
      "loss": 0.4083,
      "step": 3000
    },
    {
      "epoch": 0.1440023040368646,
      "eval_loss": 0.3693667948246002,
      "eval_runtime": 58.487,
      "eval_samples_per_second": 8.549,
      "eval_steps_per_second": 8.549,
      "step": 3000
    },
    {
      "epoch": 0.14448231171698747,
      "grad_norm": 5.007032871246338,
      "learning_rate": 4.433324295594166e-05,
      "loss": 0.4498,
      "step": 3010
    },
    {
      "epoch": 0.14496231939711035,
      "grad_norm": 2.8639771938323975,
      "learning_rate": 4.3950206840550585e-05,
      "loss": 0.3918,
      "step": 3020
    },
    {
      "epoch": 0.14544232707723323,
      "grad_norm": 2.3938939571380615,
      "learning_rate": 4.3567933234501746e-05,
      "loss": 0.4223,
      "step": 3030
    },
    {
      "epoch": 0.1459223347573561,
      "grad_norm": 2.4703192710876465,
      "learning_rate": 4.318643785156579e-05,
      "loss": 0.4172,
      "step": 3040
    },
    {
      "epoch": 0.146402342437479,
      "grad_norm": 2.8772943019866943,
      "learning_rate": 4.280573637352371e-05,
      "loss": 0.3541,
      "step": 3050
    },
    {
      "epoch": 0.1468823501176019,
      "grad_norm": 3.1791090965270996,
      "learning_rate": 4.242584444952216e-05,
      "loss": 0.3628,
      "step": 3060
    },
    {
      "epoch": 0.14736235779772477,
      "grad_norm": 4.1454033851623535,
      "learning_rate": 4.204677769543019e-05,
      "loss": 0.4002,
      "step": 3070
    },
    {
      "epoch": 0.14784236547784765,
      "grad_norm": 2.851649522781372,
      "learning_rate": 4.16685516931974e-05,
      "loss": 0.366,
      "step": 3080
    },
    {
      "epoch": 0.14832237315797053,
      "grad_norm": 3.5000698566436768,
      "learning_rate": 4.1291181990213286e-05,
      "loss": 0.3633,
      "step": 3090
    },
    {
      "epoch": 0.1488023808380934,
      "grad_norm": 2.8707525730133057,
      "learning_rate": 4.0914684098668286e-05,
      "loss": 0.3808,
      "step": 3100
    },
    {
      "epoch": 0.1492823885182163,
      "grad_norm": 2.871223211288452,
      "learning_rate": 4.053907349491608e-05,
      "loss": 0.3679,
      "step": 3110
    },
    {
      "epoch": 0.14976239619833917,
      "grad_norm": 3.3718671798706055,
      "learning_rate": 4.016436561883746e-05,
      "loss": 0.3026,
      "step": 3120
    },
    {
      "epoch": 0.15024240387846205,
      "grad_norm": 6.084205627441406,
      "learning_rate": 3.979057587320554e-05,
      "loss": 0.347,
      "step": 3130
    },
    {
      "epoch": 0.15072241155858493,
      "grad_norm": 3.9910521507263184,
      "learning_rate": 3.941771962305274e-05,
      "loss": 0.3472,
      "step": 3140
    },
    {
      "epoch": 0.1512024192387078,
      "grad_norm": 3.010133981704712,
      "learning_rate": 3.9045812195039125e-05,
      "loss": 0.3381,
      "step": 3150
    },
    {
      "epoch": 0.1512024192387078,
      "eval_loss": 0.3589511811733246,
      "eval_runtime": 58.4768,
      "eval_samples_per_second": 8.55,
      "eval_steps_per_second": 8.55,
      "step": 3150
    },
    {
      "epoch": 0.15168242691883072,
      "grad_norm": 3.0139544010162354,
      "learning_rate": 3.8674868876822395e-05,
      "loss": 0.4064,
      "step": 3160
    },
    {
      "epoch": 0.1521624345989536,
      "grad_norm": 2.6931724548339844,
      "learning_rate": 3.83049049164295e-05,
      "loss": 0.3806,
      "step": 3170
    },
    {
      "epoch": 0.15264244227907647,
      "grad_norm": 2.2703590393066406,
      "learning_rate": 3.793593552162978e-05,
      "loss": 0.3222,
      "step": 3180
    },
    {
      "epoch": 0.15312244995919935,
      "grad_norm": 2.86641788482666,
      "learning_rate": 3.75679758593099e-05,
      "loss": 0.3477,
      "step": 3190
    },
    {
      "epoch": 0.15360245763932223,
      "grad_norm": 2.931807279586792,
      "learning_rate": 3.720104105485039e-05,
      "loss": 0.3743,
      "step": 3200
    },
    {
      "epoch": 0.1540824653194451,
      "grad_norm": 2.605625867843628,
      "learning_rate": 3.6835146191503885e-05,
      "loss": 0.3429,
      "step": 3210
    },
    {
      "epoch": 0.154562472999568,
      "grad_norm": 3.0833637714385986,
      "learning_rate": 3.647030630977508e-05,
      "loss": 0.3823,
      "step": 3220
    },
    {
      "epoch": 0.15504248067969087,
      "grad_norm": 3.706390142440796,
      "learning_rate": 3.6106536406802524e-05,
      "loss": 0.3677,
      "step": 3230
    },
    {
      "epoch": 0.15552248835981375,
      "grad_norm": 2.6492786407470703,
      "learning_rate": 3.5743851435742176e-05,
      "loss": 0.3509,
      "step": 3240
    },
    {
      "epoch": 0.15600249603993663,
      "grad_norm": 5.450740814208984,
      "learning_rate": 3.538226630515262e-05,
      "loss": 0.3572,
      "step": 3250
    },
    {
      "epoch": 0.15648250372005953,
      "grad_norm": 3.204569101333618,
      "learning_rate": 3.502179587838238e-05,
      "loss": 0.4409,
      "step": 3260
    },
    {
      "epoch": 0.15696251140018241,
      "grad_norm": 2.0579209327697754,
      "learning_rate": 3.46624549729588e-05,
      "loss": 0.3709,
      "step": 3270
    },
    {
      "epoch": 0.1574425190803053,
      "grad_norm": 3.958564281463623,
      "learning_rate": 3.430425835997908e-05,
      "loss": 0.3172,
      "step": 3280
    },
    {
      "epoch": 0.15792252676042817,
      "grad_norm": 6.231313705444336,
      "learning_rate": 3.394722076350302e-05,
      "loss": 0.3483,
      "step": 3290
    },
    {
      "epoch": 0.15840253444055105,
      "grad_norm": 5.215651988983154,
      "learning_rate": 3.359135685994781e-05,
      "loss": 0.3859,
      "step": 3300
    },
    {
      "epoch": 0.15840253444055105,
      "eval_loss": 0.34941160678863525,
      "eval_runtime": 58.4826,
      "eval_samples_per_second": 8.55,
      "eval_steps_per_second": 8.55,
      "step": 3300
    },
    {
      "epoch": 0.15888254212067393,
      "grad_norm": 4.118824481964111,
      "learning_rate": 3.3236681277484654e-05,
      "loss": 0.3662,
      "step": 3310
    },
    {
      "epoch": 0.1593625498007968,
      "grad_norm": 2.249922513961792,
      "learning_rate": 3.2883208595437584e-05,
      "loss": 0.3477,
      "step": 3320
    },
    {
      "epoch": 0.1598425574809197,
      "grad_norm": 2.074272871017456,
      "learning_rate": 3.2530953343684136e-05,
      "loss": 0.3352,
      "step": 3330
    },
    {
      "epoch": 0.16032256516104257,
      "grad_norm": 2.9395573139190674,
      "learning_rate": 3.217993000205799e-05,
      "loss": 0.304,
      "step": 3340
    },
    {
      "epoch": 0.16080257284116545,
      "grad_norm": 2.321167230606079,
      "learning_rate": 3.1830152999753903e-05,
      "loss": 0.3599,
      "step": 3350
    },
    {
      "epoch": 0.16128258052128833,
      "grad_norm": 2.7905542850494385,
      "learning_rate": 3.148163671473439e-05,
      "loss": 0.3417,
      "step": 3360
    },
    {
      "epoch": 0.16176258820141123,
      "grad_norm": 2.215144157409668,
      "learning_rate": 3.113439547313892e-05,
      "loss": 0.3357,
      "step": 3370
    },
    {
      "epoch": 0.1622425958815341,
      "grad_norm": 3.1253457069396973,
      "learning_rate": 3.0788443548694874e-05,
      "loss": 0.2863,
      "step": 3380
    },
    {
      "epoch": 0.162722603561657,
      "grad_norm": 6.441190242767334,
      "learning_rate": 3.0443795162130876e-05,
      "loss": 0.2876,
      "step": 3390
    },
    {
      "epoch": 0.16320261124177987,
      "grad_norm": 5.615316390991211,
      "learning_rate": 3.0100464480592185e-05,
      "loss": 0.3654,
      "step": 3400
    },
    {
      "epoch": 0.16368261892190275,
      "grad_norm": 4.117856979370117,
      "learning_rate": 2.9758465617058404e-05,
      "loss": 0.2865,
      "step": 3410
    },
    {
      "epoch": 0.16416262660202563,
      "grad_norm": 3.8906702995300293,
      "learning_rate": 2.9417812629763285e-05,
      "loss": 0.3563,
      "step": 3420
    },
    {
      "epoch": 0.1646426342821485,
      "grad_norm": 2.2035255432128906,
      "learning_rate": 2.9078519521616894e-05,
      "loss": 0.2864,
      "step": 3430
    },
    {
      "epoch": 0.1651226419622714,
      "grad_norm": 3.510267972946167,
      "learning_rate": 2.8740600239630002e-05,
      "loss": 0.372,
      "step": 3440
    },
    {
      "epoch": 0.16560264964239427,
      "grad_norm": 4.050480365753174,
      "learning_rate": 2.8404068674340714e-05,
      "loss": 0.352,
      "step": 3450
    },
    {
      "epoch": 0.16560264964239427,
      "eval_loss": 0.3348706066608429,
      "eval_runtime": 58.5553,
      "eval_samples_per_second": 8.539,
      "eval_steps_per_second": 8.539,
      "step": 3450
    },
    {
      "epoch": 0.16608265732251715,
      "grad_norm": 2.76657772064209,
      "learning_rate": 2.80689386592436e-05,
      "loss": 0.3494,
      "step": 3460
    },
    {
      "epoch": 0.16656266500264005,
      "grad_norm": 2.3076162338256836,
      "learning_rate": 2.7735223970220955e-05,
      "loss": 0.3191,
      "step": 3470
    },
    {
      "epoch": 0.16704267268276293,
      "grad_norm": 3.4486420154571533,
      "learning_rate": 2.7402938324976576e-05,
      "loss": 0.3336,
      "step": 3480
    },
    {
      "epoch": 0.1675226803628858,
      "grad_norm": 6.087738037109375,
      "learning_rate": 2.70720953824719e-05,
      "loss": 0.3769,
      "step": 3490
    },
    {
      "epoch": 0.1680026880430087,
      "grad_norm": 2.459850311279297,
      "learning_rate": 2.674270874236441e-05,
      "loss": 0.2674,
      "step": 3500
    },
    {
      "epoch": 0.16848269572313157,
      "grad_norm": 2.8949551582336426,
      "learning_rate": 2.64147919444488e-05,
      "loss": 0.2561,
      "step": 3510
    },
    {
      "epoch": 0.16896270340325445,
      "grad_norm": 2.76967716217041,
      "learning_rate": 2.6088358468100247e-05,
      "loss": 0.3032,
      "step": 3520
    },
    {
      "epoch": 0.16944271108337733,
      "grad_norm": 4.239372730255127,
      "learning_rate": 2.5763421731720435e-05,
      "loss": 0.3858,
      "step": 3530
    },
    {
      "epoch": 0.1699227187635002,
      "grad_norm": 3.245464324951172,
      "learning_rate": 2.5439995092185892e-05,
      "loss": 0.3358,
      "step": 3540
    },
    {
      "epoch": 0.1704027264436231,
      "grad_norm": 3.559699535369873,
      "learning_rate": 2.5118091844299e-05,
      "loss": 0.3003,
      "step": 3550
    },
    {
      "epoch": 0.17088273412374597,
      "grad_norm": 3.8714003562927246,
      "learning_rate": 2.479772522024147e-05,
      "loss": 0.2922,
      "step": 3560
    },
    {
      "epoch": 0.17136274180386887,
      "grad_norm": 5.446683883666992,
      "learning_rate": 2.4478908389030427e-05,
      "loss": 0.3873,
      "step": 3570
    },
    {
      "epoch": 0.17184274948399175,
      "grad_norm": 2.6982548236846924,
      "learning_rate": 2.41616544559771e-05,
      "loss": 0.3504,
      "step": 3580
    },
    {
      "epoch": 0.17232275716411463,
      "grad_norm": 3.615530252456665,
      "learning_rate": 2.3845976462148033e-05,
      "loss": 0.3238,
      "step": 3590
    },
    {
      "epoch": 0.1728027648442375,
      "grad_norm": 2.830989360809326,
      "learning_rate": 2.3531887383829157e-05,
      "loss": 0.3218,
      "step": 3600
    },
    {
      "epoch": 0.1728027648442375,
      "eval_loss": 0.32198333740234375,
      "eval_runtime": 59.2995,
      "eval_samples_per_second": 8.432,
      "eval_steps_per_second": 8.432,
      "step": 3600
    },
    {
      "epoch": 0.1732827725243604,
      "grad_norm": 3.306926727294922,
      "learning_rate": 2.3219400131992273e-05,
      "loss": 0.2855,
      "step": 3610
    },
    {
      "epoch": 0.17376278020448327,
      "grad_norm": 2.0338985919952393,
      "learning_rate": 2.2908527551764404e-05,
      "loss": 0.3647,
      "step": 3620
    },
    {
      "epoch": 0.17424278788460615,
      "grad_norm": 3.8381385803222656,
      "learning_rate": 2.259928242189966e-05,
      "loss": 0.2952,
      "step": 3630
    },
    {
      "epoch": 0.17472279556472903,
      "grad_norm": 2.901599168777466,
      "learning_rate": 2.2291677454254136e-05,
      "loss": 0.3666,
      "step": 3640
    },
    {
      "epoch": 0.1752028032448519,
      "grad_norm": 4.596076011657715,
      "learning_rate": 2.1985725293263237e-05,
      "loss": 0.3657,
      "step": 3650
    },
    {
      "epoch": 0.17568281092497479,
      "grad_norm": 3.476571798324585,
      "learning_rate": 2.1681438515421953e-05,
      "loss": 0.3668,
      "step": 3660
    },
    {
      "epoch": 0.1761628186050977,
      "grad_norm": 4.209902763366699,
      "learning_rate": 2.1378829628767965e-05,
      "loss": 0.3346,
      "step": 3670
    },
    {
      "epoch": 0.17664282628522057,
      "grad_norm": 2.9437255859375,
      "learning_rate": 2.1077911072367317e-05,
      "loss": 0.3717,
      "step": 3680
    },
    {
      "epoch": 0.17712283396534345,
      "grad_norm": 3.4942681789398193,
      "learning_rate": 2.077869521580325e-05,
      "loss": 0.3213,
      "step": 3690
    },
    {
      "epoch": 0.17760284164546633,
      "grad_norm": 2.7851319313049316,
      "learning_rate": 2.0481194358667695e-05,
      "loss": 0.326,
      "step": 3700
    },
    {
      "epoch": 0.1780828493255892,
      "grad_norm": 2.318816661834717,
      "learning_rate": 2.018542073005567e-05,
      "loss": 0.2386,
      "step": 3710
    },
    {
      "epoch": 0.1785628570057121,
      "grad_norm": 4.790835380554199,
      "learning_rate": 1.9891386488062538e-05,
      "loss": 0.3298,
      "step": 3720
    },
    {
      "epoch": 0.17904286468583497,
      "grad_norm": 3.003864288330078,
      "learning_rate": 1.959910371928436e-05,
      "loss": 0.3036,
      "step": 3730
    },
    {
      "epoch": 0.17952287236595785,
      "grad_norm": 3.6937813758850098,
      "learning_rate": 1.930858443832096e-05,
      "loss": 0.3257,
      "step": 3740
    },
    {
      "epoch": 0.18000288004608073,
      "grad_norm": 2.4524779319763184,
      "learning_rate": 1.90198405872821e-05,
      "loss": 0.2489,
      "step": 3750
    },
    {
      "epoch": 0.18000288004608073,
      "eval_loss": 0.3097589910030365,
      "eval_runtime": 58.8527,
      "eval_samples_per_second": 8.496,
      "eval_steps_per_second": 8.496,
      "step": 3750
    },
    {
      "epoch": 0.1804828877262036,
      "grad_norm": 3.0997090339660645,
      "learning_rate": 1.8732884035296582e-05,
      "loss": 0.3158,
      "step": 3760
    },
    {
      "epoch": 0.1809628954063265,
      "grad_norm": 3.3910298347473145,
      "learning_rate": 1.844772657802428e-05,
      "loss": 0.3072,
      "step": 3770
    },
    {
      "epoch": 0.1814429030864494,
      "grad_norm": 2.963696241378784,
      "learning_rate": 1.8164379937171382e-05,
      "loss": 0.3446,
      "step": 3780
    },
    {
      "epoch": 0.18192291076657227,
      "grad_norm": 3.438021183013916,
      "learning_rate": 1.7882855760008547e-05,
      "loss": 0.3559,
      "step": 3790
    },
    {
      "epoch": 0.18240291844669515,
      "grad_norm": 3.522576332092285,
      "learning_rate": 1.760316561889203e-05,
      "loss": 0.3142,
      "step": 3800
    },
    {
      "epoch": 0.18288292612681803,
      "grad_norm": 5.726412296295166,
      "learning_rate": 1.7325321010788034e-05,
      "loss": 0.3545,
      "step": 3810
    },
    {
      "epoch": 0.1833629338069409,
      "grad_norm": 4.017523765563965,
      "learning_rate": 1.7049333356800167e-05,
      "loss": 0.2676,
      "step": 3820
    },
    {
      "epoch": 0.1838429414870638,
      "grad_norm": 2.720475912094116,
      "learning_rate": 1.6775214001699914e-05,
      "loss": 0.228,
      "step": 3830
    },
    {
      "epoch": 0.18432294916718667,
      "grad_norm": 2.651834487915039,
      "learning_rate": 1.6502974213460316e-05,
      "loss": 0.2904,
      "step": 3840
    },
    {
      "epoch": 0.18480295684730955,
      "grad_norm": 2.7078797817230225,
      "learning_rate": 1.623262518279279e-05,
      "loss": 0.3321,
      "step": 3850
    },
    {
      "epoch": 0.18528296452743243,
      "grad_norm": 2.134697437286377,
      "learning_rate": 1.596417802268707e-05,
      "loss": 0.3207,
      "step": 3860
    },
    {
      "epoch": 0.18576297220755533,
      "grad_norm": 3.4199700355529785,
      "learning_rate": 1.5697643767954488e-05,
      "loss": 0.4144,
      "step": 3870
    },
    {
      "epoch": 0.1862429798876782,
      "grad_norm": 2.0013465881347656,
      "learning_rate": 1.543303337477432e-05,
      "loss": 0.2531,
      "step": 3880
    },
    {
      "epoch": 0.1867229875678011,
      "grad_norm": 3.5888071060180664,
      "learning_rate": 1.517035772024343e-05,
      "loss": 0.2997,
      "step": 3890
    },
    {
      "epoch": 0.18720299524792397,
      "grad_norm": 2.348407745361328,
      "learning_rate": 1.49096276019291e-05,
      "loss": 0.3271,
      "step": 3900
    },
    {
      "epoch": 0.18720299524792397,
      "eval_loss": 0.30286359786987305,
      "eval_runtime": 58.6635,
      "eval_samples_per_second": 8.523,
      "eval_steps_per_second": 8.523,
      "step": 3900
    },
    {
      "epoch": 0.18768300292804685,
      "grad_norm": 6.078423500061035,
      "learning_rate": 1.4650853737425327e-05,
      "loss": 0.2696,
      "step": 3910
    },
    {
      "epoch": 0.18816301060816973,
      "grad_norm": 5.057047367095947,
      "learning_rate": 1.4394046763912122e-05,
      "loss": 0.2896,
      "step": 3920
    },
    {
      "epoch": 0.1886430182882926,
      "grad_norm": 3.9429399967193604,
      "learning_rate": 1.413921723771832e-05,
      "loss": 0.2934,
      "step": 3930
    },
    {
      "epoch": 0.1891230259684155,
      "grad_norm": 2.4955875873565674,
      "learning_rate": 1.3886375633887665e-05,
      "loss": 0.2848,
      "step": 3940
    },
    {
      "epoch": 0.18960303364853837,
      "grad_norm": 2.598099708557129,
      "learning_rate": 1.3635532345748137e-05,
      "loss": 0.315,
      "step": 3950
    },
    {
      "epoch": 0.19008304132866125,
      "grad_norm": 7.6923136711120605,
      "learning_rate": 1.3386697684484853e-05,
      "loss": 0.3329,
      "step": 3960
    },
    {
      "epoch": 0.19056304900878415,
      "grad_norm": 3.6764438152313232,
      "learning_rate": 1.3139881878716107e-05,
      "loss": 0.3046,
      "step": 3970
    },
    {
      "epoch": 0.19104305668890703,
      "grad_norm": 2.745327949523926,
      "learning_rate": 1.2895095074072986e-05,
      "loss": 0.25,
      "step": 3980
    },
    {
      "epoch": 0.1915230643690299,
      "grad_norm": 3.1440889835357666,
      "learning_rate": 1.2652347332782227e-05,
      "loss": 0.237,
      "step": 3990
    },
    {
      "epoch": 0.1920030720491528,
      "grad_norm": 3.897568941116333,
      "learning_rate": 1.2411648633252719e-05,
      "loss": 0.3421,
      "step": 4000
    },
    {
      "epoch": 0.19248307972927567,
      "grad_norm": 2.158374547958374,
      "learning_rate": 1.2173008869665241e-05,
      "loss": 0.344,
      "step": 4010
    },
    {
      "epoch": 0.19296308740939855,
      "grad_norm": 4.802304267883301,
      "learning_rate": 1.1936437851565791e-05,
      "loss": 0.291,
      "step": 4020
    },
    {
      "epoch": 0.19344309508952143,
      "grad_norm": 2.874224901199341,
      "learning_rate": 1.1701945303462337e-05,
      "loss": 0.3023,
      "step": 4030
    },
    {
      "epoch": 0.1939231027696443,
      "grad_norm": 1.888147234916687,
      "learning_rate": 1.146954086442508e-05,
      "loss": 0.2918,
      "step": 4040
    },
    {
      "epoch": 0.19440311044976719,
      "grad_norm": 4.50795316696167,
      "learning_rate": 1.1239234087690252e-05,
      "loss": 0.3324,
      "step": 4050
    },
    {
      "epoch": 0.19440311044976719,
      "eval_loss": 0.2982572019100189,
      "eval_runtime": 58.5887,
      "eval_samples_per_second": 8.534,
      "eval_steps_per_second": 8.534,
      "step": 4050
    },
    {
      "epoch": 0.19488311812989006,
      "grad_norm": 3.4184353351593018,
      "learning_rate": 1.1011034440267395e-05,
      "loss": 0.347,
      "step": 4060
    },
    {
      "epoch": 0.19536312581001297,
      "grad_norm": 2.54697585105896,
      "learning_rate": 1.078495130255023e-05,
      "loss": 0.3424,
      "step": 4070
    },
    {
      "epoch": 0.19584313349013585,
      "grad_norm": 4.850045204162598,
      "learning_rate": 1.0560993967931004e-05,
      "loss": 0.2819,
      "step": 4080
    },
    {
      "epoch": 0.19632314117025873,
      "grad_norm": 3.808262825012207,
      "learning_rate": 1.0339171642418585e-05,
      "loss": 0.3736,
      "step": 4090
    },
    {
      "epoch": 0.1968031488503816,
      "grad_norm": 3.0230143070220947,
      "learning_rate": 1.0119493444259963e-05,
      "loss": 0.2981,
      "step": 4100
    },
    {
      "epoch": 0.1972831565305045,
      "grad_norm": 2.251572370529175,
      "learning_rate": 9.901968403565428e-06,
      "loss": 0.2662,
      "step": 4110
    },
    {
      "epoch": 0.19776316421062737,
      "grad_norm": 3.854865074157715,
      "learning_rate": 9.686605461937441e-06,
      "loss": 0.3234,
      "step": 4120
    },
    {
      "epoch": 0.19824317189075025,
      "grad_norm": 3.039104461669922,
      "learning_rate": 9.473413472102982e-06,
      "loss": 0.204,
      "step": 4130
    },
    {
      "epoch": 0.19872317957087313,
      "grad_norm": 3.419316291809082,
      "learning_rate": 9.262401197549744e-06,
      "loss": 0.3423,
      "step": 4140
    },
    {
      "epoch": 0.199203187250996,
      "grad_norm": 3.522118330001831,
      "learning_rate": 9.05357731216587e-06,
      "loss": 0.3127,
      "step": 4150
    },
    {
      "epoch": 0.19968319493111888,
      "grad_norm": 3.8798394203186035,
      "learning_rate": 8.846950399883368e-06,
      "loss": 0.3139,
      "step": 4160
    },
    {
      "epoch": 0.2001632026112418,
      "grad_norm": 3.88971209526062,
      "learning_rate": 8.64252895432531e-06,
      "loss": 0.286,
      "step": 4170
    },
    {
      "epoch": 0.20064321029136467,
      "grad_norm": 2.496060609817505,
      "learning_rate": 8.440321378456656e-06,
      "loss": 0.3175,
      "step": 4180
    },
    {
      "epoch": 0.20112321797148755,
      "grad_norm": 2.525784969329834,
      "learning_rate": 8.240335984238844e-06,
      "loss": 0.4111,
      "step": 4190
    },
    {
      "epoch": 0.20160322565161043,
      "grad_norm": 3.336019277572632,
      "learning_rate": 8.042580992288163e-06,
      "loss": 0.3035,
      "step": 4200
    },
    {
      "epoch": 0.20160322565161043,
      "eval_loss": 0.29472529888153076,
      "eval_runtime": 58.6332,
      "eval_samples_per_second": 8.528,
      "eval_steps_per_second": 8.528,
      "step": 4200
    },
    {
      "epoch": 0.2020832333317333,
      "grad_norm": 3.3140437602996826,
      "learning_rate": 7.847064531537774e-06,
      "loss": 0.2482,
      "step": 4210
    },
    {
      "epoch": 0.2025632410118562,
      "grad_norm": 3.96962308883667,
      "learning_rate": 7.653794638903574e-06,
      "loss": 0.2482,
      "step": 4220
    },
    {
      "epoch": 0.20304324869197907,
      "grad_norm": 2.8324427604675293,
      "learning_rate": 7.462779258953875e-06,
      "loss": 0.2867,
      "step": 4230
    },
    {
      "epoch": 0.20352325637210195,
      "grad_norm": 3.961003065109253,
      "learning_rate": 7.274026243582796e-06,
      "loss": 0.331,
      "step": 4240
    },
    {
      "epoch": 0.20400326405222483,
      "grad_norm": 3.1105191707611084,
      "learning_rate": 7.087543351687493e-06,
      "loss": 0.3139,
      "step": 4250
    },
    {
      "epoch": 0.2044832717323477,
      "grad_norm": 4.774364948272705,
      "learning_rate": 6.903338248849269e-06,
      "loss": 0.2672,
      "step": 4260
    },
    {
      "epoch": 0.2049632794124706,
      "grad_norm": 4.898364067077637,
      "learning_rate": 6.7214185070183925e-06,
      "loss": 0.3187,
      "step": 4270
    },
    {
      "epoch": 0.2054432870925935,
      "grad_norm": 3.382762908935547,
      "learning_rate": 6.541791604202936e-06,
      "loss": 0.2745,
      "step": 4280
    },
    {
      "epoch": 0.20592329477271637,
      "grad_norm": 4.075749397277832,
      "learning_rate": 6.364464924161311e-06,
      "loss": 0.2793,
      "step": 4290
    },
    {
      "epoch": 0.20640330245283925,
      "grad_norm": 2.4291791915893555,
      "learning_rate": 6.1894457560988106e-06,
      "loss": 0.2689,
      "step": 4300
    },
    {
      "epoch": 0.20688331013296213,
      "grad_norm": 3.243551731109619,
      "learning_rate": 6.016741294367911e-06,
      "loss": 0.2638,
      "step": 4310
    },
    {
      "epoch": 0.207363317813085,
      "grad_norm": 4.304534435272217,
      "learning_rate": 5.846358638172615e-06,
      "loss": 0.2238,
      "step": 4320
    },
    {
      "epoch": 0.2078433254932079,
      "grad_norm": 3.355321168899536,
      "learning_rate": 5.678304791276567e-06,
      "loss": 0.3717,
      "step": 4330
    },
    {
      "epoch": 0.20832333317333077,
      "grad_norm": 4.73438024520874,
      "learning_rate": 5.51258666171519e-06,
      "loss": 0.2979,
      "step": 4340
    },
    {
      "epoch": 0.20880334085345365,
      "grad_norm": 3.2123448848724365,
      "learning_rate": 5.349211061511726e-06,
      "loss": 0.2839,
      "step": 4350
    },
    {
      "epoch": 0.20880334085345365,
      "eval_loss": 0.2907501757144928,
      "eval_runtime": 58.5018,
      "eval_samples_per_second": 8.547,
      "eval_steps_per_second": 8.547,
      "step": 4350
    },
    {
      "epoch": 0.20928334853357652,
      "grad_norm": 3.2625508308410645,
      "learning_rate": 5.188184706397182e-06,
      "loss": 0.3237,
      "step": 4360
    },
    {
      "epoch": 0.20976335621369943,
      "grad_norm": 3.3690743446350098,
      "learning_rate": 5.029514215534339e-06,
      "loss": 0.2618,
      "step": 4370
    },
    {
      "epoch": 0.2102433638938223,
      "grad_norm": 2.842801809310913,
      "learning_rate": 4.873206111245594e-06,
      "loss": 0.2741,
      "step": 4380
    },
    {
      "epoch": 0.2107233715739452,
      "grad_norm": 2.964170217514038,
      "learning_rate": 4.719266818744912e-06,
      "loss": 0.3275,
      "step": 4390
    },
    {
      "epoch": 0.21120337925406807,
      "grad_norm": 3.9628493785858154,
      "learning_rate": 4.567702665873648e-06,
      "loss": 0.3655,
      "step": 4400
    },
    {
      "epoch": 0.21168338693419095,
      "grad_norm": 3.524263858795166,
      "learning_rate": 4.418519882840505e-06,
      "loss": 0.2857,
      "step": 4410
    },
    {
      "epoch": 0.21216339461431383,
      "grad_norm": 3.130453586578369,
      "learning_rate": 4.271724601965371e-06,
      "loss": 0.2856,
      "step": 4420
    },
    {
      "epoch": 0.2126434022944367,
      "grad_norm": 3.5526905059814453,
      "learning_rate": 4.127322857427306e-06,
      "loss": 0.333,
      "step": 4430
    },
    {
      "epoch": 0.21312340997455959,
      "grad_norm": 3.921840190887451,
      "learning_rate": 3.985320585016425e-06,
      "loss": 0.267,
      "step": 4440
    },
    {
      "epoch": 0.21360341765468246,
      "grad_norm": 4.916518211364746,
      "learning_rate": 3.845723621889973e-06,
      "loss": 0.3071,
      "step": 4450
    },
    {
      "epoch": 0.21408342533480534,
      "grad_norm": 4.451087474822998,
      "learning_rate": 3.7085377063323447e-06,
      "loss": 0.3331,
      "step": 4460
    },
    {
      "epoch": 0.21456343301492825,
      "grad_norm": 2.70204496383667,
      "learning_rate": 3.5737684775191887e-06,
      "loss": 0.2552,
      "step": 4470
    },
    {
      "epoch": 0.21504344069505113,
      "grad_norm": 2.3038392066955566,
      "learning_rate": 3.441421475285679e-06,
      "loss": 0.2878,
      "step": 4480
    },
    {
      "epoch": 0.215523448375174,
      "grad_norm": 2.877255439758301,
      "learning_rate": 3.3115021398986768e-06,
      "loss": 0.2913,
      "step": 4490
    },
    {
      "epoch": 0.2160034560552969,
      "grad_norm": 3.1212246417999268,
      "learning_rate": 3.18401581183321e-06,
      "loss": 0.3187,
      "step": 4500
    },
    {
      "epoch": 0.2160034560552969,
      "eval_loss": 0.28796806931495667,
      "eval_runtime": 58.7632,
      "eval_samples_per_second": 8.509,
      "eval_steps_per_second": 8.509,
      "step": 4500
    },
    {
      "epoch": 0.21648346373541977,
      "grad_norm": 2.2568180561065674,
      "learning_rate": 3.0589677315529044e-06,
      "loss": 0.3303,
      "step": 4510
    },
    {
      "epoch": 0.21696347141554265,
      "grad_norm": 1.5249624252319336,
      "learning_rate": 2.9363630392945513e-06,
      "loss": 0.2425,
      "step": 4520
    },
    {
      "epoch": 0.21744347909566553,
      "grad_norm": 3.24507737159729,
      "learning_rate": 2.816206774856854e-06,
      "loss": 0.3218,
      "step": 4530
    },
    {
      "epoch": 0.2179234867757884,
      "grad_norm": 2.6498897075653076,
      "learning_rate": 2.6985038773932046e-06,
      "loss": 0.3018,
      "step": 4540
    },
    {
      "epoch": 0.21840349445591128,
      "grad_norm": 3.6062984466552734,
      "learning_rate": 2.583259185208714e-06,
      "loss": 0.3245,
      "step": 4550
    },
    {
      "epoch": 0.21888350213603416,
      "grad_norm": 3.9455044269561768,
      "learning_rate": 2.4704774355612943e-06,
      "loss": 0.3494,
      "step": 4560
    },
    {
      "epoch": 0.21936350981615707,
      "grad_norm": 3.3606042861938477,
      "learning_rate": 2.3601632644669536e-06,
      "loss": 0.2402,
      "step": 4570
    },
    {
      "epoch": 0.21984351749627995,
      "grad_norm": 3.791692018508911,
      "learning_rate": 2.2523212065091723e-06,
      "loss": 0.2862,
      "step": 4580
    },
    {
      "epoch": 0.22032352517640283,
      "grad_norm": 3.0353429317474365,
      "learning_rate": 2.1469556946525706e-06,
      "loss": 0.3105,
      "step": 4590
    },
    {
      "epoch": 0.2208035328565257,
      "grad_norm": 2.7825663089752197,
      "learning_rate": 2.0440710600606595e-06,
      "loss": 0.2999,
      "step": 4600
    },
    {
      "epoch": 0.2212835405366486,
      "grad_norm": 4.424515724182129,
      "learning_rate": 1.9436715319177956e-06,
      "loss": 0.2616,
      "step": 4610
    },
    {
      "epoch": 0.22176354821677147,
      "grad_norm": 5.9417595863342285,
      "learning_rate": 1.8457612372553348e-06,
      "loss": 0.3025,
      "step": 4620
    },
    {
      "epoch": 0.22224355589689435,
      "grad_norm": 2.9893312454223633,
      "learning_rate": 1.75034420078201e-06,
      "loss": 0.2779,
      "step": 4630
    },
    {
      "epoch": 0.22272356357701723,
      "grad_norm": 2.6817049980163574,
      "learning_rate": 1.6574243447184597e-06,
      "loss": 0.3514,
      "step": 4640
    },
    {
      "epoch": 0.2232035712571401,
      "grad_norm": 5.172529697418213,
      "learning_rate": 1.567005488636024e-06,
      "loss": 0.4036,
      "step": 4650
    },
    {
      "epoch": 0.2232035712571401,
      "eval_loss": 0.2869059443473816,
      "eval_runtime": 58.4162,
      "eval_samples_per_second": 8.559,
      "eval_steps_per_second": 8.559,
      "step": 4650
    },
    {
      "epoch": 0.22368357893726298,
      "grad_norm": 3.7565789222717285,
      "learning_rate": 1.4790913492997438e-06,
      "loss": 0.2342,
      "step": 4660
    },
    {
      "epoch": 0.2241635866173859,
      "grad_norm": 3.5308356285095215,
      "learning_rate": 1.3936855405155408e-06,
      "loss": 0.2961,
      "step": 4670
    },
    {
      "epoch": 0.22464359429750877,
      "grad_norm": 4.036991119384766,
      "learning_rate": 1.3107915729816954e-06,
      "loss": 0.3566,
      "step": 4680
    },
    {
      "epoch": 0.22512360197763165,
      "grad_norm": 3.419020652770996,
      "learning_rate": 1.230412854144547e-06,
      "loss": 0.2731,
      "step": 4690
    },
    {
      "epoch": 0.22560360965775453,
      "grad_norm": 4.515079975128174,
      "learning_rate": 1.15255268805841e-06,
      "loss": 0.2842,
      "step": 4700
    },
    {
      "epoch": 0.2260836173378774,
      "grad_norm": 2.7936789989471436,
      "learning_rate": 1.0772142752497604e-06,
      "loss": 0.2828,
      "step": 4710
    },
    {
      "epoch": 0.2265636250180003,
      "grad_norm": 3.3101115226745605,
      "learning_rate": 1.004400712585646e-06,
      "loss": 0.2341,
      "step": 4720
    },
    {
      "epoch": 0.22704363269812317,
      "grad_norm": 2.844888925552368,
      "learning_rate": 9.341149931464537e-07,
      "loss": 0.2881,
      "step": 4730
    },
    {
      "epoch": 0.22752364037824604,
      "grad_norm": 2.959336996078491,
      "learning_rate": 8.663600061028162e-07,
      "loss": 0.254,
      "step": 4740
    },
    {
      "epoch": 0.22800364805836892,
      "grad_norm": 2.511077404022217,
      "learning_rate": 8.011385365968641e-07,
      "loss": 0.244,
      "step": 4750
    },
    {
      "epoch": 0.2284836557384918,
      "grad_norm": 3.7898364067077637,
      "learning_rate": 7.384532656277698e-07,
      "loss": 0.2815,
      "step": 4760
    },
    {
      "epoch": 0.2289636634186147,
      "grad_norm": 3.182013988494873,
      "learning_rate": 6.783067699414891e-07,
      "loss": 0.3224,
      "step": 4770
    },
    {
      "epoch": 0.2294436710987376,
      "grad_norm": 2.9451653957366943,
      "learning_rate": 6.207015219248866e-07,
      "loss": 0.2462,
      "step": 4780
    },
    {
      "epoch": 0.22992367877886047,
      "grad_norm": 3.063445806503296,
      "learning_rate": 5.656398895040813e-07,
      "loss": 0.2543,
      "step": 4790
    },
    {
      "epoch": 0.23040368645898335,
      "grad_norm": 5.6046295166015625,
      "learning_rate": 5.131241360471217e-07,
      "loss": 0.3163,
      "step": 4800
    },
    {
      "epoch": 0.23040368645898335,
      "eval_loss": 0.286411315202713,
      "eval_runtime": 58.5469,
      "eval_samples_per_second": 8.54,
      "eval_steps_per_second": 8.54,
      "step": 4800
    },
    {
      "epoch": 0.23088369413910623,
      "grad_norm": 2.533142566680908,
      "learning_rate": 4.631564202709354e-07,
      "loss": 0.2406,
      "step": 4810
    },
    {
      "epoch": 0.2313637018192291,
      "grad_norm": 4.121405124664307,
      "learning_rate": 4.1573879615262185e-07,
      "loss": 0.3299,
      "step": 4820
    },
    {
      "epoch": 0.23184370949935199,
      "grad_norm": 3.180882692337036,
      "learning_rate": 3.708732128449785e-07,
      "loss": 0.2955,
      "step": 4830
    },
    {
      "epoch": 0.23232371717947486,
      "grad_norm": 3.9235122203826904,
      "learning_rate": 3.2856151459641216e-07,
      "loss": 0.3339,
      "step": 4840
    },
    {
      "epoch": 0.23280372485959774,
      "grad_norm": 2.4345338344573975,
      "learning_rate": 2.888054406751106e-07,
      "loss": 0.3449,
      "step": 4850
    },
    {
      "epoch": 0.23328373253972062,
      "grad_norm": 5.394800186157227,
      "learning_rate": 2.5160662529755823e-07,
      "loss": 0.2772,
      "step": 4860
    },
    {
      "epoch": 0.23376374021984353,
      "grad_norm": 3.4092206954956055,
      "learning_rate": 2.169665975613605e-07,
      "loss": 0.3359,
      "step": 4870
    },
    {
      "epoch": 0.2342437478999664,
      "grad_norm": 3.6144073009490967,
      "learning_rate": 1.8488678138238456e-07,
      "loss": 0.2974,
      "step": 4880
    },
    {
      "epoch": 0.2347237555800893,
      "grad_norm": 4.016331195831299,
      "learning_rate": 1.5536849543621584e-07,
      "loss": 0.3605,
      "step": 4890
    },
    {
      "epoch": 0.23520376326021217,
      "grad_norm": 2.219320297241211,
      "learning_rate": 1.2841295310397905e-07,
      "loss": 0.2831,
      "step": 4900
    },
    {
      "epoch": 0.23568377094033505,
      "grad_norm": 4.009885311126709,
      "learning_rate": 1.0402126242244764e-07,
      "loss": 0.2937,
      "step": 4910
    },
    {
      "epoch": 0.23616377862045793,
      "grad_norm": 2.0826010704040527,
      "learning_rate": 8.219442603847605e-08,
      "loss": 0.3419,
      "step": 4920
    },
    {
      "epoch": 0.2366437863005808,
      "grad_norm": 4.8659348487854,
      "learning_rate": 6.293334116783817e-08,
      "loss": 0.2836,
      "step": 4930
    },
    {
      "epoch": 0.23712379398070368,
      "grad_norm": 3.462247133255005,
      "learning_rate": 4.623879955827082e-08,
      "loss": 0.2796,
      "step": 4940
    },
    {
      "epoch": 0.23760380166082656,
      "grad_norm": 3.8129172325134277,
      "learning_rate": 3.211148745700665e-08,
      "loss": 0.2594,
      "step": 4950
    },
    {
      "epoch": 0.23760380166082656,
      "eval_loss": 0.2861185371875763,
      "eval_runtime": 58.6534,
      "eval_samples_per_second": 8.525,
      "eval_steps_per_second": 8.525,
      "step": 4950
    }
  ],
  "logging_steps": 10,
  "max_steps": 5000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 150,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7.703271722346086e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}