{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998235190305312,
  "eval_steps": 500,
  "global_step": 4249,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0023530795929172306,
      "grad_norm": 4.500667572021484,
      "learning_rate": 0.0002992939515180042,
      "loss": 2.9988,
      "step": 10
    },
    {
      "epoch": 0.004706159185834461,
      "grad_norm": 2.7827706336975098,
      "learning_rate": 0.00029858790303600844,
      "loss": 1.0643,
      "step": 20
    },
    {
      "epoch": 0.007059238778751691,
      "grad_norm": 2.746577739715576,
      "learning_rate": 0.0002978818545540127,
      "loss": 0.7978,
      "step": 30
    },
    {
      "epoch": 0.009412318371668922,
      "grad_norm": 2.567692279815674,
      "learning_rate": 0.0002971758060720169,
      "loss": 0.6546,
      "step": 40
    },
    {
      "epoch": 0.011765397964586153,
      "grad_norm": 2.2394003868103027,
      "learning_rate": 0.00029646975759002115,
      "loss": 0.5361,
      "step": 50
    },
    {
      "epoch": 0.014118477557503383,
      "grad_norm": 2.1666100025177,
      "learning_rate": 0.0002957637091080254,
      "loss": 0.5137,
      "step": 60
    },
    {
      "epoch": 0.01647155715042061,
      "grad_norm": 1.922058343887329,
      "learning_rate": 0.0002950576606260296,
      "loss": 0.446,
      "step": 70
    },
    {
      "epoch": 0.018824636743337845,
      "grad_norm": 1.732611060142517,
      "learning_rate": 0.00029435161214403386,
      "loss": 0.4405,
      "step": 80
    },
    {
      "epoch": 0.021177716336255075,
      "grad_norm": 2.2046239376068115,
      "learning_rate": 0.0002936455636620381,
      "loss": 0.3959,
      "step": 90
    },
    {
      "epoch": 0.023530795929172305,
      "grad_norm": 2.083113670349121,
      "learning_rate": 0.0002929395151800423,
      "loss": 0.4114,
      "step": 100
    },
    {
      "epoch": 0.025883875522089535,
      "grad_norm": 1.671247124671936,
      "learning_rate": 0.00029223346669804656,
      "loss": 0.3554,
      "step": 110
    },
    {
      "epoch": 0.028236955115006766,
      "grad_norm": 2.001924514770508,
      "learning_rate": 0.0002915274182160508,
      "loss": 0.3577,
      "step": 120
    },
    {
      "epoch": 0.030590034707923996,
      "grad_norm": 2.07259202003479,
      "learning_rate": 0.00029082136973405503,
      "loss": 0.3422,
      "step": 130
    },
    {
      "epoch": 0.03294311430084122,
      "grad_norm": 1.7239247560501099,
      "learning_rate": 0.00029011532125205927,
      "loss": 0.3079,
      "step": 140
    },
    {
      "epoch": 0.03529619389375846,
      "grad_norm": 1.7430157661437988,
      "learning_rate": 0.0002894092727700635,
      "loss": 0.3304,
      "step": 150
    },
    {
      "epoch": 0.03764927348667569,
      "grad_norm": 1.1152617931365967,
      "learning_rate": 0.00028870322428806774,
      "loss": 0.3009,
      "step": 160
    },
    {
      "epoch": 0.04000235307959292,
      "grad_norm": 1.5272759199142456,
      "learning_rate": 0.00028799717580607197,
      "loss": 0.3027,
      "step": 170
    },
    {
      "epoch": 0.04235543267251015,
      "grad_norm": 1.3934285640716553,
      "learning_rate": 0.0002872911273240762,
      "loss": 0.2514,
      "step": 180
    },
    {
      "epoch": 0.04470851226542738,
      "grad_norm": 1.7138372659683228,
      "learning_rate": 0.00028658507884208044,
      "loss": 0.2556,
      "step": 190
    },
    {
      "epoch": 0.04706159185834461,
      "grad_norm": 1.7979109287261963,
      "learning_rate": 0.00028587903036008473,
      "loss": 0.2696,
      "step": 200
    },
    {
      "epoch": 0.04941467145126184,
      "grad_norm": 1.342785358428955,
      "learning_rate": 0.0002851729818780889,
      "loss": 0.2496,
      "step": 210
    },
    {
      "epoch": 0.05176775104417907,
      "grad_norm": 1.5516395568847656,
      "learning_rate": 0.0002844669333960932,
      "loss": 0.2727,
      "step": 220
    },
    {
      "epoch": 0.0541208306370963,
      "grad_norm": 6.922358989715576,
      "learning_rate": 0.0002837608849140974,
      "loss": 0.2492,
      "step": 230
    },
    {
      "epoch": 0.05647391023001353,
      "grad_norm": 1.5551228523254395,
      "learning_rate": 0.00028305483643210167,
      "loss": 0.2451,
      "step": 240
    },
    {
      "epoch": 0.05882698982293076,
      "grad_norm": 1.300445318222046,
      "learning_rate": 0.00028234878795010585,
      "loss": 0.253,
      "step": 250
    },
    {
      "epoch": 0.06118006941584799,
      "grad_norm": 1.4355467557907104,
      "learning_rate": 0.00028164273946811014,
      "loss": 0.2453,
      "step": 260
    },
    {
      "epoch": 0.06353314900876522,
      "grad_norm": 15.9704008102417,
      "learning_rate": 0.0002809366909861143,
      "loss": 0.2072,
      "step": 270
    },
    {
      "epoch": 0.06588622860168244,
      "grad_norm": 1.7124171257019043,
      "learning_rate": 0.0002802306425041186,
      "loss": 0.4367,
      "step": 280
    },
    {
      "epoch": 0.06823930819459968,
      "grad_norm": 1.6787582635879517,
      "learning_rate": 0.0002795245940221228,
      "loss": 0.2716,
      "step": 290
    },
    {
      "epoch": 0.07059238778751692,
      "grad_norm": 1.2618638277053833,
      "learning_rate": 0.0002788185455401271,
      "loss": 0.2821,
      "step": 300
    },
    {
      "epoch": 0.07294546738043414,
      "grad_norm": 2.927347421646118,
      "learning_rate": 0.00027811249705813126,
      "loss": 0.2712,
      "step": 310
    },
    {
      "epoch": 0.07529854697335138,
      "grad_norm": 1.9304898977279663,
      "learning_rate": 0.00027740644857613555,
      "loss": 0.2637,
      "step": 320
    },
    {
      "epoch": 0.0776516265662686,
      "grad_norm": 1.2599807977676392,
      "learning_rate": 0.0002767004000941398,
      "loss": 0.2389,
      "step": 330
    },
    {
      "epoch": 0.08000470615918584,
      "grad_norm": 1.4264953136444092,
      "learning_rate": 0.000275994351612144,
      "loss": 0.2143,
      "step": 340
    },
    {
      "epoch": 0.08235778575210306,
      "grad_norm": 1.4229093790054321,
      "learning_rate": 0.00027528830313014826,
      "loss": 0.2571,
      "step": 350
    },
    {
      "epoch": 0.0847108653450203,
      "grad_norm": 1.743034839630127,
      "learning_rate": 0.0002745822546481525,
      "loss": 0.2292,
      "step": 360
    },
    {
      "epoch": 0.08706394493793752,
      "grad_norm": 1.3582898378372192,
      "learning_rate": 0.00027387620616615673,
      "loss": 0.2314,
      "step": 370
    },
    {
      "epoch": 0.08941702453085476,
      "grad_norm": 1.2714539766311646,
      "learning_rate": 0.00027317015768416096,
      "loss": 0.2694,
      "step": 380
    },
    {
      "epoch": 0.09177010412377198,
      "grad_norm": 1.0213568210601807,
      "learning_rate": 0.0002724641092021652,
      "loss": 0.2269,
      "step": 390
    },
    {
      "epoch": 0.09412318371668922,
      "grad_norm": 0.8783596754074097,
      "learning_rate": 0.00027175806072016943,
      "loss": 0.2488,
      "step": 400
    },
    {
      "epoch": 0.09647626330960644,
      "grad_norm": 1.842328667640686,
      "learning_rate": 0.00027105201223817367,
      "loss": 0.2175,
      "step": 410
    },
    {
      "epoch": 0.09882934290252368,
      "grad_norm": 1.4185247421264648,
      "learning_rate": 0.0002703459637561779,
      "loss": 0.2049,
      "step": 420
    },
    {
      "epoch": 0.1011824224954409,
      "grad_norm": 1.3057924509048462,
      "learning_rate": 0.00026963991527418214,
      "loss": 0.1819,
      "step": 430
    },
    {
      "epoch": 0.10353550208835814,
      "grad_norm": 1.563916802406311,
      "learning_rate": 0.0002689338667921864,
      "loss": 0.2042,
      "step": 440
    },
    {
      "epoch": 0.10588858168127536,
      "grad_norm": 0.9588648080825806,
      "learning_rate": 0.0002682278183101906,
      "loss": 0.1977,
      "step": 450
    },
    {
      "epoch": 0.1082416612741926,
      "grad_norm": 1.3258203268051147,
      "learning_rate": 0.00026752176982819485,
      "loss": 0.1984,
      "step": 460
    },
    {
      "epoch": 0.11059474086710983,
      "grad_norm": 1.6783477067947388,
      "learning_rate": 0.0002668157213461991,
      "loss": 0.2086,
      "step": 470
    },
    {
      "epoch": 0.11294782046002706,
      "grad_norm": 1.820469617843628,
      "learning_rate": 0.0002661096728642033,
      "loss": 0.2128,
      "step": 480
    },
    {
      "epoch": 0.11530090005294429,
      "grad_norm": 1.1493395566940308,
      "learning_rate": 0.00026540362438220755,
      "loss": 0.2022,
      "step": 490
    },
    {
      "epoch": 0.11765397964586152,
      "grad_norm": 1.3134245872497559,
      "learning_rate": 0.0002646975759002118,
      "loss": 0.2199,
      "step": 500
    },
    {
      "epoch": 0.12000705923877875,
      "grad_norm": 4.0345988273620605,
      "learning_rate": 0.000263991527418216,
      "loss": 0.2181,
      "step": 510
    },
    {
      "epoch": 0.12236013883169598,
      "grad_norm": 1.7995352745056152,
      "learning_rate": 0.00026328547893622026,
      "loss": 0.2233,
      "step": 520
    },
    {
      "epoch": 0.1247132184246132,
      "grad_norm": 1.6303889751434326,
      "learning_rate": 0.0002625794304542245,
      "loss": 0.2161,
      "step": 530
    },
    {
      "epoch": 0.12706629801753044,
      "grad_norm": 1.1785417795181274,
      "learning_rate": 0.0002618733819722287,
      "loss": 0.1952,
      "step": 540
    },
    {
      "epoch": 0.12941937761044767,
      "grad_norm": 2.5084645748138428,
      "learning_rate": 0.00026116733349023296,
      "loss": 0.204,
      "step": 550
    },
    {
      "epoch": 0.1317724572033649,
      "grad_norm": 0.9784884452819824,
      "learning_rate": 0.0002604612850082372,
      "loss": 0.1598,
      "step": 560
    },
    {
      "epoch": 0.13412553679628214,
      "grad_norm": 0.8020937442779541,
      "learning_rate": 0.00025975523652624143,
      "loss": 0.2045,
      "step": 570
    },
    {
      "epoch": 0.13647861638919936,
      "grad_norm": 0.9151997566223145,
      "learning_rate": 0.00025904918804424567,
      "loss": 0.1744,
      "step": 580
    },
    {
      "epoch": 0.1388316959821166,
      "grad_norm": 1.55955171585083,
      "learning_rate": 0.0002583431395622499,
      "loss": 0.1878,
      "step": 590
    },
    {
      "epoch": 0.14118477557503384,
      "grad_norm": 23.52423858642578,
      "learning_rate": 0.0002576370910802542,
      "loss": 0.1779,
      "step": 600
    },
    {
      "epoch": 0.14353785516795106,
      "grad_norm": 1.1516189575195312,
      "learning_rate": 0.0002569310425982584,
      "loss": 0.195,
      "step": 610
    },
    {
      "epoch": 0.14589093476086828,
      "grad_norm": 1.0912541151046753,
      "learning_rate": 0.00025622499411626266,
      "loss": 0.205,
      "step": 620
    },
    {
      "epoch": 0.1482440143537855,
      "grad_norm": 1.2680310010910034,
      "learning_rate": 0.00025551894563426684,
      "loss": 0.1654,
      "step": 630
    },
    {
      "epoch": 0.15059709394670276,
      "grad_norm": 1.2099932432174683,
      "learning_rate": 0.00025481289715227113,
      "loss": 0.1698,
      "step": 640
    },
    {
      "epoch": 0.15295017353961998,
      "grad_norm": 1.1155511140823364,
      "learning_rate": 0.0002541068486702753,
      "loss": 0.1883,
      "step": 650
    },
    {
      "epoch": 0.1553032531325372,
      "grad_norm": 1.2237110137939453,
      "learning_rate": 0.0002534008001882796,
      "loss": 0.1739,
      "step": 660
    },
    {
      "epoch": 0.15765633272545443,
      "grad_norm": 2.2334392070770264,
      "learning_rate": 0.0002526947517062838,
      "loss": 0.2149,
      "step": 670
    },
    {
      "epoch": 0.16000941231837168,
      "grad_norm": 1.0051536560058594,
      "learning_rate": 0.0002519887032242881,
      "loss": 0.1755,
      "step": 680
    },
    {
      "epoch": 0.1623624919112889,
      "grad_norm": 1.5381518602371216,
      "learning_rate": 0.00025128265474229225,
      "loss": 0.1814,
      "step": 690
    },
    {
      "epoch": 0.16471557150420613,
      "grad_norm": 1.3390990495681763,
      "learning_rate": 0.00025057660626029654,
      "loss": 0.1866,
      "step": 700
    },
    {
      "epoch": 0.16706865109712335,
      "grad_norm": 1.4517531394958496,
      "learning_rate": 0.0002498705577783007,
      "loss": 0.1928,
      "step": 710
    },
    {
      "epoch": 0.1694217306900406,
      "grad_norm": 1.4081028699874878,
      "learning_rate": 0.000249164509296305,
      "loss": 0.1714,
      "step": 720
    },
    {
      "epoch": 0.17177481028295782,
      "grad_norm": 1.357934832572937,
      "learning_rate": 0.00024845846081430925,
      "loss": 0.1856,
      "step": 730
    },
    {
      "epoch": 0.17412788987587505,
      "grad_norm": 1.043090581893921,
      "learning_rate": 0.0002477524123323135,
      "loss": 0.1495,
      "step": 740
    },
    {
      "epoch": 0.17648096946879227,
      "grad_norm": 1.2053163051605225,
      "learning_rate": 0.0002470463638503177,
      "loss": 0.1517,
      "step": 750
    },
    {
      "epoch": 0.17883404906170952,
      "grad_norm": 2.3474409580230713,
      "learning_rate": 0.00024634031536832195,
      "loss": 0.1882,
      "step": 760
    },
    {
      "epoch": 0.18118712865462674,
      "grad_norm": 0.8380926847457886,
      "learning_rate": 0.0002456342668863262,
      "loss": 0.1796,
      "step": 770
    },
    {
      "epoch": 0.18354020824754397,
      "grad_norm": 1.3997254371643066,
      "learning_rate": 0.0002449282184043304,
      "loss": 0.1843,
      "step": 780
    },
    {
      "epoch": 0.1858932878404612,
      "grad_norm": 1.3143609762191772,
      "learning_rate": 0.00024422216992233466,
      "loss": 0.1629,
      "step": 790
    },
    {
      "epoch": 0.18824636743337844,
      "grad_norm": 0.9414114952087402,
      "learning_rate": 0.0002435161214403389,
      "loss": 0.1583,
      "step": 800
    },
    {
      "epoch": 0.19059944702629567,
      "grad_norm": 1.0523838996887207,
      "learning_rate": 0.0002428100729583431,
      "loss": 0.194,
      "step": 810
    },
    {
      "epoch": 0.1929525266192129,
      "grad_norm": 1.0871750116348267,
      "learning_rate": 0.00024210402447634737,
      "loss": 0.15,
      "step": 820
    },
    {
      "epoch": 0.1953056062121301,
      "grad_norm": 1.515932321548462,
      "learning_rate": 0.0002413979759943516,
      "loss": 0.1895,
      "step": 830
    },
    {
      "epoch": 0.19765868580504736,
      "grad_norm": 0.7211456298828125,
      "learning_rate": 0.00024069192751235584,
      "loss": 0.1685,
      "step": 840
    },
    {
      "epoch": 0.20001176539796459,
      "grad_norm": 0.7664592862129211,
      "learning_rate": 0.00023998587903036007,
      "loss": 0.1658,
      "step": 850
    },
    {
      "epoch": 0.2023648449908818,
      "grad_norm": 0.8728657960891724,
      "learning_rate": 0.0002392798305483643,
      "loss": 0.1468,
      "step": 860
    },
    {
      "epoch": 0.20471792458379906,
      "grad_norm": 1.3027325868606567,
      "learning_rate": 0.00023857378206636854,
      "loss": 0.1633,
      "step": 870
    },
    {
      "epoch": 0.20707100417671628,
      "grad_norm": 1.1061084270477295,
      "learning_rate": 0.00023786773358437278,
      "loss": 0.1861,
      "step": 880
    },
    {
      "epoch": 0.2094240837696335,
      "grad_norm": 1.176365613937378,
      "learning_rate": 0.000237161685102377,
      "loss": 0.1589,
      "step": 890
    },
    {
      "epoch": 0.21177716336255073,
      "grad_norm": 0.8307468295097351,
      "learning_rate": 0.00023645563662038127,
      "loss": 0.172,
      "step": 900
    },
    {
      "epoch": 0.21413024295546798,
      "grad_norm": 1.2759816646575928,
      "learning_rate": 0.00023574958813838548,
      "loss": 0.1475,
      "step": 910
    },
    {
      "epoch": 0.2164833225483852,
      "grad_norm": 1.661071538925171,
      "learning_rate": 0.00023504353965638974,
      "loss": 0.2048,
      "step": 920
    },
    {
      "epoch": 0.21883640214130243,
      "grad_norm": 1.3144210577011108,
      "learning_rate": 0.00023433749117439395,
      "loss": 0.1582,
      "step": 930
    },
    {
      "epoch": 0.22118948173421965,
      "grad_norm": 1.1830146312713623,
      "learning_rate": 0.00023363144269239821,
      "loss": 0.1567,
      "step": 940
    },
    {
      "epoch": 0.2235425613271369,
      "grad_norm": 0.7755473256111145,
      "learning_rate": 0.00023292539421040242,
      "loss": 0.1369,
      "step": 950
    },
    {
      "epoch": 0.22589564092005412,
      "grad_norm": 0.708152711391449,
      "learning_rate": 0.00023221934572840666,
      "loss": 0.1477,
      "step": 960
    },
    {
      "epoch": 0.22824872051297135,
      "grad_norm": 0.9567592144012451,
      "learning_rate": 0.0002315132972464109,
      "loss": 0.1685,
      "step": 970
    },
    {
      "epoch": 0.23060180010588857,
      "grad_norm": 1.019717812538147,
      "learning_rate": 0.00023080724876441513,
      "loss": 0.1485,
      "step": 980
    },
    {
      "epoch": 0.23295487969880582,
      "grad_norm": 3.704050302505493,
      "learning_rate": 0.00023010120028241936,
      "loss": 0.182,
      "step": 990
    },
    {
      "epoch": 0.23530795929172305,
      "grad_norm": 1.3113001585006714,
      "learning_rate": 0.0002293951518004236,
      "loss": 0.2033,
      "step": 1000
    },
    {
      "epoch": 0.23766103888464027,
      "grad_norm": 1.586300253868103,
      "learning_rate": 0.00022868910331842783,
      "loss": 0.1658,
      "step": 1010
    },
    {
      "epoch": 0.2400141184775575,
      "grad_norm": 0.7029755711555481,
      "learning_rate": 0.00022798305483643207,
      "loss": 0.1675,
      "step": 1020
    },
    {
      "epoch": 0.24236719807047474,
      "grad_norm": 0.9558175802230835,
      "learning_rate": 0.00022727700635443633,
      "loss": 0.1292,
      "step": 1030
    },
    {
      "epoch": 0.24472027766339197,
      "grad_norm": 0.552598774433136,
      "learning_rate": 0.00022657095787244054,
      "loss": 0.1271,
      "step": 1040
    },
    {
      "epoch": 0.2470733572563092,
      "grad_norm": 1.160657525062561,
      "learning_rate": 0.0002258649093904448,
      "loss": 0.1406,
      "step": 1050
    },
    {
      "epoch": 0.2494264368492264,
      "grad_norm": 0.9359754323959351,
      "learning_rate": 0.000225158860908449,
      "loss": 0.1456,
      "step": 1060
    },
    {
      "epoch": 0.25177951644214364,
      "grad_norm": 0.6799198985099792,
      "learning_rate": 0.00022445281242645327,
      "loss": 0.1235,
      "step": 1070
    },
    {
      "epoch": 0.2541325960350609,
      "grad_norm": 0.97700434923172,
      "learning_rate": 0.00022374676394445748,
      "loss": 0.1721,
      "step": 1080
    },
    {
      "epoch": 0.25648567562797814,
      "grad_norm": 0.6762118935585022,
      "learning_rate": 0.00022304071546246174,
      "loss": 0.2006,
      "step": 1090
    },
    {
      "epoch": 0.25883875522089533,
      "grad_norm": 0.6071228384971619,
      "learning_rate": 0.00022233466698046595,
      "loss": 0.1647,
      "step": 1100
    },
    {
      "epoch": 0.2611918348138126,
      "grad_norm": 0.7097590565681458,
      "learning_rate": 0.0002216286184984702,
      "loss": 0.1662,
      "step": 1110
    },
    {
      "epoch": 0.2635449144067298,
      "grad_norm": 0.48786184191703796,
      "learning_rate": 0.00022092257001647442,
      "loss": 0.1378,
      "step": 1120
    },
    {
      "epoch": 0.26589799399964703,
      "grad_norm": 0.7238913178443909,
      "learning_rate": 0.00022021652153447868,
      "loss": 0.163,
      "step": 1130
    },
    {
      "epoch": 0.2682510735925643,
      "grad_norm": 1.3571726083755493,
      "learning_rate": 0.00021951047305248292,
      "loss": 0.1545,
      "step": 1140
    },
    {
      "epoch": 0.2706041531854815,
      "grad_norm": 0.6683372259140015,
      "learning_rate": 0.00021880442457048715,
      "loss": 0.1375,
      "step": 1150
    },
    {
      "epoch": 0.27295723277839873,
      "grad_norm": 1.9159690141677856,
      "learning_rate": 0.0002180983760884914,
      "loss": 0.1604,
      "step": 1160
    },
    {
      "epoch": 0.275310312371316,
      "grad_norm": 1.6136759519577026,
      "learning_rate": 0.00021739232760649562,
      "loss": 0.1827,
      "step": 1170
    },
    {
      "epoch": 0.2776633919642332,
      "grad_norm": 1.2445416450500488,
      "learning_rate": 0.00021668627912449986,
      "loss": 0.1283,
      "step": 1180
    },
    {
      "epoch": 0.2800164715571504,
      "grad_norm": 1.143410563468933,
      "learning_rate": 0.0002159802306425041,
      "loss": 0.1571,
      "step": 1190
    },
    {
      "epoch": 0.2823695511500677,
      "grad_norm": 0.641952633857727,
      "learning_rate": 0.00021527418216050833,
      "loss": 0.1511,
      "step": 1200
    },
    {
      "epoch": 0.2847226307429849,
      "grad_norm": 0.9618122577667236,
      "learning_rate": 0.00021456813367851256,
      "loss": 0.1251,
      "step": 1210
    },
    {
      "epoch": 0.2870757103359021,
      "grad_norm": 1.040390133857727,
      "learning_rate": 0.0002138620851965168,
      "loss": 0.1481,
      "step": 1220
    },
    {
      "epoch": 0.2894287899288193,
      "grad_norm": 2.470360279083252,
      "learning_rate": 0.00021315603671452106,
      "loss": 0.1523,
      "step": 1230
    },
    {
      "epoch": 0.29178186952173657,
      "grad_norm": 1.15378737449646,
      "learning_rate": 0.00021244998823252527,
      "loss": 0.1526,
      "step": 1240
    },
    {
      "epoch": 0.2941349491146538,
      "grad_norm": 1.2236779928207397,
      "learning_rate": 0.00021174393975052953,
      "loss": 0.15,
      "step": 1250
    },
    {
      "epoch": 0.296488028707571,
      "grad_norm": 0.6974225640296936,
      "learning_rate": 0.00021103789126853374,
      "loss": 0.1529,
      "step": 1260
    },
    {
      "epoch": 0.29884110830048827,
      "grad_norm": 1.2019627094268799,
      "learning_rate": 0.000210331842786538,
      "loss": 0.1534,
      "step": 1270
    },
    {
      "epoch": 0.3011941878934055,
      "grad_norm": 1.5245829820632935,
      "learning_rate": 0.0002096257943045422,
      "loss": 0.1452,
      "step": 1280
    },
    {
      "epoch": 0.3035472674863227,
      "grad_norm": 1.5062931776046753,
      "learning_rate": 0.00020891974582254647,
      "loss": 0.1617,
      "step": 1290
    },
    {
      "epoch": 0.30590034707923996,
      "grad_norm": 0.5989176034927368,
      "learning_rate": 0.00020821369734055068,
      "loss": 0.1567,
      "step": 1300
    },
    {
      "epoch": 0.30825342667215716,
      "grad_norm": 1.1063286066055298,
      "learning_rate": 0.00020750764885855494,
      "loss": 0.1651,
      "step": 1310
    },
    {
      "epoch": 0.3106065062650744,
      "grad_norm": 0.9815717935562134,
      "learning_rate": 0.00020680160037655915,
      "loss": 0.1485,
      "step": 1320
    },
    {
      "epoch": 0.31295958585799166,
      "grad_norm": 1.218807578086853,
      "learning_rate": 0.0002060955518945634,
      "loss": 0.1151,
      "step": 1330
    },
    {
      "epoch": 0.31531266545090886,
      "grad_norm": 1.1629014015197754,
      "learning_rate": 0.00020538950341256765,
      "loss": 0.1406,
      "step": 1340
    },
    {
      "epoch": 0.3176657450438261,
      "grad_norm": 0.6818956732749939,
      "learning_rate": 0.00020468345493057188,
      "loss": 0.1465,
      "step": 1350
    },
    {
      "epoch": 0.32001882463674336,
      "grad_norm": 0.7869308590888977,
      "learning_rate": 0.00020397740644857612,
      "loss": 0.1515,
      "step": 1360
    },
    {
      "epoch": 0.32237190422966056,
      "grad_norm": 1.023478627204895,
      "learning_rate": 0.00020327135796658035,
      "loss": 0.1781,
      "step": 1370
    },
    {
      "epoch": 0.3247249838225778,
      "grad_norm": 1.0383384227752686,
      "learning_rate": 0.0002025653094845846,
      "loss": 0.1195,
      "step": 1380
    },
    {
      "epoch": 0.327078063415495,
      "grad_norm": 1.5291595458984375,
      "learning_rate": 0.00020185926100258882,
      "loss": 0.1334,
      "step": 1390
    },
    {
      "epoch": 0.32943114300841225,
      "grad_norm": 0.9488996267318726,
      "learning_rate": 0.00020115321252059306,
      "loss": 0.1368,
      "step": 1400
    },
    {
      "epoch": 0.3317842226013295,
      "grad_norm": 1.1703331470489502,
      "learning_rate": 0.0002004471640385973,
      "loss": 0.131,
      "step": 1410
    },
    {
      "epoch": 0.3341373021942467,
      "grad_norm": 0.6122885346412659,
      "learning_rate": 0.00019974111555660153,
      "loss": 0.1356,
      "step": 1420
    },
    {
      "epoch": 0.33649038178716395,
      "grad_norm": 0.7869921326637268,
      "learning_rate": 0.0001990350670746058,
      "loss": 0.1817,
      "step": 1430
    },
    {
      "epoch": 0.3388434613800812,
      "grad_norm": 0.691066324710846,
      "learning_rate": 0.00019832901859261,
      "loss": 0.131,
      "step": 1440
    },
    {
      "epoch": 0.3411965409729984,
      "grad_norm": 1.4205127954483032,
      "learning_rate": 0.00019762297011061426,
      "loss": 0.1366,
      "step": 1450
    },
    {
      "epoch": 0.34354962056591565,
      "grad_norm": 0.47127053141593933,
      "learning_rate": 0.00019691692162861847,
      "loss": 0.1498,
      "step": 1460
    },
    {
      "epoch": 0.3459027001588329,
      "grad_norm": 0.9336820840835571,
      "learning_rate": 0.00019621087314662273,
      "loss": 0.1512,
      "step": 1470
    },
    {
      "epoch": 0.3482557797517501,
      "grad_norm": 0.8124200105667114,
      "learning_rate": 0.00019550482466462694,
      "loss": 0.1319,
      "step": 1480
    },
    {
      "epoch": 0.35060885934466735,
      "grad_norm": 0.6921178698539734,
      "learning_rate": 0.0001947987761826312,
      "loss": 0.1279,
      "step": 1490
    },
    {
      "epoch": 0.35296193893758454,
      "grad_norm": 1.336229681968689,
      "learning_rate": 0.0001940927277006354,
      "loss": 0.1251,
      "step": 1500
    },
    {
      "epoch": 0.3553150185305018,
      "grad_norm": 0.9984803795814514,
      "learning_rate": 0.00019338667921863967,
      "loss": 0.1299,
      "step": 1510
    },
    {
      "epoch": 0.35766809812341904,
      "grad_norm": 1.0903042554855347,
      "learning_rate": 0.00019268063073664388,
      "loss": 0.1528,
      "step": 1520
    },
    {
      "epoch": 0.36002117771633624,
      "grad_norm": 0.666950523853302,
      "learning_rate": 0.00019197458225464814,
      "loss": 0.1446,
      "step": 1530
    },
    {
      "epoch": 0.3623742573092535,
      "grad_norm": 0.8104845285415649,
      "learning_rate": 0.00019126853377265238,
      "loss": 0.1221,
      "step": 1540
    },
    {
      "epoch": 0.36472733690217074,
      "grad_norm": 0.5904582738876343,
      "learning_rate": 0.00019056248529065661,
      "loss": 0.1164,
      "step": 1550
    },
    {
      "epoch": 0.36708041649508794,
      "grad_norm": 0.7703972458839417,
      "learning_rate": 0.00018985643680866085,
      "loss": 0.0978,
      "step": 1560
    },
    {
      "epoch": 0.3694334960880052,
      "grad_norm": 1.9245415925979614,
      "learning_rate": 0.00018915038832666508,
      "loss": 0.1624,
      "step": 1570
    },
    {
      "epoch": 0.3717865756809224,
      "grad_norm": 1.6459194421768188,
      "learning_rate": 0.00018844433984466932,
      "loss": 0.1289,
      "step": 1580
    },
    {
      "epoch": 0.37413965527383963,
      "grad_norm": 1.6774044036865234,
      "learning_rate": 0.00018773829136267355,
      "loss": 0.1468,
      "step": 1590
    },
    {
      "epoch": 0.3764927348667569,
      "grad_norm": 1.5878580808639526,
      "learning_rate": 0.0001870322428806778,
      "loss": 0.1318,
      "step": 1600
    },
    {
      "epoch": 0.3788458144596741,
      "grad_norm": 0.7039738297462463,
      "learning_rate": 0.00018632619439868203,
      "loss": 0.1242,
      "step": 1610
    },
    {
      "epoch": 0.38119889405259133,
      "grad_norm": 1.1770200729370117,
      "learning_rate": 0.00018562014591668626,
      "loss": 0.1321,
      "step": 1620
    },
    {
      "epoch": 0.3835519736455086,
      "grad_norm": 2.2201638221740723,
      "learning_rate": 0.00018491409743469052,
      "loss": 0.1214,
      "step": 1630
    },
    {
      "epoch": 0.3859050532384258,
      "grad_norm": 0.756149411201477,
      "learning_rate": 0.00018420804895269473,
      "loss": 0.1219,
      "step": 1640
    },
    {
      "epoch": 0.38825813283134303,
      "grad_norm": 0.5444088578224182,
      "learning_rate": 0.000183502000470699,
      "loss": 0.1346,
      "step": 1650
    },
    {
      "epoch": 0.3906112124242602,
      "grad_norm": 0.7643070816993713,
      "learning_rate": 0.0001827959519887032,
      "loss": 0.1324,
      "step": 1660
    },
    {
      "epoch": 0.3929642920171775,
      "grad_norm": 0.885362446308136,
      "learning_rate": 0.00018208990350670746,
      "loss": 0.1166,
      "step": 1670
    },
    {
      "epoch": 0.3953173716100947,
      "grad_norm": 0.7135679721832275,
      "learning_rate": 0.00018138385502471167,
      "loss": 0.1364,
      "step": 1680
    },
    {
      "epoch": 0.3976704512030119,
      "grad_norm": 0.5533025860786438,
      "learning_rate": 0.00018067780654271593,
      "loss": 0.1137,
      "step": 1690
    },
    {
      "epoch": 0.40002353079592917,
      "grad_norm": 0.5916281342506409,
      "learning_rate": 0.00017997175806072014,
      "loss": 0.1131,
      "step": 1700
    },
    {
      "epoch": 0.4023766103888464,
      "grad_norm": 0.8299354314804077,
      "learning_rate": 0.0001792657095787244,
      "loss": 0.1331,
      "step": 1710
    },
    {
      "epoch": 0.4047296899817636,
      "grad_norm": 0.7944399118423462,
      "learning_rate": 0.0001785596610967286,
      "loss": 0.1049,
      "step": 1720
    },
    {
      "epoch": 0.40708276957468087,
      "grad_norm": 0.6967952251434326,
      "learning_rate": 0.00017785361261473287,
      "loss": 0.0997,
      "step": 1730
    },
    {
      "epoch": 0.4094358491675981,
      "grad_norm": 0.42431318759918213,
      "learning_rate": 0.0001771475641327371,
      "loss": 0.0964,
      "step": 1740
    },
    {
      "epoch": 0.4117889287605153,
      "grad_norm": 0.6767364740371704,
      "learning_rate": 0.00017644151565074134,
      "loss": 0.1627,
      "step": 1750
    },
    {
      "epoch": 0.41414200835343257,
      "grad_norm": 1.0430301427841187,
      "learning_rate": 0.00017573546716874558,
      "loss": 0.1173,
      "step": 1760
    },
    {
      "epoch": 0.41649508794634976,
      "grad_norm": 0.6168161034584045,
      "learning_rate": 0.00017502941868674981,
      "loss": 0.1229,
      "step": 1770
    },
    {
      "epoch": 0.418848167539267,
      "grad_norm": 1.9067519903182983,
      "learning_rate": 0.00017432337020475405,
      "loss": 0.1369,
      "step": 1780
    },
    {
      "epoch": 0.42120124713218426,
      "grad_norm": 1.5157831907272339,
      "learning_rate": 0.00017361732172275829,
      "loss": 0.1243,
      "step": 1790
    },
    {
      "epoch": 0.42355432672510146,
      "grad_norm": 1.5152102708816528,
      "learning_rate": 0.00017291127324076252,
      "loss": 0.1395,
      "step": 1800
    },
    {
      "epoch": 0.4259074063180187,
      "grad_norm": 0.8262742161750793,
      "learning_rate": 0.00017220522475876676,
      "loss": 0.1467,
      "step": 1810
    },
    {
      "epoch": 0.42826048591093596,
      "grad_norm": 0.5484256744384766,
      "learning_rate": 0.000171499176276771,
      "loss": 0.1405,
      "step": 1820
    },
    {
      "epoch": 0.43061356550385316,
      "grad_norm": 0.7796267867088318,
      "learning_rate": 0.00017079312779477525,
      "loss": 0.1508,
      "step": 1830
    },
    {
      "epoch": 0.4329666450967704,
      "grad_norm": 0.7360082268714905,
      "learning_rate": 0.00017008707931277946,
      "loss": 0.1332,
      "step": 1840
    },
    {
      "epoch": 0.4353197246896876,
      "grad_norm": 0.8352281451225281,
      "learning_rate": 0.00016938103083078372,
      "loss": 0.1343,
      "step": 1850
    },
    {
      "epoch": 0.43767280428260485,
      "grad_norm": 0.6898388862609863,
      "learning_rate": 0.00016867498234878793,
      "loss": 0.0983,
      "step": 1860
    },
    {
      "epoch": 0.4400258838755221,
      "grad_norm": 0.3843238651752472,
      "learning_rate": 0.0001679689338667922,
      "loss": 0.1091,
      "step": 1870
    },
    {
      "epoch": 0.4423789634684393,
      "grad_norm": 0.7791532278060913,
      "learning_rate": 0.0001672628853847964,
      "loss": 0.1321,
      "step": 1880
    },
    {
      "epoch": 0.44473204306135655,
      "grad_norm": 0.9906323552131653,
      "learning_rate": 0.00016655683690280064,
      "loss": 0.1125,
      "step": 1890
    },
    {
      "epoch": 0.4470851226542738,
      "grad_norm": 0.631594181060791,
      "learning_rate": 0.00016585078842080487,
      "loss": 0.1328,
      "step": 1900
    },
    {
      "epoch": 0.449438202247191,
      "grad_norm": 1.4922380447387695,
      "learning_rate": 0.0001651447399388091,
      "loss": 0.1441,
      "step": 1910
    },
    {
      "epoch": 0.45179128184010825,
      "grad_norm": 0.6896445751190186,
      "learning_rate": 0.00016443869145681334,
      "loss": 0.146,
      "step": 1920
    },
    {
      "epoch": 0.45414436143302545,
      "grad_norm": 0.6470409035682678,
      "learning_rate": 0.00016373264297481758,
      "loss": 0.1123,
      "step": 1930
    },
    {
      "epoch": 0.4564974410259427,
      "grad_norm": 1.4532804489135742,
      "learning_rate": 0.00016302659449282184,
      "loss": 0.1204,
      "step": 1940
    },
    {
      "epoch": 0.45885052061885995,
      "grad_norm": 1.5582534074783325,
      "learning_rate": 0.00016232054601082605,
      "loss": 0.1275,
      "step": 1950
    },
    {
      "epoch": 0.46120360021177714,
      "grad_norm": 0.7568921446800232,
      "learning_rate": 0.0001616144975288303,
      "loss": 0.1373,
      "step": 1960
    },
    {
      "epoch": 0.4635566798046944,
      "grad_norm": 0.7904714941978455,
      "learning_rate": 0.00016090844904683452,
      "loss": 0.1281,
      "step": 1970
    },
    {
      "epoch": 0.46590975939761164,
      "grad_norm": 0.48104897141456604,
      "learning_rate": 0.00016020240056483878,
      "loss": 0.1173,
      "step": 1980
    },
    {
      "epoch": 0.46826283899052884,
      "grad_norm": 0.6676899194717407,
      "learning_rate": 0.000159496352082843,
      "loss": 0.1297,
      "step": 1990
    },
    {
      "epoch": 0.4706159185834461,
      "grad_norm": 0.7035501599311829,
      "learning_rate": 0.00015879030360084725,
      "loss": 0.1246,
      "step": 2000
    },
    {
      "epoch": 0.47296899817636334,
      "grad_norm": 1.289421796798706,
      "learning_rate": 0.00015808425511885146,
      "loss": 0.1501,
      "step": 2010
    },
    {
      "epoch": 0.47532207776928054,
      "grad_norm": 0.6186831593513489,
      "learning_rate": 0.00015737820663685572,
      "loss": 0.1156,
      "step": 2020
    },
    {
      "epoch": 0.4776751573621978,
      "grad_norm": 0.7897233963012695,
      "learning_rate": 0.00015667215815485993,
      "loss": 0.1317,
      "step": 2030
    },
    {
      "epoch": 0.480028236955115,
      "grad_norm": 1.1652599573135376,
      "learning_rate": 0.0001559661096728642,
      "loss": 0.1325,
      "step": 2040
    },
    {
      "epoch": 0.48238131654803224,
      "grad_norm": 0.6400769948959351,
      "learning_rate": 0.0001552600611908684,
      "loss": 0.1002,
      "step": 2050
    },
    {
      "epoch": 0.4847343961409495,
      "grad_norm": 0.5541133880615234,
      "learning_rate": 0.00015455401270887266,
      "loss": 0.1232,
      "step": 2060
    },
    {
      "epoch": 0.4870874757338667,
      "grad_norm": 0.605411946773529,
      "learning_rate": 0.0001538479642268769,
      "loss": 0.1102,
      "step": 2070
    },
    {
      "epoch": 0.48944055532678393,
      "grad_norm": 0.49058374762535095,
      "learning_rate": 0.00015314191574488113,
      "loss": 0.1228,
      "step": 2080
    },
    {
      "epoch": 0.4917936349197012,
      "grad_norm": 0.7565241456031799,
      "learning_rate": 0.00015243586726288537,
      "loss": 0.1009,
      "step": 2090
    },
    {
      "epoch": 0.4941467145126184,
      "grad_norm": 0.4517477750778198,
      "learning_rate": 0.0001517298187808896,
      "loss": 0.129,
      "step": 2100
    },
    {
      "epoch": 0.49649979410553563,
      "grad_norm": 0.7871853709220886,
      "learning_rate": 0.00015102377029889384,
      "loss": 0.1049,
      "step": 2110
    },
    {
      "epoch": 0.4988528736984528,
      "grad_norm": 0.4314168691635132,
      "learning_rate": 0.00015031772181689807,
      "loss": 0.117,
      "step": 2120
    },
    {
      "epoch": 0.5012059532913701,
      "grad_norm": 0.8347052335739136,
      "learning_rate": 0.0001496116733349023,
      "loss": 0.1336,
      "step": 2130
    },
    {
      "epoch": 0.5035590328842873,
      "grad_norm": 0.42039480805397034,
      "learning_rate": 0.00014890562485290657,
      "loss": 0.1176,
      "step": 2140
    },
    {
      "epoch": 0.5059121124772046,
      "grad_norm": 1.1371684074401855,
      "learning_rate": 0.0001481995763709108,
      "loss": 0.1362,
      "step": 2150
    },
    {
      "epoch": 0.5082651920701218,
      "grad_norm": 0.8690921664237976,
      "learning_rate": 0.00014749352788891504,
      "loss": 0.1444,
      "step": 2160
    },
    {
      "epoch": 0.510618271663039,
      "grad_norm": 0.3952578604221344,
      "learning_rate": 0.00014678747940691928,
      "loss": 0.1411,
      "step": 2170
    },
    {
      "epoch": 0.5129713512559563,
      "grad_norm": 1.0104624032974243,
      "learning_rate": 0.0001460814309249235,
      "loss": 0.1127,
      "step": 2180
    },
    {
      "epoch": 0.5153244308488735,
      "grad_norm": 0.7708560824394226,
      "learning_rate": 0.00014537538244292775,
      "loss": 0.1364,
      "step": 2190
    },
    {
      "epoch": 0.5176775104417907,
      "grad_norm": 3.323113203048706,
      "learning_rate": 0.00014466933396093198,
      "loss": 0.1326,
      "step": 2200
    },
    {
      "epoch": 0.520030590034708,
      "grad_norm": 0.5021951198577881,
      "learning_rate": 0.00014396328547893622,
      "loss": 0.1075,
      "step": 2210
    },
    {
      "epoch": 0.5223836696276252,
      "grad_norm": 0.5558544397354126,
      "learning_rate": 0.00014325723699694045,
      "loss": 0.1019,
      "step": 2220
    },
    {
      "epoch": 0.5247367492205424,
      "grad_norm": 0.7476164102554321,
      "learning_rate": 0.0001425511885149447,
      "loss": 0.108,
      "step": 2230
    },
    {
      "epoch": 0.5270898288134596,
      "grad_norm": 0.8783542513847351,
      "learning_rate": 0.00014184514003294892,
      "loss": 0.1182,
      "step": 2240
    },
    {
      "epoch": 0.5294429084063769,
      "grad_norm": 0.5716719627380371,
      "learning_rate": 0.00014113909155095316,
      "loss": 0.1048,
      "step": 2250
    },
    {
      "epoch": 0.5317959879992941,
      "grad_norm": 0.41919055581092834,
      "learning_rate": 0.0001404330430689574,
      "loss": 0.1071,
      "step": 2260
    },
    {
      "epoch": 0.5341490675922113,
      "grad_norm": 0.672885537147522,
      "learning_rate": 0.00013972699458696163,
      "loss": 0.1333,
      "step": 2270
    },
    {
      "epoch": 0.5365021471851286,
      "grad_norm": 0.7414030432701111,
      "learning_rate": 0.00013902094610496586,
      "loss": 0.1288,
      "step": 2280
    },
    {
      "epoch": 0.5388552267780458,
      "grad_norm": 1.1601518392562866,
      "learning_rate": 0.0001383148976229701,
      "loss": 0.1099,
      "step": 2290
    },
    {
      "epoch": 0.541208306370963,
      "grad_norm": 0.4423375129699707,
      "learning_rate": 0.00013760884914097433,
      "loss": 0.1049,
      "step": 2300
    },
    {
      "epoch": 0.5435613859638803,
      "grad_norm": 0.9248809218406677,
      "learning_rate": 0.00013690280065897857,
      "loss": 0.1172,
      "step": 2310
    },
    {
      "epoch": 0.5459144655567975,
      "grad_norm": 1.3502943515777588,
      "learning_rate": 0.0001361967521769828,
      "loss": 0.1303,
      "step": 2320
    },
    {
      "epoch": 0.5482675451497147,
      "grad_norm": 1.488297939300537,
      "learning_rate": 0.00013549070369498704,
      "loss": 0.1182,
      "step": 2330
    },
    {
      "epoch": 0.550620624742632,
      "grad_norm": 0.6636572480201721,
      "learning_rate": 0.0001347846552129913,
      "loss": 0.1233,
      "step": 2340
    },
    {
      "epoch": 0.5529737043355492,
      "grad_norm": 0.5864549279212952,
      "learning_rate": 0.00013407860673099554,
      "loss": 0.1102,
      "step": 2350
    },
    {
      "epoch": 0.5553267839284663,
      "grad_norm": 1.9224406480789185,
      "learning_rate": 0.00013337255824899977,
      "loss": 0.1449,
      "step": 2360
    },
    {
      "epoch": 0.5576798635213837,
      "grad_norm": 1.1239560842514038,
      "learning_rate": 0.00013266650976700398,
      "loss": 0.1155,
      "step": 2370
    },
    {
      "epoch": 0.5600329431143009,
      "grad_norm": 0.6336050629615784,
      "learning_rate": 0.00013196046128500821,
      "loss": 0.1193,
      "step": 2380
    },
    {
      "epoch": 0.562386022707218,
      "grad_norm": 0.9129360914230347,
      "learning_rate": 0.00013125441280301245,
      "loss": 0.1121,
      "step": 2390
    },
    {
      "epoch": 0.5647391023001354,
      "grad_norm": 0.6220555305480957,
      "learning_rate": 0.00013054836432101668,
      "loss": 0.1172,
      "step": 2400
    },
    {
      "epoch": 0.5670921818930525,
      "grad_norm": 0.8981531262397766,
      "learning_rate": 0.00012984231583902092,
      "loss": 0.1184,
      "step": 2410
    },
    {
      "epoch": 0.5694452614859697,
      "grad_norm": 0.7610392570495605,
      "learning_rate": 0.00012913626735702515,
      "loss": 0.1204,
      "step": 2420
    },
    {
      "epoch": 0.5717983410788869,
      "grad_norm": 0.5133729577064514,
      "learning_rate": 0.0001284302188750294,
      "loss": 0.1081,
      "step": 2430
    },
    {
      "epoch": 0.5741514206718042,
      "grad_norm": 0.8097817897796631,
      "learning_rate": 0.00012772417039303363,
      "loss": 0.1142,
      "step": 2440
    },
    {
      "epoch": 0.5765045002647214,
      "grad_norm": 1.8712083101272583,
      "learning_rate": 0.00012701812191103786,
      "loss": 0.1234,
      "step": 2450
    },
    {
      "epoch": 0.5788575798576386,
      "grad_norm": 0.8425026535987854,
      "learning_rate": 0.00012631207342904212,
      "loss": 0.1027,
      "step": 2460
    },
    {
      "epoch": 0.5812106594505559,
      "grad_norm": 0.5562009811401367,
      "learning_rate": 0.00012560602494704636,
      "loss": 0.0916,
      "step": 2470
    },
    {
      "epoch": 0.5835637390434731,
      "grad_norm": 0.45057183504104614,
      "learning_rate": 0.0001248999764650506,
      "loss": 0.1166,
      "step": 2480
    },
    {
      "epoch": 0.5859168186363903,
      "grad_norm": 0.5411068797111511,
      "learning_rate": 0.00012419392798305483,
      "loss": 0.1254,
      "step": 2490
    },
    {
      "epoch": 0.5882698982293076,
      "grad_norm": 0.9400952458381653,
      "learning_rate": 0.00012348787950105906,
      "loss": 0.1411,
      "step": 2500
    },
    {
      "epoch": 0.5906229778222248,
      "grad_norm": 0.4275170564651489,
      "learning_rate": 0.0001227818310190633,
      "loss": 0.1089,
      "step": 2510
    },
    {
      "epoch": 0.592976057415142,
      "grad_norm": 1.2033214569091797,
      "learning_rate": 0.00012207578253706753,
      "loss": 0.108,
      "step": 2520
    },
    {
      "epoch": 0.5953291370080593,
      "grad_norm": 1.257379412651062,
      "learning_rate": 0.00012136973405507177,
      "loss": 0.1207,
      "step": 2530
    },
    {
      "epoch": 0.5976822166009765,
      "grad_norm": 0.7070032954216003,
      "learning_rate": 0.000120663685573076,
      "loss": 0.0879,
      "step": 2540
    },
    {
      "epoch": 0.6000352961938937,
      "grad_norm": 0.8550868034362793,
      "learning_rate": 0.00011995763709108024,
      "loss": 0.1087,
      "step": 2550
    },
    {
      "epoch": 0.602388375786811,
      "grad_norm": 0.8301357626914978,
      "learning_rate": 0.00011925158860908447,
      "loss": 0.1266,
      "step": 2560
    },
    {
      "epoch": 0.6047414553797282,
      "grad_norm": 0.4070800542831421,
      "learning_rate": 0.00011854554012708871,
      "loss": 0.1062,
      "step": 2570
    },
    {
      "epoch": 0.6070945349726454,
      "grad_norm": 1.1967391967773438,
      "learning_rate": 0.00011783949164509294,
      "loss": 0.1147,
      "step": 2580
    },
    {
      "epoch": 0.6094476145655627,
      "grad_norm": 0.5281302332878113,
      "learning_rate": 0.00011713344316309718,
      "loss": 0.0912,
      "step": 2590
    },
    {
      "epoch": 0.6118006941584799,
      "grad_norm": 0.5271784067153931,
      "learning_rate": 0.00011642739468110142,
      "loss": 0.1084,
      "step": 2600
    },
    {
      "epoch": 0.6141537737513971,
      "grad_norm": 0.4973151683807373,
      "learning_rate": 0.00011572134619910566,
      "loss": 0.1242,
      "step": 2610
    },
    {
      "epoch": 0.6165068533443143,
      "grad_norm": 0.4281303882598877,
      "learning_rate": 0.0001150152977171099,
      "loss": 0.1101,
      "step": 2620
    },
    {
      "epoch": 0.6188599329372316,
      "grad_norm": 0.5142689347267151,
      "learning_rate": 0.00011430924923511413,
      "loss": 0.1182,
      "step": 2630
    },
    {
      "epoch": 0.6212130125301488,
      "grad_norm": 0.5125661492347717,
      "learning_rate": 0.00011360320075311837,
      "loss": 0.0943,
      "step": 2640
    },
    {
      "epoch": 0.623566092123066,
      "grad_norm": 0.43077680468559265,
      "learning_rate": 0.0001128971522711226,
      "loss": 0.0948,
      "step": 2650
    },
    {
      "epoch": 0.6259191717159833,
      "grad_norm": 0.5074141621589661,
      "learning_rate": 0.00011219110378912684,
      "loss": 0.0853,
      "step": 2660
    },
    {
      "epoch": 0.6282722513089005,
      "grad_norm": 0.8260855674743652,
      "learning_rate": 0.00011148505530713107,
      "loss": 0.1104,
      "step": 2670
    },
    {
      "epoch": 0.6306253309018177,
      "grad_norm": 0.7819215059280396,
      "learning_rate": 0.00011077900682513531,
      "loss": 0.1256,
      "step": 2680
    },
    {
      "epoch": 0.632978410494735,
      "grad_norm": 0.46884438395500183,
      "learning_rate": 0.00011007295834313955,
      "loss": 0.1027,
      "step": 2690
    },
    {
      "epoch": 0.6353314900876522,
      "grad_norm": 0.9515593647956848,
      "learning_rate": 0.00010936690986114378,
      "loss": 0.112,
      "step": 2700
    },
    {
      "epoch": 0.6376845696805694,
      "grad_norm": 0.3602767586708069,
      "learning_rate": 0.00010866086137914803,
      "loss": 0.1053,
      "step": 2710
    },
    {
      "epoch": 0.6400376492734867,
      "grad_norm": 0.7740781903266907,
      "learning_rate": 0.00010795481289715226,
      "loss": 0.112,
      "step": 2720
    },
    {
      "epoch": 0.6423907288664039,
      "grad_norm": 0.5003033876419067,
      "learning_rate": 0.0001072487644151565,
      "loss": 0.0985,
      "step": 2730
    },
    {
      "epoch": 0.6447438084593211,
      "grad_norm": 0.4092664122581482,
      "learning_rate": 0.00010654271593316073,
      "loss": 0.1113,
      "step": 2740
    },
    {
      "epoch": 0.6470968880522384,
      "grad_norm": 0.446584552526474,
      "learning_rate": 0.00010583666745116497,
      "loss": 0.0909,
      "step": 2750
    },
    {
      "epoch": 0.6494499676451556,
      "grad_norm": 0.3130131661891937,
      "learning_rate": 0.0001051306189691692,
      "loss": 0.0954,
      "step": 2760
    },
    {
      "epoch": 0.6518030472380728,
      "grad_norm": 0.7232083082199097,
      "learning_rate": 0.00010442457048717344,
      "loss": 0.1132,
      "step": 2770
    },
    {
      "epoch": 0.65415612683099,
      "grad_norm": 0.5579691529273987,
      "learning_rate": 0.00010371852200517768,
      "loss": 0.1045,
      "step": 2780
    },
    {
      "epoch": 0.6565092064239073,
      "grad_norm": 0.5319089889526367,
      "learning_rate": 0.00010301247352318191,
      "loss": 0.1215,
      "step": 2790
    },
    {
      "epoch": 0.6588622860168245,
      "grad_norm": 0.516445517539978,
      "learning_rate": 0.00010230642504118615,
      "loss": 0.111,
      "step": 2800
    },
    {
      "epoch": 0.6612153656097417,
      "grad_norm": 0.25264236330986023,
      "learning_rate": 0.0001016003765591904,
      "loss": 0.1126,
      "step": 2810
    },
    {
      "epoch": 0.663568445202659,
      "grad_norm": 0.7910987138748169,
      "learning_rate": 0.00010089432807719463,
      "loss": 0.1306,
      "step": 2820
    },
    {
      "epoch": 0.6659215247955762,
      "grad_norm": 0.7823461890220642,
      "learning_rate": 0.00010018827959519886,
      "loss": 0.0967,
      "step": 2830
    },
    {
      "epoch": 0.6682746043884934,
      "grad_norm": 0.7126127481460571,
      "learning_rate": 9.94822311132031e-05,
      "loss": 0.1296,
      "step": 2840
    },
    {
      "epoch": 0.6706276839814107,
      "grad_norm": 0.9327739477157593,
      "learning_rate": 9.877618263120733e-05,
      "loss": 0.1115,
      "step": 2850
    },
    {
      "epoch": 0.6729807635743279,
      "grad_norm": 0.7680268883705139,
      "learning_rate": 9.807013414921157e-05,
      "loss": 0.1055,
      "step": 2860
    },
    {
      "epoch": 0.6753338431672451,
      "grad_norm": 0.7711540460586548,
      "learning_rate": 9.73640856672158e-05,
      "loss": 0.0951,
      "step": 2870
    },
    {
      "epoch": 0.6776869227601624,
      "grad_norm": 0.5041959881782532,
      "learning_rate": 9.665803718522004e-05,
      "loss": 0.1087,
      "step": 2880
    },
    {
      "epoch": 0.6800400023530796,
      "grad_norm": 0.5102591514587402,
      "learning_rate": 9.595198870322428e-05,
      "loss": 0.1176,
      "step": 2890
    },
    {
      "epoch": 0.6823930819459968,
      "grad_norm": 0.7100384831428528,
      "learning_rate": 9.524594022122851e-05,
      "loss": 0.1091,
      "step": 2900
    },
    {
      "epoch": 0.6847461615389141,
      "grad_norm": 0.6806867122650146,
      "learning_rate": 9.453989173923276e-05,
      "loss": 0.1251,
      "step": 2910
    },
    {
      "epoch": 0.6870992411318313,
      "grad_norm": 0.6659530401229858,
      "learning_rate": 9.3833843257237e-05,
      "loss": 0.0835,
      "step": 2920
    },
    {
      "epoch": 0.6894523207247485,
      "grad_norm": 0.4317012429237366,
      "learning_rate": 9.312779477524123e-05,
      "loss": 0.0893,
      "step": 2930
    },
    {
      "epoch": 0.6918054003176658,
      "grad_norm": 0.5916824340820312,
      "learning_rate": 9.242174629324546e-05,
      "loss": 0.0905,
      "step": 2940
    },
    {
      "epoch": 0.694158479910583,
      "grad_norm": 0.7429795265197754,
      "learning_rate": 9.17156978112497e-05,
      "loss": 0.1063,
      "step": 2950
    },
    {
      "epoch": 0.6965115595035002,
      "grad_norm": 0.87420254945755,
      "learning_rate": 9.100964932925394e-05,
      "loss": 0.1042,
      "step": 2960
    },
    {
      "epoch": 0.6988646390964174,
      "grad_norm": 0.49567267298698425,
      "learning_rate": 9.030360084725817e-05,
      "loss": 0.1045,
      "step": 2970
    },
    {
      "epoch": 0.7012177186893347,
      "grad_norm": 2.633138418197632,
      "learning_rate": 8.95975523652624e-05,
      "loss": 0.0884,
      "step": 2980
    },
    {
      "epoch": 0.7035707982822519,
      "grad_norm": 0.33752286434173584,
      "learning_rate": 8.889150388326664e-05,
      "loss": 0.0848,
      "step": 2990
    },
    {
      "epoch": 0.7059238778751691,
      "grad_norm": 0.5974826812744141,
      "learning_rate": 8.818545540127088e-05,
      "loss": 0.0971,
      "step": 3000
    },
    {
      "epoch": 0.7082769574680864,
      "grad_norm": 0.43427976965904236,
      "learning_rate": 8.747940691927512e-05,
      "loss": 0.1165,
      "step": 3010
    },
    {
      "epoch": 0.7106300370610036,
      "grad_norm": 0.7770646810531616,
      "learning_rate": 8.677335843727936e-05,
      "loss": 0.1084,
      "step": 3020
    },
    {
      "epoch": 0.7129831166539208,
      "grad_norm": 0.5276495218276978,
      "learning_rate": 8.60673099552836e-05,
      "loss": 0.111,
      "step": 3030
    },
    {
      "epoch": 0.7153361962468381,
      "grad_norm": 0.9737383127212524,
      "learning_rate": 8.536126147328783e-05,
      "loss": 0.0972,
      "step": 3040
    },
    {
      "epoch": 0.7176892758397553,
      "grad_norm": 0.36562997102737427,
      "learning_rate": 8.465521299129207e-05,
      "loss": 0.093,
      "step": 3050
    },
    {
      "epoch": 0.7200423554326725,
      "grad_norm": 0.8244528770446777,
      "learning_rate": 8.39491645092963e-05,
      "loss": 0.1263,
      "step": 3060
    },
    {
      "epoch": 0.7223954350255898,
      "grad_norm": 1.9532008171081543,
      "learning_rate": 8.324311602730054e-05,
      "loss": 0.1251,
      "step": 3070
    },
    {
      "epoch": 0.724748514618507,
      "grad_norm": 0.572896420955658,
      "learning_rate": 8.253706754530477e-05,
      "loss": 0.0875,
      "step": 3080
    },
    {
      "epoch": 0.7271015942114242,
      "grad_norm": 1.2975929975509644,
      "learning_rate": 8.1831019063309e-05,
      "loss": 0.1023,
      "step": 3090
    },
    {
      "epoch": 0.7294546738043415,
      "grad_norm": 0.5758102536201477,
      "learning_rate": 8.112497058131324e-05,
      "loss": 0.1019,
      "step": 3100
    },
    {
      "epoch": 0.7318077533972587,
      "grad_norm": 0.553327202796936,
      "learning_rate": 8.041892209931749e-05,
      "loss": 0.1128,
      "step": 3110
    },
    {
      "epoch": 0.7341608329901759,
      "grad_norm": 0.5465438961982727,
      "learning_rate": 7.971287361732173e-05,
      "loss": 0.1237,
      "step": 3120
    },
    {
      "epoch": 0.7365139125830932,
      "grad_norm": 0.46917715668678284,
      "learning_rate": 7.900682513532596e-05,
      "loss": 0.0964,
      "step": 3130
    },
    {
      "epoch": 0.7388669921760104,
      "grad_norm": 0.8454899787902832,
      "learning_rate": 7.83007766533302e-05,
      "loss": 0.0901,
      "step": 3140
    },
    {
      "epoch": 0.7412200717689276,
      "grad_norm": 0.8698781728744507,
      "learning_rate": 7.759472817133443e-05,
      "loss": 0.1119,
      "step": 3150
    },
    {
      "epoch": 0.7435731513618448,
      "grad_norm": 1.7399003505706787,
      "learning_rate": 7.688867968933867e-05,
      "loss": 0.1122,
      "step": 3160
    },
    {
      "epoch": 0.7459262309547621,
      "grad_norm": 0.4506986141204834,
      "learning_rate": 7.61826312073429e-05,
      "loss": 0.09,
      "step": 3170
    },
    {
      "epoch": 0.7482793105476793,
      "grad_norm": 0.7856936454772949,
      "learning_rate": 7.547658272534714e-05,
      "loss": 0.1194,
      "step": 3180
    },
    {
      "epoch": 0.7506323901405965,
      "grad_norm": 0.5778619050979614,
      "learning_rate": 7.477053424335137e-05,
      "loss": 0.1167,
      "step": 3190
    },
    {
      "epoch": 0.7529854697335138,
      "grad_norm": 0.4940952658653259,
      "learning_rate": 7.40644857613556e-05,
      "loss": 0.0813,
      "step": 3200
    },
    {
      "epoch": 0.755338549326431,
      "grad_norm": 1.1496696472167969,
      "learning_rate": 7.335843727935984e-05,
      "loss": 0.0966,
      "step": 3210
    },
    {
      "epoch": 0.7576916289193482,
      "grad_norm": 0.4551859498023987,
      "learning_rate": 7.265238879736408e-05,
      "loss": 0.0956,
      "step": 3220
    },
    {
      "epoch": 0.7600447085122655,
      "grad_norm": 0.5476594567298889,
      "learning_rate": 7.194634031536831e-05,
      "loss": 0.1225,
      "step": 3230
    },
    {
      "epoch": 0.7623977881051827,
      "grad_norm": 0.4413054287433624,
      "learning_rate": 7.124029183337255e-05,
      "loss": 0.0996,
      "step": 3240
    },
    {
      "epoch": 0.7647508676980999,
      "grad_norm": 0.6522489190101624,
      "learning_rate": 7.053424335137678e-05,
      "loss": 0.0946,
      "step": 3250
    },
    {
      "epoch": 0.7671039472910172,
      "grad_norm": 0.4750779867172241,
      "learning_rate": 6.982819486938102e-05,
      "loss": 0.0788,
      "step": 3260
    },
    {
      "epoch": 0.7694570268839344,
      "grad_norm": 0.336505264043808,
      "learning_rate": 6.912214638738527e-05,
      "loss": 0.0841,
      "step": 3270
    },
    {
      "epoch": 0.7718101064768516,
      "grad_norm": 1.4274874925613403,
      "learning_rate": 6.84160979053895e-05,
      "loss": 0.0991,
      "step": 3280
    },
    {
      "epoch": 0.7741631860697689,
      "grad_norm": 0.6464115977287292,
      "learning_rate": 6.771004942339374e-05,
      "loss": 0.1172,
      "step": 3290
    },
    {
      "epoch": 0.7765162656626861,
      "grad_norm": 0.35535725951194763,
      "learning_rate": 6.700400094139797e-05,
      "loss": 0.09,
      "step": 3300
    },
    {
      "epoch": 0.7788693452556033,
      "grad_norm": 0.22626227140426636,
      "learning_rate": 6.62979524594022e-05,
      "loss": 0.089,
      "step": 3310
    },
    {
      "epoch": 0.7812224248485204,
      "grad_norm": 0.6091925501823425,
      "learning_rate": 6.559190397740644e-05,
      "loss": 0.0851,
      "step": 3320
    },
    {
      "epoch": 0.7835755044414378,
      "grad_norm": 2.3381729125976562,
      "learning_rate": 6.488585549541068e-05,
      "loss": 0.1001,
      "step": 3330
    },
    {
      "epoch": 0.785928584034355,
      "grad_norm": 0.41597291827201843,
      "learning_rate": 6.417980701341491e-05,
      "loss": 0.0985,
      "step": 3340
    },
    {
      "epoch": 0.7882816636272721,
      "grad_norm": 0.6187950372695923,
      "learning_rate": 6.347375853141915e-05,
      "loss": 0.0877,
      "step": 3350
    },
    {
      "epoch": 0.7906347432201895,
      "grad_norm": 0.4807620942592621,
      "learning_rate": 6.276771004942338e-05,
      "loss": 0.1074,
      "step": 3360
    },
    {
      "epoch": 0.7929878228131066,
      "grad_norm": 0.2998965382575989,
      "learning_rate": 6.206166156742763e-05,
      "loss": 0.1044,
      "step": 3370
    },
    {
      "epoch": 0.7953409024060238,
      "grad_norm": 0.5904129147529602,
      "learning_rate": 6.135561308543187e-05,
      "loss": 0.1073,
      "step": 3380
    },
    {
      "epoch": 0.7976939819989411,
      "grad_norm": 0.6356788277626038,
      "learning_rate": 6.06495646034361e-05,
      "loss": 0.1121,
      "step": 3390
    },
    {
      "epoch": 0.8000470615918583,
      "grad_norm": 0.9147433638572693,
      "learning_rate": 5.994351612144034e-05,
      "loss": 0.1103,
      "step": 3400
    },
    {
      "epoch": 0.8024001411847755,
      "grad_norm": 0.8032605051994324,
      "learning_rate": 5.923746763944457e-05,
      "loss": 0.0965,
      "step": 3410
    },
    {
      "epoch": 0.8047532207776928,
      "grad_norm": 0.7935906052589417,
      "learning_rate": 5.853141915744881e-05,
      "loss": 0.1007,
      "step": 3420
    },
    {
      "epoch": 0.80710630037061,
      "grad_norm": 0.4112412631511688,
      "learning_rate": 5.782537067545304e-05,
      "loss": 0.0882,
      "step": 3430
    },
    {
      "epoch": 0.8094593799635272,
      "grad_norm": 0.8190514445304871,
      "learning_rate": 5.7119322193457284e-05,
      "loss": 0.1019,
      "step": 3440
    },
    {
      "epoch": 0.8118124595564445,
      "grad_norm": 0.6029698848724365,
      "learning_rate": 5.641327371146152e-05,
      "loss": 0.1053,
      "step": 3450
    },
    {
      "epoch": 0.8141655391493617,
      "grad_norm": 0.43347781896591187,
      "learning_rate": 5.5707225229465755e-05,
      "loss": 0.1044,
      "step": 3460
    },
    {
      "epoch": 0.8165186187422789,
      "grad_norm": 1.5235440731048584,
      "learning_rate": 5.500117674746999e-05,
      "loss": 0.0982,
      "step": 3470
    },
    {
      "epoch": 0.8188716983351962,
      "grad_norm": 0.5716174244880676,
      "learning_rate": 5.4295128265474225e-05,
      "loss": 0.1078,
      "step": 3480
    },
    {
      "epoch": 0.8212247779281134,
      "grad_norm": 1.5008090734481812,
      "learning_rate": 5.358907978347847e-05,
      "loss": 0.0915,
      "step": 3490
    },
    {
      "epoch": 0.8235778575210306,
      "grad_norm": 0.49782001972198486,
      "learning_rate": 5.28830313014827e-05,
      "loss": 0.0892,
      "step": 3500
    },
    {
      "epoch": 0.8259309371139478,
      "grad_norm": 0.4466950297355652,
      "learning_rate": 5.217698281948694e-05,
      "loss": 0.0905,
      "step": 3510
    },
    {
      "epoch": 0.8282840167068651,
      "grad_norm": 0.5504721403121948,
      "learning_rate": 5.147093433749117e-05,
      "loss": 0.1128,
      "step": 3520
    },
    {
      "epoch": 0.8306370962997823,
      "grad_norm": 0.4870951473712921,
      "learning_rate": 5.076488585549541e-05,
      "loss": 0.0876,
      "step": 3530
    },
    {
      "epoch": 0.8329901758926995,
      "grad_norm": 0.6789172887802124,
      "learning_rate": 5.005883737349965e-05,
      "loss": 0.1004,
      "step": 3540
    },
    {
      "epoch": 0.8353432554856168,
      "grad_norm": 0.5021870136260986,
      "learning_rate": 4.935278889150388e-05,
      "loss": 0.0862,
      "step": 3550
    },
    {
      "epoch": 0.837696335078534,
      "grad_norm": 0.5829181671142578,
      "learning_rate": 4.864674040950811e-05,
      "loss": 0.0994,
      "step": 3560
    },
    {
      "epoch": 0.8400494146714512,
      "grad_norm": 1.029181957244873,
      "learning_rate": 4.794069192751235e-05,
      "loss": 0.1144,
      "step": 3570
    },
    {
      "epoch": 0.8424024942643685,
      "grad_norm": 0.6730376482009888,
      "learning_rate": 4.723464344551658e-05,
      "loss": 0.106,
      "step": 3580
    },
    {
      "epoch": 0.8447555738572857,
      "grad_norm": 0.6129499673843384,
      "learning_rate": 4.652859496352082e-05,
      "loss": 0.0896,
      "step": 3590
    },
    {
      "epoch": 0.8471086534502029,
      "grad_norm": 0.422830194234848,
      "learning_rate": 4.582254648152506e-05,
      "loss": 0.0846,
      "step": 3600
    },
    {
      "epoch": 0.8494617330431202,
      "grad_norm": 0.5306664109230042,
      "learning_rate": 4.5116497999529296e-05,
      "loss": 0.1059,
      "step": 3610
    },
    {
      "epoch": 0.8518148126360374,
      "grad_norm": 0.6436883807182312,
      "learning_rate": 4.441044951753353e-05,
      "loss": 0.1132,
      "step": 3620
    },
    {
      "epoch": 0.8541678922289546,
      "grad_norm": 0.4121890962123871,
      "learning_rate": 4.3704401035537766e-05,
      "loss": 0.0864,
      "step": 3630
    },
    {
      "epoch": 0.8565209718218719,
      "grad_norm": 0.42521169781684875,
      "learning_rate": 4.2998352553542e-05,
      "loss": 0.1011,
      "step": 3640
    },
    {
      "epoch": 0.8588740514147891,
      "grad_norm": 0.49623095989227295,
      "learning_rate": 4.229230407154624e-05,
      "loss": 0.1093,
      "step": 3650
    },
    {
      "epoch": 0.8612271310077063,
      "grad_norm": 0.5516742467880249,
      "learning_rate": 4.158625558955048e-05,
      "loss": 0.1009,
      "step": 3660
    },
    {
      "epoch": 0.8635802106006236,
      "grad_norm": 0.37128451466560364,
      "learning_rate": 4.0880207107554713e-05,
      "loss": 0.0717,
      "step": 3670
    },
    {
      "epoch": 0.8659332901935408,
      "grad_norm": 0.3802624046802521,
      "learning_rate": 4.017415862555895e-05,
      "loss": 0.0891,
      "step": 3680
    },
    {
      "epoch": 0.868286369786458,
      "grad_norm": 0.35558944940567017,
      "learning_rate": 3.9468110143563184e-05,
      "loss": 0.0863,
      "step": 3690
    },
    {
      "epoch": 0.8706394493793752,
      "grad_norm": 0.2548139989376068,
      "learning_rate": 3.8762061661567426e-05,
      "loss": 0.0946,
      "step": 3700
    },
    {
      "epoch": 0.8729925289722925,
      "grad_norm": 0.3489900827407837,
      "learning_rate": 3.805601317957166e-05,
      "loss": 0.0794,
      "step": 3710
    },
    {
      "epoch": 0.8753456085652097,
      "grad_norm": 0.7514833807945251,
      "learning_rate": 3.7349964697575896e-05,
      "loss": 0.1026,
      "step": 3720
    },
    {
      "epoch": 0.8776986881581269,
      "grad_norm": 0.28846803307533264,
      "learning_rate": 3.664391621558013e-05,
      "loss": 0.107,
      "step": 3730
    },
    {
      "epoch": 0.8800517677510442,
      "grad_norm": 0.3054257333278656,
      "learning_rate": 3.5937867733584366e-05,
      "loss": 0.0839,
      "step": 3740
    },
    {
      "epoch": 0.8824048473439614,
      "grad_norm": 0.487393856048584,
      "learning_rate": 3.523181925158861e-05,
      "loss": 0.099,
      "step": 3750
    },
    {
      "epoch": 0.8847579269368786,
      "grad_norm": 0.7874276041984558,
      "learning_rate": 3.4525770769592843e-05,
      "loss": 0.0873,
      "step": 3760
    },
    {
      "epoch": 0.8871110065297959,
      "grad_norm": 0.3583498001098633,
      "learning_rate": 3.381972228759708e-05,
      "loss": 0.0854,
      "step": 3770
    },
    {
      "epoch": 0.8894640861227131,
      "grad_norm": 0.5606823563575745,
      "learning_rate": 3.3113673805601314e-05,
      "loss": 0.1106,
      "step": 3780
    },
    {
      "epoch": 0.8918171657156303,
      "grad_norm": 0.48208296298980713,
      "learning_rate": 3.240762532360555e-05,
      "loss": 0.1138,
      "step": 3790
    },
    {
      "epoch": 0.8941702453085476,
      "grad_norm": 1.026995301246643,
      "learning_rate": 3.170157684160979e-05,
      "loss": 0.0877,
      "step": 3800
    },
    {
      "epoch": 0.8965233249014648,
      "grad_norm": 0.7940952777862549,
      "learning_rate": 3.0995528359614026e-05,
      "loss": 0.069,
      "step": 3810
    },
    {
      "epoch": 0.898876404494382,
      "grad_norm": 0.7711090445518494,
      "learning_rate": 3.028947987761826e-05,
      "loss": 0.0884,
      "step": 3820
    },
    {
      "epoch": 0.9012294840872993,
      "grad_norm": 0.6985650062561035,
      "learning_rate": 2.9583431395622496e-05,
      "loss": 0.0929,
      "step": 3830
    },
    {
      "epoch": 0.9035825636802165,
      "grad_norm": 0.5291894674301147,
      "learning_rate": 2.8877382913626735e-05,
      "loss": 0.1166,
      "step": 3840
    },
    {
      "epoch": 0.9059356432731337,
      "grad_norm": 0.3929837644100189,
      "learning_rate": 2.817133443163097e-05,
      "loss": 0.0904,
      "step": 3850
    },
    {
      "epoch": 0.9082887228660509,
      "grad_norm": 0.492017537355423,
      "learning_rate": 2.746528594963521e-05,
      "loss": 0.0986,
      "step": 3860
    },
    {
      "epoch": 0.9106418024589682,
      "grad_norm": 0.5756918787956238,
      "learning_rate": 2.6759237467639444e-05,
      "loss": 0.0897,
      "step": 3870
    },
    {
      "epoch": 0.9129948820518854,
      "grad_norm": 0.5781024098396301,
      "learning_rate": 2.605318898564368e-05,
      "loss": 0.0799,
      "step": 3880
    },
    {
      "epoch": 0.9153479616448026,
      "grad_norm": 0.28270334005355835,
      "learning_rate": 2.5347140503647918e-05,
      "loss": 0.0889,
      "step": 3890
    },
    {
      "epoch": 0.9177010412377199,
      "grad_norm": 0.5788043737411499,
      "learning_rate": 2.464109202165215e-05,
      "loss": 0.0788,
      "step": 3900
    },
    {
      "epoch": 0.9200541208306371,
      "grad_norm": 0.563836932182312,
      "learning_rate": 2.3935043539656384e-05,
      "loss": 0.0914,
      "step": 3910
    },
    {
      "epoch": 0.9224072004235543,
      "grad_norm": 0.4077290892601013,
      "learning_rate": 2.3228995057660623e-05,
      "loss": 0.1057,
      "step": 3920
    },
    {
      "epoch": 0.9247602800164716,
      "grad_norm": 0.6209468841552734,
      "learning_rate": 2.2522946575664858e-05,
      "loss": 0.0812,
      "step": 3930
    },
    {
      "epoch": 0.9271133596093888,
      "grad_norm": 0.542506754398346,
      "learning_rate": 2.1816898093669097e-05,
      "loss": 0.0951,
      "step": 3940
    },
    {
      "epoch": 0.929466439202306,
      "grad_norm": 0.5754973292350769,
      "learning_rate": 2.1110849611673332e-05,
      "loss": 0.1023,
      "step": 3950
    },
    {
      "epoch": 0.9318195187952233,
      "grad_norm": 0.3798030912876129,
      "learning_rate": 2.0404801129677567e-05,
      "loss": 0.0997,
      "step": 3960
    },
    {
      "epoch": 0.9341725983881405,
      "grad_norm": 0.6593634486198425,
      "learning_rate": 1.9698752647681806e-05,
      "loss": 0.1056,
      "step": 3970
    },
    {
      "epoch": 0.9365256779810577,
      "grad_norm": 0.46481505036354065,
      "learning_rate": 1.899270416568604e-05,
      "loss": 0.0795,
      "step": 3980
    },
    {
      "epoch": 0.938878757573975,
      "grad_norm": 0.5140686631202698,
      "learning_rate": 1.828665568369028e-05,
      "loss": 0.0809,
      "step": 3990
    },
    {
      "epoch": 0.9412318371668922,
      "grad_norm": 0.8201892375946045,
      "learning_rate": 1.7580607201694515e-05,
      "loss": 0.0851,
      "step": 4000
    },
    {
      "epoch": 0.9435849167598094,
      "grad_norm": 0.3848946690559387,
      "learning_rate": 1.687455871969875e-05,
      "loss": 0.0789,
      "step": 4010
    },
    {
      "epoch": 0.9459379963527267,
      "grad_norm": 0.3362932503223419,
      "learning_rate": 1.6168510237702988e-05,
      "loss": 0.0841,
      "step": 4020
    },
    {
      "epoch": 0.9482910759456439,
      "grad_norm": 0.400037556886673,
      "learning_rate": 1.5462461755707223e-05,
      "loss": 0.1004,
      "step": 4030
    },
    {
      "epoch": 0.9506441555385611,
      "grad_norm": 0.6505069136619568,
      "learning_rate": 1.475641327371146e-05,
      "loss": 0.0977,
      "step": 4040
    },
    {
      "epoch": 0.9529972351314783,
      "grad_norm": 0.710784375667572,
      "learning_rate": 1.4050364791715697e-05,
      "loss": 0.085,
      "step": 4050
    },
    {
      "epoch": 0.9553503147243956,
      "grad_norm": 0.4263714849948883,
      "learning_rate": 1.3344316309719934e-05,
      "loss": 0.1044,
      "step": 4060
    },
    {
      "epoch": 0.9577033943173128,
      "grad_norm": 0.42400240898132324,
      "learning_rate": 1.2638267827724171e-05,
      "loss": 0.1113,
      "step": 4070
    },
    {
      "epoch": 0.96005647391023,
      "grad_norm": 0.2722209393978119,
      "learning_rate": 1.1932219345728404e-05,
      "loss": 0.0792,
      "step": 4080
    },
    {
      "epoch": 0.9624095535031473,
      "grad_norm": 0.9779515862464905,
      "learning_rate": 1.1226170863732641e-05,
      "loss": 0.1044,
      "step": 4090
    },
    {
      "epoch": 0.9647626330960645,
      "grad_norm": 1.028387188911438,
      "learning_rate": 1.0520122381736878e-05,
      "loss": 0.1043,
      "step": 4100
    },
    {
      "epoch": 0.9671157126889817,
      "grad_norm": 0.5009176135063171,
      "learning_rate": 9.814073899741115e-06,
      "loss": 0.087,
      "step": 4110
    },
    {
      "epoch": 0.969468792281899,
      "grad_norm": 0.33020302653312683,
      "learning_rate": 9.10802541774535e-06,
      "loss": 0.092,
      "step": 4120
    },
    {
      "epoch": 0.9718218718748162,
      "grad_norm": 0.4314991533756256,
      "learning_rate": 8.401976935749587e-06,
      "loss": 0.075,
      "step": 4130
    },
    {
      "epoch": 0.9741749514677334,
      "grad_norm": 0.6121822595596313,
      "learning_rate": 7.695928453753824e-06,
      "loss": 0.0892,
      "step": 4140
    },
    {
      "epoch": 0.9765280310606507,
      "grad_norm": 0.3374115824699402,
      "learning_rate": 6.989879971758061e-06,
      "loss": 0.0755,
      "step": 4150
    },
    {
      "epoch": 0.9788811106535679,
      "grad_norm": 0.5865825414657593,
      "learning_rate": 6.283831489762297e-06,
      "loss": 0.0957,
      "step": 4160
    },
    {
      "epoch": 0.9812341902464851,
      "grad_norm": 0.2131696194410324,
      "learning_rate": 5.577783007766533e-06,
      "loss": 0.0849,
      "step": 4170
    },
    {
      "epoch": 0.9835872698394024,
      "grad_norm": 1.3489303588867188,
      "learning_rate": 4.871734525770769e-06,
      "loss": 0.098,
      "step": 4180
    },
    {
      "epoch": 0.9859403494323196,
      "grad_norm": 0.15470068156719208,
      "learning_rate": 4.1656860437750056e-06,
      "loss": 0.0847,
      "step": 4190
    },
    {
      "epoch": 0.9882934290252368,
      "grad_norm": 0.8059414625167847,
      "learning_rate": 3.459637561779242e-06,
      "loss": 0.1094,
      "step": 4200
    },
    {
      "epoch": 0.990646508618154,
      "grad_norm": 0.6808902621269226,
      "learning_rate": 2.753589079783478e-06,
      "loss": 0.0867,
      "step": 4210
    },
    {
      "epoch": 0.9929995882110713,
      "grad_norm": 0.29802441596984863,
      "learning_rate": 2.0475405977877145e-06,
      "loss": 0.0866,
      "step": 4220
    },
    {
      "epoch": 0.9953526678039885,
      "grad_norm": 0.5227815508842468,
      "learning_rate": 1.341492115791951e-06,
      "loss": 0.0758,
      "step": 4230
    },
    {
      "epoch": 0.9977057473969057,
      "grad_norm": 0.25185248255729675,
      "learning_rate": 6.354436337961872e-07,
      "loss": 0.0906,
      "step": 4240
    },
    {
      "epoch": 0.9998235190305312,
      "step": 4249,
      "total_flos": 1.037665224400896e+16,
      "train_loss": 0.1519955188758403,
      "train_runtime": 5739.131,
      "train_samples_per_second": 11.848,
      "train_steps_per_second": 0.74
    }
  ],
  "logging_steps": 10,
  "max_steps": 4249,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "total_flos": 1.037665224400896e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}