{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.751593533487298,
  "eval_steps": 339,
  "global_step": 1017,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007390300230946883,
      "grad_norm": 0.28445693850517273,
      "learning_rate": 2e-05,
      "loss": 2.4429,
      "step": 1
    },
    {
      "epoch": 0.0014780600461893765,
      "grad_norm": 0.29179632663726807,
      "learning_rate": 4e-05,
      "loss": 2.3901,
      "step": 2
    },
    {
      "epoch": 0.0022170900692840647,
      "grad_norm": 0.2817339599132538,
      "learning_rate": 6e-05,
      "loss": 2.3821,
      "step": 3
    },
    {
      "epoch": 0.002956120092378753,
      "grad_norm": 0.30058419704437256,
      "learning_rate": 8e-05,
      "loss": 2.4339,
      "step": 4
    },
    {
      "epoch": 0.003695150115473441,
      "grad_norm": 0.33180108666419983,
      "learning_rate": 0.0001,
      "loss": 2.4256,
      "step": 5
    },
    {
      "epoch": 0.004434180138568129,
      "grad_norm": 0.40896478295326233,
      "learning_rate": 0.00012,
      "loss": 2.3897,
      "step": 6
    },
    {
      "epoch": 0.005173210161662818,
      "grad_norm": 0.41193729639053345,
      "learning_rate": 0.00014,
      "loss": 2.3276,
      "step": 7
    },
    {
      "epoch": 0.005912240184757506,
      "grad_norm": 0.5030415654182434,
      "learning_rate": 0.00016,
      "loss": 2.2947,
      "step": 8
    },
    {
      "epoch": 0.006651270207852194,
      "grad_norm": 0.6456415057182312,
      "learning_rate": 0.00018,
      "loss": 2.1825,
      "step": 9
    },
    {
      "epoch": 0.007390300230946882,
      "grad_norm": 0.5602135062217712,
      "learning_rate": 0.0002,
      "loss": 2.1948,
      "step": 10
    },
    {
      "epoch": 0.00812933025404157,
      "grad_norm": 0.5822381377220154,
      "learning_rate": 0.0001999997268060896,
      "loss": 2.0951,
      "step": 11
    },
    {
      "epoch": 0.008868360277136259,
      "grad_norm": 0.5514818429946899,
      "learning_rate": 0.00019999890722585106,
      "loss": 2.1927,
      "step": 12
    },
    {
      "epoch": 0.009607390300230946,
      "grad_norm": 0.7573062181472778,
      "learning_rate": 0.00019999754126376248,
      "loss": 1.982,
      "step": 13
    },
    {
      "epoch": 0.010346420323325636,
      "grad_norm": 0.7727537751197815,
      "learning_rate": 0.0001999956289272873,
      "loss": 2.063,
      "step": 14
    },
    {
      "epoch": 0.011085450346420323,
      "grad_norm": 0.7200252413749695,
      "learning_rate": 0.0001999931702268743,
      "loss": 1.8071,
      "step": 15
    },
    {
      "epoch": 0.011824480369515012,
      "grad_norm": 0.6670621037483215,
      "learning_rate": 0.00019999016517595753,
      "loss": 1.8641,
      "step": 16
    },
    {
      "epoch": 0.0125635103926097,
      "grad_norm": 0.5502391457557678,
      "learning_rate": 0.0001999866137909562,
      "loss": 1.7883,
      "step": 17
    },
    {
      "epoch": 0.013302540415704387,
      "grad_norm": 0.5716455578804016,
      "learning_rate": 0.00019998251609127464,
      "loss": 1.7634,
      "step": 18
    },
    {
      "epoch": 0.014041570438799077,
      "grad_norm": 0.5588633418083191,
      "learning_rate": 0.00019997787209930222,
      "loss": 1.7874,
      "step": 19
    },
    {
      "epoch": 0.014780600461893764,
      "grad_norm": 0.5597399473190308,
      "learning_rate": 0.00019997268184041315,
      "loss": 1.8516,
      "step": 20
    },
    {
      "epoch": 0.015519630484988453,
      "grad_norm": 0.5341576933860779,
      "learning_rate": 0.0001999669453429663,
      "loss": 1.7238,
      "step": 21
    },
    {
      "epoch": 0.01625866050808314,
      "grad_norm": 0.5488370656967163,
      "learning_rate": 0.00019996066263830531,
      "loss": 1.5884,
      "step": 22
    },
    {
      "epoch": 0.01699769053117783,
      "grad_norm": 0.5295024514198303,
      "learning_rate": 0.000199953833760758,
      "loss": 1.6445,
      "step": 23
    },
    {
      "epoch": 0.017736720554272518,
      "grad_norm": 0.5288105607032776,
      "learning_rate": 0.00019994645874763658,
      "loss": 1.6985,
      "step": 24
    },
    {
      "epoch": 0.018475750577367205,
      "grad_norm": 0.46957650780677795,
      "learning_rate": 0.00019993853763923723,
      "loss": 1.5747,
      "step": 25
    },
    {
      "epoch": 0.019214780600461893,
      "grad_norm": 0.5543513298034668,
      "learning_rate": 0.00019993007047883988,
      "loss": 1.6873,
      "step": 26
    },
    {
      "epoch": 0.01995381062355658,
      "grad_norm": 0.5104862451553345,
      "learning_rate": 0.00019992105731270806,
      "loss": 1.6576,
      "step": 27
    },
    {
      "epoch": 0.02069284064665127,
      "grad_norm": 0.5159265398979187,
      "learning_rate": 0.0001999114981900887,
      "loss": 1.5179,
      "step": 28
    },
    {
      "epoch": 0.02143187066974596,
      "grad_norm": 0.5056713223457336,
      "learning_rate": 0.00019990139316321162,
      "loss": 1.5356,
      "step": 29
    },
    {
      "epoch": 0.022170900692840646,
      "grad_norm": 0.5129203200340271,
      "learning_rate": 0.0001998907422872894,
      "loss": 1.5958,
      "step": 30
    },
    {
      "epoch": 0.022909930715935334,
      "grad_norm": 0.48401662707328796,
      "learning_rate": 0.00019987954562051725,
      "loss": 1.5224,
      "step": 31
    },
    {
      "epoch": 0.023648960739030025,
      "grad_norm": 0.5618879199028015,
      "learning_rate": 0.0001998678032240723,
      "loss": 1.5104,
      "step": 32
    },
    {
      "epoch": 0.024387990762124712,
      "grad_norm": 0.4960162341594696,
      "learning_rate": 0.00019985551516211363,
      "loss": 1.4543,
      "step": 33
    },
    {
      "epoch": 0.0251270207852194,
      "grad_norm": 0.5250460505485535,
      "learning_rate": 0.00019984268150178167,
      "loss": 1.4875,
      "step": 34
    },
    {
      "epoch": 0.025866050808314087,
      "grad_norm": 0.5298622250556946,
      "learning_rate": 0.000199829302313198,
      "loss": 1.4806,
      "step": 35
    },
    {
      "epoch": 0.026605080831408775,
      "grad_norm": 0.5337010622024536,
      "learning_rate": 0.00019981537766946484,
      "loss": 1.4362,
      "step": 36
    },
    {
      "epoch": 0.027344110854503466,
      "grad_norm": 0.5547342896461487,
      "learning_rate": 0.00019980090764666484,
      "loss": 1.42,
      "step": 37
    },
    {
      "epoch": 0.028083140877598153,
      "grad_norm": 0.6127516031265259,
      "learning_rate": 0.00019978589232386035,
      "loss": 1.5045,
      "step": 38
    },
    {
      "epoch": 0.02882217090069284,
      "grad_norm": 0.6013278961181641,
      "learning_rate": 0.00019977033178309332,
      "loss": 1.399,
      "step": 39
    },
    {
      "epoch": 0.02956120092378753,
      "grad_norm": 0.6086967587471008,
      "learning_rate": 0.00019975422610938462,
      "loss": 1.5074,
      "step": 40
    },
    {
      "epoch": 0.030300230946882216,
      "grad_norm": 0.5725852251052856,
      "learning_rate": 0.00019973757539073366,
      "loss": 1.4008,
      "step": 41
    },
    {
      "epoch": 0.031039260969976907,
      "grad_norm": 0.5895068645477295,
      "learning_rate": 0.00019972037971811802,
      "loss": 1.3806,
      "step": 42
    },
    {
      "epoch": 0.03177829099307159,
      "grad_norm": 0.6453219652175903,
      "learning_rate": 0.00019970263918549274,
      "loss": 1.4198,
      "step": 43
    },
    {
      "epoch": 0.03251732101616628,
      "grad_norm": 0.6505680680274963,
      "learning_rate": 0.00019968435388978984,
      "loss": 1.3372,
      "step": 44
    },
    {
      "epoch": 0.03325635103926097,
      "grad_norm": 0.6056419610977173,
      "learning_rate": 0.00019966552393091804,
      "loss": 1.469,
      "step": 45
    },
    {
      "epoch": 0.03399538106235566,
      "grad_norm": 0.6102748513221741,
      "learning_rate": 0.00019964614941176195,
      "loss": 1.3936,
      "step": 46
    },
    {
      "epoch": 0.03473441108545035,
      "grad_norm": 0.6670014262199402,
      "learning_rate": 0.0001996262304381815,
      "loss": 1.4494,
      "step": 47
    },
    {
      "epoch": 0.035473441108545035,
      "grad_norm": 0.6455273628234863,
      "learning_rate": 0.0001996057671190116,
      "loss": 1.3751,
      "step": 48
    },
    {
      "epoch": 0.03621247113163972,
      "grad_norm": 0.7513327598571777,
      "learning_rate": 0.00019958475956606133,
      "loss": 1.3117,
      "step": 49
    },
    {
      "epoch": 0.03695150115473441,
      "grad_norm": 0.9054344296455383,
      "learning_rate": 0.00019956320789411337,
      "loss": 1.3539,
      "step": 50
    },
    {
      "epoch": 0.0376905311778291,
      "grad_norm": 0.9372498393058777,
      "learning_rate": 0.0001995411122209235,
      "loss": 1.6853,
      "step": 51
    },
    {
      "epoch": 0.038429561200923786,
      "grad_norm": 0.7269093990325928,
      "learning_rate": 0.0001995184726672197,
      "loss": 1.57,
      "step": 52
    },
    {
      "epoch": 0.03916859122401847,
      "grad_norm": 0.5858988165855408,
      "learning_rate": 0.0001994952893567018,
      "loss": 1.562,
      "step": 53
    },
    {
      "epoch": 0.03990762124711316,
      "grad_norm": 0.5487177968025208,
      "learning_rate": 0.0001994715624160405,
      "loss": 1.5386,
      "step": 54
    },
    {
      "epoch": 0.040646651270207855,
      "grad_norm": 0.5064343810081482,
      "learning_rate": 0.000199447291974877,
      "loss": 1.5388,
      "step": 55
    },
    {
      "epoch": 0.04138568129330254,
      "grad_norm": 0.5542464852333069,
      "learning_rate": 0.00019942247816582206,
      "loss": 1.5782,
      "step": 56
    },
    {
      "epoch": 0.04212471131639723,
      "grad_norm": 0.4966641366481781,
      "learning_rate": 0.0001993971211244552,
      "loss": 1.553,
      "step": 57
    },
    {
      "epoch": 0.04286374133949192,
      "grad_norm": 0.5189726948738098,
      "learning_rate": 0.00019937122098932428,
      "loss": 1.6311,
      "step": 58
    },
    {
      "epoch": 0.043602771362586605,
      "grad_norm": 0.5218034386634827,
      "learning_rate": 0.00019934477790194445,
      "loss": 1.5521,
      "step": 59
    },
    {
      "epoch": 0.04434180138568129,
      "grad_norm": 0.508686900138855,
      "learning_rate": 0.00019931779200679754,
      "loss": 1.5422,
      "step": 60
    },
    {
      "epoch": 0.04508083140877598,
      "grad_norm": 0.5377617478370667,
      "learning_rate": 0.00019929026345133122,
      "loss": 1.5917,
      "step": 61
    },
    {
      "epoch": 0.04581986143187067,
      "grad_norm": 0.5116790533065796,
      "learning_rate": 0.0001992621923859581,
      "loss": 1.4704,
      "step": 62
    },
    {
      "epoch": 0.046558891454965355,
      "grad_norm": 0.5361059308052063,
      "learning_rate": 0.0001992335789640551,
      "loss": 1.4224,
      "step": 63
    },
    {
      "epoch": 0.04729792147806005,
      "grad_norm": 0.5476115942001343,
      "learning_rate": 0.00019920442334196248,
      "loss": 1.5285,
      "step": 64
    },
    {
      "epoch": 0.04803695150115474,
      "grad_norm": 0.5032305121421814,
      "learning_rate": 0.00019917472567898298,
      "loss": 1.4541,
      "step": 65
    },
    {
      "epoch": 0.048775981524249425,
      "grad_norm": 0.5520541667938232,
      "learning_rate": 0.00019914448613738106,
      "loss": 1.3816,
      "step": 66
    },
    {
      "epoch": 0.04951501154734411,
      "grad_norm": 0.5272241234779358,
      "learning_rate": 0.00019911370488238182,
      "loss": 1.4876,
      "step": 67
    },
    {
      "epoch": 0.0502540415704388,
      "grad_norm": 0.5117990374565125,
      "learning_rate": 0.00019908238208217038,
      "loss": 1.3589,
      "step": 68
    },
    {
      "epoch": 0.05099307159353349,
      "grad_norm": 0.4740864336490631,
      "learning_rate": 0.00019905051790789063,
      "loss": 1.4735,
      "step": 69
    },
    {
      "epoch": 0.051732101616628175,
      "grad_norm": 0.5404263734817505,
      "learning_rate": 0.00019901811253364456,
      "loss": 1.3829,
      "step": 70
    },
    {
      "epoch": 0.05247113163972286,
      "grad_norm": 0.520529568195343,
      "learning_rate": 0.0001989851661364912,
      "loss": 1.5811,
      "step": 71
    },
    {
      "epoch": 0.05321016166281755,
      "grad_norm": 0.4942869544029236,
      "learning_rate": 0.00019895167889644565,
      "loss": 1.3929,
      "step": 72
    },
    {
      "epoch": 0.05394919168591224,
      "grad_norm": 0.5358130931854248,
      "learning_rate": 0.0001989176509964781,
      "loss": 1.3505,
      "step": 73
    },
    {
      "epoch": 0.05468822170900693,
      "grad_norm": 0.4918365180492401,
      "learning_rate": 0.00019888308262251285,
      "loss": 1.3765,
      "step": 74
    },
    {
      "epoch": 0.05542725173210162,
      "grad_norm": 0.5435618162155151,
      "learning_rate": 0.0001988479739634273,
      "loss": 1.4613,
      "step": 75
    },
    {
      "epoch": 0.05616628175519631,
      "grad_norm": 0.5931843519210815,
      "learning_rate": 0.00019881232521105089,
      "loss": 1.4522,
      "step": 76
    },
    {
      "epoch": 0.056905311778290994,
      "grad_norm": 0.555609941482544,
      "learning_rate": 0.00019877613656016404,
      "loss": 1.4353,
      "step": 77
    },
    {
      "epoch": 0.05764434180138568,
      "grad_norm": 0.5417580008506775,
      "learning_rate": 0.00019873940820849714,
      "loss": 1.5403,
      "step": 78
    },
    {
      "epoch": 0.05838337182448037,
      "grad_norm": 0.5328342914581299,
      "learning_rate": 0.00019870214035672942,
      "loss": 1.3343,
      "step": 79
    },
    {
      "epoch": 0.05912240184757506,
      "grad_norm": 0.5909145474433899,
      "learning_rate": 0.0001986643332084879,
      "loss": 1.4479,
      "step": 80
    },
    {
      "epoch": 0.059861431870669744,
      "grad_norm": 0.547067403793335,
      "learning_rate": 0.00019862598697034623,
      "loss": 1.3555,
      "step": 81
    },
    {
      "epoch": 0.06060046189376443,
      "grad_norm": 0.5918954014778137,
      "learning_rate": 0.0001985871018518236,
      "loss": 1.4405,
      "step": 82
    },
    {
      "epoch": 0.06133949191685912,
      "grad_norm": 0.5711405277252197,
      "learning_rate": 0.00019854767806538353,
      "loss": 1.411,
      "step": 83
    },
    {
      "epoch": 0.062078521939953814,
      "grad_norm": 0.5407302379608154,
      "learning_rate": 0.0001985077158264328,
      "loss": 1.4155,
      "step": 84
    },
    {
      "epoch": 0.0628175519630485,
      "grad_norm": 0.5930753946304321,
      "learning_rate": 0.00019846721535332021,
      "loss": 1.3607,
      "step": 85
    },
    {
      "epoch": 0.06355658198614318,
      "grad_norm": 0.5725079774856567,
      "learning_rate": 0.00019842617686733545,
      "loss": 1.466,
      "step": 86
    },
    {
      "epoch": 0.06429561200923788,
      "grad_norm": 0.5755025744438171,
      "learning_rate": 0.00019838460059270775,
      "loss": 1.392,
      "step": 87
    },
    {
      "epoch": 0.06503464203233256,
      "grad_norm": 0.5814444422721863,
      "learning_rate": 0.00019834248675660486,
      "loss": 1.3193,
      "step": 88
    },
    {
      "epoch": 0.06577367205542725,
      "grad_norm": 0.6352187991142273,
      "learning_rate": 0.00019829983558913164,
      "loss": 1.3334,
      "step": 89
    },
    {
      "epoch": 0.06651270207852195,
      "grad_norm": 0.6275665760040283,
      "learning_rate": 0.00019825664732332884,
      "loss": 1.3421,
      "step": 90
    },
    {
      "epoch": 0.06725173210161663,
      "grad_norm": 0.6473498344421387,
      "learning_rate": 0.00019821292219517192,
      "loss": 1.3323,
      "step": 91
    },
    {
      "epoch": 0.06799076212471132,
      "grad_norm": 0.6795655488967896,
      "learning_rate": 0.00019816866044356966,
      "loss": 1.3727,
      "step": 92
    },
    {
      "epoch": 0.068729792147806,
      "grad_norm": 0.5935929417610168,
      "learning_rate": 0.00019812386231036287,
      "loss": 1.1947,
      "step": 93
    },
    {
      "epoch": 0.0694688221709007,
      "grad_norm": 0.6426559090614319,
      "learning_rate": 0.00019807852804032305,
      "loss": 1.1849,
      "step": 94
    },
    {
      "epoch": 0.07020785219399538,
      "grad_norm": 0.6587180495262146,
      "learning_rate": 0.0001980326578811512,
      "loss": 1.3974,
      "step": 95
    },
    {
      "epoch": 0.07094688221709007,
      "grad_norm": 0.6331837773323059,
      "learning_rate": 0.00019798625208347626,
      "loss": 1.2123,
      "step": 96
    },
    {
      "epoch": 0.07168591224018475,
      "grad_norm": 0.6309564113616943,
      "learning_rate": 0.0001979393109008538,
      "loss": 1.3133,
      "step": 97
    },
    {
      "epoch": 0.07242494226327945,
      "grad_norm": 0.7244063019752502,
      "learning_rate": 0.00019789183458976484,
      "loss": 1.2675,
      "step": 98
    },
    {
      "epoch": 0.07316397228637414,
      "grad_norm": 0.6750354170799255,
      "learning_rate": 0.0001978438234096141,
      "loss": 1.2582,
      "step": 99
    },
    {
      "epoch": 0.07390300230946882,
      "grad_norm": 0.756820023059845,
      "learning_rate": 0.00019779527762272877,
      "loss": 1.188,
      "step": 100
    },
    {
      "epoch": 0.07464203233256352,
      "grad_norm": 0.8383729457855225,
      "learning_rate": 0.0001977461974943572,
      "loss": 1.4812,
      "step": 101
    },
    {
      "epoch": 0.0753810623556582,
      "grad_norm": 0.7774032950401306,
      "learning_rate": 0.00019769658329266718,
      "loss": 1.4528,
      "step": 102
    },
    {
      "epoch": 0.07612009237875289,
      "grad_norm": 0.6424005031585693,
      "learning_rate": 0.0001976464352887447,
      "loss": 1.5406,
      "step": 103
    },
    {
      "epoch": 0.07685912240184757,
      "grad_norm": 0.5483790636062622,
      "learning_rate": 0.0001975957537565923,
      "loss": 1.5397,
      "step": 104
    },
    {
      "epoch": 0.07759815242494227,
      "grad_norm": 0.5332686305046082,
      "learning_rate": 0.00019754453897312776,
      "loss": 1.5657,
      "step": 105
    },
    {
      "epoch": 0.07833718244803695,
      "grad_norm": 0.5492769479751587,
      "learning_rate": 0.00019749279121818235,
      "loss": 1.414,
      "step": 106
    },
    {
      "epoch": 0.07907621247113164,
      "grad_norm": 0.5575630068778992,
      "learning_rate": 0.00019744051077449958,
      "loss": 1.4366,
      "step": 107
    },
    {
      "epoch": 0.07981524249422632,
      "grad_norm": 0.5525916218757629,
      "learning_rate": 0.00019738769792773336,
      "loss": 1.4028,
      "step": 108
    },
    {
      "epoch": 0.08055427251732102,
      "grad_norm": 0.5608003735542297,
      "learning_rate": 0.0001973343529664467,
      "loss": 1.4374,
      "step": 109
    },
    {
      "epoch": 0.08129330254041571,
      "grad_norm": 0.5365571975708008,
      "learning_rate": 0.00019728047618210995,
      "loss": 1.4762,
      "step": 110
    },
    {
      "epoch": 0.08203233256351039,
      "grad_norm": 0.5506092309951782,
      "learning_rate": 0.00019722606786909928,
      "loss": 1.4612,
      "step": 111
    },
    {
      "epoch": 0.08277136258660509,
      "grad_norm": 0.5479370951652527,
      "learning_rate": 0.0001971711283246951,
      "loss": 1.3684,
      "step": 112
    },
    {
      "epoch": 0.08351039260969977,
      "grad_norm": 0.5523384809494019,
      "learning_rate": 0.0001971156578490804,
      "loss": 1.4249,
      "step": 113
    },
    {
      "epoch": 0.08424942263279446,
      "grad_norm": 0.5477160215377808,
      "learning_rate": 0.0001970596567453391,
      "loss": 1.3939,
      "step": 114
    },
    {
      "epoch": 0.08498845265588914,
      "grad_norm": 0.5743998885154724,
      "learning_rate": 0.00019700312531945442,
      "loss": 1.3112,
      "step": 115
    },
    {
      "epoch": 0.08572748267898384,
      "grad_norm": 0.5415252447128296,
      "learning_rate": 0.00019694606388030714,
      "loss": 1.4277,
      "step": 116
    },
    {
      "epoch": 0.08646651270207852,
      "grad_norm": 0.5661088228225708,
      "learning_rate": 0.00019688847273967408,
      "loss": 1.4732,
      "step": 117
    },
    {
      "epoch": 0.08720554272517321,
      "grad_norm": 0.575371265411377,
      "learning_rate": 0.00019683035221222618,
      "loss": 1.5413,
      "step": 118
    },
    {
      "epoch": 0.0879445727482679,
      "grad_norm": 0.5685011148452759,
      "learning_rate": 0.0001967717026155269,
      "loss": 1.3022,
      "step": 119
    },
    {
      "epoch": 0.08868360277136259,
      "grad_norm": 0.5517380237579346,
      "learning_rate": 0.0001967125242700305,
      "loss": 1.3629,
      "step": 120
    },
    {
      "epoch": 0.08942263279445728,
      "grad_norm": 0.52717125415802,
      "learning_rate": 0.00019665281749908033,
      "loss": 1.4211,
      "step": 121
    },
    {
      "epoch": 0.09016166281755196,
      "grad_norm": 0.5589820146560669,
      "learning_rate": 0.00019659258262890683,
      "loss": 1.3685,
      "step": 122
    },
    {
      "epoch": 0.09090069284064665,
      "grad_norm": 0.554975152015686,
      "learning_rate": 0.00019653181998862605,
      "loss": 1.3504,
      "step": 123
    },
    {
      "epoch": 0.09163972286374134,
      "grad_norm": 0.5473670363426208,
      "learning_rate": 0.0001964705299102376,
      "loss": 1.3896,
      "step": 124
    },
    {
      "epoch": 0.09237875288683603,
      "grad_norm": 0.5830941200256348,
      "learning_rate": 0.00019640871272862302,
      "loss": 1.3746,
      "step": 125
    },
    {
      "epoch": 0.09311778290993071,
      "grad_norm": 0.5669069886207581,
      "learning_rate": 0.0001963463687815439,
      "loss": 1.3616,
      "step": 126
    },
    {
      "epoch": 0.0938568129330254,
      "grad_norm": 0.5484316349029541,
      "learning_rate": 0.00019628349840963995,
      "loss": 1.3861,
      "step": 127
    },
    {
      "epoch": 0.0945958429561201,
      "grad_norm": 0.575820803642273,
      "learning_rate": 0.0001962201019564272,
      "loss": 1.4359,
      "step": 128
    },
    {
      "epoch": 0.09533487297921478,
      "grad_norm": 0.6144632697105408,
      "learning_rate": 0.0001961561797682962,
      "loss": 1.3647,
      "step": 129
    },
    {
      "epoch": 0.09607390300230947,
      "grad_norm": 0.5250790119171143,
      "learning_rate": 0.00019609173219450998,
      "loss": 1.3388,
      "step": 130
    },
    {
      "epoch": 0.09681293302540415,
      "grad_norm": 0.5750842690467834,
      "learning_rate": 0.00019602675958720222,
      "loss": 1.3261,
      "step": 131
    },
    {
      "epoch": 0.09755196304849885,
      "grad_norm": 0.6002311110496521,
      "learning_rate": 0.0001959612623013753,
      "loss": 1.3191,
      "step": 132
    },
    {
      "epoch": 0.09829099307159353,
      "grad_norm": 0.6042346358299255,
      "learning_rate": 0.0001958952406948985,
      "loss": 1.4186,
      "step": 133
    },
    {
      "epoch": 0.09903002309468822,
      "grad_norm": 0.5963033437728882,
      "learning_rate": 0.00019582869512850575,
      "loss": 1.3097,
      "step": 134
    },
    {
      "epoch": 0.0997690531177829,
      "grad_norm": 0.6063159108161926,
      "learning_rate": 0.00019576162596579398,
      "loss": 1.2953,
      "step": 135
    },
    {
      "epoch": 0.1005080831408776,
      "grad_norm": 0.6035741567611694,
      "learning_rate": 0.0001956940335732209,
      "loss": 1.2587,
      "step": 136
    },
    {
      "epoch": 0.10124711316397228,
      "grad_norm": 0.6164197325706482,
      "learning_rate": 0.00019562591832010312,
      "loss": 1.2506,
      "step": 137
    },
    {
      "epoch": 0.10198614318706697,
      "grad_norm": 0.6317465901374817,
      "learning_rate": 0.0001955572805786141,
      "loss": 1.2468,
      "step": 138
    },
    {
      "epoch": 0.10272517321016167,
      "grad_norm": 0.6092981100082397,
      "learning_rate": 0.00019548812072378205,
      "loss": 1.3587,
      "step": 139
    },
    {
      "epoch": 0.10346420323325635,
      "grad_norm": 0.5777646899223328,
      "learning_rate": 0.00019541843913348805,
      "loss": 1.2411,
      "step": 140
    },
    {
      "epoch": 0.10420323325635104,
      "grad_norm": 0.6096122860908508,
      "learning_rate": 0.0001953482361884638,
      "loss": 1.312,
      "step": 141
    },
    {
      "epoch": 0.10494226327944572,
      "grad_norm": 0.6345865726470947,
      "learning_rate": 0.00019527751227228963,
      "loss": 1.3237,
      "step": 142
    },
    {
      "epoch": 0.10568129330254042,
      "grad_norm": 0.6634990572929382,
      "learning_rate": 0.00019520626777139245,
      "loss": 1.2627,
      "step": 143
    },
    {
      "epoch": 0.1064203233256351,
      "grad_norm": 0.6250754594802856,
      "learning_rate": 0.00019513450307504348,
      "loss": 1.225,
      "step": 144
    },
    {
      "epoch": 0.1071593533487298,
      "grad_norm": 0.620894730091095,
      "learning_rate": 0.0001950622185753563,
      "loss": 1.2129,
      "step": 145
    },
    {
      "epoch": 0.10789838337182447,
      "grad_norm": 0.6956132650375366,
      "learning_rate": 0.0001949894146672846,
      "loss": 1.2102,
      "step": 146
    },
    {
      "epoch": 0.10863741339491917,
      "grad_norm": 0.6677895188331604,
      "learning_rate": 0.0001949160917486201,
      "loss": 1.3946,
      "step": 147
    },
    {
      "epoch": 0.10937644341801386,
      "grad_norm": 0.6752551794052124,
      "learning_rate": 0.0001948422502199903,
      "loss": 1.2736,
      "step": 148
    },
    {
      "epoch": 0.11011547344110854,
      "grad_norm": 0.722882866859436,
      "learning_rate": 0.00019476789048485625,
      "loss": 1.2468,
      "step": 149
    },
    {
      "epoch": 0.11085450346420324,
      "grad_norm": 0.8097449541091919,
      "learning_rate": 0.0001946930129495106,
      "loss": 1.1638,
      "step": 150
    },
    {
      "epoch": 0.11159353348729792,
      "grad_norm": 0.6544808149337769,
      "learning_rate": 0.00019461761802307495,
      "loss": 1.4192,
      "step": 151
    },
    {
      "epoch": 0.11233256351039261,
      "grad_norm": 0.699939489364624,
      "learning_rate": 0.0001945417061174981,
      "loss": 1.5052,
      "step": 152
    },
    {
      "epoch": 0.1130715935334873,
      "grad_norm": 0.6666662693023682,
      "learning_rate": 0.00019446527764755342,
      "loss": 1.4816,
      "step": 153
    },
    {
      "epoch": 0.11381062355658199,
      "grad_norm": 0.5622819066047668,
      "learning_rate": 0.00019438833303083678,
      "loss": 1.4172,
      "step": 154
    },
    {
      "epoch": 0.11454965357967667,
      "grad_norm": 0.553104043006897,
      "learning_rate": 0.00019431087268776412,
      "loss": 1.469,
      "step": 155
    },
    {
      "epoch": 0.11528868360277136,
      "grad_norm": 0.5369597673416138,
      "learning_rate": 0.00019423289704156944,
      "loss": 1.402,
      "step": 156
    },
    {
      "epoch": 0.11602771362586604,
      "grad_norm": 0.5744510293006897,
      "learning_rate": 0.00019415440651830208,
      "loss": 1.4662,
      "step": 157
    },
    {
      "epoch": 0.11676674364896074,
      "grad_norm": 0.5344292521476746,
      "learning_rate": 0.00019407540154682472,
      "loss": 1.4505,
      "step": 158
    },
    {
      "epoch": 0.11750577367205543,
      "grad_norm": 0.5716887712478638,
      "learning_rate": 0.00019399588255881095,
      "loss": 1.3221,
      "step": 159
    },
    {
      "epoch": 0.11824480369515011,
      "grad_norm": 0.605213463306427,
      "learning_rate": 0.0001939158499887428,
      "loss": 1.4441,
      "step": 160
    },
    {
      "epoch": 0.11898383371824481,
      "grad_norm": 0.5874771475791931,
      "learning_rate": 0.00019383530427390845,
      "loss": 1.4283,
      "step": 161
    },
    {
      "epoch": 0.11972286374133949,
      "grad_norm": 0.559944748878479,
      "learning_rate": 0.00019375424585439994,
      "loss": 1.429,
      "step": 162
    },
    {
      "epoch": 0.12046189376443418,
      "grad_norm": 0.5637052655220032,
      "learning_rate": 0.00019367267517311057,
      "loss": 1.4297,
      "step": 163
    },
    {
      "epoch": 0.12120092378752886,
      "grad_norm": 0.5483446717262268,
      "learning_rate": 0.0001935905926757326,
      "loss": 1.3687,
      "step": 164
    },
    {
      "epoch": 0.12193995381062356,
      "grad_norm": 0.5452646613121033,
      "learning_rate": 0.0001935079988107548,
      "loss": 1.372,
      "step": 165
    },
    {
      "epoch": 0.12267898383371824,
      "grad_norm": 0.5680147409439087,
      "learning_rate": 0.00019342489402945998,
      "loss": 1.3185,
      "step": 166
    },
    {
      "epoch": 0.12341801385681293,
      "grad_norm": 0.5470596551895142,
      "learning_rate": 0.0001933412787859226,
      "loss": 1.2954,
      "step": 167
    },
    {
      "epoch": 0.12415704387990763,
      "grad_norm": 0.5497071146965027,
      "learning_rate": 0.00019325715353700612,
      "loss": 1.2835,
      "step": 168
    },
    {
      "epoch": 0.12489607390300231,
      "grad_norm": 0.5771080851554871,
      "learning_rate": 0.00019317251874236067,
      "loss": 1.3025,
      "step": 169
    },
    {
      "epoch": 0.125635103926097,
      "grad_norm": 0.5743453502655029,
      "learning_rate": 0.00019308737486442045,
      "loss": 1.4445,
      "step": 170
    },
    {
      "epoch": 0.1263741339491917,
      "grad_norm": 0.5949179530143738,
      "learning_rate": 0.00019300172236840122,
      "loss": 1.3557,
      "step": 171
    },
    {
      "epoch": 0.12711316397228636,
      "grad_norm": 0.5834474563598633,
      "learning_rate": 0.00019291556172229785,
      "loss": 1.3888,
      "step": 172
    },
    {
      "epoch": 0.12785219399538106,
      "grad_norm": 0.5603456497192383,
      "learning_rate": 0.00019282889339688152,
      "loss": 1.3958,
      "step": 173
    },
    {
      "epoch": 0.12859122401847575,
      "grad_norm": 0.545695424079895,
      "learning_rate": 0.0001927417178656975,
      "loss": 1.4188,
      "step": 174
    },
    {
      "epoch": 0.12933025404157045,
      "grad_norm": 0.5334872603416443,
      "learning_rate": 0.00019265403560506222,
      "loss": 1.3041,
      "step": 175
    },
    {
      "epoch": 0.1300692840646651,
      "grad_norm": 0.5194823741912842,
      "learning_rate": 0.00019256584709406092,
      "loss": 1.3065,
      "step": 176
    },
    {
      "epoch": 0.1308083140877598,
      "grad_norm": 0.5496664047241211,
      "learning_rate": 0.00019247715281454483,
      "loss": 1.2652,
      "step": 177
    },
    {
      "epoch": 0.1315473441108545,
      "grad_norm": 0.5467982888221741,
      "learning_rate": 0.0001923879532511287,
      "loss": 1.2742,
      "step": 178
    },
    {
      "epoch": 0.1322863741339492,
      "grad_norm": 0.5695537328720093,
      "learning_rate": 0.0001922982488911881,
      "loss": 1.2558,
      "step": 179
    },
    {
      "epoch": 0.1330254041570439,
      "grad_norm": 0.6488712430000305,
      "learning_rate": 0.00019220804022485673,
      "loss": 1.328,
      "step": 180
    },
    {
      "epoch": 0.13376443418013856,
      "grad_norm": 0.5681067109107971,
      "learning_rate": 0.00019211732774502372,
      "loss": 1.212,
      "step": 181
    },
    {
      "epoch": 0.13450346420323325,
      "grad_norm": 0.5856230854988098,
      "learning_rate": 0.00019202611194733108,
      "loss": 1.3141,
      "step": 182
    },
    {
      "epoch": 0.13524249422632795,
      "grad_norm": 0.6185610890388489,
      "learning_rate": 0.00019193439333017076,
      "loss": 1.2142,
      "step": 183
    },
    {
      "epoch": 0.13598152424942264,
      "grad_norm": 0.6463663578033447,
      "learning_rate": 0.00019184217239468212,
      "loss": 1.3062,
      "step": 184
    },
    {
      "epoch": 0.1367205542725173,
      "grad_norm": 0.6358413696289062,
      "learning_rate": 0.00019174944964474912,
      "loss": 1.3453,
      "step": 185
    },
    {
      "epoch": 0.137459584295612,
      "grad_norm": 0.5912464261054993,
      "learning_rate": 0.00019165622558699763,
      "loss": 1.226,
      "step": 186
    },
    {
      "epoch": 0.1381986143187067,
      "grad_norm": 0.594989001750946,
      "learning_rate": 0.0001915625007307925,
      "loss": 1.2544,
      "step": 187
    },
    {
      "epoch": 0.1389376443418014,
      "grad_norm": 0.6345629692077637,
      "learning_rate": 0.00019146827558823488,
      "loss": 1.2892,
      "step": 188
    },
    {
      "epoch": 0.1396766743648961,
      "grad_norm": 0.6329942345619202,
      "learning_rate": 0.00019137355067415956,
      "loss": 1.3236,
      "step": 189
    },
    {
      "epoch": 0.14041570438799075,
      "grad_norm": 0.6345098614692688,
      "learning_rate": 0.00019127832650613189,
      "loss": 1.3109,
      "step": 190
    },
    {
      "epoch": 0.14115473441108545,
      "grad_norm": 0.6320334076881409,
      "learning_rate": 0.00019118260360444515,
      "loss": 1.1869,
      "step": 191
    },
    {
      "epoch": 0.14189376443418014,
      "grad_norm": 0.6763466596603394,
      "learning_rate": 0.00019108638249211758,
      "loss": 1.2675,
      "step": 192
    },
    {
      "epoch": 0.14263279445727484,
      "grad_norm": 0.6583883166313171,
      "learning_rate": 0.00019098966369488965,
      "loss": 1.2343,
      "step": 193
    },
    {
      "epoch": 0.1433718244803695,
      "grad_norm": 0.6956462264060974,
      "learning_rate": 0.0001908924477412211,
      "loss": 1.2182,
      "step": 194
    },
    {
      "epoch": 0.1441108545034642,
      "grad_norm": 0.6666601896286011,
      "learning_rate": 0.00019079473516228802,
      "loss": 1.2542,
      "step": 195
    },
    {
      "epoch": 0.1448498845265589,
      "grad_norm": 0.6880216598510742,
      "learning_rate": 0.00019069652649198005,
      "loss": 1.2956,
      "step": 196
    },
    {
      "epoch": 0.1455889145496536,
      "grad_norm": 0.7218218445777893,
      "learning_rate": 0.00019059782226689743,
      "loss": 1.2327,
      "step": 197
    },
    {
      "epoch": 0.14632794457274828,
      "grad_norm": 0.7041550874710083,
      "learning_rate": 0.000190498623026348,
      "loss": 1.1098,
      "step": 198
    },
    {
      "epoch": 0.14706697459584295,
      "grad_norm": 0.6863833665847778,
      "learning_rate": 0.00019039892931234435,
      "loss": 1.1026,
      "step": 199
    },
    {
      "epoch": 0.14780600461893764,
      "grad_norm": 0.779849648475647,
      "learning_rate": 0.00019029874166960075,
      "loss": 1.1841,
      "step": 200
    },
    {
      "epoch": 0.14854503464203234,
      "grad_norm": 0.6933292150497437,
      "learning_rate": 0.00019019806064553033,
      "loss": 1.5087,
      "step": 201
    },
    {
      "epoch": 0.14928406466512703,
      "grad_norm": 0.6784958839416504,
      "learning_rate": 0.0001900968867902419,
      "loss": 1.4319,
      "step": 202
    },
    {
      "epoch": 0.1500230946882217,
      "grad_norm": 0.5682714581489563,
      "learning_rate": 0.00018999522065653714,
      "loss": 1.4875,
      "step": 203
    },
    {
      "epoch": 0.1507621247113164,
      "grad_norm": 0.579493522644043,
      "learning_rate": 0.00018989306279990737,
      "loss": 1.4508,
      "step": 204
    },
    {
      "epoch": 0.1515011547344111,
      "grad_norm": 0.5718240141868591,
      "learning_rate": 0.00018979041377853068,
      "loss": 1.395,
      "step": 205
    },
    {
      "epoch": 0.15224018475750578,
      "grad_norm": 0.5651891827583313,
      "learning_rate": 0.00018968727415326884,
      "loss": 1.4602,
      "step": 206
    },
    {
      "epoch": 0.15297921478060048,
      "grad_norm": 0.5313448905944824,
      "learning_rate": 0.0001895836444876642,
      "loss": 1.3149,
      "step": 207
    },
    {
      "epoch": 0.15371824480369514,
      "grad_norm": 0.5199227929115295,
      "learning_rate": 0.00018947952534793661,
      "loss": 1.3865,
      "step": 208
    },
    {
      "epoch": 0.15445727482678984,
      "grad_norm": 0.5376951098442078,
      "learning_rate": 0.0001893749173029804,
      "loss": 1.3464,
      "step": 209
    },
    {
      "epoch": 0.15519630484988453,
      "grad_norm": 0.5427209734916687,
      "learning_rate": 0.00018926982092436117,
      "loss": 1.3975,
      "step": 210
    },
    {
      "epoch": 0.15593533487297923,
      "grad_norm": 0.5505365133285522,
      "learning_rate": 0.00018916423678631272,
      "loss": 1.3386,
      "step": 211
    },
    {
      "epoch": 0.1566743648960739,
      "grad_norm": 0.5327664613723755,
      "learning_rate": 0.00018905816546573397,
      "loss": 1.3394,
      "step": 212
    },
    {
      "epoch": 0.1574133949191686,
      "grad_norm": 0.6357889175415039,
      "learning_rate": 0.00018895160754218561,
      "loss": 1.3973,
      "step": 213
    },
    {
      "epoch": 0.15815242494226328,
      "grad_norm": 0.6238565444946289,
      "learning_rate": 0.00018884456359788724,
      "loss": 1.316,
      "step": 214
    },
    {
      "epoch": 0.15889145496535798,
      "grad_norm": 0.5708216428756714,
      "learning_rate": 0.0001887370342177139,
      "loss": 1.4086,
      "step": 215
    },
    {
      "epoch": 0.15963048498845264,
      "grad_norm": 0.535525918006897,
      "learning_rate": 0.00018862901998919305,
      "loss": 1.3566,
      "step": 216
    },
    {
      "epoch": 0.16036951501154734,
      "grad_norm": 0.5682723522186279,
      "learning_rate": 0.00018852052150250122,
      "loss": 1.2551,
      "step": 217
    },
    {
      "epoch": 0.16110854503464203,
      "grad_norm": 0.550613284111023,
      "learning_rate": 0.00018841153935046098,
      "loss": 1.3302,
      "step": 218
    },
    {
      "epoch": 0.16184757505773673,
      "grad_norm": 0.553299605846405,
      "learning_rate": 0.00018830207412853756,
      "loss": 1.3329,
      "step": 219
    },
    {
      "epoch": 0.16258660508083142,
      "grad_norm": 0.5391010642051697,
      "learning_rate": 0.0001881921264348355,
      "loss": 1.3505,
      "step": 220
    },
    {
      "epoch": 0.1633256351039261,
      "grad_norm": 0.5483882427215576,
      "learning_rate": 0.00018808169687009572,
      "loss": 1.2687,
      "step": 221
    },
    {
      "epoch": 0.16406466512702078,
      "grad_norm": 0.5621465444564819,
      "learning_rate": 0.00018797078603769184,
      "loss": 1.3054,
      "step": 222
    },
    {
      "epoch": 0.16480369515011548,
      "grad_norm": 0.5964630842208862,
      "learning_rate": 0.00018785939454362717,
      "loss": 1.3403,
      "step": 223
    },
    {
      "epoch": 0.16554272517321017,
      "grad_norm": 0.5766391754150391,
      "learning_rate": 0.00018774752299653127,
      "loss": 1.2496,
      "step": 224
    },
    {
      "epoch": 0.16628175519630484,
      "grad_norm": 0.591385543346405,
      "learning_rate": 0.00018763517200765664,
      "loss": 1.1807,
      "step": 225
    },
    {
      "epoch": 0.16702078521939953,
      "grad_norm": 0.5806172490119934,
      "learning_rate": 0.00018752234219087538,
      "loss": 1.4493,
      "step": 226
    },
    {
      "epoch": 0.16775981524249423,
      "grad_norm": 0.5543180108070374,
      "learning_rate": 0.0001874090341626759,
      "loss": 1.2682,
      "step": 227
    },
    {
      "epoch": 0.16849884526558892,
      "grad_norm": 0.5809804201126099,
      "learning_rate": 0.00018729524854215943,
      "loss": 1.3408,
      "step": 228
    },
    {
      "epoch": 0.16923787528868361,
      "grad_norm": 0.5825233459472656,
      "learning_rate": 0.0001871809859510368,
      "loss": 1.2034,
      "step": 229
    },
    {
      "epoch": 0.16997690531177828,
      "grad_norm": 0.5676090121269226,
      "learning_rate": 0.00018706624701362483,
      "loss": 1.248,
      "step": 230
    },
    {
      "epoch": 0.17071593533487298,
      "grad_norm": 0.5876046419143677,
      "learning_rate": 0.00018695103235684312,
      "loss": 1.3052,
      "step": 231
    },
    {
      "epoch": 0.17145496535796767,
      "grad_norm": 0.5905936360359192,
      "learning_rate": 0.00018683534261021057,
      "loss": 1.2685,
      "step": 232
    },
    {
      "epoch": 0.17219399538106236,
      "grad_norm": 0.6062902808189392,
      "learning_rate": 0.0001867191784058418,
      "loss": 1.3262,
      "step": 233
    },
    {
      "epoch": 0.17293302540415703,
      "grad_norm": 0.6028691530227661,
      "learning_rate": 0.00018660254037844388,
      "loss": 1.2458,
      "step": 234
    },
    {
      "epoch": 0.17367205542725173,
      "grad_norm": 0.6437128782272339,
      "learning_rate": 0.0001864854291653128,
      "loss": 1.2017,
      "step": 235
    },
    {
      "epoch": 0.17441108545034642,
      "grad_norm": 0.5821080803871155,
      "learning_rate": 0.00018636784540633,
      "loss": 1.3513,
      "step": 236
    },
    {
      "epoch": 0.17515011547344111,
      "grad_norm": 0.5681862235069275,
      "learning_rate": 0.0001862497897439588,
      "loss": 1.1882,
      "step": 237
    },
    {
      "epoch": 0.1758891454965358,
      "grad_norm": 0.6087637543678284,
      "learning_rate": 0.00018613126282324092,
      "loss": 1.2721,
      "step": 238
    },
    {
      "epoch": 0.17662817551963048,
      "grad_norm": 0.601473331451416,
      "learning_rate": 0.00018601226529179306,
      "loss": 1.2847,
      "step": 239
    },
    {
      "epoch": 0.17736720554272517,
      "grad_norm": 0.741970419883728,
      "learning_rate": 0.0001858927977998032,
      "loss": 1.3013,
      "step": 240
    },
    {
      "epoch": 0.17810623556581986,
      "grad_norm": 0.620243489742279,
      "learning_rate": 0.00018577286100002723,
      "loss": 1.257,
      "step": 241
    },
    {
      "epoch": 0.17884526558891456,
      "grad_norm": 0.6312745809555054,
      "learning_rate": 0.00018565245554778517,
      "loss": 1.1855,
      "step": 242
    },
    {
      "epoch": 0.17958429561200923,
      "grad_norm": 0.6184742450714111,
      "learning_rate": 0.00018553158210095772,
      "loss": 1.1764,
      "step": 243
    },
    {
      "epoch": 0.18032332563510392,
      "grad_norm": 0.626508355140686,
      "learning_rate": 0.00018541024131998274,
      "loss": 1.1846,
      "step": 244
    },
    {
      "epoch": 0.18106235565819861,
      "grad_norm": 0.6065444946289062,
      "learning_rate": 0.00018528843386785145,
      "loss": 1.2609,
      "step": 245
    },
    {
      "epoch": 0.1818013856812933,
      "grad_norm": 0.6684893369674683,
      "learning_rate": 0.00018516616041010494,
      "loss": 1.1976,
      "step": 246
    },
    {
      "epoch": 0.182540415704388,
      "grad_norm": 0.7358358502388,
      "learning_rate": 0.00018504342161483047,
      "loss": 1.2191,
      "step": 247
    },
    {
      "epoch": 0.18327944572748267,
      "grad_norm": 0.6709038019180298,
      "learning_rate": 0.0001849202181526579,
      "loss": 1.1853,
      "step": 248
    },
    {
      "epoch": 0.18401847575057736,
      "grad_norm": 0.6928427219390869,
      "learning_rate": 0.0001847965506967559,
      "loss": 1.1096,
      "step": 249
    },
    {
      "epoch": 0.18475750577367206,
      "grad_norm": 0.7812103033065796,
      "learning_rate": 0.00018467241992282843,
      "loss": 1.1192,
      "step": 250
    },
    {
      "epoch": 0.18549653579676675,
      "grad_norm": 0.6294529438018799,
      "learning_rate": 0.0001845478265091109,
      "loss": 1.4127,
      "step": 251
    },
    {
      "epoch": 0.18623556581986142,
      "grad_norm": 0.6162160634994507,
      "learning_rate": 0.00018442277113636654,
      "loss": 1.4207,
      "step": 252
    },
    {
      "epoch": 0.18697459584295612,
      "grad_norm": 0.6466959118843079,
      "learning_rate": 0.00018429725448788266,
      "loss": 1.457,
      "step": 253
    },
    {
      "epoch": 0.1877136258660508,
      "grad_norm": 0.5566715598106384,
      "learning_rate": 0.00018417127724946702,
      "loss": 1.4551,
      "step": 254
    },
    {
      "epoch": 0.1884526558891455,
      "grad_norm": 0.5133704543113708,
      "learning_rate": 0.0001840448401094438,
      "loss": 1.3801,
      "step": 255
    },
    {
      "epoch": 0.1891916859122402,
      "grad_norm": 0.5531567335128784,
      "learning_rate": 0.00018391794375865024,
      "loss": 1.3559,
      "step": 256
    },
    {
      "epoch": 0.18993071593533487,
      "grad_norm": 0.5193389654159546,
      "learning_rate": 0.00018379058889043246,
      "loss": 1.423,
      "step": 257
    },
    {
      "epoch": 0.19066974595842956,
      "grad_norm": 0.520734965801239,
      "learning_rate": 0.00018366277620064197,
      "loss": 1.3286,
      "step": 258
    },
    {
      "epoch": 0.19140877598152425,
      "grad_norm": 0.5426193475723267,
      "learning_rate": 0.00018353450638763179,
      "loss": 1.3458,
      "step": 259
    },
    {
      "epoch": 0.19214780600461895,
      "grad_norm": 0.5133375525474548,
      "learning_rate": 0.0001834057801522525,
      "loss": 1.408,
      "step": 260
    },
    {
      "epoch": 0.19288683602771362,
      "grad_norm": 0.5352655649185181,
      "learning_rate": 0.00018327659819784858,
      "loss": 1.306,
      "step": 261
    },
    {
      "epoch": 0.1936258660508083,
      "grad_norm": 0.5487212538719177,
      "learning_rate": 0.00018314696123025454,
      "loss": 1.3124,
      "step": 262
    },
    {
      "epoch": 0.194364896073903,
      "grad_norm": 0.5768811702728271,
      "learning_rate": 0.00018301686995779093,
      "loss": 1.3378,
      "step": 263
    },
    {
      "epoch": 0.1951039260969977,
      "grad_norm": 0.5745941996574402,
      "learning_rate": 0.00018288632509126066,
      "loss": 1.4272,
      "step": 264
    },
    {
      "epoch": 0.19584295612009237,
      "grad_norm": 0.5903736352920532,
      "learning_rate": 0.0001827553273439449,
      "loss": 1.3556,
      "step": 265
    },
    {
      "epoch": 0.19658198614318706,
      "grad_norm": 0.6046328544616699,
      "learning_rate": 0.0001826238774315995,
      "loss": 1.3174,
      "step": 266
    },
    {
      "epoch": 0.19732101616628175,
      "grad_norm": 0.5743463635444641,
      "learning_rate": 0.0001824919760724507,
      "loss": 1.3126,
      "step": 267
    },
    {
      "epoch": 0.19806004618937645,
      "grad_norm": 0.5826118588447571,
      "learning_rate": 0.00018235962398719147,
      "loss": 1.3578,
      "step": 268
    },
    {
      "epoch": 0.19879907621247114,
      "grad_norm": 0.5383468866348267,
      "learning_rate": 0.00018222682189897752,
      "loss": 1.2677,
      "step": 269
    },
    {
      "epoch": 0.1995381062355658,
      "grad_norm": 0.5583364367485046,
      "learning_rate": 0.00018209357053342325,
      "loss": 1.3733,
      "step": 270
    },
    {
      "epoch": 0.2002771362586605,
      "grad_norm": 0.5397864580154419,
      "learning_rate": 0.0001819598706185979,
      "loss": 1.3155,
      "step": 271
    },
    {
      "epoch": 0.2010161662817552,
      "grad_norm": 0.5578004717826843,
      "learning_rate": 0.00018182572288502152,
      "loss": 1.2837,
      "step": 272
    },
    {
      "epoch": 0.2017551963048499,
      "grad_norm": 0.539632260799408,
      "learning_rate": 0.000181691128065661,
      "loss": 1.294,
      "step": 273
    },
    {
      "epoch": 0.20249422632794456,
      "grad_norm": 0.5343414545059204,
      "learning_rate": 0.00018155608689592604,
      "loss": 1.2738,
      "step": 274
    },
    {
      "epoch": 0.20323325635103925,
      "grad_norm": 0.5326273441314697,
      "learning_rate": 0.00018142060011366512,
      "loss": 1.3194,
      "step": 275
    },
    {
      "epoch": 0.20397228637413395,
      "grad_norm": 0.5634658336639404,
      "learning_rate": 0.00018128466845916154,
      "loss": 1.2195,
      "step": 276
    },
    {
      "epoch": 0.20471131639722864,
      "grad_norm": 0.5883802771568298,
      "learning_rate": 0.00018114829267512928,
      "loss": 1.2631,
      "step": 277
    },
    {
      "epoch": 0.20545034642032334,
      "grad_norm": 0.583823025226593,
      "learning_rate": 0.00018101147350670907,
      "loss": 1.3716,
      "step": 278
    },
    {
      "epoch": 0.206189376443418,
      "grad_norm": 0.5676461458206177,
      "learning_rate": 0.00018087421170146412,
      "loss": 1.2381,
      "step": 279
    },
    {
      "epoch": 0.2069284064665127,
      "grad_norm": 0.5755938291549683,
      "learning_rate": 0.00018073650800937624,
      "loss": 1.2678,
      "step": 280
    },
    {
      "epoch": 0.2076674364896074,
      "grad_norm": 0.5814162492752075,
      "learning_rate": 0.00018059836318284168,
      "loss": 1.2628,
      "step": 281
    },
    {
      "epoch": 0.2084064665127021,
      "grad_norm": 0.5836285352706909,
      "learning_rate": 0.00018045977797666684,
      "loss": 1.2938,
      "step": 282
    },
    {
      "epoch": 0.20914549653579675,
      "grad_norm": 0.6342941522598267,
      "learning_rate": 0.00018032075314806448,
      "loss": 1.2376,
      "step": 283
    },
    {
      "epoch": 0.20988452655889145,
      "grad_norm": 0.6108531951904297,
      "learning_rate": 0.00018018128945664937,
      "loss": 1.259,
      "step": 284
    },
    {
      "epoch": 0.21062355658198614,
      "grad_norm": 0.5968160033226013,
      "learning_rate": 0.00018004138766443406,
      "loss": 1.2659,
      "step": 285
    },
    {
      "epoch": 0.21136258660508084,
      "grad_norm": 0.581812858581543,
      "learning_rate": 0.00017990104853582493,
      "loss": 1.2274,
      "step": 286
    },
    {
      "epoch": 0.21210161662817553,
      "grad_norm": 0.6045904159545898,
      "learning_rate": 0.00017976027283761787,
      "loss": 1.1795,
      "step": 287
    },
    {
      "epoch": 0.2128406466512702,
      "grad_norm": 0.5780521631240845,
      "learning_rate": 0.0001796190613389942,
      "loss": 1.1457,
      "step": 288
    },
    {
      "epoch": 0.2135796766743649,
      "grad_norm": 0.6345162987709045,
      "learning_rate": 0.0001794774148115163,
      "loss": 1.2688,
      "step": 289
    },
    {
      "epoch": 0.2143187066974596,
      "grad_norm": 0.6007043719291687,
      "learning_rate": 0.00017933533402912354,
      "loss": 1.1862,
      "step": 290
    },
    {
      "epoch": 0.21505773672055428,
      "grad_norm": 0.6089856028556824,
      "learning_rate": 0.00017919281976812803,
      "loss": 1.2837,
      "step": 291
    },
    {
      "epoch": 0.21579676674364895,
      "grad_norm": 0.6283053755760193,
      "learning_rate": 0.00017904987280721035,
      "loss": 1.129,
      "step": 292
    },
    {
      "epoch": 0.21653579676674364,
      "grad_norm": 0.6514794230461121,
      "learning_rate": 0.0001789064939274153,
      "loss": 1.2719,
      "step": 293
    },
    {
      "epoch": 0.21727482678983834,
      "grad_norm": 0.6269131302833557,
      "learning_rate": 0.00017876268391214754,
      "loss": 1.2284,
      "step": 294
    },
    {
      "epoch": 0.21801385681293303,
      "grad_norm": 0.6610270142555237,
      "learning_rate": 0.00017861844354716757,
      "loss": 1.1288,
      "step": 295
    },
    {
      "epoch": 0.21875288683602773,
      "grad_norm": 0.6912856101989746,
      "learning_rate": 0.00017847377362058712,
      "loss": 1.274,
      "step": 296
    },
    {
      "epoch": 0.2194919168591224,
      "grad_norm": 0.7080909609794617,
      "learning_rate": 0.00017832867492286505,
      "loss": 1.1476,
      "step": 297
    },
    {
      "epoch": 0.2202309468822171,
      "grad_norm": 0.7802750468254089,
      "learning_rate": 0.000178183148246803,
      "loss": 1.1537,
      "step": 298
    },
    {
      "epoch": 0.22096997690531178,
      "grad_norm": 0.6808933615684509,
      "learning_rate": 0.00017803719438754095,
      "loss": 1.2036,
      "step": 299
    },
    {
      "epoch": 0.22170900692840648,
      "grad_norm": 0.8928994536399841,
      "learning_rate": 0.00017789081414255312,
      "loss": 1.1655,
      "step": 300
    },
    {
      "epoch": 0.22244803695150114,
      "grad_norm": 0.6883826851844788,
      "learning_rate": 0.00017774400831164323,
      "loss": 1.4122,
      "step": 301
    },
    {
      "epoch": 0.22318706697459584,
      "grad_norm": 0.6625605225563049,
      "learning_rate": 0.0001775967776969405,
      "loss": 1.4878,
      "step": 302
    },
    {
      "epoch": 0.22392609699769053,
      "grad_norm": 0.5868803262710571,
      "learning_rate": 0.0001774491231028951,
      "loss": 1.4092,
      "step": 303
    },
    {
      "epoch": 0.22466512702078523,
      "grad_norm": 0.5692090392112732,
      "learning_rate": 0.0001773010453362737,
      "loss": 1.3559,
      "step": 304
    },
    {
      "epoch": 0.22540415704387992,
      "grad_norm": 0.5254680514335632,
      "learning_rate": 0.00017715254520615523,
      "loss": 1.3872,
      "step": 305
    },
    {
      "epoch": 0.2261431870669746,
      "grad_norm": 0.5529279112815857,
      "learning_rate": 0.0001770036235239263,
      "loss": 1.3074,
      "step": 306
    },
    {
      "epoch": 0.22688221709006928,
      "grad_norm": 0.52449631690979,
      "learning_rate": 0.00017685428110327683,
      "loss": 1.3741,
      "step": 307
    },
    {
      "epoch": 0.22762124711316398,
      "grad_norm": 0.5209604501724243,
      "learning_rate": 0.00017670451876019563,
      "loss": 1.3554,
      "step": 308
    },
    {
      "epoch": 0.22836027713625867,
      "grad_norm": 0.543263852596283,
      "learning_rate": 0.00017655433731296588,
      "loss": 1.3706,
      "step": 309
    },
    {
      "epoch": 0.22909930715935334,
      "grad_norm": 0.5202473402023315,
      "learning_rate": 0.00017640373758216077,
      "loss": 1.3691,
      "step": 310
    },
    {
      "epoch": 0.22983833718244803,
      "grad_norm": 0.5321429371833801,
      "learning_rate": 0.00017625272039063883,
      "loss": 1.347,
      "step": 311
    },
    {
      "epoch": 0.23057736720554273,
      "grad_norm": 0.5551135540008545,
      "learning_rate": 0.00017610128656353962,
      "loss": 1.3414,
      "step": 312
    },
    {
      "epoch": 0.23131639722863742,
      "grad_norm": 0.5513591766357422,
      "learning_rate": 0.00017594943692827915,
      "loss": 1.401,
      "step": 313
    },
    {
      "epoch": 0.2320554272517321,
      "grad_norm": 0.5354856252670288,
      "learning_rate": 0.0001757971723145453,
      "loss": 1.2984,
      "step": 314
    },
    {
      "epoch": 0.23279445727482678,
      "grad_norm": 0.5278059840202332,
      "learning_rate": 0.0001756444935542934,
      "loss": 1.3133,
      "step": 315
    },
    {
      "epoch": 0.23353348729792148,
      "grad_norm": 0.5167419910430908,
      "learning_rate": 0.0001754914014817416,
      "loss": 1.2283,
      "step": 316
    },
    {
      "epoch": 0.23427251732101617,
      "grad_norm": 0.5522217154502869,
      "learning_rate": 0.00017533789693336633,
      "loss": 1.3141,
      "step": 317
    },
    {
      "epoch": 0.23501154734411087,
      "grad_norm": 0.5378026366233826,
      "learning_rate": 0.00017518398074789775,
      "loss": 1.3581,
      "step": 318
    },
    {
      "epoch": 0.23575057736720553,
      "grad_norm": 0.5403164625167847,
      "learning_rate": 0.00017502965376631514,
      "loss": 1.2793,
      "step": 319
    },
    {
      "epoch": 0.23648960739030023,
      "grad_norm": 0.533096432685852,
      "learning_rate": 0.00017487491683184235,
      "loss": 1.2989,
      "step": 320
    },
    {
      "epoch": 0.23722863741339492,
      "grad_norm": 0.5226789116859436,
      "learning_rate": 0.00017471977078994315,
      "loss": 1.2583,
      "step": 321
    },
    {
      "epoch": 0.23796766743648962,
      "grad_norm": 0.5426799058914185,
      "learning_rate": 0.00017456421648831655,
      "loss": 1.2342,
      "step": 322
    },
    {
      "epoch": 0.23870669745958428,
      "grad_norm": 0.586526095867157,
      "learning_rate": 0.00017440825477689243,
      "loss": 1.317,
      "step": 323
    },
    {
      "epoch": 0.23944572748267898,
      "grad_norm": 0.5792056322097778,
      "learning_rate": 0.00017425188650782648,
      "loss": 1.2474,
      "step": 324
    },
    {
      "epoch": 0.24018475750577367,
      "grad_norm": 0.5746707916259766,
      "learning_rate": 0.00017409511253549593,
      "loss": 1.1986,
      "step": 325
    },
    {
      "epoch": 0.24092378752886837,
      "grad_norm": 0.5784770846366882,
      "learning_rate": 0.00017393793371649462,
      "loss": 1.2939,
      "step": 326
    },
    {
      "epoch": 0.24166281755196306,
      "grad_norm": 0.5719912052154541,
      "learning_rate": 0.00017378035090962856,
      "loss": 1.2429,
      "step": 327
    },
    {
      "epoch": 0.24240184757505773,
      "grad_norm": 0.6188167929649353,
      "learning_rate": 0.00017362236497591094,
      "loss": 1.3081,
      "step": 328
    },
    {
      "epoch": 0.24314087759815242,
      "grad_norm": 0.5615231990814209,
      "learning_rate": 0.0001734639767785577,
      "loss": 1.2541,
      "step": 329
    },
    {
      "epoch": 0.24387990762124712,
      "grad_norm": 0.5689876079559326,
      "learning_rate": 0.00017330518718298264,
      "loss": 1.225,
      "step": 330
    },
    {
      "epoch": 0.2446189376443418,
      "grad_norm": 0.5603599548339844,
      "learning_rate": 0.00017314599705679277,
      "loss": 1.2874,
      "step": 331
    },
    {
      "epoch": 0.24535796766743648,
      "grad_norm": 0.5784062147140503,
      "learning_rate": 0.00017298640726978357,
      "loss": 1.1935,
      "step": 332
    },
    {
      "epoch": 0.24609699769053117,
      "grad_norm": 0.5427467823028564,
      "learning_rate": 0.00017282641869393418,
      "loss": 1.2549,
      "step": 333
    },
    {
      "epoch": 0.24683602771362587,
      "grad_norm": 0.5526540875434875,
      "learning_rate": 0.0001726660322034027,
      "loss": 1.27,
      "step": 334
    },
    {
      "epoch": 0.24757505773672056,
      "grad_norm": 0.5683616399765015,
      "learning_rate": 0.0001725052486745214,
      "loss": 1.3028,
      "step": 335
    },
    {
      "epoch": 0.24831408775981526,
      "grad_norm": 0.6077483296394348,
      "learning_rate": 0.00017234406898579188,
      "loss": 1.1979,
      "step": 336
    },
    {
      "epoch": 0.24905311778290992,
      "grad_norm": 0.5991827249526978,
      "learning_rate": 0.00017218249401788031,
      "loss": 1.1788,
      "step": 337
    },
    {
      "epoch": 0.24979214780600462,
      "grad_norm": 0.6361863017082214,
      "learning_rate": 0.00017202052465361268,
      "loss": 1.1585,
      "step": 338
    },
    {
      "epoch": 0.2505311778290993,
      "grad_norm": 0.630734384059906,
      "learning_rate": 0.0001718581617779698,
      "loss": 1.1296,
      "step": 339
    },
    {
      "epoch": 0.2505311778290993,
      "eval_loss": 1.2728018760681152,
      "eval_runtime": 64.4142,
      "eval_samples_per_second": 17.698,
      "eval_steps_per_second": 8.849,
      "step": 339
    },
    {
      "epoch": 0.251270207852194,
      "grad_norm": 0.6367212533950806,
      "learning_rate": 0.00017169540627808274,
      "loss": 1.2393,
      "step": 340
    },
    {
      "epoch": 0.25200923787528867,
      "grad_norm": 0.6137400269508362,
      "learning_rate": 0.00017153225904322766,
      "loss": 1.2856,
      "step": 341
    },
    {
      "epoch": 0.2527482678983834,
      "grad_norm": 0.6298092603683472,
      "learning_rate": 0.0001713687209648212,
      "loss": 1.168,
      "step": 342
    },
    {
      "epoch": 0.25348729792147806,
      "grad_norm": 0.6178075075149536,
      "learning_rate": 0.00017120479293641555,
      "loss": 1.203,
      "step": 343
    },
    {
      "epoch": 0.2542263279445727,
      "grad_norm": 0.6136565804481506,
      "learning_rate": 0.00017104047585369343,
      "loss": 1.1982,
      "step": 344
    },
    {
      "epoch": 0.25496535796766745,
      "grad_norm": 0.6726135015487671,
      "learning_rate": 0.00017087577061446337,
      "loss": 1.2251,
      "step": 345
    },
    {
      "epoch": 0.2557043879907621,
      "grad_norm": 0.644904375076294,
      "learning_rate": 0.00017071067811865476,
      "loss": 1.2001,
      "step": 346
    },
    {
      "epoch": 0.25644341801385684,
      "grad_norm": 0.6652361154556274,
      "learning_rate": 0.0001705451992683129,
      "loss": 1.1718,
      "step": 347
    },
    {
      "epoch": 0.2571824480369515,
      "grad_norm": 0.6947161555290222,
      "learning_rate": 0.00017037933496759404,
      "loss": 1.165,
      "step": 348
    },
    {
      "epoch": 0.25792147806004617,
      "grad_norm": 0.6744391918182373,
      "learning_rate": 0.00017021308612276054,
      "loss": 1.1722,
      "step": 349
    },
    {
      "epoch": 0.2586605080831409,
      "grad_norm": 0.7992168664932251,
      "learning_rate": 0.00017004645364217583,
      "loss": 1.128,
      "step": 350
    },
    {
      "epoch": 0.25939953810623556,
      "grad_norm": 0.6429826617240906,
      "learning_rate": 0.00016987943843629953,
      "loss": 1.5171,
      "step": 351
    },
    {
      "epoch": 0.2601385681293302,
      "grad_norm": 0.6946231126785278,
      "learning_rate": 0.00016971204141768233,
      "loss": 1.3868,
      "step": 352
    },
    {
      "epoch": 0.26087759815242495,
      "grad_norm": 0.6109011769294739,
      "learning_rate": 0.00016954426350096116,
      "loss": 1.3366,
      "step": 353
    },
    {
      "epoch": 0.2616166281755196,
      "grad_norm": 0.5877764225006104,
      "learning_rate": 0.00016937610560285418,
      "loss": 1.4268,
      "step": 354
    },
    {
      "epoch": 0.26235565819861434,
      "grad_norm": 0.519640326499939,
      "learning_rate": 0.00016920756864215557,
      "loss": 1.3401,
      "step": 355
    },
    {
      "epoch": 0.263094688221709,
      "grad_norm": 0.5179314613342285,
      "learning_rate": 0.00016903865353973084,
      "loss": 1.3212,
      "step": 356
    },
    {
      "epoch": 0.26383371824480367,
      "grad_norm": 0.5359750390052795,
      "learning_rate": 0.0001688693612185115,
      "loss": 1.3925,
      "step": 357
    },
    {
      "epoch": 0.2645727482678984,
      "grad_norm": 0.5326840877532959,
      "learning_rate": 0.00016869969260349018,
      "loss": 1.2566,
      "step": 358
    },
    {
      "epoch": 0.26531177829099306,
      "grad_norm": 0.5132938027381897,
      "learning_rate": 0.00016852964862171553,
      "loss": 1.2771,
      "step": 359
    },
    {
      "epoch": 0.2660508083140878,
      "grad_norm": 0.5452779531478882,
      "learning_rate": 0.00016835923020228712,
      "loss": 1.3424,
      "step": 360
    },
    {
      "epoch": 0.26678983833718245,
      "grad_norm": 0.5187665224075317,
      "learning_rate": 0.0001681884382763505,
      "loss": 1.2472,
      "step": 361
    },
    {
      "epoch": 0.2675288683602771,
      "grad_norm": 0.5391258597373962,
      "learning_rate": 0.00016801727377709194,
      "loss": 1.2645,
      "step": 362
    },
    {
      "epoch": 0.26826789838337184,
      "grad_norm": 0.5854060649871826,
      "learning_rate": 0.0001678457376397334,
      "loss": 1.3403,
      "step": 363
    },
    {
      "epoch": 0.2690069284064665,
      "grad_norm": 0.5944712162017822,
      "learning_rate": 0.00016767383080152742,
      "loss": 1.2517,
      "step": 364
    },
    {
      "epoch": 0.26974595842956123,
      "grad_norm": 0.5910075306892395,
      "learning_rate": 0.00016750155420175208,
      "loss": 1.2737,
      "step": 365
    },
    {
      "epoch": 0.2704849884526559,
      "grad_norm": 0.5469585061073303,
      "learning_rate": 0.0001673289087817057,
      "loss": 1.2336,
      "step": 366
    },
    {
      "epoch": 0.27122401847575056,
      "grad_norm": 0.5358783006668091,
      "learning_rate": 0.00016715589548470185,
      "loss": 1.2732,
      "step": 367
    },
    {
      "epoch": 0.2719630484988453,
      "grad_norm": 0.5448198914527893,
      "learning_rate": 0.0001669825152560641,
      "loss": 1.2012,
      "step": 368
    },
    {
      "epoch": 0.27270207852193995,
      "grad_norm": 0.5393688082695007,
      "learning_rate": 0.0001668087690431209,
      "loss": 1.2806,
      "step": 369
    },
    {
      "epoch": 0.2734411085450346,
      "grad_norm": 0.5551241040229797,
      "learning_rate": 0.0001666346577952004,
      "loss": 1.2765,
      "step": 370
    },
    {
      "epoch": 0.27418013856812934,
      "grad_norm": 0.5481876134872437,
      "learning_rate": 0.00016646018246362527,
      "loss": 1.2708,
      "step": 371
    },
    {
      "epoch": 0.274919168591224,
      "grad_norm": 0.5328659415245056,
      "learning_rate": 0.00016628534400170745,
      "loss": 1.2595,
      "step": 372
    },
    {
      "epoch": 0.27565819861431873,
      "grad_norm": 0.558839738368988,
      "learning_rate": 0.00016611014336474303,
      "loss": 1.2409,
      "step": 373
    },
    {
      "epoch": 0.2763972286374134,
      "grad_norm": 0.5517345666885376,
      "learning_rate": 0.00016593458151000688,
      "loss": 1.2398,
      "step": 374
    },
    {
      "epoch": 0.27713625866050806,
      "grad_norm": 0.5306265354156494,
      "learning_rate": 0.00016575865939674772,
      "loss": 1.122,
      "step": 375
    },
    {
      "epoch": 0.2778752886836028,
      "grad_norm": 0.5421862006187439,
      "learning_rate": 0.00016558237798618245,
      "loss": 1.2775,
      "step": 376
    },
    {
      "epoch": 0.27861431870669745,
      "grad_norm": 0.5810000896453857,
      "learning_rate": 0.00016540573824149122,
      "loss": 1.2806,
      "step": 377
    },
    {
      "epoch": 0.2793533487297922,
      "grad_norm": 0.5703826546669006,
      "learning_rate": 0.00016522874112781213,
      "loss": 1.2852,
      "step": 378
    },
    {
      "epoch": 0.28009237875288684,
      "grad_norm": 0.5447360873222351,
      "learning_rate": 0.00016505138761223584,
      "loss": 1.1722,
      "step": 379
    },
    {
      "epoch": 0.2808314087759815,
      "grad_norm": 0.557951807975769,
      "learning_rate": 0.00016487367866380037,
      "loss": 1.212,
      "step": 380
    },
    {
      "epoch": 0.28157043879907623,
      "grad_norm": 0.5790512561798096,
      "learning_rate": 0.00016469561525348577,
      "loss": 1.212,
      "step": 381
    },
    {
      "epoch": 0.2823094688221709,
      "grad_norm": 0.5967327356338501,
      "learning_rate": 0.00016451719835420877,
      "loss": 1.291,
      "step": 382
    },
    {
      "epoch": 0.28304849884526556,
      "grad_norm": 0.6152715086936951,
      "learning_rate": 0.00016433842894081764,
      "loss": 1.1671,
      "step": 383
    },
    {
      "epoch": 0.2837875288683603,
      "grad_norm": 0.5911456346511841,
      "learning_rate": 0.00016415930799008668,
      "loss": 1.1829,
      "step": 384
    },
    {
      "epoch": 0.28452655889145495,
      "grad_norm": 0.5913249254226685,
      "learning_rate": 0.00016397983648071095,
      "loss": 1.1519,
      "step": 385
    },
    {
      "epoch": 0.2852655889145497,
      "grad_norm": 0.57459956407547,
      "learning_rate": 0.0001638000153933009,
      "loss": 1.1563,
      "step": 386
    },
    {
      "epoch": 0.28600461893764434,
      "grad_norm": 0.6248913407325745,
      "learning_rate": 0.000163619845710377,
      "loss": 1.2704,
      "step": 387
    },
    {
      "epoch": 0.286743648960739,
      "grad_norm": 0.6116882562637329,
      "learning_rate": 0.00016343932841636456,
      "loss": 1.1972,
      "step": 388
    },
    {
      "epoch": 0.28748267898383373,
      "grad_norm": 0.5872460007667542,
      "learning_rate": 0.00016325846449758805,
      "loss": 1.0859,
      "step": 389
    },
    {
      "epoch": 0.2882217090069284,
      "grad_norm": 0.5819084644317627,
      "learning_rate": 0.00016307725494226584,
      "loss": 1.1837,
      "step": 390
    },
    {
      "epoch": 0.2889607390300231,
      "grad_norm": 0.625767707824707,
      "learning_rate": 0.00016289570074050493,
      "loss": 1.0841,
      "step": 391
    },
    {
      "epoch": 0.2896997690531178,
      "grad_norm": 0.6570777893066406,
      "learning_rate": 0.00016271380288429533,
      "loss": 1.1759,
      "step": 392
    },
    {
      "epoch": 0.29043879907621245,
      "grad_norm": 0.6435858607292175,
      "learning_rate": 0.00016253156236750485,
      "loss": 1.2435,
      "step": 393
    },
    {
      "epoch": 0.2911778290993072,
      "grad_norm": 0.6534650921821594,
      "learning_rate": 0.00016234898018587337,
      "loss": 1.2298,
      "step": 394
    },
    {
      "epoch": 0.29191685912240184,
      "grad_norm": 0.6861268281936646,
      "learning_rate": 0.00016216605733700775,
      "loss": 1.1699,
      "step": 395
    },
    {
      "epoch": 0.29265588914549656,
      "grad_norm": 0.6860679984092712,
      "learning_rate": 0.00016198279482037618,
      "loss": 1.2848,
      "step": 396
    },
    {
      "epoch": 0.29339491916859123,
      "grad_norm": 0.6770995259284973,
      "learning_rate": 0.00016179919363730266,
      "loss": 1.2227,
      "step": 397
    },
    {
      "epoch": 0.2941339491916859,
      "grad_norm": 0.6777564287185669,
      "learning_rate": 0.00016161525479096178,
      "loss": 1.2252,
      "step": 398
    },
    {
      "epoch": 0.2948729792147806,
      "grad_norm": 0.7117058634757996,
      "learning_rate": 0.0001614309792863729,
      "loss": 1.144,
      "step": 399
    },
    {
      "epoch": 0.2956120092378753,
      "grad_norm": 0.8032373785972595,
      "learning_rate": 0.00016124636813039502,
      "loss": 1.281,
      "step": 400
    },
    {
      "epoch": 0.29635103926096995,
      "grad_norm": 0.5780263543128967,
      "learning_rate": 0.00016106142233172097,
      "loss": 1.3114,
      "step": 401
    },
    {
      "epoch": 0.2970900692840647,
      "grad_norm": 0.5390816926956177,
      "learning_rate": 0.00016087614290087208,
      "loss": 1.37,
      "step": 402
    },
    {
      "epoch": 0.29782909930715934,
      "grad_norm": 0.5384091138839722,
      "learning_rate": 0.00016069053085019256,
      "loss": 1.3911,
      "step": 403
    },
    {
      "epoch": 0.29856812933025406,
      "grad_norm": 0.5547327995300293,
      "learning_rate": 0.00016050458719384412,
      "loss": 1.4459,
      "step": 404
    },
    {
      "epoch": 0.29930715935334873,
      "grad_norm": 0.5506978631019592,
      "learning_rate": 0.0001603183129478002,
      "loss": 1.377,
      "step": 405
    },
    {
      "epoch": 0.3000461893764434,
      "grad_norm": 0.5503563284873962,
      "learning_rate": 0.00016013170912984058,
      "loss": 1.3229,
      "step": 406
    },
    {
      "epoch": 0.3007852193995381,
      "grad_norm": 0.5479819178581238,
      "learning_rate": 0.00015994477675954584,
      "loss": 1.3509,
      "step": 407
    },
    {
      "epoch": 0.3015242494226328,
      "grad_norm": 0.5410239696502686,
      "learning_rate": 0.00015975751685829166,
      "loss": 1.3272,
      "step": 408
    },
    {
      "epoch": 0.3022632794457275,
      "grad_norm": 0.5247051119804382,
      "learning_rate": 0.00015956993044924334,
      "loss": 1.2908,
      "step": 409
    },
    {
      "epoch": 0.3030023094688222,
      "grad_norm": 0.5465981960296631,
      "learning_rate": 0.00015938201855735014,
      "loss": 1.3326,
      "step": 410
    },
    {
      "epoch": 0.30374133949191684,
      "grad_norm": 0.5663233399391174,
      "learning_rate": 0.00015919378220933985,
      "loss": 1.3319,
      "step": 411
    },
    {
      "epoch": 0.30448036951501156,
      "grad_norm": 0.5455926060676575,
      "learning_rate": 0.00015900522243371282,
      "loss": 1.3126,
      "step": 412
    },
    {
      "epoch": 0.30521939953810623,
      "grad_norm": 0.5585780739784241,
      "learning_rate": 0.00015881634026073676,
      "loss": 1.2758,
      "step": 413
    },
    {
      "epoch": 0.30595842956120095,
      "grad_norm": 0.5705909132957458,
      "learning_rate": 0.00015862713672244093,
      "loss": 1.2869,
      "step": 414
    },
    {
      "epoch": 0.3066974595842956,
      "grad_norm": 0.5248488187789917,
      "learning_rate": 0.00015843761285261028,
      "loss": 1.3174,
      "step": 415
    },
    {
      "epoch": 0.3074364896073903,
      "grad_norm": 0.5560002326965332,
      "learning_rate": 0.00015824776968678024,
      "loss": 1.2437,
      "step": 416
    },
    {
      "epoch": 0.308175519630485,
      "grad_norm": 0.5527901649475098,
      "learning_rate": 0.0001580576082622307,
      "loss": 1.2941,
      "step": 417
    },
    {
      "epoch": 0.3089145496535797,
      "grad_norm": 0.5832985043525696,
      "learning_rate": 0.0001578671296179806,
      "loss": 1.3227,
      "step": 418
    },
    {
      "epoch": 0.30965357967667434,
      "grad_norm": 0.5623008012771606,
      "learning_rate": 0.00015767633479478197,
      "loss": 1.2922,
      "step": 419
    },
    {
      "epoch": 0.31039260969976906,
      "grad_norm": 0.5812892913818359,
      "learning_rate": 0.00015748522483511452,
      "loss": 1.277,
      "step": 420
    },
    {
      "epoch": 0.31113163972286373,
      "grad_norm": 0.5815533399581909,
      "learning_rate": 0.0001572938007831798,
      "loss": 1.2325,
      "step": 421
    },
    {
      "epoch": 0.31187066974595845,
      "grad_norm": 0.5467265248298645,
      "learning_rate": 0.00015710206368489552,
      "loss": 1.1849,
      "step": 422
    },
    {
      "epoch": 0.3126096997690531,
      "grad_norm": 0.5529351830482483,
      "learning_rate": 0.00015691001458788983,
      "loss": 1.2403,
      "step": 423
    },
    {
      "epoch": 0.3133487297921478,
      "grad_norm": 0.5665715336799622,
      "learning_rate": 0.00015671765454149559,
      "loss": 1.2056,
      "step": 424
    },
    {
      "epoch": 0.3140877598152425,
      "grad_norm": 0.6077194809913635,
      "learning_rate": 0.00015652498459674467,
      "loss": 1.282,
      "step": 425
    },
    {
      "epoch": 0.3148267898383372,
      "grad_norm": 0.5746146440505981,
      "learning_rate": 0.0001563320058063622,
      "loss": 1.2591,
      "step": 426
    },
    {
      "epoch": 0.3155658198614319,
      "grad_norm": 0.5799619555473328,
      "learning_rate": 0.0001561387192247608,
      "loss": 1.161,
      "step": 427
    },
    {
      "epoch": 0.31630484988452656,
      "grad_norm": 0.5489515662193298,
      "learning_rate": 0.00015594512590803473,
      "loss": 1.2191,
      "step": 428
    },
    {
      "epoch": 0.31704387990762123,
      "grad_norm": 0.5996516942977905,
      "learning_rate": 0.0001557512269139544,
      "loss": 1.2046,
      "step": 429
    },
    {
      "epoch": 0.31778290993071595,
      "grad_norm": 0.5752031803131104,
      "learning_rate": 0.00015555702330196023,
      "loss": 1.2062,
      "step": 430
    },
    {
      "epoch": 0.3185219399538106,
      "grad_norm": 0.5931956768035889,
      "learning_rate": 0.00015536251613315714,
      "loss": 1.1903,
      "step": 431
    },
    {
      "epoch": 0.3192609699769053,
      "grad_norm": 0.5839070677757263,
      "learning_rate": 0.00015516770647030858,
      "loss": 1.1672,
      "step": 432
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6068558096885681,
      "learning_rate": 0.00015497259537783085,
      "loss": 1.2285,
      "step": 433
    },
    {
      "epoch": 0.3207390300230947,
      "grad_norm": 0.6109028458595276,
      "learning_rate": 0.00015477718392178716,
      "loss": 1.2042,
      "step": 434
    },
    {
      "epoch": 0.3214780600461894,
      "grad_norm": 0.5859808325767517,
      "learning_rate": 0.00015458147316988193,
      "loss": 1.328,
      "step": 435
    },
    {
      "epoch": 0.32221709006928406,
      "grad_norm": 0.6080002784729004,
      "learning_rate": 0.00015438546419145488,
      "loss": 1.3107,
      "step": 436
    },
    {
      "epoch": 0.32295612009237873,
      "grad_norm": 0.5732186436653137,
      "learning_rate": 0.00015418915805747517,
      "loss": 1.1614,
      "step": 437
    },
    {
      "epoch": 0.32369515011547345,
      "grad_norm": 0.5692439675331116,
      "learning_rate": 0.00015399255584053567,
      "loss": 1.2374,
      "step": 438
    },
    {
      "epoch": 0.3244341801385681,
      "grad_norm": 0.6153452396392822,
      "learning_rate": 0.00015379565861484688,
      "loss": 1.2216,
      "step": 439
    },
    {
      "epoch": 0.32517321016166284,
      "grad_norm": 0.5978180766105652,
      "learning_rate": 0.00015359846745623126,
      "loss": 1.1359,
      "step": 440
    },
    {
      "epoch": 0.3259122401847575,
      "grad_norm": 0.5996901392936707,
      "learning_rate": 0.00015340098344211733,
      "loss": 1.2329,
      "step": 441
    },
    {
      "epoch": 0.3266512702078522,
      "grad_norm": 0.6222243309020996,
      "learning_rate": 0.00015320320765153367,
      "loss": 1.2506,
      "step": 442
    },
    {
      "epoch": 0.3273903002309469,
      "grad_norm": 0.6039844751358032,
      "learning_rate": 0.0001530051411651031,
      "loss": 1.1147,
      "step": 443
    },
    {
      "epoch": 0.32812933025404156,
      "grad_norm": 0.6189492344856262,
      "learning_rate": 0.0001528067850650368,
      "loss": 1.1417,
      "step": 444
    },
    {
      "epoch": 0.3288683602771363,
      "grad_norm": 0.6292293667793274,
      "learning_rate": 0.00015260814043512836,
      "loss": 1.109,
      "step": 445
    },
    {
      "epoch": 0.32960739030023095,
      "grad_norm": 0.672141432762146,
      "learning_rate": 0.00015240920836074776,
      "loss": 1.1536,
      "step": 446
    },
    {
      "epoch": 0.3303464203233256,
      "grad_norm": 0.6632097959518433,
      "learning_rate": 0.00015220998992883573,
      "loss": 1.223,
      "step": 447
    },
    {
      "epoch": 0.33108545034642034,
      "grad_norm": 0.7126734852790833,
      "learning_rate": 0.00015201048622789747,
      "loss": 1.1145,
      "step": 448
    },
    {
      "epoch": 0.331824480369515,
      "grad_norm": 0.6426841616630554,
      "learning_rate": 0.00015181069834799691,
      "loss": 1.0055,
      "step": 449
    },
    {
      "epoch": 0.3325635103926097,
      "grad_norm": 0.8116965293884277,
      "learning_rate": 0.00015161062738075067,
      "loss": 1.1242,
      "step": 450
    },
    {
      "epoch": 0.3333025404157044,
      "grad_norm": 0.6221110820770264,
      "learning_rate": 0.00015141027441932216,
      "loss": 1.4644,
      "step": 451
    },
    {
      "epoch": 0.33404157043879906,
      "grad_norm": 0.6121164560317993,
      "learning_rate": 0.00015120964055841563,
      "loss": 1.4032,
      "step": 452
    },
    {
      "epoch": 0.3347806004618938,
      "grad_norm": 0.6088113784790039,
      "learning_rate": 0.00015100872689426993,
      "loss": 1.3497,
      "step": 453
    },
    {
      "epoch": 0.33551963048498845,
      "grad_norm": 0.5770708918571472,
      "learning_rate": 0.00015080753452465296,
      "loss": 1.374,
      "step": 454
    },
    {
      "epoch": 0.3362586605080831,
      "grad_norm": 0.5256248116493225,
      "learning_rate": 0.00015060606454885526,
      "loss": 1.3473,
      "step": 455
    },
    {
      "epoch": 0.33699769053117784,
      "grad_norm": 0.5152950882911682,
      "learning_rate": 0.00015040431806768428,
      "loss": 1.3793,
      "step": 456
    },
    {
      "epoch": 0.3377367205542725,
      "grad_norm": 0.5114476084709167,
      "learning_rate": 0.0001502022961834582,
      "loss": 1.3032,
      "step": 457
    },
    {
      "epoch": 0.33847575057736723,
      "grad_norm": 0.5230385661125183,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.2897,
      "step": 458
    },
    {
      "epoch": 0.3392147806004619,
      "grad_norm": 0.4984152317047119,
      "learning_rate": 0.0001497974306226314,
      "loss": 1.2658,
      "step": 459
    },
    {
      "epoch": 0.33995381062355656,
      "grad_norm": 0.5453205108642578,
      "learning_rate": 0.0001495945891581668,
      "loss": 1.3284,
      "step": 460
    },
    {
      "epoch": 0.3406928406466513,
      "grad_norm": 0.527260422706604,
      "learning_rate": 0.0001493914767149072,
      "loss": 1.3184,
      "step": 461
    },
    {
      "epoch": 0.34143187066974595,
      "grad_norm": 0.49424082040786743,
      "learning_rate": 0.00014918809440263436,
      "loss": 1.2622,
      "step": 462
    },
    {
      "epoch": 0.3421709006928407,
      "grad_norm": 0.5324291586875916,
      "learning_rate": 0.00014898444333260436,
      "loss": 1.2738,
      "step": 463
    },
    {
      "epoch": 0.34290993071593534,
      "grad_norm": 0.5446980595588684,
      "learning_rate": 0.0001487805246175419,
      "loss": 1.2837,
      "step": 464
    },
    {
      "epoch": 0.34364896073903,
      "grad_norm": 0.5245210528373718,
      "learning_rate": 0.00014857633937163402,
      "loss": 1.2713,
      "step": 465
    },
    {
      "epoch": 0.34438799076212473,
      "grad_norm": 0.5487951636314392,
      "learning_rate": 0.000148371888710524,
      "loss": 1.2515,
      "step": 466
    },
    {
      "epoch": 0.3451270207852194,
      "grad_norm": 0.5769203901290894,
      "learning_rate": 0.00014816717375130533,
      "loss": 1.2767,
      "step": 467
    },
    {
      "epoch": 0.34586605080831406,
      "grad_norm": 0.522729218006134,
      "learning_rate": 0.00014796219561251568,
      "loss": 1.2723,
      "step": 468
    },
    {
      "epoch": 0.3466050808314088,
      "grad_norm": 0.5316148400306702,
      "learning_rate": 0.00014775695541413062,
      "loss": 1.2708,
      "step": 469
    },
    {
      "epoch": 0.34734411085450345,
      "grad_norm": 0.6012580990791321,
      "learning_rate": 0.00014755145427755754,
      "loss": 1.3435,
      "step": 470
    },
    {
      "epoch": 0.3480831408775982,
      "grad_norm": 0.5472609996795654,
      "learning_rate": 0.00014734569332562966,
      "loss": 1.2267,
      "step": 471
    },
    {
      "epoch": 0.34882217090069284,
      "grad_norm": 0.5734112858772278,
      "learning_rate": 0.0001471396736825998,
      "loss": 1.3025,
      "step": 472
    },
    {
      "epoch": 0.3495612009237875,
      "grad_norm": 0.5648796558380127,
      "learning_rate": 0.0001469333964741341,
      "loss": 1.2117,
      "step": 473
    },
    {
      "epoch": 0.35030023094688223,
      "grad_norm": 0.5679141879081726,
      "learning_rate": 0.0001467268628273062,
      "loss": 1.2011,
      "step": 474
    },
    {
      "epoch": 0.3510392609699769,
      "grad_norm": 0.5544252991676331,
      "learning_rate": 0.00014652007387059077,
      "loss": 1.2929,
      "step": 475
    },
    {
      "epoch": 0.3517782909930716,
      "grad_norm": 0.548231303691864,
      "learning_rate": 0.00014631303073385746,
      "loss": 1.1921,
      "step": 476
    },
    {
      "epoch": 0.3525173210161663,
      "grad_norm": 0.5753301978111267,
      "learning_rate": 0.00014610573454836476,
      "loss": 1.2739,
      "step": 477
    },
    {
      "epoch": 0.35325635103926095,
      "grad_norm": 0.5791894793510437,
      "learning_rate": 0.00014589818644675378,
      "loss": 1.2185,
      "step": 478
    },
    {
      "epoch": 0.3539953810623557,
      "grad_norm": 0.560849666595459,
      "learning_rate": 0.00014569038756304207,
      "loss": 1.1554,
      "step": 479
    },
    {
      "epoch": 0.35473441108545034,
      "grad_norm": 0.5604783892631531,
      "learning_rate": 0.00014548233903261746,
      "loss": 1.183,
      "step": 480
    },
    {
      "epoch": 0.355473441108545,
      "grad_norm": 0.5548709034919739,
      "learning_rate": 0.00014527404199223172,
      "loss": 1.1645,
      "step": 481
    },
    {
      "epoch": 0.35621247113163973,
      "grad_norm": 0.571927011013031,
      "learning_rate": 0.00014506549757999454,
      "loss": 1.2357,
      "step": 482
    },
    {
      "epoch": 0.3569515011547344,
      "grad_norm": 0.6118607521057129,
      "learning_rate": 0.00014485670693536716,
      "loss": 1.266,
      "step": 483
    },
    {
      "epoch": 0.3576905311778291,
      "grad_norm": 0.583390474319458,
      "learning_rate": 0.00014464767119915629,
      "loss": 1.1627,
      "step": 484
    },
    {
      "epoch": 0.3584295612009238,
      "grad_norm": 0.5943032503128052,
      "learning_rate": 0.00014443839151350772,
      "loss": 1.1392,
      "step": 485
    },
    {
      "epoch": 0.35916859122401845,
      "grad_norm": 0.5973324775695801,
      "learning_rate": 0.00014422886902190014,
      "loss": 1.1435,
      "step": 486
    },
    {
      "epoch": 0.3599076212471132,
      "grad_norm": 0.6173082590103149,
      "learning_rate": 0.00014401910486913893,
      "loss": 1.2459,
      "step": 487
    },
    {
      "epoch": 0.36064665127020784,
      "grad_norm": 0.6223089098930359,
      "learning_rate": 0.00014380910020134988,
      "loss": 1.1901,
      "step": 488
    },
    {
      "epoch": 0.36138568129330256,
      "grad_norm": 0.5850099921226501,
      "learning_rate": 0.0001435988561659729,
      "loss": 1.1991,
      "step": 489
    },
    {
      "epoch": 0.36212471131639723,
      "grad_norm": 0.5872979760169983,
      "learning_rate": 0.00014338837391175582,
      "loss": 1.1785,
      "step": 490
    },
    {
      "epoch": 0.3628637413394919,
      "grad_norm": 0.5874487161636353,
      "learning_rate": 0.00014317765458874803,
      "loss": 1.0487,
      "step": 491
    },
    {
      "epoch": 0.3636027713625866,
      "grad_norm": 0.6276528835296631,
      "learning_rate": 0.00014296669934829424,
      "loss": 1.2177,
      "step": 492
    },
    {
      "epoch": 0.3643418013856813,
      "grad_norm": 0.6531327962875366,
      "learning_rate": 0.00014275550934302823,
      "loss": 1.1948,
      "step": 493
    },
    {
      "epoch": 0.365080831408776,
      "grad_norm": 0.6143187284469604,
      "learning_rate": 0.00014254408572686642,
      "loss": 1.2302,
      "step": 494
    },
    {
      "epoch": 0.3658198614318707,
      "grad_norm": 0.6215540170669556,
      "learning_rate": 0.00014233242965500171,
      "loss": 1.1478,
      "step": 495
    },
    {
      "epoch": 0.36655889145496534,
      "grad_norm": 0.6229510307312012,
      "learning_rate": 0.0001421205422838971,
      "loss": 1.1512,
      "step": 496
    },
    {
      "epoch": 0.36729792147806006,
      "grad_norm": 0.6221912503242493,
      "learning_rate": 0.0001419084247712794,
      "loss": 1.1314,
      "step": 497
    },
    {
      "epoch": 0.36803695150115473,
      "grad_norm": 0.64036625623703,
      "learning_rate": 0.00014169607827613283,
      "loss": 1.1555,
      "step": 498
    },
    {
      "epoch": 0.3687759815242494,
      "grad_norm": 0.6793800592422485,
      "learning_rate": 0.00014148350395869278,
      "loss": 1.1439,
      "step": 499
    },
    {
      "epoch": 0.3695150115473441,
      "grad_norm": 0.7702924013137817,
      "learning_rate": 0.00014127070298043947,
      "loss": 1.0866,
      "step": 500
    },
    {
      "epoch": 0.3702540415704388,
      "grad_norm": 0.6299382448196411,
      "learning_rate": 0.00014105767650409153,
      "loss": 1.4509,
      "step": 501
    },
    {
      "epoch": 0.3709930715935335,
      "grad_norm": 0.6105301976203918,
      "learning_rate": 0.00014084442569359964,
      "loss": 1.3843,
      "step": 502
    },
    {
      "epoch": 0.3717321016166282,
      "grad_norm": 0.589590311050415,
      "learning_rate": 0.00014063095171414024,
      "loss": 1.4011,
      "step": 503
    },
    {
      "epoch": 0.37247113163972284,
      "grad_norm": 0.5971229672431946,
      "learning_rate": 0.0001404172557321092,
      "loss": 1.442,
      "step": 504
    },
    {
      "epoch": 0.37321016166281756,
      "grad_norm": 0.5851792693138123,
      "learning_rate": 0.00014020333891511536,
      "loss": 1.3675,
      "step": 505
    },
    {
      "epoch": 0.37394919168591223,
      "grad_norm": 0.53834068775177,
      "learning_rate": 0.00013998920243197407,
      "loss": 1.2949,
      "step": 506
    },
    {
      "epoch": 0.37468822170900695,
      "grad_norm": 0.5030971765518188,
      "learning_rate": 0.00013977484745270112,
      "loss": 1.3945,
      "step": 507
    },
    {
      "epoch": 0.3754272517321016,
      "grad_norm": 0.5152825713157654,
      "learning_rate": 0.0001395602751485059,
      "loss": 1.3852,
      "step": 508
    },
    {
      "epoch": 0.3761662817551963,
      "grad_norm": 0.5023960471153259,
      "learning_rate": 0.00013934548669178534,
      "loss": 1.2483,
      "step": 509
    },
    {
      "epoch": 0.376905311778291,
      "grad_norm": 0.4873775839805603,
      "learning_rate": 0.0001391304832561175,
      "loss": 1.4013,
      "step": 510
    },
    {
      "epoch": 0.3776443418013857,
      "grad_norm": 0.544881284236908,
      "learning_rate": 0.0001389152660162549,
      "loss": 1.313,
      "step": 511
    },
    {
      "epoch": 0.3783833718244804,
      "grad_norm": 0.5139483213424683,
      "learning_rate": 0.00013869983614811838,
      "loss": 1.3005,
      "step": 512
    },
    {
      "epoch": 0.37912240184757506,
      "grad_norm": 0.5170352458953857,
      "learning_rate": 0.00013848419482879041,
      "loss": 1.2262,
      "step": 513
    },
    {
      "epoch": 0.37986143187066973,
      "grad_norm": 0.5313616991043091,
      "learning_rate": 0.000138268343236509,
      "loss": 1.3364,
      "step": 514
    },
    {
      "epoch": 0.38060046189376445,
      "grad_norm": 0.5513116121292114,
      "learning_rate": 0.00013805228255066087,
      "loss": 1.3209,
      "step": 515
    },
    {
      "epoch": 0.3813394919168591,
      "grad_norm": 0.5000123977661133,
      "learning_rate": 0.00013783601395177538,
      "loss": 1.1643,
      "step": 516
    },
    {
      "epoch": 0.3820785219399538,
      "grad_norm": 0.5475031137466431,
      "learning_rate": 0.00013761953862151773,
      "loss": 1.3796,
      "step": 517
    },
    {
      "epoch": 0.3828175519630485,
      "grad_norm": 0.5515228509902954,
      "learning_rate": 0.00013740285774268283,
      "loss": 1.2725,
      "step": 518
    },
    {
      "epoch": 0.3835565819861432,
      "grad_norm": 0.5397936105728149,
      "learning_rate": 0.00013718597249918855,
      "loss": 1.1945,
      "step": 519
    },
    {
      "epoch": 0.3842956120092379,
      "grad_norm": 0.560111403465271,
      "learning_rate": 0.00013696888407606952,
      "loss": 1.2653,
      "step": 520
    },
    {
      "epoch": 0.38503464203233256,
      "grad_norm": 0.5621786117553711,
      "learning_rate": 0.00013675159365947036,
      "loss": 1.3121,
      "step": 521
    },
    {
      "epoch": 0.38577367205542723,
      "grad_norm": 0.5463578104972839,
      "learning_rate": 0.00013653410243663952,
      "loss": 1.2274,
      "step": 522
    },
    {
      "epoch": 0.38651270207852195,
      "grad_norm": 0.5508089661598206,
      "learning_rate": 0.00013631641159592253,
      "loss": 1.1886,
      "step": 523
    },
    {
      "epoch": 0.3872517321016166,
      "grad_norm": 0.563713550567627,
      "learning_rate": 0.00013609852232675558,
      "loss": 1.2298,
      "step": 524
    },
    {
      "epoch": 0.38799076212471134,
      "grad_norm": 0.5378835201263428,
      "learning_rate": 0.00013588043581965912,
      "loss": 1.2087,
      "step": 525
    },
    {
      "epoch": 0.388729792147806,
      "grad_norm": 0.5877800583839417,
      "learning_rate": 0.0001356621532662313,
      "loss": 1.2409,
      "step": 526
    },
    {
      "epoch": 0.3894688221709007,
      "grad_norm": 0.5701057314872742,
      "learning_rate": 0.00013544367585914142,
      "loss": 1.2271,
      "step": 527
    },
    {
      "epoch": 0.3902078521939954,
      "grad_norm": 0.5611912608146667,
      "learning_rate": 0.00013522500479212337,
      "loss": 1.1634,
      "step": 528
    },
    {
      "epoch": 0.39094688221709006,
      "grad_norm": 0.5533584356307983,
      "learning_rate": 0.00013500614125996923,
      "loss": 1.2648,
      "step": 529
    },
    {
      "epoch": 0.39168591224018473,
      "grad_norm": 0.5394177436828613,
      "learning_rate": 0.00013478708645852272,
      "loss": 1.2869,
      "step": 530
    },
    {
      "epoch": 0.39242494226327945,
      "grad_norm": 0.5689206123352051,
      "learning_rate": 0.0001345678415846726,
      "loss": 1.2179,
      "step": 531
    },
    {
      "epoch": 0.3931639722863741,
      "grad_norm": 0.5533956289291382,
      "learning_rate": 0.0001343484078363461,
      "loss": 1.2147,
      "step": 532
    },
    {
      "epoch": 0.39390300230946884,
      "grad_norm": 0.5521177053451538,
      "learning_rate": 0.00013412878641250257,
      "loss": 1.2117,
      "step": 533
    },
    {
      "epoch": 0.3946420323325635,
      "grad_norm": 0.5690494179725647,
      "learning_rate": 0.00013390897851312667,
      "loss": 1.1965,
      "step": 534
    },
    {
      "epoch": 0.3953810623556582,
      "grad_norm": 0.5884346961975098,
      "learning_rate": 0.000133688985339222,
      "loss": 1.1848,
      "step": 535
    },
    {
      "epoch": 0.3961200923787529,
      "grad_norm": 0.5913985371589661,
      "learning_rate": 0.0001334688080928045,
      "loss": 1.1539,
      "step": 536
    },
    {
      "epoch": 0.39685912240184756,
      "grad_norm": 0.5796943306922913,
      "learning_rate": 0.0001332484479768958,
      "loss": 1.1415,
      "step": 537
    },
    {
      "epoch": 0.3975981524249423,
      "grad_norm": 0.5807653069496155,
      "learning_rate": 0.00013302790619551674,
      "loss": 1.2158,
      "step": 538
    },
    {
      "epoch": 0.39833718244803695,
      "grad_norm": 0.6197090148925781,
      "learning_rate": 0.00013280718395368072,
      "loss": 1.199,
      "step": 539
    },
    {
      "epoch": 0.3990762124711316,
      "grad_norm": 0.5961911082267761,
      "learning_rate": 0.00013258628245738725,
      "loss": 1.1013,
      "step": 540
    },
    {
      "epoch": 0.39981524249422634,
      "grad_norm": 0.5715748071670532,
      "learning_rate": 0.00013236520291361515,
      "loss": 1.2014,
      "step": 541
    },
    {
      "epoch": 0.400554272517321,
      "grad_norm": 0.6316447257995605,
      "learning_rate": 0.00013214394653031616,
      "loss": 1.2497,
      "step": 542
    },
    {
      "epoch": 0.40129330254041573,
      "grad_norm": 0.6539223790168762,
      "learning_rate": 0.0001319225145164082,
      "loss": 1.1207,
      "step": 543
    },
    {
      "epoch": 0.4020323325635104,
      "grad_norm": 0.5786140561103821,
      "learning_rate": 0.00013170090808176883,
      "loss": 1.1413,
      "step": 544
    },
    {
      "epoch": 0.40277136258660506,
      "grad_norm": 0.6453601717948914,
      "learning_rate": 0.0001314791284372286,
      "loss": 1.1498,
      "step": 545
    },
    {
      "epoch": 0.4035103926096998,
      "grad_norm": 0.6308304667472839,
      "learning_rate": 0.00013125717679456447,
      "loss": 1.1603,
      "step": 546
    },
    {
      "epoch": 0.40424942263279445,
      "grad_norm": 0.6367248296737671,
      "learning_rate": 0.00013103505436649318,
      "loss": 1.1808,
      "step": 547
    },
    {
      "epoch": 0.4049884526558891,
      "grad_norm": 0.7022990584373474,
      "learning_rate": 0.00013081276236666468,
      "loss": 1.1424,
      "step": 548
    },
    {
      "epoch": 0.40572748267898384,
      "grad_norm": 0.6985217332839966,
      "learning_rate": 0.00013059030200965536,
      "loss": 1.0894,
      "step": 549
    },
    {
      "epoch": 0.4064665127020785,
      "grad_norm": 0.7694375514984131,
      "learning_rate": 0.00013036767451096148,
      "loss": 1.0562,
      "step": 550
    },
    {
      "epoch": 0.40720554272517323,
      "grad_norm": 0.581691563129425,
      "learning_rate": 0.0001301448810869926,
      "loss": 1.5081,
      "step": 551
    },
    {
      "epoch": 0.4079445727482679,
      "grad_norm": 0.5568789839744568,
      "learning_rate": 0.00012992192295506488,
      "loss": 1.335,
      "step": 552
    },
    {
      "epoch": 0.40868360277136256,
      "grad_norm": 0.5703795552253723,
      "learning_rate": 0.00012969880133339437,
      "loss": 1.383,
      "step": 553
    },
    {
      "epoch": 0.4094226327944573,
      "grad_norm": 0.5617287755012512,
      "learning_rate": 0.00012947551744109043,
      "loss": 1.3458,
      "step": 554
    },
    {
      "epoch": 0.41016166281755195,
      "grad_norm": 0.5706005692481995,
      "learning_rate": 0.0001292520724981491,
      "loss": 1.4012,
      "step": 555
    },
    {
      "epoch": 0.4109006928406467,
      "grad_norm": 0.5449508428573608,
      "learning_rate": 0.00012902846772544624,
      "loss": 1.4118,
      "step": 556
    },
    {
      "epoch": 0.41163972286374134,
      "grad_norm": 0.5573161244392395,
      "learning_rate": 0.00012880470434473116,
      "loss": 1.308,
      "step": 557
    },
    {
      "epoch": 0.412378752886836,
      "grad_norm": 0.5286896824836731,
      "learning_rate": 0.0001285807835786198,
      "loss": 1.2451,
      "step": 558
    },
    {
      "epoch": 0.41311778290993073,
      "grad_norm": 0.5258354544639587,
      "learning_rate": 0.00012835670665058778,
      "loss": 1.3485,
      "step": 559
    },
    {
      "epoch": 0.4138568129330254,
      "grad_norm": 0.5196087956428528,
      "learning_rate": 0.00012813247478496429,
      "loss": 1.2424,
      "step": 560
    },
    {
      "epoch": 0.4145958429561201,
      "grad_norm": 0.5299727320671082,
      "learning_rate": 0.00012790808920692484,
      "loss": 1.2339,
      "step": 561
    },
    {
      "epoch": 0.4153348729792148,
      "grad_norm": 0.5148264169692993,
      "learning_rate": 0.00012768355114248494,
      "loss": 1.3015,
      "step": 562
    },
    {
      "epoch": 0.41607390300230945,
      "grad_norm": 0.5767931938171387,
      "learning_rate": 0.00012745886181849325,
      "loss": 1.2952,
      "step": 563
    },
    {
      "epoch": 0.4168129330254042,
      "grad_norm": 0.5741678476333618,
      "learning_rate": 0.00012723402246262483,
      "loss": 1.3883,
      "step": 564
    },
    {
      "epoch": 0.41755196304849884,
      "grad_norm": 0.5687262415885925,
      "learning_rate": 0.00012700903430337457,
      "loss": 1.3083,
      "step": 565
    },
    {
      "epoch": 0.4182909930715935,
      "grad_norm": 0.5430586338043213,
      "learning_rate": 0.00012678389857005034,
      "loss": 1.2398,
      "step": 566
    },
    {
      "epoch": 0.41903002309468823,
      "grad_norm": 0.5691488981246948,
      "learning_rate": 0.00012655861649276635,
      "loss": 1.254,
      "step": 567
    },
    {
      "epoch": 0.4197690531177829,
      "grad_norm": 0.5862402319908142,
      "learning_rate": 0.00012633318930243648,
      "loss": 1.3211,
      "step": 568
    },
    {
      "epoch": 0.4205080831408776,
      "grad_norm": 0.5368697047233582,
      "learning_rate": 0.00012610761823076745,
      "loss": 1.2688,
      "step": 569
    },
    {
      "epoch": 0.4212471131639723,
      "grad_norm": 0.5574977993965149,
      "learning_rate": 0.00012588190451025207,
      "loss": 1.2967,
      "step": 570
    },
    {
      "epoch": 0.42198614318706695,
      "grad_norm": 0.56252121925354,
      "learning_rate": 0.00012565604937416267,
      "loss": 1.2555,
      "step": 571
    },
    {
      "epoch": 0.4227251732101617,
      "grad_norm": 0.5545264482498169,
      "learning_rate": 0.00012543005405654418,
      "loss": 1.2497,
      "step": 572
    },
    {
      "epoch": 0.42346420323325634,
      "grad_norm": 0.5315335988998413,
      "learning_rate": 0.0001252039197922075,
      "loss": 1.2597,
      "step": 573
    },
    {
      "epoch": 0.42420323325635106,
      "grad_norm": 0.5434499979019165,
      "learning_rate": 0.0001249776478167227,
      "loss": 1.1804,
      "step": 574
    },
    {
      "epoch": 0.42494226327944573,
      "grad_norm": 0.5409091114997864,
      "learning_rate": 0.00012475123936641228,
      "loss": 1.2794,
      "step": 575
    },
    {
      "epoch": 0.4256812933025404,
      "grad_norm": 0.5415393710136414,
      "learning_rate": 0.00012452469567834448,
      "loss": 1.2735,
      "step": 576
    },
    {
      "epoch": 0.4264203233256351,
      "grad_norm": 0.5567219257354736,
      "learning_rate": 0.0001242980179903264,
      "loss": 1.2371,
      "step": 577
    },
    {
      "epoch": 0.4271593533487298,
      "grad_norm": 0.5372371673583984,
      "learning_rate": 0.00012407120754089732,
      "loss": 1.2416,
      "step": 578
    },
    {
      "epoch": 0.42789838337182445,
      "grad_norm": 0.5811474323272705,
      "learning_rate": 0.0001238442655693219,
      "loss": 1.2121,
      "step": 579
    },
    {
      "epoch": 0.4286374133949192,
      "grad_norm": 0.5668553113937378,
      "learning_rate": 0.00012361719331558345,
      "loss": 1.1672,
      "step": 580
    },
    {
      "epoch": 0.42937644341801384,
      "grad_norm": 0.6208084225654602,
      "learning_rate": 0.00012338999202037712,
      "loss": 1.3068,
      "step": 581
    },
    {
      "epoch": 0.43011547344110856,
      "grad_norm": 0.5945687294006348,
      "learning_rate": 0.00012316266292510306,
      "loss": 1.238,
      "step": 582
    },
    {
      "epoch": 0.43085450346420323,
      "grad_norm": 0.5746225118637085,
      "learning_rate": 0.0001229352072718598,
      "loss": 1.2498,
      "step": 583
    },
    {
      "epoch": 0.4315935334872979,
      "grad_norm": 0.5689594745635986,
      "learning_rate": 0.00012270762630343734,
      "loss": 1.2021,
      "step": 584
    },
    {
      "epoch": 0.4323325635103926,
      "grad_norm": 0.6229868531227112,
      "learning_rate": 0.00012247992126331034,
      "loss": 1.1951,
      "step": 585
    },
    {
      "epoch": 0.4330715935334873,
      "grad_norm": 0.5800731778144836,
      "learning_rate": 0.00012225209339563145,
      "loss": 1.1537,
      "step": 586
    },
    {
      "epoch": 0.433810623556582,
      "grad_norm": 0.605043888092041,
      "learning_rate": 0.00012202414394522436,
      "loss": 1.1967,
      "step": 587
    },
    {
      "epoch": 0.4345496535796767,
      "grad_norm": 0.605933666229248,
      "learning_rate": 0.0001217960741575771,
      "loss": 1.1423,
      "step": 588
    },
    {
      "epoch": 0.43528868360277134,
      "grad_norm": 0.5815667510032654,
      "learning_rate": 0.00012156788527883522,
      "loss": 1.1512,
      "step": 589
    },
    {
      "epoch": 0.43602771362586606,
      "grad_norm": 0.6228115558624268,
      "learning_rate": 0.00012133957855579501,
      "loss": 1.1223,
      "step": 590
    },
    {
      "epoch": 0.43676674364896073,
      "grad_norm": 0.5893228650093079,
      "learning_rate": 0.00012111115523589651,
      "loss": 1.2557,
      "step": 591
    },
    {
      "epoch": 0.43750577367205545,
      "grad_norm": 0.5880095362663269,
      "learning_rate": 0.000120882616567217,
      "loss": 1.1403,
      "step": 592
    },
    {
      "epoch": 0.4382448036951501,
      "grad_norm": 0.6167351007461548,
      "learning_rate": 0.00012065396379846387,
      "loss": 1.1585,
      "step": 593
    },
    {
      "epoch": 0.4389838337182448,
      "grad_norm": 0.5779226422309875,
      "learning_rate": 0.00012042519817896804,
      "loss": 1.1627,
      "step": 594
    },
    {
      "epoch": 0.4397228637413395,
      "grad_norm": 0.620310366153717,
      "learning_rate": 0.00012019632095867697,
      "loss": 1.131,
      "step": 595
    },
    {
      "epoch": 0.4404618937644342,
      "grad_norm": 0.6261785626411438,
      "learning_rate": 0.00011996733338814794,
      "loss": 1.0527,
      "step": 596
    },
    {
      "epoch": 0.44120092378752884,
      "grad_norm": 0.7008484601974487,
      "learning_rate": 0.00011973823671854112,
      "loss": 1.1324,
      "step": 597
    },
    {
      "epoch": 0.44193995381062356,
      "grad_norm": 0.7834935784339905,
      "learning_rate": 0.00011950903220161285,
      "loss": 1.159,
      "step": 598
    },
    {
      "epoch": 0.44267898383371823,
      "grad_norm": 0.7532901763916016,
      "learning_rate": 0.00011927972108970864,
      "loss": 1.035,
      "step": 599
    },
    {
      "epoch": 0.44341801385681295,
      "grad_norm": 0.9197596311569214,
      "learning_rate": 0.0001190503046357565,
      "loss": 0.9701,
      "step": 600
    },
    {
      "epoch": 0.4441570438799076,
      "grad_norm": 0.5506125688552856,
      "learning_rate": 0.00011882078409326002,
      "loss": 1.2615,
      "step": 601
    },
    {
      "epoch": 0.4448960739030023,
      "grad_norm": 0.5999507308006287,
      "learning_rate": 0.00011859116071629149,
      "loss": 1.2988,
      "step": 602
    },
    {
      "epoch": 0.445635103926097,
      "grad_norm": 0.6410862803459167,
      "learning_rate": 0.00011836143575948501,
      "loss": 1.3241,
      "step": 603
    },
    {
      "epoch": 0.4463741339491917,
      "grad_norm": 0.6498569250106812,
      "learning_rate": 0.00011813161047802985,
      "loss": 1.3344,
      "step": 604
    },
    {
      "epoch": 0.4471131639722864,
      "grad_norm": 0.6027644872665405,
      "learning_rate": 0.0001179016861276633,
      "loss": 1.3357,
      "step": 605
    },
    {
      "epoch": 0.44785219399538106,
      "grad_norm": 0.5806604027748108,
      "learning_rate": 0.00011767166396466403,
      "loss": 1.3883,
      "step": 606
    },
    {
      "epoch": 0.44859122401847573,
      "grad_norm": 0.5534544587135315,
      "learning_rate": 0.0001174415452458451,
      "loss": 1.3392,
      "step": 607
    },
    {
      "epoch": 0.44933025404157045,
      "grad_norm": 0.5390201807022095,
      "learning_rate": 0.0001172113312285472,
      "loss": 1.2718,
      "step": 608
    },
    {
      "epoch": 0.4500692840646651,
      "grad_norm": 0.5172249674797058,
      "learning_rate": 0.00011698102317063164,
      "loss": 1.3435,
      "step": 609
    },
    {
      "epoch": 0.45080831408775984,
      "grad_norm": 0.49934643507003784,
      "learning_rate": 0.00011675062233047364,
      "loss": 1.2942,
      "step": 610
    },
    {
      "epoch": 0.4515473441108545,
      "grad_norm": 0.5223299264907837,
      "learning_rate": 0.00011652012996695533,
      "loss": 1.3598,
      "step": 611
    },
    {
      "epoch": 0.4522863741339492,
      "grad_norm": 0.5214406847953796,
      "learning_rate": 0.0001162895473394589,
      "loss": 1.2436,
      "step": 612
    },
    {
      "epoch": 0.4530254041570439,
      "grad_norm": 0.5106102228164673,
      "learning_rate": 0.00011605887570785972,
      "loss": 1.2582,
      "step": 613
    },
    {
      "epoch": 0.45376443418013857,
      "grad_norm": 0.5613025426864624,
      "learning_rate": 0.0001158281163325195,
      "loss": 1.2594,
      "step": 614
    },
    {
      "epoch": 0.45450346420323323,
      "grad_norm": 0.545637845993042,
      "learning_rate": 0.00011559727047427938,
      "loss": 1.2602,
      "step": 615
    },
    {
      "epoch": 0.45524249422632795,
      "grad_norm": 0.5397331118583679,
      "learning_rate": 0.000115366339394453,
      "loss": 1.2708,
      "step": 616
    },
    {
      "epoch": 0.4559815242494226,
      "grad_norm": 0.5496468544006348,
      "learning_rate": 0.00011513532435481968,
      "loss": 1.2335,
      "step": 617
    },
    {
      "epoch": 0.45672055427251734,
      "grad_norm": 0.5674046874046326,
      "learning_rate": 0.00011490422661761744,
      "loss": 1.319,
      "step": 618
    },
    {
      "epoch": 0.457459584295612,
      "grad_norm": 0.5594624280929565,
      "learning_rate": 0.00011467304744553618,
      "loss": 1.2829,
      "step": 619
    },
    {
      "epoch": 0.4581986143187067,
      "grad_norm": 0.5758783221244812,
      "learning_rate": 0.00011444178810171073,
      "loss": 1.2532,
      "step": 620
    },
    {
      "epoch": 0.4589376443418014,
      "grad_norm": 0.5315737128257751,
      "learning_rate": 0.00011421044984971399,
      "loss": 1.2119,
      "step": 621
    },
    {
      "epoch": 0.45967667436489607,
      "grad_norm": 0.5434487462043762,
      "learning_rate": 0.00011397903395354996,
      "loss": 1.2617,
      "step": 622
    },
    {
      "epoch": 0.4604157043879908,
      "grad_norm": 0.5862142443656921,
      "learning_rate": 0.00011374754167764696,
      "loss": 1.2752,
      "step": 623
    },
    {
      "epoch": 0.46115473441108545,
      "grad_norm": 0.5828085541725159,
      "learning_rate": 0.00011351597428685055,
      "loss": 1.1462,
      "step": 624
    },
    {
      "epoch": 0.4618937644341801,
      "grad_norm": 0.5404928922653198,
      "learning_rate": 0.00011328433304641679,
      "loss": 1.195,
      "step": 625
    },
    {
      "epoch": 0.46263279445727484,
      "grad_norm": 0.5674863457679749,
      "learning_rate": 0.00011305261922200519,
      "loss": 1.2644,
      "step": 626
    },
    {
      "epoch": 0.4633718244803695,
      "grad_norm": 0.5817274451255798,
      "learning_rate": 0.00011282083407967183,
      "loss": 1.2082,
      "step": 627
    },
    {
      "epoch": 0.4641108545034642,
      "grad_norm": 0.5785337090492249,
      "learning_rate": 0.00011258897888586255,
      "loss": 1.1973,
      "step": 628
    },
    {
      "epoch": 0.4648498845265589,
      "grad_norm": 0.5627723932266235,
      "learning_rate": 0.00011235705490740589,
      "loss": 1.2309,
      "step": 629
    },
    {
      "epoch": 0.46558891454965357,
      "grad_norm": 0.5715712904930115,
      "learning_rate": 0.00011212506341150615,
      "loss": 1.2527,
      "step": 630
    },
    {
      "epoch": 0.4663279445727483,
      "grad_norm": 0.5351736545562744,
      "learning_rate": 0.0001118930056657367,
      "loss": 1.1139,
      "step": 631
    },
    {
      "epoch": 0.46706697459584295,
      "grad_norm": 0.5643423199653625,
      "learning_rate": 0.00011166088293803276,
      "loss": 1.2411,
      "step": 632
    },
    {
      "epoch": 0.4678060046189376,
      "grad_norm": 0.5780354738235474,
      "learning_rate": 0.00011142869649668466,
      "loss": 1.1828,
      "step": 633
    },
    {
      "epoch": 0.46854503464203234,
      "grad_norm": 0.5443806648254395,
      "learning_rate": 0.00011119644761033078,
      "loss": 1.2189,
      "step": 634
    },
    {
      "epoch": 0.469284064665127,
      "grad_norm": 0.5905835628509521,
      "learning_rate": 0.00011096413754795083,
      "loss": 1.296,
      "step": 635
    },
    {
      "epoch": 0.47002309468822173,
      "grad_norm": 0.5950865745544434,
      "learning_rate": 0.00011073176757885866,
      "loss": 1.1267,
      "step": 636
    },
    {
      "epoch": 0.4707621247113164,
      "grad_norm": 0.6144324541091919,
      "learning_rate": 0.00011049933897269547,
      "loss": 1.1254,
      "step": 637
    },
    {
      "epoch": 0.47150115473441107,
      "grad_norm": 0.5823624134063721,
      "learning_rate": 0.00011026685299942285,
      "loss": 1.1786,
      "step": 638
    },
    {
      "epoch": 0.4722401847575058,
      "grad_norm": 0.6318681836128235,
      "learning_rate": 0.00011003431092931589,
      "loss": 1.2909,
      "step": 639
    },
    {
      "epoch": 0.47297921478060045,
      "grad_norm": 0.6249568462371826,
      "learning_rate": 0.0001098017140329561,
      "loss": 1.2133,
      "step": 640
    },
    {
      "epoch": 0.4737182448036952,
      "grad_norm": 0.620170533657074,
      "learning_rate": 0.00010956906358122456,
      "loss": 1.1016,
      "step": 641
    },
    {
      "epoch": 0.47445727482678984,
      "grad_norm": 0.639169454574585,
      "learning_rate": 0.00010933636084529506,
      "loss": 1.2922,
      "step": 642
    },
    {
      "epoch": 0.4751963048498845,
      "grad_norm": 0.6018134951591492,
      "learning_rate": 0.00010910360709662701,
      "loss": 1.1666,
      "step": 643
    },
    {
      "epoch": 0.47593533487297923,
      "grad_norm": 0.6518072485923767,
      "learning_rate": 0.00010887080360695854,
      "loss": 1.175,
      "step": 644
    },
    {
      "epoch": 0.4766743648960739,
      "grad_norm": 0.6566253900527954,
      "learning_rate": 0.00010863795164829955,
      "loss": 1.1719,
      "step": 645
    },
    {
      "epoch": 0.47741339491916857,
      "grad_norm": 0.651665985584259,
      "learning_rate": 0.00010840505249292476,
      "loss": 1.1072,
      "step": 646
    },
    {
      "epoch": 0.4781524249422633,
      "grad_norm": 0.6408315896987915,
      "learning_rate": 0.00010817210741336684,
      "loss": 1.1608,
      "step": 647
    },
    {
      "epoch": 0.47889145496535795,
      "grad_norm": 0.6616602540016174,
      "learning_rate": 0.00010793911768240929,
      "loss": 1.1348,
      "step": 648
    },
    {
      "epoch": 0.4796304849884527,
      "grad_norm": 0.6847969889640808,
      "learning_rate": 0.00010770608457307965,
      "loss": 1.1957,
      "step": 649
    },
    {
      "epoch": 0.48036951501154734,
      "grad_norm": 0.7408053874969482,
      "learning_rate": 0.00010747300935864243,
      "loss": 1.0877,
      "step": 650
    },
    {
      "epoch": 0.481108545034642,
      "grad_norm": 0.5841676592826843,
      "learning_rate": 0.00010723989331259223,
      "loss": 1.363,
      "step": 651
    },
    {
      "epoch": 0.48184757505773673,
      "grad_norm": 0.547583818435669,
      "learning_rate": 0.00010700673770864673,
      "loss": 1.228,
      "step": 652
    },
    {
      "epoch": 0.4825866050808314,
      "grad_norm": 0.6030504107475281,
      "learning_rate": 0.00010677354382073976,
      "loss": 1.2907,
      "step": 653
    },
    {
      "epoch": 0.4833256351039261,
      "grad_norm": 0.5374791622161865,
      "learning_rate": 0.00010654031292301432,
      "loss": 1.3191,
      "step": 654
    },
    {
      "epoch": 0.4840646651270208,
      "grad_norm": 0.5478341579437256,
      "learning_rate": 0.0001063070462898156,
      "loss": 1.2762,
      "step": 655
    },
    {
      "epoch": 0.48480369515011545,
      "grad_norm": 0.5458916425704956,
      "learning_rate": 0.00010607374519568412,
      "loss": 1.427,
      "step": 656
    },
    {
      "epoch": 0.4855427251732102,
      "grad_norm": 0.5440476536750793,
      "learning_rate": 0.00010584041091534863,
      "loss": 1.2392,
      "step": 657
    },
    {
      "epoch": 0.48628175519630484,
      "grad_norm": 0.5572896003723145,
      "learning_rate": 0.00010560704472371919,
      "loss": 1.3086,
      "step": 658
    },
    {
      "epoch": 0.48702078521939957,
      "grad_norm": 0.5430862903594971,
      "learning_rate": 0.00010537364789588029,
      "loss": 1.2433,
      "step": 659
    },
    {
      "epoch": 0.48775981524249423,
      "grad_norm": 0.5300841331481934,
      "learning_rate": 0.00010514022170708374,
      "loss": 1.2695,
      "step": 660
    },
    {
      "epoch": 0.4884988452655889,
      "grad_norm": 0.5223753452301025,
      "learning_rate": 0.00010490676743274181,
      "loss": 1.197,
      "step": 661
    },
    {
      "epoch": 0.4892378752886836,
      "grad_norm": 0.5498459935188293,
      "learning_rate": 0.00010467328634842024,
      "loss": 1.3014,
      "step": 662
    },
    {
      "epoch": 0.4899769053117783,
      "grad_norm": 0.5256897807121277,
      "learning_rate": 0.00010443977972983126,
      "loss": 1.3519,
      "step": 663
    },
    {
      "epoch": 0.49071593533487295,
      "grad_norm": 0.5366203188896179,
      "learning_rate": 0.00010420624885282653,
      "loss": 1.2479,
      "step": 664
    },
    {
      "epoch": 0.4914549653579677,
      "grad_norm": 0.5581708550453186,
      "learning_rate": 0.00010397269499339035,
      "loss": 1.2312,
      "step": 665
    },
    {
      "epoch": 0.49219399538106234,
      "grad_norm": 0.5498042106628418,
      "learning_rate": 0.0001037391194276326,
      "loss": 1.2096,
      "step": 666
    },
    {
      "epoch": 0.49293302540415707,
      "grad_norm": 0.5379590392112732,
      "learning_rate": 0.00010350552343178163,
      "loss": 1.3116,
      "step": 667
    },
    {
      "epoch": 0.49367205542725173,
      "grad_norm": 0.5669946074485779,
      "learning_rate": 0.00010327190828217763,
      "loss": 1.1208,
      "step": 668
    },
    {
      "epoch": 0.4944110854503464,
      "grad_norm": 0.5448700785636902,
      "learning_rate": 0.00010303827525526523,
      "loss": 1.3109,
      "step": 669
    },
    {
      "epoch": 0.4951501154734411,
      "grad_norm": 0.5395958423614502,
      "learning_rate": 0.0001028046256275869,
      "loss": 1.2322,
      "step": 670
    },
    {
      "epoch": 0.4958891454965358,
      "grad_norm": 0.578815221786499,
      "learning_rate": 0.00010257096067577572,
      "loss": 1.313,
      "step": 671
    },
    {
      "epoch": 0.4966281755196305,
      "grad_norm": 0.5663309097290039,
      "learning_rate": 0.0001023372816765485,
      "loss": 1.2627,
      "step": 672
    },
    {
      "epoch": 0.4973672055427252,
      "grad_norm": 0.514090895652771,
      "learning_rate": 0.00010210358990669888,
      "loss": 1.287,
      "step": 673
    },
    {
      "epoch": 0.49810623556581984,
      "grad_norm": 0.5540452003479004,
      "learning_rate": 0.00010186988664309023,
      "loss": 1.2665,
      "step": 674
    },
    {
      "epoch": 0.49884526558891457,
      "grad_norm": 0.5478083491325378,
      "learning_rate": 0.00010163617316264869,
      "loss": 1.2271,
      "step": 675
    },
    {
      "epoch": 0.49958429561200923,
      "grad_norm": 0.5594823360443115,
      "learning_rate": 0.00010140245074235624,
      "loss": 1.2375,
      "step": 676
    },
    {
      "epoch": 0.500323325635104,
      "grad_norm": 0.563499391078949,
      "learning_rate": 0.00010116872065924376,
      "loss": 1.2488,
      "step": 677
    },
    {
      "epoch": 0.5010623556581986,
      "grad_norm": 0.5637900829315186,
      "learning_rate": 0.00010093498419038394,
      "loss": 1.232,
      "step": 678
    },
    {
      "epoch": 0.5010623556581986,
      "eval_loss": 1.2138876914978027,
      "eval_runtime": 64.4705,
      "eval_samples_per_second": 17.683,
      "eval_steps_per_second": 8.841,
      "step": 678
    },
    {
      "epoch": 0.5018013856812933,
      "grad_norm": 0.5620031952857971,
      "learning_rate": 0.00010070124261288436,
      "loss": 1.1425,
      "step": 679
    },
    {
      "epoch": 0.502540415704388,
      "grad_norm": 0.5878764986991882,
      "learning_rate": 0.00010046749720388055,
      "loss": 1.2929,
      "step": 680
    },
    {
      "epoch": 0.5032794457274827,
      "grad_norm": 0.6089823246002197,
      "learning_rate": 0.00010023374924052897,
      "loss": 1.1916,
      "step": 681
    },
    {
      "epoch": 0.5040184757505773,
      "grad_norm": 0.5885931253433228,
      "learning_rate": 0.0001,
      "loss": 1.2,
      "step": 682
    },
    {
      "epoch": 0.5047575057736721,
      "grad_norm": 0.5874367356300354,
      "learning_rate": 9.976625075947103e-05,
      "loss": 1.2161,
      "step": 683
    },
    {
      "epoch": 0.5054965357967668,
      "grad_norm": 0.5743332505226135,
      "learning_rate": 9.953250279611946e-05,
      "loss": 1.1461,
      "step": 684
    },
    {
      "epoch": 0.5062355658198614,
      "grad_norm": 0.6108142733573914,
      "learning_rate": 9.929875738711564e-05,
      "loss": 1.2133,
      "step": 685
    },
    {
      "epoch": 0.5069745958429561,
      "grad_norm": 0.5805640816688538,
      "learning_rate": 9.90650158096161e-05,
      "loss": 1.2506,
      "step": 686
    },
    {
      "epoch": 0.5077136258660508,
      "grad_norm": 0.5755836367607117,
      "learning_rate": 9.883127934075624e-05,
      "loss": 1.2249,
      "step": 687
    },
    {
      "epoch": 0.5084526558891455,
      "grad_norm": 0.5830661654472351,
      "learning_rate": 9.859754925764378e-05,
      "loss": 1.2201,
      "step": 688
    },
    {
      "epoch": 0.5091916859122402,
      "grad_norm": 0.6002200245857239,
      "learning_rate": 9.836382683735132e-05,
      "loss": 1.2244,
      "step": 689
    },
    {
      "epoch": 0.5099307159353349,
      "grad_norm": 0.6091518998146057,
      "learning_rate": 9.813011335690981e-05,
      "loss": 1.1711,
      "step": 690
    },
    {
      "epoch": 0.5106697459584295,
      "grad_norm": 0.623540461063385,
      "learning_rate": 9.789641009330111e-05,
      "loss": 1.1263,
      "step": 691
    },
    {
      "epoch": 0.5114087759815242,
      "grad_norm": 0.6153164505958557,
      "learning_rate": 9.766271832345152e-05,
      "loss": 1.1147,
      "step": 692
    },
    {
      "epoch": 0.512147806004619,
      "grad_norm": 0.6356682777404785,
      "learning_rate": 9.74290393242243e-05,
      "loss": 1.0917,
      "step": 693
    },
    {
      "epoch": 0.5128868360277137,
      "grad_norm": 0.6215153336524963,
      "learning_rate": 9.719537437241312e-05,
      "loss": 1.0959,
      "step": 694
    },
    {
      "epoch": 0.5136258660508083,
      "grad_norm": 0.6272922158241272,
      "learning_rate": 9.696172474473479e-05,
      "loss": 1.1084,
      "step": 695
    },
    {
      "epoch": 0.514364896073903,
      "grad_norm": 0.6571090817451477,
      "learning_rate": 9.67280917178224e-05,
      "loss": 1.1188,
      "step": 696
    },
    {
      "epoch": 0.5151039260969977,
      "grad_norm": 0.6009642481803894,
      "learning_rate": 9.649447656821839e-05,
      "loss": 1.0215,
      "step": 697
    },
    {
      "epoch": 0.5158429561200923,
      "grad_norm": 0.6949170231819153,
      "learning_rate": 9.626088057236745e-05,
      "loss": 1.1156,
      "step": 698
    },
    {
      "epoch": 0.5165819861431871,
      "grad_norm": 0.722231924533844,
      "learning_rate": 9.602730500660967e-05,
      "loss": 0.9555,
      "step": 699
    },
    {
      "epoch": 0.5173210161662818,
      "grad_norm": 0.8106604814529419,
      "learning_rate": 9.579375114717351e-05,
      "loss": 1.1041,
      "step": 700
    },
    {
      "epoch": 0.5180600461893764,
      "grad_norm": 0.5664575099945068,
      "learning_rate": 9.556022027016878e-05,
      "loss": 1.3125,
      "step": 701
    },
    {
      "epoch": 0.5187990762124711,
      "grad_norm": 0.6450958251953125,
      "learning_rate": 9.53267136515798e-05,
      "loss": 1.3527,
      "step": 702
    },
    {
      "epoch": 0.5195381062355658,
      "grad_norm": 0.5941787362098694,
      "learning_rate": 9.509323256725821e-05,
      "loss": 1.2966,
      "step": 703
    },
    {
      "epoch": 0.5202771362586605,
      "grad_norm": 0.5855495929718018,
      "learning_rate": 9.485977829291627e-05,
      "loss": 1.2145,
      "step": 704
    },
    {
      "epoch": 0.5210161662817552,
      "grad_norm": 0.5834623575210571,
      "learning_rate": 9.462635210411974e-05,
      "loss": 1.2294,
      "step": 705
    },
    {
      "epoch": 0.5217551963048499,
      "grad_norm": 0.5927074551582336,
      "learning_rate": 9.439295527628081e-05,
      "loss": 1.2981,
      "step": 706
    },
    {
      "epoch": 0.5224942263279446,
      "grad_norm": 0.5476834774017334,
      "learning_rate": 9.41595890846514e-05,
      "loss": 1.167,
      "step": 707
    },
    {
      "epoch": 0.5232332563510392,
      "grad_norm": 0.5609400868415833,
      "learning_rate": 9.392625480431587e-05,
      "loss": 1.3505,
      "step": 708
    },
    {
      "epoch": 0.523972286374134,
      "grad_norm": 0.55769944190979,
      "learning_rate": 9.369295371018442e-05,
      "loss": 1.2849,
      "step": 709
    },
    {
      "epoch": 0.5247113163972287,
      "grad_norm": 0.553935706615448,
      "learning_rate": 9.345968707698569e-05,
      "loss": 1.1918,
      "step": 710
    },
    {
      "epoch": 0.5254503464203233,
      "grad_norm": 0.5282242298126221,
      "learning_rate": 9.322645617926026e-05,
      "loss": 1.2636,
      "step": 711
    },
    {
      "epoch": 0.526189376443418,
      "grad_norm": 0.5555866360664368,
      "learning_rate": 9.299326229135326e-05,
      "loss": 1.3097,
      "step": 712
    },
    {
      "epoch": 0.5269284064665127,
      "grad_norm": 0.5505872964859009,
      "learning_rate": 9.27601066874078e-05,
      "loss": 1.3408,
      "step": 713
    },
    {
      "epoch": 0.5276674364896073,
      "grad_norm": 0.561299204826355,
      "learning_rate": 9.252699064135758e-05,
      "loss": 1.2697,
      "step": 714
    },
    {
      "epoch": 0.5284064665127021,
      "grad_norm": 0.5286736488342285,
      "learning_rate": 9.229391542692039e-05,
      "loss": 1.2519,
      "step": 715
    },
    {
      "epoch": 0.5291454965357968,
      "grad_norm": 0.5200268030166626,
      "learning_rate": 9.206088231759073e-05,
      "loss": 1.2731,
      "step": 716
    },
    {
      "epoch": 0.5298845265588914,
      "grad_norm": 0.564602255821228,
      "learning_rate": 9.182789258663321e-05,
      "loss": 1.1996,
      "step": 717
    },
    {
      "epoch": 0.5306235565819861,
      "grad_norm": 0.5736812353134155,
      "learning_rate": 9.159494750707526e-05,
      "loss": 1.2465,
      "step": 718
    },
    {
      "epoch": 0.5313625866050808,
      "grad_norm": 0.5719347596168518,
      "learning_rate": 9.13620483517005e-05,
      "loss": 1.2675,
      "step": 719
    },
    {
      "epoch": 0.5321016166281756,
      "grad_norm": 0.5534915924072266,
      "learning_rate": 9.112919639304148e-05,
      "loss": 1.1894,
      "step": 720
    },
    {
      "epoch": 0.5328406466512702,
      "grad_norm": 0.5672657489776611,
      "learning_rate": 9.0896392903373e-05,
      "loss": 1.1905,
      "step": 721
    },
    {
      "epoch": 0.5335796766743649,
      "grad_norm": 0.5595671534538269,
      "learning_rate": 9.066363915470495e-05,
      "loss": 1.1417,
      "step": 722
    },
    {
      "epoch": 0.5343187066974596,
      "grad_norm": 0.5913251638412476,
      "learning_rate": 9.043093641877547e-05,
      "loss": 1.2159,
      "step": 723
    },
    {
      "epoch": 0.5350577367205542,
      "grad_norm": 0.5764579772949219,
      "learning_rate": 9.019828596704394e-05,
      "loss": 1.1395,
      "step": 724
    },
    {
      "epoch": 0.535796766743649,
      "grad_norm": 0.5695019960403442,
      "learning_rate": 8.996568907068415e-05,
      "loss": 1.2468,
      "step": 725
    },
    {
      "epoch": 0.5365357967667437,
      "grad_norm": 0.5593950152397156,
      "learning_rate": 8.973314700057717e-05,
      "loss": 1.1726,
      "step": 726
    },
    {
      "epoch": 0.5372748267898383,
      "grad_norm": 0.5896986126899719,
      "learning_rate": 8.950066102730456e-05,
      "loss": 1.174,
      "step": 727
    },
    {
      "epoch": 0.538013856812933,
      "grad_norm": 0.6042497158050537,
      "learning_rate": 8.926823242114136e-05,
      "loss": 1.1665,
      "step": 728
    },
    {
      "epoch": 0.5387528868360277,
      "grad_norm": 0.5669901371002197,
      "learning_rate": 8.903586245204917e-05,
      "loss": 1.1818,
      "step": 729
    },
    {
      "epoch": 0.5394919168591225,
      "grad_norm": 0.5696582794189453,
      "learning_rate": 8.880355238966923e-05,
      "loss": 1.173,
      "step": 730
    },
    {
      "epoch": 0.5402309468822171,
      "grad_norm": 0.5977489352226257,
      "learning_rate": 8.857130350331535e-05,
      "loss": 1.2401,
      "step": 731
    },
    {
      "epoch": 0.5409699769053118,
      "grad_norm": 0.593864917755127,
      "learning_rate": 8.833911706196725e-05,
      "loss": 1.0988,
      "step": 732
    },
    {
      "epoch": 0.5417090069284065,
      "grad_norm": 0.6169446110725403,
      "learning_rate": 8.81069943342633e-05,
      "loss": 1.1988,
      "step": 733
    },
    {
      "epoch": 0.5424480369515011,
      "grad_norm": 0.5920674204826355,
      "learning_rate": 8.787493658849386e-05,
      "loss": 1.196,
      "step": 734
    },
    {
      "epoch": 0.5431870669745958,
      "grad_norm": 0.5862880945205688,
      "learning_rate": 8.764294509259414e-05,
      "loss": 1.2023,
      "step": 735
    },
    {
      "epoch": 0.5439260969976906,
      "grad_norm": 0.5996320843696594,
      "learning_rate": 8.741102111413748e-05,
      "loss": 1.0649,
      "step": 736
    },
    {
      "epoch": 0.5446651270207852,
      "grad_norm": 0.578711986541748,
      "learning_rate": 8.717916592032818e-05,
      "loss": 1.0374,
      "step": 737
    },
    {
      "epoch": 0.5454041570438799,
      "grad_norm": 0.6301314234733582,
      "learning_rate": 8.694738077799488e-05,
      "loss": 1.11,
      "step": 738
    },
    {
      "epoch": 0.5461431870669746,
      "grad_norm": 0.6258751749992371,
      "learning_rate": 8.671566695358324e-05,
      "loss": 1.0905,
      "step": 739
    },
    {
      "epoch": 0.5468822170900692,
      "grad_norm": 0.6254189610481262,
      "learning_rate": 8.648402571314949e-05,
      "loss": 1.191,
      "step": 740
    },
    {
      "epoch": 0.547621247113164,
      "grad_norm": 0.6602397561073303,
      "learning_rate": 8.625245832235307e-05,
      "loss": 1.0517,
      "step": 741
    },
    {
      "epoch": 0.5483602771362587,
      "grad_norm": 0.6617290377616882,
      "learning_rate": 8.602096604645009e-05,
      "loss": 1.1199,
      "step": 742
    },
    {
      "epoch": 0.5490993071593534,
      "grad_norm": 0.6761295795440674,
      "learning_rate": 8.578955015028605e-05,
      "loss": 1.112,
      "step": 743
    },
    {
      "epoch": 0.549838337182448,
      "grad_norm": 0.679241955280304,
      "learning_rate": 8.555821189828932e-05,
      "loss": 1.1803,
      "step": 744
    },
    {
      "epoch": 0.5505773672055427,
      "grad_norm": 0.6493901610374451,
      "learning_rate": 8.532695255446383e-05,
      "loss": 1.063,
      "step": 745
    },
    {
      "epoch": 0.5513163972286375,
      "grad_norm": 0.7067726254463196,
      "learning_rate": 8.509577338238255e-05,
      "loss": 1.0893,
      "step": 746
    },
    {
      "epoch": 0.5520554272517321,
      "grad_norm": 0.6929066181182861,
      "learning_rate": 8.486467564518034e-05,
      "loss": 1.1578,
      "step": 747
    },
    {
      "epoch": 0.5527944572748268,
      "grad_norm": 0.7077933549880981,
      "learning_rate": 8.463366060554698e-05,
      "loss": 1.1826,
      "step": 748
    },
    {
      "epoch": 0.5535334872979215,
      "grad_norm": 0.7351357340812683,
      "learning_rate": 8.440272952572064e-05,
      "loss": 1.13,
      "step": 749
    },
    {
      "epoch": 0.5542725173210161,
      "grad_norm": 0.7889540791511536,
      "learning_rate": 8.417188366748052e-05,
      "loss": 1.0715,
      "step": 750
    },
    {
      "epoch": 0.5550115473441108,
      "grad_norm": 0.5159013867378235,
      "learning_rate": 8.39411242921403e-05,
      "loss": 1.2373,
      "step": 751
    },
    {
      "epoch": 0.5557505773672056,
      "grad_norm": 0.5625574588775635,
      "learning_rate": 8.371045266054114e-05,
      "loss": 1.2947,
      "step": 752
    },
    {
      "epoch": 0.5564896073903002,
      "grad_norm": 0.555057168006897,
      "learning_rate": 8.347987003304469e-05,
      "loss": 1.2943,
      "step": 753
    },
    {
      "epoch": 0.5572286374133949,
      "grad_norm": 0.559457004070282,
      "learning_rate": 8.324937766952638e-05,
      "loss": 1.3242,
      "step": 754
    },
    {
      "epoch": 0.5579676674364896,
      "grad_norm": 0.5209566950798035,
      "learning_rate": 8.301897682936838e-05,
      "loss": 1.2698,
      "step": 755
    },
    {
      "epoch": 0.5587066974595843,
      "grad_norm": 0.5439888834953308,
      "learning_rate": 8.278866877145282e-05,
      "loss": 1.2809,
      "step": 756
    },
    {
      "epoch": 0.559445727482679,
      "grad_norm": 0.5387517213821411,
      "learning_rate": 8.255845475415494e-05,
      "loss": 1.2875,
      "step": 757
    },
    {
      "epoch": 0.5601847575057737,
      "grad_norm": 0.5742682814598083,
      "learning_rate": 8.2328336035336e-05,
      "loss": 1.249,
      "step": 758
    },
    {
      "epoch": 0.5609237875288684,
      "grad_norm": 0.5210147500038147,
      "learning_rate": 8.209831387233676e-05,
      "loss": 1.2561,
      "step": 759
    },
    {
      "epoch": 0.561662817551963,
      "grad_norm": 0.5428762435913086,
      "learning_rate": 8.186838952197018e-05,
      "loss": 1.3032,
      "step": 760
    },
    {
      "epoch": 0.5624018475750577,
      "grad_norm": 0.5428981184959412,
      "learning_rate": 8.163856424051502e-05,
      "loss": 1.3934,
      "step": 761
    },
    {
      "epoch": 0.5631408775981525,
      "grad_norm": 0.5245599150657654,
      "learning_rate": 8.140883928370855e-05,
      "loss": 1.2438,
      "step": 762
    },
    {
      "epoch": 0.5638799076212471,
      "grad_norm": 0.5274422764778137,
      "learning_rate": 8.117921590674001e-05,
      "loss": 1.3619,
      "step": 763
    },
    {
      "epoch": 0.5646189376443418,
      "grad_norm": 0.5392231941223145,
      "learning_rate": 8.094969536424351e-05,
      "loss": 1.2604,
      "step": 764
    },
    {
      "epoch": 0.5653579676674365,
      "grad_norm": 0.549719512462616,
      "learning_rate": 8.07202789102914e-05,
      "loss": 1.2499,
      "step": 765
    },
    {
      "epoch": 0.5660969976905311,
      "grad_norm": 0.5505802035331726,
      "learning_rate": 8.049096779838719e-05,
      "loss": 1.306,
      "step": 766
    },
    {
      "epoch": 0.5668360277136258,
      "grad_norm": 0.5575224757194519,
      "learning_rate": 8.026176328145887e-05,
      "loss": 1.2056,
      "step": 767
    },
    {
      "epoch": 0.5675750577367206,
      "grad_norm": 0.5530533790588379,
      "learning_rate": 8.003266661185209e-05,
      "loss": 1.3288,
      "step": 768
    },
    {
      "epoch": 0.5683140877598153,
      "grad_norm": 0.5395723581314087,
      "learning_rate": 7.980367904132302e-05,
      "loss": 1.2692,
      "step": 769
    },
    {
      "epoch": 0.5690531177829099,
      "grad_norm": 0.5590097904205322,
      "learning_rate": 7.957480182103198e-05,
      "loss": 1.2128,
      "step": 770
    },
    {
      "epoch": 0.5697921478060046,
      "grad_norm": 0.550085723400116,
      "learning_rate": 7.934603620153614e-05,
      "loss": 1.3021,
      "step": 771
    },
    {
      "epoch": 0.5705311778290993,
      "grad_norm": 0.546233057975769,
      "learning_rate": 7.911738343278304e-05,
      "loss": 1.2337,
      "step": 772
    },
    {
      "epoch": 0.571270207852194,
      "grad_norm": 0.5717503428459167,
      "learning_rate": 7.888884476410348e-05,
      "loss": 1.1984,
      "step": 773
    },
    {
      "epoch": 0.5720092378752887,
      "grad_norm": 0.5567731857299805,
      "learning_rate": 7.866042144420502e-05,
      "loss": 1.1504,
      "step": 774
    },
    {
      "epoch": 0.5727482678983834,
      "grad_norm": 0.5888050198554993,
      "learning_rate": 7.843211472116476e-05,
      "loss": 1.3532,
      "step": 775
    },
    {
      "epoch": 0.573487297921478,
      "grad_norm": 0.5902953147888184,
      "learning_rate": 7.820392584242293e-05,
      "loss": 1.2655,
      "step": 776
    },
    {
      "epoch": 0.5742263279445727,
      "grad_norm": 0.591699481010437,
      "learning_rate": 7.797585605477566e-05,
      "loss": 1.2074,
      "step": 777
    },
    {
      "epoch": 0.5749653579676675,
      "grad_norm": 0.6072077751159668,
      "learning_rate": 7.774790660436858e-05,
      "loss": 1.2671,
      "step": 778
    },
    {
      "epoch": 0.5757043879907622,
      "grad_norm": 0.5853387117385864,
      "learning_rate": 7.752007873668967e-05,
      "loss": 1.1211,
      "step": 779
    },
    {
      "epoch": 0.5764434180138568,
      "grad_norm": 0.5792048573493958,
      "learning_rate": 7.729237369656269e-05,
      "loss": 1.2079,
      "step": 780
    },
    {
      "epoch": 0.5771824480369515,
      "grad_norm": 0.5627986788749695,
      "learning_rate": 7.706479272814023e-05,
      "loss": 1.1849,
      "step": 781
    },
    {
      "epoch": 0.5779214780600462,
      "grad_norm": 0.5668689608573914,
      "learning_rate": 7.683733707489699e-05,
      "loss": 1.1765,
      "step": 782
    },
    {
      "epoch": 0.5786605080831408,
      "grad_norm": 0.5781456232070923,
      "learning_rate": 7.661000797962292e-05,
      "loss": 1.2112,
      "step": 783
    },
    {
      "epoch": 0.5793995381062356,
      "grad_norm": 0.5966742038726807,
      "learning_rate": 7.63828066844166e-05,
      "loss": 1.2734,
      "step": 784
    },
    {
      "epoch": 0.5801385681293303,
      "grad_norm": 0.5811204314231873,
      "learning_rate": 7.615573443067812e-05,
      "loss": 1.2796,
      "step": 785
    },
    {
      "epoch": 0.5808775981524249,
      "grad_norm": 0.5957679748535156,
      "learning_rate": 7.592879245910273e-05,
      "loss": 1.2813,
      "step": 786
    },
    {
      "epoch": 0.5816166281755196,
      "grad_norm": 0.6068906784057617,
      "learning_rate": 7.570198200967362e-05,
      "loss": 1.072,
      "step": 787
    },
    {
      "epoch": 0.5823556581986143,
      "grad_norm": 0.5907713770866394,
      "learning_rate": 7.54753043216555e-05,
      "loss": 1.093,
      "step": 788
    },
    {
      "epoch": 0.583094688221709,
      "grad_norm": 0.6110568642616272,
      "learning_rate": 7.524876063358773e-05,
      "loss": 1.1526,
      "step": 789
    },
    {
      "epoch": 0.5838337182448037,
      "grad_norm": 0.6208571791648865,
      "learning_rate": 7.502235218327731e-05,
      "loss": 1.1446,
      "step": 790
    },
    {
      "epoch": 0.5845727482678984,
      "grad_norm": 0.6263980269432068,
      "learning_rate": 7.479608020779252e-05,
      "loss": 1.0406,
      "step": 791
    },
    {
      "epoch": 0.5853117782909931,
      "grad_norm": 0.6091657280921936,
      "learning_rate": 7.45699459434558e-05,
      "loss": 1.1736,
      "step": 792
    },
    {
      "epoch": 0.5860508083140877,
      "grad_norm": 0.5907536149024963,
      "learning_rate": 7.434395062583734e-05,
      "loss": 1.1465,
      "step": 793
    },
    {
      "epoch": 0.5867898383371825,
      "grad_norm": 0.6789019107818604,
      "learning_rate": 7.411809548974792e-05,
      "loss": 1.1072,
      "step": 794
    },
    {
      "epoch": 0.5875288683602772,
      "grad_norm": 0.6706081032752991,
      "learning_rate": 7.389238176923258e-05,
      "loss": 1.1251,
      "step": 795
    },
    {
      "epoch": 0.5882678983833718,
      "grad_norm": 0.6481133103370667,
      "learning_rate": 7.366681069756352e-05,
      "loss": 1.1114,
      "step": 796
    },
    {
      "epoch": 0.5890069284064665,
      "grad_norm": 0.7128570675849915,
      "learning_rate": 7.344138350723369e-05,
      "loss": 1.0489,
      "step": 797
    },
    {
      "epoch": 0.5897459584295612,
      "grad_norm": 0.7135960459709167,
      "learning_rate": 7.32161014299497e-05,
      "loss": 1.0774,
      "step": 798
    },
    {
      "epoch": 0.5904849884526558,
      "grad_norm": 0.7557234764099121,
      "learning_rate": 7.29909656966255e-05,
      "loss": 1.0842,
      "step": 799
    },
    {
      "epoch": 0.5912240184757506,
      "grad_norm": 0.796415388584137,
      "learning_rate": 7.27659775373752e-05,
      "loss": 1.051,
      "step": 800
    },
    {
      "epoch": 0.5919630484988453,
      "grad_norm": 0.5799696445465088,
      "learning_rate": 7.25411381815068e-05,
      "loss": 1.249,
      "step": 801
    },
    {
      "epoch": 0.5927020785219399,
      "grad_norm": 0.5826923847198486,
      "learning_rate": 7.231644885751507e-05,
      "loss": 1.2435,
      "step": 802
    },
    {
      "epoch": 0.5934411085450346,
      "grad_norm": 0.5640221238136292,
      "learning_rate": 7.209191079307521e-05,
      "loss": 1.2281,
      "step": 803
    },
    {
      "epoch": 0.5941801385681293,
      "grad_norm": 0.5646684765815735,
      "learning_rate": 7.186752521503575e-05,
      "loss": 1.2617,
      "step": 804
    },
    {
      "epoch": 0.5949191685912241,
      "grad_norm": 0.5738838315010071,
      "learning_rate": 7.164329334941224e-05,
      "loss": 1.2887,
      "step": 805
    },
    {
      "epoch": 0.5956581986143187,
      "grad_norm": 0.5461981296539307,
      "learning_rate": 7.141921642138025e-05,
      "loss": 1.258,
      "step": 806
    },
    {
      "epoch": 0.5963972286374134,
      "grad_norm": 0.5531179904937744,
      "learning_rate": 7.119529565526883e-05,
      "loss": 1.2817,
      "step": 807
    },
    {
      "epoch": 0.5971362586605081,
      "grad_norm": 0.5831712484359741,
      "learning_rate": 7.097153227455379e-05,
      "loss": 1.2087,
      "step": 808
    },
    {
      "epoch": 0.5978752886836027,
      "grad_norm": 0.5431696772575378,
      "learning_rate": 7.074792750185094e-05,
      "loss": 1.3869,
      "step": 809
    },
    {
      "epoch": 0.5986143187066975,
      "grad_norm": 0.5376865863800049,
      "learning_rate": 7.052448255890957e-05,
      "loss": 1.2584,
      "step": 810
    },
    {
      "epoch": 0.5993533487297922,
      "grad_norm": 0.5342483520507812,
      "learning_rate": 7.030119866660564e-05,
      "loss": 1.2749,
      "step": 811
    },
    {
      "epoch": 0.6000923787528868,
      "grad_norm": 0.5712734460830688,
      "learning_rate": 7.007807704493514e-05,
      "loss": 1.1527,
      "step": 812
    },
    {
      "epoch": 0.6008314087759815,
      "grad_norm": 0.5699891448020935,
      "learning_rate": 6.985511891300737e-05,
      "loss": 1.2119,
      "step": 813
    },
    {
      "epoch": 0.6015704387990762,
      "grad_norm": 0.5638712644577026,
      "learning_rate": 6.963232548903853e-05,
      "loss": 1.2976,
      "step": 814
    },
    {
      "epoch": 0.6023094688221708,
      "grad_norm": 0.562898576259613,
      "learning_rate": 6.940969799034465e-05,
      "loss": 1.1945,
      "step": 815
    },
    {
      "epoch": 0.6030484988452656,
      "grad_norm": 0.6016001105308533,
      "learning_rate": 6.918723763333532e-05,
      "loss": 1.3789,
      "step": 816
    },
    {
      "epoch": 0.6037875288683603,
      "grad_norm": 0.5578250288963318,
      "learning_rate": 6.89649456335068e-05,
      "loss": 1.2295,
      "step": 817
    },
    {
      "epoch": 0.604526558891455,
      "grad_norm": 0.5644660592079163,
      "learning_rate": 6.874282320543557e-05,
      "loss": 1.2853,
      "step": 818
    },
    {
      "epoch": 0.6052655889145496,
      "grad_norm": 0.5699071884155273,
      "learning_rate": 6.852087156277143e-05,
      "loss": 1.1572,
      "step": 819
    },
    {
      "epoch": 0.6060046189376443,
      "grad_norm": 0.5463332533836365,
      "learning_rate": 6.829909191823121e-05,
      "loss": 1.2234,
      "step": 820
    },
    {
      "epoch": 0.6067436489607391,
      "grad_norm": 0.5716686248779297,
      "learning_rate": 6.807748548359181e-05,
      "loss": 1.1873,
      "step": 821
    },
    {
      "epoch": 0.6074826789838337,
      "grad_norm": 0.5507549047470093,
      "learning_rate": 6.785605346968386e-05,
      "loss": 1.2021,
      "step": 822
    },
    {
      "epoch": 0.6082217090069284,
      "grad_norm": 0.5885899066925049,
      "learning_rate": 6.763479708638485e-05,
      "loss": 1.1962,
      "step": 823
    },
    {
      "epoch": 0.6089607390300231,
      "grad_norm": 0.5927533507347107,
      "learning_rate": 6.741371754261278e-05,
      "loss": 1.2333,
      "step": 824
    },
    {
      "epoch": 0.6096997690531177,
      "grad_norm": 0.5529139041900635,
      "learning_rate": 6.71928160463193e-05,
      "loss": 1.2474,
      "step": 825
    },
    {
      "epoch": 0.6104387990762125,
      "grad_norm": 0.5858685374259949,
      "learning_rate": 6.697209380448333e-05,
      "loss": 1.2131,
      "step": 826
    },
    {
      "epoch": 0.6111778290993072,
      "grad_norm": 0.5843775272369385,
      "learning_rate": 6.675155202310424e-05,
      "loss": 1.1726,
      "step": 827
    },
    {
      "epoch": 0.6119168591224019,
      "grad_norm": 0.6010634303092957,
      "learning_rate": 6.653119190719554e-05,
      "loss": 1.2373,
      "step": 828
    },
    {
      "epoch": 0.6126558891454965,
      "grad_norm": 0.5754968523979187,
      "learning_rate": 6.6311014660778e-05,
      "loss": 1.1722,
      "step": 829
    },
    {
      "epoch": 0.6133949191685912,
      "grad_norm": 0.578120231628418,
      "learning_rate": 6.609102148687333e-05,
      "loss": 1.2455,
      "step": 830
    },
    {
      "epoch": 0.614133949191686,
      "grad_norm": 0.5821264386177063,
      "learning_rate": 6.587121358749745e-05,
      "loss": 1.2352,
      "step": 831
    },
    {
      "epoch": 0.6148729792147806,
      "grad_norm": 0.6047820448875427,
      "learning_rate": 6.565159216365389e-05,
      "loss": 1.1726,
      "step": 832
    },
    {
      "epoch": 0.6156120092378753,
      "grad_norm": 0.6182081699371338,
      "learning_rate": 6.543215841532744e-05,
      "loss": 1.2105,
      "step": 833
    },
    {
      "epoch": 0.61635103926097,
      "grad_norm": 0.5688729882240295,
      "learning_rate": 6.521291354147727e-05,
      "loss": 1.085,
      "step": 834
    },
    {
      "epoch": 0.6170900692840646,
      "grad_norm": 0.5946381092071533,
      "learning_rate": 6.499385874003076e-05,
      "loss": 1.1272,
      "step": 835
    },
    {
      "epoch": 0.6178290993071593,
      "grad_norm": 0.5967699885368347,
      "learning_rate": 6.477499520787665e-05,
      "loss": 1.191,
      "step": 836
    },
    {
      "epoch": 0.6185681293302541,
      "grad_norm": 0.6268032789230347,
      "learning_rate": 6.455632414085861e-05,
      "loss": 1.2313,
      "step": 837
    },
    {
      "epoch": 0.6193071593533487,
      "grad_norm": 0.6154748201370239,
      "learning_rate": 6.43378467337687e-05,
      "loss": 1.2116,
      "step": 838
    },
    {
      "epoch": 0.6200461893764434,
      "grad_norm": 0.6554725170135498,
      "learning_rate": 6.41195641803409e-05,
      "loss": 1.1903,
      "step": 839
    },
    {
      "epoch": 0.6207852193995381,
      "grad_norm": 0.6555624008178711,
      "learning_rate": 6.390147767324445e-05,
      "loss": 1.2022,
      "step": 840
    },
    {
      "epoch": 0.6215242494226328,
      "grad_norm": 0.655396044254303,
      "learning_rate": 6.368358840407753e-05,
      "loss": 1.0933,
      "step": 841
    },
    {
      "epoch": 0.6222632794457275,
      "grad_norm": 0.6204958558082581,
      "learning_rate": 6.34658975633605e-05,
      "loss": 1.1099,
      "step": 842
    },
    {
      "epoch": 0.6230023094688222,
      "grad_norm": 0.6144100427627563,
      "learning_rate": 6.324840634052967e-05,
      "loss": 1.1126,
      "step": 843
    },
    {
      "epoch": 0.6237413394919169,
      "grad_norm": 0.6661677360534668,
      "learning_rate": 6.30311159239305e-05,
      "loss": 1.0779,
      "step": 844
    },
    {
      "epoch": 0.6244803695150115,
      "grad_norm": 0.6440075039863586,
      "learning_rate": 6.281402750081147e-05,
      "loss": 1.1757,
      "step": 845
    },
    {
      "epoch": 0.6252193995381062,
      "grad_norm": 0.6644152402877808,
      "learning_rate": 6.259714225731718e-05,
      "loss": 1.1123,
      "step": 846
    },
    {
      "epoch": 0.625958429561201,
      "grad_norm": 0.6600080728530884,
      "learning_rate": 6.23804613784823e-05,
      "loss": 1.0717,
      "step": 847
    },
    {
      "epoch": 0.6266974595842956,
      "grad_norm": 0.692046046257019,
      "learning_rate": 6.216398604822466e-05,
      "loss": 1.0642,
      "step": 848
    },
    {
      "epoch": 0.6274364896073903,
      "grad_norm": 0.7457102537155151,
      "learning_rate": 6.194771744933916e-05,
      "loss": 1.1055,
      "step": 849
    },
    {
      "epoch": 0.628175519630485,
      "grad_norm": 0.8410731554031372,
      "learning_rate": 6.173165676349103e-05,
      "loss": 1.0956,
      "step": 850
    },
    {
      "epoch": 0.6289145496535796,
      "grad_norm": 0.5708751678466797,
      "learning_rate": 6.151580517120958e-05,
      "loss": 1.205,
      "step": 851
    },
    {
      "epoch": 0.6296535796766743,
      "grad_norm": 0.5339930057525635,
      "learning_rate": 6.130016385188166e-05,
      "loss": 1.2735,
      "step": 852
    },
    {
      "epoch": 0.6303926096997691,
      "grad_norm": 0.5544382929801941,
      "learning_rate": 6.10847339837451e-05,
      "loss": 1.2725,
      "step": 853
    },
    {
      "epoch": 0.6311316397228638,
      "grad_norm": 0.5454682111740112,
      "learning_rate": 6.0869516743882516e-05,
      "loss": 1.2405,
      "step": 854
    },
    {
      "epoch": 0.6318706697459584,
      "grad_norm": 0.5495094060897827,
      "learning_rate": 6.0654513308214645e-05,
      "loss": 1.2648,
      "step": 855
    },
    {
      "epoch": 0.6326096997690531,
      "grad_norm": 0.567919135093689,
      "learning_rate": 6.043972485149414e-05,
      "loss": 1.1928,
      "step": 856
    },
    {
      "epoch": 0.6333487297921478,
      "grad_norm": 0.5815698504447937,
      "learning_rate": 6.02251525472989e-05,
      "loss": 1.2941,
      "step": 857
    },
    {
      "epoch": 0.6340877598152425,
      "grad_norm": 0.5429035425186157,
      "learning_rate": 6.001079756802592e-05,
      "loss": 1.154,
      "step": 858
    },
    {
      "epoch": 0.6348267898383372,
      "grad_norm": 0.5605687499046326,
      "learning_rate": 5.9796661084884644e-05,
      "loss": 1.2279,
      "step": 859
    },
    {
      "epoch": 0.6355658198614319,
      "grad_norm": 0.5447813868522644,
      "learning_rate": 5.9582744267890814e-05,
      "loss": 1.2568,
      "step": 860
    },
    {
      "epoch": 0.6363048498845265,
      "grad_norm": 0.5342816114425659,
      "learning_rate": 5.936904828585976e-05,
      "loss": 1.3103,
      "step": 861
    },
    {
      "epoch": 0.6370438799076212,
      "grad_norm": 0.5535418391227722,
      "learning_rate": 5.9155574306400395e-05,
      "loss": 1.3274,
      "step": 862
    },
    {
      "epoch": 0.637782909930716,
      "grad_norm": 0.5719203948974609,
      "learning_rate": 5.89423234959085e-05,
      "loss": 1.2383,
      "step": 863
    },
    {
      "epoch": 0.6385219399538106,
      "grad_norm": 0.5539337992668152,
      "learning_rate": 5.872929701956054e-05,
      "loss": 1.2277,
      "step": 864
    },
    {
      "epoch": 0.6392609699769053,
      "grad_norm": 0.5821467041969299,
      "learning_rate": 5.851649604130723e-05,
      "loss": 1.3341,
      "step": 865
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5489879846572876,
      "learning_rate": 5.830392172386723e-05,
      "loss": 1.1778,
      "step": 866
    },
    {
      "epoch": 0.6407390300230947,
      "grad_norm": 0.5701497197151184,
      "learning_rate": 5.809157522872065e-05,
      "loss": 1.202,
      "step": 867
    },
    {
      "epoch": 0.6414780600461893,
      "grad_norm": 0.5632134079933167,
      "learning_rate": 5.787945771610296e-05,
      "loss": 1.2231,
      "step": 868
    },
    {
      "epoch": 0.6422170900692841,
      "grad_norm": 0.5531761646270752,
      "learning_rate": 5.7667570344998343e-05,
      "loss": 1.2398,
      "step": 869
    },
    {
      "epoch": 0.6429561200923788,
      "grad_norm": 0.5711859464645386,
      "learning_rate": 5.7455914273133646e-05,
      "loss": 1.2627,
      "step": 870
    },
    {
      "epoch": 0.6436951501154734,
      "grad_norm": 0.580965518951416,
      "learning_rate": 5.7244490656971815e-05,
      "loss": 1.1986,
      "step": 871
    },
    {
      "epoch": 0.6444341801385681,
      "grad_norm": 0.5560194849967957,
      "learning_rate": 5.703330065170577e-05,
      "loss": 1.1842,
      "step": 872
    },
    {
      "epoch": 0.6451732101616628,
      "grad_norm": 0.5882729291915894,
      "learning_rate": 5.6822345411251995e-05,
      "loss": 1.1468,
      "step": 873
    },
    {
      "epoch": 0.6459122401847575,
      "grad_norm": 0.6012145280838013,
      "learning_rate": 5.6611626088244194e-05,
      "loss": 1.2316,
      "step": 874
    },
    {
      "epoch": 0.6466512702078522,
      "grad_norm": 0.6115211248397827,
      "learning_rate": 5.640114383402714e-05,
      "loss": 1.2374,
      "step": 875
    },
    {
      "epoch": 0.6473903002309469,
      "grad_norm": 0.5906248688697815,
      "learning_rate": 5.6190899798650156e-05,
      "loss": 1.2119,
      "step": 876
    },
    {
      "epoch": 0.6481293302540416,
      "grad_norm": 0.5744962096214294,
      "learning_rate": 5.598089513086108e-05,
      "loss": 1.1853,
      "step": 877
    },
    {
      "epoch": 0.6488683602771362,
      "grad_norm": 0.6012952327728271,
      "learning_rate": 5.577113097809989e-05,
      "loss": 1.1831,
      "step": 878
    },
    {
      "epoch": 0.649607390300231,
      "grad_norm": 0.5941324234008789,
      "learning_rate": 5.556160848649228e-05,
      "loss": 1.1358,
      "step": 879
    },
    {
      "epoch": 0.6503464203233257,
      "grad_norm": 0.6060649752616882,
      "learning_rate": 5.5352328800843724e-05,
      "loss": 1.1249,
      "step": 880
    },
    {
      "epoch": 0.6510854503464203,
      "grad_norm": 0.6011624932289124,
      "learning_rate": 5.514329306463284e-05,
      "loss": 1.2205,
      "step": 881
    },
    {
      "epoch": 0.651824480369515,
      "grad_norm": 0.5819727182388306,
      "learning_rate": 5.493450242000546e-05,
      "loss": 1.1624,
      "step": 882
    },
    {
      "epoch": 0.6525635103926097,
      "grad_norm": 0.6237014532089233,
      "learning_rate": 5.4725958007768304e-05,
      "loss": 1.1717,
      "step": 883
    },
    {
      "epoch": 0.6533025404157043,
      "grad_norm": 0.5712922215461731,
      "learning_rate": 5.451766096738256e-05,
      "loss": 1.1473,
      "step": 884
    },
    {
      "epoch": 0.6540415704387991,
      "grad_norm": 0.5974856615066528,
      "learning_rate": 5.4309612436957937e-05,
      "loss": 1.157,
      "step": 885
    },
    {
      "epoch": 0.6547806004618938,
      "grad_norm": 0.635863721370697,
      "learning_rate": 5.410181355324622e-05,
      "loss": 1.252,
      "step": 886
    },
    {
      "epoch": 0.6555196304849884,
      "grad_norm": 0.5791136622428894,
      "learning_rate": 5.389426545163527e-05,
      "loss": 1.0984,
      "step": 887
    },
    {
      "epoch": 0.6562586605080831,
      "grad_norm": 0.6372198462486267,
      "learning_rate": 5.368696926614255e-05,
      "loss": 1.1314,
      "step": 888
    },
    {
      "epoch": 0.6569976905311778,
      "grad_norm": 0.6473715901374817,
      "learning_rate": 5.347992612940926e-05,
      "loss": 1.1761,
      "step": 889
    },
    {
      "epoch": 0.6577367205542726,
      "grad_norm": 0.6597112417221069,
      "learning_rate": 5.32731371726938e-05,
      "loss": 1.1231,
      "step": 890
    },
    {
      "epoch": 0.6584757505773672,
      "grad_norm": 0.6312623620033264,
      "learning_rate": 5.3066603525865924e-05,
      "loss": 1.1056,
      "step": 891
    },
    {
      "epoch": 0.6592147806004619,
      "grad_norm": 0.6319066286087036,
      "learning_rate": 5.286032631740023e-05,
      "loss": 1.1013,
      "step": 892
    },
    {
      "epoch": 0.6599538106235566,
      "grad_norm": 0.6403000950813293,
      "learning_rate": 5.265430667437033e-05,
      "loss": 1.1495,
      "step": 893
    },
    {
      "epoch": 0.6606928406466512,
      "grad_norm": 0.6953521966934204,
      "learning_rate": 5.2448545722442486e-05,
      "loss": 1.144,
      "step": 894
    },
    {
      "epoch": 0.661431870669746,
      "grad_norm": 0.6676696538925171,
      "learning_rate": 5.2243044585869394e-05,
      "loss": 1.1586,
      "step": 895
    },
    {
      "epoch": 0.6621709006928407,
      "grad_norm": 0.631653904914856,
      "learning_rate": 5.203780438748433e-05,
      "loss": 1.0955,
      "step": 896
    },
    {
      "epoch": 0.6629099307159353,
      "grad_norm": 0.7082366943359375,
      "learning_rate": 5.1832826248694654e-05,
      "loss": 1.1781,
      "step": 897
    },
    {
      "epoch": 0.66364896073903,
      "grad_norm": 0.7090996503829956,
      "learning_rate": 5.162811128947602e-05,
      "loss": 1.1375,
      "step": 898
    },
    {
      "epoch": 0.6643879907621247,
      "grad_norm": 0.7150316834449768,
      "learning_rate": 5.142366062836599e-05,
      "loss": 1.0516,
      "step": 899
    },
    {
      "epoch": 0.6651270207852193,
      "grad_norm": 0.805554986000061,
      "learning_rate": 5.12194753824581e-05,
      "loss": 1.1451,
      "step": 900
    },
    {
      "epoch": 0.6658660508083141,
      "grad_norm": 0.5035204887390137,
      "learning_rate": 5.1015556667395636e-05,
      "loss": 1.2409,
      "step": 901
    },
    {
      "epoch": 0.6666050808314088,
      "grad_norm": 0.5510614514350891,
      "learning_rate": 5.0811905597365684e-05,
      "loss": 1.2941,
      "step": 902
    },
    {
      "epoch": 0.6673441108545035,
      "grad_norm": 0.5650977492332458,
      "learning_rate": 5.06085232850928e-05,
      "loss": 1.3205,
      "step": 903
    },
    {
      "epoch": 0.6680831408775981,
      "grad_norm": 0.554602861404419,
      "learning_rate": 5.0405410841833253e-05,
      "loss": 1.322,
      "step": 904
    },
    {
      "epoch": 0.6688221709006928,
      "grad_norm": 0.5711413621902466,
      "learning_rate": 5.0202569377368616e-05,
      "loss": 1.2774,
      "step": 905
    },
    {
      "epoch": 0.6695612009237876,
      "grad_norm": 0.5861859917640686,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.3149,
      "step": 906
    },
    {
      "epoch": 0.6703002309468822,
      "grad_norm": 0.5678612589836121,
      "learning_rate": 4.979770381654181e-05,
      "loss": 1.1457,
      "step": 907
    },
    {
      "epoch": 0.6710392609699769,
      "grad_norm": 0.557674765586853,
      "learning_rate": 4.959568193231575e-05,
      "loss": 1.1439,
      "step": 908
    },
    {
      "epoch": 0.6717782909930716,
      "grad_norm": 0.5552402138710022,
      "learning_rate": 4.939393545114475e-05,
      "loss": 1.2762,
      "step": 909
    },
    {
      "epoch": 0.6725173210161662,
      "grad_norm": 0.5537186861038208,
      "learning_rate": 4.919246547534708e-05,
      "loss": 1.2219,
      "step": 910
    },
    {
      "epoch": 0.673256351039261,
      "grad_norm": 0.5711329579353333,
      "learning_rate": 4.899127310573009e-05,
      "loss": 1.2426,
      "step": 911
    },
    {
      "epoch": 0.6739953810623557,
      "grad_norm": 0.5399571657180786,
      "learning_rate": 4.879035944158443e-05,
      "loss": 1.2455,
      "step": 912
    },
    {
      "epoch": 0.6747344110854503,
      "grad_norm": 0.5484040975570679,
      "learning_rate": 4.8589725580677835e-05,
      "loss": 1.1004,
      "step": 913
    },
    {
      "epoch": 0.675473441108545,
      "grad_norm": 0.5527255535125732,
      "learning_rate": 4.8389372619249326e-05,
      "loss": 1.1453,
      "step": 914
    },
    {
      "epoch": 0.6762124711316397,
      "grad_norm": 0.5590223073959351,
      "learning_rate": 4.818930165200313e-05,
      "loss": 1.2183,
      "step": 915
    },
    {
      "epoch": 0.6769515011547345,
      "grad_norm": 0.5691923499107361,
      "learning_rate": 4.7989513772102537e-05,
      "loss": 1.2199,
      "step": 916
    },
    {
      "epoch": 0.6776905311778291,
      "grad_norm": 0.546610414981842,
      "learning_rate": 4.7790010071164295e-05,
      "loss": 1.2566,
      "step": 917
    },
    {
      "epoch": 0.6784295612009238,
      "grad_norm": 0.5532652735710144,
      "learning_rate": 4.759079163925223e-05,
      "loss": 1.1589,
      "step": 918
    },
    {
      "epoch": 0.6791685912240185,
      "grad_norm": 0.5975342392921448,
      "learning_rate": 4.739185956487169e-05,
      "loss": 1.2083,
      "step": 919
    },
    {
      "epoch": 0.6799076212471131,
      "grad_norm": 0.5958629250526428,
      "learning_rate": 4.7193214934963206e-05,
      "loss": 1.3074,
      "step": 920
    },
    {
      "epoch": 0.6806466512702078,
      "grad_norm": 0.5653906464576721,
      "learning_rate": 4.699485883489693e-05,
      "loss": 1.152,
      "step": 921
    },
    {
      "epoch": 0.6813856812933026,
      "grad_norm": 0.5659075975418091,
      "learning_rate": 4.6796792348466356e-05,
      "loss": 1.1966,
      "step": 922
    },
    {
      "epoch": 0.6821247113163972,
      "grad_norm": 0.5686808228492737,
      "learning_rate": 4.6599016557882715e-05,
      "loss": 1.1295,
      "step": 923
    },
    {
      "epoch": 0.6828637413394919,
      "grad_norm": 0.5641525387763977,
      "learning_rate": 4.6401532543768766e-05,
      "loss": 1.2821,
      "step": 924
    },
    {
      "epoch": 0.6836027713625866,
      "grad_norm": 0.5789383053779602,
      "learning_rate": 4.6204341385153186e-05,
      "loss": 1.1892,
      "step": 925
    },
    {
      "epoch": 0.6843418013856813,
      "grad_norm": 0.6123851537704468,
      "learning_rate": 4.600744415946438e-05,
      "loss": 1.3235,
      "step": 926
    },
    {
      "epoch": 0.685080831408776,
      "grad_norm": 0.5755886435508728,
      "learning_rate": 4.5810841942524864e-05,
      "loss": 1.1766,
      "step": 927
    },
    {
      "epoch": 0.6858198614318707,
      "grad_norm": 0.572309672832489,
      "learning_rate": 4.561453580854516e-05,
      "loss": 1.2267,
      "step": 928
    },
    {
      "epoch": 0.6865588914549654,
      "grad_norm": 0.6075426936149597,
      "learning_rate": 4.541852683011812e-05,
      "loss": 1.2162,
      "step": 929
    },
    {
      "epoch": 0.68729792147806,
      "grad_norm": 0.5782512426376343,
      "learning_rate": 4.522281607821288e-05,
      "loss": 1.1931,
      "step": 930
    },
    {
      "epoch": 0.6880369515011547,
      "grad_norm": 0.6139906644821167,
      "learning_rate": 4.502740462216919e-05,
      "loss": 1.0988,
      "step": 931
    },
    {
      "epoch": 0.6887759815242495,
      "grad_norm": 0.5903334021568298,
      "learning_rate": 4.483229352969146e-05,
      "loss": 1.3025,
      "step": 932
    },
    {
      "epoch": 0.6895150115473441,
      "grad_norm": 0.600928008556366,
      "learning_rate": 4.463748386684289e-05,
      "loss": 1.2524,
      "step": 933
    },
    {
      "epoch": 0.6902540415704388,
      "grad_norm": 0.6013731360435486,
      "learning_rate": 4.444297669803981e-05,
      "loss": 1.1428,
      "step": 934
    },
    {
      "epoch": 0.6909930715935335,
      "grad_norm": 0.5708274841308594,
      "learning_rate": 4.424877308604563e-05,
      "loss": 1.1294,
      "step": 935
    },
    {
      "epoch": 0.6917321016166281,
      "grad_norm": 0.6289321184158325,
      "learning_rate": 4.405487409196526e-05,
      "loss": 1.1441,
      "step": 936
    },
    {
      "epoch": 0.6924711316397228,
      "grad_norm": 0.6219691038131714,
      "learning_rate": 4.386128077523923e-05,
      "loss": 1.1459,
      "step": 937
    },
    {
      "epoch": 0.6932101616628176,
      "grad_norm": 0.6150899529457092,
      "learning_rate": 4.3667994193637796e-05,
      "loss": 1.0993,
      "step": 938
    },
    {
      "epoch": 0.6939491916859123,
      "grad_norm": 0.6368288993835449,
      "learning_rate": 4.3475015403255304e-05,
      "loss": 1.2081,
      "step": 939
    },
    {
      "epoch": 0.6946882217090069,
      "grad_norm": 0.6007677912712097,
      "learning_rate": 4.328234545850442e-05,
      "loss": 1.1159,
      "step": 940
    },
    {
      "epoch": 0.6954272517321016,
      "grad_norm": 0.658053994178772,
      "learning_rate": 4.308998541211015e-05,
      "loss": 1.1621,
      "step": 941
    },
    {
      "epoch": 0.6961662817551963,
      "grad_norm": 0.6445364952087402,
      "learning_rate": 4.289793631510448e-05,
      "loss": 1.2178,
      "step": 942
    },
    {
      "epoch": 0.696905311778291,
      "grad_norm": 0.6704866290092468,
      "learning_rate": 4.2706199216820185e-05,
      "loss": 1.1885,
      "step": 943
    },
    {
      "epoch": 0.6976443418013857,
      "grad_norm": 0.6485015153884888,
      "learning_rate": 4.2514775164885487e-05,
      "loss": 1.1099,
      "step": 944
    },
    {
      "epoch": 0.6983833718244804,
      "grad_norm": 0.6841426491737366,
      "learning_rate": 4.232366520521803e-05,
      "loss": 1.0625,
      "step": 945
    },
    {
      "epoch": 0.699122401847575,
      "grad_norm": 0.6522747874259949,
      "learning_rate": 4.213287038201943e-05,
      "loss": 1.0508,
      "step": 946
    },
    {
      "epoch": 0.6998614318706697,
      "grad_norm": 0.6977312564849854,
      "learning_rate": 4.194239173776929e-05,
      "loss": 1.1103,
      "step": 947
    },
    {
      "epoch": 0.7006004618937645,
      "grad_norm": 0.7436626553535461,
      "learning_rate": 4.17522303132198e-05,
      "loss": 1.1411,
      "step": 948
    },
    {
      "epoch": 0.7013394919168591,
      "grad_norm": 0.7764667272567749,
      "learning_rate": 4.1562387147389735e-05,
      "loss": 1.1717,
      "step": 949
    },
    {
      "epoch": 0.7020785219399538,
      "grad_norm": 0.7973626852035522,
      "learning_rate": 4.137286327755913e-05,
      "loss": 1.0123,
      "step": 950
    },
    {
      "epoch": 0.7028175519630485,
      "grad_norm": 0.565802812576294,
      "learning_rate": 4.118365973926322e-05,
      "loss": 1.3661,
      "step": 951
    },
    {
      "epoch": 0.7035565819861432,
      "grad_norm": 0.6078753471374512,
      "learning_rate": 4.0994777566287204e-05,
      "loss": 1.3761,
      "step": 952
    },
    {
      "epoch": 0.7042956120092378,
      "grad_norm": 0.5649398565292358,
      "learning_rate": 4.0806217790660176e-05,
      "loss": 1.2496,
      "step": 953
    },
    {
      "epoch": 0.7050346420323326,
      "grad_norm": 0.5630986094474792,
      "learning_rate": 4.0617981442649855e-05,
      "loss": 1.3074,
      "step": 954
    },
    {
      "epoch": 0.7057736720554273,
      "grad_norm": 0.5928886532783508,
      "learning_rate": 4.0430069550756665e-05,
      "loss": 1.3061,
      "step": 955
    },
    {
      "epoch": 0.7065127020785219,
      "grad_norm": 0.5554041862487793,
      "learning_rate": 4.0242483141708334e-05,
      "loss": 1.279,
      "step": 956
    },
    {
      "epoch": 0.7072517321016166,
      "grad_norm": 0.5555177330970764,
      "learning_rate": 4.0055223240454167e-05,
      "loss": 1.2638,
      "step": 957
    },
    {
      "epoch": 0.7079907621247113,
      "grad_norm": 0.5823192596435547,
      "learning_rate": 3.9868290870159405e-05,
      "loss": 1.2229,
      "step": 958
    },
    {
      "epoch": 0.708729792147806,
      "grad_norm": 0.5786498785018921,
      "learning_rate": 3.968168705219982e-05,
      "loss": 1.2916,
      "step": 959
    },
    {
      "epoch": 0.7094688221709007,
      "grad_norm": 0.541968047618866,
      "learning_rate": 3.9495412806155883e-05,
      "loss": 1.166,
      "step": 960
    },
    {
      "epoch": 0.7102078521939954,
      "grad_norm": 0.5378563404083252,
      "learning_rate": 3.930946914980744e-05,
      "loss": 1.2359,
      "step": 961
    },
    {
      "epoch": 0.71094688221709,
      "grad_norm": 0.5504992008209229,
      "learning_rate": 3.9123857099127936e-05,
      "loss": 1.1824,
      "step": 962
    },
    {
      "epoch": 0.7116859122401847,
      "grad_norm": 0.5637927055358887,
      "learning_rate": 3.8938577668279055e-05,
      "loss": 1.2342,
      "step": 963
    },
    {
      "epoch": 0.7124249422632795,
      "grad_norm": 0.5639039874076843,
      "learning_rate": 3.875363186960499e-05,
      "loss": 1.3183,
      "step": 964
    },
    {
      "epoch": 0.7131639722863742,
      "grad_norm": 0.5473219752311707,
      "learning_rate": 3.8569020713627126e-05,
      "loss": 1.2359,
      "step": 965
    },
    {
      "epoch": 0.7139030023094688,
      "grad_norm": 0.5462467670440674,
      "learning_rate": 3.838474520903825e-05,
      "loss": 1.1484,
      "step": 966
    },
    {
      "epoch": 0.7146420323325635,
      "grad_norm": 0.5724295973777771,
      "learning_rate": 3.820080636269737e-05,
      "loss": 1.2419,
      "step": 967
    },
    {
      "epoch": 0.7153810623556582,
      "grad_norm": 0.5808056592941284,
      "learning_rate": 3.801720517962386e-05,
      "loss": 1.1889,
      "step": 968
    },
    {
      "epoch": 0.7161200923787528,
      "grad_norm": 0.5657536387443542,
      "learning_rate": 3.783394266299228e-05,
      "loss": 1.2116,
      "step": 969
    },
    {
      "epoch": 0.7168591224018476,
      "grad_norm": 0.5856335163116455,
      "learning_rate": 3.7651019814126654e-05,
      "loss": 1.2676,
      "step": 970
    },
    {
      "epoch": 0.7175981524249423,
      "grad_norm": 0.5774632096290588,
      "learning_rate": 3.746843763249521e-05,
      "loss": 1.203,
      "step": 971
    },
    {
      "epoch": 0.7183371824480369,
      "grad_norm": 0.5566406846046448,
      "learning_rate": 3.728619711570468e-05,
      "loss": 1.25,
      "step": 972
    },
    {
      "epoch": 0.7190762124711316,
      "grad_norm": 0.6005129218101501,
      "learning_rate": 3.710429925949511e-05,
      "loss": 1.3607,
      "step": 973
    },
    {
      "epoch": 0.7198152424942263,
      "grad_norm": 0.5847130417823792,
      "learning_rate": 3.692274505773419e-05,
      "loss": 1.2319,
      "step": 974
    },
    {
      "epoch": 0.7205542725173211,
      "grad_norm": 0.5967427492141724,
      "learning_rate": 3.674153550241202e-05,
      "loss": 1.1921,
      "step": 975
    },
    {
      "epoch": 0.7212933025404157,
      "grad_norm": 0.5916885137557983,
      "learning_rate": 3.6560671583635467e-05,
      "loss": 1.2725,
      "step": 976
    },
    {
      "epoch": 0.7220323325635104,
      "grad_norm": 0.6294335126876831,
      "learning_rate": 3.6380154289623e-05,
      "loss": 1.0715,
      "step": 977
    },
    {
      "epoch": 0.7227713625866051,
      "grad_norm": 0.612189531326294,
      "learning_rate": 3.6199984606699155e-05,
      "loss": 1.2232,
      "step": 978
    },
    {
      "epoch": 0.7235103926096997,
      "grad_norm": 0.6427605152130127,
      "learning_rate": 3.6020163519289076e-05,
      "loss": 1.1538,
      "step": 979
    },
    {
      "epoch": 0.7242494226327945,
      "grad_norm": 0.5870321989059448,
      "learning_rate": 3.5840692009913344e-05,
      "loss": 1.1832,
      "step": 980
    },
    {
      "epoch": 0.7249884526558892,
      "grad_norm": 0.6373473405838013,
      "learning_rate": 3.5661571059182366e-05,
      "loss": 1.2055,
      "step": 981
    },
    {
      "epoch": 0.7257274826789838,
      "grad_norm": 0.6280721426010132,
      "learning_rate": 3.548280164579126e-05,
      "loss": 1.113,
      "step": 982
    },
    {
      "epoch": 0.7264665127020785,
      "grad_norm": 0.6111905574798584,
      "learning_rate": 3.530438474651428e-05,
      "loss": 1.1061,
      "step": 983
    },
    {
      "epoch": 0.7272055427251732,
      "grad_norm": 0.6182910203933716,
      "learning_rate": 3.5126321336199676e-05,
      "loss": 1.1525,
      "step": 984
    },
    {
      "epoch": 0.7279445727482678,
      "grad_norm": 0.6291584372520447,
      "learning_rate": 3.494861238776418e-05,
      "loss": 1.1953,
      "step": 985
    },
    {
      "epoch": 0.7286836027713626,
      "grad_norm": 0.6038480401039124,
      "learning_rate": 3.477125887218792e-05,
      "loss": 1.1486,
      "step": 986
    },
    {
      "epoch": 0.7294226327944573,
      "grad_norm": 0.662722647190094,
      "learning_rate": 3.459426175850882e-05,
      "loss": 1.1998,
      "step": 987
    },
    {
      "epoch": 0.730161662817552,
      "grad_norm": 0.6392738819122314,
      "learning_rate": 3.4417622013817595e-05,
      "loss": 1.1545,
      "step": 988
    },
    {
      "epoch": 0.7309006928406466,
      "grad_norm": 0.6540417075157166,
      "learning_rate": 3.424134060325233e-05,
      "loss": 1.0818,
      "step": 989
    },
    {
      "epoch": 0.7316397228637413,
      "grad_norm": 0.6332675814628601,
      "learning_rate": 3.406541848999312e-05,
      "loss": 1.0587,
      "step": 990
    },
    {
      "epoch": 0.7323787528868361,
      "grad_norm": 0.648221492767334,
      "learning_rate": 3.388985663525702e-05,
      "loss": 1.1969,
      "step": 991
    },
    {
      "epoch": 0.7331177829099307,
      "grad_norm": 0.6890285611152649,
      "learning_rate": 3.371465599829257e-05,
      "loss": 1.1523,
      "step": 992
    },
    {
      "epoch": 0.7338568129330254,
      "grad_norm": 0.6935750246047974,
      "learning_rate": 3.353981753637473e-05,
      "loss": 1.0827,
      "step": 993
    },
    {
      "epoch": 0.7345958429561201,
      "grad_norm": 0.7194522023200989,
      "learning_rate": 3.336534220479961e-05,
      "loss": 1.0969,
      "step": 994
    },
    {
      "epoch": 0.7353348729792147,
      "grad_norm": 0.6638715863227844,
      "learning_rate": 3.3191230956879104e-05,
      "loss": 1.01,
      "step": 995
    },
    {
      "epoch": 0.7360739030023095,
      "grad_norm": 0.645897626876831,
      "learning_rate": 3.301748474393592e-05,
      "loss": 0.9888,
      "step": 996
    },
    {
      "epoch": 0.7368129330254042,
      "grad_norm": 0.6944523453712463,
      "learning_rate": 3.2844104515298155e-05,
      "loss": 1.1134,
      "step": 997
    },
    {
      "epoch": 0.7375519630484988,
      "grad_norm": 0.7237693071365356,
      "learning_rate": 3.2671091218294284e-05,
      "loss": 1.0626,
      "step": 998
    },
    {
      "epoch": 0.7382909930715935,
      "grad_norm": 0.743942141532898,
      "learning_rate": 3.2498445798247926e-05,
      "loss": 1.1013,
      "step": 999
    },
    {
      "epoch": 0.7390300230946882,
      "grad_norm": 0.7908286452293396,
      "learning_rate": 3.2326169198472556e-05,
      "loss": 1.1198,
      "step": 1000
    },
    {
      "epoch": 0.739769053117783,
      "grad_norm": 0.5867177844047546,
      "learning_rate": 3.2154262360266607e-05,
      "loss": 1.3431,
      "step": 1001
    },
    {
      "epoch": 0.7405080831408776,
      "grad_norm": 0.5705897808074951,
      "learning_rate": 3.198272622290804e-05,
      "loss": 1.2747,
      "step": 1002
    },
    {
      "epoch": 0.7412471131639723,
      "grad_norm": 0.5679463744163513,
      "learning_rate": 3.18115617236495e-05,
      "loss": 1.2543,
      "step": 1003
    },
    {
      "epoch": 0.741986143187067,
      "grad_norm": 0.5760139226913452,
      "learning_rate": 3.164076979771287e-05,
      "loss": 1.2024,
      "step": 1004
    },
    {
      "epoch": 0.7427251732101616,
      "grad_norm": 0.5650832056999207,
      "learning_rate": 3.14703513782845e-05,
      "loss": 1.1923,
      "step": 1005
    },
    {
      "epoch": 0.7434642032332563,
      "grad_norm": 0.5788818597793579,
      "learning_rate": 3.130030739650983e-05,
      "loss": 1.1734,
      "step": 1006
    },
    {
      "epoch": 0.7442032332563511,
      "grad_norm": 0.559711217880249,
      "learning_rate": 3.113063878148852e-05,
      "loss": 1.1984,
      "step": 1007
    },
    {
      "epoch": 0.7449422632794457,
      "grad_norm": 0.5453621745109558,
      "learning_rate": 3.096134646026917e-05,
      "loss": 1.1903,
      "step": 1008
    },
    {
      "epoch": 0.7456812933025404,
      "grad_norm": 0.5812201499938965,
      "learning_rate": 3.079243135784444e-05,
      "loss": 1.2086,
      "step": 1009
    },
    {
      "epoch": 0.7464203233256351,
      "grad_norm": 0.5821233987808228,
      "learning_rate": 3.062389439714584e-05,
      "loss": 1.2682,
      "step": 1010
    },
    {
      "epoch": 0.7471593533487297,
      "grad_norm": 0.5870958566665649,
      "learning_rate": 3.0455736499038845e-05,
      "loss": 1.2473,
      "step": 1011
    },
    {
      "epoch": 0.7478983833718245,
      "grad_norm": 0.5502411723136902,
      "learning_rate": 3.0287958582317676e-05,
      "loss": 1.2514,
      "step": 1012
    },
    {
      "epoch": 0.7486374133949192,
      "grad_norm": 0.5596548318862915,
      "learning_rate": 3.01205615637005e-05,
      "loss": 1.2234,
      "step": 1013
    },
    {
      "epoch": 0.7493764434180139,
      "grad_norm": 0.6068367958068848,
      "learning_rate": 2.995354635782417e-05,
      "loss": 1.2501,
      "step": 1014
    },
    {
      "epoch": 0.7501154734411085,
      "grad_norm": 0.5903047323226929,
      "learning_rate": 2.9786913877239487e-05,
      "loss": 1.1749,
      "step": 1015
    },
    {
      "epoch": 0.7508545034642032,
      "grad_norm": 0.6030318140983582,
      "learning_rate": 2.962066503240598e-05,
      "loss": 1.2252,
      "step": 1016
    },
    {
      "epoch": 0.751593533487298,
      "grad_norm": 0.5714815855026245,
      "learning_rate": 2.945480073168714e-05,
      "loss": 1.2611,
      "step": 1017
    },
    {
      "epoch": 0.751593533487298,
      "eval_loss": 1.1833044290542603,
      "eval_runtime": 64.5377,
      "eval_samples_per_second": 17.664,
      "eval_steps_per_second": 8.832,
      "step": 1017
    }
  ],
  "logging_steps": 1,
  "max_steps": 1354,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 339,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.684392071479951e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}