{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.75,
  "eval_steps": 288,
  "global_step": 864,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0008680555555555555,
      "grad_norm": 35.58565902709961,
      "learning_rate": 2e-05,
      "loss": 1.9431,
      "step": 1
    },
    {
      "epoch": 0.001736111111111111,
      "grad_norm": 48.56094741821289,
      "learning_rate": 4e-05,
      "loss": 2.0317,
      "step": 2
    },
    {
      "epoch": 0.0026041666666666665,
      "grad_norm": 37.424766540527344,
      "learning_rate": 6e-05,
      "loss": 2.0756,
      "step": 3
    },
    {
      "epoch": 0.003472222222222222,
      "grad_norm": 18.303049087524414,
      "learning_rate": 8e-05,
      "loss": 2.1173,
      "step": 4
    },
    {
      "epoch": 0.004340277777777778,
      "grad_norm": 15.619255065917969,
      "learning_rate": 0.0001,
      "loss": 1.96,
      "step": 5
    },
    {
      "epoch": 0.005208333333333333,
      "grad_norm": 13.538877487182617,
      "learning_rate": 0.00012,
      "loss": 2.0741,
      "step": 6
    },
    {
      "epoch": 0.006076388888888889,
      "grad_norm": 44.71511459350586,
      "learning_rate": 0.00014,
      "loss": 1.7509,
      "step": 7
    },
    {
      "epoch": 0.006944444444444444,
      "grad_norm": 13.178374290466309,
      "learning_rate": 0.00016,
      "loss": 1.9254,
      "step": 8
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 13.685934066772461,
      "learning_rate": 0.00018,
      "loss": 2.0062,
      "step": 9
    },
    {
      "epoch": 0.008680555555555556,
      "grad_norm": 12.471123695373535,
      "learning_rate": 0.0002,
      "loss": 1.8909,
      "step": 10
    },
    {
      "epoch": 0.009548611111111112,
      "grad_norm": 13.122032165527344,
      "learning_rate": 0.00019999962161207577,
      "loss": 1.9582,
      "step": 11
    },
    {
      "epoch": 0.010416666666666666,
      "grad_norm": 11.959083557128906,
      "learning_rate": 0.00019999848645116654,
      "loss": 2.2782,
      "step": 12
    },
    {
      "epoch": 0.011284722222222222,
      "grad_norm": 12.259339332580566,
      "learning_rate": 0.000199996594525863,
      "loss": 1.9294,
      "step": 13
    },
    {
      "epoch": 0.012152777777777778,
      "grad_norm": 12.773700714111328,
      "learning_rate": 0.0001999939458504828,
      "loss": 2.168,
      "step": 14
    },
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 13.152057647705078,
      "learning_rate": 0.00019999054044507038,
      "loss": 1.7083,
      "step": 15
    },
    {
      "epoch": 0.013888888888888888,
      "grad_norm": 11.647073745727539,
      "learning_rate": 0.00019998637833539714,
      "loss": 1.7744,
      "step": 16
    },
    {
      "epoch": 0.014756944444444444,
      "grad_norm": 12.618698120117188,
      "learning_rate": 0.00019998145955296083,
      "loss": 1.7782,
      "step": 17
    },
    {
      "epoch": 0.015625,
      "grad_norm": 13.524704933166504,
      "learning_rate": 0.00019997578413498564,
      "loss": 1.8986,
      "step": 18
    },
    {
      "epoch": 0.016493055555555556,
      "grad_norm": 15.775921821594238,
      "learning_rate": 0.0001999693521244218,
      "loss": 1.5601,
      "step": 19
    },
    {
      "epoch": 0.017361111111111112,
      "grad_norm": 11.479338645935059,
      "learning_rate": 0.00019996216356994517,
      "loss": 1.9181,
      "step": 20
    },
    {
      "epoch": 0.018229166666666668,
      "grad_norm": 11.951251983642578,
      "learning_rate": 0.000199954218525957,
      "loss": 1.7039,
      "step": 21
    },
    {
      "epoch": 0.019097222222222224,
      "grad_norm": 20.511621475219727,
      "learning_rate": 0.00019994551705258343,
      "loss": 1.8188,
      "step": 22
    },
    {
      "epoch": 0.019965277777777776,
      "grad_norm": 13.84535026550293,
      "learning_rate": 0.0001999360592156752,
      "loss": 2.011,
      "step": 23
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 12.730754852294922,
      "learning_rate": 0.00019992584508680684,
      "loss": 1.6989,
      "step": 24
    },
    {
      "epoch": 0.021701388888888888,
      "grad_norm": 14.197487831115723,
      "learning_rate": 0.00019991487474327647,
      "loss": 1.953,
      "step": 25
    },
    {
      "epoch": 0.022569444444444444,
      "grad_norm": 12.278526306152344,
      "learning_rate": 0.000199903148268105,
      "loss": 1.9121,
      "step": 26
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 12.844317436218262,
      "learning_rate": 0.0001998906657500355,
      "loss": 1.7706,
      "step": 27
    },
    {
      "epoch": 0.024305555555555556,
      "grad_norm": 13.6776123046875,
      "learning_rate": 0.00019987742728353274,
      "loss": 1.8088,
      "step": 28
    },
    {
      "epoch": 0.025173611111111112,
      "grad_norm": 13.161673545837402,
      "learning_rate": 0.00019986343296878216,
      "loss": 1.9303,
      "step": 29
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 13.603047370910645,
      "learning_rate": 0.0001998486829116894,
      "loss": 2.0929,
      "step": 30
    },
    {
      "epoch": 0.026909722222222224,
      "grad_norm": 13.390787124633789,
      "learning_rate": 0.0001998331772238793,
      "loss": 1.8524,
      "step": 31
    },
    {
      "epoch": 0.027777777777777776,
      "grad_norm": 12.787797927856445,
      "learning_rate": 0.0001998169160226952,
      "loss": 2.0363,
      "step": 32
    },
    {
      "epoch": 0.028645833333333332,
      "grad_norm": 12.864320755004883,
      "learning_rate": 0.0001997998994311979,
      "loss": 1.9475,
      "step": 33
    },
    {
      "epoch": 0.029513888888888888,
      "grad_norm": 12.506235122680664,
      "learning_rate": 0.00019978212757816493,
      "loss": 1.8965,
      "step": 34
    },
    {
      "epoch": 0.030381944444444444,
      "grad_norm": 13.770919799804688,
      "learning_rate": 0.00019976360059808927,
      "loss": 2.0583,
      "step": 35
    },
    {
      "epoch": 0.03125,
      "grad_norm": 13.034253120422363,
      "learning_rate": 0.0001997443186311787,
      "loss": 2.1258,
      "step": 36
    },
    {
      "epoch": 0.03211805555555555,
      "grad_norm": 12.961138725280762,
      "learning_rate": 0.0001997242818233545,
      "loss": 1.8985,
      "step": 37
    },
    {
      "epoch": 0.03298611111111111,
      "grad_norm": 13.979833602905273,
      "learning_rate": 0.00019970349032625035,
      "loss": 2.053,
      "step": 38
    },
    {
      "epoch": 0.033854166666666664,
      "grad_norm": 12.619976997375488,
      "learning_rate": 0.0001996819442972113,
      "loss": 1.7444,
      "step": 39
    },
    {
      "epoch": 0.034722222222222224,
      "grad_norm": 17.332305908203125,
      "learning_rate": 0.0001996596438992925,
      "loss": 1.8282,
      "step": 40
    },
    {
      "epoch": 0.035590277777777776,
      "grad_norm": 20.919282913208008,
      "learning_rate": 0.00019963658930125794,
      "loss": 1.4102,
      "step": 41
    },
    {
      "epoch": 0.036458333333333336,
      "grad_norm": 15.268011093139648,
      "learning_rate": 0.0001996127806775793,
      "loss": 1.9308,
      "step": 42
    },
    {
      "epoch": 0.03732638888888889,
      "grad_norm": 19.17889976501465,
      "learning_rate": 0.00019958821820843448,
      "loss": 1.9393,
      "step": 43
    },
    {
      "epoch": 0.03819444444444445,
      "grad_norm": 15.130842208862305,
      "learning_rate": 0.0001995629020797063,
      "loss": 2.0962,
      "step": 44
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 16.364301681518555,
      "learning_rate": 0.00019953683248298106,
      "loss": 2.0241,
      "step": 45
    },
    {
      "epoch": 0.03993055555555555,
      "grad_norm": 14.867337226867676,
      "learning_rate": 0.00019951000961554728,
      "loss": 1.9065,
      "step": 46
    },
    {
      "epoch": 0.04079861111111111,
      "grad_norm": 15.296612739562988,
      "learning_rate": 0.0001994824336803939,
      "loss": 2.0404,
      "step": 47
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 18.172563552856445,
      "learning_rate": 0.0001994541048862089,
      "loss": 2.0701,
      "step": 48
    },
    {
      "epoch": 0.042534722222222224,
      "grad_norm": 17.296367645263672,
      "learning_rate": 0.00019942502344737778,
      "loss": 2.0779,
      "step": 49
    },
    {
      "epoch": 0.043402777777777776,
      "grad_norm": 20.97881317138672,
      "learning_rate": 0.00019939518958398184,
      "loss": 2.1805,
      "step": 50
    },
    {
      "epoch": 0.044270833333333336,
      "grad_norm": 10.22420597076416,
      "learning_rate": 0.00019936460352179655,
      "loss": 1.7407,
      "step": 51
    },
    {
      "epoch": 0.04513888888888889,
      "grad_norm": 9.62009334564209,
      "learning_rate": 0.00019933326549228988,
      "loss": 1.9001,
      "step": 52
    },
    {
      "epoch": 0.04600694444444445,
      "grad_norm": 8.641609191894531,
      "learning_rate": 0.0001993011757326204,
      "loss": 1.82,
      "step": 53
    },
    {
      "epoch": 0.046875,
      "grad_norm": 10.667159080505371,
      "learning_rate": 0.00019926833448563573,
      "loss": 1.9076,
      "step": 54
    },
    {
      "epoch": 0.04774305555555555,
      "grad_norm": 8.90631103515625,
      "learning_rate": 0.00019923474199987044,
      "loss": 1.8027,
      "step": 55
    },
    {
      "epoch": 0.04861111111111111,
      "grad_norm": 10.015974044799805,
      "learning_rate": 0.00019920039852954434,
      "loss": 1.9086,
      "step": 56
    },
    {
      "epoch": 0.049479166666666664,
      "grad_norm": 14.456427574157715,
      "learning_rate": 0.00019916530433456063,
      "loss": 1.7389,
      "step": 57
    },
    {
      "epoch": 0.050347222222222224,
      "grad_norm": 10.841985702514648,
      "learning_rate": 0.00019912945968050355,
      "loss": 1.9069,
      "step": 58
    },
    {
      "epoch": 0.051215277777777776,
      "grad_norm": 12.431832313537598,
      "learning_rate": 0.0001990928648386369,
      "loss": 1.7311,
      "step": 59
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 9.686014175415039,
      "learning_rate": 0.00019905552008590155,
      "loss": 1.8091,
      "step": 60
    },
    {
      "epoch": 0.05295138888888889,
      "grad_norm": 10.692378997802734,
      "learning_rate": 0.00019901742570491358,
      "loss": 1.8145,
      "step": 61
    },
    {
      "epoch": 0.05381944444444445,
      "grad_norm": 10.881120681762695,
      "learning_rate": 0.00019897858198396207,
      "loss": 1.7195,
      "step": 62
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 10.607309341430664,
      "learning_rate": 0.0001989389892170069,
      "loss": 1.6324,
      "step": 63
    },
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 10.999518394470215,
      "learning_rate": 0.00019889864770367661,
      "loss": 1.9246,
      "step": 64
    },
    {
      "epoch": 0.05642361111111111,
      "grad_norm": 11.09361743927002,
      "learning_rate": 0.000198857557749266,
      "loss": 1.8409,
      "step": 65
    },
    {
      "epoch": 0.057291666666666664,
      "grad_norm": 10.878568649291992,
      "learning_rate": 0.00019881571966473392,
      "loss": 2.0418,
      "step": 66
    },
    {
      "epoch": 0.058159722222222224,
      "grad_norm": 10.861258506774902,
      "learning_rate": 0.00019877313376670088,
      "loss": 1.7844,
      "step": 67
    },
    {
      "epoch": 0.059027777777777776,
      "grad_norm": 12.224851608276367,
      "learning_rate": 0.0001987298003774467,
      "loss": 1.7109,
      "step": 68
    },
    {
      "epoch": 0.059895833333333336,
      "grad_norm": 12.287059783935547,
      "learning_rate": 0.00019868571982490797,
      "loss": 1.7084,
      "step": 69
    },
    {
      "epoch": 0.06076388888888889,
      "grad_norm": 11.253417015075684,
      "learning_rate": 0.0001986408924426757,
      "loss": 1.8051,
      "step": 70
    },
    {
      "epoch": 0.06163194444444445,
      "grad_norm": 11.521812438964844,
      "learning_rate": 0.00019859531856999268,
      "loss": 1.9066,
      "step": 71
    },
    {
      "epoch": 0.0625,
      "grad_norm": 13.45959186553955,
      "learning_rate": 0.00019854899855175097,
      "loss": 1.9001,
      "step": 72
    },
    {
      "epoch": 0.06336805555555555,
      "grad_norm": 10.648096084594727,
      "learning_rate": 0.00019850193273848927,
      "loss": 1.9218,
      "step": 73
    },
    {
      "epoch": 0.0642361111111111,
      "grad_norm": 13.737889289855957,
      "learning_rate": 0.00019845412148639032,
      "loss": 1.925,
      "step": 74
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 13.296466827392578,
      "learning_rate": 0.0001984055651572781,
      "loss": 1.9599,
      "step": 75
    },
    {
      "epoch": 0.06597222222222222,
      "grad_norm": 13.468690872192383,
      "learning_rate": 0.00019835626411861514,
      "loss": 2.0418,
      "step": 76
    },
    {
      "epoch": 0.06684027777777778,
      "grad_norm": 12.633646011352539,
      "learning_rate": 0.0001983062187434999,
      "loss": 1.9636,
      "step": 77
    },
    {
      "epoch": 0.06770833333333333,
      "grad_norm": 11.930305480957031,
      "learning_rate": 0.0001982554294106636,
      "loss": 1.8063,
      "step": 78
    },
    {
      "epoch": 0.0685763888888889,
      "grad_norm": 13.597249031066895,
      "learning_rate": 0.00019820389650446768,
      "loss": 1.8593,
      "step": 79
    },
    {
      "epoch": 0.06944444444444445,
      "grad_norm": 13.24532699584961,
      "learning_rate": 0.00019815162041490075,
      "loss": 1.8913,
      "step": 80
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 11.752413749694824,
      "learning_rate": 0.0001980986015375756,
      "loss": 2.0285,
      "step": 81
    },
    {
      "epoch": 0.07118055555555555,
      "grad_norm": 15.495701789855957,
      "learning_rate": 0.0001980448402737263,
      "loss": 1.8311,
      "step": 82
    },
    {
      "epoch": 0.0720486111111111,
      "grad_norm": 11.816282272338867,
      "learning_rate": 0.00019799033703020512,
      "loss": 2.0967,
      "step": 83
    },
    {
      "epoch": 0.07291666666666667,
      "grad_norm": 14.302024841308594,
      "learning_rate": 0.00019793509221947936,
      "loss": 2.0827,
      "step": 84
    },
    {
      "epoch": 0.07378472222222222,
      "grad_norm": 13.234182357788086,
      "learning_rate": 0.00019787910625962854,
      "loss": 1.9583,
      "step": 85
    },
    {
      "epoch": 0.07465277777777778,
      "grad_norm": 13.790337562561035,
      "learning_rate": 0.0001978223795743408,
      "loss": 1.9827,
      "step": 86
    },
    {
      "epoch": 0.07552083333333333,
      "grad_norm": 13.444418907165527,
      "learning_rate": 0.00019776491259291,
      "loss": 1.8425,
      "step": 87
    },
    {
      "epoch": 0.0763888888888889,
      "grad_norm": 12.473797798156738,
      "learning_rate": 0.00019770670575023242,
      "loss": 1.787,
      "step": 88
    },
    {
      "epoch": 0.07725694444444445,
      "grad_norm": 15.623421669006348,
      "learning_rate": 0.00019764775948680332,
      "loss": 1.8434,
      "step": 89
    },
    {
      "epoch": 0.078125,
      "grad_norm": 14.36761474609375,
      "learning_rate": 0.00019758807424871385,
      "loss": 2.0419,
      "step": 90
    },
    {
      "epoch": 0.07899305555555555,
      "grad_norm": 14.36004638671875,
      "learning_rate": 0.0001975276504876474,
      "loss": 1.9768,
      "step": 91
    },
    {
      "epoch": 0.0798611111111111,
      "grad_norm": 20.493976593017578,
      "learning_rate": 0.0001974664886608765,
      "loss": 1.8109,
      "step": 92
    },
    {
      "epoch": 0.08072916666666667,
      "grad_norm": 18.418542861938477,
      "learning_rate": 0.000197404589231259,
      "loss": 1.9052,
      "step": 93
    },
    {
      "epoch": 0.08159722222222222,
      "grad_norm": 30.992692947387695,
      "learning_rate": 0.0001973419526672349,
      "loss": 1.737,
      "step": 94
    },
    {
      "epoch": 0.08246527777777778,
      "grad_norm": 18.844003677368164,
      "learning_rate": 0.00019727857944282253,
      "loss": 1.8959,
      "step": 95
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 16.64204216003418,
      "learning_rate": 0.00019721447003761517,
      "loss": 1.8735,
      "step": 96
    },
    {
      "epoch": 0.0842013888888889,
      "grad_norm": 17.716562271118164,
      "learning_rate": 0.00019714962493677733,
      "loss": 1.9893,
      "step": 97
    },
    {
      "epoch": 0.08506944444444445,
      "grad_norm": 19.44375228881836,
      "learning_rate": 0.00019708404463104104,
      "loss": 1.7577,
      "step": 98
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 21.90731430053711,
      "learning_rate": 0.00019701772961670225,
      "loss": 1.9369,
      "step": 99
    },
    {
      "epoch": 0.08680555555555555,
      "grad_norm": 23.381404876708984,
      "learning_rate": 0.00019695068039561695,
      "loss": 1.9541,
      "step": 100
    },
    {
      "epoch": 0.0876736111111111,
      "grad_norm": 13.508015632629395,
      "learning_rate": 0.00019688289747519746,
      "loss": 1.7841,
      "step": 101
    },
    {
      "epoch": 0.08854166666666667,
      "grad_norm": 12.486660957336426,
      "learning_rate": 0.00019681438136840852,
      "loss": 2.1489,
      "step": 102
    },
    {
      "epoch": 0.08940972222222222,
      "grad_norm": 12.109207153320312,
      "learning_rate": 0.00019674513259376354,
      "loss": 1.7279,
      "step": 103
    },
    {
      "epoch": 0.09027777777777778,
      "grad_norm": 10.939233779907227,
      "learning_rate": 0.0001966751516753205,
      "loss": 1.6067,
      "step": 104
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 8.974983215332031,
      "learning_rate": 0.00019660443914267805,
      "loss": 1.6766,
      "step": 105
    },
    {
      "epoch": 0.0920138888888889,
      "grad_norm": 10.605708122253418,
      "learning_rate": 0.0001965329955309716,
      "loss": 2.1274,
      "step": 106
    },
    {
      "epoch": 0.09288194444444445,
      "grad_norm": 9.082651138305664,
      "learning_rate": 0.00019646082138086914,
      "loss": 1.8969,
      "step": 107
    },
    {
      "epoch": 0.09375,
      "grad_norm": 9.9719820022583,
      "learning_rate": 0.0001963879172385672,
      "loss": 1.7341,
      "step": 108
    },
    {
      "epoch": 0.09461805555555555,
      "grad_norm": 10.77607536315918,
      "learning_rate": 0.0001963142836557867,
      "loss": 1.7128,
      "step": 109
    },
    {
      "epoch": 0.0954861111111111,
      "grad_norm": 11.058753967285156,
      "learning_rate": 0.00019623992118976888,
      "loss": 2.1032,
      "step": 110
    },
    {
      "epoch": 0.09635416666666667,
      "grad_norm": 14.013104438781738,
      "learning_rate": 0.00019616483040327083,
      "loss": 1.8325,
      "step": 111
    },
    {
      "epoch": 0.09722222222222222,
      "grad_norm": 12.799433708190918,
      "learning_rate": 0.00019608901186456156,
      "loss": 1.8325,
      "step": 112
    },
    {
      "epoch": 0.09809027777777778,
      "grad_norm": 13.066915512084961,
      "learning_rate": 0.00019601246614741745,
      "loss": 2.1282,
      "step": 113
    },
    {
      "epoch": 0.09895833333333333,
      "grad_norm": 11.422811508178711,
      "learning_rate": 0.00019593519383111799,
      "loss": 1.8796,
      "step": 114
    },
    {
      "epoch": 0.0998263888888889,
      "grad_norm": 11.860527992248535,
      "learning_rate": 0.00019585719550044138,
      "loss": 1.7858,
      "step": 115
    },
    {
      "epoch": 0.10069444444444445,
      "grad_norm": 10.98066234588623,
      "learning_rate": 0.00019577847174566016,
      "loss": 1.7642,
      "step": 116
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 14.495651245117188,
      "learning_rate": 0.00019569902316253672,
      "loss": 1.5782,
      "step": 117
    },
    {
      "epoch": 0.10243055555555555,
      "grad_norm": 11.862543106079102,
      "learning_rate": 0.00019561885035231872,
      "loss": 1.9929,
      "step": 118
    },
    {
      "epoch": 0.1032986111111111,
      "grad_norm": 13.076631546020508,
      "learning_rate": 0.00019553795392173468,
      "loss": 1.8142,
      "step": 119
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 13.506454467773438,
      "learning_rate": 0.00019545633448298918,
      "loss": 1.9133,
      "step": 120
    },
    {
      "epoch": 0.10503472222222222,
      "grad_norm": 16.361570358276367,
      "learning_rate": 0.00019537399265375844,
      "loss": 1.7894,
      "step": 121
    },
    {
      "epoch": 0.10590277777777778,
      "grad_norm": 14.427111625671387,
      "learning_rate": 0.00019529092905718555,
      "loss": 2.0694,
      "step": 122
    },
    {
      "epoch": 0.10677083333333333,
      "grad_norm": 14.536744117736816,
      "learning_rate": 0.00019520714432187574,
      "loss": 1.8302,
      "step": 123
    },
    {
      "epoch": 0.1076388888888889,
      "grad_norm": 16.422466278076172,
      "learning_rate": 0.00019512263908189165,
      "loss": 1.8842,
      "step": 124
    },
    {
      "epoch": 0.10850694444444445,
      "grad_norm": 14.742378234863281,
      "learning_rate": 0.00019503741397674856,
      "loss": 1.7714,
      "step": 125
    },
    {
      "epoch": 0.109375,
      "grad_norm": 12.7188138961792,
      "learning_rate": 0.00019495146965140943,
      "loss": 1.9543,
      "step": 126
    },
    {
      "epoch": 0.11024305555555555,
      "grad_norm": 16.39458465576172,
      "learning_rate": 0.00019486480675628019,
      "loss": 1.8057,
      "step": 127
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 14.285149574279785,
      "learning_rate": 0.00019477742594720468,
      "loss": 1.9482,
      "step": 128
    },
    {
      "epoch": 0.11197916666666667,
      "grad_norm": 14.187176704406738,
      "learning_rate": 0.00019468932788545978,
      "loss": 1.8236,
      "step": 129
    },
    {
      "epoch": 0.11284722222222222,
      "grad_norm": 13.324663162231445,
      "learning_rate": 0.00019460051323775033,
      "loss": 1.9144,
      "step": 130
    },
    {
      "epoch": 0.11371527777777778,
      "grad_norm": 13.424140930175781,
      "learning_rate": 0.00019451098267620411,
      "loss": 1.8751,
      "step": 131
    },
    {
      "epoch": 0.11458333333333333,
      "grad_norm": 13.177816390991211,
      "learning_rate": 0.00019442073687836686,
      "loss": 1.7772,
      "step": 132
    },
    {
      "epoch": 0.1154513888888889,
      "grad_norm": 13.207395553588867,
      "learning_rate": 0.00019432977652719693,
      "loss": 1.8719,
      "step": 133
    },
    {
      "epoch": 0.11631944444444445,
      "grad_norm": 13.875267028808594,
      "learning_rate": 0.00019423810231106026,
      "loss": 2.1062,
      "step": 134
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 15.007508277893066,
      "learning_rate": 0.00019414571492372523,
      "loss": 1.9907,
      "step": 135
    },
    {
      "epoch": 0.11805555555555555,
      "grad_norm": 17.46452522277832,
      "learning_rate": 0.00019405261506435728,
      "loss": 1.8232,
      "step": 136
    },
    {
      "epoch": 0.1189236111111111,
      "grad_norm": 15.018606185913086,
      "learning_rate": 0.00019395880343751364,
      "loss": 1.9998,
      "step": 137
    },
    {
      "epoch": 0.11979166666666667,
      "grad_norm": 15.008566856384277,
      "learning_rate": 0.000193864280753138,
      "loss": 2.2518,
      "step": 138
    },
    {
      "epoch": 0.12065972222222222,
      "grad_norm": 14.968362808227539,
      "learning_rate": 0.0001937690477265553,
      "loss": 1.907,
      "step": 139
    },
    {
      "epoch": 0.12152777777777778,
      "grad_norm": 16.688232421875,
      "learning_rate": 0.000193673105078466,
      "loss": 2.1555,
      "step": 140
    },
    {
      "epoch": 0.12239583333333333,
      "grad_norm": 15.939224243164062,
      "learning_rate": 0.00019357645353494093,
      "loss": 1.9683,
      "step": 141
    },
    {
      "epoch": 0.1232638888888889,
      "grad_norm": 19.3345947265625,
      "learning_rate": 0.00019347909382741563,
      "loss": 1.846,
      "step": 142
    },
    {
      "epoch": 0.12413194444444445,
      "grad_norm": 18.90403938293457,
      "learning_rate": 0.00019338102669268486,
      "loss": 1.8495,
      "step": 143
    },
    {
      "epoch": 0.125,
      "grad_norm": 15.466403007507324,
      "learning_rate": 0.000193282252872897,
      "loss": 2.1546,
      "step": 144
    },
    {
      "epoch": 0.12586805555555555,
      "grad_norm": 15.189818382263184,
      "learning_rate": 0.0001931827731155484,
      "loss": 2.1654,
      "step": 145
    },
    {
      "epoch": 0.1267361111111111,
      "grad_norm": 18.047069549560547,
      "learning_rate": 0.00019308258817347796,
      "loss": 2.1284,
      "step": 146
    },
    {
      "epoch": 0.12760416666666666,
      "grad_norm": 18.890968322753906,
      "learning_rate": 0.00019298169880486104,
      "loss": 1.9173,
      "step": 147
    },
    {
      "epoch": 0.1284722222222222,
      "grad_norm": 21.104589462280273,
      "learning_rate": 0.00019288010577320406,
      "loss": 2.0375,
      "step": 148
    },
    {
      "epoch": 0.1293402777777778,
      "grad_norm": 22.40423583984375,
      "learning_rate": 0.00019277780984733848,
      "loss": 2.2803,
      "step": 149
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 30.21675682067871,
      "learning_rate": 0.00019267481180141525,
      "loss": 2.3389,
      "step": 150
    },
    {
      "epoch": 0.1310763888888889,
      "grad_norm": 12.309678077697754,
      "learning_rate": 0.00019257111241489865,
      "loss": 1.9963,
      "step": 151
    },
    {
      "epoch": 0.13194444444444445,
      "grad_norm": 12.63139533996582,
      "learning_rate": 0.00019246671247256057,
      "loss": 1.7262,
      "step": 152
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 11.34267807006836,
      "learning_rate": 0.00019236161276447463,
      "loss": 1.7441,
      "step": 153
    },
    {
      "epoch": 0.13368055555555555,
      "grad_norm": 11.839574813842773,
      "learning_rate": 0.00019225581408601,
      "loss": 2.1139,
      "step": 154
    },
    {
      "epoch": 0.1345486111111111,
      "grad_norm": 10.89040756225586,
      "learning_rate": 0.00019214931723782552,
      "loss": 1.6977,
      "step": 155
    },
    {
      "epoch": 0.13541666666666666,
      "grad_norm": 9.409683227539062,
      "learning_rate": 0.00019204212302586363,
      "loss": 1.8318,
      "step": 156
    },
    {
      "epoch": 0.1362847222222222,
      "grad_norm": 10.186905860900879,
      "learning_rate": 0.00019193423226134424,
      "loss": 1.7147,
      "step": 157
    },
    {
      "epoch": 0.1371527777777778,
      "grad_norm": 12.784825325012207,
      "learning_rate": 0.0001918256457607586,
      "loss": 1.6626,
      "step": 158
    },
    {
      "epoch": 0.13802083333333334,
      "grad_norm": 12.328042984008789,
      "learning_rate": 0.00019171636434586308,
      "loss": 1.626,
      "step": 159
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 10.225205421447754,
      "learning_rate": 0.0001916063888436731,
      "loss": 1.7623,
      "step": 160
    },
    {
      "epoch": 0.13975694444444445,
      "grad_norm": 11.580220222473145,
      "learning_rate": 0.00019149572008645663,
      "loss": 1.9576,
      "step": 161
    },
    {
      "epoch": 0.140625,
      "grad_norm": 11.501927375793457,
      "learning_rate": 0.00019138435891172812,
      "loss": 1.8261,
      "step": 162
    },
    {
      "epoch": 0.14149305555555555,
      "grad_norm": 10.786643981933594,
      "learning_rate": 0.00019127230616224213,
      "loss": 1.8083,
      "step": 163
    },
    {
      "epoch": 0.1423611111111111,
      "grad_norm": 12.858431816101074,
      "learning_rate": 0.00019115956268598664,
      "loss": 1.9125,
      "step": 164
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 14.524067878723145,
      "learning_rate": 0.0001910461293361772,
      "loss": 1.7544,
      "step": 165
    },
    {
      "epoch": 0.1440972222222222,
      "grad_norm": 13.2136812210083,
      "learning_rate": 0.00019093200697124996,
      "loss": 1.9325,
      "step": 166
    },
    {
      "epoch": 0.1449652777777778,
      "grad_norm": 12.031184196472168,
      "learning_rate": 0.0001908171964548554,
      "loss": 1.9277,
      "step": 167
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 23.280420303344727,
      "learning_rate": 0.00019070169865585175,
      "loss": 1.7819,
      "step": 168
    },
    {
      "epoch": 0.1467013888888889,
      "grad_norm": 12.931647300720215,
      "learning_rate": 0.0001905855144482985,
      "loss": 1.919,
      "step": 169
    },
    {
      "epoch": 0.14756944444444445,
      "grad_norm": 16.22270965576172,
      "learning_rate": 0.0001904686447114497,
      "loss": 2.0758,
      "step": 170
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 12.989730834960938,
      "learning_rate": 0.00019035109032974722,
      "loss": 1.6986,
      "step": 171
    },
    {
      "epoch": 0.14930555555555555,
      "grad_norm": 13.891203880310059,
      "learning_rate": 0.00019023285219281429,
      "loss": 2.2941,
      "step": 172
    },
    {
      "epoch": 0.1501736111111111,
      "grad_norm": 13.977187156677246,
      "learning_rate": 0.00019011393119544852,
      "loss": 2.0091,
      "step": 173
    },
    {
      "epoch": 0.15104166666666666,
      "grad_norm": 16.838241577148438,
      "learning_rate": 0.00018999432823761534,
      "loss": 2.0988,
      "step": 174
    },
    {
      "epoch": 0.1519097222222222,
      "grad_norm": 13.648717880249023,
      "learning_rate": 0.00018987404422444104,
      "loss": 1.8663,
      "step": 175
    },
    {
      "epoch": 0.1527777777777778,
      "grad_norm": 15.151379585266113,
      "learning_rate": 0.00018975308006620597,
      "loss": 2.0219,
      "step": 176
    },
    {
      "epoch": 0.15364583333333334,
      "grad_norm": 13.177093505859375,
      "learning_rate": 0.0001896314366783377,
      "loss": 2.0317,
      "step": 177
    },
    {
      "epoch": 0.1545138888888889,
      "grad_norm": 12.708688735961914,
      "learning_rate": 0.00018950911498140396,
      "loss": 1.8149,
      "step": 178
    },
    {
      "epoch": 0.15538194444444445,
      "grad_norm": 13.419455528259277,
      "learning_rate": 0.00018938611590110584,
      "loss": 1.8651,
      "step": 179
    },
    {
      "epoch": 0.15625,
      "grad_norm": 12.265069007873535,
      "learning_rate": 0.00018926244036827065,
      "loss": 1.8629,
      "step": 180
    },
    {
      "epoch": 0.15711805555555555,
      "grad_norm": 13.664926528930664,
      "learning_rate": 0.00018913808931884498,
      "loss": 1.7615,
      "step": 181
    },
    {
      "epoch": 0.1579861111111111,
      "grad_norm": 12.963334083557129,
      "learning_rate": 0.00018901306369388754,
      "loss": 1.8603,
      "step": 182
    },
    {
      "epoch": 0.15885416666666666,
      "grad_norm": 20.484933853149414,
      "learning_rate": 0.00018888736443956202,
      "loss": 1.7173,
      "step": 183
    },
    {
      "epoch": 0.1597222222222222,
      "grad_norm": 15.207588195800781,
      "learning_rate": 0.00018876099250713011,
      "loss": 2.0953,
      "step": 184
    },
    {
      "epoch": 0.1605902777777778,
      "grad_norm": 16.490617752075195,
      "learning_rate": 0.00018863394885294398,
      "loss": 1.9082,
      "step": 185
    },
    {
      "epoch": 0.16145833333333334,
      "grad_norm": 13.16429328918457,
      "learning_rate": 0.00018850623443843935,
      "loss": 1.836,
      "step": 186
    },
    {
      "epoch": 0.1623263888888889,
      "grad_norm": 16.288530349731445,
      "learning_rate": 0.00018837785023012807,
      "loss": 1.8976,
      "step": 187
    },
    {
      "epoch": 0.16319444444444445,
      "grad_norm": 15.317511558532715,
      "learning_rate": 0.00018824879719959086,
      "loss": 2.0012,
      "step": 188
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 17.52764129638672,
      "learning_rate": 0.0001881190763234698,
      "loss": 2.0706,
      "step": 189
    },
    {
      "epoch": 0.16493055555555555,
      "grad_norm": 16.328855514526367,
      "learning_rate": 0.00018798868858346124,
      "loss": 1.8851,
      "step": 190
    },
    {
      "epoch": 0.1657986111111111,
      "grad_norm": 16.69556999206543,
      "learning_rate": 0.00018785763496630806,
      "loss": 1.9786,
      "step": 191
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 17.96717643737793,
      "learning_rate": 0.00018772591646379238,
      "loss": 2.0008,
      "step": 192
    },
    {
      "epoch": 0.1675347222222222,
      "grad_norm": 16.628231048583984,
      "learning_rate": 0.00018759353407272805,
      "loss": 1.9788,
      "step": 193
    },
    {
      "epoch": 0.1684027777777778,
      "grad_norm": 17.38471221923828,
      "learning_rate": 0.00018746048879495297,
      "loss": 2.1737,
      "step": 194
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 19.548967361450195,
      "learning_rate": 0.0001873267816373217,
      "loss": 1.7296,
      "step": 195
    },
    {
      "epoch": 0.1701388888888889,
      "grad_norm": 16.191646575927734,
      "learning_rate": 0.00018719241361169777,
      "loss": 2.1645,
      "step": 196
    },
    {
      "epoch": 0.17100694444444445,
      "grad_norm": 17.442583084106445,
      "learning_rate": 0.00018705738573494588,
      "loss": 1.9764,
      "step": 197
    },
    {
      "epoch": 0.171875,
      "grad_norm": 16.695098876953125,
      "learning_rate": 0.00018692169902892442,
      "loss": 2.1075,
      "step": 198
    },
    {
      "epoch": 0.17274305555555555,
      "grad_norm": 23.31529426574707,
      "learning_rate": 0.00018678535452047759,
      "loss": 1.9822,
      "step": 199
    },
    {
      "epoch": 0.1736111111111111,
      "grad_norm": 20.87629508972168,
      "learning_rate": 0.0001866483532414277,
      "loss": 2.1427,
      "step": 200
    },
    {
      "epoch": 0.17447916666666666,
      "grad_norm": 10.335103034973145,
      "learning_rate": 0.0001865106962285674,
      "loss": 1.9317,
      "step": 201
    },
    {
      "epoch": 0.1753472222222222,
      "grad_norm": 10.890054702758789,
      "learning_rate": 0.00018637238452365163,
      "loss": 1.8475,
      "step": 202
    },
    {
      "epoch": 0.1762152777777778,
      "grad_norm": 10.44139575958252,
      "learning_rate": 0.00018623341917339,
      "loss": 1.9604,
      "step": 203
    },
    {
      "epoch": 0.17708333333333334,
      "grad_norm": 10.99472713470459,
      "learning_rate": 0.00018609380122943875,
      "loss": 1.7941,
      "step": 204
    },
    {
      "epoch": 0.1779513888888889,
      "grad_norm": 26.37702751159668,
      "learning_rate": 0.00018595353174839273,
      "loss": 1.8027,
      "step": 205
    },
    {
      "epoch": 0.17881944444444445,
      "grad_norm": 14.311911582946777,
      "learning_rate": 0.00018581261179177752,
      "loss": 1.8266,
      "step": 206
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 11.09175968170166,
      "learning_rate": 0.0001856710424260413,
      "loss": 1.5405,
      "step": 207
    },
    {
      "epoch": 0.18055555555555555,
      "grad_norm": 10.449447631835938,
      "learning_rate": 0.00018552882472254684,
      "loss": 1.6955,
      "step": 208
    },
    {
      "epoch": 0.1814236111111111,
      "grad_norm": 11.866670608520508,
      "learning_rate": 0.00018538595975756334,
      "loss": 1.8603,
      "step": 209
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 13.005413055419922,
      "learning_rate": 0.0001852424486122584,
      "loss": 1.9332,
      "step": 210
    },
    {
      "epoch": 0.1831597222222222,
      "grad_norm": 11.293785095214844,
      "learning_rate": 0.00018509829237268975,
      "loss": 2.0024,
      "step": 211
    },
    {
      "epoch": 0.1840277777777778,
      "grad_norm": 12.642121315002441,
      "learning_rate": 0.00018495349212979684,
      "loss": 2.0033,
      "step": 212
    },
    {
      "epoch": 0.18489583333333334,
      "grad_norm": 13.971750259399414,
      "learning_rate": 0.0001848080489793931,
      "loss": 1.7791,
      "step": 213
    },
    {
      "epoch": 0.1857638888888889,
      "grad_norm": 12.25688362121582,
      "learning_rate": 0.00018466196402215708,
      "loss": 1.9584,
      "step": 214
    },
    {
      "epoch": 0.18663194444444445,
      "grad_norm": 12.389559745788574,
      "learning_rate": 0.00018451523836362447,
      "loss": 1.6993,
      "step": 215
    },
    {
      "epoch": 0.1875,
      "grad_norm": 15.021598815917969,
      "learning_rate": 0.00018436787311417962,
      "loss": 1.5167,
      "step": 216
    },
    {
      "epoch": 0.18836805555555555,
      "grad_norm": 11.749884605407715,
      "learning_rate": 0.00018421986938904714,
      "loss": 2.0353,
      "step": 217
    },
    {
      "epoch": 0.1892361111111111,
      "grad_norm": 13.379584312438965,
      "learning_rate": 0.0001840712283082835,
      "loss": 1.9561,
      "step": 218
    },
    {
      "epoch": 0.19010416666666666,
      "grad_norm": 12.492539405822754,
      "learning_rate": 0.00018392195099676845,
      "loss": 1.8257,
      "step": 219
    },
    {
      "epoch": 0.1909722222222222,
      "grad_norm": 14.45168685913086,
      "learning_rate": 0.0001837720385841967,
      "loss": 1.7718,
      "step": 220
    },
    {
      "epoch": 0.1918402777777778,
      "grad_norm": 14.807358741760254,
      "learning_rate": 0.00018362149220506915,
      "loss": 1.7636,
      "step": 221
    },
    {
      "epoch": 0.19270833333333334,
      "grad_norm": 12.3840970993042,
      "learning_rate": 0.00018347031299868443,
      "loss": 1.8007,
      "step": 222
    },
    {
      "epoch": 0.1935763888888889,
      "grad_norm": 17.122541427612305,
      "learning_rate": 0.00018331850210913023,
      "loss": 1.9343,
      "step": 223
    },
    {
      "epoch": 0.19444444444444445,
      "grad_norm": 14.026200294494629,
      "learning_rate": 0.00018316606068527477,
      "loss": 2.0159,
      "step": 224
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 14.055373191833496,
      "learning_rate": 0.0001830129898807579,
      "loss": 2.0148,
      "step": 225
    },
    {
      "epoch": 0.19618055555555555,
      "grad_norm": 13.761622428894043,
      "learning_rate": 0.00018285929085398248,
      "loss": 2.1315,
      "step": 226
    },
    {
      "epoch": 0.1970486111111111,
      "grad_norm": 14.795516967773438,
      "learning_rate": 0.00018270496476810563,
      "loss": 1.8287,
      "step": 227
    },
    {
      "epoch": 0.19791666666666666,
      "grad_norm": 13.727972984313965,
      "learning_rate": 0.00018255001279102992,
      "loss": 1.9528,
      "step": 228
    },
    {
      "epoch": 0.1987847222222222,
      "grad_norm": 14.228172302246094,
      "learning_rate": 0.00018239443609539447,
      "loss": 2.1265,
      "step": 229
    },
    {
      "epoch": 0.1996527777777778,
      "grad_norm": 14.87886905670166,
      "learning_rate": 0.00018223823585856614,
      "loss": 1.9152,
      "step": 230
    },
    {
      "epoch": 0.20052083333333334,
      "grad_norm": 16.549922943115234,
      "learning_rate": 0.00018208141326263059,
      "loss": 1.9704,
      "step": 231
    },
    {
      "epoch": 0.2013888888888889,
      "grad_norm": 13.790371894836426,
      "learning_rate": 0.00018192396949438336,
      "loss": 1.9016,
      "step": 232
    },
    {
      "epoch": 0.20225694444444445,
      "grad_norm": 18.156030654907227,
      "learning_rate": 0.00018176590574532083,
      "loss": 1.9363,
      "step": 233
    },
    {
      "epoch": 0.203125,
      "grad_norm": 17.636188507080078,
      "learning_rate": 0.00018160722321163136,
      "loss": 1.8279,
      "step": 234
    },
    {
      "epoch": 0.20399305555555555,
      "grad_norm": 14.541389465332031,
      "learning_rate": 0.000181447923094186,
      "loss": 2.1732,
      "step": 235
    },
    {
      "epoch": 0.2048611111111111,
      "grad_norm": 14.15210247039795,
      "learning_rate": 0.00018128800659852952,
      "loss": 1.9789,
      "step": 236
    },
    {
      "epoch": 0.20572916666666666,
      "grad_norm": 14.787556648254395,
      "learning_rate": 0.00018112747493487138,
      "loss": 1.8646,
      "step": 237
    },
    {
      "epoch": 0.2065972222222222,
      "grad_norm": 14.92003059387207,
      "learning_rate": 0.00018096632931807643,
      "loss": 2.1796,
      "step": 238
    },
    {
      "epoch": 0.2074652777777778,
      "grad_norm": 16.702091217041016,
      "learning_rate": 0.0001808045709676558,
      "loss": 1.9222,
      "step": 239
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 15.106432914733887,
      "learning_rate": 0.0001806422011077576,
      "loss": 1.9947,
      "step": 240
    },
    {
      "epoch": 0.2092013888888889,
      "grad_norm": 15.4135103225708,
      "learning_rate": 0.0001804792209671577,
      "loss": 1.9538,
      "step": 241
    },
    {
      "epoch": 0.21006944444444445,
      "grad_norm": 18.562744140625,
      "learning_rate": 0.00018031563177925048,
      "loss": 2.2047,
      "step": 242
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 21.280431747436523,
      "learning_rate": 0.00018015143478203937,
      "loss": 2.0207,
      "step": 243
    },
    {
      "epoch": 0.21180555555555555,
      "grad_norm": 20.121444702148438,
      "learning_rate": 0.00017998663121812763,
      "loss": 1.9435,
      "step": 244
    },
    {
      "epoch": 0.2126736111111111,
      "grad_norm": 15.048248291015625,
      "learning_rate": 0.00017982122233470876,
      "loss": 1.9531,
      "step": 245
    },
    {
      "epoch": 0.21354166666666666,
      "grad_norm": 16.29069709777832,
      "learning_rate": 0.00017965520938355729,
      "loss": 2.2155,
      "step": 246
    },
    {
      "epoch": 0.2144097222222222,
      "grad_norm": 16.80470085144043,
      "learning_rate": 0.00017948859362101915,
      "loss": 1.9634,
      "step": 247
    },
    {
      "epoch": 0.2152777777777778,
      "grad_norm": 18.623069763183594,
      "learning_rate": 0.00017932137630800217,
      "loss": 1.951,
      "step": 248
    },
    {
      "epoch": 0.21614583333333334,
      "grad_norm": 22.798967361450195,
      "learning_rate": 0.00017915355870996654,
      "loss": 2.0447,
      "step": 249
    },
    {
      "epoch": 0.2170138888888889,
      "grad_norm": 22.930086135864258,
      "learning_rate": 0.00017898514209691545,
      "loss": 1.9611,
      "step": 250
    },
    {
      "epoch": 0.21788194444444445,
      "grad_norm": 12.032635688781738,
      "learning_rate": 0.000178816127743385,
      "loss": 1.9788,
      "step": 251
    },
    {
      "epoch": 0.21875,
      "grad_norm": 12.206561088562012,
      "learning_rate": 0.00017864651692843509,
      "loss": 1.8768,
      "step": 252
    },
    {
      "epoch": 0.21961805555555555,
      "grad_norm": 11.75241756439209,
      "learning_rate": 0.00017847631093563938,
      "loss": 1.9702,
      "step": 253
    },
    {
      "epoch": 0.2204861111111111,
      "grad_norm": 11.434863090515137,
      "learning_rate": 0.00017830551105307572,
      "loss": 1.894,
      "step": 254
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 12.25328254699707,
      "learning_rate": 0.00017813411857331635,
      "loss": 2.13,
      "step": 255
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 13.782607078552246,
      "learning_rate": 0.00017796213479341817,
      "loss": 1.769,
      "step": 256
    },
    {
      "epoch": 0.2230902777777778,
      "grad_norm": 9.70714282989502,
      "learning_rate": 0.0001777895610149129,
      "loss": 1.8662,
      "step": 257
    },
    {
      "epoch": 0.22395833333333334,
      "grad_norm": 10.676058769226074,
      "learning_rate": 0.0001776163985437972,
      "loss": 2.0061,
      "step": 258
    },
    {
      "epoch": 0.2248263888888889,
      "grad_norm": 13.05005168914795,
      "learning_rate": 0.00017744264869052286,
      "loss": 1.7846,
      "step": 259
    },
    {
      "epoch": 0.22569444444444445,
      "grad_norm": 11.147198677062988,
      "learning_rate": 0.00017726831276998681,
      "loss": 1.8966,
      "step": 260
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 11.927408218383789,
      "learning_rate": 0.00017709339210152117,
      "loss": 1.64,
      "step": 261
    },
    {
      "epoch": 0.22743055555555555,
      "grad_norm": 11.40385627746582,
      "learning_rate": 0.00017691788800888326,
      "loss": 1.9242,
      "step": 262
    },
    {
      "epoch": 0.2282986111111111,
      "grad_norm": 13.523828506469727,
      "learning_rate": 0.00017674180182024579,
      "loss": 1.9054,
      "step": 263
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 12.268346786499023,
      "learning_rate": 0.0001765651348681864,
      "loss": 1.873,
      "step": 264
    },
    {
      "epoch": 0.2300347222222222,
      "grad_norm": 12.880168914794922,
      "learning_rate": 0.00017638788848967795,
      "loss": 1.9294,
      "step": 265
    },
    {
      "epoch": 0.2309027777777778,
      "grad_norm": 16.992740631103516,
      "learning_rate": 0.00017621006402607827,
      "loss": 1.8293,
      "step": 266
    },
    {
      "epoch": 0.23177083333333334,
      "grad_norm": 16.630651473999023,
      "learning_rate": 0.00017603166282311987,
      "loss": 2.1064,
      "step": 267
    },
    {
      "epoch": 0.2326388888888889,
      "grad_norm": 14.58834171295166,
      "learning_rate": 0.00017585268623090004,
      "loss": 2.0945,
      "step": 268
    },
    {
      "epoch": 0.23350694444444445,
      "grad_norm": 12.734329223632812,
      "learning_rate": 0.0001756731356038704,
      "loss": 1.9573,
      "step": 269
    },
    {
      "epoch": 0.234375,
      "grad_norm": 15.378034591674805,
      "learning_rate": 0.00017549301230082663,
      "loss": 1.7058,
      "step": 270
    },
    {
      "epoch": 0.23524305555555555,
      "grad_norm": 14.168011665344238,
      "learning_rate": 0.0001753123176848985,
      "loss": 1.7573,
      "step": 271
    },
    {
      "epoch": 0.2361111111111111,
      "grad_norm": 13.352391242980957,
      "learning_rate": 0.00017513105312353918,
      "loss": 1.8972,
      "step": 272
    },
    {
      "epoch": 0.23697916666666666,
      "grad_norm": 22.019683837890625,
      "learning_rate": 0.00017494921998851507,
      "loss": 1.8936,
      "step": 273
    },
    {
      "epoch": 0.2378472222222222,
      "grad_norm": 14.469136238098145,
      "learning_rate": 0.00017476681965589548,
      "loss": 1.77,
      "step": 274
    },
    {
      "epoch": 0.2387152777777778,
      "grad_norm": 15.143473625183105,
      "learning_rate": 0.00017458385350604204,
      "loss": 2.0853,
      "step": 275
    },
    {
      "epoch": 0.23958333333333334,
      "grad_norm": 13.352296829223633,
      "learning_rate": 0.0001744003229235984,
      "loss": 2.1105,
      "step": 276
    },
    {
      "epoch": 0.2404513888888889,
      "grad_norm": 14.350728988647461,
      "learning_rate": 0.00017421622929747964,
      "loss": 2.1523,
      "step": 277
    },
    {
      "epoch": 0.24131944444444445,
      "grad_norm": 15.935006141662598,
      "learning_rate": 0.00017403157402086193,
      "loss": 1.748,
      "step": 278
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 13.045026779174805,
      "learning_rate": 0.00017384635849117171,
      "loss": 1.9075,
      "step": 279
    },
    {
      "epoch": 0.24305555555555555,
      "grad_norm": 15.400105476379395,
      "learning_rate": 0.00017366058411007545,
      "loss": 1.8499,
      "step": 280
    },
    {
      "epoch": 0.2439236111111111,
      "grad_norm": 12.516059875488281,
      "learning_rate": 0.0001734742522834688,
      "loss": 1.9358,
      "step": 281
    },
    {
      "epoch": 0.24479166666666666,
      "grad_norm": 14.63102912902832,
      "learning_rate": 0.00017328736442146595,
      "loss": 1.9483,
      "step": 282
    },
    {
      "epoch": 0.2456597222222222,
      "grad_norm": 15.54028034210205,
      "learning_rate": 0.0001730999219383892,
      "loss": 1.7185,
      "step": 283
    },
    {
      "epoch": 0.2465277777777778,
      "grad_norm": 15.595513343811035,
      "learning_rate": 0.0001729119262527579,
      "loss": 2.121,
      "step": 284
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 17.45315933227539,
      "learning_rate": 0.00017272337878727808,
      "loss": 1.9382,
      "step": 285
    },
    {
      "epoch": 0.2482638888888889,
      "grad_norm": 15.20291805267334,
      "learning_rate": 0.00017253428096883138,
      "loss": 1.9698,
      "step": 286
    },
    {
      "epoch": 0.24913194444444445,
      "grad_norm": 17.197010040283203,
      "learning_rate": 0.00017234463422846443,
      "loss": 1.8692,
      "step": 287
    },
    {
      "epoch": 0.25,
      "grad_norm": 23.32268714904785,
      "learning_rate": 0.00017215444000137796,
      "loss": 1.8606,
      "step": 288
    },
    {
      "epoch": 0.25,
      "eval_loss": 1.9608144760131836,
      "eval_runtime": 27.5075,
      "eval_samples_per_second": 17.632,
      "eval_steps_per_second": 8.834,
      "step": 288
    },
    {
      "epoch": 0.2508680555555556,
      "grad_norm": 15.817224502563477,
      "learning_rate": 0.00017196369972691592,
      "loss": 2.0233,
      "step": 289
    },
    {
      "epoch": 0.2517361111111111,
      "grad_norm": 16.645442962646484,
      "learning_rate": 0.00017177241484855467,
      "loss": 1.8334,
      "step": 290
    },
    {
      "epoch": 0.2526041666666667,
      "grad_norm": 16.851778030395508,
      "learning_rate": 0.00017158058681389192,
      "loss": 2.0982,
      "step": 291
    },
    {
      "epoch": 0.2534722222222222,
      "grad_norm": 14.159379959106445,
      "learning_rate": 0.00017138821707463598,
      "loss": 1.9043,
      "step": 292
    },
    {
      "epoch": 0.2543402777777778,
      "grad_norm": 16.628211975097656,
      "learning_rate": 0.00017119530708659456,
      "loss": 1.9838,
      "step": 293
    },
    {
      "epoch": 0.2552083333333333,
      "grad_norm": 16.93988800048828,
      "learning_rate": 0.0001710018583096638,
      "loss": 2.0991,
      "step": 294
    },
    {
      "epoch": 0.2560763888888889,
      "grad_norm": 21.27719497680664,
      "learning_rate": 0.0001708078722078174,
      "loss": 2.1545,
      "step": 295
    },
    {
      "epoch": 0.2569444444444444,
      "grad_norm": 19.629423141479492,
      "learning_rate": 0.00017061335024909528,
      "loss": 1.806,
      "step": 296
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 17.859560012817383,
      "learning_rate": 0.00017041829390559263,
      "loss": 1.9676,
      "step": 297
    },
    {
      "epoch": 0.2586805555555556,
      "grad_norm": 27.459117889404297,
      "learning_rate": 0.00017022270465344883,
      "loss": 1.6329,
      "step": 298
    },
    {
      "epoch": 0.2595486111111111,
      "grad_norm": 22.178932189941406,
      "learning_rate": 0.000170026583972836,
      "loss": 2.0756,
      "step": 299
    },
    {
      "epoch": 0.2604166666666667,
      "grad_norm": 26.2753963470459,
      "learning_rate": 0.00016982993334794817,
      "loss": 2.3323,
      "step": 300
    },
    {
      "epoch": 0.2612847222222222,
      "grad_norm": 12.637123107910156,
      "learning_rate": 0.00016963275426698973,
      "loss": 1.8468,
      "step": 301
    },
    {
      "epoch": 0.2621527777777778,
      "grad_norm": 13.856433868408203,
      "learning_rate": 0.0001694350482221643,
      "loss": 2.0197,
      "step": 302
    },
    {
      "epoch": 0.2630208333333333,
      "grad_norm": 12.880236625671387,
      "learning_rate": 0.0001692368167096636,
      "loss": 1.9483,
      "step": 303
    },
    {
      "epoch": 0.2638888888888889,
      "grad_norm": 11.690878868103027,
      "learning_rate": 0.00016903806122965572,
      "loss": 1.7242,
      "step": 304
    },
    {
      "epoch": 0.2647569444444444,
      "grad_norm": 12.435463905334473,
      "learning_rate": 0.0001688387832862742,
      "loss": 1.9763,
      "step": 305
    },
    {
      "epoch": 0.265625,
      "grad_norm": 16.252710342407227,
      "learning_rate": 0.0001686389843876064,
      "loss": 1.7233,
      "step": 306
    },
    {
      "epoch": 0.2664930555555556,
      "grad_norm": 11.419798851013184,
      "learning_rate": 0.00016843866604568204,
      "loss": 1.7543,
      "step": 307
    },
    {
      "epoch": 0.2673611111111111,
      "grad_norm": 13.048787117004395,
      "learning_rate": 0.00016823782977646204,
      "loss": 2.0693,
      "step": 308
    },
    {
      "epoch": 0.2682291666666667,
      "grad_norm": 11.904777526855469,
      "learning_rate": 0.00016803647709982676,
      "loss": 1.9627,
      "step": 309
    },
    {
      "epoch": 0.2690972222222222,
      "grad_norm": 11.92080307006836,
      "learning_rate": 0.00016783460953956458,
      "loss": 1.9012,
      "step": 310
    },
    {
      "epoch": 0.2699652777777778,
      "grad_norm": 12.084683418273926,
      "learning_rate": 0.00016763222862336053,
      "loss": 1.667,
      "step": 311
    },
    {
      "epoch": 0.2708333333333333,
      "grad_norm": 11.969542503356934,
      "learning_rate": 0.0001674293358827844,
      "loss": 1.7503,
      "step": 312
    },
    {
      "epoch": 0.2717013888888889,
      "grad_norm": 12.8143892288208,
      "learning_rate": 0.00016722593285327953,
      "loss": 1.8876,
      "step": 313
    },
    {
      "epoch": 0.2725694444444444,
      "grad_norm": 13.934209823608398,
      "learning_rate": 0.00016702202107415088,
      "loss": 1.8183,
      "step": 314
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 12.746355056762695,
      "learning_rate": 0.0001668176020885536,
      "loss": 2.0444,
      "step": 315
    },
    {
      "epoch": 0.2743055555555556,
      "grad_norm": 11.678020477294922,
      "learning_rate": 0.00016661267744348112,
      "loss": 2.0377,
      "step": 316
    },
    {
      "epoch": 0.2751736111111111,
      "grad_norm": 12.092676162719727,
      "learning_rate": 0.00016640724868975375,
      "loss": 2.0271,
      "step": 317
    },
    {
      "epoch": 0.2760416666666667,
      "grad_norm": 12.669177055358887,
      "learning_rate": 0.00016620131738200663,
      "loss": 1.8038,
      "step": 318
    },
    {
      "epoch": 0.2769097222222222,
      "grad_norm": 11.855890274047852,
      "learning_rate": 0.00016599488507867816,
      "loss": 1.8456,
      "step": 319
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 14.810515403747559,
      "learning_rate": 0.00016578795334199818,
      "loss": 1.6438,
      "step": 320
    },
    {
      "epoch": 0.2786458333333333,
      "grad_norm": 12.858272552490234,
      "learning_rate": 0.00016558052373797608,
      "loss": 2.0489,
      "step": 321
    },
    {
      "epoch": 0.2795138888888889,
      "grad_norm": 21.371171951293945,
      "learning_rate": 0.000165372597836389,
      "loss": 1.8316,
      "step": 322
    },
    {
      "epoch": 0.2803819444444444,
      "grad_norm": 12.867730140686035,
      "learning_rate": 0.00016516417721076996,
      "loss": 1.937,
      "step": 323
    },
    {
      "epoch": 0.28125,
      "grad_norm": 13.44594669342041,
      "learning_rate": 0.0001649552634383959,
      "loss": 1.7626,
      "step": 324
    },
    {
      "epoch": 0.2821180555555556,
      "grad_norm": 13.954375267028809,
      "learning_rate": 0.00016474585810027584,
      "loss": 2.0853,
      "step": 325
    },
    {
      "epoch": 0.2829861111111111,
      "grad_norm": 17.46042251586914,
      "learning_rate": 0.00016453596278113877,
      "loss": 1.8098,
      "step": 326
    },
    {
      "epoch": 0.2838541666666667,
      "grad_norm": 15.897867202758789,
      "learning_rate": 0.00016432557906942178,
      "loss": 1.8857,
      "step": 327
    },
    {
      "epoch": 0.2847222222222222,
      "grad_norm": 15.391746520996094,
      "learning_rate": 0.00016411470855725793,
      "loss": 1.9078,
      "step": 328
    },
    {
      "epoch": 0.2855902777777778,
      "grad_norm": 14.725043296813965,
      "learning_rate": 0.0001639033528404644,
      "loss": 2.0661,
      "step": 329
    },
    {
      "epoch": 0.2864583333333333,
      "grad_norm": 16.510406494140625,
      "learning_rate": 0.00016369151351853023,
      "loss": 1.9234,
      "step": 330
    },
    {
      "epoch": 0.2873263888888889,
      "grad_norm": 17.657331466674805,
      "learning_rate": 0.00016347919219460416,
      "loss": 1.7344,
      "step": 331
    },
    {
      "epoch": 0.2881944444444444,
      "grad_norm": 15.327359199523926,
      "learning_rate": 0.0001632663904754828,
      "loss": 1.9901,
      "step": 332
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 15.958757400512695,
      "learning_rate": 0.00016305310997159804,
      "loss": 1.774,
      "step": 333
    },
    {
      "epoch": 0.2899305555555556,
      "grad_norm": 14.041383743286133,
      "learning_rate": 0.0001628393522970053,
      "loss": 1.9201,
      "step": 334
    },
    {
      "epoch": 0.2907986111111111,
      "grad_norm": 16.427513122558594,
      "learning_rate": 0.00016262511906937104,
      "loss": 1.9364,
      "step": 335
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 19.13714027404785,
      "learning_rate": 0.00016241041190996055,
      "loss": 1.7211,
      "step": 336
    },
    {
      "epoch": 0.2925347222222222,
      "grad_norm": 18.178041458129883,
      "learning_rate": 0.0001621952324436258,
      "loss": 1.9744,
      "step": 337
    },
    {
      "epoch": 0.2934027777777778,
      "grad_norm": 14.933850288391113,
      "learning_rate": 0.00016197958229879298,
      "loss": 1.8594,
      "step": 338
    },
    {
      "epoch": 0.2942708333333333,
      "grad_norm": 14.576383590698242,
      "learning_rate": 0.00016176346310745033,
      "loss": 1.9878,
      "step": 339
    },
    {
      "epoch": 0.2951388888888889,
      "grad_norm": 15.626936912536621,
      "learning_rate": 0.00016154687650513566,
      "loss": 1.9227,
      "step": 340
    },
    {
      "epoch": 0.2960069444444444,
      "grad_norm": 16.98123550415039,
      "learning_rate": 0.0001613298241309241,
      "loss": 2.0484,
      "step": 341
    },
    {
      "epoch": 0.296875,
      "grad_norm": 15.85560417175293,
      "learning_rate": 0.0001611123076274156,
      "loss": 1.8814,
      "step": 342
    },
    {
      "epoch": 0.2977430555555556,
      "grad_norm": 16.572465896606445,
      "learning_rate": 0.0001608943286407225,
      "loss": 1.931,
      "step": 343
    },
    {
      "epoch": 0.2986111111111111,
      "grad_norm": 17.739215850830078,
      "learning_rate": 0.00016067588882045714,
      "loss": 2.0457,
      "step": 344
    },
    {
      "epoch": 0.2994791666666667,
      "grad_norm": 18.402610778808594,
      "learning_rate": 0.00016045698981971934,
      "loss": 1.9731,
      "step": 345
    },
    {
      "epoch": 0.3003472222222222,
      "grad_norm": 16.256860733032227,
      "learning_rate": 0.00016023763329508386,
      "loss": 1.8769,
      "step": 346
    },
    {
      "epoch": 0.3012152777777778,
      "grad_norm": 16.696189880371094,
      "learning_rate": 0.0001600178209065879,
      "loss": 1.8234,
      "step": 347
    },
    {
      "epoch": 0.3020833333333333,
      "grad_norm": 22.931987762451172,
      "learning_rate": 0.00015979755431771848,
      "loss": 2.1024,
      "step": 348
    },
    {
      "epoch": 0.3029513888888889,
      "grad_norm": 23.06876564025879,
      "learning_rate": 0.0001595768351954,
      "loss": 1.8363,
      "step": 349
    },
    {
      "epoch": 0.3038194444444444,
      "grad_norm": 26.723609924316406,
      "learning_rate": 0.00015935566520998147,
      "loss": 2.0659,
      "step": 350
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 10.982754707336426,
      "learning_rate": 0.0001591340460352239,
      "loss": 1.9656,
      "step": 351
    },
    {
      "epoch": 0.3055555555555556,
      "grad_norm": 11.602665901184082,
      "learning_rate": 0.0001589119793482877,
      "loss": 1.9778,
      "step": 352
    },
    {
      "epoch": 0.3064236111111111,
      "grad_norm": 11.541769027709961,
      "learning_rate": 0.00015868946682971995,
      "loss": 1.7493,
      "step": 353
    },
    {
      "epoch": 0.3072916666666667,
      "grad_norm": 11.934072494506836,
      "learning_rate": 0.00015846651016344159,
      "loss": 1.9552,
      "step": 354
    },
    {
      "epoch": 0.3081597222222222,
      "grad_norm": 10.647830963134766,
      "learning_rate": 0.00015824311103673484,
      "loss": 1.8926,
      "step": 355
    },
    {
      "epoch": 0.3090277777777778,
      "grad_norm": 11.86906623840332,
      "learning_rate": 0.00015801927114023035,
      "loss": 1.888,
      "step": 356
    },
    {
      "epoch": 0.3098958333333333,
      "grad_norm": 12.808362007141113,
      "learning_rate": 0.00015779499216789442,
      "loss": 1.898,
      "step": 357
    },
    {
      "epoch": 0.3107638888888889,
      "grad_norm": 18.464292526245117,
      "learning_rate": 0.00015757027581701612,
      "loss": 1.9216,
      "step": 358
    },
    {
      "epoch": 0.3116319444444444,
      "grad_norm": 11.974608421325684,
      "learning_rate": 0.0001573451237881945,
      "loss": 1.8224,
      "step": 359
    },
    {
      "epoch": 0.3125,
      "grad_norm": 14.2391939163208,
      "learning_rate": 0.00015711953778532576,
      "loss": 2.0752,
      "step": 360
    },
    {
      "epoch": 0.3133680555555556,
      "grad_norm": 16.40358543395996,
      "learning_rate": 0.0001568935195155903,
      "loss": 1.7303,
      "step": 361
    },
    {
      "epoch": 0.3142361111111111,
      "grad_norm": 16.821496963500977,
      "learning_rate": 0.00015666707068943974,
      "loss": 1.7977,
      "step": 362
    },
    {
      "epoch": 0.3151041666666667,
      "grad_norm": 13.53250503540039,
      "learning_rate": 0.0001564401930205842,
      "loss": 1.9006,
      "step": 363
    },
    {
      "epoch": 0.3159722222222222,
      "grad_norm": 16.29207992553711,
      "learning_rate": 0.00015621288822597902,
      "loss": 1.7356,
      "step": 364
    },
    {
      "epoch": 0.3168402777777778,
      "grad_norm": 13.188833236694336,
      "learning_rate": 0.00015598515802581195,
      "loss": 2.0532,
      "step": 365
    },
    {
      "epoch": 0.3177083333333333,
      "grad_norm": 12.875943183898926,
      "learning_rate": 0.00015575700414349023,
      "loss": 1.6536,
      "step": 366
    },
    {
      "epoch": 0.3185763888888889,
      "grad_norm": 14.459687232971191,
      "learning_rate": 0.00015552842830562734,
      "loss": 1.5402,
      "step": 367
    },
    {
      "epoch": 0.3194444444444444,
      "grad_norm": 11.716399192810059,
      "learning_rate": 0.00015529943224202995,
      "loss": 1.8812,
      "step": 368
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 13.889967918395996,
      "learning_rate": 0.00015507001768568502,
      "loss": 1.7842,
      "step": 369
    },
    {
      "epoch": 0.3211805555555556,
      "grad_norm": 15.293294906616211,
      "learning_rate": 0.00015484018637274645,
      "loss": 1.9022,
      "step": 370
    },
    {
      "epoch": 0.3220486111111111,
      "grad_norm": 22.6767520904541,
      "learning_rate": 0.00015460994004252212,
      "loss": 1.6829,
      "step": 371
    },
    {
      "epoch": 0.3229166666666667,
      "grad_norm": 13.39421558380127,
      "learning_rate": 0.0001543792804374607,
      "loss": 2.0075,
      "step": 372
    },
    {
      "epoch": 0.3237847222222222,
      "grad_norm": 13.161614418029785,
      "learning_rate": 0.00015414820930313833,
      "loss": 1.771,
      "step": 373
    },
    {
      "epoch": 0.3246527777777778,
      "grad_norm": 13.9522705078125,
      "learning_rate": 0.00015391672838824553,
      "loss": 1.9463,
      "step": 374
    },
    {
      "epoch": 0.3255208333333333,
      "grad_norm": 14.688315391540527,
      "learning_rate": 0.000153684839444574,
      "loss": 1.9816,
      "step": 375
    },
    {
      "epoch": 0.3263888888888889,
      "grad_norm": 16.6075439453125,
      "learning_rate": 0.00015345254422700327,
      "loss": 2.044,
      "step": 376
    },
    {
      "epoch": 0.3272569444444444,
      "grad_norm": 17.0871639251709,
      "learning_rate": 0.0001532198444934874,
      "loss": 1.7733,
      "step": 377
    },
    {
      "epoch": 0.328125,
      "grad_norm": 14.553414344787598,
      "learning_rate": 0.00015298674200504183,
      "loss": 2.0138,
      "step": 378
    },
    {
      "epoch": 0.3289930555555556,
      "grad_norm": 14.521913528442383,
      "learning_rate": 0.00015275323852572984,
      "loss": 2.2816,
      "step": 379
    },
    {
      "epoch": 0.3298611111111111,
      "grad_norm": 14.71375846862793,
      "learning_rate": 0.00015251933582264936,
      "loss": 1.8629,
      "step": 380
    },
    {
      "epoch": 0.3307291666666667,
      "grad_norm": 15.323966026306152,
      "learning_rate": 0.0001522850356659196,
      "loss": 1.9505,
      "step": 381
    },
    {
      "epoch": 0.3315972222222222,
      "grad_norm": 15.87197494506836,
      "learning_rate": 0.00015205033982866752,
      "loss": 1.8074,
      "step": 382
    },
    {
      "epoch": 0.3324652777777778,
      "grad_norm": 14.83632755279541,
      "learning_rate": 0.00015181525008701457,
      "loss": 1.8266,
      "step": 383
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 17.32085609436035,
      "learning_rate": 0.00015157976822006313,
      "loss": 1.9754,
      "step": 384
    },
    {
      "epoch": 0.3342013888888889,
      "grad_norm": 15.679607391357422,
      "learning_rate": 0.0001513438960098831,
      "loss": 1.7852,
      "step": 385
    },
    {
      "epoch": 0.3350694444444444,
      "grad_norm": 14.67934513092041,
      "learning_rate": 0.00015110763524149836,
      "loss": 1.8248,
      "step": 386
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 13.713452339172363,
      "learning_rate": 0.00015087098770287334,
      "loss": 2.0095,
      "step": 387
    },
    {
      "epoch": 0.3368055555555556,
      "grad_norm": 16.008352279663086,
      "learning_rate": 0.00015063395518489955,
      "loss": 1.9433,
      "step": 388
    },
    {
      "epoch": 0.3376736111111111,
      "grad_norm": 17.97036361694336,
      "learning_rate": 0.00015039653948138176,
      "loss": 2.0884,
      "step": 389
    },
    {
      "epoch": 0.3385416666666667,
      "grad_norm": 16.842336654663086,
      "learning_rate": 0.00015015874238902467,
      "loss": 1.9958,
      "step": 390
    },
    {
      "epoch": 0.3394097222222222,
      "grad_norm": 15.758804321289062,
      "learning_rate": 0.0001499205657074193,
      "loss": 1.7991,
      "step": 391
    },
    {
      "epoch": 0.3402777777777778,
      "grad_norm": 17.092721939086914,
      "learning_rate": 0.00014968201123902918,
      "loss": 1.9309,
      "step": 392
    },
    {
      "epoch": 0.3411458333333333,
      "grad_norm": 17.42092514038086,
      "learning_rate": 0.00014944308078917702,
      "loss": 2.0638,
      "step": 393
    },
    {
      "epoch": 0.3420138888888889,
      "grad_norm": 23.165054321289062,
      "learning_rate": 0.00014920377616603063,
      "loss": 1.9385,
      "step": 394
    },
    {
      "epoch": 0.3428819444444444,
      "grad_norm": 16.28061866760254,
      "learning_rate": 0.00014896409918058968,
      "loss": 2.1574,
      "step": 395
    },
    {
      "epoch": 0.34375,
      "grad_norm": 18.28508186340332,
      "learning_rate": 0.00014872405164667173,
      "loss": 2.1868,
      "step": 396
    },
    {
      "epoch": 0.3446180555555556,
      "grad_norm": 16.678802490234375,
      "learning_rate": 0.00014848363538089846,
      "loss": 2.0953,
      "step": 397
    },
    {
      "epoch": 0.3454861111111111,
      "grad_norm": 19.424827575683594,
      "learning_rate": 0.00014824285220268218,
      "loss": 2.1489,
      "step": 398
    },
    {
      "epoch": 0.3463541666666667,
      "grad_norm": 22.654565811157227,
      "learning_rate": 0.0001480017039342118,
      "loss": 1.9251,
      "step": 399
    },
    {
      "epoch": 0.3472222222222222,
      "grad_norm": 23.701519012451172,
      "learning_rate": 0.00014776019240043918,
      "loss": 2.0177,
      "step": 400
    },
    {
      "epoch": 0.3480902777777778,
      "grad_norm": 11.787822723388672,
      "learning_rate": 0.00014751831942906528,
      "loss": 2.0593,
      "step": 401
    },
    {
      "epoch": 0.3489583333333333,
      "grad_norm": 11.77308464050293,
      "learning_rate": 0.0001472760868505263,
      "loss": 1.9632,
      "step": 402
    },
    {
      "epoch": 0.3498263888888889,
      "grad_norm": 12.168957710266113,
      "learning_rate": 0.0001470334964979799,
      "loss": 1.8,
      "step": 403
    },
    {
      "epoch": 0.3506944444444444,
      "grad_norm": 11.854347229003906,
      "learning_rate": 0.00014679055020729134,
      "loss": 1.9917,
      "step": 404
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 13.122364044189453,
      "learning_rate": 0.0001465472498170194,
      "loss": 2.0727,
      "step": 405
    },
    {
      "epoch": 0.3524305555555556,
      "grad_norm": 11.645889282226562,
      "learning_rate": 0.00014630359716840275,
      "loss": 2.0297,
      "step": 406
    },
    {
      "epoch": 0.3532986111111111,
      "grad_norm": 12.69512939453125,
      "learning_rate": 0.0001460595941053457,
      "loss": 2.0436,
      "step": 407
    },
    {
      "epoch": 0.3541666666666667,
      "grad_norm": 12.37474536895752,
      "learning_rate": 0.00014581524247440455,
      "loss": 2.0099,
      "step": 408
    },
    {
      "epoch": 0.3550347222222222,
      "grad_norm": 11.121343612670898,
      "learning_rate": 0.00014557054412477343,
      "loss": 2.1829,
      "step": 409
    },
    {
      "epoch": 0.3559027777777778,
      "grad_norm": 11.787842750549316,
      "learning_rate": 0.00014532550090827034,
      "loss": 1.9172,
      "step": 410
    },
    {
      "epoch": 0.3567708333333333,
      "grad_norm": 12.30871295928955,
      "learning_rate": 0.00014508011467932315,
      "loss": 1.8749,
      "step": 411
    },
    {
      "epoch": 0.3576388888888889,
      "grad_norm": 13.889945983886719,
      "learning_rate": 0.00014483438729495562,
      "loss": 1.8552,
      "step": 412
    },
    {
      "epoch": 0.3585069444444444,
      "grad_norm": 12.7283353805542,
      "learning_rate": 0.00014458832061477322,
      "loss": 1.8262,
      "step": 413
    },
    {
      "epoch": 0.359375,
      "grad_norm": 11.539106369018555,
      "learning_rate": 0.00014434191650094911,
      "loss": 2.0953,
      "step": 414
    },
    {
      "epoch": 0.3602430555555556,
      "grad_norm": 13.175952911376953,
      "learning_rate": 0.00014409517681821017,
      "loss": 1.9927,
      "step": 415
    },
    {
      "epoch": 0.3611111111111111,
      "grad_norm": 16.448795318603516,
      "learning_rate": 0.00014384810343382275,
      "loss": 1.703,
      "step": 416
    },
    {
      "epoch": 0.3619791666666667,
      "grad_norm": 12.796127319335938,
      "learning_rate": 0.0001436006982175785,
      "loss": 1.7011,
      "step": 417
    },
    {
      "epoch": 0.3628472222222222,
      "grad_norm": 14.075830459594727,
      "learning_rate": 0.00014335296304178035,
      "loss": 1.9753,
      "step": 418
    },
    {
      "epoch": 0.3637152777777778,
      "grad_norm": 14.222649574279785,
      "learning_rate": 0.0001431048997812283,
      "loss": 1.9591,
      "step": 419
    },
    {
      "epoch": 0.3645833333333333,
      "grad_norm": 14.9251070022583,
      "learning_rate": 0.00014285651031320517,
      "loss": 1.6721,
      "step": 420
    },
    {
      "epoch": 0.3654513888888889,
      "grad_norm": 14.098579406738281,
      "learning_rate": 0.0001426077965174625,
      "loss": 1.7602,
      "step": 421
    },
    {
      "epoch": 0.3663194444444444,
      "grad_norm": 14.234357833862305,
      "learning_rate": 0.0001423587602762062,
      "loss": 2.1279,
      "step": 422
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 16.45749855041504,
      "learning_rate": 0.00014210940347408242,
      "loss": 2.0681,
      "step": 423
    },
    {
      "epoch": 0.3680555555555556,
      "grad_norm": 13.415471076965332,
      "learning_rate": 0.00014185972799816315,
      "loss": 1.7997,
      "step": 424
    },
    {
      "epoch": 0.3689236111111111,
      "grad_norm": 14.564658164978027,
      "learning_rate": 0.0001416097357379322,
      "loss": 1.8014,
      "step": 425
    },
    {
      "epoch": 0.3697916666666667,
      "grad_norm": 15.913374900817871,
      "learning_rate": 0.00014135942858527054,
      "loss": 1.7907,
      "step": 426
    },
    {
      "epoch": 0.3706597222222222,
      "grad_norm": 17.198789596557617,
      "learning_rate": 0.00014110880843444225,
      "loss": 1.9549,
      "step": 427
    },
    {
      "epoch": 0.3715277777777778,
      "grad_norm": 14.941160202026367,
      "learning_rate": 0.00014085787718208016,
      "loss": 2.0362,
      "step": 428
    },
    {
      "epoch": 0.3723958333333333,
      "grad_norm": 15.888123512268066,
      "learning_rate": 0.0001406066367271713,
      "loss": 1.8745,
      "step": 429
    },
    {
      "epoch": 0.3732638888888889,
      "grad_norm": 14.799235343933105,
      "learning_rate": 0.00014035508897104282,
      "loss": 2.0612,
      "step": 430
    },
    {
      "epoch": 0.3741319444444444,
      "grad_norm": 15.249123573303223,
      "learning_rate": 0.00014010323581734738,
      "loss": 1.8264,
      "step": 431
    },
    {
      "epoch": 0.375,
      "grad_norm": 14.084120750427246,
      "learning_rate": 0.00013985107917204877,
      "loss": 1.9684,
      "step": 432
    },
    {
      "epoch": 0.3758680555555556,
      "grad_norm": 13.640398979187012,
      "learning_rate": 0.00013959862094340764,
      "loss": 2.1267,
      "step": 433
    },
    {
      "epoch": 0.3767361111111111,
      "grad_norm": 15.359773635864258,
      "learning_rate": 0.0001393458630419669,
      "loss": 2.0557,
      "step": 434
    },
    {
      "epoch": 0.3776041666666667,
      "grad_norm": 16.424795150756836,
      "learning_rate": 0.0001390928073805372,
      "loss": 1.86,
      "step": 435
    },
    {
      "epoch": 0.3784722222222222,
      "grad_norm": 14.250218391418457,
      "learning_rate": 0.0001388394558741828,
      "loss": 2.0968,
      "step": 436
    },
    {
      "epoch": 0.3793402777777778,
      "grad_norm": 19.109222412109375,
      "learning_rate": 0.00013858581044020663,
      "loss": 2.0732,
      "step": 437
    },
    {
      "epoch": 0.3802083333333333,
      "grad_norm": 16.7683162689209,
      "learning_rate": 0.00013833187299813613,
      "loss": 1.7504,
      "step": 438
    },
    {
      "epoch": 0.3810763888888889,
      "grad_norm": 15.171119689941406,
      "learning_rate": 0.00013807764546970848,
      "loss": 1.6953,
      "step": 439
    },
    {
      "epoch": 0.3819444444444444,
      "grad_norm": 17.570844650268555,
      "learning_rate": 0.00013782312977885623,
      "loss": 2.113,
      "step": 440
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 21.76044273376465,
      "learning_rate": 0.0001375683278516927,
      "loss": 1.8507,
      "step": 441
    },
    {
      "epoch": 0.3836805555555556,
      "grad_norm": 17.68211555480957,
      "learning_rate": 0.00013731324161649728,
      "loss": 2.2322,
      "step": 442
    },
    {
      "epoch": 0.3845486111111111,
      "grad_norm": 19.492746353149414,
      "learning_rate": 0.000137057873003701,
      "loss": 2.0387,
      "step": 443
    },
    {
      "epoch": 0.3854166666666667,
      "grad_norm": 15.868917465209961,
      "learning_rate": 0.00013680222394587188,
      "loss": 2.2041,
      "step": 444
    },
    {
      "epoch": 0.3862847222222222,
      "grad_norm": 20.73749542236328,
      "learning_rate": 0.0001365462963777002,
      "loss": 1.8406,
      "step": 445
    },
    {
      "epoch": 0.3871527777777778,
      "grad_norm": 20.936918258666992,
      "learning_rate": 0.00013629009223598403,
      "loss": 1.9954,
      "step": 446
    },
    {
      "epoch": 0.3880208333333333,
      "grad_norm": 15.855035781860352,
      "learning_rate": 0.00013603361345961444,
      "loss": 1.883,
      "step": 447
    },
    {
      "epoch": 0.3888888888888889,
      "grad_norm": 22.978008270263672,
      "learning_rate": 0.0001357768619895608,
      "loss": 2.2722,
      "step": 448
    },
    {
      "epoch": 0.3897569444444444,
      "grad_norm": 19.637653350830078,
      "learning_rate": 0.00013551983976885633,
      "loss": 2.1659,
      "step": 449
    },
    {
      "epoch": 0.390625,
      "grad_norm": 23.65351676940918,
      "learning_rate": 0.000135262548742583,
      "loss": 2.0435,
      "step": 450
    },
    {
      "epoch": 0.3914930555555556,
      "grad_norm": 11.627890586853027,
      "learning_rate": 0.00013500499085785725,
      "loss": 2.0781,
      "step": 451
    },
    {
      "epoch": 0.3923611111111111,
      "grad_norm": 14.707670211791992,
      "learning_rate": 0.0001347471680638149,
      "loss": 1.9588,
      "step": 452
    },
    {
      "epoch": 0.3932291666666667,
      "grad_norm": 12.309741973876953,
      "learning_rate": 0.00013448908231159662,
      "loss": 1.8916,
      "step": 453
    },
    {
      "epoch": 0.3940972222222222,
      "grad_norm": 12.850113868713379,
      "learning_rate": 0.00013423073555433307,
      "loss": 1.7953,
      "step": 454
    },
    {
      "epoch": 0.3949652777777778,
      "grad_norm": 11.207212448120117,
      "learning_rate": 0.00013397212974713006,
      "loss": 1.8323,
      "step": 455
    },
    {
      "epoch": 0.3958333333333333,
      "grad_norm": 11.562726020812988,
      "learning_rate": 0.00013371326684705385,
      "loss": 1.9386,
      "step": 456
    },
    {
      "epoch": 0.3967013888888889,
      "grad_norm": 12.199956893920898,
      "learning_rate": 0.00013345414881311645,
      "loss": 1.8627,
      "step": 457
    },
    {
      "epoch": 0.3975694444444444,
      "grad_norm": 12.461484909057617,
      "learning_rate": 0.0001331947776062605,
      "loss": 2.1622,
      "step": 458
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 12.674588203430176,
      "learning_rate": 0.00013293515518934468,
      "loss": 2.0063,
      "step": 459
    },
    {
      "epoch": 0.3993055555555556,
      "grad_norm": 11.891472816467285,
      "learning_rate": 0.00013267528352712868,
      "loss": 1.9371,
      "step": 460
    },
    {
      "epoch": 0.4001736111111111,
      "grad_norm": 14.03327465057373,
      "learning_rate": 0.00013241516458625853,
      "loss": 1.9083,
      "step": 461
    },
    {
      "epoch": 0.4010416666666667,
      "grad_norm": 12.209904670715332,
      "learning_rate": 0.00013215480033525157,
      "loss": 1.6628,
      "step": 462
    },
    {
      "epoch": 0.4019097222222222,
      "grad_norm": 10.933809280395508,
      "learning_rate": 0.0001318941927444815,
      "loss": 1.707,
      "step": 463
    },
    {
      "epoch": 0.4027777777777778,
      "grad_norm": 12.446836471557617,
      "learning_rate": 0.00013163334378616369,
      "loss": 1.7616,
      "step": 464
    },
    {
      "epoch": 0.4036458333333333,
      "grad_norm": 13.476277351379395,
      "learning_rate": 0.00013137225543434,
      "loss": 1.8305,
      "step": 465
    },
    {
      "epoch": 0.4045138888888889,
      "grad_norm": 12.763327598571777,
      "learning_rate": 0.0001311109296648641,
      "loss": 1.7718,
      "step": 466
    },
    {
      "epoch": 0.4053819444444444,
      "grad_norm": 13.128637313842773,
      "learning_rate": 0.00013084936845538623,
      "loss": 1.8552,
      "step": 467
    },
    {
      "epoch": 0.40625,
      "grad_norm": 13.573982238769531,
      "learning_rate": 0.00013058757378533846,
      "loss": 1.7551,
      "step": 468
    },
    {
      "epoch": 0.4071180555555556,
      "grad_norm": 14.045907974243164,
      "learning_rate": 0.00013032554763591967,
      "loss": 2.08,
      "step": 469
    },
    {
      "epoch": 0.4079861111111111,
      "grad_norm": 13.249265670776367,
      "learning_rate": 0.00013006329199008042,
      "loss": 1.7335,
      "step": 470
    },
    {
      "epoch": 0.4088541666666667,
      "grad_norm": 12.89566421508789,
      "learning_rate": 0.00012980080883250814,
      "loss": 1.7948,
      "step": 471
    },
    {
      "epoch": 0.4097222222222222,
      "grad_norm": 15.077032089233398,
      "learning_rate": 0.00012953810014961194,
      "loss": 1.9028,
      "step": 472
    },
    {
      "epoch": 0.4105902777777778,
      "grad_norm": 13.919936180114746,
      "learning_rate": 0.0001292751679295077,
      "loss": 1.9047,
      "step": 473
    },
    {
      "epoch": 0.4114583333333333,
      "grad_norm": 14.640252113342285,
      "learning_rate": 0.000129012014162003,
      "loss": 1.9907,
      "step": 474
    },
    {
      "epoch": 0.4123263888888889,
      "grad_norm": 15.423151969909668,
      "learning_rate": 0.00012874864083858194,
      "loss": 1.7727,
      "step": 475
    },
    {
      "epoch": 0.4131944444444444,
      "grad_norm": 15.349817276000977,
      "learning_rate": 0.00012848504995239022,
      "loss": 1.7654,
      "step": 476
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 14.520512580871582,
      "learning_rate": 0.00012822124349822002,
      "loss": 2.0314,
      "step": 477
    },
    {
      "epoch": 0.4149305555555556,
      "grad_norm": 16.64866065979004,
      "learning_rate": 0.0001279572234724949,
      "loss": 1.7971,
      "step": 478
    },
    {
      "epoch": 0.4157986111111111,
      "grad_norm": 16.01460075378418,
      "learning_rate": 0.00012769299187325464,
      "loss": 1.9774,
      "step": 479
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 14.755226135253906,
      "learning_rate": 0.00012742855070014015,
      "loss": 2.0441,
      "step": 480
    },
    {
      "epoch": 0.4175347222222222,
      "grad_norm": 16.631589889526367,
      "learning_rate": 0.00012716390195437836,
      "loss": 1.7685,
      "step": 481
    },
    {
      "epoch": 0.4184027777777778,
      "grad_norm": 16.829307556152344,
      "learning_rate": 0.00012689904763876707,
      "loss": 2.0231,
      "step": 482
    },
    {
      "epoch": 0.4192708333333333,
      "grad_norm": 15.7249116897583,
      "learning_rate": 0.00012663398975765975,
      "loss": 1.858,
      "step": 483
    },
    {
      "epoch": 0.4201388888888889,
      "grad_norm": 16.965129852294922,
      "learning_rate": 0.0001263687303169505,
      "loss": 2.0036,
      "step": 484
    },
    {
      "epoch": 0.4210069444444444,
      "grad_norm": 14.311800956726074,
      "learning_rate": 0.0001261032713240586,
      "loss": 1.9197,
      "step": 485
    },
    {
      "epoch": 0.421875,
      "grad_norm": 14.011892318725586,
      "learning_rate": 0.00012583761478791367,
      "loss": 1.7136,
      "step": 486
    },
    {
      "epoch": 0.4227430555555556,
      "grad_norm": 14.98991584777832,
      "learning_rate": 0.00012557176271894022,
      "loss": 1.8601,
      "step": 487
    },
    {
      "epoch": 0.4236111111111111,
      "grad_norm": 16.680326461791992,
      "learning_rate": 0.00012530571712904244,
      "loss": 1.8929,
      "step": 488
    },
    {
      "epoch": 0.4244791666666667,
      "grad_norm": 16.068880081176758,
      "learning_rate": 0.00012503948003158918,
      "loss": 1.9842,
      "step": 489
    },
    {
      "epoch": 0.4253472222222222,
      "grad_norm": 18.932310104370117,
      "learning_rate": 0.00012477305344139842,
      "loss": 2.0954,
      "step": 490
    },
    {
      "epoch": 0.4262152777777778,
      "grad_norm": 17.42915153503418,
      "learning_rate": 0.0001245064393747223,
      "loss": 1.8797,
      "step": 491
    },
    {
      "epoch": 0.4270833333333333,
      "grad_norm": 22.800628662109375,
      "learning_rate": 0.00012423963984923165,
      "loss": 1.7993,
      "step": 492
    },
    {
      "epoch": 0.4279513888888889,
      "grad_norm": 18.84058380126953,
      "learning_rate": 0.00012397265688400083,
      "loss": 2.0947,
      "step": 493
    },
    {
      "epoch": 0.4288194444444444,
      "grad_norm": 14.427053451538086,
      "learning_rate": 0.00012370549249949252,
      "loss": 1.7433,
      "step": 494
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 15.523788452148438,
      "learning_rate": 0.00012343814871754218,
      "loss": 1.9405,
      "step": 495
    },
    {
      "epoch": 0.4305555555555556,
      "grad_norm": 16.933773040771484,
      "learning_rate": 0.000123170627561343,
      "loss": 1.9273,
      "step": 496
    },
    {
      "epoch": 0.4314236111111111,
      "grad_norm": 17.270421981811523,
      "learning_rate": 0.00012290293105543052,
      "loss": 2.1696,
      "step": 497
    },
    {
      "epoch": 0.4322916666666667,
      "grad_norm": 19.29180145263672,
      "learning_rate": 0.0001226350612256672,
      "loss": 2.1264,
      "step": 498
    },
    {
      "epoch": 0.4331597222222222,
      "grad_norm": 20.950546264648438,
      "learning_rate": 0.0001223670200992272,
      "loss": 2.1405,
      "step": 499
    },
    {
      "epoch": 0.4340277777777778,
      "grad_norm": 26.481409072875977,
      "learning_rate": 0.0001220988097045811,
      "loss": 2.0069,
      "step": 500
    },
    {
      "epoch": 0.4348958333333333,
      "grad_norm": 10.614263534545898,
      "learning_rate": 0.00012183043207148032,
      "loss": 1.8891,
      "step": 501
    },
    {
      "epoch": 0.4357638888888889,
      "grad_norm": 11.73146915435791,
      "learning_rate": 0.00012156188923094202,
      "loss": 1.8695,
      "step": 502
    },
    {
      "epoch": 0.4366319444444444,
      "grad_norm": 11.0543851852417,
      "learning_rate": 0.00012129318321523353,
      "loss": 1.9832,
      "step": 503
    },
    {
      "epoch": 0.4375,
      "grad_norm": 9.900561332702637,
      "learning_rate": 0.00012102431605785709,
      "loss": 1.8134,
      "step": 504
    },
    {
      "epoch": 0.4383680555555556,
      "grad_norm": 12.796041488647461,
      "learning_rate": 0.00012075528979353442,
      "loss": 2.0793,
      "step": 505
    },
    {
      "epoch": 0.4392361111111111,
      "grad_norm": 13.1756010055542,
      "learning_rate": 0.0001204861064581913,
      "loss": 1.6747,
      "step": 506
    },
    {
      "epoch": 0.4401041666666667,
      "grad_norm": 11.510348320007324,
      "learning_rate": 0.00012021676808894222,
      "loss": 1.9791,
      "step": 507
    },
    {
      "epoch": 0.4409722222222222,
      "grad_norm": 11.975399017333984,
      "learning_rate": 0.00011994727672407487,
      "loss": 1.8748,
      "step": 508
    },
    {
      "epoch": 0.4418402777777778,
      "grad_norm": 15.07575511932373,
      "learning_rate": 0.00011967763440303485,
      "loss": 1.8085,
      "step": 509
    },
    {
      "epoch": 0.4427083333333333,
      "grad_norm": 11.910920143127441,
      "learning_rate": 0.0001194078431664101,
      "loss": 1.9366,
      "step": 510
    },
    {
      "epoch": 0.4435763888888889,
      "grad_norm": 14.009230613708496,
      "learning_rate": 0.00011913790505591556,
      "loss": 1.5272,
      "step": 511
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 12.237714767456055,
      "learning_rate": 0.00011886782211437766,
      "loss": 1.8006,
      "step": 512
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 13.796353340148926,
      "learning_rate": 0.00011859759638571886,
      "loss": 1.8935,
      "step": 513
    },
    {
      "epoch": 0.4461805555555556,
      "grad_norm": 12.463654518127441,
      "learning_rate": 0.00011832722991494218,
      "loss": 1.9574,
      "step": 514
    },
    {
      "epoch": 0.4470486111111111,
      "grad_norm": 11.159666061401367,
      "learning_rate": 0.00011805672474811582,
      "loss": 1.6744,
      "step": 515
    },
    {
      "epoch": 0.4479166666666667,
      "grad_norm": 14.86550235748291,
      "learning_rate": 0.00011778608293235756,
      "loss": 1.9772,
      "step": 516
    },
    {
      "epoch": 0.4487847222222222,
      "grad_norm": 13.246238708496094,
      "learning_rate": 0.00011751530651581925,
      "loss": 1.8366,
      "step": 517
    },
    {
      "epoch": 0.4496527777777778,
      "grad_norm": 13.798812866210938,
      "learning_rate": 0.00011724439754767145,
      "loss": 1.8387,
      "step": 518
    },
    {
      "epoch": 0.4505208333333333,
      "grad_norm": 13.735246658325195,
      "learning_rate": 0.00011697335807808778,
      "loss": 1.9499,
      "step": 519
    },
    {
      "epoch": 0.4513888888888889,
      "grad_norm": 16.687908172607422,
      "learning_rate": 0.00011670219015822949,
      "loss": 1.736,
      "step": 520
    },
    {
      "epoch": 0.4522569444444444,
      "grad_norm": 14.355474472045898,
      "learning_rate": 0.0001164308958402299,
      "loss": 1.9349,
      "step": 521
    },
    {
      "epoch": 0.453125,
      "grad_norm": 14.95801067352295,
      "learning_rate": 0.00011615947717717894,
      "loss": 1.8397,
      "step": 522
    },
    {
      "epoch": 0.4539930555555556,
      "grad_norm": 13.948684692382812,
      "learning_rate": 0.00011588793622310743,
      "loss": 1.9985,
      "step": 523
    },
    {
      "epoch": 0.4548611111111111,
      "grad_norm": 15.931562423706055,
      "learning_rate": 0.00011561627503297176,
      "loss": 2.0043,
      "step": 524
    },
    {
      "epoch": 0.4557291666666667,
      "grad_norm": 18.05100440979004,
      "learning_rate": 0.00011534449566263821,
      "loss": 1.9244,
      "step": 525
    },
    {
      "epoch": 0.4565972222222222,
      "grad_norm": 14.028264999389648,
      "learning_rate": 0.0001150726001688674,
      "loss": 1.724,
      "step": 526
    },
    {
      "epoch": 0.4574652777777778,
      "grad_norm": 14.296797752380371,
      "learning_rate": 0.00011480059060929882,
      "loss": 1.8366,
      "step": 527
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 15.966320991516113,
      "learning_rate": 0.00011452846904243502,
      "loss": 2.1493,
      "step": 528
    },
    {
      "epoch": 0.4592013888888889,
      "grad_norm": 17.170146942138672,
      "learning_rate": 0.00011425623752762635,
      "loss": 2.0111,
      "step": 529
    },
    {
      "epoch": 0.4600694444444444,
      "grad_norm": 17.402341842651367,
      "learning_rate": 0.00011398389812505521,
      "loss": 2.0072,
      "step": 530
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 18.88581657409668,
      "learning_rate": 0.00011371145289572031,
      "loss": 1.8927,
      "step": 531
    },
    {
      "epoch": 0.4618055555555556,
      "grad_norm": 14.649520874023438,
      "learning_rate": 0.00011343890390142149,
      "loss": 1.7407,
      "step": 532
    },
    {
      "epoch": 0.4626736111111111,
      "grad_norm": 17.172266006469727,
      "learning_rate": 0.00011316625320474358,
      "loss": 1.9557,
      "step": 533
    },
    {
      "epoch": 0.4635416666666667,
      "grad_norm": 19.828392028808594,
      "learning_rate": 0.00011289350286904131,
      "loss": 1.9572,
      "step": 534
    },
    {
      "epoch": 0.4644097222222222,
      "grad_norm": 16.349172592163086,
      "learning_rate": 0.00011262065495842329,
      "loss": 2.1539,
      "step": 535
    },
    {
      "epoch": 0.4652777777777778,
      "grad_norm": 18.28331184387207,
      "learning_rate": 0.00011234771153773658,
      "loss": 1.8506,
      "step": 536
    },
    {
      "epoch": 0.4661458333333333,
      "grad_norm": 15.125768661499023,
      "learning_rate": 0.00011207467467255117,
      "loss": 1.8768,
      "step": 537
    },
    {
      "epoch": 0.4670138888888889,
      "grad_norm": 15.139266967773438,
      "learning_rate": 0.00011180154642914402,
      "loss": 2.1349,
      "step": 538
    },
    {
      "epoch": 0.4678819444444444,
      "grad_norm": 16.177738189697266,
      "learning_rate": 0.00011152832887448375,
      "loss": 2.0139,
      "step": 539
    },
    {
      "epoch": 0.46875,
      "grad_norm": 17.275686264038086,
      "learning_rate": 0.00011125502407621484,
      "loss": 2.0151,
      "step": 540
    },
    {
      "epoch": 0.4696180555555556,
      "grad_norm": 15.703518867492676,
      "learning_rate": 0.00011098163410264194,
      "loss": 2.2375,
      "step": 541
    },
    {
      "epoch": 0.4704861111111111,
      "grad_norm": 23.806718826293945,
      "learning_rate": 0.00011070816102271442,
      "loss": 1.9378,
      "step": 542
    },
    {
      "epoch": 0.4713541666666667,
      "grad_norm": 15.132336616516113,
      "learning_rate": 0.00011043460690601044,
      "loss": 1.693,
      "step": 543
    },
    {
      "epoch": 0.4722222222222222,
      "grad_norm": 18.493064880371094,
      "learning_rate": 0.0001101609738227215,
      "loss": 2.022,
      "step": 544
    },
    {
      "epoch": 0.4730902777777778,
      "grad_norm": 18.84025001525879,
      "learning_rate": 0.00010988726384363672,
      "loss": 2.1929,
      "step": 545
    },
    {
      "epoch": 0.4739583333333333,
      "grad_norm": 17.05356216430664,
      "learning_rate": 0.00010961347904012709,
      "loss": 2.0818,
      "step": 546
    },
    {
      "epoch": 0.4748263888888889,
      "grad_norm": 16.0236759185791,
      "learning_rate": 0.00010933962148412986,
      "loss": 1.9883,
      "step": 547
    },
    {
      "epoch": 0.4756944444444444,
      "grad_norm": 19.92914581298828,
      "learning_rate": 0.00010906569324813292,
      "loss": 1.9922,
      "step": 548
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 27.158992767333984,
      "learning_rate": 0.00010879169640515896,
      "loss": 2.024,
      "step": 549
    },
    {
      "epoch": 0.4774305555555556,
      "grad_norm": 23.851736068725586,
      "learning_rate": 0.00010851763302874997,
      "loss": 2.0913,
      "step": 550
    },
    {
      "epoch": 0.4782986111111111,
      "grad_norm": 10.193050384521484,
      "learning_rate": 0.00010824350519295133,
      "loss": 1.941,
      "step": 551
    },
    {
      "epoch": 0.4791666666666667,
      "grad_norm": 11.682244300842285,
      "learning_rate": 0.0001079693149722963,
      "loss": 2.1093,
      "step": 552
    },
    {
      "epoch": 0.4800347222222222,
      "grad_norm": 12.339136123657227,
      "learning_rate": 0.00010769506444179029,
      "loss": 1.7611,
      "step": 553
    },
    {
      "epoch": 0.4809027777777778,
      "grad_norm": 10.501363754272461,
      "learning_rate": 0.00010742075567689504,
      "loss": 2.0333,
      "step": 554
    },
    {
      "epoch": 0.4817708333333333,
      "grad_norm": 13.138137817382812,
      "learning_rate": 0.00010714639075351309,
      "loss": 1.7015,
      "step": 555
    },
    {
      "epoch": 0.4826388888888889,
      "grad_norm": 10.608007431030273,
      "learning_rate": 0.00010687197174797186,
      "loss": 2.0133,
      "step": 556
    },
    {
      "epoch": 0.4835069444444444,
      "grad_norm": 10.460371971130371,
      "learning_rate": 0.00010659750073700811,
      "loss": 1.9338,
      "step": 557
    },
    {
      "epoch": 0.484375,
      "grad_norm": 10.42619800567627,
      "learning_rate": 0.00010632297979775219,
      "loss": 1.5887,
      "step": 558
    },
    {
      "epoch": 0.4852430555555556,
      "grad_norm": 10.616786003112793,
      "learning_rate": 0.00010604841100771224,
      "loss": 1.8635,
      "step": 559
    },
    {
      "epoch": 0.4861111111111111,
      "grad_norm": 11.879120826721191,
      "learning_rate": 0.0001057737964447586,
      "loss": 1.9387,
      "step": 560
    },
    {
      "epoch": 0.4869791666666667,
      "grad_norm": 12.271883010864258,
      "learning_rate": 0.0001054991381871079,
      "loss": 1.9607,
      "step": 561
    },
    {
      "epoch": 0.4878472222222222,
      "grad_norm": 12.750441551208496,
      "learning_rate": 0.0001052244383133075,
      "loss": 2.0503,
      "step": 562
    },
    {
      "epoch": 0.4887152777777778,
      "grad_norm": 13.504244804382324,
      "learning_rate": 0.00010494969890221975,
      "loss": 2.0275,
      "step": 563
    },
    {
      "epoch": 0.4895833333333333,
      "grad_norm": 14.33527946472168,
      "learning_rate": 0.00010467492203300615,
      "loss": 1.9896,
      "step": 564
    },
    {
      "epoch": 0.4904513888888889,
      "grad_norm": 13.414615631103516,
      "learning_rate": 0.00010440010978511166,
      "loss": 1.9028,
      "step": 565
    },
    {
      "epoch": 0.4913194444444444,
      "grad_norm": 13.603208541870117,
      "learning_rate": 0.000104125264238249,
      "loss": 1.9575,
      "step": 566
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 13.788581848144531,
      "learning_rate": 0.00010385038747238289,
      "loss": 2.0189,
      "step": 567
    },
    {
      "epoch": 0.4930555555555556,
      "grad_norm": 13.388691902160645,
      "learning_rate": 0.00010357548156771433,
      "loss": 1.9222,
      "step": 568
    },
    {
      "epoch": 0.4939236111111111,
      "grad_norm": 12.287336349487305,
      "learning_rate": 0.00010330054860466478,
      "loss": 1.988,
      "step": 569
    },
    {
      "epoch": 0.4947916666666667,
      "grad_norm": 13.866276741027832,
      "learning_rate": 0.00010302559066386055,
      "loss": 1.7105,
      "step": 570
    },
    {
      "epoch": 0.4956597222222222,
      "grad_norm": 12.78741455078125,
      "learning_rate": 0.00010275060982611688,
      "loss": 1.8741,
      "step": 571
    },
    {
      "epoch": 0.4965277777777778,
      "grad_norm": 12.866548538208008,
      "learning_rate": 0.00010247560817242237,
      "loss": 2.0576,
      "step": 572
    },
    {
      "epoch": 0.4973958333333333,
      "grad_norm": 18.505361557006836,
      "learning_rate": 0.0001022005877839231,
      "loss": 1.7344,
      "step": 573
    },
    {
      "epoch": 0.4982638888888889,
      "grad_norm": 13.160040855407715,
      "learning_rate": 0.00010192555074190695,
      "loss": 1.9343,
      "step": 574
    },
    {
      "epoch": 0.4991319444444444,
      "grad_norm": 13.859561920166016,
      "learning_rate": 0.00010165049912778788,
      "loss": 2.0334,
      "step": 575
    },
    {
      "epoch": 0.5,
      "grad_norm": 15.418560028076172,
      "learning_rate": 0.00010137543502308999,
      "loss": 2.0219,
      "step": 576
    },
    {
      "epoch": 0.5,
      "eval_loss": 1.9585610628128052,
      "eval_runtime": 27.3941,
      "eval_samples_per_second": 17.705,
      "eval_steps_per_second": 8.871,
      "step": 576
    },
    {
      "epoch": 0.5008680555555556,
      "grad_norm": 15.022905349731445,
      "learning_rate": 0.00010110036050943203,
      "loss": 1.8069,
      "step": 577
    },
    {
      "epoch": 0.5017361111111112,
      "grad_norm": 14.939796447753906,
      "learning_rate": 0.00010082527766851151,
      "loss": 1.8282,
      "step": 578
    },
    {
      "epoch": 0.5026041666666666,
      "grad_norm": 15.488813400268555,
      "learning_rate": 0.00010055018858208886,
      "loss": 1.8347,
      "step": 579
    },
    {
      "epoch": 0.5034722222222222,
      "grad_norm": 14.688309669494629,
      "learning_rate": 0.00010027509533197197,
      "loss": 1.7819,
      "step": 580
    },
    {
      "epoch": 0.5043402777777778,
      "grad_norm": 12.491915702819824,
      "learning_rate": 0.0001,
      "loss": 1.9216,
      "step": 581
    },
    {
      "epoch": 0.5052083333333334,
      "grad_norm": 15.511882781982422,
      "learning_rate": 9.972490466802805e-05,
      "loss": 1.9545,
      "step": 582
    },
    {
      "epoch": 0.5060763888888888,
      "grad_norm": 16.1308650970459,
      "learning_rate": 9.944981141791115e-05,
      "loss": 1.7643,
      "step": 583
    },
    {
      "epoch": 0.5069444444444444,
      "grad_norm": 16.254255294799805,
      "learning_rate": 9.917472233148851e-05,
      "loss": 1.875,
      "step": 584
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 13.440431594848633,
      "learning_rate": 9.889963949056799e-05,
      "loss": 1.7714,
      "step": 585
    },
    {
      "epoch": 0.5086805555555556,
      "grad_norm": 14.32579231262207,
      "learning_rate": 9.862456497691003e-05,
      "loss": 2.0208,
      "step": 586
    },
    {
      "epoch": 0.5095486111111112,
      "grad_norm": 16.822589874267578,
      "learning_rate": 9.834950087221216e-05,
      "loss": 1.9641,
      "step": 587
    },
    {
      "epoch": 0.5104166666666666,
      "grad_norm": 20.17698860168457,
      "learning_rate": 9.807444925809306e-05,
      "loss": 1.7131,
      "step": 588
    },
    {
      "epoch": 0.5112847222222222,
      "grad_norm": 14.65821647644043,
      "learning_rate": 9.77994122160769e-05,
      "loss": 2.01,
      "step": 589
    },
    {
      "epoch": 0.5121527777777778,
      "grad_norm": 14.805367469787598,
      "learning_rate": 9.752439182757764e-05,
      "loss": 2.0834,
      "step": 590
    },
    {
      "epoch": 0.5130208333333334,
      "grad_norm": 16.649839401245117,
      "learning_rate": 9.724939017388313e-05,
      "loss": 1.9286,
      "step": 591
    },
    {
      "epoch": 0.5138888888888888,
      "grad_norm": 16.793479919433594,
      "learning_rate": 9.697440933613946e-05,
      "loss": 1.9679,
      "step": 592
    },
    {
      "epoch": 0.5147569444444444,
      "grad_norm": 18.385112762451172,
      "learning_rate": 9.669945139533524e-05,
      "loss": 2.1764,
      "step": 593
    },
    {
      "epoch": 0.515625,
      "grad_norm": 16.447195053100586,
      "learning_rate": 9.642451843228568e-05,
      "loss": 2.2571,
      "step": 594
    },
    {
      "epoch": 0.5164930555555556,
      "grad_norm": 15.659928321838379,
      "learning_rate": 9.614961252761713e-05,
      "loss": 2.1288,
      "step": 595
    },
    {
      "epoch": 0.5173611111111112,
      "grad_norm": 16.766855239868164,
      "learning_rate": 9.587473576175103e-05,
      "loss": 2.0009,
      "step": 596
    },
    {
      "epoch": 0.5182291666666666,
      "grad_norm": 21.079097747802734,
      "learning_rate": 9.559989021488838e-05,
      "loss": 1.7899,
      "step": 597
    },
    {
      "epoch": 0.5190972222222222,
      "grad_norm": 20.679733276367188,
      "learning_rate": 9.532507796699388e-05,
      "loss": 1.9093,
      "step": 598
    },
    {
      "epoch": 0.5199652777777778,
      "grad_norm": 20.416423797607422,
      "learning_rate": 9.505030109778023e-05,
      "loss": 2.0236,
      "step": 599
    },
    {
      "epoch": 0.5208333333333334,
      "grad_norm": 30.040443420410156,
      "learning_rate": 9.47755616866925e-05,
      "loss": 1.7996,
      "step": 600
    },
    {
      "epoch": 0.5217013888888888,
      "grad_norm": 9.230992317199707,
      "learning_rate": 9.450086181289213e-05,
      "loss": 2.108,
      "step": 601
    },
    {
      "epoch": 0.5225694444444444,
      "grad_norm": 11.033724784851074,
      "learning_rate": 9.422620355524144e-05,
      "loss": 1.9422,
      "step": 602
    },
    {
      "epoch": 0.5234375,
      "grad_norm": 11.256922721862793,
      "learning_rate": 9.395158899228777e-05,
      "loss": 1.9754,
      "step": 603
    },
    {
      "epoch": 0.5243055555555556,
      "grad_norm": 14.465068817138672,
      "learning_rate": 9.367702020224782e-05,
      "loss": 1.8877,
      "step": 604
    },
    {
      "epoch": 0.5251736111111112,
      "grad_norm": 10.427090644836426,
      "learning_rate": 9.340249926299192e-05,
      "loss": 1.8378,
      "step": 605
    },
    {
      "epoch": 0.5260416666666666,
      "grad_norm": 11.574509620666504,
      "learning_rate": 9.312802825202817e-05,
      "loss": 1.8754,
      "step": 606
    },
    {
      "epoch": 0.5269097222222222,
      "grad_norm": 11.767155647277832,
      "learning_rate": 9.285360924648695e-05,
      "loss": 1.8248,
      "step": 607
    },
    {
      "epoch": 0.5277777777777778,
      "grad_norm": 11.879499435424805,
      "learning_rate": 9.257924432310497e-05,
      "loss": 1.8081,
      "step": 608
    },
    {
      "epoch": 0.5286458333333334,
      "grad_norm": 13.207613945007324,
      "learning_rate": 9.230493555820971e-05,
      "loss": 2.1181,
      "step": 609
    },
    {
      "epoch": 0.5295138888888888,
      "grad_norm": 11.93727970123291,
      "learning_rate": 9.203068502770371e-05,
      "loss": 2.1128,
      "step": 610
    },
    {
      "epoch": 0.5303819444444444,
      "grad_norm": 11.551005363464355,
      "learning_rate": 9.17564948070487e-05,
      "loss": 1.9466,
      "step": 611
    },
    {
      "epoch": 0.53125,
      "grad_norm": 12.332575798034668,
      "learning_rate": 9.148236697125008e-05,
      "loss": 1.809,
      "step": 612
    },
    {
      "epoch": 0.5321180555555556,
      "grad_norm": 12.674099922180176,
      "learning_rate": 9.120830359484105e-05,
      "loss": 1.8998,
      "step": 613
    },
    {
      "epoch": 0.5329861111111112,
      "grad_norm": 13.731175422668457,
      "learning_rate": 9.093430675186708e-05,
      "loss": 1.8718,
      "step": 614
    },
    {
      "epoch": 0.5338541666666666,
      "grad_norm": 14.158843040466309,
      "learning_rate": 9.066037851587015e-05,
      "loss": 1.834,
      "step": 615
    },
    {
      "epoch": 0.5347222222222222,
      "grad_norm": 14.000466346740723,
      "learning_rate": 9.038652095987294e-05,
      "loss": 1.7906,
      "step": 616
    },
    {
      "epoch": 0.5355902777777778,
      "grad_norm": 13.29843807220459,
      "learning_rate": 9.01127361563633e-05,
      "loss": 1.7885,
      "step": 617
    },
    {
      "epoch": 0.5364583333333334,
      "grad_norm": 13.127632141113281,
      "learning_rate": 8.983902617727852e-05,
      "loss": 2.044,
      "step": 618
    },
    {
      "epoch": 0.5373263888888888,
      "grad_norm": 13.030488014221191,
      "learning_rate": 8.956539309398957e-05,
      "loss": 1.7404,
      "step": 619
    },
    {
      "epoch": 0.5381944444444444,
      "grad_norm": 15.269593238830566,
      "learning_rate": 8.92918389772856e-05,
      "loss": 1.917,
      "step": 620
    },
    {
      "epoch": 0.5390625,
      "grad_norm": 13.017799377441406,
      "learning_rate": 8.901836589735807e-05,
      "loss": 2.0645,
      "step": 621
    },
    {
      "epoch": 0.5399305555555556,
      "grad_norm": 12.069060325622559,
      "learning_rate": 8.87449759237852e-05,
      "loss": 1.8962,
      "step": 622
    },
    {
      "epoch": 0.5407986111111112,
      "grad_norm": 15.789977073669434,
      "learning_rate": 8.847167112551627e-05,
      "loss": 1.7837,
      "step": 623
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 13.995849609375,
      "learning_rate": 8.819845357085598e-05,
      "loss": 1.8621,
      "step": 624
    },
    {
      "epoch": 0.5425347222222222,
      "grad_norm": 13.478865623474121,
      "learning_rate": 8.792532532744885e-05,
      "loss": 1.9676,
      "step": 625
    },
    {
      "epoch": 0.5434027777777778,
      "grad_norm": 15.19690990447998,
      "learning_rate": 8.765228846226341e-05,
      "loss": 1.6361,
      "step": 626
    },
    {
      "epoch": 0.5442708333333334,
      "grad_norm": 14.974311828613281,
      "learning_rate": 8.737934504157675e-05,
      "loss": 1.9447,
      "step": 627
    },
    {
      "epoch": 0.5451388888888888,
      "grad_norm": 15.628581047058105,
      "learning_rate": 8.710649713095872e-05,
      "loss": 1.8223,
      "step": 628
    },
    {
      "epoch": 0.5460069444444444,
      "grad_norm": 13.494054794311523,
      "learning_rate": 8.683374679525644e-05,
      "loss": 1.8148,
      "step": 629
    },
    {
      "epoch": 0.546875,
      "grad_norm": 14.555102348327637,
      "learning_rate": 8.656109609857854e-05,
      "loss": 1.8495,
      "step": 630
    },
    {
      "epoch": 0.5477430555555556,
      "grad_norm": 14.314188957214355,
      "learning_rate": 8.628854710427968e-05,
      "loss": 1.7517,
      "step": 631
    },
    {
      "epoch": 0.5486111111111112,
      "grad_norm": 13.424491882324219,
      "learning_rate": 8.601610187494484e-05,
      "loss": 1.8415,
      "step": 632
    },
    {
      "epoch": 0.5494791666666666,
      "grad_norm": 19.24957847595215,
      "learning_rate": 8.574376247237367e-05,
      "loss": 1.6742,
      "step": 633
    },
    {
      "epoch": 0.5503472222222222,
      "grad_norm": 14.664512634277344,
      "learning_rate": 8.547153095756503e-05,
      "loss": 2.1591,
      "step": 634
    },
    {
      "epoch": 0.5512152777777778,
      "grad_norm": 17.534164428710938,
      "learning_rate": 8.519940939070121e-05,
      "loss": 1.8432,
      "step": 635
    },
    {
      "epoch": 0.5520833333333334,
      "grad_norm": 15.532064437866211,
      "learning_rate": 8.49273998311326e-05,
      "loss": 2.0388,
      "step": 636
    },
    {
      "epoch": 0.5529513888888888,
      "grad_norm": 15.507984161376953,
      "learning_rate": 8.46555043373618e-05,
      "loss": 2.1336,
      "step": 637
    },
    {
      "epoch": 0.5538194444444444,
      "grad_norm": 17.11254119873047,
      "learning_rate": 8.438372496702826e-05,
      "loss": 2.1056,
      "step": 638
    },
    {
      "epoch": 0.5546875,
      "grad_norm": 16.4410400390625,
      "learning_rate": 8.41120637768926e-05,
      "loss": 2.143,
      "step": 639
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 14.77703857421875,
      "learning_rate": 8.384052282282107e-05,
      "loss": 1.9428,
      "step": 640
    },
    {
      "epoch": 0.5564236111111112,
      "grad_norm": 17.501911163330078,
      "learning_rate": 8.356910415977008e-05,
      "loss": 1.8171,
      "step": 641
    },
    {
      "epoch": 0.5572916666666666,
      "grad_norm": 16.587329864501953,
      "learning_rate": 8.329780984177053e-05,
      "loss": 2.1078,
      "step": 642
    },
    {
      "epoch": 0.5581597222222222,
      "grad_norm": 15.023578643798828,
      "learning_rate": 8.302664192191225e-05,
      "loss": 2.2078,
      "step": 643
    },
    {
      "epoch": 0.5590277777777778,
      "grad_norm": 15.555996894836426,
      "learning_rate": 8.27556024523286e-05,
      "loss": 1.9277,
      "step": 644
    },
    {
      "epoch": 0.5598958333333334,
      "grad_norm": 17.908096313476562,
      "learning_rate": 8.248469348418076e-05,
      "loss": 2.0114,
      "step": 645
    },
    {
      "epoch": 0.5607638888888888,
      "grad_norm": 18.860708236694336,
      "learning_rate": 8.221391706764245e-05,
      "loss": 2.079,
      "step": 646
    },
    {
      "epoch": 0.5616319444444444,
      "grad_norm": 20.25312614440918,
      "learning_rate": 8.194327525188419e-05,
      "loss": 1.9205,
      "step": 647
    },
    {
      "epoch": 0.5625,
      "grad_norm": 26.201187133789062,
      "learning_rate": 8.167277008505783e-05,
      "loss": 1.9173,
      "step": 648
    },
    {
      "epoch": 0.5633680555555556,
      "grad_norm": 18.467588424682617,
      "learning_rate": 8.140240361428119e-05,
      "loss": 2.0093,
      "step": 649
    },
    {
      "epoch": 0.5642361111111112,
      "grad_norm": 28.01093101501465,
      "learning_rate": 8.113217788562235e-05,
      "loss": 1.8234,
      "step": 650
    },
    {
      "epoch": 0.5651041666666666,
      "grad_norm": 9.87932014465332,
      "learning_rate": 8.086209494408443e-05,
      "loss": 1.6589,
      "step": 651
    },
    {
      "epoch": 0.5659722222222222,
      "grad_norm": 11.396955490112305,
      "learning_rate": 8.059215683358991e-05,
      "loss": 2.0744,
      "step": 652
    },
    {
      "epoch": 0.5668402777777778,
      "grad_norm": 10.34410285949707,
      "learning_rate": 8.032236559696517e-05,
      "loss": 1.6944,
      "step": 653
    },
    {
      "epoch": 0.5677083333333334,
      "grad_norm": 12.291624069213867,
      "learning_rate": 8.005272327592517e-05,
      "loss": 1.7822,
      "step": 654
    },
    {
      "epoch": 0.5685763888888888,
      "grad_norm": 12.043850898742676,
      "learning_rate": 7.978323191105781e-05,
      "loss": 1.8903,
      "step": 655
    },
    {
      "epoch": 0.5694444444444444,
      "grad_norm": 10.367390632629395,
      "learning_rate": 7.951389354180871e-05,
      "loss": 1.8261,
      "step": 656
    },
    {
      "epoch": 0.5703125,
      "grad_norm": 10.694307327270508,
      "learning_rate": 7.924471020646559e-05,
      "loss": 1.8233,
      "step": 657
    },
    {
      "epoch": 0.5711805555555556,
      "grad_norm": 12.436077117919922,
      "learning_rate": 7.897568394214292e-05,
      "loss": 1.9725,
      "step": 658
    },
    {
      "epoch": 0.5720486111111112,
      "grad_norm": 11.22568416595459,
      "learning_rate": 7.87068167847665e-05,
      "loss": 1.7682,
      "step": 659
    },
    {
      "epoch": 0.5729166666666666,
      "grad_norm": 11.406827926635742,
      "learning_rate": 7.8438110769058e-05,
      "loss": 2.1154,
      "step": 660
    },
    {
      "epoch": 0.5737847222222222,
      "grad_norm": 13.207112312316895,
      "learning_rate": 7.81695679285197e-05,
      "loss": 1.8807,
      "step": 661
    },
    {
      "epoch": 0.5746527777777778,
      "grad_norm": 12.020392417907715,
      "learning_rate": 7.790119029541893e-05,
      "loss": 1.7712,
      "step": 662
    },
    {
      "epoch": 0.5755208333333334,
      "grad_norm": 12.263861656188965,
      "learning_rate": 7.76329799007728e-05,
      "loss": 1.7847,
      "step": 663
    },
    {
      "epoch": 0.5763888888888888,
      "grad_norm": 12.855914115905762,
      "learning_rate": 7.736493877433285e-05,
      "loss": 1.8194,
      "step": 664
    },
    {
      "epoch": 0.5772569444444444,
      "grad_norm": 13.804559707641602,
      "learning_rate": 7.709706894456949e-05,
      "loss": 1.9374,
      "step": 665
    },
    {
      "epoch": 0.578125,
      "grad_norm": 12.961804389953613,
      "learning_rate": 7.682937243865701e-05,
      "loss": 2.0661,
      "step": 666
    },
    {
      "epoch": 0.5789930555555556,
      "grad_norm": 13.783415794372559,
      "learning_rate": 7.656185128245786e-05,
      "loss": 1.8875,
      "step": 667
    },
    {
      "epoch": 0.5798611111111112,
      "grad_norm": 14.353681564331055,
      "learning_rate": 7.62945075005075e-05,
      "loss": 2.1549,
      "step": 668
    },
    {
      "epoch": 0.5807291666666666,
      "grad_norm": 15.880180358886719,
      "learning_rate": 7.602734311599918e-05,
      "loss": 1.5437,
      "step": 669
    },
    {
      "epoch": 0.5815972222222222,
      "grad_norm": 17.51071548461914,
      "learning_rate": 7.576036015076837e-05,
      "loss": 1.9075,
      "step": 670
    },
    {
      "epoch": 0.5824652777777778,
      "grad_norm": 12.360156059265137,
      "learning_rate": 7.549356062527773e-05,
      "loss": 1.8808,
      "step": 671
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 14.916133880615234,
      "learning_rate": 7.52269465586016e-05,
      "loss": 1.772,
      "step": 672
    },
    {
      "epoch": 0.5842013888888888,
      "grad_norm": 14.223649024963379,
      "learning_rate": 7.496051996841084e-05,
      "loss": 1.959,
      "step": 673
    },
    {
      "epoch": 0.5850694444444444,
      "grad_norm": 15.88371753692627,
      "learning_rate": 7.469428287095757e-05,
      "loss": 1.7439,
      "step": 674
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 13.079479217529297,
      "learning_rate": 7.442823728105979e-05,
      "loss": 1.8794,
      "step": 675
    },
    {
      "epoch": 0.5868055555555556,
      "grad_norm": 17.964012145996094,
      "learning_rate": 7.416238521208634e-05,
      "loss": 1.5014,
      "step": 676
    },
    {
      "epoch": 0.5876736111111112,
      "grad_norm": 14.494117736816406,
      "learning_rate": 7.389672867594142e-05,
      "loss": 2.2386,
      "step": 677
    },
    {
      "epoch": 0.5885416666666666,
      "grad_norm": 16.09971809387207,
      "learning_rate": 7.363126968304955e-05,
      "loss": 1.8013,
      "step": 678
    },
    {
      "epoch": 0.5894097222222222,
      "grad_norm": 13.50377368927002,
      "learning_rate": 7.336601024234028e-05,
      "loss": 1.7716,
      "step": 679
    },
    {
      "epoch": 0.5902777777777778,
      "grad_norm": 17.585285186767578,
      "learning_rate": 7.310095236123295e-05,
      "loss": 2.0324,
      "step": 680
    },
    {
      "epoch": 0.5911458333333334,
      "grad_norm": 15.79974365234375,
      "learning_rate": 7.283609804562168e-05,
      "loss": 2.0764,
      "step": 681
    },
    {
      "epoch": 0.5920138888888888,
      "grad_norm": 15.37767505645752,
      "learning_rate": 7.257144929985988e-05,
      "loss": 1.6588,
      "step": 682
    },
    {
      "epoch": 0.5928819444444444,
      "grad_norm": 16.093576431274414,
      "learning_rate": 7.230700812674538e-05,
      "loss": 2.0325,
      "step": 683
    },
    {
      "epoch": 0.59375,
      "grad_norm": 18.15459442138672,
      "learning_rate": 7.204277652750512e-05,
      "loss": 1.7897,
      "step": 684
    },
    {
      "epoch": 0.5946180555555556,
      "grad_norm": 12.621081352233887,
      "learning_rate": 7.177875650177998e-05,
      "loss": 1.7661,
      "step": 685
    },
    {
      "epoch": 0.5954861111111112,
      "grad_norm": 14.055307388305664,
      "learning_rate": 7.15149500476098e-05,
      "loss": 1.9542,
      "step": 686
    },
    {
      "epoch": 0.5963541666666666,
      "grad_norm": 18.60757064819336,
      "learning_rate": 7.12513591614181e-05,
      "loss": 1.9329,
      "step": 687
    },
    {
      "epoch": 0.5972222222222222,
      "grad_norm": 15.511977195739746,
      "learning_rate": 7.098798583799701e-05,
      "loss": 1.9413,
      "step": 688
    },
    {
      "epoch": 0.5980902777777778,
      "grad_norm": 17.695068359375,
      "learning_rate": 7.072483207049232e-05,
      "loss": 1.9205,
      "step": 689
    },
    {
      "epoch": 0.5989583333333334,
      "grad_norm": 39.13572692871094,
      "learning_rate": 7.046189985038807e-05,
      "loss": 1.7923,
      "step": 690
    },
    {
      "epoch": 0.5998263888888888,
      "grad_norm": 13.981321334838867,
      "learning_rate": 7.01991911674919e-05,
      "loss": 1.999,
      "step": 691
    },
    {
      "epoch": 0.6006944444444444,
      "grad_norm": 16.080123901367188,
      "learning_rate": 6.99367080099196e-05,
      "loss": 1.8519,
      "step": 692
    },
    {
      "epoch": 0.6015625,
      "grad_norm": 16.789819717407227,
      "learning_rate": 6.967445236408037e-05,
      "loss": 2.07,
      "step": 693
    },
    {
      "epoch": 0.6024305555555556,
      "grad_norm": 18.676746368408203,
      "learning_rate": 6.941242621466157e-05,
      "loss": 1.8944,
      "step": 694
    },
    {
      "epoch": 0.6032986111111112,
      "grad_norm": 18.478113174438477,
      "learning_rate": 6.915063154461379e-05,
      "loss": 2.1065,
      "step": 695
    },
    {
      "epoch": 0.6041666666666666,
      "grad_norm": 15.811859130859375,
      "learning_rate": 6.888907033513592e-05,
      "loss": 2.0354,
      "step": 696
    },
    {
      "epoch": 0.6050347222222222,
      "grad_norm": 21.135038375854492,
      "learning_rate": 6.862774456565999e-05,
      "loss": 1.9646,
      "step": 697
    },
    {
      "epoch": 0.6059027777777778,
      "grad_norm": 27.442007064819336,
      "learning_rate": 6.836665621383635e-05,
      "loss": 1.7368,
      "step": 698
    },
    {
      "epoch": 0.6067708333333334,
      "grad_norm": 21.151498794555664,
      "learning_rate": 6.810580725551853e-05,
      "loss": 1.8765,
      "step": 699
    },
    {
      "epoch": 0.6076388888888888,
      "grad_norm": 29.93486213684082,
      "learning_rate": 6.784519966474845e-05,
      "loss": 2.1535,
      "step": 700
    },
    {
      "epoch": 0.6085069444444444,
      "grad_norm": 9.31676959991455,
      "learning_rate": 6.758483541374148e-05,
      "loss": 1.8469,
      "step": 701
    },
    {
      "epoch": 0.609375,
      "grad_norm": 11.149514198303223,
      "learning_rate": 6.732471647287133e-05,
      "loss": 1.9865,
      "step": 702
    },
    {
      "epoch": 0.6102430555555556,
      "grad_norm": 10.093915939331055,
      "learning_rate": 6.706484481065539e-05,
      "loss": 1.7877,
      "step": 703
    },
    {
      "epoch": 0.6111111111111112,
      "grad_norm": 10.389727592468262,
      "learning_rate": 6.680522239373953e-05,
      "loss": 1.7289,
      "step": 704
    },
    {
      "epoch": 0.6119791666666666,
      "grad_norm": 10.033374786376953,
      "learning_rate": 6.654585118688356e-05,
      "loss": 1.9985,
      "step": 705
    },
    {
      "epoch": 0.6128472222222222,
      "grad_norm": 10.770398139953613,
      "learning_rate": 6.628673315294616e-05,
      "loss": 1.9511,
      "step": 706
    },
    {
      "epoch": 0.6137152777777778,
      "grad_norm": 10.429977416992188,
      "learning_rate": 6.602787025286998e-05,
      "loss": 2.0326,
      "step": 707
    },
    {
      "epoch": 0.6145833333333334,
      "grad_norm": 10.858638763427734,
      "learning_rate": 6.576926444566698e-05,
      "loss": 2.0785,
      "step": 708
    },
    {
      "epoch": 0.6154513888888888,
      "grad_norm": 12.585272789001465,
      "learning_rate": 6.551091768840338e-05,
      "loss": 2.1141,
      "step": 709
    },
    {
      "epoch": 0.6163194444444444,
      "grad_norm": 12.708643913269043,
      "learning_rate": 6.525283193618508e-05,
      "loss": 1.6813,
      "step": 710
    },
    {
      "epoch": 0.6171875,
      "grad_norm": 11.747328758239746,
      "learning_rate": 6.499500914214276e-05,
      "loss": 1.9528,
      "step": 711
    },
    {
      "epoch": 0.6180555555555556,
      "grad_norm": 15.570380210876465,
      "learning_rate": 6.473745125741701e-05,
      "loss": 1.7305,
      "step": 712
    },
    {
      "epoch": 0.6189236111111112,
      "grad_norm": 12.348931312561035,
      "learning_rate": 6.448016023114372e-05,
      "loss": 1.7636,
      "step": 713
    },
    {
      "epoch": 0.6197916666666666,
      "grad_norm": 12.029678344726562,
      "learning_rate": 6.422313801043922e-05,
      "loss": 1.7962,
      "step": 714
    },
    {
      "epoch": 0.6206597222222222,
      "grad_norm": 13.390205383300781,
      "learning_rate": 6.396638654038557e-05,
      "loss": 1.8049,
      "step": 715
    },
    {
      "epoch": 0.6215277777777778,
      "grad_norm": 12.542319297790527,
      "learning_rate": 6.370990776401597e-05,
      "loss": 1.69,
      "step": 716
    },
    {
      "epoch": 0.6223958333333334,
      "grad_norm": 14.50907039642334,
      "learning_rate": 6.34537036222998e-05,
      "loss": 1.7879,
      "step": 717
    },
    {
      "epoch": 0.6232638888888888,
      "grad_norm": 14.686508178710938,
      "learning_rate": 6.319777605412816e-05,
      "loss": 1.685,
      "step": 718
    },
    {
      "epoch": 0.6241319444444444,
      "grad_norm": 12.963170051574707,
      "learning_rate": 6.294212699629902e-05,
      "loss": 1.8536,
      "step": 719
    },
    {
      "epoch": 0.625,
      "grad_norm": 10.97075366973877,
      "learning_rate": 6.268675838350273e-05,
      "loss": 1.7408,
      "step": 720
    },
    {
      "epoch": 0.6258680555555556,
      "grad_norm": 12.989684104919434,
      "learning_rate": 6.243167214830733e-05,
      "loss": 1.9632,
      "step": 721
    },
    {
      "epoch": 0.6267361111111112,
      "grad_norm": 16.108964920043945,
      "learning_rate": 6.217687022114377e-05,
      "loss": 1.6076,
      "step": 722
    },
    {
      "epoch": 0.6276041666666666,
      "grad_norm": 13.303749084472656,
      "learning_rate": 6.192235453029155e-05,
      "loss": 1.7805,
      "step": 723
    },
    {
      "epoch": 0.6284722222222222,
      "grad_norm": 17.04582405090332,
      "learning_rate": 6.166812700186389e-05,
      "loss": 1.9505,
      "step": 724
    },
    {
      "epoch": 0.6293402777777778,
      "grad_norm": 14.280027389526367,
      "learning_rate": 6.141418955979339e-05,
      "loss": 1.7364,
      "step": 725
    },
    {
      "epoch": 0.6302083333333334,
      "grad_norm": 14.48975658416748,
      "learning_rate": 6.116054412581722e-05,
      "loss": 2.0984,
      "step": 726
    },
    {
      "epoch": 0.6310763888888888,
      "grad_norm": 12.331202507019043,
      "learning_rate": 6.090719261946279e-05,
      "loss": 1.7384,
      "step": 727
    },
    {
      "epoch": 0.6319444444444444,
      "grad_norm": 20.513586044311523,
      "learning_rate": 6.065413695803316e-05,
      "loss": 1.4269,
      "step": 728
    },
    {
      "epoch": 0.6328125,
      "grad_norm": 14.325490951538086,
      "learning_rate": 6.0401379056592375e-05,
      "loss": 1.878,
      "step": 729
    },
    {
      "epoch": 0.6336805555555556,
      "grad_norm": 13.367268562316895,
      "learning_rate": 6.014892082795127e-05,
      "loss": 2.1823,
      "step": 730
    },
    {
      "epoch": 0.6345486111111112,
      "grad_norm": 17.7767276763916,
      "learning_rate": 5.9896764182652654e-05,
      "loss": 1.9079,
      "step": 731
    },
    {
      "epoch": 0.6354166666666666,
      "grad_norm": 17.653276443481445,
      "learning_rate": 5.9644911028957196e-05,
      "loss": 1.9413,
      "step": 732
    },
    {
      "epoch": 0.6362847222222222,
      "grad_norm": 15.516522407531738,
      "learning_rate": 5.939336327282874e-05,
      "loss": 1.9241,
      "step": 733
    },
    {
      "epoch": 0.6371527777777778,
      "grad_norm": 14.670297622680664,
      "learning_rate": 5.914212281791989e-05,
      "loss": 2.0385,
      "step": 734
    },
    {
      "epoch": 0.6380208333333334,
      "grad_norm": 14.384023666381836,
      "learning_rate": 5.889119156555778e-05,
      "loss": 1.9389,
      "step": 735
    },
    {
      "epoch": 0.6388888888888888,
      "grad_norm": 15.61893367767334,
      "learning_rate": 5.8640571414729486e-05,
      "loss": 1.9736,
      "step": 736
    },
    {
      "epoch": 0.6397569444444444,
      "grad_norm": 15.846280097961426,
      "learning_rate": 5.839026426206782e-05,
      "loss": 1.6474,
      "step": 737
    },
    {
      "epoch": 0.640625,
      "grad_norm": 15.824593544006348,
      "learning_rate": 5.814027200183685e-05,
      "loss": 1.8774,
      "step": 738
    },
    {
      "epoch": 0.6414930555555556,
      "grad_norm": 16.56097984313965,
      "learning_rate": 5.7890596525917593e-05,
      "loss": 1.9392,
      "step": 739
    },
    {
      "epoch": 0.6423611111111112,
      "grad_norm": 19.102895736694336,
      "learning_rate": 5.7641239723793814e-05,
      "loss": 2.1913,
      "step": 740
    },
    {
      "epoch": 0.6432291666666666,
      "grad_norm": 18.151823043823242,
      "learning_rate": 5.739220348253753e-05,
      "loss": 1.9148,
      "step": 741
    },
    {
      "epoch": 0.6440972222222222,
      "grad_norm": 16.493192672729492,
      "learning_rate": 5.714348968679483e-05,
      "loss": 1.9077,
      "step": 742
    },
    {
      "epoch": 0.6449652777777778,
      "grad_norm": 18.61972999572754,
      "learning_rate": 5.689510021877173e-05,
      "loss": 2.1327,
      "step": 743
    },
    {
      "epoch": 0.6458333333333334,
      "grad_norm": 17.50888442993164,
      "learning_rate": 5.664703695821965e-05,
      "loss": 2.013,
      "step": 744
    },
    {
      "epoch": 0.6467013888888888,
      "grad_norm": 16.999921798706055,
      "learning_rate": 5.639930178242152e-05,
      "loss": 2.0242,
      "step": 745
    },
    {
      "epoch": 0.6475694444444444,
      "grad_norm": 15.626893997192383,
      "learning_rate": 5.6151896566177275e-05,
      "loss": 2.1479,
      "step": 746
    },
    {
      "epoch": 0.6484375,
      "grad_norm": 23.982009887695312,
      "learning_rate": 5.590482318178982e-05,
      "loss": 1.8645,
      "step": 747
    },
    {
      "epoch": 0.6493055555555556,
      "grad_norm": 20.309349060058594,
      "learning_rate": 5.56580834990509e-05,
      "loss": 1.7871,
      "step": 748
    },
    {
      "epoch": 0.6501736111111112,
      "grad_norm": 20.062475204467773,
      "learning_rate": 5.54116793852268e-05,
      "loss": 1.9625,
      "step": 749
    },
    {
      "epoch": 0.6510416666666666,
      "grad_norm": 22.787874221801758,
      "learning_rate": 5.5165612705044386e-05,
      "loss": 1.9159,
      "step": 750
    },
    {
      "epoch": 0.6519097222222222,
      "grad_norm": 8.314199447631836,
      "learning_rate": 5.491988532067687e-05,
      "loss": 2.0528,
      "step": 751
    },
    {
      "epoch": 0.6527777777777778,
      "grad_norm": 8.974541664123535,
      "learning_rate": 5.467449909172966e-05,
      "loss": 1.9216,
      "step": 752
    },
    {
      "epoch": 0.6536458333333334,
      "grad_norm": 9.058680534362793,
      "learning_rate": 5.442945587522659e-05,
      "loss": 1.8281,
      "step": 753
    },
    {
      "epoch": 0.6545138888888888,
      "grad_norm": 22.46303367614746,
      "learning_rate": 5.418475752559544e-05,
      "loss": 1.8423,
      "step": 754
    },
    {
      "epoch": 0.6553819444444444,
      "grad_norm": 9.852974891662598,
      "learning_rate": 5.394040589465431e-05,
      "loss": 1.7332,
      "step": 755
    },
    {
      "epoch": 0.65625,
      "grad_norm": 11.416216850280762,
      "learning_rate": 5.369640283159729e-05,
      "loss": 1.8474,
      "step": 756
    },
    {
      "epoch": 0.6571180555555556,
      "grad_norm": 11.507524490356445,
      "learning_rate": 5.3452750182980625e-05,
      "loss": 1.9673,
      "step": 757
    },
    {
      "epoch": 0.6579861111111112,
      "grad_norm": 10.947381019592285,
      "learning_rate": 5.320944979270868e-05,
      "loss": 1.8135,
      "step": 758
    },
    {
      "epoch": 0.6588541666666666,
      "grad_norm": 10.233997344970703,
      "learning_rate": 5.296650350202008e-05,
      "loss": 2.0056,
      "step": 759
    },
    {
      "epoch": 0.6597222222222222,
      "grad_norm": 10.532794952392578,
      "learning_rate": 5.2723913149473737e-05,
      "loss": 1.831,
      "step": 760
    },
    {
      "epoch": 0.6605902777777778,
      "grad_norm": 12.286763191223145,
      "learning_rate": 5.248168057093478e-05,
      "loss": 1.9529,
      "step": 761
    },
    {
      "epoch": 0.6614583333333334,
      "grad_norm": 10.542374610900879,
      "learning_rate": 5.223980759956089e-05,
      "loss": 1.7063,
      "step": 762
    },
    {
      "epoch": 0.6623263888888888,
      "grad_norm": 12.384016036987305,
      "learning_rate": 5.199829606578823e-05,
      "loss": 1.8829,
      "step": 763
    },
    {
      "epoch": 0.6631944444444444,
      "grad_norm": 13.105708122253418,
      "learning_rate": 5.175714779731782e-05,
      "loss": 1.7577,
      "step": 764
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 14.688854217529297,
      "learning_rate": 5.151636461910154e-05,
      "loss": 1.961,
      "step": 765
    },
    {
      "epoch": 0.6649305555555556,
      "grad_norm": 14.315075874328613,
      "learning_rate": 5.127594835332831e-05,
      "loss": 1.8002,
      "step": 766
    },
    {
      "epoch": 0.6657986111111112,
      "grad_norm": 13.88724136352539,
      "learning_rate": 5.1035900819410346e-05,
      "loss": 1.7724,
      "step": 767
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 13.456408500671387,
      "learning_rate": 5.079622383396938e-05,
      "loss": 1.8523,
      "step": 768
    },
    {
      "epoch": 0.6675347222222222,
      "grad_norm": 14.679458618164062,
      "learning_rate": 5.055691921082299e-05,
      "loss": 1.8991,
      "step": 769
    },
    {
      "epoch": 0.6684027777777778,
      "grad_norm": 12.704297065734863,
      "learning_rate": 5.0317988760970804e-05,
      "loss": 1.8636,
      "step": 770
    },
    {
      "epoch": 0.6692708333333334,
      "grad_norm": 12.467072486877441,
      "learning_rate": 5.007943429258073e-05,
      "loss": 1.8262,
      "step": 771
    },
    {
      "epoch": 0.6701388888888888,
      "grad_norm": 16.064525604248047,
      "learning_rate": 4.9841257610975364e-05,
      "loss": 1.6718,
      "step": 772
    },
    {
      "epoch": 0.6710069444444444,
      "grad_norm": 14.80754566192627,
      "learning_rate": 4.9603460518618274e-05,
      "loss": 1.8804,
      "step": 773
    },
    {
      "epoch": 0.671875,
      "grad_norm": 13.693035125732422,
      "learning_rate": 4.936604481510045e-05,
      "loss": 1.9249,
      "step": 774
    },
    {
      "epoch": 0.6727430555555556,
      "grad_norm": 14.119590759277344,
      "learning_rate": 4.912901229712665e-05,
      "loss": 1.8726,
      "step": 775
    },
    {
      "epoch": 0.6736111111111112,
      "grad_norm": 11.714713096618652,
      "learning_rate": 4.889236475850169e-05,
      "loss": 1.9406,
      "step": 776
    },
    {
      "epoch": 0.6744791666666666,
      "grad_norm": 13.115860939025879,
      "learning_rate": 4.865610399011696e-05,
      "loss": 1.9581,
      "step": 777
    },
    {
      "epoch": 0.6753472222222222,
      "grad_norm": 14.199614524841309,
      "learning_rate": 4.8420231779936885e-05,
      "loss": 1.964,
      "step": 778
    },
    {
      "epoch": 0.6762152777777778,
      "grad_norm": 14.712546348571777,
      "learning_rate": 4.818474991298541e-05,
      "loss": 2.0005,
      "step": 779
    },
    {
      "epoch": 0.6770833333333334,
      "grad_norm": 14.282362937927246,
      "learning_rate": 4.7949660171332475e-05,
      "loss": 1.8183,
      "step": 780
    },
    {
      "epoch": 0.6779513888888888,
      "grad_norm": 20.02650260925293,
      "learning_rate": 4.771496433408043e-05,
      "loss": 2.0001,
      "step": 781
    },
    {
      "epoch": 0.6788194444444444,
      "grad_norm": 16.86726188659668,
      "learning_rate": 4.748066417735068e-05,
      "loss": 1.8494,
      "step": 782
    },
    {
      "epoch": 0.6796875,
      "grad_norm": 16.731599807739258,
      "learning_rate": 4.724676147427018e-05,
      "loss": 2.0999,
      "step": 783
    },
    {
      "epoch": 0.6805555555555556,
      "grad_norm": 12.958636283874512,
      "learning_rate": 4.701325799495817e-05,
      "loss": 1.9338,
      "step": 784
    },
    {
      "epoch": 0.6814236111111112,
      "grad_norm": 16.30995750427246,
      "learning_rate": 4.678015550651258e-05,
      "loss": 1.934,
      "step": 785
    },
    {
      "epoch": 0.6822916666666666,
      "grad_norm": 15.418025970458984,
      "learning_rate": 4.654745577299674e-05,
      "loss": 1.6663,
      "step": 786
    },
    {
      "epoch": 0.6831597222222222,
      "grad_norm": 13.731332778930664,
      "learning_rate": 4.631516055542601e-05,
      "loss": 1.8579,
      "step": 787
    },
    {
      "epoch": 0.6840277777777778,
      "grad_norm": 12.98118782043457,
      "learning_rate": 4.6083271611754476e-05,
      "loss": 2.1614,
      "step": 788
    },
    {
      "epoch": 0.6848958333333334,
      "grad_norm": 12.849787712097168,
      "learning_rate": 4.585179069686171e-05,
      "loss": 1.8389,
      "step": 789
    },
    {
      "epoch": 0.6857638888888888,
      "grad_norm": 15.817699432373047,
      "learning_rate": 4.5620719562539314e-05,
      "loss": 1.9226,
      "step": 790
    },
    {
      "epoch": 0.6866319444444444,
      "grad_norm": 14.717578887939453,
      "learning_rate": 4.5390059957477904e-05,
      "loss": 1.8674,
      "step": 791
    },
    {
      "epoch": 0.6875,
      "grad_norm": 17.49150276184082,
      "learning_rate": 4.515981362725361e-05,
      "loss": 1.8261,
      "step": 792
    },
    {
      "epoch": 0.6883680555555556,
      "grad_norm": 19.413713455200195,
      "learning_rate": 4.4929982314315024e-05,
      "loss": 1.7202,
      "step": 793
    },
    {
      "epoch": 0.6892361111111112,
      "grad_norm": 19.134525299072266,
      "learning_rate": 4.470056775797008e-05,
      "loss": 1.9247,
      "step": 794
    },
    {
      "epoch": 0.6901041666666666,
      "grad_norm": 16.60801124572754,
      "learning_rate": 4.447157169437267e-05,
      "loss": 2.0034,
      "step": 795
    },
    {
      "epoch": 0.6909722222222222,
      "grad_norm": 16.824369430541992,
      "learning_rate": 4.424299585650977e-05,
      "loss": 1.9362,
      "step": 796
    },
    {
      "epoch": 0.6918402777777778,
      "grad_norm": 17.961692810058594,
      "learning_rate": 4.401484197418807e-05,
      "loss": 1.8643,
      "step": 797
    },
    {
      "epoch": 0.6927083333333334,
      "grad_norm": 21.15089988708496,
      "learning_rate": 4.3787111774021014e-05,
      "loss": 1.9506,
      "step": 798
    },
    {
      "epoch": 0.6935763888888888,
      "grad_norm": 24.73053550720215,
      "learning_rate": 4.355980697941584e-05,
      "loss": 2.0877,
      "step": 799
    },
    {
      "epoch": 0.6944444444444444,
      "grad_norm": 34.46087646484375,
      "learning_rate": 4.3332929310560265e-05,
      "loss": 1.8522,
      "step": 800
    },
    {
      "epoch": 0.6953125,
      "grad_norm": 8.951723098754883,
      "learning_rate": 4.310648048440975e-05,
      "loss": 1.9765,
      "step": 801
    },
    {
      "epoch": 0.6961805555555556,
      "grad_norm": 8.993708610534668,
      "learning_rate": 4.2880462214674287e-05,
      "loss": 1.8379,
      "step": 802
    },
    {
      "epoch": 0.6970486111111112,
      "grad_norm": 9.19201946258545,
      "learning_rate": 4.2654876211805527e-05,
      "loss": 1.7827,
      "step": 803
    },
    {
      "epoch": 0.6979166666666666,
      "grad_norm": 9.752361297607422,
      "learning_rate": 4.2429724182983935e-05,
      "loss": 1.7326,
      "step": 804
    },
    {
      "epoch": 0.6987847222222222,
      "grad_norm": 11.15304183959961,
      "learning_rate": 4.220500783210559e-05,
      "loss": 2.0252,
      "step": 805
    },
    {
      "epoch": 0.6996527777777778,
      "grad_norm": 11.194067001342773,
      "learning_rate": 4.198072885976966e-05,
      "loss": 1.9484,
      "step": 806
    },
    {
      "epoch": 0.7005208333333334,
      "grad_norm": 9.688783645629883,
      "learning_rate": 4.1756888963265194e-05,
      "loss": 1.9918,
      "step": 807
    },
    {
      "epoch": 0.7013888888888888,
      "grad_norm": 11.591280937194824,
      "learning_rate": 4.153348983655844e-05,
      "loss": 1.806,
      "step": 808
    },
    {
      "epoch": 0.7022569444444444,
      "grad_norm": 11.173543930053711,
      "learning_rate": 4.1310533170280084e-05,
      "loss": 1.8658,
      "step": 809
    },
    {
      "epoch": 0.703125,
      "grad_norm": 14.811725616455078,
      "learning_rate": 4.108802065171229e-05,
      "loss": 1.8853,
      "step": 810
    },
    {
      "epoch": 0.7039930555555556,
      "grad_norm": 15.026256561279297,
      "learning_rate": 4.086595396477611e-05,
      "loss": 2.0679,
      "step": 811
    },
    {
      "epoch": 0.7048611111111112,
      "grad_norm": 10.38699722290039,
      "learning_rate": 4.064433479001857e-05,
      "loss": 1.9456,
      "step": 812
    },
    {
      "epoch": 0.7057291666666666,
      "grad_norm": 13.468440055847168,
      "learning_rate": 4.042316480460001e-05,
      "loss": 1.9493,
      "step": 813
    },
    {
      "epoch": 0.7065972222222222,
      "grad_norm": 15.555776596069336,
      "learning_rate": 4.020244568228155e-05,
      "loss": 1.8852,
      "step": 814
    },
    {
      "epoch": 0.7074652777777778,
      "grad_norm": 11.897953987121582,
      "learning_rate": 3.998217909341213e-05,
      "loss": 2.0327,
      "step": 815
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 12.633040428161621,
      "learning_rate": 3.9762366704916165e-05,
      "loss": 1.709,
      "step": 816
    },
    {
      "epoch": 0.7092013888888888,
      "grad_norm": 12.071878433227539,
      "learning_rate": 3.954301018028068e-05,
      "loss": 1.7543,
      "step": 817
    },
    {
      "epoch": 0.7100694444444444,
      "grad_norm": 12.684844017028809,
      "learning_rate": 3.932411117954286e-05,
      "loss": 1.7642,
      "step": 818
    },
    {
      "epoch": 0.7109375,
      "grad_norm": 11.684479713439941,
      "learning_rate": 3.9105671359277517e-05,
      "loss": 2.0108,
      "step": 819
    },
    {
      "epoch": 0.7118055555555556,
      "grad_norm": 22.061206817626953,
      "learning_rate": 3.8887692372584405e-05,
      "loss": 1.6975,
      "step": 820
    },
    {
      "epoch": 0.7126736111111112,
      "grad_norm": 13.567614555358887,
      "learning_rate": 3.867017586907591e-05,
      "loss": 1.9444,
      "step": 821
    },
    {
      "epoch": 0.7135416666666666,
      "grad_norm": 13.34210205078125,
      "learning_rate": 3.845312349486437e-05,
      "loss": 1.619,
      "step": 822
    },
    {
      "epoch": 0.7144097222222222,
      "grad_norm": 12.922858238220215,
      "learning_rate": 3.82365368925497e-05,
      "loss": 1.9284,
      "step": 823
    },
    {
      "epoch": 0.7152777777777778,
      "grad_norm": 12.862595558166504,
      "learning_rate": 3.8020417701207056e-05,
      "loss": 1.9332,
      "step": 824
    },
    {
      "epoch": 0.7161458333333334,
      "grad_norm": 14.289531707763672,
      "learning_rate": 3.780476755637421e-05,
      "loss": 1.7273,
      "step": 825
    },
    {
      "epoch": 0.7170138888888888,
      "grad_norm": 12.516698837280273,
      "learning_rate": 3.758958809003945e-05,
      "loss": 1.9387,
      "step": 826
    },
    {
      "epoch": 0.7178819444444444,
      "grad_norm": 14.04725456237793,
      "learning_rate": 3.7374880930628986e-05,
      "loss": 1.824,
      "step": 827
    },
    {
      "epoch": 0.71875,
      "grad_norm": 13.029735565185547,
      "learning_rate": 3.71606477029947e-05,
      "loss": 2.0721,
      "step": 828
    },
    {
      "epoch": 0.7196180555555556,
      "grad_norm": 16.414342880249023,
      "learning_rate": 3.694689002840198e-05,
      "loss": 2.0021,
      "step": 829
    },
    {
      "epoch": 0.7204861111111112,
      "grad_norm": 15.33515739440918,
      "learning_rate": 3.673360952451722e-05,
      "loss": 2.2091,
      "step": 830
    },
    {
      "epoch": 0.7213541666666666,
      "grad_norm": 13.48131275177002,
      "learning_rate": 3.652080780539584e-05,
      "loss": 1.8521,
      "step": 831
    },
    {
      "epoch": 0.7222222222222222,
      "grad_norm": 13.361886024475098,
      "learning_rate": 3.6308486481469805e-05,
      "loss": 2.0773,
      "step": 832
    },
    {
      "epoch": 0.7230902777777778,
      "grad_norm": 11.877111434936523,
      "learning_rate": 3.609664715953559e-05,
      "loss": 2.1115,
      "step": 833
    },
    {
      "epoch": 0.7239583333333334,
      "grad_norm": 12.948386192321777,
      "learning_rate": 3.5885291442742084e-05,
      "loss": 1.9481,
      "step": 834
    },
    {
      "epoch": 0.7248263888888888,
      "grad_norm": 16.159982681274414,
      "learning_rate": 3.567442093057825e-05,
      "loss": 1.9765,
      "step": 835
    },
    {
      "epoch": 0.7256944444444444,
      "grad_norm": 14.263628005981445,
      "learning_rate": 3.546403721886126e-05,
      "loss": 2.0117,
      "step": 836
    },
    {
      "epoch": 0.7265625,
      "grad_norm": 16.48017120361328,
      "learning_rate": 3.5254141899724194e-05,
      "loss": 1.8066,
      "step": 837
    },
    {
      "epoch": 0.7274305555555556,
      "grad_norm": 13.726114273071289,
      "learning_rate": 3.50447365616041e-05,
      "loss": 2.1094,
      "step": 838
    },
    {
      "epoch": 0.7282986111111112,
      "grad_norm": 14.276023864746094,
      "learning_rate": 3.483582278923007e-05,
      "loss": 1.8664,
      "step": 839
    },
    {
      "epoch": 0.7291666666666666,
      "grad_norm": 18.12653923034668,
      "learning_rate": 3.462740216361101e-05,
      "loss": 1.8786,
      "step": 840
    },
    {
      "epoch": 0.7300347222222222,
      "grad_norm": 21.137271881103516,
      "learning_rate": 3.4419476262023956e-05,
      "loss": 1.8441,
      "step": 841
    },
    {
      "epoch": 0.7309027777777778,
      "grad_norm": 17.655916213989258,
      "learning_rate": 3.421204665800186e-05,
      "loss": 1.8011,
      "step": 842
    },
    {
      "epoch": 0.7317708333333334,
      "grad_norm": 18.322494506835938,
      "learning_rate": 3.400511492132186e-05,
      "loss": 1.8712,
      "step": 843
    },
    {
      "epoch": 0.7326388888888888,
      "grad_norm": 17.434764862060547,
      "learning_rate": 3.3798682617993405e-05,
      "loss": 2.154,
      "step": 844
    },
    {
      "epoch": 0.7335069444444444,
      "grad_norm": 19.5579891204834,
      "learning_rate": 3.359275131024625e-05,
      "loss": 1.9943,
      "step": 845
    },
    {
      "epoch": 0.734375,
      "grad_norm": 17.29096794128418,
      "learning_rate": 3.338732255651887e-05,
      "loss": 1.9581,
      "step": 846
    },
    {
      "epoch": 0.7352430555555556,
      "grad_norm": 18.496713638305664,
      "learning_rate": 3.3182397911446436e-05,
      "loss": 2.2199,
      "step": 847
    },
    {
      "epoch": 0.7361111111111112,
      "grad_norm": 18.556528091430664,
      "learning_rate": 3.297797892584912e-05,
      "loss": 1.9854,
      "step": 848
    },
    {
      "epoch": 0.7369791666666666,
      "grad_norm": 25.773399353027344,
      "learning_rate": 3.277406714672049e-05,
      "loss": 1.9984,
      "step": 849
    },
    {
      "epoch": 0.7378472222222222,
      "grad_norm": 25.727313995361328,
      "learning_rate": 3.25706641172156e-05,
      "loss": 2.1087,
      "step": 850
    },
    {
      "epoch": 0.7387152777777778,
      "grad_norm": 7.924264907836914,
      "learning_rate": 3.236777137663951e-05,
      "loss": 1.934,
      "step": 851
    },
    {
      "epoch": 0.7395833333333334,
      "grad_norm": 9.656967163085938,
      "learning_rate": 3.216539046043544e-05,
      "loss": 1.9493,
      "step": 852
    },
    {
      "epoch": 0.7404513888888888,
      "grad_norm": 11.180512428283691,
      "learning_rate": 3.1963522900173294e-05,
      "loss": 1.757,
      "step": 853
    },
    {
      "epoch": 0.7413194444444444,
      "grad_norm": 10.119717597961426,
      "learning_rate": 3.176217022353798e-05,
      "loss": 1.8852,
      "step": 854
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 9.676684379577637,
      "learning_rate": 3.156133395431795e-05,
      "loss": 1.9624,
      "step": 855
    },
    {
      "epoch": 0.7430555555555556,
      "grad_norm": 11.20287799835205,
      "learning_rate": 3.136101561239363e-05,
      "loss": 1.9457,
      "step": 856
    },
    {
      "epoch": 0.7439236111111112,
      "grad_norm": 11.181528091430664,
      "learning_rate": 3.116121671372582e-05,
      "loss": 1.7557,
      "step": 857
    },
    {
      "epoch": 0.7447916666666666,
      "grad_norm": 10.499610900878906,
      "learning_rate": 3.09619387703443e-05,
      "loss": 1.9088,
      "step": 858
    },
    {
      "epoch": 0.7456597222222222,
      "grad_norm": 11.516838073730469,
      "learning_rate": 3.076318329033643e-05,
      "loss": 1.8707,
      "step": 859
    },
    {
      "epoch": 0.7465277777777778,
      "grad_norm": 10.864989280700684,
      "learning_rate": 3.056495177783567e-05,
      "loss": 1.8237,
      "step": 860
    },
    {
      "epoch": 0.7473958333333334,
      "grad_norm": 11.022418022155762,
      "learning_rate": 3.0367245733010298e-05,
      "loss": 1.8337,
      "step": 861
    },
    {
      "epoch": 0.7482638888888888,
      "grad_norm": 11.150386810302734,
      "learning_rate": 3.0170066652051866e-05,
      "loss": 1.7956,
      "step": 862
    },
    {
      "epoch": 0.7491319444444444,
      "grad_norm": 13.350703239440918,
      "learning_rate": 2.9973416027164025e-05,
      "loss": 2.0799,
      "step": 863
    },
    {
      "epoch": 0.75,
      "grad_norm": 11.85857105255127,
      "learning_rate": 2.9777295346551194e-05,
      "loss": 1.8546,
      "step": 864
    },
    {
      "epoch": 0.75,
      "eval_loss": 1.9340541362762451,
      "eval_runtime": 27.3912,
      "eval_samples_per_second": 17.706,
      "eval_steps_per_second": 8.871,
      "step": 864
    }
  ],
  "logging_steps": 1,
  "max_steps": 1152,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 288,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.0286133901184205e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}