{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998853342506593,
  "eval_steps": 500,
  "global_step": 2180,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00045866299736268775,
      "grad_norm": 94.91720037979645,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 9.0291,
      "step": 1
    },
    {
      "epoch": 0.0009173259947253755,
      "grad_norm": 101.71547594986902,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 9.05,
      "step": 2
    },
    {
      "epoch": 0.0013759889920880633,
      "grad_norm": 83.43335326409905,
      "learning_rate": 4.545454545454546e-05,
      "loss": 8.2202,
      "step": 3
    },
    {
      "epoch": 0.001834651989450751,
      "grad_norm": 26.3385452097799,
      "learning_rate": 6.060606060606061e-05,
      "loss": 7.058,
      "step": 4
    },
    {
      "epoch": 0.002293314986813439,
      "grad_norm": 19.83045411015954,
      "learning_rate": 7.575757575757576e-05,
      "loss": 6.5682,
      "step": 5
    },
    {
      "epoch": 0.0027519779841761265,
      "grad_norm": 15.065231407024658,
      "learning_rate": 9.090909090909092e-05,
      "loss": 6.119,
      "step": 6
    },
    {
      "epoch": 0.0032106409815388145,
      "grad_norm": 10.617771275702717,
      "learning_rate": 0.00010606060606060606,
      "loss": 5.881,
      "step": 7
    },
    {
      "epoch": 0.003669303978901502,
      "grad_norm": 8.968974595124646,
      "learning_rate": 0.00012121212121212122,
      "loss": 5.4837,
      "step": 8
    },
    {
      "epoch": 0.0041279669762641896,
      "grad_norm": 6.000074611944224,
      "learning_rate": 0.00013636363636363637,
      "loss": 5.3012,
      "step": 9
    },
    {
      "epoch": 0.004586629973626878,
      "grad_norm": 6.708825914896845,
      "learning_rate": 0.00015151515151515152,
      "loss": 5.1555,
      "step": 10
    },
    {
      "epoch": 0.0050452929709895655,
      "grad_norm": 4.992999119728789,
      "learning_rate": 0.00016666666666666666,
      "loss": 5.027,
      "step": 11
    },
    {
      "epoch": 0.005503955968352253,
      "grad_norm": 4.175275601160158,
      "learning_rate": 0.00018181818181818183,
      "loss": 5.0389,
      "step": 12
    },
    {
      "epoch": 0.0059626189657149406,
      "grad_norm": 4.318118697223771,
      "learning_rate": 0.00019696969696969695,
      "loss": 4.9685,
      "step": 13
    },
    {
      "epoch": 0.006421281963077629,
      "grad_norm": 3.2636917278136104,
      "learning_rate": 0.00021212121212121213,
      "loss": 4.8594,
      "step": 14
    },
    {
      "epoch": 0.0068799449604403165,
      "grad_norm": 2.905256799109357,
      "learning_rate": 0.00022727272727272727,
      "loss": 4.7464,
      "step": 15
    },
    {
      "epoch": 0.007338607957803004,
      "grad_norm": 2.2200684133631006,
      "learning_rate": 0.00024242424242424245,
      "loss": 4.6329,
      "step": 16
    },
    {
      "epoch": 0.007797270955165692,
      "grad_norm": 2.2437658867669272,
      "learning_rate": 0.00025757575757575756,
      "loss": 4.5017,
      "step": 17
    },
    {
      "epoch": 0.008255933952528379,
      "grad_norm": 2.4676667520500195,
      "learning_rate": 0.00027272727272727274,
      "loss": 4.5156,
      "step": 18
    },
    {
      "epoch": 0.008714596949891068,
      "grad_norm": 2.7094952191870547,
      "learning_rate": 0.0002878787878787879,
      "loss": 4.42,
      "step": 19
    },
    {
      "epoch": 0.009173259947253756,
      "grad_norm": 2.193480510112579,
      "learning_rate": 0.00030303030303030303,
      "loss": 4.6096,
      "step": 20
    },
    {
      "epoch": 0.009631922944616443,
      "grad_norm": 2.1563636539017708,
      "learning_rate": 0.0003181818181818182,
      "loss": 4.5449,
      "step": 21
    },
    {
      "epoch": 0.010090585941979131,
      "grad_norm": 1.8171537932557602,
      "learning_rate": 0.0003333333333333333,
      "loss": 4.3684,
      "step": 22
    },
    {
      "epoch": 0.010549248939341819,
      "grad_norm": 1.7061028569975263,
      "learning_rate": 0.0003484848484848485,
      "loss": 4.243,
      "step": 23
    },
    {
      "epoch": 0.011007911936704506,
      "grad_norm": 1.2259258612356316,
      "learning_rate": 0.00036363636363636367,
      "loss": 4.3603,
      "step": 24
    },
    {
      "epoch": 0.011466574934067194,
      "grad_norm": 1.8162044502178398,
      "learning_rate": 0.0003787878787878788,
      "loss": 4.2115,
      "step": 25
    },
    {
      "epoch": 0.011925237931429881,
      "grad_norm": 1.4243020609819335,
      "learning_rate": 0.0003939393939393939,
      "loss": 4.1503,
      "step": 26
    },
    {
      "epoch": 0.01238390092879257,
      "grad_norm": 1.09851750619946,
      "learning_rate": 0.00040909090909090913,
      "loss": 4.1925,
      "step": 27
    },
    {
      "epoch": 0.012842563926155258,
      "grad_norm": 1.3406399182305646,
      "learning_rate": 0.00042424242424242425,
      "loss": 4.1171,
      "step": 28
    },
    {
      "epoch": 0.013301226923517945,
      "grad_norm": 1.7760874407629077,
      "learning_rate": 0.0004393939393939394,
      "loss": 4.1975,
      "step": 29
    },
    {
      "epoch": 0.013759889920880633,
      "grad_norm": 0.8584251870293774,
      "learning_rate": 0.00045454545454545455,
      "loss": 4.0845,
      "step": 30
    },
    {
      "epoch": 0.01421855291824332,
      "grad_norm": 1.2446943978340048,
      "learning_rate": 0.0004696969696969697,
      "loss": 4.0697,
      "step": 31
    },
    {
      "epoch": 0.014677215915606008,
      "grad_norm": 1.0999821684599234,
      "learning_rate": 0.0004848484848484849,
      "loss": 4.1277,
      "step": 32
    },
    {
      "epoch": 0.015135878912968696,
      "grad_norm": 0.8757970476367541,
      "learning_rate": 0.0005,
      "loss": 4.0525,
      "step": 33
    },
    {
      "epoch": 0.015594541910331383,
      "grad_norm": 0.781507623456445,
      "learning_rate": 0.0005151515151515151,
      "loss": 4.081,
      "step": 34
    },
    {
      "epoch": 0.01605320490769407,
      "grad_norm": 1.0353710834326222,
      "learning_rate": 0.0005303030303030302,
      "loss": 4.0275,
      "step": 35
    },
    {
      "epoch": 0.016511867905056758,
      "grad_norm": 0.7377871593490563,
      "learning_rate": 0.0005454545454545455,
      "loss": 3.903,
      "step": 36
    },
    {
      "epoch": 0.016970530902419446,
      "grad_norm": 0.9038199870737266,
      "learning_rate": 0.0005606060606060606,
      "loss": 3.9822,
      "step": 37
    },
    {
      "epoch": 0.017429193899782137,
      "grad_norm": 0.7805981776683716,
      "learning_rate": 0.0005757575757575758,
      "loss": 3.9711,
      "step": 38
    },
    {
      "epoch": 0.017887856897144824,
      "grad_norm": 0.7462128289924159,
      "learning_rate": 0.0005909090909090909,
      "loss": 3.9908,
      "step": 39
    },
    {
      "epoch": 0.018346519894507512,
      "grad_norm": 0.8286603250086306,
      "learning_rate": 0.0006060606060606061,
      "loss": 3.9405,
      "step": 40
    },
    {
      "epoch": 0.0188051828918702,
      "grad_norm": 0.8672725729161134,
      "learning_rate": 0.0006212121212121212,
      "loss": 3.8594,
      "step": 41
    },
    {
      "epoch": 0.019263845889232887,
      "grad_norm": 0.6988721433838895,
      "learning_rate": 0.0006363636363636364,
      "loss": 3.8438,
      "step": 42
    },
    {
      "epoch": 0.019722508886595574,
      "grad_norm": 0.6223764993050165,
      "learning_rate": 0.0006515151515151515,
      "loss": 3.9331,
      "step": 43
    },
    {
      "epoch": 0.020181171883958262,
      "grad_norm": 0.6659179495274257,
      "learning_rate": 0.0006666666666666666,
      "loss": 3.8071,
      "step": 44
    },
    {
      "epoch": 0.02063983488132095,
      "grad_norm": 0.6501642807881451,
      "learning_rate": 0.0006818181818181818,
      "loss": 3.7697,
      "step": 45
    },
    {
      "epoch": 0.021098497878683637,
      "grad_norm": 0.8008428241557766,
      "learning_rate": 0.000696969696969697,
      "loss": 3.8544,
      "step": 46
    },
    {
      "epoch": 0.021557160876046325,
      "grad_norm": 0.7480488494053457,
      "learning_rate": 0.0007121212121212122,
      "loss": 3.7485,
      "step": 47
    },
    {
      "epoch": 0.022015823873409012,
      "grad_norm": 0.7059660539019573,
      "learning_rate": 0.0007272727272727273,
      "loss": 3.7489,
      "step": 48
    },
    {
      "epoch": 0.0224744868707717,
      "grad_norm": 0.7611299813818921,
      "learning_rate": 0.0007424242424242425,
      "loss": 3.8779,
      "step": 49
    },
    {
      "epoch": 0.022933149868134387,
      "grad_norm": 0.739299397726759,
      "learning_rate": 0.0007575757575757576,
      "loss": 3.8209,
      "step": 50
    },
    {
      "epoch": 0.023391812865497075,
      "grad_norm": 0.7771680805813413,
      "learning_rate": 0.0007727272727272727,
      "loss": 3.787,
      "step": 51
    },
    {
      "epoch": 0.023850475862859762,
      "grad_norm": 0.6750023661508531,
      "learning_rate": 0.0007878787878787878,
      "loss": 3.8211,
      "step": 52
    },
    {
      "epoch": 0.024309138860222453,
      "grad_norm": 0.684442442986646,
      "learning_rate": 0.000803030303030303,
      "loss": 3.8226,
      "step": 53
    },
    {
      "epoch": 0.02476780185758514,
      "grad_norm": 0.7059937104575594,
      "learning_rate": 0.0008181818181818183,
      "loss": 3.7273,
      "step": 54
    },
    {
      "epoch": 0.02522646485494783,
      "grad_norm": 0.8148656238835853,
      "learning_rate": 0.0008333333333333334,
      "loss": 3.7128,
      "step": 55
    },
    {
      "epoch": 0.025685127852310516,
      "grad_norm": 0.834966220259911,
      "learning_rate": 0.0008484848484848485,
      "loss": 3.8004,
      "step": 56
    },
    {
      "epoch": 0.026143790849673203,
      "grad_norm": 0.6995254031256918,
      "learning_rate": 0.0008636363636363636,
      "loss": 3.7362,
      "step": 57
    },
    {
      "epoch": 0.02660245384703589,
      "grad_norm": 0.730116329560263,
      "learning_rate": 0.0008787878787878789,
      "loss": 3.8303,
      "step": 58
    },
    {
      "epoch": 0.02706111684439858,
      "grad_norm": 0.9662849141555011,
      "learning_rate": 0.000893939393939394,
      "loss": 3.6784,
      "step": 59
    },
    {
      "epoch": 0.027519779841761266,
      "grad_norm": 0.7013384763913424,
      "learning_rate": 0.0009090909090909091,
      "loss": 3.6082,
      "step": 60
    },
    {
      "epoch": 0.027978442839123954,
      "grad_norm": 1.2554111703093407,
      "learning_rate": 0.0009242424242424242,
      "loss": 3.5332,
      "step": 61
    },
    {
      "epoch": 0.02843710583648664,
      "grad_norm": 0.9297682907284036,
      "learning_rate": 0.0009393939393939394,
      "loss": 3.6265,
      "step": 62
    },
    {
      "epoch": 0.02889576883384933,
      "grad_norm": 0.876513793510377,
      "learning_rate": 0.0009545454545454546,
      "loss": 3.6098,
      "step": 63
    },
    {
      "epoch": 0.029354431831212016,
      "grad_norm": 1.1350461350775416,
      "learning_rate": 0.0009696969696969698,
      "loss": 3.7417,
      "step": 64
    },
    {
      "epoch": 0.029813094828574704,
      "grad_norm": 0.9004641622425228,
      "learning_rate": 0.000984848484848485,
      "loss": 3.5205,
      "step": 65
    },
    {
      "epoch": 0.03027175782593739,
      "grad_norm": 0.9580948093876742,
      "learning_rate": 0.001,
      "loss": 3.6324,
      "step": 66
    },
    {
      "epoch": 0.03073042082330008,
      "grad_norm": 0.8662306852269482,
      "learning_rate": 0.0009999994478847943,
      "loss": 3.641,
      "step": 67
    },
    {
      "epoch": 0.031189083820662766,
      "grad_norm": 0.8041257557188428,
      "learning_rate": 0.0009999977915403962,
      "loss": 3.4942,
      "step": 68
    },
    {
      "epoch": 0.03164774681802546,
      "grad_norm": 1.0248890738115435,
      "learning_rate": 0.0009999950309704639,
      "loss": 3.5353,
      "step": 69
    },
    {
      "epoch": 0.03210640981538814,
      "grad_norm": 0.8530048444169853,
      "learning_rate": 0.000999991166181094,
      "loss": 3.465,
      "step": 70
    },
    {
      "epoch": 0.03256507281275083,
      "grad_norm": 1.0141012437311787,
      "learning_rate": 0.0009999861971808216,
      "loss": 3.5414,
      "step": 71
    },
    {
      "epoch": 0.033023735810113516,
      "grad_norm": 1.056796228329512,
      "learning_rate": 0.0009999801239806208,
      "loss": 3.5266,
      "step": 72
    },
    {
      "epoch": 0.03348239880747621,
      "grad_norm": 0.8582844740936975,
      "learning_rate": 0.0009999729465939035,
      "loss": 3.4091,
      "step": 73
    },
    {
      "epoch": 0.03394106180483889,
      "grad_norm": 1.0657312954968683,
      "learning_rate": 0.0009999646650365212,
      "loss": 3.4954,
      "step": 74
    },
    {
      "epoch": 0.03439972480220158,
      "grad_norm": 0.8680105250984556,
      "learning_rate": 0.0009999552793267634,
      "loss": 3.5034,
      "step": 75
    },
    {
      "epoch": 0.034858387799564274,
      "grad_norm": 0.9869927702814052,
      "learning_rate": 0.0009999447894853577,
      "loss": 3.4515,
      "step": 76
    },
    {
      "epoch": 0.03531705079692696,
      "grad_norm": 0.9975540649287513,
      "learning_rate": 0.0009999331955354708,
      "loss": 3.4318,
      "step": 77
    },
    {
      "epoch": 0.03577571379428965,
      "grad_norm": 0.919347144887798,
      "learning_rate": 0.0009999204975027073,
      "loss": 3.4247,
      "step": 78
    },
    {
      "epoch": 0.03623437679165233,
      "grad_norm": 0.9802006576281751,
      "learning_rate": 0.0009999066954151103,
      "loss": 3.3702,
      "step": 79
    },
    {
      "epoch": 0.036693039789015024,
      "grad_norm": 0.9769357251015437,
      "learning_rate": 0.0009998917893031614,
      "loss": 3.4404,
      "step": 80
    },
    {
      "epoch": 0.03715170278637771,
      "grad_norm": 1.002472403319857,
      "learning_rate": 0.0009998757791997801,
      "loss": 3.3231,
      "step": 81
    },
    {
      "epoch": 0.0376103657837404,
      "grad_norm": 0.9683320430829148,
      "learning_rate": 0.0009998586651403238,
      "loss": 3.3509,
      "step": 82
    },
    {
      "epoch": 0.03806902878110308,
      "grad_norm": 0.8690998823505981,
      "learning_rate": 0.0009998404471625885,
      "loss": 3.3418,
      "step": 83
    },
    {
      "epoch": 0.038527691778465774,
      "grad_norm": 1.0996465051487012,
      "learning_rate": 0.0009998211253068078,
      "loss": 3.3859,
      "step": 84
    },
    {
      "epoch": 0.03898635477582846,
      "grad_norm": 1.0230711757373894,
      "learning_rate": 0.0009998006996156535,
      "loss": 3.4418,
      "step": 85
    },
    {
      "epoch": 0.03944501777319115,
      "grad_norm": 1.2347095559178825,
      "learning_rate": 0.0009997791701342347,
      "loss": 3.3763,
      "step": 86
    },
    {
      "epoch": 0.03990368077055383,
      "grad_norm": 1.045393817391697,
      "learning_rate": 0.0009997565369100983,
      "loss": 3.2305,
      "step": 87
    },
    {
      "epoch": 0.040362343767916524,
      "grad_norm": 0.8390187611627916,
      "learning_rate": 0.0009997327999932291,
      "loss": 3.3552,
      "step": 88
    },
    {
      "epoch": 0.04082100676527921,
      "grad_norm": 0.9780757929811912,
      "learning_rate": 0.000999707959436049,
      "loss": 3.3394,
      "step": 89
    },
    {
      "epoch": 0.0412796697626419,
      "grad_norm": 0.9573605340798439,
      "learning_rate": 0.0009996820152934176,
      "loss": 3.3781,
      "step": 90
    },
    {
      "epoch": 0.04173833276000459,
      "grad_norm": 0.7932482432106359,
      "learning_rate": 0.000999654967622631,
      "loss": 3.2233,
      "step": 91
    },
    {
      "epoch": 0.042196995757367274,
      "grad_norm": 0.9825396952710526,
      "learning_rate": 0.0009996268164834238,
      "loss": 3.2631,
      "step": 92
    },
    {
      "epoch": 0.042655658754729965,
      "grad_norm": 0.9687389969695492,
      "learning_rate": 0.000999597561937966,
      "loss": 3.2555,
      "step": 93
    },
    {
      "epoch": 0.04311432175209265,
      "grad_norm": 0.8342532652979258,
      "learning_rate": 0.0009995672040508656,
      "loss": 3.2705,
      "step": 94
    },
    {
      "epoch": 0.04357298474945534,
      "grad_norm": 0.8753815582864475,
      "learning_rate": 0.0009995357428891662,
      "loss": 3.2256,
      "step": 95
    },
    {
      "epoch": 0.044031647746818024,
      "grad_norm": 0.9451344298325461,
      "learning_rate": 0.0009995031785223491,
      "loss": 3.2934,
      "step": 96
    },
    {
      "epoch": 0.044490310744180715,
      "grad_norm": 0.894054693234668,
      "learning_rate": 0.000999469511022331,
      "loss": 3.38,
      "step": 97
    },
    {
      "epoch": 0.0449489737415434,
      "grad_norm": 0.9135540370882687,
      "learning_rate": 0.0009994347404634657,
      "loss": 3.2515,
      "step": 98
    },
    {
      "epoch": 0.04540763673890609,
      "grad_norm": 1.040076400891071,
      "learning_rate": 0.0009993988669225423,
      "loss": 3.2489,
      "step": 99
    },
    {
      "epoch": 0.045866299736268774,
      "grad_norm": 1.0049809153514824,
      "learning_rate": 0.000999361890478786,
      "loss": 3.2579,
      "step": 100
    },
    {
      "epoch": 0.046324962733631465,
      "grad_norm": 1.0861835827291306,
      "learning_rate": 0.0009993238112138583,
      "loss": 3.2625,
      "step": 101
    },
    {
      "epoch": 0.04678362573099415,
      "grad_norm": 0.9133727552865518,
      "learning_rate": 0.0009992846292118554,
      "loss": 3.0859,
      "step": 102
    },
    {
      "epoch": 0.04724228872835684,
      "grad_norm": 0.865434717180096,
      "learning_rate": 0.000999244344559309,
      "loss": 3.1464,
      "step": 103
    },
    {
      "epoch": 0.047700951725719525,
      "grad_norm": 0.8762399659392192,
      "learning_rate": 0.0009992029573451869,
      "loss": 3.1846,
      "step": 104
    },
    {
      "epoch": 0.048159614723082216,
      "grad_norm": 0.8140440546067337,
      "learning_rate": 0.0009991604676608905,
      "loss": 3.1341,
      "step": 105
    },
    {
      "epoch": 0.04861827772044491,
      "grad_norm": 0.9156241924826211,
      "learning_rate": 0.0009991168756002568,
      "loss": 3.2112,
      "step": 106
    },
    {
      "epoch": 0.04907694071780759,
      "grad_norm": 0.8891344811866911,
      "learning_rate": 0.0009990721812595574,
      "loss": 3.0426,
      "step": 107
    },
    {
      "epoch": 0.04953560371517028,
      "grad_norm": 0.9903559836311772,
      "learning_rate": 0.0009990263847374976,
      "loss": 3.0445,
      "step": 108
    },
    {
      "epoch": 0.049994266712532966,
      "grad_norm": 1.076400064248587,
      "learning_rate": 0.0009989794861352173,
      "loss": 3.1339,
      "step": 109
    },
    {
      "epoch": 0.05045292970989566,
      "grad_norm": 0.9397276573936216,
      "learning_rate": 0.0009989314855562905,
      "loss": 3.1619,
      "step": 110
    },
    {
      "epoch": 0.05091159270725834,
      "grad_norm": 0.9095052845501628,
      "learning_rate": 0.0009988823831067245,
      "loss": 3.1825,
      "step": 111
    },
    {
      "epoch": 0.05137025570462103,
      "grad_norm": 0.8849328747411941,
      "learning_rate": 0.0009988321788949597,
      "loss": 3.1379,
      "step": 112
    },
    {
      "epoch": 0.051828918701983716,
      "grad_norm": 0.8696966314120781,
      "learning_rate": 0.0009987808730318709,
      "loss": 3.0376,
      "step": 113
    },
    {
      "epoch": 0.05228758169934641,
      "grad_norm": 0.8587401243748017,
      "learning_rate": 0.0009987284656307644,
      "loss": 3.0992,
      "step": 114
    },
    {
      "epoch": 0.05274624469670909,
      "grad_norm": 0.8651712160696691,
      "learning_rate": 0.0009986749568073802,
      "loss": 3.0961,
      "step": 115
    },
    {
      "epoch": 0.05320490769407178,
      "grad_norm": 0.8937336183940587,
      "learning_rate": 0.0009986203466798905,
      "loss": 3.1287,
      "step": 116
    },
    {
      "epoch": 0.053663570691434466,
      "grad_norm": 0.9164637927056476,
      "learning_rate": 0.0009985646353688996,
      "loss": 3.1893,
      "step": 117
    },
    {
      "epoch": 0.05412223368879716,
      "grad_norm": 0.9339679540784879,
      "learning_rate": 0.0009985078229974437,
      "loss": 3.0534,
      "step": 118
    },
    {
      "epoch": 0.05458089668615984,
      "grad_norm": 0.9545294248858923,
      "learning_rate": 0.0009984499096909905,
      "loss": 3.09,
      "step": 119
    },
    {
      "epoch": 0.05503955968352253,
      "grad_norm": 0.7840142228491465,
      "learning_rate": 0.0009983908955774397,
      "loss": 3.0746,
      "step": 120
    },
    {
      "epoch": 0.05549822268088522,
      "grad_norm": 0.9735201203679082,
      "learning_rate": 0.0009983307807871211,
      "loss": 2.997,
      "step": 121
    },
    {
      "epoch": 0.05595688567824791,
      "grad_norm": 0.8065517268485165,
      "learning_rate": 0.0009982695654527965,
      "loss": 3.0506,
      "step": 122
    },
    {
      "epoch": 0.0564155486756106,
      "grad_norm": 0.8658043869145459,
      "learning_rate": 0.0009982072497096571,
      "loss": 3.022,
      "step": 123
    },
    {
      "epoch": 0.05687421167297328,
      "grad_norm": 0.8524075174346004,
      "learning_rate": 0.000998143833695325,
      "loss": 2.9833,
      "step": 124
    },
    {
      "epoch": 0.05733287467033597,
      "grad_norm": 0.8707713417440819,
      "learning_rate": 0.0009980793175498517,
      "loss": 2.9778,
      "step": 125
    },
    {
      "epoch": 0.05779153766769866,
      "grad_norm": 0.8483135068001894,
      "learning_rate": 0.000998013701415719,
      "loss": 3.0109,
      "step": 126
    },
    {
      "epoch": 0.05825020066506135,
      "grad_norm": 0.8785974627740352,
      "learning_rate": 0.0009979469854378372,
      "loss": 2.9233,
      "step": 127
    },
    {
      "epoch": 0.05870886366242403,
      "grad_norm": 0.9848543893470231,
      "learning_rate": 0.000997879169763546,
      "loss": 2.9484,
      "step": 128
    },
    {
      "epoch": 0.05916752665978672,
      "grad_norm": 0.8437991254342702,
      "learning_rate": 0.000997810254542614,
      "loss": 2.978,
      "step": 129
    },
    {
      "epoch": 0.05962618965714941,
      "grad_norm": 0.9402305369674131,
      "learning_rate": 0.0009977402399272374,
      "loss": 2.9219,
      "step": 130
    },
    {
      "epoch": 0.0600848526545121,
      "grad_norm": 0.9208463528433839,
      "learning_rate": 0.0009976691260720407,
      "loss": 2.8582,
      "step": 131
    },
    {
      "epoch": 0.06054351565187478,
      "grad_norm": 0.929543653886986,
      "learning_rate": 0.0009975969131340763,
      "loss": 2.9233,
      "step": 132
    },
    {
      "epoch": 0.06100217864923747,
      "grad_norm": 0.9277115477607659,
      "learning_rate": 0.0009975236012728236,
      "loss": 2.9415,
      "step": 133
    },
    {
      "epoch": 0.06146084164660016,
      "grad_norm": 0.9476647740422921,
      "learning_rate": 0.0009974491906501886,
      "loss": 2.962,
      "step": 134
    },
    {
      "epoch": 0.06191950464396285,
      "grad_norm": 0.9307771997505145,
      "learning_rate": 0.0009973736814305049,
      "loss": 2.887,
      "step": 135
    },
    {
      "epoch": 0.06237816764132553,
      "grad_norm": 0.9890336495686072,
      "learning_rate": 0.0009972970737805312,
      "loss": 2.8923,
      "step": 136
    },
    {
      "epoch": 0.06283683063868822,
      "grad_norm": 1.0082361389922851,
      "learning_rate": 0.0009972193678694525,
      "loss": 2.9471,
      "step": 137
    },
    {
      "epoch": 0.06329549363605091,
      "grad_norm": 1.0456466611859567,
      "learning_rate": 0.0009971405638688794,
      "loss": 2.9104,
      "step": 138
    },
    {
      "epoch": 0.0637541566334136,
      "grad_norm": 0.9319515135996888,
      "learning_rate": 0.0009970606619528475,
      "loss": 2.8788,
      "step": 139
    },
    {
      "epoch": 0.06421281963077628,
      "grad_norm": 0.9156844234668876,
      "learning_rate": 0.000996979662297817,
      "loss": 2.9261,
      "step": 140
    },
    {
      "epoch": 0.06467148262813897,
      "grad_norm": 0.9249442625543222,
      "learning_rate": 0.0009968975650826721,
      "loss": 2.8174,
      "step": 141
    },
    {
      "epoch": 0.06513014562550166,
      "grad_norm": 0.8486195446742346,
      "learning_rate": 0.000996814370488722,
      "loss": 2.9189,
      "step": 142
    },
    {
      "epoch": 0.06558880862286436,
      "grad_norm": 0.9284876894877375,
      "learning_rate": 0.000996730078699698,
      "loss": 2.7702,
      "step": 143
    },
    {
      "epoch": 0.06604747162022703,
      "grad_norm": 0.8413674239641233,
      "learning_rate": 0.0009966446899017558,
      "loss": 2.7538,
      "step": 144
    },
    {
      "epoch": 0.06650613461758972,
      "grad_norm": 1.024645995535004,
      "learning_rate": 0.0009965582042834728,
      "loss": 2.8682,
      "step": 145
    },
    {
      "epoch": 0.06696479761495241,
      "grad_norm": 0.9554863636203471,
      "learning_rate": 0.0009964706220358492,
      "loss": 2.921,
      "step": 146
    },
    {
      "epoch": 0.0674234606123151,
      "grad_norm": 0.8705059533607158,
      "learning_rate": 0.000996381943352307,
      "loss": 2.8241,
      "step": 147
    },
    {
      "epoch": 0.06788212360967778,
      "grad_norm": 1.0033286640578738,
      "learning_rate": 0.0009962921684286896,
      "loss": 2.8514,
      "step": 148
    },
    {
      "epoch": 0.06834078660704047,
      "grad_norm": 0.8114374663457802,
      "learning_rate": 0.0009962012974632614,
      "loss": 2.8555,
      "step": 149
    },
    {
      "epoch": 0.06879944960440317,
      "grad_norm": 0.9478468554959245,
      "learning_rate": 0.0009961093306567075,
      "loss": 2.8453,
      "step": 150
    },
    {
      "epoch": 0.06925811260176586,
      "grad_norm": 0.8188224120105979,
      "learning_rate": 0.0009960162682121328,
      "loss": 2.8752,
      "step": 151
    },
    {
      "epoch": 0.06971677559912855,
      "grad_norm": 0.8067174601670706,
      "learning_rate": 0.0009959221103350623,
      "loss": 2.8279,
      "step": 152
    },
    {
      "epoch": 0.07017543859649122,
      "grad_norm": 0.8946211715852989,
      "learning_rate": 0.0009958268572334394,
      "loss": 2.6731,
      "step": 153
    },
    {
      "epoch": 0.07063410159385392,
      "grad_norm": 0.7634692150085943,
      "learning_rate": 0.0009957305091176274,
      "loss": 2.7701,
      "step": 154
    },
    {
      "epoch": 0.0710927645912166,
      "grad_norm": 0.8926505401184329,
      "learning_rate": 0.0009956330662004075,
      "loss": 2.7608,
      "step": 155
    },
    {
      "epoch": 0.0715514275885793,
      "grad_norm": 0.9258584075161183,
      "learning_rate": 0.0009955345286969779,
      "loss": 2.8446,
      "step": 156
    },
    {
      "epoch": 0.07201009058594197,
      "grad_norm": 0.7878425445707455,
      "learning_rate": 0.0009954348968249551,
      "loss": 2.762,
      "step": 157
    },
    {
      "epoch": 0.07246875358330467,
      "grad_norm": 0.8751361331834583,
      "learning_rate": 0.0009953341708043724,
      "loss": 2.7512,
      "step": 158
    },
    {
      "epoch": 0.07292741658066736,
      "grad_norm": 0.7938992790739557,
      "learning_rate": 0.0009952323508576793,
      "loss": 2.7386,
      "step": 159
    },
    {
      "epoch": 0.07338607957803005,
      "grad_norm": 0.8669398685152915,
      "learning_rate": 0.0009951294372097406,
      "loss": 2.7594,
      "step": 160
    },
    {
      "epoch": 0.07384474257539272,
      "grad_norm": 0.8454240881460653,
      "learning_rate": 0.0009950254300878378,
      "loss": 2.7702,
      "step": 161
    },
    {
      "epoch": 0.07430340557275542,
      "grad_norm": 0.7683931543817869,
      "learning_rate": 0.000994920329721666,
      "loss": 2.7342,
      "step": 162
    },
    {
      "epoch": 0.0747620685701181,
      "grad_norm": 0.7910493720752371,
      "learning_rate": 0.0009948141363433356,
      "loss": 2.8141,
      "step": 163
    },
    {
      "epoch": 0.0752207315674808,
      "grad_norm": 0.8434457275517026,
      "learning_rate": 0.00099470685018737,
      "loss": 2.7078,
      "step": 164
    },
    {
      "epoch": 0.07567939456484347,
      "grad_norm": 0.8663807763369675,
      "learning_rate": 0.0009945984714907073,
      "loss": 2.7384,
      "step": 165
    },
    {
      "epoch": 0.07613805756220617,
      "grad_norm": 0.9640363239348035,
      "learning_rate": 0.000994489000492697,
      "loss": 2.8228,
      "step": 166
    },
    {
      "epoch": 0.07659672055956886,
      "grad_norm": 0.8064931444527325,
      "learning_rate": 0.0009943784374351016,
      "loss": 2.7605,
      "step": 167
    },
    {
      "epoch": 0.07705538355693155,
      "grad_norm": 0.8099554437308562,
      "learning_rate": 0.0009942667825620951,
      "loss": 2.6841,
      "step": 168
    },
    {
      "epoch": 0.07751404655429424,
      "grad_norm": 0.8170133282081821,
      "learning_rate": 0.0009941540361202634,
      "loss": 2.662,
      "step": 169
    },
    {
      "epoch": 0.07797270955165692,
      "grad_norm": 0.7244358524824873,
      "learning_rate": 0.0009940401983586022,
      "loss": 2.7704,
      "step": 170
    },
    {
      "epoch": 0.0784313725490196,
      "grad_norm": 0.8655323432388992,
      "learning_rate": 0.000993925269528518,
      "loss": 2.8158,
      "step": 171
    },
    {
      "epoch": 0.0788900355463823,
      "grad_norm": 0.8159578447364844,
      "learning_rate": 0.0009938092498838265,
      "loss": 2.8207,
      "step": 172
    },
    {
      "epoch": 0.07934869854374499,
      "grad_norm": 0.7288060607851662,
      "learning_rate": 0.0009936921396807524,
      "loss": 2.8114,
      "step": 173
    },
    {
      "epoch": 0.07980736154110767,
      "grad_norm": 0.8420867219058084,
      "learning_rate": 0.0009935739391779292,
      "loss": 2.7111,
      "step": 174
    },
    {
      "epoch": 0.08026602453847036,
      "grad_norm": 0.755001859039167,
      "learning_rate": 0.000993454648636398,
      "loss": 2.7525,
      "step": 175
    },
    {
      "epoch": 0.08072468753583305,
      "grad_norm": 0.7803394678690436,
      "learning_rate": 0.0009933342683196074,
      "loss": 2.7613,
      "step": 176
    },
    {
      "epoch": 0.08118335053319574,
      "grad_norm": 0.7559121657017746,
      "learning_rate": 0.0009932127984934125,
      "loss": 2.7375,
      "step": 177
    },
    {
      "epoch": 0.08164201353055842,
      "grad_norm": 0.7366445530593034,
      "learning_rate": 0.0009930902394260745,
      "loss": 2.8143,
      "step": 178
    },
    {
      "epoch": 0.08210067652792111,
      "grad_norm": 0.9347412166384469,
      "learning_rate": 0.0009929665913882607,
      "loss": 2.6979,
      "step": 179
    },
    {
      "epoch": 0.0825593395252838,
      "grad_norm": 0.6996432663230746,
      "learning_rate": 0.0009928418546530425,
      "loss": 2.6909,
      "step": 180
    },
    {
      "epoch": 0.08301800252264649,
      "grad_norm": 0.750852120024332,
      "learning_rate": 0.0009927160294958964,
      "loss": 2.809,
      "step": 181
    },
    {
      "epoch": 0.08347666552000918,
      "grad_norm": 0.8195806153982569,
      "learning_rate": 0.000992589116194702,
      "loss": 2.8213,
      "step": 182
    },
    {
      "epoch": 0.08393532851737186,
      "grad_norm": 0.7481092579733892,
      "learning_rate": 0.000992461115029743,
      "loss": 2.7071,
      "step": 183
    },
    {
      "epoch": 0.08439399151473455,
      "grad_norm": 0.8539540307355991,
      "learning_rate": 0.000992332026283704,
      "loss": 2.743,
      "step": 184
    },
    {
      "epoch": 0.08485265451209724,
      "grad_norm": 0.8228065692890478,
      "learning_rate": 0.0009922018502416736,
      "loss": 2.6739,
      "step": 185
    },
    {
      "epoch": 0.08531131750945993,
      "grad_norm": 0.7525906109482643,
      "learning_rate": 0.0009920705871911395,
      "loss": 2.6191,
      "step": 186
    },
    {
      "epoch": 0.08576998050682261,
      "grad_norm": 0.822463201207403,
      "learning_rate": 0.0009919382374219915,
      "loss": 2.6542,
      "step": 187
    },
    {
      "epoch": 0.0862286435041853,
      "grad_norm": 0.8065575383882625,
      "learning_rate": 0.0009918048012265187,
      "loss": 2.6784,
      "step": 188
    },
    {
      "epoch": 0.08668730650154799,
      "grad_norm": 0.7221765148349839,
      "learning_rate": 0.0009916702788994097,
      "loss": 2.6987,
      "step": 189
    },
    {
      "epoch": 0.08714596949891068,
      "grad_norm": 0.7824584851814721,
      "learning_rate": 0.0009915346707377519,
      "loss": 2.7391,
      "step": 190
    },
    {
      "epoch": 0.08760463249627336,
      "grad_norm": 0.7776779553851474,
      "learning_rate": 0.0009913979770410305,
      "loss": 2.7123,
      "step": 191
    },
    {
      "epoch": 0.08806329549363605,
      "grad_norm": 0.7628343836360927,
      "learning_rate": 0.0009912601981111285,
      "loss": 2.7746,
      "step": 192
    },
    {
      "epoch": 0.08852195849099874,
      "grad_norm": 0.7328771696911123,
      "learning_rate": 0.0009911213342523248,
      "loss": 2.7924,
      "step": 193
    },
    {
      "epoch": 0.08898062148836143,
      "grad_norm": 0.8721274621412278,
      "learning_rate": 0.000990981385771295,
      "loss": 2.604,
      "step": 194
    },
    {
      "epoch": 0.08943928448572411,
      "grad_norm": 0.7190893074956406,
      "learning_rate": 0.00099084035297711,
      "loss": 2.7418,
      "step": 195
    },
    {
      "epoch": 0.0898979474830868,
      "grad_norm": 0.7613651013676579,
      "learning_rate": 0.000990698236181235,
      "loss": 2.6544,
      "step": 196
    },
    {
      "epoch": 0.09035661048044949,
      "grad_norm": 0.7351565246201567,
      "learning_rate": 0.0009905550356975293,
      "loss": 2.6823,
      "step": 197
    },
    {
      "epoch": 0.09081527347781218,
      "grad_norm": 0.8038207569112763,
      "learning_rate": 0.0009904107518422457,
      "loss": 2.6761,
      "step": 198
    },
    {
      "epoch": 0.09127393647517487,
      "grad_norm": 0.7011234339100276,
      "learning_rate": 0.0009902653849340295,
      "loss": 2.7329,
      "step": 199
    },
    {
      "epoch": 0.09173259947253755,
      "grad_norm": 0.7204376966905529,
      "learning_rate": 0.0009901189352939177,
      "loss": 2.7576,
      "step": 200
    },
    {
      "epoch": 0.09219126246990024,
      "grad_norm": 0.7984995040302177,
      "learning_rate": 0.0009899714032453387,
      "loss": 2.7225,
      "step": 201
    },
    {
      "epoch": 0.09264992546726293,
      "grad_norm": 0.6854365600014639,
      "learning_rate": 0.000989822789114111,
      "loss": 2.6911,
      "step": 202
    },
    {
      "epoch": 0.09310858846462562,
      "grad_norm": 0.7400423443467857,
      "learning_rate": 0.0009896730932284434,
      "loss": 2.6414,
      "step": 203
    },
    {
      "epoch": 0.0935672514619883,
      "grad_norm": 0.6679542338577459,
      "learning_rate": 0.0009895223159189332,
      "loss": 2.6654,
      "step": 204
    },
    {
      "epoch": 0.09402591445935099,
      "grad_norm": 0.705190620775002,
      "learning_rate": 0.0009893704575185663,
      "loss": 2.6903,
      "step": 205
    },
    {
      "epoch": 0.09448457745671368,
      "grad_norm": 0.7497723051539922,
      "learning_rate": 0.000989217518362716,
      "loss": 2.7125,
      "step": 206
    },
    {
      "epoch": 0.09494324045407637,
      "grad_norm": 0.7387900047827514,
      "learning_rate": 0.0009890634987891425,
      "loss": 2.6826,
      "step": 207
    },
    {
      "epoch": 0.09540190345143905,
      "grad_norm": 0.8121416058647417,
      "learning_rate": 0.0009889083991379917,
      "loss": 2.7106,
      "step": 208
    },
    {
      "epoch": 0.09586056644880174,
      "grad_norm": 0.7900238909009252,
      "learning_rate": 0.0009887522197517954,
      "loss": 2.7346,
      "step": 209
    },
    {
      "epoch": 0.09631922944616443,
      "grad_norm": 0.7251994037319625,
      "learning_rate": 0.0009885949609754693,
      "loss": 2.7819,
      "step": 210
    },
    {
      "epoch": 0.09677789244352712,
      "grad_norm": 0.8031381485774944,
      "learning_rate": 0.000988436623156314,
      "loss": 2.6967,
      "step": 211
    },
    {
      "epoch": 0.09723655544088981,
      "grad_norm": 0.8274444083797363,
      "learning_rate": 0.0009882772066440114,
      "loss": 2.5391,
      "step": 212
    },
    {
      "epoch": 0.09769521843825249,
      "grad_norm": 0.7214709017138679,
      "learning_rate": 0.0009881167117906276,
      "loss": 2.516,
      "step": 213
    },
    {
      "epoch": 0.09815388143561518,
      "grad_norm": 0.7793192394773741,
      "learning_rate": 0.0009879551389506084,
      "loss": 2.6608,
      "step": 214
    },
    {
      "epoch": 0.09861254443297787,
      "grad_norm": 0.8169343749475758,
      "learning_rate": 0.0009877924884807814,
      "loss": 2.7639,
      "step": 215
    },
    {
      "epoch": 0.09907120743034056,
      "grad_norm": 0.7846264393644812,
      "learning_rate": 0.000987628760740354,
      "loss": 2.7307,
      "step": 216
    },
    {
      "epoch": 0.09952987042770324,
      "grad_norm": 0.6627594342135403,
      "learning_rate": 0.0009874639560909118,
      "loss": 2.6288,
      "step": 217
    },
    {
      "epoch": 0.09998853342506593,
      "grad_norm": 0.6706562327097098,
      "learning_rate": 0.0009872980748964202,
      "loss": 2.6412,
      "step": 218
    },
    {
      "epoch": 0.10044719642242862,
      "grad_norm": 0.7501960361960465,
      "learning_rate": 0.000987131117523221,
      "loss": 2.6469,
      "step": 219
    },
    {
      "epoch": 0.10090585941979131,
      "grad_norm": 0.6973557948671475,
      "learning_rate": 0.000986963084340033,
      "loss": 2.6855,
      "step": 220
    },
    {
      "epoch": 0.10136452241715399,
      "grad_norm": 0.8002450738425754,
      "learning_rate": 0.0009867939757179508,
      "loss": 2.7038,
      "step": 221
    },
    {
      "epoch": 0.10182318541451668,
      "grad_norm": 0.8199417997068209,
      "learning_rate": 0.0009866237920304443,
      "loss": 2.6941,
      "step": 222
    },
    {
      "epoch": 0.10228184841187937,
      "grad_norm": 0.7442941050477302,
      "learning_rate": 0.0009864525336533577,
      "loss": 2.6841,
      "step": 223
    },
    {
      "epoch": 0.10274051140924206,
      "grad_norm": 0.7189639093070999,
      "learning_rate": 0.000986280200964908,
      "loss": 2.6295,
      "step": 224
    },
    {
      "epoch": 0.10319917440660474,
      "grad_norm": 0.6880389715591798,
      "learning_rate": 0.0009861067943456856,
      "loss": 2.6846,
      "step": 225
    },
    {
      "epoch": 0.10365783740396743,
      "grad_norm": 0.7126407355690042,
      "learning_rate": 0.000985932314178652,
      "loss": 2.6382,
      "step": 226
    },
    {
      "epoch": 0.10411650040133012,
      "grad_norm": 0.6558947157065875,
      "learning_rate": 0.00098575676084914,
      "loss": 2.6776,
      "step": 227
    },
    {
      "epoch": 0.10457516339869281,
      "grad_norm": 0.70560860332302,
      "learning_rate": 0.0009855801347448518,
      "loss": 2.7365,
      "step": 228
    },
    {
      "epoch": 0.1050338263960555,
      "grad_norm": 0.6967067590093712,
      "learning_rate": 0.0009854024362558596,
      "loss": 2.601,
      "step": 229
    },
    {
      "epoch": 0.10549248939341818,
      "grad_norm": 0.6792816059472855,
      "learning_rate": 0.0009852236657746035,
      "loss": 2.6693,
      "step": 230
    },
    {
      "epoch": 0.10595115239078087,
      "grad_norm": 0.7336539957328935,
      "learning_rate": 0.0009850438236958911,
      "loss": 2.6474,
      "step": 231
    },
    {
      "epoch": 0.10640981538814356,
      "grad_norm": 0.7010039150651464,
      "learning_rate": 0.0009848629104168966,
      "loss": 2.718,
      "step": 232
    },
    {
      "epoch": 0.10686847838550625,
      "grad_norm": 0.8269494580022332,
      "learning_rate": 0.00098468092633716,
      "loss": 2.7478,
      "step": 233
    },
    {
      "epoch": 0.10732714138286893,
      "grad_norm": 0.6814243627334328,
      "learning_rate": 0.0009844978718585855,
      "loss": 2.6922,
      "step": 234
    },
    {
      "epoch": 0.10778580438023162,
      "grad_norm": 0.7044406845386757,
      "learning_rate": 0.0009843137473854423,
      "loss": 2.6307,
      "step": 235
    },
    {
      "epoch": 0.10824446737759431,
      "grad_norm": 0.6703060064520826,
      "learning_rate": 0.000984128553324362,
      "loss": 2.703,
      "step": 236
    },
    {
      "epoch": 0.108703130374957,
      "grad_norm": 0.711839692852917,
      "learning_rate": 0.0009839422900843383,
      "loss": 2.588,
      "step": 237
    },
    {
      "epoch": 0.10916179337231968,
      "grad_norm": 0.8217083040339366,
      "learning_rate": 0.0009837549580767261,
      "loss": 2.7472,
      "step": 238
    },
    {
      "epoch": 0.10962045636968237,
      "grad_norm": 0.6219568020063097,
      "learning_rate": 0.0009835665577152411,
      "loss": 2.5836,
      "step": 239
    },
    {
      "epoch": 0.11007911936704506,
      "grad_norm": 0.7250436851715466,
      "learning_rate": 0.000983377089415958,
      "loss": 2.7359,
      "step": 240
    },
    {
      "epoch": 0.11053778236440776,
      "grad_norm": 0.691638101534546,
      "learning_rate": 0.0009831865535973102,
      "loss": 2.7012,
      "step": 241
    },
    {
      "epoch": 0.11099644536177045,
      "grad_norm": 0.6476896318262656,
      "learning_rate": 0.0009829949506800885,
      "loss": 2.6687,
      "step": 242
    },
    {
      "epoch": 0.11145510835913312,
      "grad_norm": 0.6591402337266536,
      "learning_rate": 0.0009828022810874405,
      "loss": 2.6683,
      "step": 243
    },
    {
      "epoch": 0.11191377135649581,
      "grad_norm": 0.6329528007937597,
      "learning_rate": 0.0009826085452448693,
      "loss": 2.6306,
      "step": 244
    },
    {
      "epoch": 0.1123724343538585,
      "grad_norm": 0.6270655327797207,
      "learning_rate": 0.000982413743580233,
      "loss": 2.6457,
      "step": 245
    },
    {
      "epoch": 0.1128310973512212,
      "grad_norm": 0.7127568748598002,
      "learning_rate": 0.0009822178765237436,
      "loss": 2.5634,
      "step": 246
    },
    {
      "epoch": 0.11328976034858387,
      "grad_norm": 0.6503771778613481,
      "learning_rate": 0.0009820209445079654,
      "loss": 2.6334,
      "step": 247
    },
    {
      "epoch": 0.11374842334594656,
      "grad_norm": 0.6845431905971348,
      "learning_rate": 0.0009818229479678158,
      "loss": 2.4996,
      "step": 248
    },
    {
      "epoch": 0.11420708634330926,
      "grad_norm": 0.6931563656867784,
      "learning_rate": 0.0009816238873405615,
      "loss": 2.6064,
      "step": 249
    },
    {
      "epoch": 0.11466574934067195,
      "grad_norm": 0.6727529057571447,
      "learning_rate": 0.0009814237630658207,
      "loss": 2.7105,
      "step": 250
    },
    {
      "epoch": 0.11512441233803462,
      "grad_norm": 0.672090385487741,
      "learning_rate": 0.00098122257558556,
      "loss": 2.7378,
      "step": 251
    },
    {
      "epoch": 0.11558307533539731,
      "grad_norm": 0.706546953059812,
      "learning_rate": 0.0009810203253440937,
      "loss": 2.6728,
      "step": 252
    },
    {
      "epoch": 0.11604173833276,
      "grad_norm": 0.6671114818198912,
      "learning_rate": 0.0009808170127880837,
      "loss": 2.588,
      "step": 253
    },
    {
      "epoch": 0.1165004013301227,
      "grad_norm": 0.7691075510562266,
      "learning_rate": 0.000980612638366538,
      "loss": 2.7224,
      "step": 254
    },
    {
      "epoch": 0.11695906432748537,
      "grad_norm": 0.7723509768496313,
      "learning_rate": 0.0009804072025308096,
      "loss": 2.6658,
      "step": 255
    },
    {
      "epoch": 0.11741772732484806,
      "grad_norm": 0.8961088297893038,
      "learning_rate": 0.000980200705734595,
      "loss": 2.6761,
      "step": 256
    },
    {
      "epoch": 0.11787639032221076,
      "grad_norm": 0.6538527835050124,
      "learning_rate": 0.0009799931484339344,
      "loss": 2.576,
      "step": 257
    },
    {
      "epoch": 0.11833505331957345,
      "grad_norm": 0.8322530760976471,
      "learning_rate": 0.0009797845310872103,
      "loss": 2.6709,
      "step": 258
    },
    {
      "epoch": 0.11879371631693614,
      "grad_norm": 0.6609718613757743,
      "learning_rate": 0.0009795748541551457,
      "loss": 2.595,
      "step": 259
    },
    {
      "epoch": 0.11925237931429881,
      "grad_norm": 0.6614292715732452,
      "learning_rate": 0.000979364118100804,
      "loss": 2.7105,
      "step": 260
    },
    {
      "epoch": 0.1197110423116615,
      "grad_norm": 0.7080012174537288,
      "learning_rate": 0.0009791523233895875,
      "loss": 2.6812,
      "step": 261
    },
    {
      "epoch": 0.1201697053090242,
      "grad_norm": 0.7521050008168456,
      "learning_rate": 0.0009789394704892364,
      "loss": 2.6033,
      "step": 262
    },
    {
      "epoch": 0.12062836830638689,
      "grad_norm": 0.6605213789557236,
      "learning_rate": 0.0009787255598698282,
      "loss": 2.608,
      "step": 263
    },
    {
      "epoch": 0.12108703130374956,
      "grad_norm": 0.7482865434111935,
      "learning_rate": 0.0009785105920037758,
      "loss": 2.624,
      "step": 264
    },
    {
      "epoch": 0.12154569430111226,
      "grad_norm": 0.710364070362245,
      "learning_rate": 0.0009782945673658275,
      "loss": 2.5997,
      "step": 265
    },
    {
      "epoch": 0.12200435729847495,
      "grad_norm": 0.6803721870793871,
      "learning_rate": 0.0009780774864330654,
      "loss": 2.6204,
      "step": 266
    },
    {
      "epoch": 0.12246302029583764,
      "grad_norm": 0.6186876633512265,
      "learning_rate": 0.000977859349684904,
      "loss": 2.6211,
      "step": 267
    },
    {
      "epoch": 0.12292168329320032,
      "grad_norm": 0.6628472451070296,
      "learning_rate": 0.00097764015760309,
      "loss": 2.5804,
      "step": 268
    },
    {
      "epoch": 0.123380346290563,
      "grad_norm": 0.8447219982949575,
      "learning_rate": 0.0009774199106717004,
      "loss": 2.6545,
      "step": 269
    },
    {
      "epoch": 0.1238390092879257,
      "grad_norm": 0.6402682734156281,
      "learning_rate": 0.0009771986093771417,
      "loss": 2.5235,
      "step": 270
    },
    {
      "epoch": 0.12429767228528839,
      "grad_norm": 0.7240307299655256,
      "learning_rate": 0.0009769762542081496,
      "loss": 2.5441,
      "step": 271
    },
    {
      "epoch": 0.12475633528265107,
      "grad_norm": 0.7086514784449626,
      "learning_rate": 0.000976752845655786,
      "loss": 2.5986,
      "step": 272
    },
    {
      "epoch": 0.12521499828001376,
      "grad_norm": 0.685310101772146,
      "learning_rate": 0.0009765283842134411,
      "loss": 2.5859,
      "step": 273
    },
    {
      "epoch": 0.12567366127737645,
      "grad_norm": 0.6661481739939819,
      "learning_rate": 0.0009763028703768282,
      "loss": 2.6034,
      "step": 274
    },
    {
      "epoch": 0.12613232427473914,
      "grad_norm": 0.7314319363886006,
      "learning_rate": 0.0009760763046439862,
      "loss": 2.6065,
      "step": 275
    },
    {
      "epoch": 0.12659098727210183,
      "grad_norm": 0.715740984839274,
      "learning_rate": 0.0009758486875152766,
      "loss": 2.706,
      "step": 276
    },
    {
      "epoch": 0.12704965026946452,
      "grad_norm": 0.6070481064016829,
      "learning_rate": 0.0009756200194933829,
      "loss": 2.668,
      "step": 277
    },
    {
      "epoch": 0.1275083132668272,
      "grad_norm": 0.7633308113048065,
      "learning_rate": 0.0009753903010833094,
      "loss": 2.6157,
      "step": 278
    },
    {
      "epoch": 0.12796697626418987,
      "grad_norm": 0.6752511993982271,
      "learning_rate": 0.0009751595327923803,
      "loss": 2.6198,
      "step": 279
    },
    {
      "epoch": 0.12842563926155257,
      "grad_norm": 0.6666465034866356,
      "learning_rate": 0.0009749277151302382,
      "loss": 2.6357,
      "step": 280
    },
    {
      "epoch": 0.12888430225891526,
      "grad_norm": 0.677181593134489,
      "learning_rate": 0.0009746948486088435,
      "loss": 2.6194,
      "step": 281
    },
    {
      "epoch": 0.12934296525627795,
      "grad_norm": 0.6926003585472734,
      "learning_rate": 0.0009744609337424727,
      "loss": 2.6251,
      "step": 282
    },
    {
      "epoch": 0.12980162825364064,
      "grad_norm": 0.6322797586387996,
      "learning_rate": 0.0009742259710477177,
      "loss": 2.6184,
      "step": 283
    },
    {
      "epoch": 0.13026029125100333,
      "grad_norm": 0.7403303925944829,
      "learning_rate": 0.0009739899610434841,
      "loss": 2.7335,
      "step": 284
    },
    {
      "epoch": 0.13071895424836602,
      "grad_norm": 0.6531738224241708,
      "learning_rate": 0.0009737529042509913,
      "loss": 2.5871,
      "step": 285
    },
    {
      "epoch": 0.1311776172457287,
      "grad_norm": 0.6571946089434206,
      "learning_rate": 0.0009735148011937693,
      "loss": 2.5552,
      "step": 286
    },
    {
      "epoch": 0.13163628024309137,
      "grad_norm": 0.7640713054472826,
      "learning_rate": 0.00097327565239766,
      "loss": 2.6982,
      "step": 287
    },
    {
      "epoch": 0.13209494324045407,
      "grad_norm": 0.6496917162833429,
      "learning_rate": 0.0009730354583908136,
      "loss": 2.6468,
      "step": 288
    },
    {
      "epoch": 0.13255360623781676,
      "grad_norm": 0.5866840199784961,
      "learning_rate": 0.0009727942197036895,
      "loss": 2.6828,
      "step": 289
    },
    {
      "epoch": 0.13301226923517945,
      "grad_norm": 0.7445352338261335,
      "learning_rate": 0.0009725519368690539,
      "loss": 2.6105,
      "step": 290
    },
    {
      "epoch": 0.13347093223254214,
      "grad_norm": 0.6092683779930408,
      "learning_rate": 0.0009723086104219787,
      "loss": 2.581,
      "step": 291
    },
    {
      "epoch": 0.13392959522990483,
      "grad_norm": 0.6183989849083324,
      "learning_rate": 0.0009720642408998409,
      "loss": 2.6573,
      "step": 292
    },
    {
      "epoch": 0.13438825822726752,
      "grad_norm": 0.6596767840537329,
      "learning_rate": 0.0009718188288423211,
      "loss": 2.5914,
      "step": 293
    },
    {
      "epoch": 0.1348469212246302,
      "grad_norm": 0.6426969325158792,
      "learning_rate": 0.0009715723747914022,
      "loss": 2.5572,
      "step": 294
    },
    {
      "epoch": 0.1353055842219929,
      "grad_norm": 0.6311533300218437,
      "learning_rate": 0.0009713248792913685,
      "loss": 2.6333,
      "step": 295
    },
    {
      "epoch": 0.13576424721935557,
      "grad_norm": 0.7145424415604393,
      "learning_rate": 0.0009710763428888037,
      "loss": 2.5861,
      "step": 296
    },
    {
      "epoch": 0.13622291021671826,
      "grad_norm": 0.6503512066423189,
      "learning_rate": 0.0009708267661325909,
      "loss": 2.6688,
      "step": 297
    },
    {
      "epoch": 0.13668157321408095,
      "grad_norm": 0.6790682037345941,
      "learning_rate": 0.0009705761495739107,
      "loss": 2.7313,
      "step": 298
    },
    {
      "epoch": 0.13714023621144364,
      "grad_norm": 0.6560232337636808,
      "learning_rate": 0.0009703244937662399,
      "loss": 2.5323,
      "step": 299
    },
    {
      "epoch": 0.13759889920880633,
      "grad_norm": 0.6329175940409361,
      "learning_rate": 0.0009700717992653505,
      "loss": 2.648,
      "step": 300
    },
    {
      "epoch": 0.13805756220616902,
      "grad_norm": 0.6190076353999027,
      "learning_rate": 0.0009698180666293083,
      "loss": 2.6377,
      "step": 301
    },
    {
      "epoch": 0.1385162252035317,
      "grad_norm": 0.6274147497605054,
      "learning_rate": 0.000969563296418472,
      "loss": 2.6146,
      "step": 302
    },
    {
      "epoch": 0.1389748882008944,
      "grad_norm": 0.6320579853732511,
      "learning_rate": 0.0009693074891954914,
      "loss": 2.6655,
      "step": 303
    },
    {
      "epoch": 0.1394335511982571,
      "grad_norm": 0.632112086612751,
      "learning_rate": 0.0009690506455253072,
      "loss": 2.5857,
      "step": 304
    },
    {
      "epoch": 0.13989221419561976,
      "grad_norm": 0.6365029966265738,
      "learning_rate": 0.0009687927659751481,
      "loss": 2.5796,
      "step": 305
    },
    {
      "epoch": 0.14035087719298245,
      "grad_norm": 0.6227658392719586,
      "learning_rate": 0.0009685338511145312,
      "loss": 2.5756,
      "step": 306
    },
    {
      "epoch": 0.14080954019034514,
      "grad_norm": 0.7082327300442638,
      "learning_rate": 0.0009682739015152598,
      "loss": 2.5627,
      "step": 307
    },
    {
      "epoch": 0.14126820318770783,
      "grad_norm": 0.6236570106333864,
      "learning_rate": 0.0009680129177514226,
      "loss": 2.5389,
      "step": 308
    },
    {
      "epoch": 0.14172686618507052,
      "grad_norm": 0.6732854593603489,
      "learning_rate": 0.0009677509003993915,
      "loss": 2.5682,
      "step": 309
    },
    {
      "epoch": 0.1421855291824332,
      "grad_norm": 0.6939699177780072,
      "learning_rate": 0.0009674878500378221,
      "loss": 2.6529,
      "step": 310
    },
    {
      "epoch": 0.1426441921797959,
      "grad_norm": 0.5954865552526258,
      "learning_rate": 0.0009672237672476505,
      "loss": 2.592,
      "step": 311
    },
    {
      "epoch": 0.1431028551771586,
      "grad_norm": 0.6618599417701739,
      "learning_rate": 0.0009669586526120935,
      "loss": 2.5173,
      "step": 312
    },
    {
      "epoch": 0.14356151817452126,
      "grad_norm": 0.6877071269584097,
      "learning_rate": 0.0009666925067166459,
      "loss": 2.6647,
      "step": 313
    },
    {
      "epoch": 0.14402018117188395,
      "grad_norm": 0.6861996968046226,
      "learning_rate": 0.000966425330149081,
      "loss": 2.5761,
      "step": 314
    },
    {
      "epoch": 0.14447884416924664,
      "grad_norm": 0.6498784459838385,
      "learning_rate": 0.0009661571234994475,
      "loss": 2.5726,
      "step": 315
    },
    {
      "epoch": 0.14493750716660933,
      "grad_norm": 0.6049310315747921,
      "learning_rate": 0.0009658878873600691,
      "loss": 2.582,
      "step": 316
    },
    {
      "epoch": 0.14539617016397202,
      "grad_norm": 0.7310486594587051,
      "learning_rate": 0.0009656176223255438,
      "loss": 2.6062,
      "step": 317
    },
    {
      "epoch": 0.1458548331613347,
      "grad_norm": 0.6968434145357982,
      "learning_rate": 0.000965346328992741,
      "loss": 2.6395,
      "step": 318
    },
    {
      "epoch": 0.1463134961586974,
      "grad_norm": 0.5993674448946523,
      "learning_rate": 0.0009650740079608014,
      "loss": 2.6939,
      "step": 319
    },
    {
      "epoch": 0.1467721591560601,
      "grad_norm": 0.6198938274961286,
      "learning_rate": 0.0009648006598311353,
      "loss": 2.55,
      "step": 320
    },
    {
      "epoch": 0.14723082215342279,
      "grad_norm": 0.6164458645193942,
      "learning_rate": 0.0009645262852074214,
      "loss": 2.5952,
      "step": 321
    },
    {
      "epoch": 0.14768948515078545,
      "grad_norm": 0.6455912199672623,
      "learning_rate": 0.0009642508846956053,
      "loss": 2.579,
      "step": 322
    },
    {
      "epoch": 0.14814814814814814,
      "grad_norm": 0.5726355977743814,
      "learning_rate": 0.0009639744589038983,
      "loss": 2.6155,
      "step": 323
    },
    {
      "epoch": 0.14860681114551083,
      "grad_norm": 0.6968509454418907,
      "learning_rate": 0.0009636970084427759,
      "loss": 2.6626,
      "step": 324
    },
    {
      "epoch": 0.14906547414287352,
      "grad_norm": 0.6223390696354054,
      "learning_rate": 0.0009634185339249766,
      "loss": 2.6529,
      "step": 325
    },
    {
      "epoch": 0.1495241371402362,
      "grad_norm": 0.5752137439398528,
      "learning_rate": 0.0009631390359655003,
      "loss": 2.6889,
      "step": 326
    },
    {
      "epoch": 0.1499828001375989,
      "grad_norm": 0.6799789218627761,
      "learning_rate": 0.0009628585151816074,
      "loss": 2.5569,
      "step": 327
    },
    {
      "epoch": 0.1504414631349616,
      "grad_norm": 0.6464235687225751,
      "learning_rate": 0.0009625769721928172,
      "loss": 2.5994,
      "step": 328
    },
    {
      "epoch": 0.15090012613232429,
      "grad_norm": 0.6613562445524743,
      "learning_rate": 0.0009622944076209061,
      "loss": 2.563,
      "step": 329
    },
    {
      "epoch": 0.15135878912968695,
      "grad_norm": 0.7001787421084938,
      "learning_rate": 0.0009620108220899071,
      "loss": 2.5947,
      "step": 330
    },
    {
      "epoch": 0.15181745212704964,
      "grad_norm": 0.5681264008978915,
      "learning_rate": 0.0009617262162261075,
      "loss": 2.6261,
      "step": 331
    },
    {
      "epoch": 0.15227611512441233,
      "grad_norm": 0.6986965713725141,
      "learning_rate": 0.0009614405906580486,
      "loss": 2.6264,
      "step": 332
    },
    {
      "epoch": 0.15273477812177502,
      "grad_norm": 0.6158954039939344,
      "learning_rate": 0.000961153946016523,
      "loss": 2.6488,
      "step": 333
    },
    {
      "epoch": 0.1531934411191377,
      "grad_norm": 0.532910964256857,
      "learning_rate": 0.000960866282934574,
      "loss": 2.5552,
      "step": 334
    },
    {
      "epoch": 0.1536521041165004,
      "grad_norm": 0.6437618305649505,
      "learning_rate": 0.0009605776020474945,
      "loss": 2.6315,
      "step": 335
    },
    {
      "epoch": 0.1541107671138631,
      "grad_norm": 0.6719775509575373,
      "learning_rate": 0.0009602879039928249,
      "loss": 2.6404,
      "step": 336
    },
    {
      "epoch": 0.1545694301112258,
      "grad_norm": 0.5952236249068463,
      "learning_rate": 0.0009599971894103521,
      "loss": 2.5925,
      "step": 337
    },
    {
      "epoch": 0.15502809310858848,
      "grad_norm": 0.6092505958452163,
      "learning_rate": 0.0009597054589421077,
      "loss": 2.6132,
      "step": 338
    },
    {
      "epoch": 0.15548675610595114,
      "grad_norm": 0.6123932879302035,
      "learning_rate": 0.0009594127132323669,
      "loss": 2.6144,
      "step": 339
    },
    {
      "epoch": 0.15594541910331383,
      "grad_norm": 0.6209814664805926,
      "learning_rate": 0.0009591189529276474,
      "loss": 2.6432,
      "step": 340
    },
    {
      "epoch": 0.15640408210067652,
      "grad_norm": 0.64246760677316,
      "learning_rate": 0.0009588241786767072,
      "loss": 2.6045,
      "step": 341
    },
    {
      "epoch": 0.1568627450980392,
      "grad_norm": 0.5599901907355419,
      "learning_rate": 0.0009585283911305436,
      "loss": 2.4363,
      "step": 342
    },
    {
      "epoch": 0.1573214080954019,
      "grad_norm": 0.6037881237051981,
      "learning_rate": 0.000958231590942392,
      "loss": 2.5813,
      "step": 343
    },
    {
      "epoch": 0.1577800710927646,
      "grad_norm": 0.6028954302997824,
      "learning_rate": 0.0009579337787677238,
      "loss": 2.647,
      "step": 344
    },
    {
      "epoch": 0.1582387340901273,
      "grad_norm": 0.5924169259742206,
      "learning_rate": 0.0009576349552642456,
      "loss": 2.6863,
      "step": 345
    },
    {
      "epoch": 0.15869739708748998,
      "grad_norm": 0.5737032887027331,
      "learning_rate": 0.0009573351210918975,
      "loss": 2.5417,
      "step": 346
    },
    {
      "epoch": 0.15915606008485264,
      "grad_norm": 0.5731322199138337,
      "learning_rate": 0.0009570342769128514,
      "loss": 2.633,
      "step": 347
    },
    {
      "epoch": 0.15961472308221533,
      "grad_norm": 0.6112495888576237,
      "learning_rate": 0.0009567324233915099,
      "loss": 2.5584,
      "step": 348
    },
    {
      "epoch": 0.16007338607957802,
      "grad_norm": 0.5961642657052886,
      "learning_rate": 0.0009564295611945047,
      "loss": 2.636,
      "step": 349
    },
    {
      "epoch": 0.1605320490769407,
      "grad_norm": 0.5588985242544897,
      "learning_rate": 0.000956125690990695,
      "loss": 2.5678,
      "step": 350
    },
    {
      "epoch": 0.1609907120743034,
      "grad_norm": 0.5909722063454093,
      "learning_rate": 0.0009558208134511665,
      "loss": 2.6723,
      "step": 351
    },
    {
      "epoch": 0.1614493750716661,
      "grad_norm": 0.6158598142615276,
      "learning_rate": 0.0009555149292492289,
      "loss": 2.5719,
      "step": 352
    },
    {
      "epoch": 0.1619080380690288,
      "grad_norm": 0.630187989813933,
      "learning_rate": 0.0009552080390604159,
      "loss": 2.5243,
      "step": 353
    },
    {
      "epoch": 0.16236670106639148,
      "grad_norm": 0.6588842286370096,
      "learning_rate": 0.0009549001435624823,
      "loss": 2.6346,
      "step": 354
    },
    {
      "epoch": 0.16282536406375417,
      "grad_norm": 0.5682766306563359,
      "learning_rate": 0.0009545912434354029,
      "loss": 2.6194,
      "step": 355
    },
    {
      "epoch": 0.16328402706111683,
      "grad_norm": 0.6208294962868028,
      "learning_rate": 0.0009542813393613721,
      "loss": 2.6509,
      "step": 356
    },
    {
      "epoch": 0.16374269005847952,
      "grad_norm": 0.6470399721615872,
      "learning_rate": 0.0009539704320248006,
      "loss": 2.6049,
      "step": 357
    },
    {
      "epoch": 0.16420135305584221,
      "grad_norm": 0.6391732877714209,
      "learning_rate": 0.0009536585221123151,
      "loss": 2.4912,
      "step": 358
    },
    {
      "epoch": 0.1646600160532049,
      "grad_norm": 0.6755987033251702,
      "learning_rate": 0.0009533456103127565,
      "loss": 2.7171,
      "step": 359
    },
    {
      "epoch": 0.1651186790505676,
      "grad_norm": 0.7083950953662319,
      "learning_rate": 0.000953031697317178,
      "loss": 2.5797,
      "step": 360
    },
    {
      "epoch": 0.1655773420479303,
      "grad_norm": 0.6098664000442812,
      "learning_rate": 0.0009527167838188445,
      "loss": 2.602,
      "step": 361
    },
    {
      "epoch": 0.16603600504529298,
      "grad_norm": 0.5361004238266373,
      "learning_rate": 0.0009524008705132299,
      "loss": 2.6121,
      "step": 362
    },
    {
      "epoch": 0.16649466804265567,
      "grad_norm": 0.5991487015918271,
      "learning_rate": 0.0009520839580980166,
      "loss": 2.5497,
      "step": 363
    },
    {
      "epoch": 0.16695333104001836,
      "grad_norm": 0.663505984968125,
      "learning_rate": 0.0009517660472730929,
      "loss": 2.5118,
      "step": 364
    },
    {
      "epoch": 0.16741199403738102,
      "grad_norm": 0.6066740360149833,
      "learning_rate": 0.0009514471387405526,
      "loss": 2.6281,
      "step": 365
    },
    {
      "epoch": 0.16787065703474371,
      "grad_norm": 0.5790898622043681,
      "learning_rate": 0.0009511272332046926,
      "loss": 2.6151,
      "step": 366
    },
    {
      "epoch": 0.1683293200321064,
      "grad_norm": 0.668104289270738,
      "learning_rate": 0.0009508063313720119,
      "loss": 2.5943,
      "step": 367
    },
    {
      "epoch": 0.1687879830294691,
      "grad_norm": 0.6005695304280491,
      "learning_rate": 0.0009504844339512095,
      "loss": 2.5572,
      "step": 368
    },
    {
      "epoch": 0.1692466460268318,
      "grad_norm": 0.6164683986414259,
      "learning_rate": 0.0009501615416531835,
      "loss": 2.7114,
      "step": 369
    },
    {
      "epoch": 0.16970530902419448,
      "grad_norm": 0.6417794828905012,
      "learning_rate": 0.0009498376551910285,
      "loss": 2.66,
      "step": 370
    },
    {
      "epoch": 0.17016397202155717,
      "grad_norm": 0.6338199516610081,
      "learning_rate": 0.0009495127752800352,
      "loss": 2.6058,
      "step": 371
    },
    {
      "epoch": 0.17062263501891986,
      "grad_norm": 0.5627435410517999,
      "learning_rate": 0.0009491869026376882,
      "loss": 2.6014,
      "step": 372
    },
    {
      "epoch": 0.17108129801628252,
      "grad_norm": 0.5666544186783241,
      "learning_rate": 0.0009488600379836648,
      "loss": 2.5502,
      "step": 373
    },
    {
      "epoch": 0.17153996101364521,
      "grad_norm": 0.5665824198571731,
      "learning_rate": 0.0009485321820398321,
      "loss": 2.4869,
      "step": 374
    },
    {
      "epoch": 0.1719986240110079,
      "grad_norm": 0.5941947925536019,
      "learning_rate": 0.0009482033355302475,
      "loss": 2.6272,
      "step": 375
    },
    {
      "epoch": 0.1724572870083706,
      "grad_norm": 0.5722840143813872,
      "learning_rate": 0.0009478734991811556,
      "loss": 2.5857,
      "step": 376
    },
    {
      "epoch": 0.1729159500057333,
      "grad_norm": 0.575688037978754,
      "learning_rate": 0.0009475426737209871,
      "loss": 2.708,
      "step": 377
    },
    {
      "epoch": 0.17337461300309598,
      "grad_norm": 0.5777773235770504,
      "learning_rate": 0.000947210859880357,
      "loss": 2.6414,
      "step": 378
    },
    {
      "epoch": 0.17383327600045867,
      "grad_norm": 0.5706659246725915,
      "learning_rate": 0.0009468780583920631,
      "loss": 2.5128,
      "step": 379
    },
    {
      "epoch": 0.17429193899782136,
      "grad_norm": 0.5823908342335832,
      "learning_rate": 0.0009465442699910846,
      "loss": 2.4872,
      "step": 380
    },
    {
      "epoch": 0.17475060199518405,
      "grad_norm": 0.6672342833556549,
      "learning_rate": 0.0009462094954145801,
      "loss": 2.7704,
      "step": 381
    },
    {
      "epoch": 0.17520926499254671,
      "grad_norm": 0.6289261862955612,
      "learning_rate": 0.0009458737354018859,
      "loss": 2.6009,
      "step": 382
    },
    {
      "epoch": 0.1756679279899094,
      "grad_norm": 0.5949716166114261,
      "learning_rate": 0.000945536990694515,
      "loss": 2.6062,
      "step": 383
    },
    {
      "epoch": 0.1761265909872721,
      "grad_norm": 0.7439307100351131,
      "learning_rate": 0.0009451992620361551,
      "loss": 2.7034,
      "step": 384
    },
    {
      "epoch": 0.1765852539846348,
      "grad_norm": 0.5783835807658603,
      "learning_rate": 0.0009448605501726664,
      "loss": 2.5116,
      "step": 385
    },
    {
      "epoch": 0.17704391698199748,
      "grad_norm": 0.6332765516335875,
      "learning_rate": 0.000944520855852081,
      "loss": 2.6492,
      "step": 386
    },
    {
      "epoch": 0.17750257997936017,
      "grad_norm": 0.601463420165917,
      "learning_rate": 0.0009441801798246002,
      "loss": 2.5713,
      "step": 387
    },
    {
      "epoch": 0.17796124297672286,
      "grad_norm": 0.5801006804282187,
      "learning_rate": 0.0009438385228425939,
      "loss": 2.6668,
      "step": 388
    },
    {
      "epoch": 0.17841990597408555,
      "grad_norm": 0.5741318140419869,
      "learning_rate": 0.0009434958856605982,
      "loss": 2.6273,
      "step": 389
    },
    {
      "epoch": 0.17887856897144822,
      "grad_norm": 0.6387741619665054,
      "learning_rate": 0.0009431522690353137,
      "loss": 2.6918,
      "step": 390
    },
    {
      "epoch": 0.1793372319688109,
      "grad_norm": 0.5489224542708426,
      "learning_rate": 0.0009428076737256044,
      "loss": 2.5271,
      "step": 391
    },
    {
      "epoch": 0.1797958949661736,
      "grad_norm": 0.6380254680210111,
      "learning_rate": 0.0009424621004924954,
      "loss": 2.6167,
      "step": 392
    },
    {
      "epoch": 0.1802545579635363,
      "grad_norm": 0.6786159059868919,
      "learning_rate": 0.0009421155500991719,
      "loss": 2.5828,
      "step": 393
    },
    {
      "epoch": 0.18071322096089898,
      "grad_norm": 0.5983838774854324,
      "learning_rate": 0.0009417680233109767,
      "loss": 2.7402,
      "step": 394
    },
    {
      "epoch": 0.18117188395826167,
      "grad_norm": 0.5783205299363676,
      "learning_rate": 0.000941419520895409,
      "loss": 2.4932,
      "step": 395
    },
    {
      "epoch": 0.18163054695562436,
      "grad_norm": 0.7135525630970139,
      "learning_rate": 0.0009410700436221229,
      "loss": 2.5832,
      "step": 396
    },
    {
      "epoch": 0.18208920995298705,
      "grad_norm": 0.6148607918856386,
      "learning_rate": 0.0009407195922629252,
      "loss": 2.4693,
      "step": 397
    },
    {
      "epoch": 0.18254787295034974,
      "grad_norm": 0.5794376216503393,
      "learning_rate": 0.000940368167591774,
      "loss": 2.4034,
      "step": 398
    },
    {
      "epoch": 0.1830065359477124,
      "grad_norm": 0.6959770439611697,
      "learning_rate": 0.0009400157703847769,
      "loss": 2.5376,
      "step": 399
    },
    {
      "epoch": 0.1834651989450751,
      "grad_norm": 0.5996270224176584,
      "learning_rate": 0.0009396624014201895,
      "loss": 2.577,
      "step": 400
    },
    {
      "epoch": 0.1839238619424378,
      "grad_norm": 0.5412635524586198,
      "learning_rate": 0.000939308061478413,
      "loss": 2.5522,
      "step": 401
    },
    {
      "epoch": 0.18438252493980048,
      "grad_norm": 0.7366054311541071,
      "learning_rate": 0.0009389527513419935,
      "loss": 2.5931,
      "step": 402
    },
    {
      "epoch": 0.18484118793716317,
      "grad_norm": 0.59048906984336,
      "learning_rate": 0.0009385964717956195,
      "loss": 2.5551,
      "step": 403
    },
    {
      "epoch": 0.18529985093452586,
      "grad_norm": 0.6129452101879712,
      "learning_rate": 0.0009382392236261201,
      "loss": 2.5519,
      "step": 404
    },
    {
      "epoch": 0.18575851393188855,
      "grad_norm": 0.5974649923290494,
      "learning_rate": 0.0009378810076224644,
      "loss": 2.6072,
      "step": 405
    },
    {
      "epoch": 0.18621717692925124,
      "grad_norm": 0.5716514399843227,
      "learning_rate": 0.0009375218245757582,
      "loss": 2.6334,
      "step": 406
    },
    {
      "epoch": 0.1866758399266139,
      "grad_norm": 0.5768167980552451,
      "learning_rate": 0.0009371616752792432,
      "loss": 2.6312,
      "step": 407
    },
    {
      "epoch": 0.1871345029239766,
      "grad_norm": 0.6122005380487922,
      "learning_rate": 0.0009368005605282949,
      "loss": 2.545,
      "step": 408
    },
    {
      "epoch": 0.1875931659213393,
      "grad_norm": 0.5501052955046007,
      "learning_rate": 0.0009364384811204212,
      "loss": 2.5732,
      "step": 409
    },
    {
      "epoch": 0.18805182891870198,
      "grad_norm": 0.5953244939157304,
      "learning_rate": 0.00093607543785526,
      "loss": 2.5302,
      "step": 410
    },
    {
      "epoch": 0.18851049191606467,
      "grad_norm": 0.6394762274581037,
      "learning_rate": 0.0009357114315345787,
      "loss": 2.6143,
      "step": 411
    },
    {
      "epoch": 0.18896915491342736,
      "grad_norm": 0.5877281263040859,
      "learning_rate": 0.0009353464629622705,
      "loss": 2.55,
      "step": 412
    },
    {
      "epoch": 0.18942781791079005,
      "grad_norm": 0.6040662743723088,
      "learning_rate": 0.0009349805329443544,
      "loss": 2.5765,
      "step": 413
    },
    {
      "epoch": 0.18988648090815274,
      "grad_norm": 0.5712325768037528,
      "learning_rate": 0.0009346136422889724,
      "loss": 2.5406,
      "step": 414
    },
    {
      "epoch": 0.19034514390551543,
      "grad_norm": 0.5770192634124122,
      "learning_rate": 0.0009342457918063882,
      "loss": 2.5312,
      "step": 415
    },
    {
      "epoch": 0.1908038069028781,
      "grad_norm": 0.5382662761298092,
      "learning_rate": 0.0009338769823089853,
      "loss": 2.5776,
      "step": 416
    },
    {
      "epoch": 0.1912624699002408,
      "grad_norm": 0.5622918362942999,
      "learning_rate": 0.0009335072146112648,
      "loss": 2.5848,
      "step": 417
    },
    {
      "epoch": 0.19172113289760348,
      "grad_norm": 0.645728370439504,
      "learning_rate": 0.0009331364895298444,
      "loss": 2.6695,
      "step": 418
    },
    {
      "epoch": 0.19217979589496617,
      "grad_norm": 0.5405461620253076,
      "learning_rate": 0.0009327648078834559,
      "loss": 2.4561,
      "step": 419
    },
    {
      "epoch": 0.19263845889232886,
      "grad_norm": 0.5979184085757234,
      "learning_rate": 0.0009323921704929434,
      "loss": 2.6371,
      "step": 420
    },
    {
      "epoch": 0.19309712188969155,
      "grad_norm": 0.5996428575143016,
      "learning_rate": 0.0009320185781812623,
      "loss": 2.591,
      "step": 421
    },
    {
      "epoch": 0.19355578488705424,
      "grad_norm": 0.5804569888310781,
      "learning_rate": 0.0009316440317734762,
      "loss": 2.5154,
      "step": 422
    },
    {
      "epoch": 0.19401444788441694,
      "grad_norm": 0.6216943853460165,
      "learning_rate": 0.0009312685320967565,
      "loss": 2.5437,
      "step": 423
    },
    {
      "epoch": 0.19447311088177963,
      "grad_norm": 0.6236600066793402,
      "learning_rate": 0.0009308920799803793,
      "loss": 2.6619,
      "step": 424
    },
    {
      "epoch": 0.1949317738791423,
      "grad_norm": 0.5996565221849512,
      "learning_rate": 0.0009305146762557246,
      "loss": 2.5084,
      "step": 425
    },
    {
      "epoch": 0.19539043687650498,
      "grad_norm": 0.5740321655371161,
      "learning_rate": 0.0009301363217562736,
      "loss": 2.5711,
      "step": 426
    },
    {
      "epoch": 0.19584909987386767,
      "grad_norm": 0.5448121685623547,
      "learning_rate": 0.0009297570173176074,
      "loss": 2.5593,
      "step": 427
    },
    {
      "epoch": 0.19630776287123036,
      "grad_norm": 0.5745839972137222,
      "learning_rate": 0.000929376763777405,
      "loss": 2.5958,
      "step": 428
    },
    {
      "epoch": 0.19676642586859305,
      "grad_norm": 0.5705520400412866,
      "learning_rate": 0.0009289955619754413,
      "loss": 2.5448,
      "step": 429
    },
    {
      "epoch": 0.19722508886595574,
      "grad_norm": 0.6134506237107439,
      "learning_rate": 0.0009286134127535859,
      "loss": 2.6063,
      "step": 430
    },
    {
      "epoch": 0.19768375186331844,
      "grad_norm": 0.5549210060590454,
      "learning_rate": 0.0009282303169558,
      "loss": 2.5289,
      "step": 431
    },
    {
      "epoch": 0.19814241486068113,
      "grad_norm": 0.5142435172833847,
      "learning_rate": 0.0009278462754281359,
      "loss": 2.5428,
      "step": 432
    },
    {
      "epoch": 0.1986010778580438,
      "grad_norm": 0.5609874907686687,
      "learning_rate": 0.0009274612890187342,
      "loss": 2.566,
      "step": 433
    },
    {
      "epoch": 0.19905974085540648,
      "grad_norm": 0.6182829229183711,
      "learning_rate": 0.0009270753585778222,
      "loss": 2.6407,
      "step": 434
    },
    {
      "epoch": 0.19951840385276917,
      "grad_norm": 0.5446201930313542,
      "learning_rate": 0.0009266884849577124,
      "loss": 2.4551,
      "step": 435
    },
    {
      "epoch": 0.19997706685013186,
      "grad_norm": 0.5772283410354265,
      "learning_rate": 0.0009263006690127998,
      "loss": 2.4787,
      "step": 436
    },
    {
      "epoch": 0.20043572984749455,
      "grad_norm": 0.552426598214674,
      "learning_rate": 0.0009259119115995609,
      "loss": 2.5766,
      "step": 437
    },
    {
      "epoch": 0.20089439284485724,
      "grad_norm": 0.5695006264624961,
      "learning_rate": 0.0009255222135765511,
      "loss": 2.5233,
      "step": 438
    },
    {
      "epoch": 0.20135305584221994,
      "grad_norm": 0.5593878506268951,
      "learning_rate": 0.0009251315758044032,
      "loss": 2.678,
      "step": 439
    },
    {
      "epoch": 0.20181171883958263,
      "grad_norm": 0.5912512099508849,
      "learning_rate": 0.0009247399991458255,
      "loss": 2.5559,
      "step": 440
    },
    {
      "epoch": 0.20227038183694532,
      "grad_norm": 0.5514614872324128,
      "learning_rate": 0.0009243474844655996,
      "loss": 2.5436,
      "step": 441
    },
    {
      "epoch": 0.20272904483430798,
      "grad_norm": 0.5276694151835153,
      "learning_rate": 0.0009239540326305791,
      "loss": 2.459,
      "step": 442
    },
    {
      "epoch": 0.20318770783167067,
      "grad_norm": 0.5891573692981227,
      "learning_rate": 0.0009235596445096864,
      "loss": 2.6591,
      "step": 443
    },
    {
      "epoch": 0.20364637082903336,
      "grad_norm": 0.573339467958108,
      "learning_rate": 0.0009231643209739127,
      "loss": 2.6491,
      "step": 444
    },
    {
      "epoch": 0.20410503382639605,
      "grad_norm": 0.5868773709046397,
      "learning_rate": 0.0009227680628963145,
      "loss": 2.5174,
      "step": 445
    },
    {
      "epoch": 0.20456369682375874,
      "grad_norm": 0.5408515390720495,
      "learning_rate": 0.000922370871152012,
      "loss": 2.6333,
      "step": 446
    },
    {
      "epoch": 0.20502235982112144,
      "grad_norm": 0.5968699665340845,
      "learning_rate": 0.0009219727466181877,
      "loss": 2.5561,
      "step": 447
    },
    {
      "epoch": 0.20548102281848413,
      "grad_norm": 0.5823491393914759,
      "learning_rate": 0.0009215736901740841,
      "loss": 2.5504,
      "step": 448
    },
    {
      "epoch": 0.20593968581584682,
      "grad_norm": 0.5909215926368652,
      "learning_rate": 0.0009211737027010016,
      "loss": 2.647,
      "step": 449
    },
    {
      "epoch": 0.20639834881320948,
      "grad_norm": 0.5648382309482127,
      "learning_rate": 0.0009207727850822971,
      "loss": 2.5415,
      "step": 450
    },
    {
      "epoch": 0.20685701181057217,
      "grad_norm": 0.554358740898054,
      "learning_rate": 0.0009203709382033814,
      "loss": 2.6286,
      "step": 451
    },
    {
      "epoch": 0.20731567480793486,
      "grad_norm": 0.5831607200408456,
      "learning_rate": 0.0009199681629517173,
      "loss": 2.5492,
      "step": 452
    },
    {
      "epoch": 0.20777433780529755,
      "grad_norm": 0.5749945753794066,
      "learning_rate": 0.0009195644602168184,
      "loss": 2.6111,
      "step": 453
    },
    {
      "epoch": 0.20823300080266025,
      "grad_norm": 0.5804442402571661,
      "learning_rate": 0.0009191598308902464,
      "loss": 2.4806,
      "step": 454
    },
    {
      "epoch": 0.20869166380002294,
      "grad_norm": 0.5735940494927965,
      "learning_rate": 0.0009187542758656091,
      "loss": 2.5513,
      "step": 455
    },
    {
      "epoch": 0.20915032679738563,
      "grad_norm": 0.5913934323274251,
      "learning_rate": 0.0009183477960385591,
      "loss": 2.5194,
      "step": 456
    },
    {
      "epoch": 0.20960898979474832,
      "grad_norm": 0.5584133885933897,
      "learning_rate": 0.0009179403923067912,
      "loss": 2.664,
      "step": 457
    },
    {
      "epoch": 0.210067652792111,
      "grad_norm": 0.49775209177299273,
      "learning_rate": 0.0009175320655700406,
      "loss": 2.493,
      "step": 458
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 0.5281507608553115,
      "learning_rate": 0.0009171228167300805,
      "loss": 2.5422,
      "step": 459
    },
    {
      "epoch": 0.21098497878683636,
      "grad_norm": 0.5459645237419656,
      "learning_rate": 0.0009167126466907215,
      "loss": 2.5819,
      "step": 460
    },
    {
      "epoch": 0.21144364178419905,
      "grad_norm": 0.5851072747231629,
      "learning_rate": 0.0009163015563578074,
      "loss": 2.574,
      "step": 461
    },
    {
      "epoch": 0.21190230478156175,
      "grad_norm": 0.5886604885052098,
      "learning_rate": 0.0009158895466392158,
      "loss": 2.6653,
      "step": 462
    },
    {
      "epoch": 0.21236096777892444,
      "grad_norm": 0.5369181488448151,
      "learning_rate": 0.0009154766184448535,
      "loss": 2.4902,
      "step": 463
    },
    {
      "epoch": 0.21281963077628713,
      "grad_norm": 0.635988302110055,
      "learning_rate": 0.0009150627726866568,
      "loss": 2.4455,
      "step": 464
    },
    {
      "epoch": 0.21327829377364982,
      "grad_norm": 0.5463367943475247,
      "learning_rate": 0.000914648010278587,
      "loss": 2.4877,
      "step": 465
    },
    {
      "epoch": 0.2137369567710125,
      "grad_norm": 0.6569360063815659,
      "learning_rate": 0.0009142323321366315,
      "loss": 2.6367,
      "step": 466
    },
    {
      "epoch": 0.21419561976837517,
      "grad_norm": 0.6637979035973536,
      "learning_rate": 0.0009138157391787986,
      "loss": 2.6996,
      "step": 467
    },
    {
      "epoch": 0.21465428276573786,
      "grad_norm": 0.560983518358307,
      "learning_rate": 0.0009133982323251177,
      "loss": 2.543,
      "step": 468
    },
    {
      "epoch": 0.21511294576310055,
      "grad_norm": 0.6119194922408954,
      "learning_rate": 0.0009129798124976365,
      "loss": 2.6326,
      "step": 469
    },
    {
      "epoch": 0.21557160876046325,
      "grad_norm": 0.5124274375819183,
      "learning_rate": 0.0009125604806204187,
      "loss": 2.552,
      "step": 470
    },
    {
      "epoch": 0.21603027175782594,
      "grad_norm": 0.5650477691115076,
      "learning_rate": 0.0009121402376195421,
      "loss": 2.4525,
      "step": 471
    },
    {
      "epoch": 0.21648893475518863,
      "grad_norm": 0.6069402985919833,
      "learning_rate": 0.0009117190844230972,
      "loss": 2.5907,
      "step": 472
    },
    {
      "epoch": 0.21694759775255132,
      "grad_norm": 0.5541934888548116,
      "learning_rate": 0.0009112970219611841,
      "loss": 2.4848,
      "step": 473
    },
    {
      "epoch": 0.217406260749914,
      "grad_norm": 0.519804502200761,
      "learning_rate": 0.0009108740511659115,
      "loss": 2.6073,
      "step": 474
    },
    {
      "epoch": 0.2178649237472767,
      "grad_norm": 0.5220911464613556,
      "learning_rate": 0.0009104501729713935,
      "loss": 2.6051,
      "step": 475
    },
    {
      "epoch": 0.21832358674463936,
      "grad_norm": 0.6167974000289358,
      "learning_rate": 0.0009100253883137488,
      "loss": 2.5275,
      "step": 476
    },
    {
      "epoch": 0.21878224974200206,
      "grad_norm": 0.5636900414185599,
      "learning_rate": 0.0009095996981310974,
      "loss": 2.569,
      "step": 477
    },
    {
      "epoch": 0.21924091273936475,
      "grad_norm": 0.5873318657449622,
      "learning_rate": 0.0009091731033635596,
      "loss": 2.5264,
      "step": 478
    },
    {
      "epoch": 0.21969957573672744,
      "grad_norm": 0.5459490775287001,
      "learning_rate": 0.0009087456049532529,
      "loss": 2.5372,
      "step": 479
    },
    {
      "epoch": 0.22015823873409013,
      "grad_norm": 0.5839251543358384,
      "learning_rate": 0.0009083172038442914,
      "loss": 2.5497,
      "step": 480
    },
    {
      "epoch": 0.22061690173145282,
      "grad_norm": 0.5554776194118147,
      "learning_rate": 0.0009078879009827817,
      "loss": 2.4865,
      "step": 481
    },
    {
      "epoch": 0.2210755647288155,
      "grad_norm": 0.5701140852500344,
      "learning_rate": 0.0009074576973168223,
      "loss": 2.5795,
      "step": 482
    },
    {
      "epoch": 0.2215342277261782,
      "grad_norm": 0.5243080544780471,
      "learning_rate": 0.0009070265937965015,
      "loss": 2.5502,
      "step": 483
    },
    {
      "epoch": 0.2219928907235409,
      "grad_norm": 0.6185601878491401,
      "learning_rate": 0.0009065945913738942,
      "loss": 2.6255,
      "step": 484
    },
    {
      "epoch": 0.22245155372090356,
      "grad_norm": 0.5033824597292581,
      "learning_rate": 0.0009061616910030609,
      "loss": 2.5849,
      "step": 485
    },
    {
      "epoch": 0.22291021671826625,
      "grad_norm": 0.5946822602180336,
      "learning_rate": 0.0009057278936400453,
      "loss": 2.5339,
      "step": 486
    },
    {
      "epoch": 0.22336887971562894,
      "grad_norm": 0.5638117161614796,
      "learning_rate": 0.0009052932002428715,
      "loss": 2.5666,
      "step": 487
    },
    {
      "epoch": 0.22382754271299163,
      "grad_norm": 0.5640535442351379,
      "learning_rate": 0.0009048576117715435,
      "loss": 2.5598,
      "step": 488
    },
    {
      "epoch": 0.22428620571035432,
      "grad_norm": 0.5991101104076468,
      "learning_rate": 0.0009044211291880407,
      "loss": 2.5093,
      "step": 489
    },
    {
      "epoch": 0.224744868707717,
      "grad_norm": 0.593922790142498,
      "learning_rate": 0.000903983753456318,
      "loss": 2.4877,
      "step": 490
    },
    {
      "epoch": 0.2252035317050797,
      "grad_norm": 0.5332640087512729,
      "learning_rate": 0.0009035454855423026,
      "loss": 2.5324,
      "step": 491
    },
    {
      "epoch": 0.2256621947024424,
      "grad_norm": 0.5846233702477489,
      "learning_rate": 0.0009031063264138922,
      "loss": 2.4955,
      "step": 492
    },
    {
      "epoch": 0.22612085769980506,
      "grad_norm": 0.5405407768874141,
      "learning_rate": 0.0009026662770409522,
      "loss": 2.5699,
      "step": 493
    },
    {
      "epoch": 0.22657952069716775,
      "grad_norm": 0.543557059476883,
      "learning_rate": 0.0009022253383953147,
      "loss": 2.5513,
      "step": 494
    },
    {
      "epoch": 0.22703818369453044,
      "grad_norm": 0.5979003511344777,
      "learning_rate": 0.0009017835114507753,
      "loss": 2.5244,
      "step": 495
    },
    {
      "epoch": 0.22749684669189313,
      "grad_norm": 0.5366728131952834,
      "learning_rate": 0.0009013407971830914,
      "loss": 2.5823,
      "step": 496
    },
    {
      "epoch": 0.22795550968925582,
      "grad_norm": 0.5322837958499073,
      "learning_rate": 0.0009008971965699801,
      "loss": 2.6318,
      "step": 497
    },
    {
      "epoch": 0.2284141726866185,
      "grad_norm": 0.571072249467707,
      "learning_rate": 0.0009004527105911163,
      "loss": 2.6262,
      "step": 498
    },
    {
      "epoch": 0.2288728356839812,
      "grad_norm": 0.5694341446805091,
      "learning_rate": 0.0009000073402281295,
      "loss": 2.5589,
      "step": 499
    },
    {
      "epoch": 0.2293314986813439,
      "grad_norm": 0.5213417967115027,
      "learning_rate": 0.0008995610864646028,
      "loss": 2.4555,
      "step": 500
    },
    {
      "epoch": 0.22979016167870658,
      "grad_norm": 0.5794283940314303,
      "learning_rate": 0.0008991139502860703,
      "loss": 2.5038,
      "step": 501
    },
    {
      "epoch": 0.23024882467606925,
      "grad_norm": 0.5899443950437769,
      "learning_rate": 0.0008986659326800146,
      "loss": 2.4313,
      "step": 502
    },
    {
      "epoch": 0.23070748767343194,
      "grad_norm": 0.6334174843766167,
      "learning_rate": 0.0008982170346358651,
      "loss": 2.5571,
      "step": 503
    },
    {
      "epoch": 0.23116615067079463,
      "grad_norm": 0.5655252792604708,
      "learning_rate": 0.0008977672571449956,
      "loss": 2.499,
      "step": 504
    },
    {
      "epoch": 0.23162481366815732,
      "grad_norm": 0.5723567821861091,
      "learning_rate": 0.0008973166012007217,
      "loss": 2.6796,
      "step": 505
    },
    {
      "epoch": 0.23208347666552,
      "grad_norm": 0.6290027257067831,
      "learning_rate": 0.0008968650677982998,
      "loss": 2.5176,
      "step": 506
    },
    {
      "epoch": 0.2325421396628827,
      "grad_norm": 0.5581389607124303,
      "learning_rate": 0.0008964126579349236,
      "loss": 2.5107,
      "step": 507
    },
    {
      "epoch": 0.2330008026602454,
      "grad_norm": 0.5827453202688,
      "learning_rate": 0.0008959593726097226,
      "loss": 2.4986,
      "step": 508
    },
    {
      "epoch": 0.23345946565760808,
      "grad_norm": 0.603359249230016,
      "learning_rate": 0.0008955052128237596,
      "loss": 2.4609,
      "step": 509
    },
    {
      "epoch": 0.23391812865497075,
      "grad_norm": 0.5517099611390315,
      "learning_rate": 0.0008950501795800288,
      "loss": 2.6256,
      "step": 510
    },
    {
      "epoch": 0.23437679165233344,
      "grad_norm": 0.5994161924915904,
      "learning_rate": 0.0008945942738834532,
      "loss": 2.4929,
      "step": 511
    },
    {
      "epoch": 0.23483545464969613,
      "grad_norm": 0.5797669147636251,
      "learning_rate": 0.0008941374967408826,
      "loss": 2.5127,
      "step": 512
    },
    {
      "epoch": 0.23529411764705882,
      "grad_norm": 0.5631587726810038,
      "learning_rate": 0.0008936798491610916,
      "loss": 2.5177,
      "step": 513
    },
    {
      "epoch": 0.2357527806444215,
      "grad_norm": 0.5531300195067436,
      "learning_rate": 0.0008932213321547768,
      "loss": 2.6018,
      "step": 514
    },
    {
      "epoch": 0.2362114436417842,
      "grad_norm": 0.5802477961813306,
      "learning_rate": 0.0008927619467345554,
      "loss": 2.4969,
      "step": 515
    },
    {
      "epoch": 0.2366701066391469,
      "grad_norm": 0.5882755148985959,
      "learning_rate": 0.0008923016939149615,
      "loss": 2.5437,
      "step": 516
    },
    {
      "epoch": 0.23712876963650958,
      "grad_norm": 0.5151636743743777,
      "learning_rate": 0.0008918405747124458,
      "loss": 2.4168,
      "step": 517
    },
    {
      "epoch": 0.23758743263387228,
      "grad_norm": 0.5412905511959245,
      "learning_rate": 0.0008913785901453721,
      "loss": 2.5387,
      "step": 518
    },
    {
      "epoch": 0.23804609563123494,
      "grad_norm": 0.5254517655216397,
      "learning_rate": 0.000890915741234015,
      "loss": 2.569,
      "step": 519
    },
    {
      "epoch": 0.23850475862859763,
      "grad_norm": 0.5084516763109167,
      "learning_rate": 0.0008904520290005582,
      "loss": 2.5698,
      "step": 520
    },
    {
      "epoch": 0.23896342162596032,
      "grad_norm": 0.6686213095857025,
      "learning_rate": 0.000889987454469092,
      "loss": 2.6243,
      "step": 521
    },
    {
      "epoch": 0.239422084623323,
      "grad_norm": 0.5521834103763091,
      "learning_rate": 0.0008895220186656111,
      "loss": 2.4636,
      "step": 522
    },
    {
      "epoch": 0.2398807476206857,
      "grad_norm": 0.5440339134759152,
      "learning_rate": 0.0008890557226180122,
      "loss": 2.4794,
      "step": 523
    },
    {
      "epoch": 0.2403394106180484,
      "grad_norm": 0.53852786903412,
      "learning_rate": 0.0008885885673560921,
      "loss": 2.4447,
      "step": 524
    },
    {
      "epoch": 0.24079807361541108,
      "grad_norm": 0.6126896196408179,
      "learning_rate": 0.0008881205539115444,
      "loss": 2.594,
      "step": 525
    },
    {
      "epoch": 0.24125673661277378,
      "grad_norm": 0.561937949138843,
      "learning_rate": 0.0008876516833179589,
      "loss": 2.5147,
      "step": 526
    },
    {
      "epoch": 0.24171539961013644,
      "grad_norm": 0.54278191866474,
      "learning_rate": 0.0008871819566108177,
      "loss": 2.4722,
      "step": 527
    },
    {
      "epoch": 0.24217406260749913,
      "grad_norm": 0.5529023324372997,
      "learning_rate": 0.000886711374827494,
      "loss": 2.4654,
      "step": 528
    },
    {
      "epoch": 0.24263272560486182,
      "grad_norm": 0.5691229318604939,
      "learning_rate": 0.0008862399390072491,
      "loss": 2.5539,
      "step": 529
    },
    {
      "epoch": 0.2430913886022245,
      "grad_norm": 0.578480059976963,
      "learning_rate": 0.0008857676501912305,
      "loss": 2.5128,
      "step": 530
    },
    {
      "epoch": 0.2435500515995872,
      "grad_norm": 0.5138954759021626,
      "learning_rate": 0.0008852945094224697,
      "loss": 2.5431,
      "step": 531
    },
    {
      "epoch": 0.2440087145969499,
      "grad_norm": 0.5657972160537942,
      "learning_rate": 0.0008848205177458795,
      "loss": 2.6159,
      "step": 532
    },
    {
      "epoch": 0.24446737759431258,
      "grad_norm": 0.5455424957511055,
      "learning_rate": 0.0008843456762082518,
      "loss": 2.4438,
      "step": 533
    },
    {
      "epoch": 0.24492604059167528,
      "grad_norm": 0.6307707969973125,
      "learning_rate": 0.0008838699858582557,
      "loss": 2.5663,
      "step": 534
    },
    {
      "epoch": 0.24538470358903797,
      "grad_norm": 0.5814137768544988,
      "learning_rate": 0.0008833934477464347,
      "loss": 2.6341,
      "step": 535
    },
    {
      "epoch": 0.24584336658640063,
      "grad_norm": 0.5838021003031593,
      "learning_rate": 0.0008829160629252045,
      "loss": 2.5652,
      "step": 536
    },
    {
      "epoch": 0.24630202958376332,
      "grad_norm": 0.6360539497619319,
      "learning_rate": 0.0008824378324488509,
      "loss": 2.6356,
      "step": 537
    },
    {
      "epoch": 0.246760692581126,
      "grad_norm": 0.5364313129462296,
      "learning_rate": 0.0008819587573735268,
      "loss": 2.6109,
      "step": 538
    },
    {
      "epoch": 0.2472193555784887,
      "grad_norm": 0.5033535763016969,
      "learning_rate": 0.0008814788387572513,
      "loss": 2.4052,
      "step": 539
    },
    {
      "epoch": 0.2476780185758514,
      "grad_norm": 0.5721601179003678,
      "learning_rate": 0.0008809980776599053,
      "loss": 2.5245,
      "step": 540
    },
    {
      "epoch": 0.24813668157321409,
      "grad_norm": 0.549365998227971,
      "learning_rate": 0.0008805164751432312,
      "loss": 2.4104,
      "step": 541
    },
    {
      "epoch": 0.24859534457057678,
      "grad_norm": 0.4955761657646995,
      "learning_rate": 0.0008800340322708292,
      "loss": 2.5787,
      "step": 542
    },
    {
      "epoch": 0.24905400756793947,
      "grad_norm": 0.5428654140134913,
      "learning_rate": 0.0008795507501081555,
      "loss": 2.4669,
      "step": 543
    },
    {
      "epoch": 0.24951267056530213,
      "grad_norm": 0.542745855397626,
      "learning_rate": 0.0008790666297225196,
      "loss": 2.4894,
      "step": 544
    },
    {
      "epoch": 0.24997133356266482,
      "grad_norm": 0.5416063820340026,
      "learning_rate": 0.0008785816721830829,
      "loss": 2.5568,
      "step": 545
    },
    {
      "epoch": 0.2504299965600275,
      "grad_norm": 0.6025556352408927,
      "learning_rate": 0.0008780958785608546,
      "loss": 2.6644,
      "step": 546
    },
    {
      "epoch": 0.2508886595573902,
      "grad_norm": 0.5978952802867532,
      "learning_rate": 0.0008776092499286912,
      "loss": 2.5033,
      "step": 547
    },
    {
      "epoch": 0.2513473225547529,
      "grad_norm": 0.5029578926901311,
      "learning_rate": 0.0008771217873612929,
      "loss": 2.4719,
      "step": 548
    },
    {
      "epoch": 0.2518059855521156,
      "grad_norm": 0.5574237175643637,
      "learning_rate": 0.0008766334919352017,
      "loss": 2.6278,
      "step": 549
    },
    {
      "epoch": 0.2522646485494783,
      "grad_norm": 0.5581007195765311,
      "learning_rate": 0.0008761443647287987,
      "loss": 2.5091,
      "step": 550
    },
    {
      "epoch": 0.25272331154684097,
      "grad_norm": 0.5349510896067936,
      "learning_rate": 0.0008756544068223026,
      "loss": 2.584,
      "step": 551
    },
    {
      "epoch": 0.25318197454420366,
      "grad_norm": 0.5250553816014341,
      "learning_rate": 0.0008751636192977659,
      "loss": 2.5738,
      "step": 552
    },
    {
      "epoch": 0.25364063754156635,
      "grad_norm": 0.5563822807548362,
      "learning_rate": 0.0008746720032390737,
      "loss": 2.6523,
      "step": 553
    },
    {
      "epoch": 0.25409930053892904,
      "grad_norm": 0.550504199451806,
      "learning_rate": 0.0008741795597319408,
      "loss": 2.5826,
      "step": 554
    },
    {
      "epoch": 0.25455796353629173,
      "grad_norm": 0.555898440682283,
      "learning_rate": 0.0008736862898639095,
      "loss": 2.5508,
      "step": 555
    },
    {
      "epoch": 0.2550166265336544,
      "grad_norm": 0.5363767794904892,
      "learning_rate": 0.0008731921947243468,
      "loss": 2.5456,
      "step": 556
    },
    {
      "epoch": 0.25547528953101706,
      "grad_norm": 0.5003489825869606,
      "learning_rate": 0.0008726972754044427,
      "loss": 2.5589,
      "step": 557
    },
    {
      "epoch": 0.25593395252837975,
      "grad_norm": 0.5375051001319562,
      "learning_rate": 0.0008722015329972069,
      "loss": 2.6102,
      "step": 558
    },
    {
      "epoch": 0.25639261552574244,
      "grad_norm": 0.5494664320834559,
      "learning_rate": 0.0008717049685974672,
      "loss": 2.5599,
      "step": 559
    },
    {
      "epoch": 0.25685127852310513,
      "grad_norm": 0.5062040582509799,
      "learning_rate": 0.0008712075833018665,
      "loss": 2.5235,
      "step": 560
    },
    {
      "epoch": 0.2573099415204678,
      "grad_norm": 0.5623275811499239,
      "learning_rate": 0.0008707093782088608,
      "loss": 2.4859,
      "step": 561
    },
    {
      "epoch": 0.2577686045178305,
      "grad_norm": 0.49942839552720714,
      "learning_rate": 0.0008702103544187167,
      "loss": 2.4818,
      "step": 562
    },
    {
      "epoch": 0.2582272675151932,
      "grad_norm": 0.5195195203456772,
      "learning_rate": 0.0008697105130335085,
      "loss": 2.5489,
      "step": 563
    },
    {
      "epoch": 0.2586859305125559,
      "grad_norm": 0.5605283070094836,
      "learning_rate": 0.0008692098551571164,
      "loss": 2.6038,
      "step": 564
    },
    {
      "epoch": 0.2591445935099186,
      "grad_norm": 0.5777223414834376,
      "learning_rate": 0.0008687083818952235,
      "loss": 2.5869,
      "step": 565
    },
    {
      "epoch": 0.2596032565072813,
      "grad_norm": 0.5183668906831279,
      "learning_rate": 0.0008682060943553143,
      "loss": 2.5333,
      "step": 566
    },
    {
      "epoch": 0.26006191950464397,
      "grad_norm": 0.5837361031886915,
      "learning_rate": 0.0008677029936466707,
      "loss": 2.5312,
      "step": 567
    },
    {
      "epoch": 0.26052058250200666,
      "grad_norm": 0.5321356474285766,
      "learning_rate": 0.0008671990808803711,
      "loss": 2.6486,
      "step": 568
    },
    {
      "epoch": 0.26097924549936935,
      "grad_norm": 0.5344963182070258,
      "learning_rate": 0.0008666943571692871,
      "loss": 2.5698,
      "step": 569
    },
    {
      "epoch": 0.26143790849673204,
      "grad_norm": 0.5371674095551635,
      "learning_rate": 0.0008661888236280813,
      "loss": 2.6044,
      "step": 570
    },
    {
      "epoch": 0.26189657149409473,
      "grad_norm": 0.5154847673048255,
      "learning_rate": 0.0008656824813732045,
      "loss": 2.4167,
      "step": 571
    },
    {
      "epoch": 0.2623552344914574,
      "grad_norm": 0.5321488478418654,
      "learning_rate": 0.000865175331522894,
      "loss": 2.5074,
      "step": 572
    },
    {
      "epoch": 0.2628138974888201,
      "grad_norm": 0.5321024416880732,
      "learning_rate": 0.0008646673751971703,
      "loss": 2.4282,
      "step": 573
    },
    {
      "epoch": 0.26327256048618275,
      "grad_norm": 0.5192151846311688,
      "learning_rate": 0.000864158613517835,
      "loss": 2.4623,
      "step": 574
    },
    {
      "epoch": 0.26373122348354544,
      "grad_norm": 0.5346562640231649,
      "learning_rate": 0.0008636490476084681,
      "loss": 2.5591,
      "step": 575
    },
    {
      "epoch": 0.26418988648090813,
      "grad_norm": 0.5606824171652982,
      "learning_rate": 0.0008631386785944264,
      "loss": 2.5973,
      "step": 576
    },
    {
      "epoch": 0.2646485494782708,
      "grad_norm": 0.529193914204145,
      "learning_rate": 0.0008626275076028397,
      "loss": 2.5719,
      "step": 577
    },
    {
      "epoch": 0.2651072124756335,
      "grad_norm": 0.5346721261981496,
      "learning_rate": 0.0008621155357626091,
      "loss": 2.5622,
      "step": 578
    },
    {
      "epoch": 0.2655658754729962,
      "grad_norm": 0.512459064980239,
      "learning_rate": 0.0008616027642044042,
      "loss": 2.5455,
      "step": 579
    },
    {
      "epoch": 0.2660245384703589,
      "grad_norm": 0.5425633342172884,
      "learning_rate": 0.000861089194060661,
      "loss": 2.6301,
      "step": 580
    },
    {
      "epoch": 0.2664832014677216,
      "grad_norm": 0.5133531686380125,
      "learning_rate": 0.000860574826465579,
      "loss": 2.4829,
      "step": 581
    },
    {
      "epoch": 0.2669418644650843,
      "grad_norm": 0.5230660415613058,
      "learning_rate": 0.0008600596625551191,
      "loss": 2.5975,
      "step": 582
    },
    {
      "epoch": 0.26740052746244697,
      "grad_norm": 0.5629205740959431,
      "learning_rate": 0.0008595437034670006,
      "loss": 2.5346,
      "step": 583
    },
    {
      "epoch": 0.26785919045980966,
      "grad_norm": 0.5296118956101176,
      "learning_rate": 0.0008590269503406985,
      "loss": 2.485,
      "step": 584
    },
    {
      "epoch": 0.26831785345717235,
      "grad_norm": 0.5411166082908001,
      "learning_rate": 0.0008585094043174423,
      "loss": 2.5358,
      "step": 585
    },
    {
      "epoch": 0.26877651645453504,
      "grad_norm": 0.5243512249355515,
      "learning_rate": 0.0008579910665402118,
      "loss": 2.5727,
      "step": 586
    },
    {
      "epoch": 0.26923517945189773,
      "grad_norm": 0.5630869607165391,
      "learning_rate": 0.000857471938153736,
      "loss": 2.6383,
      "step": 587
    },
    {
      "epoch": 0.2696938424492604,
      "grad_norm": 0.4833861488783184,
      "learning_rate": 0.0008569520203044892,
      "loss": 2.5464,
      "step": 588
    },
    {
      "epoch": 0.2701525054466231,
      "grad_norm": 0.510248470264627,
      "learning_rate": 0.0008564313141406901,
      "loss": 2.4794,
      "step": 589
    },
    {
      "epoch": 0.2706111684439858,
      "grad_norm": 0.4893732385006055,
      "learning_rate": 0.0008559098208122973,
      "loss": 2.4843,
      "step": 590
    },
    {
      "epoch": 0.2710698314413485,
      "grad_norm": 0.5092800515846686,
      "learning_rate": 0.0008553875414710089,
      "loss": 2.5647,
      "step": 591
    },
    {
      "epoch": 0.27152849443871113,
      "grad_norm": 0.509803787244079,
      "learning_rate": 0.0008548644772702579,
      "loss": 2.4632,
      "step": 592
    },
    {
      "epoch": 0.2719871574360738,
      "grad_norm": 0.5069802916918239,
      "learning_rate": 0.0008543406293652116,
      "loss": 2.5482,
      "step": 593
    },
    {
      "epoch": 0.2724458204334365,
      "grad_norm": 0.5516546059816086,
      "learning_rate": 0.0008538159989127671,
      "loss": 2.5115,
      "step": 594
    },
    {
      "epoch": 0.2729044834307992,
      "grad_norm": 0.5149413163280661,
      "learning_rate": 0.0008532905870715505,
      "loss": 2.5359,
      "step": 595
    },
    {
      "epoch": 0.2733631464281619,
      "grad_norm": 0.539422331168028,
      "learning_rate": 0.0008527643950019131,
      "loss": 2.5679,
      "step": 596
    },
    {
      "epoch": 0.2738218094255246,
      "grad_norm": 0.5219919850500346,
      "learning_rate": 0.0008522374238659296,
      "loss": 2.4884,
      "step": 597
    },
    {
      "epoch": 0.2742804724228873,
      "grad_norm": 0.5015396056602285,
      "learning_rate": 0.0008517096748273951,
      "loss": 2.4509,
      "step": 598
    },
    {
      "epoch": 0.27473913542024997,
      "grad_norm": 0.5242889120154527,
      "learning_rate": 0.0008511811490518227,
      "loss": 2.5266,
      "step": 599
    },
    {
      "epoch": 0.27519779841761266,
      "grad_norm": 0.5348761211290498,
      "learning_rate": 0.0008506518477064405,
      "loss": 2.6211,
      "step": 600
    },
    {
      "epoch": 0.27565646141497535,
      "grad_norm": 0.5329716080795353,
      "learning_rate": 0.0008501217719601903,
      "loss": 2.4553,
      "step": 601
    },
    {
      "epoch": 0.27611512441233804,
      "grad_norm": 0.554903646614039,
      "learning_rate": 0.0008495909229837233,
      "loss": 2.5646,
      "step": 602
    },
    {
      "epoch": 0.27657378740970073,
      "grad_norm": 0.512226729589817,
      "learning_rate": 0.000849059301949399,
      "loss": 2.5353,
      "step": 603
    },
    {
      "epoch": 0.2770324504070634,
      "grad_norm": 0.529361438457238,
      "learning_rate": 0.0008485269100312812,
      "loss": 2.4994,
      "step": 604
    },
    {
      "epoch": 0.2774911134044261,
      "grad_norm": 0.5549991389273058,
      "learning_rate": 0.0008479937484051368,
      "loss": 2.5802,
      "step": 605
    },
    {
      "epoch": 0.2779497764017888,
      "grad_norm": 0.5095296345750224,
      "learning_rate": 0.0008474598182484323,
      "loss": 2.6162,
      "step": 606
    },
    {
      "epoch": 0.2784084393991515,
      "grad_norm": 0.5191309482132922,
      "learning_rate": 0.0008469251207403317,
      "loss": 2.4968,
      "step": 607
    },
    {
      "epoch": 0.2788671023965142,
      "grad_norm": 0.5153539039703011,
      "learning_rate": 0.0008463896570616934,
      "loss": 2.5001,
      "step": 608
    },
    {
      "epoch": 0.2793257653938768,
      "grad_norm": 0.4774241967438514,
      "learning_rate": 0.0008458534283950678,
      "loss": 2.5245,
      "step": 609
    },
    {
      "epoch": 0.2797844283912395,
      "grad_norm": 0.5391200429477615,
      "learning_rate": 0.0008453164359246952,
      "loss": 2.5298,
      "step": 610
    },
    {
      "epoch": 0.2802430913886022,
      "grad_norm": 0.529234530529042,
      "learning_rate": 0.0008447786808365022,
      "loss": 2.4843,
      "step": 611
    },
    {
      "epoch": 0.2807017543859649,
      "grad_norm": 0.6012840323198678,
      "learning_rate": 0.0008442401643181,
      "loss": 2.6895,
      "step": 612
    },
    {
      "epoch": 0.2811604173833276,
      "grad_norm": 0.5192141496111022,
      "learning_rate": 0.0008437008875587811,
      "loss": 2.5278,
      "step": 613
    },
    {
      "epoch": 0.2816190803806903,
      "grad_norm": 0.529419650330649,
      "learning_rate": 0.0008431608517495171,
      "loss": 2.4557,
      "step": 614
    },
    {
      "epoch": 0.28207774337805297,
      "grad_norm": 0.5986887124370018,
      "learning_rate": 0.0008426200580829561,
      "loss": 2.425,
      "step": 615
    },
    {
      "epoch": 0.28253640637541566,
      "grad_norm": 0.5275895301171495,
      "learning_rate": 0.0008420785077534195,
      "loss": 2.5036,
      "step": 616
    },
    {
      "epoch": 0.28299506937277835,
      "grad_norm": 0.5649484008493177,
      "learning_rate": 0.0008415362019569001,
      "loss": 2.5679,
      "step": 617
    },
    {
      "epoch": 0.28345373237014104,
      "grad_norm": 0.5233192627426132,
      "learning_rate": 0.0008409931418910591,
      "loss": 2.4841,
      "step": 618
    },
    {
      "epoch": 0.28391239536750373,
      "grad_norm": 0.5734541511519285,
      "learning_rate": 0.0008404493287552232,
      "loss": 2.5602,
      "step": 619
    },
    {
      "epoch": 0.2843710583648664,
      "grad_norm": 0.5011938735876803,
      "learning_rate": 0.0008399047637503825,
      "loss": 2.5519,
      "step": 620
    },
    {
      "epoch": 0.2848297213622291,
      "grad_norm": 0.5314008848171601,
      "learning_rate": 0.0008393594480791875,
      "loss": 2.489,
      "step": 621
    },
    {
      "epoch": 0.2852883843595918,
      "grad_norm": 0.5516944410700901,
      "learning_rate": 0.0008388133829459463,
      "loss": 2.5496,
      "step": 622
    },
    {
      "epoch": 0.2857470473569545,
      "grad_norm": 0.5346116578906074,
      "learning_rate": 0.0008382665695566227,
      "loss": 2.624,
      "step": 623
    },
    {
      "epoch": 0.2862057103543172,
      "grad_norm": 0.535400893207046,
      "learning_rate": 0.0008377190091188324,
      "loss": 2.5208,
      "step": 624
    },
    {
      "epoch": 0.2866643733516799,
      "grad_norm": 0.5412304639040241,
      "learning_rate": 0.0008371707028418413,
      "loss": 2.5111,
      "step": 625
    },
    {
      "epoch": 0.2871230363490425,
      "grad_norm": 0.5187581613626532,
      "learning_rate": 0.0008366216519365621,
      "loss": 2.608,
      "step": 626
    },
    {
      "epoch": 0.2875816993464052,
      "grad_norm": 0.4849902360121234,
      "learning_rate": 0.0008360718576155525,
      "loss": 2.4788,
      "step": 627
    },
    {
      "epoch": 0.2880403623437679,
      "grad_norm": 0.55873568631474,
      "learning_rate": 0.0008355213210930118,
      "loss": 2.5037,
      "step": 628
    },
    {
      "epoch": 0.2884990253411306,
      "grad_norm": 0.5154405417480937,
      "learning_rate": 0.0008349700435847778,
      "loss": 2.631,
      "step": 629
    },
    {
      "epoch": 0.2889576883384933,
      "grad_norm": 0.5006471409118042,
      "learning_rate": 0.0008344180263083256,
      "loss": 2.5323,
      "step": 630
    },
    {
      "epoch": 0.28941635133585597,
      "grad_norm": 0.49259916785191366,
      "learning_rate": 0.000833865270482764,
      "loss": 2.4286,
      "step": 631
    },
    {
      "epoch": 0.28987501433321866,
      "grad_norm": 0.5023322304900049,
      "learning_rate": 0.0008333117773288324,
      "loss": 2.4929,
      "step": 632
    },
    {
      "epoch": 0.29033367733058135,
      "grad_norm": 0.60348892944973,
      "learning_rate": 0.0008327575480688985,
      "loss": 2.4686,
      "step": 633
    },
    {
      "epoch": 0.29079234032794404,
      "grad_norm": 0.522327286147112,
      "learning_rate": 0.000832202583926956,
      "loss": 2.5187,
      "step": 634
    },
    {
      "epoch": 0.29125100332530673,
      "grad_norm": 0.5083901086294688,
      "learning_rate": 0.0008316468861286217,
      "loss": 2.5247,
      "step": 635
    },
    {
      "epoch": 0.2917096663226694,
      "grad_norm": 0.5248722544680307,
      "learning_rate": 0.0008310904559011323,
      "loss": 2.5355,
      "step": 636
    },
    {
      "epoch": 0.2921683293200321,
      "grad_norm": 0.5250062220604433,
      "learning_rate": 0.0008305332944733419,
      "loss": 2.5403,
      "step": 637
    },
    {
      "epoch": 0.2926269923173948,
      "grad_norm": 0.5476454707680745,
      "learning_rate": 0.0008299754030757202,
      "loss": 2.5419,
      "step": 638
    },
    {
      "epoch": 0.2930856553147575,
      "grad_norm": 0.5273470025032535,
      "learning_rate": 0.0008294167829403481,
      "loss": 2.5823,
      "step": 639
    },
    {
      "epoch": 0.2935443183121202,
      "grad_norm": 0.5218503676214653,
      "learning_rate": 0.0008288574353009164,
      "loss": 2.5148,
      "step": 640
    },
    {
      "epoch": 0.2940029813094829,
      "grad_norm": 0.5380993906058524,
      "learning_rate": 0.0008282973613927225,
      "loss": 2.4798,
      "step": 641
    },
    {
      "epoch": 0.29446164430684557,
      "grad_norm": 0.4968378132906469,
      "learning_rate": 0.0008277365624526675,
      "loss": 2.5321,
      "step": 642
    },
    {
      "epoch": 0.2949203073042082,
      "grad_norm": 0.5134236197155028,
      "learning_rate": 0.0008271750397192541,
      "loss": 2.4372,
      "step": 643
    },
    {
      "epoch": 0.2953789703015709,
      "grad_norm": 0.5437078653869973,
      "learning_rate": 0.0008266127944325832,
      "loss": 2.4842,
      "step": 644
    },
    {
      "epoch": 0.2958376332989336,
      "grad_norm": 0.5418503301511514,
      "learning_rate": 0.0008260498278343513,
      "loss": 2.5649,
      "step": 645
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.47682894637265744,
      "learning_rate": 0.0008254861411678485,
      "loss": 2.5021,
      "step": 646
    },
    {
      "epoch": 0.29675495929365897,
      "grad_norm": 0.49818694742746156,
      "learning_rate": 0.0008249217356779544,
      "loss": 2.4669,
      "step": 647
    },
    {
      "epoch": 0.29721362229102166,
      "grad_norm": 0.4976084575049759,
      "learning_rate": 0.0008243566126111363,
      "loss": 2.5541,
      "step": 648
    },
    {
      "epoch": 0.29767228528838435,
      "grad_norm": 0.5055056994433614,
      "learning_rate": 0.0008237907732154466,
      "loss": 2.5853,
      "step": 649
    },
    {
      "epoch": 0.29813094828574704,
      "grad_norm": 0.5244257522867494,
      "learning_rate": 0.0008232242187405194,
      "loss": 2.5001,
      "step": 650
    },
    {
      "epoch": 0.29858961128310973,
      "grad_norm": 0.5083733835719084,
      "learning_rate": 0.000822656950437568,
      "loss": 2.581,
      "step": 651
    },
    {
      "epoch": 0.2990482742804724,
      "grad_norm": 0.5180041714712404,
      "learning_rate": 0.0008220889695593823,
      "loss": 2.5184,
      "step": 652
    },
    {
      "epoch": 0.2995069372778351,
      "grad_norm": 0.510999073833488,
      "learning_rate": 0.0008215202773603259,
      "loss": 2.4872,
      "step": 653
    },
    {
      "epoch": 0.2999656002751978,
      "grad_norm": 0.5335279391398959,
      "learning_rate": 0.0008209508750963328,
      "loss": 2.482,
      "step": 654
    },
    {
      "epoch": 0.3004242632725605,
      "grad_norm": 0.5367633854909937,
      "learning_rate": 0.0008203807640249062,
      "loss": 2.5599,
      "step": 655
    },
    {
      "epoch": 0.3008829262699232,
      "grad_norm": 0.556621043787049,
      "learning_rate": 0.0008198099454051136,
      "loss": 2.5972,
      "step": 656
    },
    {
      "epoch": 0.3013415892672859,
      "grad_norm": 0.5584441278964438,
      "learning_rate": 0.0008192384204975857,
      "loss": 2.472,
      "step": 657
    },
    {
      "epoch": 0.30180025226464857,
      "grad_norm": 0.5331057075767504,
      "learning_rate": 0.000818666190564513,
      "loss": 2.5039,
      "step": 658
    },
    {
      "epoch": 0.30225891526201126,
      "grad_norm": 0.5601595648748308,
      "learning_rate": 0.0008180932568696426,
      "loss": 2.4733,
      "step": 659
    },
    {
      "epoch": 0.3027175782593739,
      "grad_norm": 0.6005456256531403,
      "learning_rate": 0.0008175196206782764,
      "loss": 2.4641,
      "step": 660
    },
    {
      "epoch": 0.3031762412567366,
      "grad_norm": 0.5925729844657126,
      "learning_rate": 0.0008169452832572675,
      "loss": 2.4818,
      "step": 661
    },
    {
      "epoch": 0.3036349042540993,
      "grad_norm": 0.5411266073994891,
      "learning_rate": 0.0008163702458750173,
      "loss": 2.5688,
      "step": 662
    },
    {
      "epoch": 0.30409356725146197,
      "grad_norm": 0.527788368012223,
      "learning_rate": 0.0008157945098014734,
      "loss": 2.5533,
      "step": 663
    },
    {
      "epoch": 0.30455223024882466,
      "grad_norm": 0.5296832718107579,
      "learning_rate": 0.0008152180763081267,
      "loss": 2.5765,
      "step": 664
    },
    {
      "epoch": 0.30501089324618735,
      "grad_norm": 0.5358336484484488,
      "learning_rate": 0.0008146409466680076,
      "loss": 2.5405,
      "step": 665
    },
    {
      "epoch": 0.30546955624355004,
      "grad_norm": 0.5437516599831778,
      "learning_rate": 0.0008140631221556845,
      "loss": 2.5379,
      "step": 666
    },
    {
      "epoch": 0.30592821924091274,
      "grad_norm": 0.5722456439916357,
      "learning_rate": 0.0008134846040472599,
      "loss": 2.564,
      "step": 667
    },
    {
      "epoch": 0.3063868822382754,
      "grad_norm": 0.530443760099983,
      "learning_rate": 0.0008129053936203688,
      "loss": 2.4737,
      "step": 668
    },
    {
      "epoch": 0.3068455452356381,
      "grad_norm": 0.5712980442734017,
      "learning_rate": 0.0008123254921541745,
      "loss": 2.5555,
      "step": 669
    },
    {
      "epoch": 0.3073042082330008,
      "grad_norm": 0.5324762505140347,
      "learning_rate": 0.0008117449009293668,
      "loss": 2.4688,
      "step": 670
    },
    {
      "epoch": 0.3077628712303635,
      "grad_norm": 0.5262183691350288,
      "learning_rate": 0.0008111636212281586,
      "loss": 2.5368,
      "step": 671
    },
    {
      "epoch": 0.3082215342277262,
      "grad_norm": 0.5281941460457158,
      "learning_rate": 0.0008105816543342833,
      "loss": 2.4902,
      "step": 672
    },
    {
      "epoch": 0.3086801972250889,
      "grad_norm": 0.5346447832592116,
      "learning_rate": 0.0008099990015329919,
      "loss": 2.5672,
      "step": 673
    },
    {
      "epoch": 0.3091388602224516,
      "grad_norm": 0.5587443635560428,
      "learning_rate": 0.0008094156641110504,
      "loss": 2.5153,
      "step": 674
    },
    {
      "epoch": 0.30959752321981426,
      "grad_norm": 0.4863486297493994,
      "learning_rate": 0.0008088316433567369,
      "loss": 2.6424,
      "step": 675
    },
    {
      "epoch": 0.31005618621717695,
      "grad_norm": 0.5286193860691132,
      "learning_rate": 0.0008082469405598378,
      "loss": 2.5447,
      "step": 676
    },
    {
      "epoch": 0.3105148492145396,
      "grad_norm": 0.47428177348572725,
      "learning_rate": 0.0008076615570116468,
      "loss": 2.495,
      "step": 677
    },
    {
      "epoch": 0.3109735122119023,
      "grad_norm": 0.47169690377837553,
      "learning_rate": 0.0008070754940049603,
      "loss": 2.5709,
      "step": 678
    },
    {
      "epoch": 0.31143217520926497,
      "grad_norm": 0.4875107897039199,
      "learning_rate": 0.0008064887528340756,
      "loss": 2.48,
      "step": 679
    },
    {
      "epoch": 0.31189083820662766,
      "grad_norm": 0.4891651341131021,
      "learning_rate": 0.0008059013347947874,
      "loss": 2.568,
      "step": 680
    },
    {
      "epoch": 0.31234950120399035,
      "grad_norm": 0.5155524432981332,
      "learning_rate": 0.0008053132411843857,
      "loss": 2.4739,
      "step": 681
    },
    {
      "epoch": 0.31280816420135305,
      "grad_norm": 0.48151924861182605,
      "learning_rate": 0.0008047244733016521,
      "loss": 2.5794,
      "step": 682
    },
    {
      "epoch": 0.31326682719871574,
      "grad_norm": 0.5521081673550389,
      "learning_rate": 0.0008041350324468573,
      "loss": 2.4364,
      "step": 683
    },
    {
      "epoch": 0.3137254901960784,
      "grad_norm": 0.4959751613120573,
      "learning_rate": 0.0008035449199217583,
      "loss": 2.5189,
      "step": 684
    },
    {
      "epoch": 0.3141841531934411,
      "grad_norm": 0.5252791421839208,
      "learning_rate": 0.0008029541370295957,
      "loss": 2.521,
      "step": 685
    },
    {
      "epoch": 0.3146428161908038,
      "grad_norm": 0.5858368643822897,
      "learning_rate": 0.0008023626850750903,
      "loss": 2.5917,
      "step": 686
    },
    {
      "epoch": 0.3151014791881665,
      "grad_norm": 0.5228281683618574,
      "learning_rate": 0.0008017705653644406,
      "loss": 2.5342,
      "step": 687
    },
    {
      "epoch": 0.3155601421855292,
      "grad_norm": 0.49852162319070265,
      "learning_rate": 0.0008011777792053195,
      "loss": 2.4126,
      "step": 688
    },
    {
      "epoch": 0.3160188051828919,
      "grad_norm": 0.5014613992481034,
      "learning_rate": 0.0008005843279068725,
      "loss": 2.5676,
      "step": 689
    },
    {
      "epoch": 0.3164774681802546,
      "grad_norm": 0.5210439834262044,
      "learning_rate": 0.000799990212779713,
      "loss": 2.5999,
      "step": 690
    },
    {
      "epoch": 0.31693613117761726,
      "grad_norm": 0.4853528347167488,
      "learning_rate": 0.0007993954351359214,
      "loss": 2.535,
      "step": 691
    },
    {
      "epoch": 0.31739479417497996,
      "grad_norm": 0.4884505360783873,
      "learning_rate": 0.0007987999962890406,
      "loss": 2.7164,
      "step": 692
    },
    {
      "epoch": 0.31785345717234265,
      "grad_norm": 0.5268618258106785,
      "learning_rate": 0.0007982038975540742,
      "loss": 2.5026,
      "step": 693
    },
    {
      "epoch": 0.3183121201697053,
      "grad_norm": 0.5078236823471629,
      "learning_rate": 0.0007976071402474826,
      "loss": 2.4957,
      "step": 694
    },
    {
      "epoch": 0.318770783167068,
      "grad_norm": 0.5237110306825888,
      "learning_rate": 0.0007970097256871811,
      "loss": 2.574,
      "step": 695
    },
    {
      "epoch": 0.31922944616443066,
      "grad_norm": 0.49564059226039964,
      "learning_rate": 0.0007964116551925364,
      "loss": 2.5305,
      "step": 696
    },
    {
      "epoch": 0.31968810916179335,
      "grad_norm": 0.48599427690618946,
      "learning_rate": 0.0007958129300843637,
      "loss": 2.4743,
      "step": 697
    },
    {
      "epoch": 0.32014677215915605,
      "grad_norm": 0.49396390481941327,
      "learning_rate": 0.0007952135516849239,
      "loss": 2.4253,
      "step": 698
    },
    {
      "epoch": 0.32060543515651874,
      "grad_norm": 0.5410943025073364,
      "learning_rate": 0.0007946135213179207,
      "loss": 2.5694,
      "step": 699
    },
    {
      "epoch": 0.3210640981538814,
      "grad_norm": 0.511740640068777,
      "learning_rate": 0.0007940128403084977,
      "loss": 2.6069,
      "step": 700
    },
    {
      "epoch": 0.3215227611512441,
      "grad_norm": 0.4747998702947151,
      "learning_rate": 0.0007934115099832355,
      "loss": 2.4848,
      "step": 701
    },
    {
      "epoch": 0.3219814241486068,
      "grad_norm": 0.4749287663698191,
      "learning_rate": 0.0007928095316701483,
      "loss": 2.4923,
      "step": 702
    },
    {
      "epoch": 0.3224400871459695,
      "grad_norm": 0.5200125306417168,
      "learning_rate": 0.0007922069066986819,
      "loss": 2.5767,
      "step": 703
    },
    {
      "epoch": 0.3228987501433322,
      "grad_norm": 0.5101967850441492,
      "learning_rate": 0.0007916036363997097,
      "loss": 2.4815,
      "step": 704
    },
    {
      "epoch": 0.3233574131406949,
      "grad_norm": 0.5624858185911265,
      "learning_rate": 0.0007909997221055308,
      "loss": 2.5626,
      "step": 705
    },
    {
      "epoch": 0.3238160761380576,
      "grad_norm": 0.538576947166652,
      "learning_rate": 0.0007903951651498658,
      "loss": 2.546,
      "step": 706
    },
    {
      "epoch": 0.32427473913542026,
      "grad_norm": 0.49658025451804705,
      "learning_rate": 0.0007897899668678557,
      "loss": 2.4353,
      "step": 707
    },
    {
      "epoch": 0.32473340213278296,
      "grad_norm": 0.497679736058374,
      "learning_rate": 0.0007891841285960566,
      "loss": 2.5429,
      "step": 708
    },
    {
      "epoch": 0.32519206513014565,
      "grad_norm": 0.5338053668016133,
      "learning_rate": 0.0007885776516724388,
      "loss": 2.4594,
      "step": 709
    },
    {
      "epoch": 0.32565072812750834,
      "grad_norm": 0.5156599443193708,
      "learning_rate": 0.0007879705374363831,
      "loss": 2.4121,
      "step": 710
    },
    {
      "epoch": 0.32610939112487103,
      "grad_norm": 0.49866977283806446,
      "learning_rate": 0.000787362787228677,
      "loss": 2.5193,
      "step": 711
    },
    {
      "epoch": 0.32656805412223366,
      "grad_norm": 0.5431288308939952,
      "learning_rate": 0.0007867544023915134,
      "loss": 2.5888,
      "step": 712
    },
    {
      "epoch": 0.32702671711959636,
      "grad_norm": 0.5211915515469838,
      "learning_rate": 0.0007861453842684861,
      "loss": 2.4111,
      "step": 713
    },
    {
      "epoch": 0.32748538011695905,
      "grad_norm": 0.493180865579028,
      "learning_rate": 0.0007855357342045882,
      "loss": 2.495,
      "step": 714
    },
    {
      "epoch": 0.32794404311432174,
      "grad_norm": 0.48824533016437893,
      "learning_rate": 0.0007849254535462074,
      "loss": 2.4064,
      "step": 715
    },
    {
      "epoch": 0.32840270611168443,
      "grad_norm": 0.4859165407172891,
      "learning_rate": 0.0007843145436411252,
      "loss": 2.4919,
      "step": 716
    },
    {
      "epoch": 0.3288613691090471,
      "grad_norm": 0.5597639556377132,
      "learning_rate": 0.0007837030058385117,
      "loss": 2.447,
      "step": 717
    },
    {
      "epoch": 0.3293200321064098,
      "grad_norm": 0.5439361464187328,
      "learning_rate": 0.0007830908414889246,
      "loss": 2.6488,
      "step": 718
    },
    {
      "epoch": 0.3297786951037725,
      "grad_norm": 0.4891699391714776,
      "learning_rate": 0.0007824780519443046,
      "loss": 2.5422,
      "step": 719
    },
    {
      "epoch": 0.3302373581011352,
      "grad_norm": 0.4910130175954809,
      "learning_rate": 0.0007818646385579735,
      "loss": 2.4327,
      "step": 720
    },
    {
      "epoch": 0.3306960210984979,
      "grad_norm": 0.496971421073956,
      "learning_rate": 0.0007812506026846307,
      "loss": 2.5138,
      "step": 721
    },
    {
      "epoch": 0.3311546840958606,
      "grad_norm": 0.489773836300872,
      "learning_rate": 0.0007806359456803504,
      "loss": 2.536,
      "step": 722
    },
    {
      "epoch": 0.33161334709322327,
      "grad_norm": 0.4978177452022235,
      "learning_rate": 0.0007800206689025785,
      "loss": 2.4719,
      "step": 723
    },
    {
      "epoch": 0.33207201009058596,
      "grad_norm": 0.49262907105607107,
      "learning_rate": 0.0007794047737101297,
      "loss": 2.6322,
      "step": 724
    },
    {
      "epoch": 0.33253067308794865,
      "grad_norm": 0.4883971894758683,
      "learning_rate": 0.0007787882614631843,
      "loss": 2.4934,
      "step": 725
    },
    {
      "epoch": 0.33298933608531134,
      "grad_norm": 0.5190678987597535,
      "learning_rate": 0.0007781711335232856,
      "loss": 2.451,
      "step": 726
    },
    {
      "epoch": 0.33344799908267403,
      "grad_norm": 0.47867074811328014,
      "learning_rate": 0.0007775533912533363,
      "loss": 2.5031,
      "step": 727
    },
    {
      "epoch": 0.3339066620800367,
      "grad_norm": 0.5692703021229497,
      "learning_rate": 0.0007769350360175962,
      "loss": 2.6649,
      "step": 728
    },
    {
      "epoch": 0.33436532507739936,
      "grad_norm": 0.5072899845597725,
      "learning_rate": 0.0007763160691816784,
      "loss": 2.5588,
      "step": 729
    },
    {
      "epoch": 0.33482398807476205,
      "grad_norm": 0.5017086600771984,
      "learning_rate": 0.000775696492112547,
      "loss": 2.4446,
      "step": 730
    },
    {
      "epoch": 0.33528265107212474,
      "grad_norm": 0.5204354886744585,
      "learning_rate": 0.0007750763061785137,
      "loss": 2.5096,
      "step": 731
    },
    {
      "epoch": 0.33574131406948743,
      "grad_norm": 0.5293679592523517,
      "learning_rate": 0.000774455512749235,
      "loss": 2.5382,
      "step": 732
    },
    {
      "epoch": 0.3361999770668501,
      "grad_norm": 0.49395822753262264,
      "learning_rate": 0.0007738341131957085,
      "loss": 2.448,
      "step": 733
    },
    {
      "epoch": 0.3366586400642128,
      "grad_norm": 0.5172989139023767,
      "learning_rate": 0.000773212108890271,
      "loss": 2.5156,
      "step": 734
    },
    {
      "epoch": 0.3371173030615755,
      "grad_norm": 0.47276231287614895,
      "learning_rate": 0.0007725895012065947,
      "loss": 2.3799,
      "step": 735
    },
    {
      "epoch": 0.3375759660589382,
      "grad_norm": 0.5015298838809026,
      "learning_rate": 0.0007719662915196844,
      "loss": 2.5334,
      "step": 736
    },
    {
      "epoch": 0.3380346290563009,
      "grad_norm": 0.47464120331665016,
      "learning_rate": 0.0007713424812058736,
      "loss": 2.4922,
      "step": 737
    },
    {
      "epoch": 0.3384932920536636,
      "grad_norm": 0.48390694169092774,
      "learning_rate": 0.0007707180716428237,
      "loss": 2.5873,
      "step": 738
    },
    {
      "epoch": 0.33895195505102627,
      "grad_norm": 0.48625969557492726,
      "learning_rate": 0.0007700930642095184,
      "loss": 2.556,
      "step": 739
    },
    {
      "epoch": 0.33941061804838896,
      "grad_norm": 0.5304174418314577,
      "learning_rate": 0.0007694674602862621,
      "loss": 2.4318,
      "step": 740
    },
    {
      "epoch": 0.33986928104575165,
      "grad_norm": 0.5315263156867287,
      "learning_rate": 0.0007688412612546769,
      "loss": 2.5136,
      "step": 741
    },
    {
      "epoch": 0.34032794404311434,
      "grad_norm": 0.5182010253323927,
      "learning_rate": 0.0007682144684976983,
      "loss": 2.4324,
      "step": 742
    },
    {
      "epoch": 0.34078660704047703,
      "grad_norm": 0.5015490700089024,
      "learning_rate": 0.0007675870833995739,
      "loss": 2.4351,
      "step": 743
    },
    {
      "epoch": 0.3412452700378397,
      "grad_norm": 0.4895259582888514,
      "learning_rate": 0.0007669591073458592,
      "loss": 2.5938,
      "step": 744
    },
    {
      "epoch": 0.3417039330352024,
      "grad_norm": 0.5277996668564728,
      "learning_rate": 0.0007663305417234146,
      "loss": 2.4248,
      "step": 745
    },
    {
      "epoch": 0.34216259603256505,
      "grad_norm": 0.48343253524203916,
      "learning_rate": 0.0007657013879204022,
      "loss": 2.5023,
      "step": 746
    },
    {
      "epoch": 0.34262125902992774,
      "grad_norm": 0.4833592014310717,
      "learning_rate": 0.0007650716473262842,
      "loss": 2.4099,
      "step": 747
    },
    {
      "epoch": 0.34307992202729043,
      "grad_norm": 0.5390192721332683,
      "learning_rate": 0.0007644413213318177,
      "loss": 2.5031,
      "step": 748
    },
    {
      "epoch": 0.3435385850246531,
      "grad_norm": 0.5601425049366304,
      "learning_rate": 0.0007638104113290531,
      "loss": 2.5242,
      "step": 749
    },
    {
      "epoch": 0.3439972480220158,
      "grad_norm": 0.5492836188216088,
      "learning_rate": 0.0007631789187113303,
      "loss": 2.5023,
      "step": 750
    },
    {
      "epoch": 0.3444559110193785,
      "grad_norm": 0.5953027899322972,
      "learning_rate": 0.000762546844873276,
      "loss": 2.502,
      "step": 751
    },
    {
      "epoch": 0.3449145740167412,
      "grad_norm": 0.5456468155810149,
      "learning_rate": 0.0007619141912108007,
      "loss": 2.6147,
      "step": 752
    },
    {
      "epoch": 0.3453732370141039,
      "grad_norm": 0.5267411506840247,
      "learning_rate": 0.000761280959121095,
      "loss": 2.508,
      "step": 753
    },
    {
      "epoch": 0.3458319000114666,
      "grad_norm": 0.5326002733901805,
      "learning_rate": 0.0007606471500026273,
      "loss": 2.5317,
      "step": 754
    },
    {
      "epoch": 0.34629056300882927,
      "grad_norm": 0.5362561505691359,
      "learning_rate": 0.0007600127652551401,
      "loss": 2.473,
      "step": 755
    },
    {
      "epoch": 0.34674922600619196,
      "grad_norm": 0.4941859973257314,
      "learning_rate": 0.0007593778062796472,
      "loss": 2.5612,
      "step": 756
    },
    {
      "epoch": 0.34720788900355465,
      "grad_norm": 0.5243226354108205,
      "learning_rate": 0.000758742274478431,
      "loss": 2.6578,
      "step": 757
    },
    {
      "epoch": 0.34766655200091734,
      "grad_norm": 0.5034062303112304,
      "learning_rate": 0.0007581061712550381,
      "loss": 2.5098,
      "step": 758
    },
    {
      "epoch": 0.34812521499828003,
      "grad_norm": 0.47726761829790104,
      "learning_rate": 0.0007574694980142779,
      "loss": 2.519,
      "step": 759
    },
    {
      "epoch": 0.3485838779956427,
      "grad_norm": 0.49944675570154284,
      "learning_rate": 0.0007568322561622183,
      "loss": 2.5175,
      "step": 760
    },
    {
      "epoch": 0.3490425409930054,
      "grad_norm": 0.5010298764412485,
      "learning_rate": 0.0007561944471061826,
      "loss": 2.5257,
      "step": 761
    },
    {
      "epoch": 0.3495012039903681,
      "grad_norm": 0.5081608717419315,
      "learning_rate": 0.0007555560722547475,
      "loss": 2.393,
      "step": 762
    },
    {
      "epoch": 0.34995986698773074,
      "grad_norm": 0.5390673439112466,
      "learning_rate": 0.0007549171330177387,
      "loss": 2.6141,
      "step": 763
    },
    {
      "epoch": 0.35041852998509343,
      "grad_norm": 0.4832978445230747,
      "learning_rate": 0.0007542776308062285,
      "loss": 2.4563,
      "step": 764
    },
    {
      "epoch": 0.3508771929824561,
      "grad_norm": 0.5048570399728902,
      "learning_rate": 0.0007536375670325325,
      "loss": 2.3949,
      "step": 765
    },
    {
      "epoch": 0.3513358559798188,
      "grad_norm": 0.4743455476919747,
      "learning_rate": 0.0007529969431102063,
      "loss": 2.5451,
      "step": 766
    },
    {
      "epoch": 0.3517945189771815,
      "grad_norm": 0.4617892627078444,
      "learning_rate": 0.000752355760454043,
      "loss": 2.5403,
      "step": 767
    },
    {
      "epoch": 0.3522531819745442,
      "grad_norm": 0.48554909324126505,
      "learning_rate": 0.0007517140204800693,
      "loss": 2.5447,
      "step": 768
    },
    {
      "epoch": 0.3527118449719069,
      "grad_norm": 0.46133433221071074,
      "learning_rate": 0.0007510717246055425,
      "loss": 2.5062,
      "step": 769
    },
    {
      "epoch": 0.3531705079692696,
      "grad_norm": 0.4845914067421769,
      "learning_rate": 0.0007504288742489482,
      "loss": 2.5085,
      "step": 770
    },
    {
      "epoch": 0.35362917096663227,
      "grad_norm": 0.5312620444407453,
      "learning_rate": 0.0007497854708299963,
      "loss": 2.4458,
      "step": 771
    },
    {
      "epoch": 0.35408783396399496,
      "grad_norm": 0.4824223231698423,
      "learning_rate": 0.0007491415157696178,
      "loss": 2.5049,
      "step": 772
    },
    {
      "epoch": 0.35454649696135765,
      "grad_norm": 0.5275329616276115,
      "learning_rate": 0.0007484970104899623,
      "loss": 2.5005,
      "step": 773
    },
    {
      "epoch": 0.35500515995872034,
      "grad_norm": 0.5001429561680522,
      "learning_rate": 0.0007478519564143945,
      "loss": 2.5295,
      "step": 774
    },
    {
      "epoch": 0.35546382295608303,
      "grad_norm": 0.4820470506546249,
      "learning_rate": 0.000747206354967491,
      "loss": 2.483,
      "step": 775
    },
    {
      "epoch": 0.3559224859534457,
      "grad_norm": 0.5147086159922368,
      "learning_rate": 0.0007465602075750373,
      "loss": 2.4309,
      "step": 776
    },
    {
      "epoch": 0.3563811489508084,
      "grad_norm": 0.48247197536511105,
      "learning_rate": 0.0007459135156640247,
      "loss": 2.5825,
      "step": 777
    },
    {
      "epoch": 0.3568398119481711,
      "grad_norm": 0.477193683692487,
      "learning_rate": 0.0007452662806626468,
      "loss": 2.511,
      "step": 778
    },
    {
      "epoch": 0.3572984749455338,
      "grad_norm": 0.4875115332041594,
      "learning_rate": 0.0007446185040002967,
      "loss": 2.3498,
      "step": 779
    },
    {
      "epoch": 0.35775713794289643,
      "grad_norm": 0.534563621481129,
      "learning_rate": 0.0007439701871075642,
      "loss": 2.5459,
      "step": 780
    },
    {
      "epoch": 0.3582158009402591,
      "grad_norm": 0.5238008019720688,
      "learning_rate": 0.0007433213314162313,
      "loss": 2.5264,
      "step": 781
    },
    {
      "epoch": 0.3586744639376218,
      "grad_norm": 0.5098558447776526,
      "learning_rate": 0.0007426719383592705,
      "loss": 2.4903,
      "step": 782
    },
    {
      "epoch": 0.3591331269349845,
      "grad_norm": 0.4881927931672322,
      "learning_rate": 0.000742022009370841,
      "loss": 2.4121,
      "step": 783
    },
    {
      "epoch": 0.3595917899323472,
      "grad_norm": 0.47562530720972035,
      "learning_rate": 0.0007413715458862855,
      "loss": 2.5292,
      "step": 784
    },
    {
      "epoch": 0.3600504529297099,
      "grad_norm": 0.5149383644799532,
      "learning_rate": 0.0007407205493421272,
      "loss": 2.5065,
      "step": 785
    },
    {
      "epoch": 0.3605091159270726,
      "grad_norm": 0.46248449939860464,
      "learning_rate": 0.0007400690211760661,
      "loss": 2.4132,
      "step": 786
    },
    {
      "epoch": 0.36096777892443527,
      "grad_norm": 0.47433426427567943,
      "learning_rate": 0.0007394169628269771,
      "loss": 2.366,
      "step": 787
    },
    {
      "epoch": 0.36142644192179796,
      "grad_norm": 0.5141864168437714,
      "learning_rate": 0.0007387643757349051,
      "loss": 2.4586,
      "step": 788
    },
    {
      "epoch": 0.36188510491916065,
      "grad_norm": 0.5146928248821124,
      "learning_rate": 0.0007381112613410635,
      "loss": 2.4673,
      "step": 789
    },
    {
      "epoch": 0.36234376791652334,
      "grad_norm": 0.5244919995161582,
      "learning_rate": 0.0007374576210878298,
      "loss": 2.5926,
      "step": 790
    },
    {
      "epoch": 0.36280243091388603,
      "grad_norm": 0.4694656639796955,
      "learning_rate": 0.0007368034564187425,
      "loss": 2.4444,
      "step": 791
    },
    {
      "epoch": 0.3632610939112487,
      "grad_norm": 0.5150106096908543,
      "learning_rate": 0.0007361487687784989,
      "loss": 2.522,
      "step": 792
    },
    {
      "epoch": 0.3637197569086114,
      "grad_norm": 0.5467333762617413,
      "learning_rate": 0.0007354935596129513,
      "loss": 2.6052,
      "step": 793
    },
    {
      "epoch": 0.3641784199059741,
      "grad_norm": 0.516306791002253,
      "learning_rate": 0.000734837830369103,
      "loss": 2.4712,
      "step": 794
    },
    {
      "epoch": 0.3646370829033368,
      "grad_norm": 0.4805351660528552,
      "learning_rate": 0.0007341815824951066,
      "loss": 2.383,
      "step": 795
    },
    {
      "epoch": 0.3650957459006995,
      "grad_norm": 0.4957313986918033,
      "learning_rate": 0.0007335248174402597,
      "loss": 2.5167,
      "step": 796
    },
    {
      "epoch": 0.3655544088980621,
      "grad_norm": 0.4955623498852752,
      "learning_rate": 0.0007328675366550023,
      "loss": 2.421,
      "step": 797
    },
    {
      "epoch": 0.3660130718954248,
      "grad_norm": 0.47349456208363927,
      "learning_rate": 0.0007322097415909134,
      "loss": 2.4914,
      "step": 798
    },
    {
      "epoch": 0.3664717348927875,
      "grad_norm": 0.5158536912002077,
      "learning_rate": 0.0007315514337007071,
      "loss": 2.4344,
      "step": 799
    },
    {
      "epoch": 0.3669303978901502,
      "grad_norm": 0.529731641562231,
      "learning_rate": 0.0007308926144382312,
      "loss": 2.4511,
      "step": 800
    },
    {
      "epoch": 0.3673890608875129,
      "grad_norm": 0.5477321333542513,
      "learning_rate": 0.0007302332852584619,
      "loss": 2.4872,
      "step": 801
    },
    {
      "epoch": 0.3678477238848756,
      "grad_norm": 0.46249797880956917,
      "learning_rate": 0.0007295734476175018,
      "loss": 2.4922,
      "step": 802
    },
    {
      "epoch": 0.36830638688223827,
      "grad_norm": 0.5204682746357078,
      "learning_rate": 0.0007289131029725768,
      "loss": 2.4585,
      "step": 803
    },
    {
      "epoch": 0.36876504987960096,
      "grad_norm": 0.4861130722956404,
      "learning_rate": 0.0007282522527820319,
      "loss": 2.4802,
      "step": 804
    },
    {
      "epoch": 0.36922371287696365,
      "grad_norm": 0.45739936217941,
      "learning_rate": 0.000727590898505329,
      "loss": 2.4591,
      "step": 805
    },
    {
      "epoch": 0.36968237587432634,
      "grad_norm": 0.4906123865146168,
      "learning_rate": 0.0007269290416030429,
      "loss": 2.4453,
      "step": 806
    },
    {
      "epoch": 0.37014103887168903,
      "grad_norm": 0.4936095349636719,
      "learning_rate": 0.000726266683536859,
      "loss": 2.4408,
      "step": 807
    },
    {
      "epoch": 0.3705997018690517,
      "grad_norm": 0.48723698080927147,
      "learning_rate": 0.0007256038257695687,
      "loss": 2.4906,
      "step": 808
    },
    {
      "epoch": 0.3710583648664144,
      "grad_norm": 0.4677019387162105,
      "learning_rate": 0.0007249404697650678,
      "loss": 2.4523,
      "step": 809
    },
    {
      "epoch": 0.3715170278637771,
      "grad_norm": 0.4892071833284329,
      "learning_rate": 0.0007242766169883518,
      "loss": 2.4742,
      "step": 810
    },
    {
      "epoch": 0.3719756908611398,
      "grad_norm": 0.5506410882891024,
      "learning_rate": 0.0007236122689055138,
      "loss": 2.4588,
      "step": 811
    },
    {
      "epoch": 0.3724343538585025,
      "grad_norm": 0.47950349277160653,
      "learning_rate": 0.0007229474269837401,
      "loss": 2.5586,
      "step": 812
    },
    {
      "epoch": 0.3728930168558652,
      "grad_norm": 0.5038167092964604,
      "learning_rate": 0.0007222820926913085,
      "loss": 2.3887,
      "step": 813
    },
    {
      "epoch": 0.3733516798532278,
      "grad_norm": 0.5536322974306714,
      "learning_rate": 0.0007216162674975833,
      "loss": 2.5539,
      "step": 814
    },
    {
      "epoch": 0.3738103428505905,
      "grad_norm": 0.49719604823481206,
      "learning_rate": 0.0007209499528730138,
      "loss": 2.4914,
      "step": 815
    },
    {
      "epoch": 0.3742690058479532,
      "grad_norm": 0.5377603413949343,
      "learning_rate": 0.0007202831502891294,
      "loss": 2.4367,
      "step": 816
    },
    {
      "epoch": 0.3747276688453159,
      "grad_norm": 0.4732823514941383,
      "learning_rate": 0.0007196158612185375,
      "loss": 2.5632,
      "step": 817
    },
    {
      "epoch": 0.3751863318426786,
      "grad_norm": 0.5139647696980895,
      "learning_rate": 0.0007189480871349201,
      "loss": 2.3936,
      "step": 818
    },
    {
      "epoch": 0.37564499484004127,
      "grad_norm": 0.46944674809861997,
      "learning_rate": 0.0007182798295130299,
      "loss": 2.4293,
      "step": 819
    },
    {
      "epoch": 0.37610365783740396,
      "grad_norm": 0.5091518988873885,
      "learning_rate": 0.0007176110898286878,
      "loss": 2.4877,
      "step": 820
    },
    {
      "epoch": 0.37656232083476665,
      "grad_norm": 0.5206181914799567,
      "learning_rate": 0.0007169418695587791,
      "loss": 2.471,
      "step": 821
    },
    {
      "epoch": 0.37702098383212934,
      "grad_norm": 0.49843818912333687,
      "learning_rate": 0.0007162721701812506,
      "loss": 2.3771,
      "step": 822
    },
    {
      "epoch": 0.37747964682949203,
      "grad_norm": 0.48670524151419026,
      "learning_rate": 0.0007156019931751072,
      "loss": 2.3435,
      "step": 823
    },
    {
      "epoch": 0.3779383098268547,
      "grad_norm": 0.5433209296622884,
      "learning_rate": 0.0007149313400204082,
      "loss": 2.4644,
      "step": 824
    },
    {
      "epoch": 0.3783969728242174,
      "grad_norm": 0.5153019555450488,
      "learning_rate": 0.0007142602121982653,
      "loss": 2.566,
      "step": 825
    },
    {
      "epoch": 0.3788556358215801,
      "grad_norm": 0.5574593555375904,
      "learning_rate": 0.0007135886111908379,
      "loss": 2.6146,
      "step": 826
    },
    {
      "epoch": 0.3793142988189428,
      "grad_norm": 0.5805558006659408,
      "learning_rate": 0.0007129165384813303,
      "loss": 2.521,
      "step": 827
    },
    {
      "epoch": 0.3797729618163055,
      "grad_norm": 0.5464257438456747,
      "learning_rate": 0.0007122439955539888,
      "loss": 2.52,
      "step": 828
    },
    {
      "epoch": 0.3802316248136682,
      "grad_norm": 0.4604550896617734,
      "learning_rate": 0.0007115709838940983,
      "loss": 2.5658,
      "step": 829
    },
    {
      "epoch": 0.38069028781103087,
      "grad_norm": 0.6361709367957384,
      "learning_rate": 0.0007108975049879785,
      "loss": 2.4433,
      "step": 830
    },
    {
      "epoch": 0.3811489508083935,
      "grad_norm": 0.5004387293267523,
      "learning_rate": 0.0007102235603229814,
      "loss": 2.5618,
      "step": 831
    },
    {
      "epoch": 0.3816076138057562,
      "grad_norm": 0.5341236953252437,
      "learning_rate": 0.000709549151387487,
      "loss": 2.5742,
      "step": 832
    },
    {
      "epoch": 0.3820662768031189,
      "grad_norm": 0.4951516901925112,
      "learning_rate": 0.0007088742796709013,
      "loss": 2.5149,
      "step": 833
    },
    {
      "epoch": 0.3825249398004816,
      "grad_norm": 0.4726173890432554,
      "learning_rate": 0.000708198946663652,
      "loss": 2.4822,
      "step": 834
    },
    {
      "epoch": 0.38298360279784427,
      "grad_norm": 0.5081233279809051,
      "learning_rate": 0.0007075231538571856,
      "loss": 2.5391,
      "step": 835
    },
    {
      "epoch": 0.38344226579520696,
      "grad_norm": 0.4780024368811621,
      "learning_rate": 0.0007068469027439641,
      "loss": 2.5494,
      "step": 836
    },
    {
      "epoch": 0.38390092879256965,
      "grad_norm": 0.4574552658459617,
      "learning_rate": 0.0007061701948174613,
      "loss": 2.4535,
      "step": 837
    },
    {
      "epoch": 0.38435959178993234,
      "grad_norm": 0.4437290788440877,
      "learning_rate": 0.0007054930315721606,
      "loss": 2.3903,
      "step": 838
    },
    {
      "epoch": 0.38481825478729503,
      "grad_norm": 0.4884688745241516,
      "learning_rate": 0.0007048154145035501,
      "loss": 2.4205,
      "step": 839
    },
    {
      "epoch": 0.3852769177846577,
      "grad_norm": 0.46806106932915614,
      "learning_rate": 0.0007041373451081207,
      "loss": 2.4494,
      "step": 840
    },
    {
      "epoch": 0.3857355807820204,
      "grad_norm": 0.491742412731921,
      "learning_rate": 0.0007034588248833621,
      "loss": 2.4146,
      "step": 841
    },
    {
      "epoch": 0.3861942437793831,
      "grad_norm": 0.5008607132982846,
      "learning_rate": 0.0007027798553277595,
      "loss": 2.5906,
      "step": 842
    },
    {
      "epoch": 0.3866529067767458,
      "grad_norm": 0.5479438849740983,
      "learning_rate": 0.0007021004379407909,
      "loss": 2.4955,
      "step": 843
    },
    {
      "epoch": 0.3871115697741085,
      "grad_norm": 0.4605917584704706,
      "learning_rate": 0.0007014205742229227,
      "loss": 2.4402,
      "step": 844
    },
    {
      "epoch": 0.3875702327714712,
      "grad_norm": 0.5020634421946232,
      "learning_rate": 0.0007007402656756072,
      "loss": 2.4986,
      "step": 845
    },
    {
      "epoch": 0.38802889576883387,
      "grad_norm": 0.4881515747677648,
      "learning_rate": 0.0007000595138012797,
      "loss": 2.5858,
      "step": 846
    },
    {
      "epoch": 0.38848755876619656,
      "grad_norm": 0.49074587014193194,
      "learning_rate": 0.0006993783201033535,
      "loss": 2.516,
      "step": 847
    },
    {
      "epoch": 0.38894622176355925,
      "grad_norm": 0.5244585842792191,
      "learning_rate": 0.0006986966860862182,
      "loss": 2.5078,
      "step": 848
    },
    {
      "epoch": 0.3894048847609219,
      "grad_norm": 0.4901279127234183,
      "learning_rate": 0.000698014613255236,
      "loss": 2.451,
      "step": 849
    },
    {
      "epoch": 0.3898635477582846,
      "grad_norm": 0.4673014480529424,
      "learning_rate": 0.0006973321031167382,
      "loss": 2.4043,
      "step": 850
    },
    {
      "epoch": 0.39032221075564727,
      "grad_norm": 0.5523350654823014,
      "learning_rate": 0.0006966491571780216,
      "loss": 2.5274,
      "step": 851
    },
    {
      "epoch": 0.39078087375300996,
      "grad_norm": 0.4984088239948269,
      "learning_rate": 0.0006959657769473453,
      "loss": 2.4021,
      "step": 852
    },
    {
      "epoch": 0.39123953675037265,
      "grad_norm": 0.4721294245118855,
      "learning_rate": 0.000695281963933928,
      "loss": 2.5647,
      "step": 853
    },
    {
      "epoch": 0.39169819974773534,
      "grad_norm": 0.4563950768775775,
      "learning_rate": 0.0006945977196479438,
      "loss": 2.506,
      "step": 854
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 0.4731322801907806,
      "learning_rate": 0.0006939130456005196,
      "loss": 2.5405,
      "step": 855
    },
    {
      "epoch": 0.3926155257424607,
      "grad_norm": 0.550889012358238,
      "learning_rate": 0.0006932279433037311,
      "loss": 2.5101,
      "step": 856
    },
    {
      "epoch": 0.3930741887398234,
      "grad_norm": 0.45430622568707124,
      "learning_rate": 0.0006925424142705997,
      "loss": 2.4681,
      "step": 857
    },
    {
      "epoch": 0.3935328517371861,
      "grad_norm": 0.45696542091911174,
      "learning_rate": 0.0006918564600150896,
      "loss": 2.515,
      "step": 858
    },
    {
      "epoch": 0.3939915147345488,
      "grad_norm": 0.4912586865870424,
      "learning_rate": 0.0006911700820521042,
      "loss": 2.4073,
      "step": 859
    },
    {
      "epoch": 0.3944501777319115,
      "grad_norm": 0.4860117497355786,
      "learning_rate": 0.0006904832818974818,
      "loss": 2.526,
      "step": 860
    },
    {
      "epoch": 0.3949088407292742,
      "grad_norm": 0.49691247188067617,
      "learning_rate": 0.0006897960610679939,
      "loss": 2.6131,
      "step": 861
    },
    {
      "epoch": 0.39536750372663687,
      "grad_norm": 0.4876280296895132,
      "learning_rate": 0.0006891084210813407,
      "loss": 2.5286,
      "step": 862
    },
    {
      "epoch": 0.39582616672399956,
      "grad_norm": 0.4839564210730981,
      "learning_rate": 0.0006884203634561483,
      "loss": 2.4615,
      "step": 863
    },
    {
      "epoch": 0.39628482972136225,
      "grad_norm": 0.49885572053442856,
      "learning_rate": 0.0006877318897119651,
      "loss": 2.4677,
      "step": 864
    },
    {
      "epoch": 0.39674349271872494,
      "grad_norm": 0.48485774697389294,
      "learning_rate": 0.0006870430013692579,
      "loss": 2.4151,
      "step": 865
    },
    {
      "epoch": 0.3972021557160876,
      "grad_norm": 0.48206922744026853,
      "learning_rate": 0.0006863536999494101,
      "loss": 2.483,
      "step": 866
    },
    {
      "epoch": 0.39766081871345027,
      "grad_norm": 0.49135751063652616,
      "learning_rate": 0.0006856639869747167,
      "loss": 2.5391,
      "step": 867
    },
    {
      "epoch": 0.39811948171081296,
      "grad_norm": 0.49821671821316993,
      "learning_rate": 0.0006849738639683818,
      "loss": 2.3646,
      "step": 868
    },
    {
      "epoch": 0.39857814470817565,
      "grad_norm": 0.49868657367675745,
      "learning_rate": 0.000684283332454515,
      "loss": 2.5218,
      "step": 869
    },
    {
      "epoch": 0.39903680770553834,
      "grad_norm": 0.4448053301696144,
      "learning_rate": 0.0006835923939581281,
      "loss": 2.425,
      "step": 870
    },
    {
      "epoch": 0.39949547070290103,
      "grad_norm": 0.47998684350616394,
      "learning_rate": 0.0006829010500051318,
      "loss": 2.5819,
      "step": 871
    },
    {
      "epoch": 0.3999541337002637,
      "grad_norm": 0.5543036250386347,
      "learning_rate": 0.0006822093021223321,
      "loss": 2.4716,
      "step": 872
    },
    {
      "epoch": 0.4004127966976264,
      "grad_norm": 0.46178579785248464,
      "learning_rate": 0.0006815171518374268,
      "loss": 2.497,
      "step": 873
    },
    {
      "epoch": 0.4008714596949891,
      "grad_norm": 0.5074962470269274,
      "learning_rate": 0.0006808246006790031,
      "loss": 2.4349,
      "step": 874
    },
    {
      "epoch": 0.4013301226923518,
      "grad_norm": 0.5396997074502828,
      "learning_rate": 0.0006801316501765329,
      "loss": 2.4864,
      "step": 875
    },
    {
      "epoch": 0.4017887856897145,
      "grad_norm": 0.4867220469234521,
      "learning_rate": 0.0006794383018603704,
      "loss": 2.5113,
      "step": 876
    },
    {
      "epoch": 0.4022474486870772,
      "grad_norm": 0.5244943157635078,
      "learning_rate": 0.0006787445572617481,
      "loss": 2.5499,
      "step": 877
    },
    {
      "epoch": 0.40270611168443987,
      "grad_norm": 0.5040289818360741,
      "learning_rate": 0.0006780504179127734,
      "loss": 2.5026,
      "step": 878
    },
    {
      "epoch": 0.40316477468180256,
      "grad_norm": 0.47207524060297656,
      "learning_rate": 0.0006773558853464265,
      "loss": 2.4325,
      "step": 879
    },
    {
      "epoch": 0.40362343767916525,
      "grad_norm": 0.47758599769976035,
      "learning_rate": 0.000676660961096555,
      "loss": 2.4287,
      "step": 880
    },
    {
      "epoch": 0.40408210067652794,
      "grad_norm": 0.5590599442583927,
      "learning_rate": 0.000675965646697872,
      "loss": 2.5011,
      "step": 881
    },
    {
      "epoch": 0.40454076367389064,
      "grad_norm": 0.489187066258369,
      "learning_rate": 0.0006752699436859519,
      "loss": 2.442,
      "step": 882
    },
    {
      "epoch": 0.40499942667125327,
      "grad_norm": 0.4812723252199511,
      "learning_rate": 0.0006745738535972279,
      "loss": 2.4257,
      "step": 883
    },
    {
      "epoch": 0.40545808966861596,
      "grad_norm": 0.5314231406187724,
      "learning_rate": 0.0006738773779689874,
      "loss": 2.4621,
      "step": 884
    },
    {
      "epoch": 0.40591675266597865,
      "grad_norm": 0.5022823441688276,
      "learning_rate": 0.0006731805183393696,
      "loss": 2.4579,
      "step": 885
    },
    {
      "epoch": 0.40637541566334134,
      "grad_norm": 0.4576091116332678,
      "learning_rate": 0.0006724832762473618,
      "loss": 2.443,
      "step": 886
    },
    {
      "epoch": 0.40683407866070403,
      "grad_norm": 0.5316684667205616,
      "learning_rate": 0.0006717856532327956,
      "loss": 2.428,
      "step": 887
    },
    {
      "epoch": 0.4072927416580667,
      "grad_norm": 0.4810042646575504,
      "learning_rate": 0.0006710876508363444,
      "loss": 2.4552,
      "step": 888
    },
    {
      "epoch": 0.4077514046554294,
      "grad_norm": 0.4957161953698758,
      "learning_rate": 0.0006703892705995189,
      "loss": 2.5306,
      "step": 889
    },
    {
      "epoch": 0.4082100676527921,
      "grad_norm": 0.500717566796144,
      "learning_rate": 0.0006696905140646647,
      "loss": 2.5553,
      "step": 890
    },
    {
      "epoch": 0.4086687306501548,
      "grad_norm": 0.4570977912134999,
      "learning_rate": 0.0006689913827749581,
      "loss": 2.4632,
      "step": 891
    },
    {
      "epoch": 0.4091273936475175,
      "grad_norm": 0.46379258239013843,
      "learning_rate": 0.0006682918782744032,
      "loss": 2.4797,
      "step": 892
    },
    {
      "epoch": 0.4095860566448802,
      "grad_norm": 0.503967429094121,
      "learning_rate": 0.0006675920021078282,
      "loss": 2.2894,
      "step": 893
    },
    {
      "epoch": 0.41004471964224287,
      "grad_norm": 0.4863317974028452,
      "learning_rate": 0.0006668917558208823,
      "loss": 2.59,
      "step": 894
    },
    {
      "epoch": 0.41050338263960556,
      "grad_norm": 0.4769099550865391,
      "learning_rate": 0.0006661911409600321,
      "loss": 2.4484,
      "step": 895
    },
    {
      "epoch": 0.41096204563696825,
      "grad_norm": 0.5043509095497583,
      "learning_rate": 0.0006654901590725577,
      "loss": 2.4382,
      "step": 896
    },
    {
      "epoch": 0.41142070863433094,
      "grad_norm": 0.5323554807262321,
      "learning_rate": 0.0006647888117065507,
      "loss": 2.5286,
      "step": 897
    },
    {
      "epoch": 0.41187937163169364,
      "grad_norm": 0.5060309616462203,
      "learning_rate": 0.0006640871004109086,
      "loss": 2.4011,
      "step": 898
    },
    {
      "epoch": 0.4123380346290563,
      "grad_norm": 0.48161224623320714,
      "learning_rate": 0.000663385026735334,
      "loss": 2.4311,
      "step": 899
    },
    {
      "epoch": 0.41279669762641896,
      "grad_norm": 0.5008007703089968,
      "learning_rate": 0.0006626825922303285,
      "loss": 2.5658,
      "step": 900
    },
    {
      "epoch": 0.41325536062378165,
      "grad_norm": 0.527390333508495,
      "learning_rate": 0.0006619797984471915,
      "loss": 2.4679,
      "step": 901
    },
    {
      "epoch": 0.41371402362114434,
      "grad_norm": 0.4896625659629077,
      "learning_rate": 0.0006612766469380158,
      "loss": 2.52,
      "step": 902
    },
    {
      "epoch": 0.41417268661850704,
      "grad_norm": 0.517815252677341,
      "learning_rate": 0.0006605731392556833,
      "loss": 2.6518,
      "step": 903
    },
    {
      "epoch": 0.4146313496158697,
      "grad_norm": 0.5315425860967082,
      "learning_rate": 0.0006598692769538637,
      "loss": 2.5246,
      "step": 904
    },
    {
      "epoch": 0.4150900126132324,
      "grad_norm": 0.47794604011338654,
      "learning_rate": 0.0006591650615870091,
      "loss": 2.5063,
      "step": 905
    },
    {
      "epoch": 0.4155486756105951,
      "grad_norm": 0.48869518659052047,
      "learning_rate": 0.0006584604947103514,
      "loss": 2.4936,
      "step": 906
    },
    {
      "epoch": 0.4160073386079578,
      "grad_norm": 0.5139266311290538,
      "learning_rate": 0.0006577555778798993,
      "loss": 2.4409,
      "step": 907
    },
    {
      "epoch": 0.4164660016053205,
      "grad_norm": 0.46776930456178534,
      "learning_rate": 0.0006570503126524336,
      "loss": 2.4356,
      "step": 908
    },
    {
      "epoch": 0.4169246646026832,
      "grad_norm": 0.487452383654403,
      "learning_rate": 0.0006563447005855054,
      "loss": 2.4507,
      "step": 909
    },
    {
      "epoch": 0.4173833276000459,
      "grad_norm": 0.5352885672274684,
      "learning_rate": 0.000655638743237431,
      "loss": 2.5302,
      "step": 910
    },
    {
      "epoch": 0.41784199059740856,
      "grad_norm": 0.5423081269994298,
      "learning_rate": 0.0006549324421672894,
      "loss": 2.503,
      "step": 911
    },
    {
      "epoch": 0.41830065359477125,
      "grad_norm": 0.5301064812068988,
      "learning_rate": 0.0006542257989349194,
      "loss": 2.4996,
      "step": 912
    },
    {
      "epoch": 0.41875931659213395,
      "grad_norm": 0.5324291191484409,
      "learning_rate": 0.0006535188151009142,
      "loss": 2.478,
      "step": 913
    },
    {
      "epoch": 0.41921797958949664,
      "grad_norm": 0.5154310723621555,
      "learning_rate": 0.0006528114922266204,
      "loss": 2.5297,
      "step": 914
    },
    {
      "epoch": 0.4196766425868593,
      "grad_norm": 0.48225185753400845,
      "learning_rate": 0.0006521038318741327,
      "loss": 2.4988,
      "step": 915
    },
    {
      "epoch": 0.420135305584222,
      "grad_norm": 0.5151448267805371,
      "learning_rate": 0.0006513958356062912,
      "loss": 2.4714,
      "step": 916
    },
    {
      "epoch": 0.42059396858158465,
      "grad_norm": 0.49178612723420523,
      "learning_rate": 0.0006506875049866781,
      "loss": 2.4053,
      "step": 917
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 0.5338307186485559,
      "learning_rate": 0.0006499788415796137,
      "loss": 2.4912,
      "step": 918
    },
    {
      "epoch": 0.42151129457631004,
      "grad_norm": 0.488782268778656,
      "learning_rate": 0.0006492698469501532,
      "loss": 2.3926,
      "step": 919
    },
    {
      "epoch": 0.4219699575736727,
      "grad_norm": 0.4745994219680639,
      "learning_rate": 0.0006485605226640837,
      "loss": 2.4653,
      "step": 920
    },
    {
      "epoch": 0.4224286205710354,
      "grad_norm": 0.5023398639500163,
      "learning_rate": 0.00064785087028792,
      "loss": 2.5064,
      "step": 921
    },
    {
      "epoch": 0.4228872835683981,
      "grad_norm": 0.4835069646450303,
      "learning_rate": 0.0006471408913889019,
      "loss": 2.4047,
      "step": 922
    },
    {
      "epoch": 0.4233459465657608,
      "grad_norm": 0.4885726768127814,
      "learning_rate": 0.0006464305875349892,
      "loss": 2.4406,
      "step": 923
    },
    {
      "epoch": 0.4238046095631235,
      "grad_norm": 0.47300723710280407,
      "learning_rate": 0.000645719960294861,
      "loss": 2.4184,
      "step": 924
    },
    {
      "epoch": 0.4242632725604862,
      "grad_norm": 0.4812146821231414,
      "learning_rate": 0.0006450090112379092,
      "loss": 2.3914,
      "step": 925
    },
    {
      "epoch": 0.4247219355578489,
      "grad_norm": 0.4962419256936876,
      "learning_rate": 0.0006442977419342371,
      "loss": 2.4085,
      "step": 926
    },
    {
      "epoch": 0.42518059855521156,
      "grad_norm": 0.4823225152176578,
      "learning_rate": 0.000643586153954655,
      "loss": 2.4688,
      "step": 927
    },
    {
      "epoch": 0.42563926155257426,
      "grad_norm": 0.4902619489675855,
      "learning_rate": 0.0006428742488706772,
      "loss": 2.4648,
      "step": 928
    },
    {
      "epoch": 0.42609792454993695,
      "grad_norm": 0.4839052773446334,
      "learning_rate": 0.0006421620282545182,
      "loss": 2.3719,
      "step": 929
    },
    {
      "epoch": 0.42655658754729964,
      "grad_norm": 0.44254484432729113,
      "learning_rate": 0.0006414494936790892,
      "loss": 2.5554,
      "step": 930
    },
    {
      "epoch": 0.42701525054466233,
      "grad_norm": 0.4623790926773876,
      "learning_rate": 0.0006407366467179951,
      "loss": 2.419,
      "step": 931
    },
    {
      "epoch": 0.427473913542025,
      "grad_norm": 0.5322846937116948,
      "learning_rate": 0.0006400234889455301,
      "loss": 2.5192,
      "step": 932
    },
    {
      "epoch": 0.4279325765393877,
      "grad_norm": 0.46967401630536576,
      "learning_rate": 0.0006393100219366755,
      "loss": 2.5165,
      "step": 933
    },
    {
      "epoch": 0.42839123953675035,
      "grad_norm": 0.47571727709899453,
      "learning_rate": 0.0006385962472670953,
      "loss": 2.4193,
      "step": 934
    },
    {
      "epoch": 0.42884990253411304,
      "grad_norm": 0.45848968398561973,
      "learning_rate": 0.0006378821665131328,
      "loss": 2.4509,
      "step": 935
    },
    {
      "epoch": 0.4293085655314757,
      "grad_norm": 0.4848741686896396,
      "learning_rate": 0.0006371677812518072,
      "loss": 2.5625,
      "step": 936
    },
    {
      "epoch": 0.4297672285288384,
      "grad_norm": 0.5027756600212674,
      "learning_rate": 0.0006364530930608107,
      "loss": 2.4779,
      "step": 937
    },
    {
      "epoch": 0.4302258915262011,
      "grad_norm": 0.45613151629223364,
      "learning_rate": 0.0006357381035185038,
      "loss": 2.5004,
      "step": 938
    },
    {
      "epoch": 0.4306845545235638,
      "grad_norm": 0.5146547517248362,
      "learning_rate": 0.0006350228142039131,
      "loss": 2.5232,
      "step": 939
    },
    {
      "epoch": 0.4311432175209265,
      "grad_norm": 0.4952640715882677,
      "learning_rate": 0.000634307226696727,
      "loss": 2.4533,
      "step": 940
    },
    {
      "epoch": 0.4316018805182892,
      "grad_norm": 0.49230408500108136,
      "learning_rate": 0.0006335913425772926,
      "loss": 2.5663,
      "step": 941
    },
    {
      "epoch": 0.4320605435156519,
      "grad_norm": 0.4962860054440409,
      "learning_rate": 0.0006328751634266117,
      "loss": 2.3557,
      "step": 942
    },
    {
      "epoch": 0.43251920651301456,
      "grad_norm": 0.4883382422167645,
      "learning_rate": 0.0006321586908263382,
      "loss": 2.45,
      "step": 943
    },
    {
      "epoch": 0.43297786951037726,
      "grad_norm": 0.4810513144516534,
      "learning_rate": 0.0006314419263587732,
      "loss": 2.5303,
      "step": 944
    },
    {
      "epoch": 0.43343653250773995,
      "grad_norm": 0.5052583767476225,
      "learning_rate": 0.0006307248716068637,
      "loss": 2.4644,
      "step": 945
    },
    {
      "epoch": 0.43389519550510264,
      "grad_norm": 0.4999539169905645,
      "learning_rate": 0.0006300075281541964,
      "loss": 2.3377,
      "step": 946
    },
    {
      "epoch": 0.43435385850246533,
      "grad_norm": 0.5287839074127959,
      "learning_rate": 0.0006292898975849966,
      "loss": 2.6282,
      "step": 947
    },
    {
      "epoch": 0.434812521499828,
      "grad_norm": 0.48902511068569365,
      "learning_rate": 0.000628571981484123,
      "loss": 2.4631,
      "step": 948
    },
    {
      "epoch": 0.4352711844971907,
      "grad_norm": 0.4897118665600634,
      "learning_rate": 0.0006278537814370654,
      "loss": 2.5974,
      "step": 949
    },
    {
      "epoch": 0.4357298474945534,
      "grad_norm": 0.4992485564469189,
      "learning_rate": 0.0006271352990299406,
      "loss": 2.5076,
      "step": 950
    },
    {
      "epoch": 0.43618851049191604,
      "grad_norm": 0.4813183746589952,
      "learning_rate": 0.0006264165358494885,
      "loss": 2.4219,
      "step": 951
    },
    {
      "epoch": 0.43664717348927873,
      "grad_norm": 0.47853172112202963,
      "learning_rate": 0.0006256974934830694,
      "loss": 2.5278,
      "step": 952
    },
    {
      "epoch": 0.4371058364866414,
      "grad_norm": 0.48671854475106024,
      "learning_rate": 0.0006249781735186606,
      "loss": 2.4565,
      "step": 953
    },
    {
      "epoch": 0.4375644994840041,
      "grad_norm": 0.47524119185537544,
      "learning_rate": 0.0006242585775448518,
      "loss": 2.4643,
      "step": 954
    },
    {
      "epoch": 0.4380231624813668,
      "grad_norm": 0.46588924513092134,
      "learning_rate": 0.0006235387071508427,
      "loss": 2.3636,
      "step": 955
    },
    {
      "epoch": 0.4384818254787295,
      "grad_norm": 0.47306776277207097,
      "learning_rate": 0.0006228185639264384,
      "loss": 2.4648,
      "step": 956
    },
    {
      "epoch": 0.4389404884760922,
      "grad_norm": 0.48535875539042705,
      "learning_rate": 0.0006220981494620475,
      "loss": 2.4501,
      "step": 957
    },
    {
      "epoch": 0.4393991514734549,
      "grad_norm": 0.49502416009871153,
      "learning_rate": 0.000621377465348677,
      "loss": 2.5457,
      "step": 958
    },
    {
      "epoch": 0.43985781447081757,
      "grad_norm": 0.4792484138784815,
      "learning_rate": 0.0006206565131779293,
      "loss": 2.4798,
      "step": 959
    },
    {
      "epoch": 0.44031647746818026,
      "grad_norm": 0.514409807339164,
      "learning_rate": 0.0006199352945419994,
      "loss": 2.4753,
      "step": 960
    },
    {
      "epoch": 0.44077514046554295,
      "grad_norm": 0.48966865427631084,
      "learning_rate": 0.00061921381103367,
      "loss": 2.4997,
      "step": 961
    },
    {
      "epoch": 0.44123380346290564,
      "grad_norm": 0.530509966686491,
      "learning_rate": 0.0006184920642463094,
      "loss": 2.5593,
      "step": 962
    },
    {
      "epoch": 0.44169246646026833,
      "grad_norm": 0.49871041494526913,
      "learning_rate": 0.0006177700557738672,
      "loss": 2.4876,
      "step": 963
    },
    {
      "epoch": 0.442151129457631,
      "grad_norm": 0.4971164330807529,
      "learning_rate": 0.0006170477872108706,
      "loss": 2.3935,
      "step": 964
    },
    {
      "epoch": 0.4426097924549937,
      "grad_norm": 0.49556308868677645,
      "learning_rate": 0.0006163252601524216,
      "loss": 2.4872,
      "step": 965
    },
    {
      "epoch": 0.4430684554523564,
      "grad_norm": 0.4675205948096897,
      "learning_rate": 0.0006156024761941925,
      "loss": 2.4769,
      "step": 966
    },
    {
      "epoch": 0.4435271184497191,
      "grad_norm": 0.463512267192554,
      "learning_rate": 0.000614879436932424,
      "loss": 2.5161,
      "step": 967
    },
    {
      "epoch": 0.4439857814470818,
      "grad_norm": 0.49406532070174386,
      "learning_rate": 0.0006141561439639196,
      "loss": 2.4337,
      "step": 968
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.46253971954739703,
      "learning_rate": 0.0006134325988860433,
      "loss": 2.4283,
      "step": 969
    },
    {
      "epoch": 0.4449031074418071,
      "grad_norm": 0.46645258330546385,
      "learning_rate": 0.0006127088032967165,
      "loss": 2.4619,
      "step": 970
    },
    {
      "epoch": 0.4453617704391698,
      "grad_norm": 0.45200021621020847,
      "learning_rate": 0.0006119847587944131,
      "loss": 2.4534,
      "step": 971
    },
    {
      "epoch": 0.4458204334365325,
      "grad_norm": 0.4920925215951138,
      "learning_rate": 0.0006112604669781572,
      "loss": 2.432,
      "step": 972
    },
    {
      "epoch": 0.4462790964338952,
      "grad_norm": 0.49953125716294217,
      "learning_rate": 0.0006105359294475188,
      "loss": 2.589,
      "step": 973
    },
    {
      "epoch": 0.4467377594312579,
      "grad_norm": 0.4896471217427161,
      "learning_rate": 0.0006098111478026107,
      "loss": 2.4956,
      "step": 974
    },
    {
      "epoch": 0.44719642242862057,
      "grad_norm": 0.47898536272106146,
      "learning_rate": 0.0006090861236440848,
      "loss": 2.5721,
      "step": 975
    },
    {
      "epoch": 0.44765508542598326,
      "grad_norm": 0.4670479346200441,
      "learning_rate": 0.0006083608585731282,
      "loss": 2.4305,
      "step": 976
    },
    {
      "epoch": 0.44811374842334595,
      "grad_norm": 0.5023195540726143,
      "learning_rate": 0.0006076353541914609,
      "loss": 2.4731,
      "step": 977
    },
    {
      "epoch": 0.44857241142070864,
      "grad_norm": 0.4600907877089465,
      "learning_rate": 0.0006069096121013307,
      "loss": 2.464,
      "step": 978
    },
    {
      "epoch": 0.44903107441807133,
      "grad_norm": 0.48200711120295653,
      "learning_rate": 0.0006061836339055105,
      "loss": 2.4457,
      "step": 979
    },
    {
      "epoch": 0.449489737415434,
      "grad_norm": 0.5525203424587483,
      "learning_rate": 0.0006054574212072948,
      "loss": 2.4905,
      "step": 980
    },
    {
      "epoch": 0.4499484004127967,
      "grad_norm": 0.4704897508488562,
      "learning_rate": 0.0006047309756104958,
      "loss": 2.4467,
      "step": 981
    },
    {
      "epoch": 0.4504070634101594,
      "grad_norm": 0.5052459385039502,
      "learning_rate": 0.00060400429871944,
      "loss": 2.4391,
      "step": 982
    },
    {
      "epoch": 0.4508657264075221,
      "grad_norm": 0.4869512260779188,
      "learning_rate": 0.0006032773921389654,
      "loss": 2.4368,
      "step": 983
    },
    {
      "epoch": 0.4513243894048848,
      "grad_norm": 0.4811007035619124,
      "learning_rate": 0.0006025502574744162,
      "loss": 2.4901,
      "step": 984
    },
    {
      "epoch": 0.4517830524022475,
      "grad_norm": 0.4465182585252738,
      "learning_rate": 0.000601822896331641,
      "loss": 2.4191,
      "step": 985
    },
    {
      "epoch": 0.4522417153996101,
      "grad_norm": 0.4770009951624134,
      "learning_rate": 0.0006010953103169883,
      "loss": 2.4239,
      "step": 986
    },
    {
      "epoch": 0.4527003783969728,
      "grad_norm": 0.48665554833773184,
      "learning_rate": 0.0006003675010373034,
      "loss": 2.4904,
      "step": 987
    },
    {
      "epoch": 0.4531590413943355,
      "grad_norm": 0.46916246628435565,
      "learning_rate": 0.0005996394700999246,
      "loss": 2.4742,
      "step": 988
    },
    {
      "epoch": 0.4536177043916982,
      "grad_norm": 0.47794561929847956,
      "learning_rate": 0.0005989112191126794,
      "loss": 2.4208,
      "step": 989
    },
    {
      "epoch": 0.4540763673890609,
      "grad_norm": 0.47285179688620704,
      "learning_rate": 0.0005981827496838822,
      "loss": 2.3763,
      "step": 990
    },
    {
      "epoch": 0.45453503038642357,
      "grad_norm": 0.5082696069484975,
      "learning_rate": 0.0005974540634223286,
      "loss": 2.5364,
      "step": 991
    },
    {
      "epoch": 0.45499369338378626,
      "grad_norm": 0.4603132588638614,
      "learning_rate": 0.0005967251619372939,
      "loss": 2.5009,
      "step": 992
    },
    {
      "epoch": 0.45545235638114895,
      "grad_norm": 0.5526397884769709,
      "learning_rate": 0.0005959960468385284,
      "loss": 2.5322,
      "step": 993
    },
    {
      "epoch": 0.45591101937851164,
      "grad_norm": 0.4952437673314197,
      "learning_rate": 0.0005952667197362542,
      "loss": 2.4125,
      "step": 994
    },
    {
      "epoch": 0.45636968237587433,
      "grad_norm": 0.48941839505479623,
      "learning_rate": 0.0005945371822411621,
      "loss": 2.4689,
      "step": 995
    },
    {
      "epoch": 0.456828345373237,
      "grad_norm": 0.4829787504649053,
      "learning_rate": 0.0005938074359644063,
      "loss": 2.3601,
      "step": 996
    },
    {
      "epoch": 0.4572870083705997,
      "grad_norm": 0.5194669439148198,
      "learning_rate": 0.0005930774825176034,
      "loss": 2.5157,
      "step": 997
    },
    {
      "epoch": 0.4577456713679624,
      "grad_norm": 0.4793776221655589,
      "learning_rate": 0.0005923473235128268,
      "loss": 2.4477,
      "step": 998
    },
    {
      "epoch": 0.4582043343653251,
      "grad_norm": 0.48402872979922856,
      "learning_rate": 0.0005916169605626042,
      "loss": 2.4071,
      "step": 999
    },
    {
      "epoch": 0.4586629973626878,
      "grad_norm": 0.4843428781476547,
      "learning_rate": 0.0005908863952799134,
      "loss": 2.4739,
      "step": 1000
    },
    {
      "epoch": 0.4591216603600505,
      "grad_norm": 0.4608883851145251,
      "learning_rate": 0.0005901556292781793,
      "loss": 2.4647,
      "step": 1001
    },
    {
      "epoch": 0.45958032335741317,
      "grad_norm": 0.48902495572871396,
      "learning_rate": 0.0005894246641712698,
      "loss": 2.4365,
      "step": 1002
    },
    {
      "epoch": 0.4600389863547758,
      "grad_norm": 0.4819622416473575,
      "learning_rate": 0.0005886935015734931,
      "loss": 2.4668,
      "step": 1003
    },
    {
      "epoch": 0.4604976493521385,
      "grad_norm": 0.4772271594751907,
      "learning_rate": 0.0005879621430995928,
      "loss": 2.4123,
      "step": 1004
    },
    {
      "epoch": 0.4609563123495012,
      "grad_norm": 0.4578111783432284,
      "learning_rate": 0.0005872305903647455,
      "loss": 2.4917,
      "step": 1005
    },
    {
      "epoch": 0.4614149753468639,
      "grad_norm": 0.49749130573260897,
      "learning_rate": 0.0005864988449845569,
      "loss": 2.4287,
      "step": 1006
    },
    {
      "epoch": 0.46187363834422657,
      "grad_norm": 0.4779515596234223,
      "learning_rate": 0.0005857669085750578,
      "loss": 2.5054,
      "step": 1007
    },
    {
      "epoch": 0.46233230134158926,
      "grad_norm": 0.4806366936267968,
      "learning_rate": 0.0005850347827527013,
      "loss": 2.4848,
      "step": 1008
    },
    {
      "epoch": 0.46279096433895195,
      "grad_norm": 0.5066608222016742,
      "learning_rate": 0.0005843024691343584,
      "loss": 2.4269,
      "step": 1009
    },
    {
      "epoch": 0.46324962733631464,
      "grad_norm": 0.5055024529879478,
      "learning_rate": 0.000583569969337315,
      "loss": 2.4848,
      "step": 1010
    },
    {
      "epoch": 0.46370829033367733,
      "grad_norm": 0.45666253957638886,
      "learning_rate": 0.0005828372849792686,
      "loss": 2.449,
      "step": 1011
    },
    {
      "epoch": 0.46416695333104,
      "grad_norm": 0.5158452206756913,
      "learning_rate": 0.0005821044176783234,
      "loss": 2.4641,
      "step": 1012
    },
    {
      "epoch": 0.4646256163284027,
      "grad_norm": 0.4981040206708769,
      "learning_rate": 0.0005813713690529886,
      "loss": 2.4698,
      "step": 1013
    },
    {
      "epoch": 0.4650842793257654,
      "grad_norm": 0.48259188915594764,
      "learning_rate": 0.0005806381407221729,
      "loss": 2.4978,
      "step": 1014
    },
    {
      "epoch": 0.4655429423231281,
      "grad_norm": 0.4663837437430395,
      "learning_rate": 0.0005799047343051826,
      "loss": 2.448,
      "step": 1015
    },
    {
      "epoch": 0.4660016053204908,
      "grad_norm": 0.47295138642225665,
      "learning_rate": 0.0005791711514217171,
      "loss": 2.4957,
      "step": 1016
    },
    {
      "epoch": 0.4664602683178535,
      "grad_norm": 0.5071828869997363,
      "learning_rate": 0.0005784373936918654,
      "loss": 2.4999,
      "step": 1017
    },
    {
      "epoch": 0.46691893131521617,
      "grad_norm": 0.4828402900712315,
      "learning_rate": 0.0005777034627361025,
      "loss": 2.537,
      "step": 1018
    },
    {
      "epoch": 0.46737759431257886,
      "grad_norm": 0.5151644439399725,
      "learning_rate": 0.0005769693601752864,
      "loss": 2.3638,
      "step": 1019
    },
    {
      "epoch": 0.4678362573099415,
      "grad_norm": 0.48700925900357134,
      "learning_rate": 0.0005762350876306537,
      "loss": 2.5156,
      "step": 1020
    },
    {
      "epoch": 0.4682949203073042,
      "grad_norm": 0.49533178183139126,
      "learning_rate": 0.0005755006467238168,
      "loss": 2.5015,
      "step": 1021
    },
    {
      "epoch": 0.4687535833046669,
      "grad_norm": 0.5292955205857958,
      "learning_rate": 0.0005747660390767593,
      "loss": 2.454,
      "step": 1022
    },
    {
      "epoch": 0.46921224630202957,
      "grad_norm": 0.5168257218309469,
      "learning_rate": 0.0005740312663118338,
      "loss": 2.3648,
      "step": 1023
    },
    {
      "epoch": 0.46967090929939226,
      "grad_norm": 0.5002240006349777,
      "learning_rate": 0.0005732963300517568,
      "loss": 2.426,
      "step": 1024
    },
    {
      "epoch": 0.47012957229675495,
      "grad_norm": 0.49646770894704945,
      "learning_rate": 0.0005725612319196064,
      "loss": 2.5601,
      "step": 1025
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.4921629516113413,
      "learning_rate": 0.000571825973538818,
      "loss": 2.4837,
      "step": 1026
    },
    {
      "epoch": 0.47104689829148033,
      "grad_norm": 0.4742087455544611,
      "learning_rate": 0.0005710905565331811,
      "loss": 2.47,
      "step": 1027
    },
    {
      "epoch": 0.471505561288843,
      "grad_norm": 0.46064443202020644,
      "learning_rate": 0.0005703549825268353,
      "loss": 2.5094,
      "step": 1028
    },
    {
      "epoch": 0.4719642242862057,
      "grad_norm": 0.44368413566422227,
      "learning_rate": 0.0005696192531442667,
      "loss": 2.451,
      "step": 1029
    },
    {
      "epoch": 0.4724228872835684,
      "grad_norm": 0.4858737662922639,
      "learning_rate": 0.000568883370010305,
      "loss": 2.5586,
      "step": 1030
    },
    {
      "epoch": 0.4728815502809311,
      "grad_norm": 0.49318754910150253,
      "learning_rate": 0.0005681473347501192,
      "loss": 2.7062,
      "step": 1031
    },
    {
      "epoch": 0.4733402132782938,
      "grad_norm": 0.48474798536304226,
      "learning_rate": 0.0005674111489892144,
      "loss": 2.4216,
      "step": 1032
    },
    {
      "epoch": 0.4737988762756565,
      "grad_norm": 0.4854513178215091,
      "learning_rate": 0.0005666748143534282,
      "loss": 2.5207,
      "step": 1033
    },
    {
      "epoch": 0.47425753927301917,
      "grad_norm": 0.45920424569866447,
      "learning_rate": 0.0005659383324689266,
      "loss": 2.4419,
      "step": 1034
    },
    {
      "epoch": 0.47471620227038186,
      "grad_norm": 0.49241346313750417,
      "learning_rate": 0.0005652017049622007,
      "loss": 2.4701,
      "step": 1035
    },
    {
      "epoch": 0.47517486526774455,
      "grad_norm": 0.513942187173788,
      "learning_rate": 0.0005644649334600641,
      "loss": 2.4664,
      "step": 1036
    },
    {
      "epoch": 0.4756335282651072,
      "grad_norm": 0.4693629797935304,
      "learning_rate": 0.0005637280195896474,
      "loss": 2.5434,
      "step": 1037
    },
    {
      "epoch": 0.4760921912624699,
      "grad_norm": 0.4894879189830442,
      "learning_rate": 0.0005629909649783961,
      "loss": 2.543,
      "step": 1038
    },
    {
      "epoch": 0.47655085425983257,
      "grad_norm": 0.49355524176046367,
      "learning_rate": 0.0005622537712540664,
      "loss": 2.6625,
      "step": 1039
    },
    {
      "epoch": 0.47700951725719526,
      "grad_norm": 0.4808976702439244,
      "learning_rate": 0.0005615164400447218,
      "loss": 2.4876,
      "step": 1040
    },
    {
      "epoch": 0.47746818025455795,
      "grad_norm": 0.4739740729921235,
      "learning_rate": 0.0005607789729787294,
      "loss": 2.5053,
      "step": 1041
    },
    {
      "epoch": 0.47792684325192064,
      "grad_norm": 0.49662529332178257,
      "learning_rate": 0.0005600413716847564,
      "loss": 2.4236,
      "step": 1042
    },
    {
      "epoch": 0.47838550624928333,
      "grad_norm": 0.46888504308118345,
      "learning_rate": 0.000559303637791766,
      "loss": 2.4149,
      "step": 1043
    },
    {
      "epoch": 0.478844169246646,
      "grad_norm": 0.49772206668526403,
      "learning_rate": 0.0005585657729290151,
      "loss": 2.4301,
      "step": 1044
    },
    {
      "epoch": 0.4793028322440087,
      "grad_norm": 0.4446457434353943,
      "learning_rate": 0.000557827778726049,
      "loss": 2.4191,
      "step": 1045
    },
    {
      "epoch": 0.4797614952413714,
      "grad_norm": 0.4728411137148869,
      "learning_rate": 0.0005570896568126993,
      "loss": 2.4026,
      "step": 1046
    },
    {
      "epoch": 0.4802201582387341,
      "grad_norm": 0.48323608049921846,
      "learning_rate": 0.0005563514088190788,
      "loss": 2.4415,
      "step": 1047
    },
    {
      "epoch": 0.4806788212360968,
      "grad_norm": 0.48890942293891315,
      "learning_rate": 0.0005556130363755798,
      "loss": 2.4234,
      "step": 1048
    },
    {
      "epoch": 0.4811374842334595,
      "grad_norm": 0.5110025249306556,
      "learning_rate": 0.0005548745411128688,
      "loss": 2.3081,
      "step": 1049
    },
    {
      "epoch": 0.48159614723082217,
      "grad_norm": 0.5070069240350334,
      "learning_rate": 0.0005541359246618835,
      "loss": 2.4069,
      "step": 1050
    },
    {
      "epoch": 0.48205481022818486,
      "grad_norm": 0.5227500228183913,
      "learning_rate": 0.0005533971886538293,
      "loss": 2.5015,
      "step": 1051
    },
    {
      "epoch": 0.48251347322554755,
      "grad_norm": 0.5008084818520567,
      "learning_rate": 0.000552658334720176,
      "loss": 2.466,
      "step": 1052
    },
    {
      "epoch": 0.48297213622291024,
      "grad_norm": 0.5184889510511361,
      "learning_rate": 0.0005519193644926535,
      "loss": 2.3922,
      "step": 1053
    },
    {
      "epoch": 0.4834307992202729,
      "grad_norm": 0.47798809642267026,
      "learning_rate": 0.0005511802796032485,
      "loss": 2.4567,
      "step": 1054
    },
    {
      "epoch": 0.48388946221763557,
      "grad_norm": 0.4789698085473829,
      "learning_rate": 0.0005504410816842009,
      "loss": 2.4015,
      "step": 1055
    },
    {
      "epoch": 0.48434812521499826,
      "grad_norm": 0.4734728114781836,
      "learning_rate": 0.0005497017723680009,
      "loss": 2.3535,
      "step": 1056
    },
    {
      "epoch": 0.48480678821236095,
      "grad_norm": 0.46307079578229543,
      "learning_rate": 0.0005489623532873836,
      "loss": 2.4157,
      "step": 1057
    },
    {
      "epoch": 0.48526545120972364,
      "grad_norm": 0.48072989111435704,
      "learning_rate": 0.0005482228260753273,
      "loss": 2.4753,
      "step": 1058
    },
    {
      "epoch": 0.48572411420708633,
      "grad_norm": 0.45736094560561036,
      "learning_rate": 0.0005474831923650488,
      "loss": 2.5018,
      "step": 1059
    },
    {
      "epoch": 0.486182777204449,
      "grad_norm": 0.49119372272083806,
      "learning_rate": 0.00054674345379,
      "loss": 2.4227,
      "step": 1060
    },
    {
      "epoch": 0.4866414402018117,
      "grad_norm": 0.47200659108657306,
      "learning_rate": 0.000546003611983865,
      "loss": 2.475,
      "step": 1061
    },
    {
      "epoch": 0.4871001031991744,
      "grad_norm": 0.470442037750867,
      "learning_rate": 0.0005452636685805552,
      "loss": 2.4143,
      "step": 1062
    },
    {
      "epoch": 0.4875587661965371,
      "grad_norm": 0.48854153195289407,
      "learning_rate": 0.0005445236252142066,
      "loss": 2.6188,
      "step": 1063
    },
    {
      "epoch": 0.4880174291938998,
      "grad_norm": 0.48215805866444217,
      "learning_rate": 0.000543783483519176,
      "loss": 2.4673,
      "step": 1064
    },
    {
      "epoch": 0.4884760921912625,
      "grad_norm": 0.4768571483453614,
      "learning_rate": 0.0005430432451300374,
      "loss": 2.4053,
      "step": 1065
    },
    {
      "epoch": 0.48893475518862517,
      "grad_norm": 0.44409387453615917,
      "learning_rate": 0.0005423029116815781,
      "loss": 2.3813,
      "step": 1066
    },
    {
      "epoch": 0.48939341818598786,
      "grad_norm": 0.46211769208780196,
      "learning_rate": 0.0005415624848087959,
      "loss": 2.4674,
      "step": 1067
    },
    {
      "epoch": 0.48985208118335055,
      "grad_norm": 0.5026613257159468,
      "learning_rate": 0.000540821966146894,
      "loss": 2.5662,
      "step": 1068
    },
    {
      "epoch": 0.49031074418071324,
      "grad_norm": 0.4712843341576627,
      "learning_rate": 0.0005400813573312793,
      "loss": 2.4287,
      "step": 1069
    },
    {
      "epoch": 0.49076940717807593,
      "grad_norm": 0.4847419979732187,
      "learning_rate": 0.0005393406599975572,
      "loss": 2.4807,
      "step": 1070
    },
    {
      "epoch": 0.49122807017543857,
      "grad_norm": 0.45357195349486823,
      "learning_rate": 0.0005385998757815287,
      "loss": 2.4571,
      "step": 1071
    },
    {
      "epoch": 0.49168673317280126,
      "grad_norm": 0.5073575259141847,
      "learning_rate": 0.0005378590063191867,
      "loss": 2.4138,
      "step": 1072
    },
    {
      "epoch": 0.49214539617016395,
      "grad_norm": 0.5133380717517289,
      "learning_rate": 0.0005371180532467124,
      "loss": 2.4824,
      "step": 1073
    },
    {
      "epoch": 0.49260405916752664,
      "grad_norm": 0.49447239146727606,
      "learning_rate": 0.000536377018200472,
      "loss": 2.4348,
      "step": 1074
    },
    {
      "epoch": 0.49306272216488933,
      "grad_norm": 0.5491036934776956,
      "learning_rate": 0.0005356359028170118,
      "loss": 2.4455,
      "step": 1075
    },
    {
      "epoch": 0.493521385162252,
      "grad_norm": 0.5035289077425419,
      "learning_rate": 0.0005348947087330564,
      "loss": 2.5045,
      "step": 1076
    },
    {
      "epoch": 0.4939800481596147,
      "grad_norm": 0.4694845388440829,
      "learning_rate": 0.0005341534375855037,
      "loss": 2.5006,
      "step": 1077
    },
    {
      "epoch": 0.4944387111569774,
      "grad_norm": 0.4840335288733346,
      "learning_rate": 0.0005334120910114222,
      "loss": 2.445,
      "step": 1078
    },
    {
      "epoch": 0.4948973741543401,
      "grad_norm": 0.4726913404694295,
      "learning_rate": 0.0005326706706480467,
      "loss": 2.3973,
      "step": 1079
    },
    {
      "epoch": 0.4953560371517028,
      "grad_norm": 0.533896661716865,
      "learning_rate": 0.0005319291781327749,
      "loss": 2.3641,
      "step": 1080
    },
    {
      "epoch": 0.4958147001490655,
      "grad_norm": 0.47531486899661834,
      "learning_rate": 0.0005311876151031642,
      "loss": 2.4964,
      "step": 1081
    },
    {
      "epoch": 0.49627336314642817,
      "grad_norm": 0.45449403922812204,
      "learning_rate": 0.0005304459831969274,
      "loss": 2.4384,
      "step": 1082
    },
    {
      "epoch": 0.49673202614379086,
      "grad_norm": 0.4778382739193549,
      "learning_rate": 0.0005297042840519294,
      "loss": 2.3657,
      "step": 1083
    },
    {
      "epoch": 0.49719068914115355,
      "grad_norm": 0.5207762037934617,
      "learning_rate": 0.0005289625193061838,
      "loss": 2.4433,
      "step": 1084
    },
    {
      "epoch": 0.49764935213851624,
      "grad_norm": 0.5159013127617689,
      "learning_rate": 0.0005282206905978489,
      "loss": 2.4352,
      "step": 1085
    },
    {
      "epoch": 0.49810801513587893,
      "grad_norm": 0.4686815344098507,
      "learning_rate": 0.0005274787995652246,
      "loss": 2.3953,
      "step": 1086
    },
    {
      "epoch": 0.4985666781332416,
      "grad_norm": 0.529740670172468,
      "learning_rate": 0.000526736847846748,
      "loss": 2.4057,
      "step": 1087
    },
    {
      "epoch": 0.49902534113060426,
      "grad_norm": 0.48810635977037076,
      "learning_rate": 0.0005259948370809901,
      "loss": 2.4645,
      "step": 1088
    },
    {
      "epoch": 0.49948400412796695,
      "grad_norm": 0.4788717657738075,
      "learning_rate": 0.0005252527689066533,
      "loss": 2.515,
      "step": 1089
    },
    {
      "epoch": 0.49994266712532964,
      "grad_norm": 0.43669756104835417,
      "learning_rate": 0.0005245106449625654,
      "loss": 2.4363,
      "step": 1090
    },
    {
      "epoch": 0.5004013301226924,
      "grad_norm": 0.4899942747608123,
      "learning_rate": 0.0005237684668876785,
      "loss": 2.4409,
      "step": 1091
    },
    {
      "epoch": 0.500859993120055,
      "grad_norm": 0.5419120717168973,
      "learning_rate": 0.0005230262363210637,
      "loss": 2.5203,
      "step": 1092
    },
    {
      "epoch": 0.5013186561174178,
      "grad_norm": 0.5043310353769518,
      "learning_rate": 0.0005222839549019079,
      "loss": 2.5261,
      "step": 1093
    },
    {
      "epoch": 0.5017773191147804,
      "grad_norm": 0.4854574991418675,
      "learning_rate": 0.0005215416242695108,
      "loss": 2.3771,
      "step": 1094
    },
    {
      "epoch": 0.5022359821121432,
      "grad_norm": 0.46097848912480316,
      "learning_rate": 0.0005207992460632804,
      "loss": 2.4929,
      "step": 1095
    },
    {
      "epoch": 0.5026946451095058,
      "grad_norm": 0.47664781095449704,
      "learning_rate": 0.0005200568219227299,
      "loss": 2.3639,
      "step": 1096
    },
    {
      "epoch": 0.5031533081068684,
      "grad_norm": 0.48109093251339263,
      "learning_rate": 0.000519314353487474,
      "loss": 2.4861,
      "step": 1097
    },
    {
      "epoch": 0.5036119711042312,
      "grad_norm": 0.4759161604804862,
      "learning_rate": 0.0005185718423972251,
      "loss": 2.4749,
      "step": 1098
    },
    {
      "epoch": 0.5040706341015938,
      "grad_norm": 0.47952662689686276,
      "learning_rate": 0.0005178292902917898,
      "loss": 2.4719,
      "step": 1099
    },
    {
      "epoch": 0.5045292970989566,
      "grad_norm": 0.4690032145872857,
      "learning_rate": 0.0005170866988110656,
      "loss": 2.4608,
      "step": 1100
    },
    {
      "epoch": 0.5049879600963192,
      "grad_norm": 0.492235002309174,
      "learning_rate": 0.0005163440695950362,
      "loss": 2.3581,
      "step": 1101
    },
    {
      "epoch": 0.5054466230936819,
      "grad_norm": 0.47140560914539253,
      "learning_rate": 0.0005156014042837695,
      "loss": 2.4009,
      "step": 1102
    },
    {
      "epoch": 0.5059052860910446,
      "grad_norm": 0.4746192933499015,
      "learning_rate": 0.0005148587045174128,
      "loss": 2.5279,
      "step": 1103
    },
    {
      "epoch": 0.5063639490884073,
      "grad_norm": 0.4922354665787174,
      "learning_rate": 0.0005141159719361891,
      "loss": 2.4572,
      "step": 1104
    },
    {
      "epoch": 0.50682261208577,
      "grad_norm": 0.45906403652635946,
      "learning_rate": 0.0005133732081803945,
      "loss": 2.4638,
      "step": 1105
    },
    {
      "epoch": 0.5072812750831327,
      "grad_norm": 0.47661983467672137,
      "learning_rate": 0.0005126304148903936,
      "loss": 2.42,
      "step": 1106
    },
    {
      "epoch": 0.5077399380804953,
      "grad_norm": 0.44806042618190456,
      "learning_rate": 0.0005118875937066161,
      "loss": 2.4984,
      "step": 1107
    },
    {
      "epoch": 0.5081986010778581,
      "grad_norm": 0.46492908162506386,
      "learning_rate": 0.0005111447462695537,
      "loss": 2.4638,
      "step": 1108
    },
    {
      "epoch": 0.5086572640752207,
      "grad_norm": 0.48297537514536193,
      "learning_rate": 0.0005104018742197557,
      "loss": 2.4671,
      "step": 1109
    },
    {
      "epoch": 0.5091159270725835,
      "grad_norm": 0.46032073630907117,
      "learning_rate": 0.0005096589791978261,
      "loss": 2.418,
      "step": 1110
    },
    {
      "epoch": 0.5095745900699461,
      "grad_norm": 0.4970079902063339,
      "learning_rate": 0.0005089160628444192,
      "loss": 2.5083,
      "step": 1111
    },
    {
      "epoch": 0.5100332530673088,
      "grad_norm": 0.48028405547994724,
      "learning_rate": 0.0005081731268002371,
      "loss": 2.4547,
      "step": 1112
    },
    {
      "epoch": 0.5104919160646715,
      "grad_norm": 0.4847025935124924,
      "learning_rate": 0.0005074301727060243,
      "loss": 2.4089,
      "step": 1113
    },
    {
      "epoch": 0.5109505790620341,
      "grad_norm": 0.46427247259343046,
      "learning_rate": 0.0005066872022025663,
      "loss": 2.4222,
      "step": 1114
    },
    {
      "epoch": 0.5114092420593969,
      "grad_norm": 0.46189245542229407,
      "learning_rate": 0.0005059442169306844,
      "loss": 2.5109,
      "step": 1115
    },
    {
      "epoch": 0.5118679050567595,
      "grad_norm": 0.4704504069820173,
      "learning_rate": 0.0005052012185312321,
      "loss": 2.4047,
      "step": 1116
    },
    {
      "epoch": 0.5123265680541222,
      "grad_norm": 0.4900962183514114,
      "learning_rate": 0.0005044582086450925,
      "loss": 2.5127,
      "step": 1117
    },
    {
      "epoch": 0.5127852310514849,
      "grad_norm": 0.460929681462394,
      "learning_rate": 0.0005037151889131737,
      "loss": 2.4812,
      "step": 1118
    },
    {
      "epoch": 0.5132438940488476,
      "grad_norm": 0.5065039626062375,
      "learning_rate": 0.0005029721609764059,
      "loss": 2.4014,
      "step": 1119
    },
    {
      "epoch": 0.5137025570462103,
      "grad_norm": 0.477099842419665,
      "learning_rate": 0.000502229126475737,
      "loss": 2.459,
      "step": 1120
    },
    {
      "epoch": 0.514161220043573,
      "grad_norm": 0.5143111799103423,
      "learning_rate": 0.0005014860870521293,
      "loss": 2.3237,
      "step": 1121
    },
    {
      "epoch": 0.5146198830409356,
      "grad_norm": 0.5234179929663939,
      "learning_rate": 0.0005007430443465569,
      "loss": 2.5012,
      "step": 1122
    },
    {
      "epoch": 0.5150785460382984,
      "grad_norm": 0.49005845901656847,
      "learning_rate": 0.0005,
      "loss": 2.4372,
      "step": 1123
    },
    {
      "epoch": 0.515537209035661,
      "grad_norm": 0.5303096395590203,
      "learning_rate": 0.0004992569556534432,
      "loss": 2.4901,
      "step": 1124
    },
    {
      "epoch": 0.5159958720330238,
      "grad_norm": 0.4847241401145716,
      "learning_rate": 0.0004985139129478707,
      "loss": 2.4551,
      "step": 1125
    },
    {
      "epoch": 0.5164545350303864,
      "grad_norm": 0.5027781612605963,
      "learning_rate": 0.0004977708735242633,
      "loss": 2.4184,
      "step": 1126
    },
    {
      "epoch": 0.5169131980277492,
      "grad_norm": 0.5006963613815534,
      "learning_rate": 0.0004970278390235942,
      "loss": 2.5312,
      "step": 1127
    },
    {
      "epoch": 0.5173718610251118,
      "grad_norm": 0.5616504369084039,
      "learning_rate": 0.0004962848110868262,
      "loss": 2.4741,
      "step": 1128
    },
    {
      "epoch": 0.5178305240224745,
      "grad_norm": 0.5038377549375791,
      "learning_rate": 0.0004955417913549074,
      "loss": 2.4175,
      "step": 1129
    },
    {
      "epoch": 0.5182891870198372,
      "grad_norm": 0.5155223516528348,
      "learning_rate": 0.0004947987814687679,
      "loss": 2.5381,
      "step": 1130
    },
    {
      "epoch": 0.5187478500171998,
      "grad_norm": 0.4746658866966515,
      "learning_rate": 0.0004940557830693157,
      "loss": 2.3881,
      "step": 1131
    },
    {
      "epoch": 0.5192065130145626,
      "grad_norm": 0.5276317878464346,
      "learning_rate": 0.0004933127977974338,
      "loss": 2.42,
      "step": 1132
    },
    {
      "epoch": 0.5196651760119252,
      "grad_norm": 0.4701773825222972,
      "learning_rate": 0.0004925698272939757,
      "loss": 2.4225,
      "step": 1133
    },
    {
      "epoch": 0.5201238390092879,
      "grad_norm": 0.48546846417500433,
      "learning_rate": 0.0004918268731997632,
      "loss": 2.417,
      "step": 1134
    },
    {
      "epoch": 0.5205825020066506,
      "grad_norm": 0.467318099004078,
      "learning_rate": 0.0004910839371555809,
      "loss": 2.4468,
      "step": 1135
    },
    {
      "epoch": 0.5210411650040133,
      "grad_norm": 0.49058843526345125,
      "learning_rate": 0.0004903410208021739,
      "loss": 2.4211,
      "step": 1136
    },
    {
      "epoch": 0.521499828001376,
      "grad_norm": 0.48345520130242303,
      "learning_rate": 0.0004895981257802443,
      "loss": 2.4431,
      "step": 1137
    },
    {
      "epoch": 0.5219584909987387,
      "grad_norm": 0.4990611441576363,
      "learning_rate": 0.0004888552537304463,
      "loss": 2.3864,
      "step": 1138
    },
    {
      "epoch": 0.5224171539961013,
      "grad_norm": 0.46509358393114947,
      "learning_rate": 0.00048811240629338394,
      "loss": 2.3303,
      "step": 1139
    },
    {
      "epoch": 0.5228758169934641,
      "grad_norm": 0.45872333421512607,
      "learning_rate": 0.00048736958510960663,
      "loss": 2.4581,
      "step": 1140
    },
    {
      "epoch": 0.5233344799908267,
      "grad_norm": 0.5071623545924001,
      "learning_rate": 0.00048662679181960564,
      "loss": 2.5293,
      "step": 1141
    },
    {
      "epoch": 0.5237931429881895,
      "grad_norm": 0.4952204209052149,
      "learning_rate": 0.00048588402806381094,
      "loss": 2.4414,
      "step": 1142
    },
    {
      "epoch": 0.5242518059855521,
      "grad_norm": 0.4802188871327094,
      "learning_rate": 0.0004851412954825874,
      "loss": 2.4003,
      "step": 1143
    },
    {
      "epoch": 0.5247104689829148,
      "grad_norm": 0.46295310802875295,
      "learning_rate": 0.00048439859571623034,
      "loss": 2.4198,
      "step": 1144
    },
    {
      "epoch": 0.5251691319802775,
      "grad_norm": 0.4896613128707525,
      "learning_rate": 0.00048365593040496373,
      "loss": 2.4927,
      "step": 1145
    },
    {
      "epoch": 0.5256277949776402,
      "grad_norm": 0.4804949499357617,
      "learning_rate": 0.00048291330118893443,
      "loss": 2.4432,
      "step": 1146
    },
    {
      "epoch": 0.5260864579750029,
      "grad_norm": 0.4514959549174084,
      "learning_rate": 0.0004821707097082102,
      "loss": 2.4321,
      "step": 1147
    },
    {
      "epoch": 0.5265451209723655,
      "grad_norm": 0.4876942741779864,
      "learning_rate": 0.0004814281576027749,
      "loss": 2.5359,
      "step": 1148
    },
    {
      "epoch": 0.5270037839697282,
      "grad_norm": 0.4723581117893257,
      "learning_rate": 0.000480685646512526,
      "loss": 2.4905,
      "step": 1149
    },
    {
      "epoch": 0.5274624469670909,
      "grad_norm": 0.44448129890449606,
      "learning_rate": 0.00047994317807727025,
      "loss": 2.5556,
      "step": 1150
    },
    {
      "epoch": 0.5279211099644536,
      "grad_norm": 0.47862166485628527,
      "learning_rate": 0.00047920075393671974,
      "loss": 2.3656,
      "step": 1151
    },
    {
      "epoch": 0.5283797729618163,
      "grad_norm": 0.43573563448967095,
      "learning_rate": 0.0004784583757304893,
      "loss": 2.4654,
      "step": 1152
    },
    {
      "epoch": 0.528838435959179,
      "grad_norm": 0.4452541097196237,
      "learning_rate": 0.00047771604509809214,
      "loss": 2.5144,
      "step": 1153
    },
    {
      "epoch": 0.5292970989565416,
      "grad_norm": 0.5275728792099666,
      "learning_rate": 0.0004769737636789364,
      "loss": 2.4583,
      "step": 1154
    },
    {
      "epoch": 0.5297557619539044,
      "grad_norm": 0.4707296182227422,
      "learning_rate": 0.00047623153311232157,
      "loss": 2.3116,
      "step": 1155
    },
    {
      "epoch": 0.530214424951267,
      "grad_norm": 0.46424037773866017,
      "learning_rate": 0.0004754893550374346,
      "loss": 2.3574,
      "step": 1156
    },
    {
      "epoch": 0.5306730879486298,
      "grad_norm": 0.4723577236219626,
      "learning_rate": 0.00047474723109334685,
      "loss": 2.395,
      "step": 1157
    },
    {
      "epoch": 0.5311317509459924,
      "grad_norm": 0.4551754419837485,
      "learning_rate": 0.00047400516291900993,
      "loss": 2.4487,
      "step": 1158
    },
    {
      "epoch": 0.5315904139433552,
      "grad_norm": 0.46783747736278114,
      "learning_rate": 0.0004732631521532522,
      "loss": 2.4672,
      "step": 1159
    },
    {
      "epoch": 0.5320490769407178,
      "grad_norm": 0.4880507752926659,
      "learning_rate": 0.0004725212004347755,
      "loss": 2.393,
      "step": 1160
    },
    {
      "epoch": 0.5325077399380805,
      "grad_norm": 0.46028637287246266,
      "learning_rate": 0.00047177930940215095,
      "loss": 2.3806,
      "step": 1161
    },
    {
      "epoch": 0.5329664029354432,
      "grad_norm": 0.4823142176456501,
      "learning_rate": 0.00047103748069381624,
      "loss": 2.3969,
      "step": 1162
    },
    {
      "epoch": 0.5334250659328059,
      "grad_norm": 0.4784364514565555,
      "learning_rate": 0.0004702957159480707,
      "loss": 2.5474,
      "step": 1163
    },
    {
      "epoch": 0.5338837289301686,
      "grad_norm": 0.45835779047475017,
      "learning_rate": 0.00046955401680307267,
      "loss": 2.5832,
      "step": 1164
    },
    {
      "epoch": 0.5343423919275313,
      "grad_norm": 0.4810199706749303,
      "learning_rate": 0.0004688123848968359,
      "loss": 2.4155,
      "step": 1165
    },
    {
      "epoch": 0.5348010549248939,
      "grad_norm": 0.4541231962819399,
      "learning_rate": 0.00046807082186722516,
      "loss": 2.469,
      "step": 1166
    },
    {
      "epoch": 0.5352597179222566,
      "grad_norm": 0.45784167618124305,
      "learning_rate": 0.0004673293293519535,
      "loss": 2.4259,
      "step": 1167
    },
    {
      "epoch": 0.5357183809196193,
      "grad_norm": 0.4675312609470806,
      "learning_rate": 0.00046658790898857806,
      "loss": 2.5316,
      "step": 1168
    },
    {
      "epoch": 0.536177043916982,
      "grad_norm": 0.4655477440763336,
      "learning_rate": 0.0004658465624144963,
      "loss": 2.4113,
      "step": 1169
    },
    {
      "epoch": 0.5366357069143447,
      "grad_norm": 0.4895146597286346,
      "learning_rate": 0.0004651052912669438,
      "loss": 2.5537,
      "step": 1170
    },
    {
      "epoch": 0.5370943699117073,
      "grad_norm": 0.45570111060742896,
      "learning_rate": 0.0004643640971829883,
      "loss": 2.3759,
      "step": 1171
    },
    {
      "epoch": 0.5375530329090701,
      "grad_norm": 0.5173712417534733,
      "learning_rate": 0.0004636229817995281,
      "loss": 2.4472,
      "step": 1172
    },
    {
      "epoch": 0.5380116959064327,
      "grad_norm": 0.4542053130771948,
      "learning_rate": 0.0004628819467532876,
      "loss": 2.3277,
      "step": 1173
    },
    {
      "epoch": 0.5384703589037955,
      "grad_norm": 0.46782482128995484,
      "learning_rate": 0.00046214099368081335,
      "loss": 2.4791,
      "step": 1174
    },
    {
      "epoch": 0.5389290219011581,
      "grad_norm": 0.4951567004025207,
      "learning_rate": 0.0004614001242184714,
      "loss": 2.3791,
      "step": 1175
    },
    {
      "epoch": 0.5393876848985208,
      "grad_norm": 0.4757265659194248,
      "learning_rate": 0.000460659340002443,
      "loss": 2.4447,
      "step": 1176
    },
    {
      "epoch": 0.5398463478958835,
      "grad_norm": 0.48257293157502495,
      "learning_rate": 0.00045991864266872073,
      "loss": 2.4769,
      "step": 1177
    },
    {
      "epoch": 0.5403050108932462,
      "grad_norm": 0.4924551047887866,
      "learning_rate": 0.00045917803385310595,
      "loss": 2.407,
      "step": 1178
    },
    {
      "epoch": 0.5407636738906089,
      "grad_norm": 0.4511570642713269,
      "learning_rate": 0.00045843751519120417,
      "loss": 2.4588,
      "step": 1179
    },
    {
      "epoch": 0.5412223368879716,
      "grad_norm": 0.4979475029424802,
      "learning_rate": 0.00045769708831842193,
      "loss": 2.5611,
      "step": 1180
    },
    {
      "epoch": 0.5416809998853342,
      "grad_norm": 0.46626839684440036,
      "learning_rate": 0.00045695675486996266,
      "loss": 2.431,
      "step": 1181
    },
    {
      "epoch": 0.542139662882697,
      "grad_norm": 0.45068482648818087,
      "learning_rate": 0.00045621651648082405,
      "loss": 2.3509,
      "step": 1182
    },
    {
      "epoch": 0.5425983258800596,
      "grad_norm": 0.47330101291163057,
      "learning_rate": 0.00045547637478579356,
      "loss": 2.3389,
      "step": 1183
    },
    {
      "epoch": 0.5430569888774223,
      "grad_norm": 0.46654900608195343,
      "learning_rate": 0.0004547363314194449,
      "loss": 2.4882,
      "step": 1184
    },
    {
      "epoch": 0.543515651874785,
      "grad_norm": 0.4605157454849116,
      "learning_rate": 0.000453996388016135,
      "loss": 2.5522,
      "step": 1185
    },
    {
      "epoch": 0.5439743148721476,
      "grad_norm": 0.480566159792138,
      "learning_rate": 0.0004532565462099999,
      "loss": 2.4116,
      "step": 1186
    },
    {
      "epoch": 0.5444329778695104,
      "grad_norm": 0.4557305079123904,
      "learning_rate": 0.0004525168076349513,
      "loss": 2.475,
      "step": 1187
    },
    {
      "epoch": 0.544891640866873,
      "grad_norm": 0.5014829980662502,
      "learning_rate": 0.0004517771739246729,
      "loss": 2.5164,
      "step": 1188
    },
    {
      "epoch": 0.5453503038642358,
      "grad_norm": 0.474494345287581,
      "learning_rate": 0.0004510376467126165,
      "loss": 2.4609,
      "step": 1189
    },
    {
      "epoch": 0.5458089668615984,
      "grad_norm": 0.4502037232572138,
      "learning_rate": 0.0004502982276319992,
      "loss": 2.445,
      "step": 1190
    },
    {
      "epoch": 0.5462676298589612,
      "grad_norm": 0.46549433853126493,
      "learning_rate": 0.0004495589183157991,
      "loss": 2.39,
      "step": 1191
    },
    {
      "epoch": 0.5467262928563238,
      "grad_norm": 0.4853072175541117,
      "learning_rate": 0.0004488197203967517,
      "loss": 2.4514,
      "step": 1192
    },
    {
      "epoch": 0.5471849558536865,
      "grad_norm": 0.44725952936734775,
      "learning_rate": 0.0004480806355073467,
      "loss": 2.4139,
      "step": 1193
    },
    {
      "epoch": 0.5476436188510492,
      "grad_norm": 0.5007778352620524,
      "learning_rate": 0.000447341665279824,
      "loss": 2.3921,
      "step": 1194
    },
    {
      "epoch": 0.5481022818484119,
      "grad_norm": 0.4749029012153228,
      "learning_rate": 0.0004466028113461708,
      "loss": 2.3756,
      "step": 1195
    },
    {
      "epoch": 0.5485609448457746,
      "grad_norm": 0.45468953956080915,
      "learning_rate": 0.0004458640753381167,
      "loss": 2.4301,
      "step": 1196
    },
    {
      "epoch": 0.5490196078431373,
      "grad_norm": 0.47487405541815053,
      "learning_rate": 0.0004451254588871313,
      "loss": 2.4776,
      "step": 1197
    },
    {
      "epoch": 0.5494782708404999,
      "grad_norm": 0.4628257705646226,
      "learning_rate": 0.0004443869636244203,
      "loss": 2.4587,
      "step": 1198
    },
    {
      "epoch": 0.5499369338378627,
      "grad_norm": 0.4566992179992854,
      "learning_rate": 0.0004436485911809212,
      "loss": 2.3887,
      "step": 1199
    },
    {
      "epoch": 0.5503955968352253,
      "grad_norm": 0.4822877365374911,
      "learning_rate": 0.00044291034318730087,
      "loss": 2.4652,
      "step": 1200
    },
    {
      "epoch": 0.550854259832588,
      "grad_norm": 0.4726194063748455,
      "learning_rate": 0.0004421722212739511,
      "loss": 2.3882,
      "step": 1201
    },
    {
      "epoch": 0.5513129228299507,
      "grad_norm": 0.5175113029608439,
      "learning_rate": 0.0004414342270709848,
      "loss": 2.441,
      "step": 1202
    },
    {
      "epoch": 0.5517715858273133,
      "grad_norm": 0.47146598274558627,
      "learning_rate": 0.00044069636220823397,
      "loss": 2.3896,
      "step": 1203
    },
    {
      "epoch": 0.5522302488246761,
      "grad_norm": 0.4746482409242582,
      "learning_rate": 0.0004399586283152437,
      "loss": 2.4837,
      "step": 1204
    },
    {
      "epoch": 0.5526889118220387,
      "grad_norm": 0.475933686553194,
      "learning_rate": 0.0004392210270212706,
      "loss": 2.4222,
      "step": 1205
    },
    {
      "epoch": 0.5531475748194015,
      "grad_norm": 0.47556792183840113,
      "learning_rate": 0.00043848355995527825,
      "loss": 2.5298,
      "step": 1206
    },
    {
      "epoch": 0.5536062378167641,
      "grad_norm": 0.4893764084352796,
      "learning_rate": 0.00043774622874593374,
      "loss": 2.4169,
      "step": 1207
    },
    {
      "epoch": 0.5540649008141268,
      "grad_norm": 0.462888549418935,
      "learning_rate": 0.000437009035021604,
      "loss": 2.3675,
      "step": 1208
    },
    {
      "epoch": 0.5545235638114895,
      "grad_norm": 0.46611577880572846,
      "learning_rate": 0.00043627198041035274,
      "loss": 2.4816,
      "step": 1209
    },
    {
      "epoch": 0.5549822268088522,
      "grad_norm": 0.45654813781354325,
      "learning_rate": 0.00043553506653993597,
      "loss": 2.4828,
      "step": 1210
    },
    {
      "epoch": 0.5554408898062149,
      "grad_norm": 0.49783571736341314,
      "learning_rate": 0.0004347982950377992,
      "loss": 2.3428,
      "step": 1211
    },
    {
      "epoch": 0.5558995528035776,
      "grad_norm": 0.4744090052196234,
      "learning_rate": 0.0004340616675310735,
      "loss": 2.3683,
      "step": 1212
    },
    {
      "epoch": 0.5563582158009402,
      "grad_norm": 0.46637455617745055,
      "learning_rate": 0.00043332518564657193,
      "loss": 2.3466,
      "step": 1213
    },
    {
      "epoch": 0.556816878798303,
      "grad_norm": 0.5127287974124765,
      "learning_rate": 0.0004325888510107856,
      "loss": 2.5881,
      "step": 1214
    },
    {
      "epoch": 0.5572755417956656,
      "grad_norm": 0.4819636573069895,
      "learning_rate": 0.0004318526652498809,
      "loss": 2.4344,
      "step": 1215
    },
    {
      "epoch": 0.5577342047930284,
      "grad_norm": 0.4914008705473883,
      "learning_rate": 0.00043111662998969523,
      "loss": 2.5037,
      "step": 1216
    },
    {
      "epoch": 0.558192867790391,
      "grad_norm": 0.5067162772405384,
      "learning_rate": 0.0004303807468557335,
      "loss": 2.5034,
      "step": 1217
    },
    {
      "epoch": 0.5586515307877536,
      "grad_norm": 0.4770840695290991,
      "learning_rate": 0.0004296450174731648,
      "loss": 2.426,
      "step": 1218
    },
    {
      "epoch": 0.5591101937851164,
      "grad_norm": 0.47481096632795006,
      "learning_rate": 0.0004289094434668188,
      "loss": 2.377,
      "step": 1219
    },
    {
      "epoch": 0.559568856782479,
      "grad_norm": 0.4513984805127205,
      "learning_rate": 0.00042817402646118185,
      "loss": 2.5086,
      "step": 1220
    },
    {
      "epoch": 0.5600275197798418,
      "grad_norm": 0.4749464682024374,
      "learning_rate": 0.0004274387680803936,
      "loss": 2.4784,
      "step": 1221
    },
    {
      "epoch": 0.5604861827772044,
      "grad_norm": 0.49393642614590316,
      "learning_rate": 0.00042670366994824327,
      "loss": 2.4408,
      "step": 1222
    },
    {
      "epoch": 0.5609448457745672,
      "grad_norm": 0.4635208212415776,
      "learning_rate": 0.0004259687336881663,
      "loss": 2.4174,
      "step": 1223
    },
    {
      "epoch": 0.5614035087719298,
      "grad_norm": 0.4783380745639924,
      "learning_rate": 0.0004252339609232408,
      "loss": 2.4676,
      "step": 1224
    },
    {
      "epoch": 0.5618621717692925,
      "grad_norm": 0.456874924704328,
      "learning_rate": 0.0004244993532761834,
      "loss": 2.4023,
      "step": 1225
    },
    {
      "epoch": 0.5623208347666552,
      "grad_norm": 0.4792655883132482,
      "learning_rate": 0.00042376491236934634,
      "loss": 2.4774,
      "step": 1226
    },
    {
      "epoch": 0.5627794977640179,
      "grad_norm": 0.46832777864707326,
      "learning_rate": 0.0004230306398247136,
      "loss": 2.3343,
      "step": 1227
    },
    {
      "epoch": 0.5632381607613806,
      "grad_norm": 0.4707566060772002,
      "learning_rate": 0.0004222965372638976,
      "loss": 2.5148,
      "step": 1228
    },
    {
      "epoch": 0.5636968237587433,
      "grad_norm": 0.45140944680374645,
      "learning_rate": 0.0004215626063081348,
      "loss": 2.5467,
      "step": 1229
    },
    {
      "epoch": 0.5641554867561059,
      "grad_norm": 0.4751960840033346,
      "learning_rate": 0.000420828848578283,
      "loss": 2.438,
      "step": 1230
    },
    {
      "epoch": 0.5646141497534687,
      "grad_norm": 0.4665231325034366,
      "learning_rate": 0.0004200952656948175,
      "loss": 2.5722,
      "step": 1231
    },
    {
      "epoch": 0.5650728127508313,
      "grad_norm": 0.471931109183195,
      "learning_rate": 0.0004193618592778272,
      "loss": 2.5003,
      "step": 1232
    },
    {
      "epoch": 0.5655314757481941,
      "grad_norm": 0.44413619860612585,
      "learning_rate": 0.0004186286309470116,
      "loss": 2.4388,
      "step": 1233
    },
    {
      "epoch": 0.5659901387455567,
      "grad_norm": 0.46549619222075445,
      "learning_rate": 0.0004178955823216767,
      "loss": 2.4992,
      "step": 1234
    },
    {
      "epoch": 0.5664488017429193,
      "grad_norm": 0.4974707428708937,
      "learning_rate": 0.00041716271502073137,
      "loss": 2.5033,
      "step": 1235
    },
    {
      "epoch": 0.5669074647402821,
      "grad_norm": 0.4661326601965406,
      "learning_rate": 0.000416430030662685,
      "loss": 2.3531,
      "step": 1236
    },
    {
      "epoch": 0.5673661277376447,
      "grad_norm": 0.4487846844604317,
      "learning_rate": 0.00041569753086564173,
      "loss": 2.3997,
      "step": 1237
    },
    {
      "epoch": 0.5678247907350075,
      "grad_norm": 0.4958152113179238,
      "learning_rate": 0.0004149652172472988,
      "loss": 2.4986,
      "step": 1238
    },
    {
      "epoch": 0.5682834537323701,
      "grad_norm": 0.4947966892725354,
      "learning_rate": 0.00041423309142494234,
      "loss": 2.4319,
      "step": 1239
    },
    {
      "epoch": 0.5687421167297328,
      "grad_norm": 0.4426951369908429,
      "learning_rate": 0.0004135011550154433,
      "loss": 2.4757,
      "step": 1240
    },
    {
      "epoch": 0.5692007797270955,
      "grad_norm": 0.471615758058414,
      "learning_rate": 0.0004127694096352546,
      "loss": 2.4494,
      "step": 1241
    },
    {
      "epoch": 0.5696594427244582,
      "grad_norm": 0.4634527614770504,
      "learning_rate": 0.00041203785690040743,
      "loss": 2.4853,
      "step": 1242
    },
    {
      "epoch": 0.5701181057218209,
      "grad_norm": 0.5356394650817998,
      "learning_rate": 0.00041130649842650694,
      "loss": 2.4369,
      "step": 1243
    },
    {
      "epoch": 0.5705767687191836,
      "grad_norm": 0.48388210674311727,
      "learning_rate": 0.00041057533582873016,
      "loss": 2.5006,
      "step": 1244
    },
    {
      "epoch": 0.5710354317165462,
      "grad_norm": 0.46301678626207865,
      "learning_rate": 0.0004098443707218208,
      "loss": 2.5177,
      "step": 1245
    },
    {
      "epoch": 0.571494094713909,
      "grad_norm": 0.4944889548970391,
      "learning_rate": 0.00040911360472008673,
      "loss": 2.5035,
      "step": 1246
    },
    {
      "epoch": 0.5719527577112716,
      "grad_norm": 0.4833627617012591,
      "learning_rate": 0.0004083830394373959,
      "loss": 2.3967,
      "step": 1247
    },
    {
      "epoch": 0.5724114207086344,
      "grad_norm": 0.49535906439824445,
      "learning_rate": 0.00040765267648717324,
      "loss": 2.4621,
      "step": 1248
    },
    {
      "epoch": 0.572870083705997,
      "grad_norm": 0.46658314720888544,
      "learning_rate": 0.00040692251748239677,
      "loss": 2.4221,
      "step": 1249
    },
    {
      "epoch": 0.5733287467033598,
      "grad_norm": 0.46591189165160735,
      "learning_rate": 0.00040619256403559383,
      "loss": 2.3327,
      "step": 1250
    },
    {
      "epoch": 0.5737874097007224,
      "grad_norm": 0.48792570883729725,
      "learning_rate": 0.000405462817758838,
      "loss": 2.4339,
      "step": 1251
    },
    {
      "epoch": 0.574246072698085,
      "grad_norm": 0.46601195031694836,
      "learning_rate": 0.0004047332802637457,
      "loss": 2.3879,
      "step": 1252
    },
    {
      "epoch": 0.5747047356954478,
      "grad_norm": 0.4562712912527504,
      "learning_rate": 0.00040400395316147157,
      "loss": 2.4518,
      "step": 1253
    },
    {
      "epoch": 0.5751633986928104,
      "grad_norm": 0.5136269780252167,
      "learning_rate": 0.00040327483806270627,
      "loss": 2.5012,
      "step": 1254
    },
    {
      "epoch": 0.5756220616901732,
      "grad_norm": 0.4916173431529241,
      "learning_rate": 0.0004025459365776715,
      "loss": 2.3793,
      "step": 1255
    },
    {
      "epoch": 0.5760807246875358,
      "grad_norm": 0.47968097564895823,
      "learning_rate": 0.00040181725031611794,
      "loss": 2.5089,
      "step": 1256
    },
    {
      "epoch": 0.5765393876848985,
      "grad_norm": 0.4908913649149294,
      "learning_rate": 0.0004010887808873206,
      "loss": 2.3793,
      "step": 1257
    },
    {
      "epoch": 0.5769980506822612,
      "grad_norm": 0.4688860355263422,
      "learning_rate": 0.00040036052990007553,
      "loss": 2.4459,
      "step": 1258
    },
    {
      "epoch": 0.5774567136796239,
      "grad_norm": 0.5109367296262073,
      "learning_rate": 0.0003996324989626967,
      "loss": 2.4183,
      "step": 1259
    },
    {
      "epoch": 0.5779153766769866,
      "grad_norm": 0.45314535367520636,
      "learning_rate": 0.00039890468968301166,
      "loss": 2.4436,
      "step": 1260
    },
    {
      "epoch": 0.5783740396743493,
      "grad_norm": 0.45508087101391104,
      "learning_rate": 0.0003981771036683591,
      "loss": 2.5038,
      "step": 1261
    },
    {
      "epoch": 0.5788327026717119,
      "grad_norm": 0.45294090001217435,
      "learning_rate": 0.00039744974252558385,
      "loss": 2.3704,
      "step": 1262
    },
    {
      "epoch": 0.5792913656690747,
      "grad_norm": 0.47624107637673646,
      "learning_rate": 0.00039672260786103463,
      "loss": 2.474,
      "step": 1263
    },
    {
      "epoch": 0.5797500286664373,
      "grad_norm": 0.46623506568709044,
      "learning_rate": 0.00039599570128055994,
      "loss": 2.5091,
      "step": 1264
    },
    {
      "epoch": 0.5802086916638001,
      "grad_norm": 0.4985045550809722,
      "learning_rate": 0.0003952690243895044,
      "loss": 2.4231,
      "step": 1265
    },
    {
      "epoch": 0.5806673546611627,
      "grad_norm": 0.4837511784510323,
      "learning_rate": 0.0003945425787927054,
      "loss": 2.5759,
      "step": 1266
    },
    {
      "epoch": 0.5811260176585255,
      "grad_norm": 0.45878999690228023,
      "learning_rate": 0.00039381636609448975,
      "loss": 2.3689,
      "step": 1267
    },
    {
      "epoch": 0.5815846806558881,
      "grad_norm": 0.453433898985506,
      "learning_rate": 0.0003930903878986693,
      "loss": 2.4523,
      "step": 1268
    },
    {
      "epoch": 0.5820433436532507,
      "grad_norm": 0.4504658046747769,
      "learning_rate": 0.00039236464580853916,
      "loss": 2.5128,
      "step": 1269
    },
    {
      "epoch": 0.5825020066506135,
      "grad_norm": 0.44935867402560414,
      "learning_rate": 0.0003916391414268718,
      "loss": 2.4741,
      "step": 1270
    },
    {
      "epoch": 0.5829606696479761,
      "grad_norm": 0.47191858888357524,
      "learning_rate": 0.00039091387635591536,
      "loss": 2.521,
      "step": 1271
    },
    {
      "epoch": 0.5834193326453389,
      "grad_norm": 0.4791562595556394,
      "learning_rate": 0.0003901888521973894,
      "loss": 2.359,
      "step": 1272
    },
    {
      "epoch": 0.5838779956427015,
      "grad_norm": 0.49631879007702095,
      "learning_rate": 0.0003894640705524813,
      "loss": 2.4834,
      "step": 1273
    },
    {
      "epoch": 0.5843366586400642,
      "grad_norm": 0.46938275616896824,
      "learning_rate": 0.00038873953302184284,
      "loss": 2.3531,
      "step": 1274
    },
    {
      "epoch": 0.5847953216374269,
      "grad_norm": 0.49047476906075493,
      "learning_rate": 0.000388015241205587,
      "loss": 2.3649,
      "step": 1275
    },
    {
      "epoch": 0.5852539846347896,
      "grad_norm": 0.524212668643449,
      "learning_rate": 0.00038729119670328355,
      "loss": 2.508,
      "step": 1276
    },
    {
      "epoch": 0.5857126476321523,
      "grad_norm": 0.48443989211528526,
      "learning_rate": 0.00038656740111395665,
      "loss": 2.4626,
      "step": 1277
    },
    {
      "epoch": 0.586171310629515,
      "grad_norm": 0.4966703880420676,
      "learning_rate": 0.00038584385603608053,
      "loss": 2.4938,
      "step": 1278
    },
    {
      "epoch": 0.5866299736268776,
      "grad_norm": 0.48310056788028405,
      "learning_rate": 0.00038512056306757615,
      "loss": 2.4954,
      "step": 1279
    },
    {
      "epoch": 0.5870886366242404,
      "grad_norm": 0.4813346356440143,
      "learning_rate": 0.0003843975238058075,
      "loss": 2.4189,
      "step": 1280
    },
    {
      "epoch": 0.587547299621603,
      "grad_norm": 0.4646018850925196,
      "learning_rate": 0.00038367473984757863,
      "loss": 2.4592,
      "step": 1281
    },
    {
      "epoch": 0.5880059626189658,
      "grad_norm": 0.47347517347070034,
      "learning_rate": 0.0003829522127891296,
      "loss": 2.5194,
      "step": 1282
    },
    {
      "epoch": 0.5884646256163284,
      "grad_norm": 0.47254186273091076,
      "learning_rate": 0.0003822299442261329,
      "loss": 2.3315,
      "step": 1283
    },
    {
      "epoch": 0.5889232886136911,
      "grad_norm": 0.4665440123110569,
      "learning_rate": 0.00038150793575369063,
      "loss": 2.468,
      "step": 1284
    },
    {
      "epoch": 0.5893819516110538,
      "grad_norm": 0.4598677811488368,
      "learning_rate": 0.0003807861889663299,
      "loss": 2.3798,
      "step": 1285
    },
    {
      "epoch": 0.5898406146084164,
      "grad_norm": 0.4682435288875101,
      "learning_rate": 0.0003800647054580006,
      "loss": 2.3996,
      "step": 1286
    },
    {
      "epoch": 0.5902992776057792,
      "grad_norm": 0.5174455391303838,
      "learning_rate": 0.00037934348682207064,
      "loss": 2.4189,
      "step": 1287
    },
    {
      "epoch": 0.5907579406031418,
      "grad_norm": 0.4589947268199869,
      "learning_rate": 0.00037862253465132306,
      "loss": 2.384,
      "step": 1288
    },
    {
      "epoch": 0.5912166036005045,
      "grad_norm": 0.4685875739532741,
      "learning_rate": 0.00037790185053795245,
      "loss": 2.4951,
      "step": 1289
    },
    {
      "epoch": 0.5916752665978672,
      "grad_norm": 0.4975396598949627,
      "learning_rate": 0.0003771814360735616,
      "loss": 2.4516,
      "step": 1290
    },
    {
      "epoch": 0.5921339295952299,
      "grad_norm": 0.4623542073297144,
      "learning_rate": 0.00037646129284915755,
      "loss": 2.4282,
      "step": 1291
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 0.5107947246470645,
      "learning_rate": 0.00037574142245514825,
      "loss": 2.4434,
      "step": 1292
    },
    {
      "epoch": 0.5930512555899553,
      "grad_norm": 0.50076587726902,
      "learning_rate": 0.0003750218264813393,
      "loss": 2.5137,
      "step": 1293
    },
    {
      "epoch": 0.5935099185873179,
      "grad_norm": 0.48831644152547804,
      "learning_rate": 0.0003743025065169305,
      "loss": 2.4691,
      "step": 1294
    },
    {
      "epoch": 0.5939685815846807,
      "grad_norm": 0.4723133694018882,
      "learning_rate": 0.0003735834641505116,
      "loss": 2.5631,
      "step": 1295
    },
    {
      "epoch": 0.5944272445820433,
      "grad_norm": 0.46589823164950434,
      "learning_rate": 0.00037286470097005954,
      "loss": 2.3702,
      "step": 1296
    },
    {
      "epoch": 0.5948859075794061,
      "grad_norm": 0.46431088829259487,
      "learning_rate": 0.0003721462185629347,
      "loss": 2.4096,
      "step": 1297
    },
    {
      "epoch": 0.5953445705767687,
      "grad_norm": 0.47867501990378963,
      "learning_rate": 0.00037142801851587707,
      "loss": 2.481,
      "step": 1298
    },
    {
      "epoch": 0.5958032335741315,
      "grad_norm": 0.454080183121358,
      "learning_rate": 0.00037071010241500357,
      "loss": 2.479,
      "step": 1299
    },
    {
      "epoch": 0.5962618965714941,
      "grad_norm": 0.4631575556170458,
      "learning_rate": 0.00036999247184580383,
      "loss": 2.4039,
      "step": 1300
    },
    {
      "epoch": 0.5967205595688568,
      "grad_norm": 0.44382089902045996,
      "learning_rate": 0.00036927512839313636,
      "loss": 2.4024,
      "step": 1301
    },
    {
      "epoch": 0.5971792225662195,
      "grad_norm": 0.45121581614235995,
      "learning_rate": 0.0003685580736412268,
      "loss": 2.3658,
      "step": 1302
    },
    {
      "epoch": 0.5976378855635821,
      "grad_norm": 0.45268135215105715,
      "learning_rate": 0.000367841309173662,
      "loss": 2.3808,
      "step": 1303
    },
    {
      "epoch": 0.5980965485609449,
      "grad_norm": 0.4498711425807394,
      "learning_rate": 0.0003671248365733883,
      "loss": 2.3558,
      "step": 1304
    },
    {
      "epoch": 0.5985552115583075,
      "grad_norm": 0.47446520446668883,
      "learning_rate": 0.0003664086574227075,
      "loss": 2.3243,
      "step": 1305
    },
    {
      "epoch": 0.5990138745556702,
      "grad_norm": 0.46459061592950884,
      "learning_rate": 0.000365692773303273,
      "loss": 2.4573,
      "step": 1306
    },
    {
      "epoch": 0.5994725375530329,
      "grad_norm": 0.4570400013204556,
      "learning_rate": 0.00036497718579608696,
      "loss": 2.3928,
      "step": 1307
    },
    {
      "epoch": 0.5999312005503956,
      "grad_norm": 0.47671318393657564,
      "learning_rate": 0.0003642618964814964,
      "loss": 2.4116,
      "step": 1308
    },
    {
      "epoch": 0.6003898635477583,
      "grad_norm": 0.4950555705463909,
      "learning_rate": 0.00036354690693918946,
      "loss": 2.4938,
      "step": 1309
    },
    {
      "epoch": 0.600848526545121,
      "grad_norm": 0.46137754776433004,
      "learning_rate": 0.00036283221874819284,
      "loss": 2.4714,
      "step": 1310
    },
    {
      "epoch": 0.6013071895424836,
      "grad_norm": 0.5187472975053875,
      "learning_rate": 0.0003621178334868672,
      "loss": 2.4647,
      "step": 1311
    },
    {
      "epoch": 0.6017658525398464,
      "grad_norm": 0.4769106394061544,
      "learning_rate": 0.00036140375273290476,
      "loss": 2.4432,
      "step": 1312
    },
    {
      "epoch": 0.602224515537209,
      "grad_norm": 0.4462950591395119,
      "learning_rate": 0.0003606899780633245,
      "loss": 2.3312,
      "step": 1313
    },
    {
      "epoch": 0.6026831785345718,
      "grad_norm": 0.4788424750714392,
      "learning_rate": 0.0003599765110544699,
      "loss": 2.3044,
      "step": 1314
    },
    {
      "epoch": 0.6031418415319344,
      "grad_norm": 0.4696234127240734,
      "learning_rate": 0.0003592633532820052,
      "loss": 2.3569,
      "step": 1315
    },
    {
      "epoch": 0.6036005045292971,
      "grad_norm": 0.46434790872367254,
      "learning_rate": 0.0003585505063209109,
      "loss": 2.4769,
      "step": 1316
    },
    {
      "epoch": 0.6040591675266598,
      "grad_norm": 0.48042452123748536,
      "learning_rate": 0.00035783797174548194,
      "loss": 2.5266,
      "step": 1317
    },
    {
      "epoch": 0.6045178305240225,
      "grad_norm": 0.46821259998448317,
      "learning_rate": 0.00035712575112932277,
      "loss": 2.3543,
      "step": 1318
    },
    {
      "epoch": 0.6049764935213852,
      "grad_norm": 0.470979906136393,
      "learning_rate": 0.000356413846045345,
      "loss": 2.5269,
      "step": 1319
    },
    {
      "epoch": 0.6054351565187478,
      "grad_norm": 0.48689123888045593,
      "learning_rate": 0.000355702258065763,
      "loss": 2.3871,
      "step": 1320
    },
    {
      "epoch": 0.6058938195161105,
      "grad_norm": 0.49473869812479565,
      "learning_rate": 0.0003549909887620909,
      "loss": 2.4095,
      "step": 1321
    },
    {
      "epoch": 0.6063524825134732,
      "grad_norm": 0.4412879568409611,
      "learning_rate": 0.00035428003970513914,
      "loss": 2.4908,
      "step": 1322
    },
    {
      "epoch": 0.6068111455108359,
      "grad_norm": 0.46315497841608533,
      "learning_rate": 0.00035356941246501085,
      "loss": 2.4795,
      "step": 1323
    },
    {
      "epoch": 0.6072698085081986,
      "grad_norm": 0.43647898791204365,
      "learning_rate": 0.0003528591086110984,
      "loss": 2.4374,
      "step": 1324
    },
    {
      "epoch": 0.6077284715055613,
      "grad_norm": 0.47399815602614903,
      "learning_rate": 0.00035214912971208,
      "loss": 2.3473,
      "step": 1325
    },
    {
      "epoch": 0.6081871345029239,
      "grad_norm": 0.4348568367596576,
      "learning_rate": 0.0003514394773359163,
      "loss": 2.2736,
      "step": 1326
    },
    {
      "epoch": 0.6086457975002867,
      "grad_norm": 0.46324153445913396,
      "learning_rate": 0.0003507301530498469,
      "loss": 2.465,
      "step": 1327
    },
    {
      "epoch": 0.6091044604976493,
      "grad_norm": 0.46194341807967176,
      "learning_rate": 0.00035002115842038646,
      "loss": 2.3825,
      "step": 1328
    },
    {
      "epoch": 0.6095631234950121,
      "grad_norm": 0.4677136425394864,
      "learning_rate": 0.00034931249501332195,
      "loss": 2.4432,
      "step": 1329
    },
    {
      "epoch": 0.6100217864923747,
      "grad_norm": 0.465644074032939,
      "learning_rate": 0.00034860416439370885,
      "loss": 2.4707,
      "step": 1330
    },
    {
      "epoch": 0.6104804494897375,
      "grad_norm": 0.4795605268461614,
      "learning_rate": 0.0003478961681258674,
      "loss": 2.5017,
      "step": 1331
    },
    {
      "epoch": 0.6109391124871001,
      "grad_norm": 0.4524890186746273,
      "learning_rate": 0.0003471885077733796,
      "loss": 2.364,
      "step": 1332
    },
    {
      "epoch": 0.6113977754844628,
      "grad_norm": 0.46026826560151707,
      "learning_rate": 0.0003464811848990859,
      "loss": 2.4689,
      "step": 1333
    },
    {
      "epoch": 0.6118564384818255,
      "grad_norm": 0.48508750523101224,
      "learning_rate": 0.00034577420106508063,
      "loss": 2.5249,
      "step": 1334
    },
    {
      "epoch": 0.6123151014791882,
      "grad_norm": 0.46312153212835816,
      "learning_rate": 0.0003450675578327105,
      "loss": 2.3704,
      "step": 1335
    },
    {
      "epoch": 0.6127737644765509,
      "grad_norm": 0.44809851726549366,
      "learning_rate": 0.000344361256762569,
      "loss": 2.4279,
      "step": 1336
    },
    {
      "epoch": 0.6132324274739135,
      "grad_norm": 0.48811590896536405,
      "learning_rate": 0.00034365529941449456,
      "loss": 2.2907,
      "step": 1337
    },
    {
      "epoch": 0.6136910904712762,
      "grad_norm": 0.47052844888467127,
      "learning_rate": 0.0003429496873475664,
      "loss": 2.3598,
      "step": 1338
    },
    {
      "epoch": 0.6141497534686389,
      "grad_norm": 0.46263661141063345,
      "learning_rate": 0.0003422444221201009,
      "loss": 2.3745,
      "step": 1339
    },
    {
      "epoch": 0.6146084164660016,
      "grad_norm": 0.4559028384668873,
      "learning_rate": 0.0003415395052896487,
      "loss": 2.4871,
      "step": 1340
    },
    {
      "epoch": 0.6150670794633643,
      "grad_norm": 0.4724008252381576,
      "learning_rate": 0.0003408349384129912,
      "loss": 2.4775,
      "step": 1341
    },
    {
      "epoch": 0.615525742460727,
      "grad_norm": 0.4654360859319918,
      "learning_rate": 0.00034013072304613643,
      "loss": 2.4066,
      "step": 1342
    },
    {
      "epoch": 0.6159844054580896,
      "grad_norm": 0.4406968740611128,
      "learning_rate": 0.00033942686074431674,
      "loss": 2.4719,
      "step": 1343
    },
    {
      "epoch": 0.6164430684554524,
      "grad_norm": 0.45288399942783797,
      "learning_rate": 0.0003387233530619843,
      "loss": 2.4132,
      "step": 1344
    },
    {
      "epoch": 0.616901731452815,
      "grad_norm": 0.46322564163816965,
      "learning_rate": 0.0003380202015528084,
      "loss": 2.538,
      "step": 1345
    },
    {
      "epoch": 0.6173603944501778,
      "grad_norm": 0.47942592805328277,
      "learning_rate": 0.0003373174077696715,
      "loss": 2.4796,
      "step": 1346
    },
    {
      "epoch": 0.6178190574475404,
      "grad_norm": 0.4565880414648392,
      "learning_rate": 0.0003366149732646661,
      "loss": 2.3892,
      "step": 1347
    },
    {
      "epoch": 0.6182777204449031,
      "grad_norm": 0.46703033430789953,
      "learning_rate": 0.00033591289958909143,
      "loss": 2.3621,
      "step": 1348
    },
    {
      "epoch": 0.6187363834422658,
      "grad_norm": 0.4423546203659527,
      "learning_rate": 0.00033521118829344954,
      "loss": 2.3836,
      "step": 1349
    },
    {
      "epoch": 0.6191950464396285,
      "grad_norm": 0.5313580516160746,
      "learning_rate": 0.0003345098409274423,
      "loss": 2.5992,
      "step": 1350
    },
    {
      "epoch": 0.6196537094369912,
      "grad_norm": 0.47089435562990056,
      "learning_rate": 0.00033380885903996796,
      "loss": 2.3868,
      "step": 1351
    },
    {
      "epoch": 0.6201123724343539,
      "grad_norm": 0.45125284448879105,
      "learning_rate": 0.00033310824417911766,
      "loss": 2.4854,
      "step": 1352
    },
    {
      "epoch": 0.6205710354317165,
      "grad_norm": 0.4717368940309505,
      "learning_rate": 0.00033240799789217184,
      "loss": 2.5046,
      "step": 1353
    },
    {
      "epoch": 0.6210296984290792,
      "grad_norm": 0.48486198601929975,
      "learning_rate": 0.00033170812172559694,
      "loss": 2.3919,
      "step": 1354
    },
    {
      "epoch": 0.6214883614264419,
      "grad_norm": 0.5058035835447053,
      "learning_rate": 0.000331008617225042,
      "loss": 2.4462,
      "step": 1355
    },
    {
      "epoch": 0.6219470244238046,
      "grad_norm": 0.4622646840542723,
      "learning_rate": 0.0003303094859353355,
      "loss": 2.3963,
      "step": 1356
    },
    {
      "epoch": 0.6224056874211673,
      "grad_norm": 0.5122731816598923,
      "learning_rate": 0.0003296107294004812,
      "loss": 2.3235,
      "step": 1357
    },
    {
      "epoch": 0.6228643504185299,
      "grad_norm": 0.48262968377534715,
      "learning_rate": 0.0003289123491636559,
      "loss": 2.4252,
      "step": 1358
    },
    {
      "epoch": 0.6233230134158927,
      "grad_norm": 0.4777730499091134,
      "learning_rate": 0.00032821434676720443,
      "loss": 2.5327,
      "step": 1359
    },
    {
      "epoch": 0.6237816764132553,
      "grad_norm": 0.46893145459445773,
      "learning_rate": 0.00032751672375263836,
      "loss": 2.4312,
      "step": 1360
    },
    {
      "epoch": 0.6242403394106181,
      "grad_norm": 0.4960854224142842,
      "learning_rate": 0.0003268194816606305,
      "loss": 2.4662,
      "step": 1361
    },
    {
      "epoch": 0.6246990024079807,
      "grad_norm": 0.47881838289654327,
      "learning_rate": 0.00032612262203101267,
      "loss": 2.4121,
      "step": 1362
    },
    {
      "epoch": 0.6251576654053435,
      "grad_norm": 0.4666539380144885,
      "learning_rate": 0.00032542614640277225,
      "loss": 2.3144,
      "step": 1363
    },
    {
      "epoch": 0.6256163284027061,
      "grad_norm": 0.46103479472502007,
      "learning_rate": 0.0003247300563140481,
      "loss": 2.3493,
      "step": 1364
    },
    {
      "epoch": 0.6260749914000688,
      "grad_norm": 0.46468271770968694,
      "learning_rate": 0.00032403435330212807,
      "loss": 2.4787,
      "step": 1365
    },
    {
      "epoch": 0.6265336543974315,
      "grad_norm": 0.4997880629334724,
      "learning_rate": 0.00032333903890344515,
      "loss": 2.3428,
      "step": 1366
    },
    {
      "epoch": 0.6269923173947942,
      "grad_norm": 0.472452844226954,
      "learning_rate": 0.00032264411465357333,
      "loss": 2.5504,
      "step": 1367
    },
    {
      "epoch": 0.6274509803921569,
      "grad_norm": 0.4602051549690244,
      "learning_rate": 0.00032194958208722654,
      "loss": 2.3539,
      "step": 1368
    },
    {
      "epoch": 0.6279096433895196,
      "grad_norm": 0.44606826595772653,
      "learning_rate": 0.00032125544273825204,
      "loss": 2.3438,
      "step": 1369
    },
    {
      "epoch": 0.6283683063868822,
      "grad_norm": 0.48498613222221637,
      "learning_rate": 0.0003205616981396297,
      "loss": 2.5463,
      "step": 1370
    },
    {
      "epoch": 0.6288269693842449,
      "grad_norm": 0.4550284469316525,
      "learning_rate": 0.00031986834982346713,
      "loss": 2.3717,
      "step": 1371
    },
    {
      "epoch": 0.6292856323816076,
      "grad_norm": 0.4897649281491342,
      "learning_rate": 0.00031917539932099694,
      "loss": 2.3892,
      "step": 1372
    },
    {
      "epoch": 0.6297442953789703,
      "grad_norm": 0.4646979246296687,
      "learning_rate": 0.00031848284816257336,
      "loss": 2.4499,
      "step": 1373
    },
    {
      "epoch": 0.630202958376333,
      "grad_norm": 0.46585406618321,
      "learning_rate": 0.0003177906978776682,
      "loss": 2.4298,
      "step": 1374
    },
    {
      "epoch": 0.6306616213736956,
      "grad_norm": 0.4789951303438595,
      "learning_rate": 0.0003170989499948683,
      "loss": 2.5419,
      "step": 1375
    },
    {
      "epoch": 0.6311202843710584,
      "grad_norm": 0.5055589024901875,
      "learning_rate": 0.0003164076060418719,
      "loss": 2.4709,
      "step": 1376
    },
    {
      "epoch": 0.631578947368421,
      "grad_norm": 0.48404966679689004,
      "learning_rate": 0.000315716667545485,
      "loss": 2.3329,
      "step": 1377
    },
    {
      "epoch": 0.6320376103657838,
      "grad_norm": 0.45629108813575936,
      "learning_rate": 0.00031502613603161836,
      "loss": 2.4552,
      "step": 1378
    },
    {
      "epoch": 0.6324962733631464,
      "grad_norm": 0.45598389074834983,
      "learning_rate": 0.00031433601302528335,
      "loss": 2.4415,
      "step": 1379
    },
    {
      "epoch": 0.6329549363605091,
      "grad_norm": 0.46710234887180024,
      "learning_rate": 0.00031364630005058995,
      "loss": 2.3827,
      "step": 1380
    },
    {
      "epoch": 0.6334135993578718,
      "grad_norm": 0.46885334106533594,
      "learning_rate": 0.0003129569986307422,
      "loss": 2.4434,
      "step": 1381
    },
    {
      "epoch": 0.6338722623552345,
      "grad_norm": 0.4646623450277931,
      "learning_rate": 0.00031226811028803515,
      "loss": 2.3702,
      "step": 1382
    },
    {
      "epoch": 0.6343309253525972,
      "grad_norm": 0.48474442354319064,
      "learning_rate": 0.00031157963654385173,
      "loss": 2.4944,
      "step": 1383
    },
    {
      "epoch": 0.6347895883499599,
      "grad_norm": 0.47849168094962186,
      "learning_rate": 0.0003108915789186592,
      "loss": 2.5432,
      "step": 1384
    },
    {
      "epoch": 0.6352482513473225,
      "grad_norm": 0.47598781721526057,
      "learning_rate": 0.00031020393893200604,
      "loss": 2.4163,
      "step": 1385
    },
    {
      "epoch": 0.6357069143446853,
      "grad_norm": 0.4786716923123856,
      "learning_rate": 0.00030951671810251823,
      "loss": 2.4138,
      "step": 1386
    },
    {
      "epoch": 0.6361655773420479,
      "grad_norm": 0.4585384741848722,
      "learning_rate": 0.0003088299179478959,
      "loss": 2.3824,
      "step": 1387
    },
    {
      "epoch": 0.6366242403394106,
      "grad_norm": 0.4944735781911416,
      "learning_rate": 0.0003081435399849104,
      "loss": 2.5116,
      "step": 1388
    },
    {
      "epoch": 0.6370829033367733,
      "grad_norm": 0.47292253582945715,
      "learning_rate": 0.0003074575857294004,
      "loss": 2.4172,
      "step": 1389
    },
    {
      "epoch": 0.637541566334136,
      "grad_norm": 0.47011088989417354,
      "learning_rate": 0.0003067720566962691,
      "loss": 2.4072,
      "step": 1390
    },
    {
      "epoch": 0.6380002293314987,
      "grad_norm": 0.47903602087235164,
      "learning_rate": 0.0003060869543994806,
      "loss": 2.487,
      "step": 1391
    },
    {
      "epoch": 0.6384588923288613,
      "grad_norm": 0.4578647313944015,
      "learning_rate": 0.0003054022803520562,
      "loss": 2.4128,
      "step": 1392
    },
    {
      "epoch": 0.6389175553262241,
      "grad_norm": 0.4786170501632186,
      "learning_rate": 0.0003047180360660721,
      "loss": 2.4148,
      "step": 1393
    },
    {
      "epoch": 0.6393762183235867,
      "grad_norm": 0.455198679869558,
      "learning_rate": 0.00030403422305265475,
      "loss": 2.3958,
      "step": 1394
    },
    {
      "epoch": 0.6398348813209495,
      "grad_norm": 0.48581945108660185,
      "learning_rate": 0.0003033508428219785,
      "loss": 2.4433,
      "step": 1395
    },
    {
      "epoch": 0.6402935443183121,
      "grad_norm": 0.48138415615053726,
      "learning_rate": 0.00030266789688326184,
      "loss": 2.5424,
      "step": 1396
    },
    {
      "epoch": 0.6407522073156748,
      "grad_norm": 0.473511142884579,
      "learning_rate": 0.00030198538674476393,
      "loss": 2.4393,
      "step": 1397
    },
    {
      "epoch": 0.6412108703130375,
      "grad_norm": 0.47873291583701655,
      "learning_rate": 0.00030130331391378185,
      "loss": 2.4037,
      "step": 1398
    },
    {
      "epoch": 0.6416695333104002,
      "grad_norm": 0.46115190734970096,
      "learning_rate": 0.0003006216798966468,
      "loss": 2.3842,
      "step": 1399
    },
    {
      "epoch": 0.6421281963077629,
      "grad_norm": 0.47180017845310684,
      "learning_rate": 0.00029994048619872034,
      "loss": 2.4102,
      "step": 1400
    },
    {
      "epoch": 0.6425868593051256,
      "grad_norm": 0.4796003379752967,
      "learning_rate": 0.0002992597343243927,
      "loss": 2.4022,
      "step": 1401
    },
    {
      "epoch": 0.6430455223024882,
      "grad_norm": 0.44504710703269584,
      "learning_rate": 0.0002985794257770773,
      "loss": 2.5278,
      "step": 1402
    },
    {
      "epoch": 0.643504185299851,
      "grad_norm": 0.492653680506979,
      "learning_rate": 0.0002978995620592092,
      "loss": 2.5048,
      "step": 1403
    },
    {
      "epoch": 0.6439628482972136,
      "grad_norm": 0.4936156019172538,
      "learning_rate": 0.0002972201446722405,
      "loss": 2.4579,
      "step": 1404
    },
    {
      "epoch": 0.6444215112945763,
      "grad_norm": 0.4658708973405049,
      "learning_rate": 0.00029654117511663803,
      "loss": 2.44,
      "step": 1405
    },
    {
      "epoch": 0.644880174291939,
      "grad_norm": 0.47077848759033675,
      "learning_rate": 0.0002958626548918795,
      "loss": 2.375,
      "step": 1406
    },
    {
      "epoch": 0.6453388372893016,
      "grad_norm": 0.46845299098476795,
      "learning_rate": 0.00029518458549645014,
      "loss": 2.5136,
      "step": 1407
    },
    {
      "epoch": 0.6457975002866644,
      "grad_norm": 0.46820368193958534,
      "learning_rate": 0.00029450696842783954,
      "loss": 2.3748,
      "step": 1408
    },
    {
      "epoch": 0.646256163284027,
      "grad_norm": 0.44431329290580895,
      "learning_rate": 0.00029382980518253865,
      "loss": 2.3928,
      "step": 1409
    },
    {
      "epoch": 0.6467148262813898,
      "grad_norm": 0.49054404647815303,
      "learning_rate": 0.00029315309725603595,
      "loss": 2.4434,
      "step": 1410
    },
    {
      "epoch": 0.6471734892787524,
      "grad_norm": 0.5199610329445019,
      "learning_rate": 0.00029247684614281446,
      "loss": 2.4308,
      "step": 1411
    },
    {
      "epoch": 0.6476321522761151,
      "grad_norm": 0.48115351534560313,
      "learning_rate": 0.0002918010533363481,
      "loss": 2.4199,
      "step": 1412
    },
    {
      "epoch": 0.6480908152734778,
      "grad_norm": 0.4615717694581097,
      "learning_rate": 0.0002911257203290987,
      "loss": 2.3575,
      "step": 1413
    },
    {
      "epoch": 0.6485494782708405,
      "grad_norm": 0.47995141882431447,
      "learning_rate": 0.00029045084861251314,
      "loss": 2.4865,
      "step": 1414
    },
    {
      "epoch": 0.6490081412682032,
      "grad_norm": 0.4645566779365274,
      "learning_rate": 0.00028977643967701897,
      "loss": 2.4988,
      "step": 1415
    },
    {
      "epoch": 0.6494668042655659,
      "grad_norm": 0.49523515277456925,
      "learning_rate": 0.00028910249501202156,
      "loss": 2.3976,
      "step": 1416
    },
    {
      "epoch": 0.6499254672629285,
      "grad_norm": 0.48438586011772855,
      "learning_rate": 0.00028842901610590165,
      "loss": 2.4543,
      "step": 1417
    },
    {
      "epoch": 0.6503841302602913,
      "grad_norm": 0.47113680969417404,
      "learning_rate": 0.00028775600444601123,
      "loss": 2.4708,
      "step": 1418
    },
    {
      "epoch": 0.6508427932576539,
      "grad_norm": 0.47337037890334777,
      "learning_rate": 0.00028708346151866973,
      "loss": 2.3381,
      "step": 1419
    },
    {
      "epoch": 0.6513014562550167,
      "grad_norm": 0.5639577815844297,
      "learning_rate": 0.0002864113888091622,
      "loss": 2.5013,
      "step": 1420
    },
    {
      "epoch": 0.6517601192523793,
      "grad_norm": 0.49832553164482685,
      "learning_rate": 0.0002857397878017348,
      "loss": 2.4654,
      "step": 1421
    },
    {
      "epoch": 0.6522187822497421,
      "grad_norm": 0.5042353752483147,
      "learning_rate": 0.00028506865997959173,
      "loss": 2.3962,
      "step": 1422
    },
    {
      "epoch": 0.6526774452471047,
      "grad_norm": 0.49433930305559015,
      "learning_rate": 0.000284398006824893,
      "loss": 2.4817,
      "step": 1423
    },
    {
      "epoch": 0.6531361082444673,
      "grad_norm": 0.5408859714130466,
      "learning_rate": 0.00028372782981874963,
      "loss": 2.4413,
      "step": 1424
    },
    {
      "epoch": 0.6535947712418301,
      "grad_norm": 0.47497269118796126,
      "learning_rate": 0.00028305813044122096,
      "loss": 2.3841,
      "step": 1425
    },
    {
      "epoch": 0.6540534342391927,
      "grad_norm": 0.4669622591481031,
      "learning_rate": 0.0002823889101713122,
      "loss": 2.4332,
      "step": 1426
    },
    {
      "epoch": 0.6545120972365555,
      "grad_norm": 0.4874259762024219,
      "learning_rate": 0.0002817201704869701,
      "loss": 2.473,
      "step": 1427
    },
    {
      "epoch": 0.6549707602339181,
      "grad_norm": 0.536413888819973,
      "learning_rate": 0.00028105191286508,
      "loss": 2.6119,
      "step": 1428
    },
    {
      "epoch": 0.6554294232312808,
      "grad_norm": 0.4777667013084496,
      "learning_rate": 0.00028038413878146245,
      "loss": 2.3533,
      "step": 1429
    },
    {
      "epoch": 0.6558880862286435,
      "grad_norm": 0.48177893978623515,
      "learning_rate": 0.00027971684971087073,
      "loss": 2.3626,
      "step": 1430
    },
    {
      "epoch": 0.6563467492260062,
      "grad_norm": 0.47192073622023034,
      "learning_rate": 0.00027905004712698643,
      "loss": 2.4055,
      "step": 1431
    },
    {
      "epoch": 0.6568054122233689,
      "grad_norm": 0.4705596589203702,
      "learning_rate": 0.0002783837325024167,
      "loss": 2.4496,
      "step": 1432
    },
    {
      "epoch": 0.6572640752207316,
      "grad_norm": 0.4774045861395116,
      "learning_rate": 0.00027771790730869153,
      "loss": 2.4648,
      "step": 1433
    },
    {
      "epoch": 0.6577227382180942,
      "grad_norm": 0.4755550396457054,
      "learning_rate": 0.0002770525730162599,
      "loss": 2.3629,
      "step": 1434
    },
    {
      "epoch": 0.658181401215457,
      "grad_norm": 0.4721297315577247,
      "learning_rate": 0.00027638773109448645,
      "loss": 2.3602,
      "step": 1435
    },
    {
      "epoch": 0.6586400642128196,
      "grad_norm": 0.46162941889618914,
      "learning_rate": 0.00027572338301164824,
      "loss": 2.5103,
      "step": 1436
    },
    {
      "epoch": 0.6590987272101824,
      "grad_norm": 0.48035275622103035,
      "learning_rate": 0.0002750595302349324,
      "loss": 2.3492,
      "step": 1437
    },
    {
      "epoch": 0.659557390207545,
      "grad_norm": 0.4569665644043025,
      "learning_rate": 0.00027439617423043145,
      "loss": 2.3757,
      "step": 1438
    },
    {
      "epoch": 0.6600160532049077,
      "grad_norm": 0.4677399349053329,
      "learning_rate": 0.00027373331646314114,
      "loss": 2.3302,
      "step": 1439
    },
    {
      "epoch": 0.6604747162022704,
      "grad_norm": 0.4725411959148088,
      "learning_rate": 0.0002730709583969572,
      "loss": 2.3983,
      "step": 1440
    },
    {
      "epoch": 0.660933379199633,
      "grad_norm": 0.4912072122656346,
      "learning_rate": 0.0002724091014946711,
      "loss": 2.5077,
      "step": 1441
    },
    {
      "epoch": 0.6613920421969958,
      "grad_norm": 0.4639048674856052,
      "learning_rate": 0.00027174774721796824,
      "loss": 2.4423,
      "step": 1442
    },
    {
      "epoch": 0.6618507051943584,
      "grad_norm": 0.4870269278112653,
      "learning_rate": 0.0002710868970274232,
      "loss": 2.3385,
      "step": 1443
    },
    {
      "epoch": 0.6623093681917211,
      "grad_norm": 0.4690721740150726,
      "learning_rate": 0.0002704265523824982,
      "loss": 2.3701,
      "step": 1444
    },
    {
      "epoch": 0.6627680311890838,
      "grad_norm": 0.45479320196860257,
      "learning_rate": 0.00026976671474153826,
      "loss": 2.4792,
      "step": 1445
    },
    {
      "epoch": 0.6632266941864465,
      "grad_norm": 0.4731359565667271,
      "learning_rate": 0.00026910738556176886,
      "loss": 2.4258,
      "step": 1446
    },
    {
      "epoch": 0.6636853571838092,
      "grad_norm": 0.4800944410488259,
      "learning_rate": 0.0002684485662992929,
      "loss": 2.4541,
      "step": 1447
    },
    {
      "epoch": 0.6641440201811719,
      "grad_norm": 0.48515132142987816,
      "learning_rate": 0.0002677902584090869,
      "loss": 2.5278,
      "step": 1448
    },
    {
      "epoch": 0.6646026831785345,
      "grad_norm": 0.45945662624220557,
      "learning_rate": 0.00026713246334499774,
      "loss": 2.3383,
      "step": 1449
    },
    {
      "epoch": 0.6650613461758973,
      "grad_norm": 0.46820963716354314,
      "learning_rate": 0.00026647518255974023,
      "loss": 2.3531,
      "step": 1450
    },
    {
      "epoch": 0.6655200091732599,
      "grad_norm": 0.4522348276415636,
      "learning_rate": 0.0002658184175048934,
      "loss": 2.3332,
      "step": 1451
    },
    {
      "epoch": 0.6659786721706227,
      "grad_norm": 0.49500588979879184,
      "learning_rate": 0.00026516216963089694,
      "loss": 2.3856,
      "step": 1452
    },
    {
      "epoch": 0.6664373351679853,
      "grad_norm": 0.47170289605968163,
      "learning_rate": 0.0002645064403870488,
      "loss": 2.4531,
      "step": 1453
    },
    {
      "epoch": 0.6668959981653481,
      "grad_norm": 0.46449866701754006,
      "learning_rate": 0.0002638512312215011,
      "loss": 2.4011,
      "step": 1454
    },
    {
      "epoch": 0.6673546611627107,
      "grad_norm": 0.467188359581394,
      "learning_rate": 0.0002631965435812575,
      "loss": 2.3748,
      "step": 1455
    },
    {
      "epoch": 0.6678133241600734,
      "grad_norm": 0.4640657322453952,
      "learning_rate": 0.00026254237891217046,
      "loss": 2.424,
      "step": 1456
    },
    {
      "epoch": 0.6682719871574361,
      "grad_norm": 0.47411399348117483,
      "learning_rate": 0.0002618887386589367,
      "loss": 2.4483,
      "step": 1457
    },
    {
      "epoch": 0.6687306501547987,
      "grad_norm": 0.48729014761479,
      "learning_rate": 0.0002612356242650949,
      "loss": 2.347,
      "step": 1458
    },
    {
      "epoch": 0.6691893131521615,
      "grad_norm": 0.4708939447759638,
      "learning_rate": 0.0002605830371730229,
      "loss": 2.2853,
      "step": 1459
    },
    {
      "epoch": 0.6696479761495241,
      "grad_norm": 0.5027878984943955,
      "learning_rate": 0.0002599309788239339,
      "loss": 2.4608,
      "step": 1460
    },
    {
      "epoch": 0.6701066391468868,
      "grad_norm": 0.5003552844426303,
      "learning_rate": 0.00025927945065787306,
      "loss": 2.409,
      "step": 1461
    },
    {
      "epoch": 0.6705653021442495,
      "grad_norm": 0.4876945040257451,
      "learning_rate": 0.0002586284541137145,
      "loss": 2.3897,
      "step": 1462
    },
    {
      "epoch": 0.6710239651416122,
      "grad_norm": 0.46880680695551424,
      "learning_rate": 0.00025797799062915905,
      "loss": 2.4296,
      "step": 1463
    },
    {
      "epoch": 0.6714826281389749,
      "grad_norm": 0.48049789515208663,
      "learning_rate": 0.00025732806164072966,
      "loss": 2.4416,
      "step": 1464
    },
    {
      "epoch": 0.6719412911363376,
      "grad_norm": 0.47608984012437244,
      "learning_rate": 0.00025667866858376874,
      "loss": 2.4703,
      "step": 1465
    },
    {
      "epoch": 0.6723999541337002,
      "grad_norm": 0.4914903258391498,
      "learning_rate": 0.0002560298128924358,
      "loss": 2.4778,
      "step": 1466
    },
    {
      "epoch": 0.672858617131063,
      "grad_norm": 0.5816906416880661,
      "learning_rate": 0.0002553814959997032,
      "loss": 2.5299,
      "step": 1467
    },
    {
      "epoch": 0.6733172801284256,
      "grad_norm": 0.4739398163452842,
      "learning_rate": 0.00025473371933735334,
      "loss": 2.3383,
      "step": 1468
    },
    {
      "epoch": 0.6737759431257884,
      "grad_norm": 0.48104403720345784,
      "learning_rate": 0.00025408648433597534,
      "loss": 2.4333,
      "step": 1469
    },
    {
      "epoch": 0.674234606123151,
      "grad_norm": 0.46092313316612676,
      "learning_rate": 0.00025343979242496283,
      "loss": 2.3343,
      "step": 1470
    },
    {
      "epoch": 0.6746932691205138,
      "grad_norm": 0.4596337840252905,
      "learning_rate": 0.00025279364503250925,
      "loss": 2.4877,
      "step": 1471
    },
    {
      "epoch": 0.6751519321178764,
      "grad_norm": 0.49760807186704403,
      "learning_rate": 0.0002521480435856056,
      "loss": 2.4031,
      "step": 1472
    },
    {
      "epoch": 0.6756105951152391,
      "grad_norm": 0.4655331472817292,
      "learning_rate": 0.0002515029895100378,
      "loss": 2.347,
      "step": 1473
    },
    {
      "epoch": 0.6760692581126018,
      "grad_norm": 0.49332744077640667,
      "learning_rate": 0.0002508584842303822,
      "loss": 2.5236,
      "step": 1474
    },
    {
      "epoch": 0.6765279211099644,
      "grad_norm": 0.4579595894892399,
      "learning_rate": 0.0002502145291700038,
      "loss": 2.4001,
      "step": 1475
    },
    {
      "epoch": 0.6769865841073271,
      "grad_norm": 0.496071460798807,
      "learning_rate": 0.0002495711257510517,
      "loss": 2.3967,
      "step": 1476
    },
    {
      "epoch": 0.6774452471046898,
      "grad_norm": 0.4926778775484037,
      "learning_rate": 0.0002489282753944575,
      "loss": 2.4084,
      "step": 1477
    },
    {
      "epoch": 0.6779039101020525,
      "grad_norm": 0.46993104329713226,
      "learning_rate": 0.00024828597951993093,
      "loss": 2.3556,
      "step": 1478
    },
    {
      "epoch": 0.6783625730994152,
      "grad_norm": 0.482509990604609,
      "learning_rate": 0.00024764423954595706,
      "loss": 2.4205,
      "step": 1479
    },
    {
      "epoch": 0.6788212360967779,
      "grad_norm": 0.47001575585006405,
      "learning_rate": 0.0002470030568897938,
      "loss": 2.3623,
      "step": 1480
    },
    {
      "epoch": 0.6792798990941405,
      "grad_norm": 0.4693869022483343,
      "learning_rate": 0.00024636243296746773,
      "loss": 2.4456,
      "step": 1481
    },
    {
      "epoch": 0.6797385620915033,
      "grad_norm": 0.48083070805361133,
      "learning_rate": 0.0002457223691937716,
      "loss": 2.365,
      "step": 1482
    },
    {
      "epoch": 0.6801972250888659,
      "grad_norm": 0.44579320367932923,
      "learning_rate": 0.0002450828669822613,
      "loss": 2.3966,
      "step": 1483
    },
    {
      "epoch": 0.6806558880862287,
      "grad_norm": 0.4610633196061401,
      "learning_rate": 0.00024444392774525253,
      "loss": 2.3959,
      "step": 1484
    },
    {
      "epoch": 0.6811145510835913,
      "grad_norm": 0.474760170308806,
      "learning_rate": 0.00024380555289381733,
      "loss": 2.4969,
      "step": 1485
    },
    {
      "epoch": 0.6815732140809541,
      "grad_norm": 0.47183489629028263,
      "learning_rate": 0.00024316774383778184,
      "loss": 2.3607,
      "step": 1486
    },
    {
      "epoch": 0.6820318770783167,
      "grad_norm": 0.46796893526912653,
      "learning_rate": 0.0002425305019857222,
      "loss": 2.3841,
      "step": 1487
    },
    {
      "epoch": 0.6824905400756794,
      "grad_norm": 0.4820485335907449,
      "learning_rate": 0.00024189382874496184,
      "loss": 2.464,
      "step": 1488
    },
    {
      "epoch": 0.6829492030730421,
      "grad_norm": 0.4880384142620071,
      "learning_rate": 0.00024125772552156916,
      "loss": 2.4286,
      "step": 1489
    },
    {
      "epoch": 0.6834078660704048,
      "grad_norm": 0.49895999587925816,
      "learning_rate": 0.00024062219372035292,
      "loss": 2.4773,
      "step": 1490
    },
    {
      "epoch": 0.6838665290677675,
      "grad_norm": 0.46240922949470553,
      "learning_rate": 0.00023998723474486007,
      "loss": 2.4231,
      "step": 1491
    },
    {
      "epoch": 0.6843251920651301,
      "grad_norm": 0.47365132019482004,
      "learning_rate": 0.00023935284999737272,
      "loss": 2.4883,
      "step": 1492
    },
    {
      "epoch": 0.6847838550624928,
      "grad_norm": 0.5086216361563469,
      "learning_rate": 0.00023871904087890505,
      "loss": 2.4402,
      "step": 1493
    },
    {
      "epoch": 0.6852425180598555,
      "grad_norm": 0.4741516502540289,
      "learning_rate": 0.00023808580878919945,
      "loss": 2.4521,
      "step": 1494
    },
    {
      "epoch": 0.6857011810572182,
      "grad_norm": 0.5084663179973187,
      "learning_rate": 0.00023745315512672398,
      "loss": 2.3833,
      "step": 1495
    },
    {
      "epoch": 0.6861598440545809,
      "grad_norm": 0.4804538688912271,
      "learning_rate": 0.0002368210812886698,
      "loss": 2.3601,
      "step": 1496
    },
    {
      "epoch": 0.6866185070519436,
      "grad_norm": 0.48955461566627856,
      "learning_rate": 0.0002361895886709471,
      "loss": 2.4613,
      "step": 1497
    },
    {
      "epoch": 0.6870771700493062,
      "grad_norm": 0.5042409295789072,
      "learning_rate": 0.0002355586786681823,
      "loss": 2.3985,
      "step": 1498
    },
    {
      "epoch": 0.687535833046669,
      "grad_norm": 0.5031237768464486,
      "learning_rate": 0.00023492835267371575,
      "loss": 2.3989,
      "step": 1499
    },
    {
      "epoch": 0.6879944960440316,
      "grad_norm": 0.4728640157312137,
      "learning_rate": 0.0002342986120795978,
      "loss": 2.4561,
      "step": 1500
    },
    {
      "epoch": 0.6884531590413944,
      "grad_norm": 0.468158372052125,
      "learning_rate": 0.0002336694582765857,
      "loss": 2.4295,
      "step": 1501
    },
    {
      "epoch": 0.688911822038757,
      "grad_norm": 0.45953362734600645,
      "learning_rate": 0.00023304089265414085,
      "loss": 2.471,
      "step": 1502
    },
    {
      "epoch": 0.6893704850361198,
      "grad_norm": 0.4771341815227071,
      "learning_rate": 0.00023241291660042613,
      "loss": 2.4649,
      "step": 1503
    },
    {
      "epoch": 0.6898291480334824,
      "grad_norm": 0.48147269409356036,
      "learning_rate": 0.00023178553150230186,
      "loss": 2.4695,
      "step": 1504
    },
    {
      "epoch": 0.6902878110308451,
      "grad_norm": 0.49765602715185714,
      "learning_rate": 0.00023115873874532324,
      "loss": 2.4391,
      "step": 1505
    },
    {
      "epoch": 0.6907464740282078,
      "grad_norm": 0.4740209388407063,
      "learning_rate": 0.00023053253971373796,
      "loss": 2.4903,
      "step": 1506
    },
    {
      "epoch": 0.6912051370255705,
      "grad_norm": 0.4942988235875238,
      "learning_rate": 0.00022990693579048166,
      "loss": 2.3698,
      "step": 1507
    },
    {
      "epoch": 0.6916638000229332,
      "grad_norm": 0.49975970108301515,
      "learning_rate": 0.00022928192835717644,
      "loss": 2.436,
      "step": 1508
    },
    {
      "epoch": 0.6921224630202958,
      "grad_norm": 0.4854715300871676,
      "learning_rate": 0.00022865751879412634,
      "loss": 2.376,
      "step": 1509
    },
    {
      "epoch": 0.6925811260176585,
      "grad_norm": 0.5372211929365218,
      "learning_rate": 0.00022803370848031585,
      "loss": 2.525,
      "step": 1510
    },
    {
      "epoch": 0.6930397890150212,
      "grad_norm": 0.47887962539982154,
      "learning_rate": 0.00022741049879340542,
      "loss": 2.4088,
      "step": 1511
    },
    {
      "epoch": 0.6934984520123839,
      "grad_norm": 0.4812174641697908,
      "learning_rate": 0.00022678789110972897,
      "loss": 2.3728,
      "step": 1512
    },
    {
      "epoch": 0.6939571150097466,
      "grad_norm": 0.47062690507764315,
      "learning_rate": 0.00022616588680429155,
      "loss": 2.4081,
      "step": 1513
    },
    {
      "epoch": 0.6944157780071093,
      "grad_norm": 0.4981472257439501,
      "learning_rate": 0.00022554448725076526,
      "loss": 2.4055,
      "step": 1514
    },
    {
      "epoch": 0.6948744410044719,
      "grad_norm": 0.4835339728201714,
      "learning_rate": 0.0002249236938214863,
      "loss": 2.3791,
      "step": 1515
    },
    {
      "epoch": 0.6953331040018347,
      "grad_norm": 0.4686492055778069,
      "learning_rate": 0.00022430350788745296,
      "loss": 2.4016,
      "step": 1516
    },
    {
      "epoch": 0.6957917669991973,
      "grad_norm": 0.501644026429916,
      "learning_rate": 0.00022368393081832166,
      "loss": 2.5798,
      "step": 1517
    },
    {
      "epoch": 0.6962504299965601,
      "grad_norm": 0.47119521095025224,
      "learning_rate": 0.00022306496398240383,
      "loss": 2.4327,
      "step": 1518
    },
    {
      "epoch": 0.6967090929939227,
      "grad_norm": 0.4765940957580753,
      "learning_rate": 0.00022244660874666373,
      "loss": 2.3882,
      "step": 1519
    },
    {
      "epoch": 0.6971677559912854,
      "grad_norm": 0.48421626562442766,
      "learning_rate": 0.00022182886647671452,
      "loss": 2.4324,
      "step": 1520
    },
    {
      "epoch": 0.6976264189886481,
      "grad_norm": 0.49594620150041396,
      "learning_rate": 0.0002212117385368157,
      "loss": 2.378,
      "step": 1521
    },
    {
      "epoch": 0.6980850819860108,
      "grad_norm": 0.4840826588142152,
      "learning_rate": 0.00022059522628987038,
      "loss": 2.3987,
      "step": 1522
    },
    {
      "epoch": 0.6985437449833735,
      "grad_norm": 0.45949864069039803,
      "learning_rate": 0.00021997933109742162,
      "loss": 2.3991,
      "step": 1523
    },
    {
      "epoch": 0.6990024079807362,
      "grad_norm": 0.4596991521986423,
      "learning_rate": 0.00021936405431964969,
      "loss": 2.3923,
      "step": 1524
    },
    {
      "epoch": 0.6994610709780988,
      "grad_norm": 0.4882621557592244,
      "learning_rate": 0.00021874939731536926,
      "loss": 2.3162,
      "step": 1525
    },
    {
      "epoch": 0.6999197339754615,
      "grad_norm": 0.4959339542906598,
      "learning_rate": 0.00021813536144202656,
      "loss": 2.3582,
      "step": 1526
    },
    {
      "epoch": 0.7003783969728242,
      "grad_norm": 0.4542994123076584,
      "learning_rate": 0.00021752194805569553,
      "loss": 2.3799,
      "step": 1527
    },
    {
      "epoch": 0.7008370599701869,
      "grad_norm": 0.49229163018891564,
      "learning_rate": 0.0002169091585110754,
      "loss": 2.368,
      "step": 1528
    },
    {
      "epoch": 0.7012957229675496,
      "grad_norm": 0.4734713270356977,
      "learning_rate": 0.00021629699416148828,
      "loss": 2.365,
      "step": 1529
    },
    {
      "epoch": 0.7017543859649122,
      "grad_norm": 0.4671205889355217,
      "learning_rate": 0.000215685456358875,
      "loss": 2.5294,
      "step": 1530
    },
    {
      "epoch": 0.702213048962275,
      "grad_norm": 0.4894561838554943,
      "learning_rate": 0.00021507454645379258,
      "loss": 2.52,
      "step": 1531
    },
    {
      "epoch": 0.7026717119596376,
      "grad_norm": 0.4697100063014886,
      "learning_rate": 0.00021446426579541184,
      "loss": 2.4735,
      "step": 1532
    },
    {
      "epoch": 0.7031303749570004,
      "grad_norm": 0.45879627898372516,
      "learning_rate": 0.00021385461573151387,
      "loss": 2.4025,
      "step": 1533
    },
    {
      "epoch": 0.703589037954363,
      "grad_norm": 0.475309358910205,
      "learning_rate": 0.00021324559760848677,
      "loss": 2.4469,
      "step": 1534
    },
    {
      "epoch": 0.7040477009517258,
      "grad_norm": 0.503505457924711,
      "learning_rate": 0.00021263721277132303,
      "loss": 2.3501,
      "step": 1535
    },
    {
      "epoch": 0.7045063639490884,
      "grad_norm": 0.493119592693109,
      "learning_rate": 0.0002120294625636171,
      "loss": 2.3979,
      "step": 1536
    },
    {
      "epoch": 0.7049650269464511,
      "grad_norm": 0.4788355300131915,
      "learning_rate": 0.0002114223483275613,
      "loss": 2.4184,
      "step": 1537
    },
    {
      "epoch": 0.7054236899438138,
      "grad_norm": 0.5112631433981597,
      "learning_rate": 0.0002108158714039435,
      "loss": 2.4647,
      "step": 1538
    },
    {
      "epoch": 0.7058823529411765,
      "grad_norm": 0.4801038320837212,
      "learning_rate": 0.00021021003313214455,
      "loss": 2.5309,
      "step": 1539
    },
    {
      "epoch": 0.7063410159385392,
      "grad_norm": 0.4676748906814243,
      "learning_rate": 0.00020960483485013432,
      "loss": 2.412,
      "step": 1540
    },
    {
      "epoch": 0.7067996789359019,
      "grad_norm": 0.48442957139143356,
      "learning_rate": 0.0002090002778944694,
      "loss": 2.4156,
      "step": 1541
    },
    {
      "epoch": 0.7072583419332645,
      "grad_norm": 0.47099878497895775,
      "learning_rate": 0.00020839636360029025,
      "loss": 2.4239,
      "step": 1542
    },
    {
      "epoch": 0.7077170049306272,
      "grad_norm": 0.48925726800511654,
      "learning_rate": 0.00020779309330131818,
      "loss": 2.4133,
      "step": 1543
    },
    {
      "epoch": 0.7081756679279899,
      "grad_norm": 0.46716509634618325,
      "learning_rate": 0.00020719046832985184,
      "loss": 2.3806,
      "step": 1544
    },
    {
      "epoch": 0.7086343309253526,
      "grad_norm": 0.46321518433687164,
      "learning_rate": 0.0002065884900167646,
      "loss": 2.3618,
      "step": 1545
    },
    {
      "epoch": 0.7090929939227153,
      "grad_norm": 0.47054123560818545,
      "learning_rate": 0.0002059871596915024,
      "loss": 2.5135,
      "step": 1546
    },
    {
      "epoch": 0.7095516569200779,
      "grad_norm": 0.4709986108439262,
      "learning_rate": 0.0002053864786820795,
      "loss": 2.5107,
      "step": 1547
    },
    {
      "epoch": 0.7100103199174407,
      "grad_norm": 0.47556584968570204,
      "learning_rate": 0.00020478644831507627,
      "loss": 2.2686,
      "step": 1548
    },
    {
      "epoch": 0.7104689829148033,
      "grad_norm": 0.47597596174998863,
      "learning_rate": 0.00020418706991563634,
      "loss": 2.48,
      "step": 1549
    },
    {
      "epoch": 0.7109276459121661,
      "grad_norm": 0.465686981071038,
      "learning_rate": 0.00020358834480746363,
      "loss": 2.4339,
      "step": 1550
    },
    {
      "epoch": 0.7113863089095287,
      "grad_norm": 0.4602019594429204,
      "learning_rate": 0.0002029902743128188,
      "loss": 2.4271,
      "step": 1551
    },
    {
      "epoch": 0.7118449719068914,
      "grad_norm": 0.4515882006308871,
      "learning_rate": 0.0002023928597525174,
      "loss": 2.436,
      "step": 1552
    },
    {
      "epoch": 0.7123036349042541,
      "grad_norm": 0.46669019821116775,
      "learning_rate": 0.00020179610244592595,
      "loss": 2.3847,
      "step": 1553
    },
    {
      "epoch": 0.7127622979016168,
      "grad_norm": 0.47244474717940854,
      "learning_rate": 0.00020120000371095937,
      "loss": 2.4072,
      "step": 1554
    },
    {
      "epoch": 0.7132209608989795,
      "grad_norm": 0.4543485975272071,
      "learning_rate": 0.0002006045648640787,
      "loss": 2.3631,
      "step": 1555
    },
    {
      "epoch": 0.7136796238963422,
      "grad_norm": 0.4571551400191592,
      "learning_rate": 0.00020000978722028713,
      "loss": 2.3756,
      "step": 1556
    },
    {
      "epoch": 0.7141382868937048,
      "grad_norm": 0.4930578002338552,
      "learning_rate": 0.00019941567209312767,
      "loss": 2.5525,
      "step": 1557
    },
    {
      "epoch": 0.7145969498910676,
      "grad_norm": 0.47662241813268613,
      "learning_rate": 0.00019882222079468036,
      "loss": 2.3957,
      "step": 1558
    },
    {
      "epoch": 0.7150556128884302,
      "grad_norm": 0.48230245769489394,
      "learning_rate": 0.0001982294346355595,
      "loss": 2.3321,
      "step": 1559
    },
    {
      "epoch": 0.7155142758857929,
      "grad_norm": 0.44830331408121504,
      "learning_rate": 0.00019763731492490976,
      "loss": 2.398,
      "step": 1560
    },
    {
      "epoch": 0.7159729388831556,
      "grad_norm": 0.47700325861445764,
      "learning_rate": 0.00019704586297040422,
      "loss": 2.3878,
      "step": 1561
    },
    {
      "epoch": 0.7164316018805182,
      "grad_norm": 0.4754101708638296,
      "learning_rate": 0.0001964550800782417,
      "loss": 2.4019,
      "step": 1562
    },
    {
      "epoch": 0.716890264877881,
      "grad_norm": 0.48591067093957774,
      "learning_rate": 0.00019586496755314288,
      "loss": 2.3625,
      "step": 1563
    },
    {
      "epoch": 0.7173489278752436,
      "grad_norm": 0.4930284623681504,
      "learning_rate": 0.00019527552669834798,
      "loss": 2.3138,
      "step": 1564
    },
    {
      "epoch": 0.7178075908726064,
      "grad_norm": 0.47380752712261676,
      "learning_rate": 0.0001946867588156142,
      "loss": 2.4068,
      "step": 1565
    },
    {
      "epoch": 0.718266253869969,
      "grad_norm": 0.4924789172848226,
      "learning_rate": 0.00019409866520521258,
      "loss": 2.353,
      "step": 1566
    },
    {
      "epoch": 0.7187249168673318,
      "grad_norm": 0.48159134642102436,
      "learning_rate": 0.00019351124716592455,
      "loss": 2.3886,
      "step": 1567
    },
    {
      "epoch": 0.7191835798646944,
      "grad_norm": 0.47903952344906087,
      "learning_rate": 0.0001929245059950397,
      "loss": 2.2929,
      "step": 1568
    },
    {
      "epoch": 0.7196422428620571,
      "grad_norm": 0.5046203725377565,
      "learning_rate": 0.0001923384429883533,
      "loss": 2.5325,
      "step": 1569
    },
    {
      "epoch": 0.7201009058594198,
      "grad_norm": 0.4716076597014454,
      "learning_rate": 0.00019175305944016237,
      "loss": 2.3207,
      "step": 1570
    },
    {
      "epoch": 0.7205595688567825,
      "grad_norm": 0.455605542919821,
      "learning_rate": 0.00019116835664326326,
      "loss": 2.4277,
      "step": 1571
    },
    {
      "epoch": 0.7210182318541452,
      "grad_norm": 0.5000852916625381,
      "learning_rate": 0.0001905843358889497,
      "loss": 2.4145,
      "step": 1572
    },
    {
      "epoch": 0.7214768948515079,
      "grad_norm": 0.4799898079316172,
      "learning_rate": 0.00019000099846700836,
      "loss": 2.4178,
      "step": 1573
    },
    {
      "epoch": 0.7219355578488705,
      "grad_norm": 0.4755935467182937,
      "learning_rate": 0.00018941834566571692,
      "loss": 2.3898,
      "step": 1574
    },
    {
      "epoch": 0.7223942208462333,
      "grad_norm": 0.46250364858402954,
      "learning_rate": 0.00018883637877184145,
      "loss": 2.3096,
      "step": 1575
    },
    {
      "epoch": 0.7228528838435959,
      "grad_norm": 0.46412900203696605,
      "learning_rate": 0.00018825509907063325,
      "loss": 2.448,
      "step": 1576
    },
    {
      "epoch": 0.7233115468409586,
      "grad_norm": 0.4759576105346745,
      "learning_rate": 0.00018767450784582557,
      "loss": 2.3995,
      "step": 1577
    },
    {
      "epoch": 0.7237702098383213,
      "grad_norm": 0.494670000007673,
      "learning_rate": 0.00018709460637963122,
      "loss": 2.4288,
      "step": 1578
    },
    {
      "epoch": 0.7242288728356839,
      "grad_norm": 0.46738285044970357,
      "learning_rate": 0.00018651539595274013,
      "loss": 2.3525,
      "step": 1579
    },
    {
      "epoch": 0.7246875358330467,
      "grad_norm": 0.4782056698540561,
      "learning_rate": 0.00018593687784431578,
      "loss": 2.3882,
      "step": 1580
    },
    {
      "epoch": 0.7251461988304093,
      "grad_norm": 0.4836161791296998,
      "learning_rate": 0.00018535905333199248,
      "loss": 2.3245,
      "step": 1581
    },
    {
      "epoch": 0.7256048618277721,
      "grad_norm": 0.47057689477812276,
      "learning_rate": 0.0001847819236918733,
      "loss": 2.3927,
      "step": 1582
    },
    {
      "epoch": 0.7260635248251347,
      "grad_norm": 0.49887488638481475,
      "learning_rate": 0.00018420549019852655,
      "loss": 2.4862,
      "step": 1583
    },
    {
      "epoch": 0.7265221878224974,
      "grad_norm": 0.49980430860563096,
      "learning_rate": 0.00018362975412498266,
      "loss": 2.5032,
      "step": 1584
    },
    {
      "epoch": 0.7269808508198601,
      "grad_norm": 0.4792505975645663,
      "learning_rate": 0.00018305471674273261,
      "loss": 2.3667,
      "step": 1585
    },
    {
      "epoch": 0.7274395138172228,
      "grad_norm": 0.5150267477159115,
      "learning_rate": 0.0001824803793217237,
      "loss": 2.3404,
      "step": 1586
    },
    {
      "epoch": 0.7278981768145855,
      "grad_norm": 0.48302808734183567,
      "learning_rate": 0.00018190674313035737,
      "loss": 2.4432,
      "step": 1587
    },
    {
      "epoch": 0.7283568398119482,
      "grad_norm": 0.4908388771417312,
      "learning_rate": 0.00018133380943548716,
      "loss": 2.43,
      "step": 1588
    },
    {
      "epoch": 0.7288155028093108,
      "grad_norm": 0.48276974697438957,
      "learning_rate": 0.00018076157950241452,
      "loss": 2.2957,
      "step": 1589
    },
    {
      "epoch": 0.7292741658066736,
      "grad_norm": 0.48523933587963464,
      "learning_rate": 0.00018019005459488652,
      "loss": 2.4532,
      "step": 1590
    },
    {
      "epoch": 0.7297328288040362,
      "grad_norm": 0.4971414137041173,
      "learning_rate": 0.00017961923597509388,
      "loss": 2.4627,
      "step": 1591
    },
    {
      "epoch": 0.730191491801399,
      "grad_norm": 0.5026489717144618,
      "learning_rate": 0.00017904912490366722,
      "loss": 2.3512,
      "step": 1592
    },
    {
      "epoch": 0.7306501547987616,
      "grad_norm": 0.4781164453318211,
      "learning_rate": 0.00017847972263967433,
      "loss": 2.4561,
      "step": 1593
    },
    {
      "epoch": 0.7311088177961242,
      "grad_norm": 0.500892786885031,
      "learning_rate": 0.0001779110304406177,
      "loss": 2.3925,
      "step": 1594
    },
    {
      "epoch": 0.731567480793487,
      "grad_norm": 0.48266467742808994,
      "learning_rate": 0.000177343049562432,
      "loss": 2.3246,
      "step": 1595
    },
    {
      "epoch": 0.7320261437908496,
      "grad_norm": 0.49421193627594745,
      "learning_rate": 0.0001767757812594807,
      "loss": 2.4354,
      "step": 1596
    },
    {
      "epoch": 0.7324848067882124,
      "grad_norm": 0.49370423775944655,
      "learning_rate": 0.0001762092267845534,
      "loss": 2.3615,
      "step": 1597
    },
    {
      "epoch": 0.732943469785575,
      "grad_norm": 0.4957531705737336,
      "learning_rate": 0.00017564338738886365,
      "loss": 2.3676,
      "step": 1598
    },
    {
      "epoch": 0.7334021327829378,
      "grad_norm": 0.4859064884747473,
      "learning_rate": 0.0001750782643220457,
      "loss": 2.4745,
      "step": 1599
    },
    {
      "epoch": 0.7338607957803004,
      "grad_norm": 0.4619439131921513,
      "learning_rate": 0.00017451385883215166,
      "loss": 2.5115,
      "step": 1600
    },
    {
      "epoch": 0.7343194587776631,
      "grad_norm": 0.5090449471747862,
      "learning_rate": 0.00017395017216564863,
      "loss": 2.3135,
      "step": 1601
    },
    {
      "epoch": 0.7347781217750258,
      "grad_norm": 0.5493983003024228,
      "learning_rate": 0.00017338720556741687,
      "loss": 2.403,
      "step": 1602
    },
    {
      "epoch": 0.7352367847723885,
      "grad_norm": 0.4675260033986351,
      "learning_rate": 0.00017282496028074606,
      "loss": 2.4782,
      "step": 1603
    },
    {
      "epoch": 0.7356954477697512,
      "grad_norm": 0.48502111796079544,
      "learning_rate": 0.00017226343754733254,
      "loss": 2.3876,
      "step": 1604
    },
    {
      "epoch": 0.7361541107671139,
      "grad_norm": 0.47358737257590916,
      "learning_rate": 0.00017170263860727769,
      "loss": 2.3795,
      "step": 1605
    },
    {
      "epoch": 0.7366127737644765,
      "grad_norm": 0.4723093724342671,
      "learning_rate": 0.0001711425646990838,
      "loss": 2.378,
      "step": 1606
    },
    {
      "epoch": 0.7370714367618393,
      "grad_norm": 0.47931518417994506,
      "learning_rate": 0.00017058321705965202,
      "loss": 2.4483,
      "step": 1607
    },
    {
      "epoch": 0.7375300997592019,
      "grad_norm": 0.47396822390127524,
      "learning_rate": 0.0001700245969242798,
      "loss": 2.3842,
      "step": 1608
    },
    {
      "epoch": 0.7379887627565647,
      "grad_norm": 0.47560222709791034,
      "learning_rate": 0.00016946670552665804,
      "loss": 2.3943,
      "step": 1609
    },
    {
      "epoch": 0.7384474257539273,
      "grad_norm": 0.47851646661223385,
      "learning_rate": 0.00016890954409886795,
      "loss": 2.4367,
      "step": 1610
    },
    {
      "epoch": 0.7389060887512899,
      "grad_norm": 0.48123704025202485,
      "learning_rate": 0.00016835311387137836,
      "loss": 2.4468,
      "step": 1611
    },
    {
      "epoch": 0.7393647517486527,
      "grad_norm": 0.4912546968971241,
      "learning_rate": 0.0001677974160730441,
      "loss": 2.3805,
      "step": 1612
    },
    {
      "epoch": 0.7398234147460153,
      "grad_norm": 0.4824369260042247,
      "learning_rate": 0.00016724245193110176,
      "loss": 2.4423,
      "step": 1613
    },
    {
      "epoch": 0.7402820777433781,
      "grad_norm": 0.48412224802828563,
      "learning_rate": 0.00016668822267116784,
      "loss": 2.409,
      "step": 1614
    },
    {
      "epoch": 0.7407407407407407,
      "grad_norm": 0.44248840835239883,
      "learning_rate": 0.00016613472951723597,
      "loss": 2.3616,
      "step": 1615
    },
    {
      "epoch": 0.7411994037381034,
      "grad_norm": 0.4835977827944899,
      "learning_rate": 0.00016558197369167434,
      "loss": 2.39,
      "step": 1616
    },
    {
      "epoch": 0.7416580667354661,
      "grad_norm": 0.5164739809521011,
      "learning_rate": 0.00016502995641522216,
      "loss": 2.4425,
      "step": 1617
    },
    {
      "epoch": 0.7421167297328288,
      "grad_norm": 0.48176154114168174,
      "learning_rate": 0.00016447867890698843,
      "loss": 2.4584,
      "step": 1618
    },
    {
      "epoch": 0.7425753927301915,
      "grad_norm": 0.46581713622630955,
      "learning_rate": 0.00016392814238444753,
      "loss": 2.4227,
      "step": 1619
    },
    {
      "epoch": 0.7430340557275542,
      "grad_norm": 0.4683450042443874,
      "learning_rate": 0.00016337834806343782,
      "loss": 2.3518,
      "step": 1620
    },
    {
      "epoch": 0.7434927187249168,
      "grad_norm": 0.48950216822813675,
      "learning_rate": 0.0001628292971581588,
      "loss": 2.3619,
      "step": 1621
    },
    {
      "epoch": 0.7439513817222796,
      "grad_norm": 0.485145438881939,
      "learning_rate": 0.00016228099088116772,
      "loss": 2.4681,
      "step": 1622
    },
    {
      "epoch": 0.7444100447196422,
      "grad_norm": 0.4855108689732589,
      "learning_rate": 0.00016173343044337734,
      "loss": 2.4947,
      "step": 1623
    },
    {
      "epoch": 0.744868707717005,
      "grad_norm": 0.48464697524113554,
      "learning_rate": 0.00016118661705405356,
      "loss": 2.2763,
      "step": 1624
    },
    {
      "epoch": 0.7453273707143676,
      "grad_norm": 0.4809036384620036,
      "learning_rate": 0.00016064055192081255,
      "loss": 2.4412,
      "step": 1625
    },
    {
      "epoch": 0.7457860337117304,
      "grad_norm": 0.45710768463883494,
      "learning_rate": 0.00016009523624961757,
      "loss": 2.3722,
      "step": 1626
    },
    {
      "epoch": 0.746244696709093,
      "grad_norm": 0.4638336305518919,
      "learning_rate": 0.00015955067124477678,
      "loss": 2.2808,
      "step": 1627
    },
    {
      "epoch": 0.7467033597064556,
      "grad_norm": 0.4539888864443498,
      "learning_rate": 0.000159006858108941,
      "loss": 2.4073,
      "step": 1628
    },
    {
      "epoch": 0.7471620227038184,
      "grad_norm": 0.49373985156847483,
      "learning_rate": 0.00015846379804310002,
      "loss": 2.3826,
      "step": 1629
    },
    {
      "epoch": 0.747620685701181,
      "grad_norm": 0.4652416808204329,
      "learning_rate": 0.00015792149224658054,
      "loss": 2.3553,
      "step": 1630
    },
    {
      "epoch": 0.7480793486985438,
      "grad_norm": 0.4601716983556613,
      "learning_rate": 0.00015737994191704385,
      "loss": 2.4415,
      "step": 1631
    },
    {
      "epoch": 0.7485380116959064,
      "grad_norm": 0.4677332117632157,
      "learning_rate": 0.0001568391482504829,
      "loss": 2.3182,
      "step": 1632
    },
    {
      "epoch": 0.7489966746932691,
      "grad_norm": 0.49028556997466216,
      "learning_rate": 0.00015629911244121903,
      "loss": 2.3583,
      "step": 1633
    },
    {
      "epoch": 0.7494553376906318,
      "grad_norm": 0.4835965870800369,
      "learning_rate": 0.0001557598356819,
      "loss": 2.5297,
      "step": 1634
    },
    {
      "epoch": 0.7499140006879945,
      "grad_norm": 0.4857841129438595,
      "learning_rate": 0.00015522131916349786,
      "loss": 2.4085,
      "step": 1635
    },
    {
      "epoch": 0.7503726636853572,
      "grad_norm": 0.4956838459160836,
      "learning_rate": 0.00015468356407530493,
      "loss": 2.4675,
      "step": 1636
    },
    {
      "epoch": 0.7508313266827199,
      "grad_norm": 0.488058623508329,
      "learning_rate": 0.00015414657160493217,
      "loss": 2.4959,
      "step": 1637
    },
    {
      "epoch": 0.7512899896800825,
      "grad_norm": 0.46031530634402384,
      "learning_rate": 0.00015361034293830673,
      "loss": 2.4233,
      "step": 1638
    },
    {
      "epoch": 0.7517486526774453,
      "grad_norm": 0.48089529815309734,
      "learning_rate": 0.00015307487925966844,
      "loss": 2.4156,
      "step": 1639
    },
    {
      "epoch": 0.7522073156748079,
      "grad_norm": 0.4738800294770902,
      "learning_rate": 0.00015254018175156776,
      "loss": 2.4668,
      "step": 1640
    },
    {
      "epoch": 0.7526659786721707,
      "grad_norm": 0.47031980005319396,
      "learning_rate": 0.0001520062515948632,
      "loss": 2.4498,
      "step": 1641
    },
    {
      "epoch": 0.7531246416695333,
      "grad_norm": 0.4812628677624062,
      "learning_rate": 0.0001514730899687189,
      "loss": 2.2796,
      "step": 1642
    },
    {
      "epoch": 0.753583304666896,
      "grad_norm": 0.4644289721755035,
      "learning_rate": 0.00015094069805060122,
      "loss": 2.4237,
      "step": 1643
    },
    {
      "epoch": 0.7540419676642587,
      "grad_norm": 0.46858684157008,
      "learning_rate": 0.00015040907701627666,
      "loss": 2.3955,
      "step": 1644
    },
    {
      "epoch": 0.7545006306616213,
      "grad_norm": 0.5018500758710899,
      "learning_rate": 0.00014987822803980976,
      "loss": 2.3124,
      "step": 1645
    },
    {
      "epoch": 0.7549592936589841,
      "grad_norm": 0.4594199130152412,
      "learning_rate": 0.00014934815229355965,
      "loss": 2.4485,
      "step": 1646
    },
    {
      "epoch": 0.7554179566563467,
      "grad_norm": 0.5106788871246574,
      "learning_rate": 0.00014881885094817748,
      "loss": 2.4276,
      "step": 1647
    },
    {
      "epoch": 0.7558766196537094,
      "grad_norm": 0.47786860993292135,
      "learning_rate": 0.00014829032517260488,
      "loss": 2.491,
      "step": 1648
    },
    {
      "epoch": 0.7563352826510721,
      "grad_norm": 0.4743723399905962,
      "learning_rate": 0.0001477625761340704,
      "loss": 2.4579,
      "step": 1649
    },
    {
      "epoch": 0.7567939456484348,
      "grad_norm": 0.4476581618239779,
      "learning_rate": 0.0001472356049980868,
      "loss": 2.4534,
      "step": 1650
    },
    {
      "epoch": 0.7572526086457975,
      "grad_norm": 0.5072541245988375,
      "learning_rate": 0.00014670941292844954,
      "loss": 2.3473,
      "step": 1651
    },
    {
      "epoch": 0.7577112716431602,
      "grad_norm": 0.48059159384751227,
      "learning_rate": 0.00014618400108723295,
      "loss": 2.3465,
      "step": 1652
    },
    {
      "epoch": 0.7581699346405228,
      "grad_norm": 0.4695780396470024,
      "learning_rate": 0.00014565937063478862,
      "loss": 2.282,
      "step": 1653
    },
    {
      "epoch": 0.7586285976378856,
      "grad_norm": 0.48981703674810545,
      "learning_rate": 0.00014513552272974207,
      "loss": 2.4013,
      "step": 1654
    },
    {
      "epoch": 0.7590872606352482,
      "grad_norm": 0.47525814518933807,
      "learning_rate": 0.0001446124585289913,
      "loss": 2.3316,
      "step": 1655
    },
    {
      "epoch": 0.759545923632611,
      "grad_norm": 0.5023949720253462,
      "learning_rate": 0.00014409017918770266,
      "loss": 2.4116,
      "step": 1656
    },
    {
      "epoch": 0.7600045866299736,
      "grad_norm": 0.4750353127532703,
      "learning_rate": 0.00014356868585930994,
      "loss": 2.4368,
      "step": 1657
    },
    {
      "epoch": 0.7604632496273364,
      "grad_norm": 0.4610706273707122,
      "learning_rate": 0.00014304797969551077,
      "loss": 2.2818,
      "step": 1658
    },
    {
      "epoch": 0.760921912624699,
      "grad_norm": 0.46375201715524145,
      "learning_rate": 0.00014252806184626417,
      "loss": 2.5514,
      "step": 1659
    },
    {
      "epoch": 0.7613805756220617,
      "grad_norm": 0.5045620423528269,
      "learning_rate": 0.00014200893345978817,
      "loss": 2.4201,
      "step": 1660
    },
    {
      "epoch": 0.7618392386194244,
      "grad_norm": 0.48143675608800873,
      "learning_rate": 0.00014149059568255778,
      "loss": 2.4131,
      "step": 1661
    },
    {
      "epoch": 0.762297901616787,
      "grad_norm": 0.4986442156381412,
      "learning_rate": 0.00014097304965930157,
      "loss": 2.3636,
      "step": 1662
    },
    {
      "epoch": 0.7627565646141498,
      "grad_norm": 0.4881434680662516,
      "learning_rate": 0.00014045629653299953,
      "loss": 2.4531,
      "step": 1663
    },
    {
      "epoch": 0.7632152276115124,
      "grad_norm": 0.4658634988307786,
      "learning_rate": 0.00013994033744488076,
      "loss": 2.4128,
      "step": 1664
    },
    {
      "epoch": 0.7636738906088751,
      "grad_norm": 0.46365817555350497,
      "learning_rate": 0.00013942517353442092,
      "loss": 2.3269,
      "step": 1665
    },
    {
      "epoch": 0.7641325536062378,
      "grad_norm": 0.4811924954010165,
      "learning_rate": 0.0001389108059393391,
      "loss": 2.3805,
      "step": 1666
    },
    {
      "epoch": 0.7645912166036005,
      "grad_norm": 0.5374887658004939,
      "learning_rate": 0.00013839723579559581,
      "loss": 2.4599,
      "step": 1667
    },
    {
      "epoch": 0.7650498796009632,
      "grad_norm": 0.5252896555293161,
      "learning_rate": 0.00013788446423739103,
      "loss": 2.3776,
      "step": 1668
    },
    {
      "epoch": 0.7655085425983259,
      "grad_norm": 0.4672601655956312,
      "learning_rate": 0.00013737249239716042,
      "loss": 2.3932,
      "step": 1669
    },
    {
      "epoch": 0.7659672055956885,
      "grad_norm": 0.4776318291922287,
      "learning_rate": 0.00013686132140557355,
      "loss": 2.3403,
      "step": 1670
    },
    {
      "epoch": 0.7664258685930513,
      "grad_norm": 0.49232442946055505,
      "learning_rate": 0.00013635095239153188,
      "loss": 2.4479,
      "step": 1671
    },
    {
      "epoch": 0.7668845315904139,
      "grad_norm": 0.5021195041004554,
      "learning_rate": 0.00013584138648216527,
      "loss": 2.3844,
      "step": 1672
    },
    {
      "epoch": 0.7673431945877767,
      "grad_norm": 0.4789237911628166,
      "learning_rate": 0.0001353326248028298,
      "loss": 2.4046,
      "step": 1673
    },
    {
      "epoch": 0.7678018575851393,
      "grad_norm": 0.513663578302034,
      "learning_rate": 0.00013482466847710594,
      "loss": 2.427,
      "step": 1674
    },
    {
      "epoch": 0.768260520582502,
      "grad_norm": 0.4928224033279852,
      "learning_rate": 0.00013431751862679554,
      "loss": 2.4254,
      "step": 1675
    },
    {
      "epoch": 0.7687191835798647,
      "grad_norm": 0.46803967954398157,
      "learning_rate": 0.00013381117637191887,
      "loss": 2.3457,
      "step": 1676
    },
    {
      "epoch": 0.7691778465772274,
      "grad_norm": 0.4775604803479139,
      "learning_rate": 0.00013330564283071293,
      "loss": 2.347,
      "step": 1677
    },
    {
      "epoch": 0.7696365095745901,
      "grad_norm": 0.47967551355587973,
      "learning_rate": 0.000132800919119629,
      "loss": 2.3451,
      "step": 1678
    },
    {
      "epoch": 0.7700951725719528,
      "grad_norm": 0.503912140361989,
      "learning_rate": 0.00013229700635332948,
      "loss": 2.3845,
      "step": 1679
    },
    {
      "epoch": 0.7705538355693154,
      "grad_norm": 0.4728589655046495,
      "learning_rate": 0.00013179390564468585,
      "loss": 2.374,
      "step": 1680
    },
    {
      "epoch": 0.7710124985666781,
      "grad_norm": 0.5083204280690534,
      "learning_rate": 0.00013129161810477641,
      "loss": 2.3883,
      "step": 1681
    },
    {
      "epoch": 0.7714711615640408,
      "grad_norm": 0.4905863651867378,
      "learning_rate": 0.0001307901448428837,
      "loss": 2.434,
      "step": 1682
    },
    {
      "epoch": 0.7719298245614035,
      "grad_norm": 0.47295459782287524,
      "learning_rate": 0.0001302894869664916,
      "loss": 2.4365,
      "step": 1683
    },
    {
      "epoch": 0.7723884875587662,
      "grad_norm": 0.47648327840021787,
      "learning_rate": 0.00012978964558128336,
      "loss": 2.3319,
      "step": 1684
    },
    {
      "epoch": 0.7728471505561288,
      "grad_norm": 0.4601003619218055,
      "learning_rate": 0.00012929062179113925,
      "loss": 2.3457,
      "step": 1685
    },
    {
      "epoch": 0.7733058135534916,
      "grad_norm": 0.461870486857015,
      "learning_rate": 0.00012879241669813368,
      "loss": 2.3927,
      "step": 1686
    },
    {
      "epoch": 0.7737644765508542,
      "grad_norm": 0.49502307800985107,
      "learning_rate": 0.00012829503140253295,
      "loss": 2.5202,
      "step": 1687
    },
    {
      "epoch": 0.774223139548217,
      "grad_norm": 0.4822634352279585,
      "learning_rate": 0.0001277984670027933,
      "loss": 2.3998,
      "step": 1688
    },
    {
      "epoch": 0.7746818025455796,
      "grad_norm": 0.4884589820978561,
      "learning_rate": 0.00012730272459555737,
      "loss": 2.4653,
      "step": 1689
    },
    {
      "epoch": 0.7751404655429424,
      "grad_norm": 0.5118378405985323,
      "learning_rate": 0.00012680780527565312,
      "loss": 2.3425,
      "step": 1690
    },
    {
      "epoch": 0.775599128540305,
      "grad_norm": 0.45924327890123723,
      "learning_rate": 0.0001263137101360905,
      "loss": 2.3285,
      "step": 1691
    },
    {
      "epoch": 0.7760577915376677,
      "grad_norm": 0.47822394123239037,
      "learning_rate": 0.00012582044026805922,
      "loss": 2.386,
      "step": 1692
    },
    {
      "epoch": 0.7765164545350304,
      "grad_norm": 0.47511110705560455,
      "learning_rate": 0.00012532799676092627,
      "loss": 2.3277,
      "step": 1693
    },
    {
      "epoch": 0.7769751175323931,
      "grad_norm": 0.47228677041237627,
      "learning_rate": 0.00012483638070223414,
      "loss": 2.4477,
      "step": 1694
    },
    {
      "epoch": 0.7774337805297558,
      "grad_norm": 0.4998591011798962,
      "learning_rate": 0.00012434559317769752,
      "loss": 2.3855,
      "step": 1695
    },
    {
      "epoch": 0.7778924435271185,
      "grad_norm": 0.4900784837663396,
      "learning_rate": 0.0001238556352712012,
      "loss": 2.4018,
      "step": 1696
    },
    {
      "epoch": 0.7783511065244811,
      "grad_norm": 0.49975228685213613,
      "learning_rate": 0.00012336650806479827,
      "loss": 2.4758,
      "step": 1697
    },
    {
      "epoch": 0.7788097695218438,
      "grad_norm": 0.504250041011272,
      "learning_rate": 0.00012287821263870708,
      "loss": 2.4613,
      "step": 1698
    },
    {
      "epoch": 0.7792684325192065,
      "grad_norm": 0.49879163314243385,
      "learning_rate": 0.00012239075007130885,
      "loss": 2.5037,
      "step": 1699
    },
    {
      "epoch": 0.7797270955165692,
      "grad_norm": 0.487775854959679,
      "learning_rate": 0.00012190412143914536,
      "loss": 2.3271,
      "step": 1700
    },
    {
      "epoch": 0.7801857585139319,
      "grad_norm": 0.4710239243353452,
      "learning_rate": 0.0001214183278169172,
      "loss": 2.245,
      "step": 1701
    },
    {
      "epoch": 0.7806444215112945,
      "grad_norm": 0.46392178012583357,
      "learning_rate": 0.00012093337027748042,
      "loss": 2.5195,
      "step": 1702
    },
    {
      "epoch": 0.7811030845086573,
      "grad_norm": 0.4599482992491956,
      "learning_rate": 0.00012044924989184459,
      "loss": 2.4486,
      "step": 1703
    },
    {
      "epoch": 0.7815617475060199,
      "grad_norm": 0.4738162903267529,
      "learning_rate": 0.0001199659677291709,
      "loss": 2.3992,
      "step": 1704
    },
    {
      "epoch": 0.7820204105033827,
      "grad_norm": 0.4634126954255413,
      "learning_rate": 0.00011948352485676895,
      "loss": 2.4327,
      "step": 1705
    },
    {
      "epoch": 0.7824790735007453,
      "grad_norm": 0.46815486680867024,
      "learning_rate": 0.00011900192234009477,
      "loss": 2.3878,
      "step": 1706
    },
    {
      "epoch": 0.782937736498108,
      "grad_norm": 0.4792491468562801,
      "learning_rate": 0.00011852116124274875,
      "loss": 2.3759,
      "step": 1707
    },
    {
      "epoch": 0.7833963994954707,
      "grad_norm": 0.46518361240757977,
      "learning_rate": 0.00011804124262647314,
      "loss": 2.4387,
      "step": 1708
    },
    {
      "epoch": 0.7838550624928334,
      "grad_norm": 0.49778949313409687,
      "learning_rate": 0.00011756216755114929,
      "loss": 2.3557,
      "step": 1709
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 0.4964115443750366,
      "learning_rate": 0.00011708393707479548,
      "loss": 2.5306,
      "step": 1710
    },
    {
      "epoch": 0.7847723884875588,
      "grad_norm": 0.4892928656156658,
      "learning_rate": 0.00011660655225356531,
      "loss": 2.3415,
      "step": 1711
    },
    {
      "epoch": 0.7852310514849214,
      "grad_norm": 0.46763008396066275,
      "learning_rate": 0.0001161300141417444,
      "loss": 2.3948,
      "step": 1712
    },
    {
      "epoch": 0.7856897144822842,
      "grad_norm": 0.511843672410167,
      "learning_rate": 0.00011565432379174823,
      "loss": 2.4039,
      "step": 1713
    },
    {
      "epoch": 0.7861483774796468,
      "grad_norm": 0.47728716859064735,
      "learning_rate": 0.00011517948225412056,
      "loss": 2.3798,
      "step": 1714
    },
    {
      "epoch": 0.7866070404770095,
      "grad_norm": 0.4856961638004813,
      "learning_rate": 0.00011470549057753032,
      "loss": 2.4514,
      "step": 1715
    },
    {
      "epoch": 0.7870657034743722,
      "grad_norm": 0.4969305744290197,
      "learning_rate": 0.00011423234980876957,
      "loss": 2.4801,
      "step": 1716
    },
    {
      "epoch": 0.7875243664717348,
      "grad_norm": 0.45100197626760746,
      "learning_rate": 0.00011376006099275099,
      "loss": 2.3556,
      "step": 1717
    },
    {
      "epoch": 0.7879830294690976,
      "grad_norm": 0.46479560822194826,
      "learning_rate": 0.00011328862517250609,
      "loss": 2.4348,
      "step": 1718
    },
    {
      "epoch": 0.7884416924664602,
      "grad_norm": 0.4961852474139208,
      "learning_rate": 0.00011281804338918239,
      "loss": 2.4041,
      "step": 1719
    },
    {
      "epoch": 0.788900355463823,
      "grad_norm": 0.5076594109594496,
      "learning_rate": 0.00011234831668204115,
      "loss": 2.3565,
      "step": 1720
    },
    {
      "epoch": 0.7893590184611856,
      "grad_norm": 0.4900713796147279,
      "learning_rate": 0.00011187944608845569,
      "loss": 2.4196,
      "step": 1721
    },
    {
      "epoch": 0.7898176814585484,
      "grad_norm": 0.4800975841884096,
      "learning_rate": 0.00011141143264390801,
      "loss": 2.427,
      "step": 1722
    },
    {
      "epoch": 0.790276344455911,
      "grad_norm": 0.47721650510213176,
      "learning_rate": 0.0001109442773819877,
      "loss": 2.4249,
      "step": 1723
    },
    {
      "epoch": 0.7907350074532737,
      "grad_norm": 0.48456867039250806,
      "learning_rate": 0.0001104779813343889,
      "loss": 2.3411,
      "step": 1724
    },
    {
      "epoch": 0.7911936704506364,
      "grad_norm": 0.48401901040050743,
      "learning_rate": 0.00011001254553090812,
      "loss": 2.3723,
      "step": 1725
    },
    {
      "epoch": 0.7916523334479991,
      "grad_norm": 0.469558320455473,
      "learning_rate": 0.00010954797099944186,
      "loss": 2.4031,
      "step": 1726
    },
    {
      "epoch": 0.7921109964453618,
      "grad_norm": 0.49179278534868326,
      "learning_rate": 0.0001090842587659851,
      "loss": 2.355,
      "step": 1727
    },
    {
      "epoch": 0.7925696594427245,
      "grad_norm": 0.49001851607025615,
      "learning_rate": 0.00010862140985462804,
      "loss": 2.4728,
      "step": 1728
    },
    {
      "epoch": 0.7930283224400871,
      "grad_norm": 0.4834897665799542,
      "learning_rate": 0.00010815942528755418,
      "loss": 2.3401,
      "step": 1729
    },
    {
      "epoch": 0.7934869854374499,
      "grad_norm": 0.4894704911476807,
      "learning_rate": 0.00010769830608503844,
      "loss": 2.3971,
      "step": 1730
    },
    {
      "epoch": 0.7939456484348125,
      "grad_norm": 0.49518976904487905,
      "learning_rate": 0.00010723805326544473,
      "loss": 2.478,
      "step": 1731
    },
    {
      "epoch": 0.7944043114321752,
      "grad_norm": 0.4918909910273278,
      "learning_rate": 0.00010677866784522316,
      "loss": 2.4145,
      "step": 1732
    },
    {
      "epoch": 0.7948629744295379,
      "grad_norm": 0.4990232178996077,
      "learning_rate": 0.00010632015083890839,
      "loss": 2.3369,
      "step": 1733
    },
    {
      "epoch": 0.7953216374269005,
      "grad_norm": 0.49101897258051114,
      "learning_rate": 0.00010586250325911745,
      "loss": 2.5637,
      "step": 1734
    },
    {
      "epoch": 0.7957803004242633,
      "grad_norm": 0.4706634378416084,
      "learning_rate": 0.00010540572611654697,
      "loss": 2.447,
      "step": 1735
    },
    {
      "epoch": 0.7962389634216259,
      "grad_norm": 0.4879376882362574,
      "learning_rate": 0.00010494982041997126,
      "loss": 2.3836,
      "step": 1736
    },
    {
      "epoch": 0.7966976264189887,
      "grad_norm": 0.511024695259784,
      "learning_rate": 0.0001044947871762405,
      "loss": 2.4359,
      "step": 1737
    },
    {
      "epoch": 0.7971562894163513,
      "grad_norm": 0.4691711412358484,
      "learning_rate": 0.00010404062739027753,
      "loss": 2.4337,
      "step": 1738
    },
    {
      "epoch": 0.797614952413714,
      "grad_norm": 0.4692649966322098,
      "learning_rate": 0.00010358734206507641,
      "loss": 2.5333,
      "step": 1739
    },
    {
      "epoch": 0.7980736154110767,
      "grad_norm": 0.46827443829274096,
      "learning_rate": 0.00010313493220170017,
      "loss": 2.3643,
      "step": 1740
    },
    {
      "epoch": 0.7985322784084394,
      "grad_norm": 0.4764190946868098,
      "learning_rate": 0.00010268339879927836,
      "loss": 2.3308,
      "step": 1741
    },
    {
      "epoch": 0.7989909414058021,
      "grad_norm": 0.4660474647785902,
      "learning_rate": 0.00010223274285500466,
      "loss": 2.4135,
      "step": 1742
    },
    {
      "epoch": 0.7994496044031648,
      "grad_norm": 0.4727114798066849,
      "learning_rate": 0.00010178296536413495,
      "loss": 2.454,
      "step": 1743
    },
    {
      "epoch": 0.7999082674005275,
      "grad_norm": 0.48083427359723907,
      "learning_rate": 0.00010133406731998546,
      "loss": 2.3498,
      "step": 1744
    },
    {
      "epoch": 0.8003669303978902,
      "grad_norm": 0.5104683423562318,
      "learning_rate": 0.00010088604971392979,
      "loss": 2.3865,
      "step": 1745
    },
    {
      "epoch": 0.8008255933952528,
      "grad_norm": 0.4879326324766903,
      "learning_rate": 0.0001004389135353972,
      "loss": 2.4248,
      "step": 1746
    },
    {
      "epoch": 0.8012842563926156,
      "grad_norm": 0.48498461443952706,
      "learning_rate": 9.999265977187049e-05,
      "loss": 2.4579,
      "step": 1747
    },
    {
      "epoch": 0.8017429193899782,
      "grad_norm": 0.4811957479946558,
      "learning_rate": 9.95472894088838e-05,
      "loss": 2.4454,
      "step": 1748
    },
    {
      "epoch": 0.8022015823873409,
      "grad_norm": 0.48436832053740925,
      "learning_rate": 9.910280343001993e-05,
      "loss": 2.3266,
      "step": 1749
    },
    {
      "epoch": 0.8026602453847036,
      "grad_norm": 0.45522305680001,
      "learning_rate": 9.865920281690866e-05,
      "loss": 2.4036,
      "step": 1750
    },
    {
      "epoch": 0.8031189083820662,
      "grad_norm": 0.4987884424850922,
      "learning_rate": 9.821648854922482e-05,
      "loss": 2.4287,
      "step": 1751
    },
    {
      "epoch": 0.803577571379429,
      "grad_norm": 0.4908768135131022,
      "learning_rate": 9.77746616046854e-05,
      "loss": 2.4143,
      "step": 1752
    },
    {
      "epoch": 0.8040362343767916,
      "grad_norm": 0.47573818334856915,
      "learning_rate": 9.733372295904774e-05,
      "loss": 2.4121,
      "step": 1753
    },
    {
      "epoch": 0.8044948973741544,
      "grad_norm": 0.49046896912949384,
      "learning_rate": 9.68936735861079e-05,
      "loss": 2.4215,
      "step": 1754
    },
    {
      "epoch": 0.804953560371517,
      "grad_norm": 0.48304047569839703,
      "learning_rate": 9.645451445769737e-05,
      "loss": 2.4934,
      "step": 1755
    },
    {
      "epoch": 0.8054122233688797,
      "grad_norm": 0.4827563546821984,
      "learning_rate": 9.601624654368196e-05,
      "loss": 2.3259,
      "step": 1756
    },
    {
      "epoch": 0.8058708863662424,
      "grad_norm": 0.4629633543063813,
      "learning_rate": 9.557887081195938e-05,
      "loss": 2.3679,
      "step": 1757
    },
    {
      "epoch": 0.8063295493636051,
      "grad_norm": 0.49675520384583266,
      "learning_rate": 9.514238822845667e-05,
      "loss": 2.5072,
      "step": 1758
    },
    {
      "epoch": 0.8067882123609678,
      "grad_norm": 0.4937735170244699,
      "learning_rate": 9.470679975712837e-05,
      "loss": 2.3107,
      "step": 1759
    },
    {
      "epoch": 0.8072468753583305,
      "grad_norm": 0.4807644671268699,
      "learning_rate": 9.427210635995481e-05,
      "loss": 2.4115,
      "step": 1760
    },
    {
      "epoch": 0.8077055383556931,
      "grad_norm": 0.4866681653580271,
      "learning_rate": 9.383830899693923e-05,
      "loss": 2.4183,
      "step": 1761
    },
    {
      "epoch": 0.8081642013530559,
      "grad_norm": 0.47993137614293,
      "learning_rate": 9.340540862610591e-05,
      "loss": 2.3178,
      "step": 1762
    },
    {
      "epoch": 0.8086228643504185,
      "grad_norm": 0.5007073865812105,
      "learning_rate": 9.297340620349854e-05,
      "loss": 2.4228,
      "step": 1763
    },
    {
      "epoch": 0.8090815273477813,
      "grad_norm": 0.49133601977628855,
      "learning_rate": 9.25423026831777e-05,
      "loss": 2.3846,
      "step": 1764
    },
    {
      "epoch": 0.8095401903451439,
      "grad_norm": 0.46835080769069276,
      "learning_rate": 9.211209901721846e-05,
      "loss": 2.3906,
      "step": 1765
    },
    {
      "epoch": 0.8099988533425065,
      "grad_norm": 0.49145120820768295,
      "learning_rate": 9.168279615570863e-05,
      "loss": 2.3017,
      "step": 1766
    },
    {
      "epoch": 0.8104575163398693,
      "grad_norm": 0.49148117520459605,
      "learning_rate": 9.125439504674699e-05,
      "loss": 2.4271,
      "step": 1767
    },
    {
      "epoch": 0.8109161793372319,
      "grad_norm": 0.4596042481938439,
      "learning_rate": 9.082689663644057e-05,
      "loss": 2.3289,
      "step": 1768
    },
    {
      "epoch": 0.8113748423345947,
      "grad_norm": 0.4783505649202639,
      "learning_rate": 9.040030186890264e-05,
      "loss": 2.3431,
      "step": 1769
    },
    {
      "epoch": 0.8118335053319573,
      "grad_norm": 0.465839988010282,
      "learning_rate": 8.997461168625138e-05,
      "loss": 2.4397,
      "step": 1770
    },
    {
      "epoch": 0.81229216832932,
      "grad_norm": 0.47173473156543827,
      "learning_rate": 8.954982702860664e-05,
      "loss": 2.4455,
      "step": 1771
    },
    {
      "epoch": 0.8127508313266827,
      "grad_norm": 0.48077248648299553,
      "learning_rate": 8.912594883408865e-05,
      "loss": 2.3478,
      "step": 1772
    },
    {
      "epoch": 0.8132094943240454,
      "grad_norm": 0.4965006175674878,
      "learning_rate": 8.870297803881589e-05,
      "loss": 2.4105,
      "step": 1773
    },
    {
      "epoch": 0.8136681573214081,
      "grad_norm": 0.474832784826849,
      "learning_rate": 8.828091557690287e-05,
      "loss": 2.3948,
      "step": 1774
    },
    {
      "epoch": 0.8141268203187708,
      "grad_norm": 0.467470868773304,
      "learning_rate": 8.785976238045801e-05,
      "loss": 2.3698,
      "step": 1775
    },
    {
      "epoch": 0.8145854833161335,
      "grad_norm": 0.48357311165465294,
      "learning_rate": 8.743951937958144e-05,
      "loss": 2.2804,
      "step": 1776
    },
    {
      "epoch": 0.8150441463134962,
      "grad_norm": 0.49318770538166234,
      "learning_rate": 8.702018750236357e-05,
      "loss": 2.3585,
      "step": 1777
    },
    {
      "epoch": 0.8155028093108588,
      "grad_norm": 0.48082954329344885,
      "learning_rate": 8.660176767488237e-05,
      "loss": 2.4104,
      "step": 1778
    },
    {
      "epoch": 0.8159614723082216,
      "grad_norm": 0.5048522860472083,
      "learning_rate": 8.618426082120146e-05,
      "loss": 2.3924,
      "step": 1779
    },
    {
      "epoch": 0.8164201353055842,
      "grad_norm": 0.48122590074496085,
      "learning_rate": 8.576766786336854e-05,
      "loss": 2.3348,
      "step": 1780
    },
    {
      "epoch": 0.816878798302947,
      "grad_norm": 0.4924821346996302,
      "learning_rate": 8.535198972141294e-05,
      "loss": 2.3756,
      "step": 1781
    },
    {
      "epoch": 0.8173374613003096,
      "grad_norm": 0.5082611818843591,
      "learning_rate": 8.493722731334347e-05,
      "loss": 2.4407,
      "step": 1782
    },
    {
      "epoch": 0.8177961242976722,
      "grad_norm": 0.4869075862174703,
      "learning_rate": 8.452338155514644e-05,
      "loss": 2.5025,
      "step": 1783
    },
    {
      "epoch": 0.818254787295035,
      "grad_norm": 0.5242848098474221,
      "learning_rate": 8.411045336078426e-05,
      "loss": 2.4309,
      "step": 1784
    },
    {
      "epoch": 0.8187134502923976,
      "grad_norm": 0.45989446846064713,
      "learning_rate": 8.369844364219264e-05,
      "loss": 2.4107,
      "step": 1785
    },
    {
      "epoch": 0.8191721132897604,
      "grad_norm": 0.4865191226322678,
      "learning_rate": 8.328735330927873e-05,
      "loss": 2.3474,
      "step": 1786
    },
    {
      "epoch": 0.819630776287123,
      "grad_norm": 0.4821385791547117,
      "learning_rate": 8.287718326991961e-05,
      "loss": 2.351,
      "step": 1787
    },
    {
      "epoch": 0.8200894392844857,
      "grad_norm": 0.5026108007213055,
      "learning_rate": 8.246793442995954e-05,
      "loss": 2.4891,
      "step": 1788
    },
    {
      "epoch": 0.8205481022818484,
      "grad_norm": 0.4656210555351362,
      "learning_rate": 8.205960769320875e-05,
      "loss": 2.3849,
      "step": 1789
    },
    {
      "epoch": 0.8210067652792111,
      "grad_norm": 0.4776034636095187,
      "learning_rate": 8.165220396144085e-05,
      "loss": 2.32,
      "step": 1790
    },
    {
      "epoch": 0.8214654282765738,
      "grad_norm": 0.4892027555577727,
      "learning_rate": 8.12457241343909e-05,
      "loss": 2.4606,
      "step": 1791
    },
    {
      "epoch": 0.8219240912739365,
      "grad_norm": 0.4950300427671643,
      "learning_rate": 8.084016910975367e-05,
      "loss": 2.3411,
      "step": 1792
    },
    {
      "epoch": 0.8223827542712991,
      "grad_norm": 0.49472412103654306,
      "learning_rate": 8.043553978318169e-05,
      "loss": 2.3811,
      "step": 1793
    },
    {
      "epoch": 0.8228414172686619,
      "grad_norm": 0.4838529240584248,
      "learning_rate": 8.003183704828281e-05,
      "loss": 2.3919,
      "step": 1794
    },
    {
      "epoch": 0.8233000802660245,
      "grad_norm": 0.4778913962613633,
      "learning_rate": 7.962906179661872e-05,
      "loss": 2.3826,
      "step": 1795
    },
    {
      "epoch": 0.8237587432633873,
      "grad_norm": 0.4755695178875611,
      "learning_rate": 7.922721491770296e-05,
      "loss": 2.4168,
      "step": 1796
    },
    {
      "epoch": 0.8242174062607499,
      "grad_norm": 0.45568879700218723,
      "learning_rate": 7.882629729899832e-05,
      "loss": 2.4111,
      "step": 1797
    },
    {
      "epoch": 0.8246760692581127,
      "grad_norm": 0.505842390656164,
      "learning_rate": 7.842630982591598e-05,
      "loss": 2.2386,
      "step": 1798
    },
    {
      "epoch": 0.8251347322554753,
      "grad_norm": 0.48073243731465104,
      "learning_rate": 7.802725338181232e-05,
      "loss": 2.4,
      "step": 1799
    },
    {
      "epoch": 0.8255933952528379,
      "grad_norm": 0.4665966454260511,
      "learning_rate": 7.762912884798812e-05,
      "loss": 2.4019,
      "step": 1800
    },
    {
      "epoch": 0.8260520582502007,
      "grad_norm": 0.5147344427123639,
      "learning_rate": 7.723193710368564e-05,
      "loss": 2.387,
      "step": 1801
    },
    {
      "epoch": 0.8265107212475633,
      "grad_norm": 0.49471262040656866,
      "learning_rate": 7.683567902608729e-05,
      "loss": 2.3666,
      "step": 1802
    },
    {
      "epoch": 0.826969384244926,
      "grad_norm": 0.48410823809205045,
      "learning_rate": 7.644035549031364e-05,
      "loss": 2.4431,
      "step": 1803
    },
    {
      "epoch": 0.8274280472422887,
      "grad_norm": 0.49594054710271396,
      "learning_rate": 7.604596736942115e-05,
      "loss": 2.3291,
      "step": 1804
    },
    {
      "epoch": 0.8278867102396514,
      "grad_norm": 0.4925705424185788,
      "learning_rate": 7.56525155344004e-05,
      "loss": 2.3389,
      "step": 1805
    },
    {
      "epoch": 0.8283453732370141,
      "grad_norm": 0.4810126071013969,
      "learning_rate": 7.52600008541745e-05,
      "loss": 2.3456,
      "step": 1806
    },
    {
      "epoch": 0.8288040362343768,
      "grad_norm": 0.49213347647430516,
      "learning_rate": 7.486842419559681e-05,
      "loss": 2.4351,
      "step": 1807
    },
    {
      "epoch": 0.8292626992317395,
      "grad_norm": 0.5091146224698242,
      "learning_rate": 7.447778642344898e-05,
      "loss": 2.3933,
      "step": 1808
    },
    {
      "epoch": 0.8297213622291022,
      "grad_norm": 0.5372523727061437,
      "learning_rate": 7.408808840043912e-05,
      "loss": 2.4351,
      "step": 1809
    },
    {
      "epoch": 0.8301800252264648,
      "grad_norm": 0.46242135365963133,
      "learning_rate": 7.369933098720021e-05,
      "loss": 2.4058,
      "step": 1810
    },
    {
      "epoch": 0.8306386882238276,
      "grad_norm": 0.49002330118402526,
      "learning_rate": 7.331151504228767e-05,
      "loss": 2.417,
      "step": 1811
    },
    {
      "epoch": 0.8310973512211902,
      "grad_norm": 0.46899785079029743,
      "learning_rate": 7.292464142217775e-05,
      "loss": 2.4058,
      "step": 1812
    },
    {
      "epoch": 0.831556014218553,
      "grad_norm": 0.47450080375025266,
      "learning_rate": 7.25387109812658e-05,
      "loss": 2.364,
      "step": 1813
    },
    {
      "epoch": 0.8320146772159156,
      "grad_norm": 0.5179115351213673,
      "learning_rate": 7.215372457186415e-05,
      "loss": 2.3622,
      "step": 1814
    },
    {
      "epoch": 0.8324733402132783,
      "grad_norm": 0.47577179967947736,
      "learning_rate": 7.176968304420007e-05,
      "loss": 2.343,
      "step": 1815
    },
    {
      "epoch": 0.832932003210641,
      "grad_norm": 0.472954098247987,
      "learning_rate": 7.138658724641417e-05,
      "loss": 2.3366,
      "step": 1816
    },
    {
      "epoch": 0.8333906662080036,
      "grad_norm": 0.48640354244493417,
      "learning_rate": 7.10044380245587e-05,
      "loss": 2.3819,
      "step": 1817
    },
    {
      "epoch": 0.8338493292053664,
      "grad_norm": 0.49991745779811075,
      "learning_rate": 7.062323622259515e-05,
      "loss": 2.3526,
      "step": 1818
    },
    {
      "epoch": 0.834307992202729,
      "grad_norm": 0.48655211495970124,
      "learning_rate": 7.024298268239265e-05,
      "loss": 2.3239,
      "step": 1819
    },
    {
      "epoch": 0.8347666552000917,
      "grad_norm": 0.48887930953665615,
      "learning_rate": 6.986367824372647e-05,
      "loss": 2.4232,
      "step": 1820
    },
    {
      "epoch": 0.8352253181974544,
      "grad_norm": 0.4958458599329169,
      "learning_rate": 6.948532374427541e-05,
      "loss": 2.3804,
      "step": 1821
    },
    {
      "epoch": 0.8356839811948171,
      "grad_norm": 0.5361729595311124,
      "learning_rate": 6.910792001962063e-05,
      "loss": 2.477,
      "step": 1822
    },
    {
      "epoch": 0.8361426441921798,
      "grad_norm": 0.47484796851639605,
      "learning_rate": 6.873146790324358e-05,
      "loss": 2.3704,
      "step": 1823
    },
    {
      "epoch": 0.8366013071895425,
      "grad_norm": 0.4975477799336345,
      "learning_rate": 6.83559682265239e-05,
      "loss": 2.4093,
      "step": 1824
    },
    {
      "epoch": 0.8370599701869051,
      "grad_norm": 0.47219086065860844,
      "learning_rate": 6.798142181873784e-05,
      "loss": 2.3431,
      "step": 1825
    },
    {
      "epoch": 0.8375186331842679,
      "grad_norm": 0.5051459372188188,
      "learning_rate": 6.760782950705662e-05,
      "loss": 2.4092,
      "step": 1826
    },
    {
      "epoch": 0.8379772961816305,
      "grad_norm": 0.48185347659460526,
      "learning_rate": 6.723519211654422e-05,
      "loss": 2.4099,
      "step": 1827
    },
    {
      "epoch": 0.8384359591789933,
      "grad_norm": 0.4714887552325475,
      "learning_rate": 6.686351047015554e-05,
      "loss": 2.4243,
      "step": 1828
    },
    {
      "epoch": 0.8388946221763559,
      "grad_norm": 0.4799613236500095,
      "learning_rate": 6.649278538873515e-05,
      "loss": 2.2819,
      "step": 1829
    },
    {
      "epoch": 0.8393532851737187,
      "grad_norm": 0.47126518256994643,
      "learning_rate": 6.612301769101465e-05,
      "loss": 2.4364,
      "step": 1830
    },
    {
      "epoch": 0.8398119481710813,
      "grad_norm": 0.4908039389474176,
      "learning_rate": 6.575420819361177e-05,
      "loss": 2.476,
      "step": 1831
    },
    {
      "epoch": 0.840270611168444,
      "grad_norm": 0.4848252635152621,
      "learning_rate": 6.538635771102757e-05,
      "loss": 2.3462,
      "step": 1832
    },
    {
      "epoch": 0.8407292741658067,
      "grad_norm": 0.5023548935448436,
      "learning_rate": 6.501946705564566e-05,
      "loss": 2.4676,
      "step": 1833
    },
    {
      "epoch": 0.8411879371631693,
      "grad_norm": 0.46508006331331253,
      "learning_rate": 6.465353703772959e-05,
      "loss": 2.3528,
      "step": 1834
    },
    {
      "epoch": 0.841646600160532,
      "grad_norm": 0.4811405044837318,
      "learning_rate": 6.428856846542136e-05,
      "loss": 2.397,
      "step": 1835
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 0.4686023746431095,
      "learning_rate": 6.392456214473996e-05,
      "loss": 2.4448,
      "step": 1836
    },
    {
      "epoch": 0.8425639261552574,
      "grad_norm": 0.4642328969492719,
      "learning_rate": 6.3561518879579e-05,
      "loss": 2.3293,
      "step": 1837
    },
    {
      "epoch": 0.8430225891526201,
      "grad_norm": 0.4621096702587689,
      "learning_rate": 6.31994394717052e-05,
      "loss": 2.2826,
      "step": 1838
    },
    {
      "epoch": 0.8434812521499828,
      "grad_norm": 0.4938267612374794,
      "learning_rate": 6.283832472075685e-05,
      "loss": 2.4113,
      "step": 1839
    },
    {
      "epoch": 0.8439399151473455,
      "grad_norm": 0.4804959728521554,
      "learning_rate": 6.247817542424178e-05,
      "loss": 2.4211,
      "step": 1840
    },
    {
      "epoch": 0.8443985781447082,
      "grad_norm": 0.5113233860337121,
      "learning_rate": 6.211899237753559e-05,
      "loss": 2.3768,
      "step": 1841
    },
    {
      "epoch": 0.8448572411420708,
      "grad_norm": 0.4998940490317783,
      "learning_rate": 6.176077637387984e-05,
      "loss": 2.3851,
      "step": 1842
    },
    {
      "epoch": 0.8453159041394336,
      "grad_norm": 0.4910438613560288,
      "learning_rate": 6.140352820438066e-05,
      "loss": 2.3382,
      "step": 1843
    },
    {
      "epoch": 0.8457745671367962,
      "grad_norm": 0.47019681990008244,
      "learning_rate": 6.104724865800665e-05,
      "loss": 2.3701,
      "step": 1844
    },
    {
      "epoch": 0.846233230134159,
      "grad_norm": 0.4929884676444518,
      "learning_rate": 6.069193852158711e-05,
      "loss": 2.4316,
      "step": 1845
    },
    {
      "epoch": 0.8466918931315216,
      "grad_norm": 0.4997782423875657,
      "learning_rate": 6.0337598579810584e-05,
      "loss": 2.3269,
      "step": 1846
    },
    {
      "epoch": 0.8471505561288843,
      "grad_norm": 0.5044970536460198,
      "learning_rate": 5.9984229615223096e-05,
      "loss": 2.2942,
      "step": 1847
    },
    {
      "epoch": 0.847609219126247,
      "grad_norm": 0.5015824060237022,
      "learning_rate": 5.963183240822606e-05,
      "loss": 2.4192,
      "step": 1848
    },
    {
      "epoch": 0.8480678821236097,
      "grad_norm": 0.4736915163667186,
      "learning_rate": 5.9280407737074825e-05,
      "loss": 2.3415,
      "step": 1849
    },
    {
      "epoch": 0.8485265451209724,
      "grad_norm": 0.47871274511161893,
      "learning_rate": 5.8929956377877125e-05,
      "loss": 2.379,
      "step": 1850
    },
    {
      "epoch": 0.848985208118335,
      "grad_norm": 0.487860413803795,
      "learning_rate": 5.8580479104591075e-05,
      "loss": 2.3566,
      "step": 1851
    },
    {
      "epoch": 0.8494438711156977,
      "grad_norm": 0.46664920261492976,
      "learning_rate": 5.823197668902341e-05,
      "loss": 2.435,
      "step": 1852
    },
    {
      "epoch": 0.8499025341130604,
      "grad_norm": 0.4934864378192764,
      "learning_rate": 5.78844499008282e-05,
      "loss": 2.3206,
      "step": 1853
    },
    {
      "epoch": 0.8503611971104231,
      "grad_norm": 0.4872993977594743,
      "learning_rate": 5.753789950750454e-05,
      "loss": 2.3769,
      "step": 1854
    },
    {
      "epoch": 0.8508198601077858,
      "grad_norm": 0.49035974137174126,
      "learning_rate": 5.719232627439558e-05,
      "loss": 2.3886,
      "step": 1855
    },
    {
      "epoch": 0.8512785231051485,
      "grad_norm": 0.46685834550274674,
      "learning_rate": 5.6847730964686315e-05,
      "loss": 2.279,
      "step": 1856
    },
    {
      "epoch": 0.8517371861025111,
      "grad_norm": 0.45169641605338184,
      "learning_rate": 5.650411433940189e-05,
      "loss": 2.456,
      "step": 1857
    },
    {
      "epoch": 0.8521958490998739,
      "grad_norm": 0.48413238376706513,
      "learning_rate": 5.61614771574061e-05,
      "loss": 2.3222,
      "step": 1858
    },
    {
      "epoch": 0.8526545120972365,
      "grad_norm": 0.45568596656457516,
      "learning_rate": 5.581982017539988e-05,
      "loss": 2.2919,
      "step": 1859
    },
    {
      "epoch": 0.8531131750945993,
      "grad_norm": 0.5006221569537168,
      "learning_rate": 5.5479144147919216e-05,
      "loss": 2.3359,
      "step": 1860
    },
    {
      "epoch": 0.8535718380919619,
      "grad_norm": 0.5001038504375513,
      "learning_rate": 5.51394498273336e-05,
      "loss": 2.3336,
      "step": 1861
    },
    {
      "epoch": 0.8540305010893247,
      "grad_norm": 0.521906538595896,
      "learning_rate": 5.480073796384494e-05,
      "loss": 2.4612,
      "step": 1862
    },
    {
      "epoch": 0.8544891640866873,
      "grad_norm": 0.48031476152567576,
      "learning_rate": 5.446300930548492e-05,
      "loss": 2.4607,
      "step": 1863
    },
    {
      "epoch": 0.85494782708405,
      "grad_norm": 0.47193878341801776,
      "learning_rate": 5.412626459811415e-05,
      "loss": 2.2998,
      "step": 1864
    },
    {
      "epoch": 0.8554064900814127,
      "grad_norm": 0.4619076152385381,
      "learning_rate": 5.3790504585419954e-05,
      "loss": 2.3119,
      "step": 1865
    },
    {
      "epoch": 0.8558651530787754,
      "grad_norm": 0.47601075049394265,
      "learning_rate": 5.345573000891541e-05,
      "loss": 2.2714,
      "step": 1866
    },
    {
      "epoch": 0.8563238160761381,
      "grad_norm": 0.4890868368600145,
      "learning_rate": 5.312194160793693e-05,
      "loss": 2.3618,
      "step": 1867
    },
    {
      "epoch": 0.8567824790735007,
      "grad_norm": 0.487151315710467,
      "learning_rate": 5.278914011964303e-05,
      "loss": 2.4121,
      "step": 1868
    },
    {
      "epoch": 0.8572411420708634,
      "grad_norm": 0.4830064564771255,
      "learning_rate": 5.2457326279013006e-05,
      "loss": 2.3646,
      "step": 1869
    },
    {
      "epoch": 0.8576998050682261,
      "grad_norm": 0.5032735485076097,
      "learning_rate": 5.2126500818844514e-05,
      "loss": 2.513,
      "step": 1870
    },
    {
      "epoch": 0.8581584680655888,
      "grad_norm": 0.48005614196286406,
      "learning_rate": 5.1796664469752566e-05,
      "loss": 2.4637,
      "step": 1871
    },
    {
      "epoch": 0.8586171310629515,
      "grad_norm": 0.47117243371361867,
      "learning_rate": 5.1467817960167975e-05,
      "loss": 2.3201,
      "step": 1872
    },
    {
      "epoch": 0.8590757940603142,
      "grad_norm": 0.4653588071532608,
      "learning_rate": 5.113996201633536e-05,
      "loss": 2.3838,
      "step": 1873
    },
    {
      "epoch": 0.8595344570576768,
      "grad_norm": 0.4877594308705187,
      "learning_rate": 5.0813097362311765e-05,
      "loss": 2.3668,
      "step": 1874
    },
    {
      "epoch": 0.8599931200550396,
      "grad_norm": 0.48974020199329826,
      "learning_rate": 5.048722471996475e-05,
      "loss": 2.2624,
      "step": 1875
    },
    {
      "epoch": 0.8604517830524022,
      "grad_norm": 0.47587501257990444,
      "learning_rate": 5.016234480897158e-05,
      "loss": 2.4155,
      "step": 1876
    },
    {
      "epoch": 0.860910446049765,
      "grad_norm": 0.476683407431351,
      "learning_rate": 4.9838458346816664e-05,
      "loss": 2.3269,
      "step": 1877
    },
    {
      "epoch": 0.8613691090471276,
      "grad_norm": 0.4793650913631841,
      "learning_rate": 4.9515566048790485e-05,
      "loss": 2.3911,
      "step": 1878
    },
    {
      "epoch": 0.8618277720444903,
      "grad_norm": 0.501221566200953,
      "learning_rate": 4.9193668627988074e-05,
      "loss": 2.3501,
      "step": 1879
    },
    {
      "epoch": 0.862286435041853,
      "grad_norm": 0.45775458645015116,
      "learning_rate": 4.887276679530744e-05,
      "loss": 2.4003,
      "step": 1880
    },
    {
      "epoch": 0.8627450980392157,
      "grad_norm": 0.4837302919479622,
      "learning_rate": 4.855286125944752e-05,
      "loss": 2.411,
      "step": 1881
    },
    {
      "epoch": 0.8632037610365784,
      "grad_norm": 0.48383707357809475,
      "learning_rate": 4.8233952726907224e-05,
      "loss": 2.4152,
      "step": 1882
    },
    {
      "epoch": 0.8636624240339411,
      "grad_norm": 0.4913902990157859,
      "learning_rate": 4.7916041901983565e-05,
      "loss": 2.38,
      "step": 1883
    },
    {
      "epoch": 0.8641210870313037,
      "grad_norm": 0.48894751729416197,
      "learning_rate": 4.7599129486770145e-05,
      "loss": 2.327,
      "step": 1884
    },
    {
      "epoch": 0.8645797500286664,
      "grad_norm": 0.4843620837567717,
      "learning_rate": 4.728321618115555e-05,
      "loss": 2.3637,
      "step": 1885
    },
    {
      "epoch": 0.8650384130260291,
      "grad_norm": 0.5024648340760908,
      "learning_rate": 4.696830268282204e-05,
      "loss": 2.3435,
      "step": 1886
    },
    {
      "epoch": 0.8654970760233918,
      "grad_norm": 0.4907881745442429,
      "learning_rate": 4.665438968724361e-05,
      "loss": 2.4638,
      "step": 1887
    },
    {
      "epoch": 0.8659557390207545,
      "grad_norm": 0.48002883988034417,
      "learning_rate": 4.634147788768489e-05,
      "loss": 2.3587,
      "step": 1888
    },
    {
      "epoch": 0.8664144020181171,
      "grad_norm": 0.4827449565424799,
      "learning_rate": 4.6029567975199414e-05,
      "loss": 2.4292,
      "step": 1889
    },
    {
      "epoch": 0.8668730650154799,
      "grad_norm": 0.4768398822704177,
      "learning_rate": 4.571866063862795e-05,
      "loss": 2.3805,
      "step": 1890
    },
    {
      "epoch": 0.8673317280128425,
      "grad_norm": 0.4927524705774746,
      "learning_rate": 4.540875656459703e-05,
      "loss": 2.5126,
      "step": 1891
    },
    {
      "epoch": 0.8677903910102053,
      "grad_norm": 0.47642773773884756,
      "learning_rate": 4.509985643751785e-05,
      "loss": 2.3551,
      "step": 1892
    },
    {
      "epoch": 0.8682490540075679,
      "grad_norm": 0.4873120053741224,
      "learning_rate": 4.479196093958421e-05,
      "loss": 2.3811,
      "step": 1893
    },
    {
      "epoch": 0.8687077170049307,
      "grad_norm": 0.4788970644060171,
      "learning_rate": 4.4485070750771187e-05,
      "loss": 2.4146,
      "step": 1894
    },
    {
      "epoch": 0.8691663800022933,
      "grad_norm": 0.4900116614840129,
      "learning_rate": 4.417918654883363e-05,
      "loss": 2.3644,
      "step": 1895
    },
    {
      "epoch": 0.869625042999656,
      "grad_norm": 0.48628061020820634,
      "learning_rate": 4.3874309009305e-05,
      "loss": 2.3798,
      "step": 1896
    },
    {
      "epoch": 0.8700837059970187,
      "grad_norm": 0.4959513122448699,
      "learning_rate": 4.357043880549538e-05,
      "loss": 2.4967,
      "step": 1897
    },
    {
      "epoch": 0.8705423689943814,
      "grad_norm": 0.4733518382883471,
      "learning_rate": 4.326757660849012e-05,
      "loss": 2.4131,
      "step": 1898
    },
    {
      "epoch": 0.8710010319917441,
      "grad_norm": 0.48769607111433794,
      "learning_rate": 4.2965723087148635e-05,
      "loss": 2.3586,
      "step": 1899
    },
    {
      "epoch": 0.8714596949891068,
      "grad_norm": 0.4787041690219745,
      "learning_rate": 4.266487890810256e-05,
      "loss": 2.3404,
      "step": 1900
    },
    {
      "epoch": 0.8719183579864694,
      "grad_norm": 0.4766040399411783,
      "learning_rate": 4.2365044735754365e-05,
      "loss": 2.2953,
      "step": 1901
    },
    {
      "epoch": 0.8723770209838321,
      "grad_norm": 0.47908369305846876,
      "learning_rate": 4.2066221232276266e-05,
      "loss": 2.3312,
      "step": 1902
    },
    {
      "epoch": 0.8728356839811948,
      "grad_norm": 0.4888657249994184,
      "learning_rate": 4.176840905760815e-05,
      "loss": 2.3602,
      "step": 1903
    },
    {
      "epoch": 0.8732943469785575,
      "grad_norm": 0.4862690325279694,
      "learning_rate": 4.1471608869456443e-05,
      "loss": 2.3006,
      "step": 1904
    },
    {
      "epoch": 0.8737530099759202,
      "grad_norm": 0.5128092124747402,
      "learning_rate": 4.117582132329284e-05,
      "loss": 2.5088,
      "step": 1905
    },
    {
      "epoch": 0.8742116729732828,
      "grad_norm": 0.48281766179104807,
      "learning_rate": 4.088104707235263e-05,
      "loss": 2.3636,
      "step": 1906
    },
    {
      "epoch": 0.8746703359706456,
      "grad_norm": 0.47341852426252873,
      "learning_rate": 4.058728676763313e-05,
      "loss": 2.4007,
      "step": 1907
    },
    {
      "epoch": 0.8751289989680082,
      "grad_norm": 0.49226378757389955,
      "learning_rate": 4.0294541057892375e-05,
      "loss": 2.3342,
      "step": 1908
    },
    {
      "epoch": 0.875587661965371,
      "grad_norm": 0.495595069000455,
      "learning_rate": 4.000281058964794e-05,
      "loss": 2.3709,
      "step": 1909
    },
    {
      "epoch": 0.8760463249627336,
      "grad_norm": 0.4973522593434125,
      "learning_rate": 3.971209600717507e-05,
      "loss": 2.286,
      "step": 1910
    },
    {
      "epoch": 0.8765049879600963,
      "grad_norm": 0.48558969921532785,
      "learning_rate": 3.9422397952505465e-05,
      "loss": 2.2588,
      "step": 1911
    },
    {
      "epoch": 0.876963650957459,
      "grad_norm": 0.46808678433269163,
      "learning_rate": 3.913371706542596e-05,
      "loss": 2.4291,
      "step": 1912
    },
    {
      "epoch": 0.8774223139548217,
      "grad_norm": 0.4565450550495879,
      "learning_rate": 3.884605398347707e-05,
      "loss": 2.275,
      "step": 1913
    },
    {
      "epoch": 0.8778809769521844,
      "grad_norm": 0.5043589167351417,
      "learning_rate": 3.8559409341951456e-05,
      "loss": 2.4604,
      "step": 1914
    },
    {
      "epoch": 0.8783396399495471,
      "grad_norm": 0.5010663568189593,
      "learning_rate": 3.8273783773892404e-05,
      "loss": 2.4262,
      "step": 1915
    },
    {
      "epoch": 0.8787983029469097,
      "grad_norm": 0.498743191493685,
      "learning_rate": 3.798917791009293e-05,
      "loss": 2.3715,
      "step": 1916
    },
    {
      "epoch": 0.8792569659442725,
      "grad_norm": 0.4862371695660192,
      "learning_rate": 3.770559237909393e-05,
      "loss": 2.3151,
      "step": 1917
    },
    {
      "epoch": 0.8797156289416351,
      "grad_norm": 0.4621891322494137,
      "learning_rate": 3.742302780718288e-05,
      "loss": 2.3243,
      "step": 1918
    },
    {
      "epoch": 0.8801742919389978,
      "grad_norm": 0.4663691648009963,
      "learning_rate": 3.7141484818392635e-05,
      "loss": 2.2776,
      "step": 1919
    },
    {
      "epoch": 0.8806329549363605,
      "grad_norm": 0.48539386747787616,
      "learning_rate": 3.686096403449973e-05,
      "loss": 2.3613,
      "step": 1920
    },
    {
      "epoch": 0.8810916179337231,
      "grad_norm": 0.4809870434267617,
      "learning_rate": 3.658146607502344e-05,
      "loss": 2.3869,
      "step": 1921
    },
    {
      "epoch": 0.8815502809310859,
      "grad_norm": 0.4655527611354386,
      "learning_rate": 3.630299155722411e-05,
      "loss": 2.4334,
      "step": 1922
    },
    {
      "epoch": 0.8820089439284485,
      "grad_norm": 0.47347231254461597,
      "learning_rate": 3.6025541096101676e-05,
      "loss": 2.3976,
      "step": 1923
    },
    {
      "epoch": 0.8824676069258113,
      "grad_norm": 0.45965407846141304,
      "learning_rate": 3.574911530439473e-05,
      "loss": 2.4093,
      "step": 1924
    },
    {
      "epoch": 0.8829262699231739,
      "grad_norm": 0.47830792951484075,
      "learning_rate": 3.5473714792578606e-05,
      "loss": 2.4059,
      "step": 1925
    },
    {
      "epoch": 0.8833849329205367,
      "grad_norm": 0.5040652502839059,
      "learning_rate": 3.519934016886478e-05,
      "loss": 2.4958,
      "step": 1926
    },
    {
      "epoch": 0.8838435959178993,
      "grad_norm": 0.49327761059722064,
      "learning_rate": 3.4925992039198776e-05,
      "loss": 2.4276,
      "step": 1927
    },
    {
      "epoch": 0.884302258915262,
      "grad_norm": 0.5026329834334045,
      "learning_rate": 3.465367100725908e-05,
      "loss": 2.4056,
      "step": 1928
    },
    {
      "epoch": 0.8847609219126247,
      "grad_norm": 0.4602859459514054,
      "learning_rate": 3.438237767445618e-05,
      "loss": 2.346,
      "step": 1929
    },
    {
      "epoch": 0.8852195849099874,
      "grad_norm": 0.45110345834689025,
      "learning_rate": 3.4112112639930804e-05,
      "loss": 2.439,
      "step": 1930
    },
    {
      "epoch": 0.8856782479073501,
      "grad_norm": 0.5060487102446143,
      "learning_rate": 3.3842876500552564e-05,
      "loss": 2.3455,
      "step": 1931
    },
    {
      "epoch": 0.8861369109047128,
      "grad_norm": 0.48860781734465686,
      "learning_rate": 3.357466985091906e-05,
      "loss": 2.4407,
      "step": 1932
    },
    {
      "epoch": 0.8865955739020754,
      "grad_norm": 0.4550536930919145,
      "learning_rate": 3.330749328335414e-05,
      "loss": 2.3424,
      "step": 1933
    },
    {
      "epoch": 0.8870542368994382,
      "grad_norm": 0.4921710004923996,
      "learning_rate": 3.304134738790659e-05,
      "loss": 2.3159,
      "step": 1934
    },
    {
      "epoch": 0.8875128998968008,
      "grad_norm": 0.4814818307843393,
      "learning_rate": 3.277623275234953e-05,
      "loss": 2.346,
      "step": 1935
    },
    {
      "epoch": 0.8879715628941636,
      "grad_norm": 0.4798810839539077,
      "learning_rate": 3.2512149962177994e-05,
      "loss": 2.4328,
      "step": 1936
    },
    {
      "epoch": 0.8884302258915262,
      "grad_norm": 0.4917421376331968,
      "learning_rate": 3.224909960060851e-05,
      "loss": 2.3509,
      "step": 1937
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.4958866091571186,
      "learning_rate": 3.198708224857755e-05,
      "loss": 2.3828,
      "step": 1938
    },
    {
      "epoch": 0.8893475518862516,
      "grad_norm": 0.47271214196773265,
      "learning_rate": 3.172609848474023e-05,
      "loss": 2.3208,
      "step": 1939
    },
    {
      "epoch": 0.8898062148836142,
      "grad_norm": 0.47099699808654166,
      "learning_rate": 3.1466148885468895e-05,
      "loss": 2.4105,
      "step": 1940
    },
    {
      "epoch": 0.890264877880977,
      "grad_norm": 0.4746958983837916,
      "learning_rate": 3.120723402485198e-05,
      "loss": 2.3828,
      "step": 1941
    },
    {
      "epoch": 0.8907235408783396,
      "grad_norm": 0.5003699331902803,
      "learning_rate": 3.094935447469294e-05,
      "loss": 2.3123,
      "step": 1942
    },
    {
      "epoch": 0.8911822038757024,
      "grad_norm": 0.4746226845359486,
      "learning_rate": 3.069251080450863e-05,
      "loss": 2.4486,
      "step": 1943
    },
    {
      "epoch": 0.891640866873065,
      "grad_norm": 0.48230043238353904,
      "learning_rate": 3.0436703581528113e-05,
      "loss": 2.3994,
      "step": 1944
    },
    {
      "epoch": 0.8920995298704277,
      "grad_norm": 0.48792679620383533,
      "learning_rate": 3.0181933370691694e-05,
      "loss": 2.3825,
      "step": 1945
    },
    {
      "epoch": 0.8925581928677904,
      "grad_norm": 0.47694228095129854,
      "learning_rate": 2.9928200734649523e-05,
      "loss": 2.3298,
      "step": 1946
    },
    {
      "epoch": 0.8930168558651531,
      "grad_norm": 0.49325278526002175,
      "learning_rate": 2.9675506233760142e-05,
      "loss": 2.3392,
      "step": 1947
    },
    {
      "epoch": 0.8934755188625157,
      "grad_norm": 0.49120013932309636,
      "learning_rate": 2.942385042608925e-05,
      "loss": 2.4001,
      "step": 1948
    },
    {
      "epoch": 0.8939341818598785,
      "grad_norm": 0.4915750177862497,
      "learning_rate": 2.9173233867409054e-05,
      "loss": 2.3916,
      "step": 1949
    },
    {
      "epoch": 0.8943928448572411,
      "grad_norm": 0.5054249818365133,
      "learning_rate": 2.892365711119638e-05,
      "loss": 2.3558,
      "step": 1950
    },
    {
      "epoch": 0.8948515078546039,
      "grad_norm": 0.4902595520512367,
      "learning_rate": 2.8675120708631596e-05,
      "loss": 2.4132,
      "step": 1951
    },
    {
      "epoch": 0.8953101708519665,
      "grad_norm": 0.4651447218900064,
      "learning_rate": 2.8427625208597764e-05,
      "loss": 2.3749,
      "step": 1952
    },
    {
      "epoch": 0.8957688338493293,
      "grad_norm": 0.4873858575021826,
      "learning_rate": 2.8181171157678874e-05,
      "loss": 2.4482,
      "step": 1953
    },
    {
      "epoch": 0.8962274968466919,
      "grad_norm": 0.47972622932177794,
      "learning_rate": 2.7935759100159053e-05,
      "loss": 2.4048,
      "step": 1954
    },
    {
      "epoch": 0.8966861598440545,
      "grad_norm": 0.5099146940086602,
      "learning_rate": 2.7691389578021365e-05,
      "loss": 2.3801,
      "step": 1955
    },
    {
      "epoch": 0.8971448228414173,
      "grad_norm": 0.5104529438424928,
      "learning_rate": 2.7448063130946223e-05,
      "loss": 2.3966,
      "step": 1956
    },
    {
      "epoch": 0.8976034858387799,
      "grad_norm": 0.4847111948161241,
      "learning_rate": 2.7205780296310544e-05,
      "loss": 2.3772,
      "step": 1957
    },
    {
      "epoch": 0.8980621488361427,
      "grad_norm": 0.4923453224241364,
      "learning_rate": 2.6964541609186378e-05,
      "loss": 2.3765,
      "step": 1958
    },
    {
      "epoch": 0.8985208118335053,
      "grad_norm": 0.49252577301280204,
      "learning_rate": 2.6724347602340104e-05,
      "loss": 2.3532,
      "step": 1959
    },
    {
      "epoch": 0.898979474830868,
      "grad_norm": 0.4575940050652143,
      "learning_rate": 2.6485198806230682e-05,
      "loss": 2.3769,
      "step": 1960
    },
    {
      "epoch": 0.8994381378282307,
      "grad_norm": 0.49408750583311845,
      "learning_rate": 2.6247095749008797e-05,
      "loss": 2.4781,
      "step": 1961
    },
    {
      "epoch": 0.8998968008255934,
      "grad_norm": 0.4788497073048752,
      "learning_rate": 2.6010038956515826e-05,
      "loss": 2.4247,
      "step": 1962
    },
    {
      "epoch": 0.9003554638229561,
      "grad_norm": 0.4937569785616946,
      "learning_rate": 2.5774028952282423e-05,
      "loss": 2.4037,
      "step": 1963
    },
    {
      "epoch": 0.9008141268203188,
      "grad_norm": 0.4790152266951102,
      "learning_rate": 2.5539066257527277e-05,
      "loss": 2.3659,
      "step": 1964
    },
    {
      "epoch": 0.9012727898176814,
      "grad_norm": 0.4720521291836884,
      "learning_rate": 2.530515139115652e-05,
      "loss": 2.3928,
      "step": 1965
    },
    {
      "epoch": 0.9017314528150442,
      "grad_norm": 0.49051136270802,
      "learning_rate": 2.5072284869761874e-05,
      "loss": 2.3522,
      "step": 1966
    },
    {
      "epoch": 0.9021901158124068,
      "grad_norm": 0.49430148927547596,
      "learning_rate": 2.4840467207619786e-05,
      "loss": 2.3238,
      "step": 1967
    },
    {
      "epoch": 0.9026487788097696,
      "grad_norm": 0.49002548579366234,
      "learning_rate": 2.460969891669068e-05,
      "loss": 2.4248,
      "step": 1968
    },
    {
      "epoch": 0.9031074418071322,
      "grad_norm": 0.4869208931492039,
      "learning_rate": 2.4379980506617272e-05,
      "loss": 2.3927,
      "step": 1969
    },
    {
      "epoch": 0.903566104804495,
      "grad_norm": 0.48991506598027623,
      "learning_rate": 2.4151312484723464e-05,
      "loss": 2.3861,
      "step": 1970
    },
    {
      "epoch": 0.9040247678018576,
      "grad_norm": 0.48571547915090285,
      "learning_rate": 2.3923695356013798e-05,
      "loss": 2.3352,
      "step": 1971
    },
    {
      "epoch": 0.9044834307992202,
      "grad_norm": 0.4655551278149667,
      "learning_rate": 2.3697129623171833e-05,
      "loss": 2.334,
      "step": 1972
    },
    {
      "epoch": 0.904942093796583,
      "grad_norm": 0.486213460965112,
      "learning_rate": 2.3471615786559042e-05,
      "loss": 2.4607,
      "step": 1973
    },
    {
      "epoch": 0.9054007567939456,
      "grad_norm": 0.4700593452336147,
      "learning_rate": 2.3247154344213818e-05,
      "loss": 2.3659,
      "step": 1974
    },
    {
      "epoch": 0.9058594197913084,
      "grad_norm": 0.49721774866859597,
      "learning_rate": 2.3023745791850625e-05,
      "loss": 2.3543,
      "step": 1975
    },
    {
      "epoch": 0.906318082788671,
      "grad_norm": 0.47618199443509934,
      "learning_rate": 2.2801390622858354e-05,
      "loss": 2.482,
      "step": 1976
    },
    {
      "epoch": 0.9067767457860337,
      "grad_norm": 0.47533271421709783,
      "learning_rate": 2.2580089328299746e-05,
      "loss": 2.3414,
      "step": 1977
    },
    {
      "epoch": 0.9072354087833964,
      "grad_norm": 0.4702855896567074,
      "learning_rate": 2.235984239690997e-05,
      "loss": 2.3627,
      "step": 1978
    },
    {
      "epoch": 0.9076940717807591,
      "grad_norm": 0.46251036625980896,
      "learning_rate": 2.2140650315095934e-05,
      "loss": 2.2912,
      "step": 1979
    },
    {
      "epoch": 0.9081527347781218,
      "grad_norm": 0.4751670250114557,
      "learning_rate": 2.192251356693459e-05,
      "loss": 2.4327,
      "step": 1980
    },
    {
      "epoch": 0.9086113977754845,
      "grad_norm": 0.5119331698311502,
      "learning_rate": 2.170543263417246e-05,
      "loss": 2.397,
      "step": 1981
    },
    {
      "epoch": 0.9090700607728471,
      "grad_norm": 0.47863554488449084,
      "learning_rate": 2.1489407996224286e-05,
      "loss": 2.4327,
      "step": 1982
    },
    {
      "epoch": 0.9095287237702099,
      "grad_norm": 0.49581208649196506,
      "learning_rate": 2.127444013017199e-05,
      "loss": 2.3928,
      "step": 1983
    },
    {
      "epoch": 0.9099873867675725,
      "grad_norm": 0.4570637718545417,
      "learning_rate": 2.1060529510763648e-05,
      "loss": 2.3273,
      "step": 1984
    },
    {
      "epoch": 0.9104460497649353,
      "grad_norm": 0.49200226101731614,
      "learning_rate": 2.084767661041259e-05,
      "loss": 2.3889,
      "step": 1985
    },
    {
      "epoch": 0.9109047127622979,
      "grad_norm": 0.5026211735544922,
      "learning_rate": 2.063588189919596e-05,
      "loss": 2.3845,
      "step": 1986
    },
    {
      "epoch": 0.9113633757596606,
      "grad_norm": 0.5018495025236845,
      "learning_rate": 2.0425145844854275e-05,
      "loss": 2.4065,
      "step": 1987
    },
    {
      "epoch": 0.9118220387570233,
      "grad_norm": 0.5126024833100685,
      "learning_rate": 2.0215468912789693e-05,
      "loss": 2.3922,
      "step": 1988
    },
    {
      "epoch": 0.9122807017543859,
      "grad_norm": 0.4866736295514616,
      "learning_rate": 2.0006851566065575e-05,
      "loss": 2.4347,
      "step": 1989
    },
    {
      "epoch": 0.9127393647517487,
      "grad_norm": 0.506054415472752,
      "learning_rate": 1.9799294265405166e-05,
      "loss": 2.3249,
      "step": 1990
    },
    {
      "epoch": 0.9131980277491113,
      "grad_norm": 0.489468588768428,
      "learning_rate": 1.9592797469190572e-05,
      "loss": 2.4121,
      "step": 1991
    },
    {
      "epoch": 0.913656690746474,
      "grad_norm": 0.4764637792391971,
      "learning_rate": 1.938736163346194e-05,
      "loss": 2.4239,
      "step": 1992
    },
    {
      "epoch": 0.9141153537438367,
      "grad_norm": 0.4838874132542684,
      "learning_rate": 1.9182987211916246e-05,
      "loss": 2.2802,
      "step": 1993
    },
    {
      "epoch": 0.9145740167411994,
      "grad_norm": 0.49627469484073916,
      "learning_rate": 1.8979674655906332e-05,
      "loss": 2.4447,
      "step": 1994
    },
    {
      "epoch": 0.9150326797385621,
      "grad_norm": 0.49998701955958375,
      "learning_rate": 1.8777424414440024e-05,
      "loss": 2.2755,
      "step": 1995
    },
    {
      "epoch": 0.9154913427359248,
      "grad_norm": 0.5106918409006462,
      "learning_rate": 1.8576236934179202e-05,
      "loss": 2.4402,
      "step": 1996
    },
    {
      "epoch": 0.9159500057332874,
      "grad_norm": 0.49057202049338916,
      "learning_rate": 1.8376112659438393e-05,
      "loss": 2.4792,
      "step": 1997
    },
    {
      "epoch": 0.9164086687306502,
      "grad_norm": 0.46816006032233454,
      "learning_rate": 1.8177052032184282e-05,
      "loss": 2.3445,
      "step": 1998
    },
    {
      "epoch": 0.9168673317280128,
      "grad_norm": 0.49277146391308596,
      "learning_rate": 1.7979055492034435e-05,
      "loss": 2.4741,
      "step": 1999
    },
    {
      "epoch": 0.9173259947253756,
      "grad_norm": 0.48084679367076755,
      "learning_rate": 1.7782123476256407e-05,
      "loss": 2.3462,
      "step": 2000
    },
    {
      "epoch": 0.9177846577227382,
      "grad_norm": 0.49394437237418376,
      "learning_rate": 1.7586256419766965e-05,
      "loss": 2.4827,
      "step": 2001
    },
    {
      "epoch": 0.918243320720101,
      "grad_norm": 0.4708700698407922,
      "learning_rate": 1.7391454755130766e-05,
      "loss": 2.3179,
      "step": 2002
    },
    {
      "epoch": 0.9187019837174636,
      "grad_norm": 0.4856155321984407,
      "learning_rate": 1.7197718912559557e-05,
      "loss": 2.3404,
      "step": 2003
    },
    {
      "epoch": 0.9191606467148263,
      "grad_norm": 0.49004809216073125,
      "learning_rate": 1.700504931991148e-05,
      "loss": 2.4004,
      "step": 2004
    },
    {
      "epoch": 0.919619309712189,
      "grad_norm": 0.477450516119708,
      "learning_rate": 1.681344640268978e-05,
      "loss": 2.3662,
      "step": 2005
    },
    {
      "epoch": 0.9200779727095516,
      "grad_norm": 0.479096662144476,
      "learning_rate": 1.6622910584041974e-05,
      "loss": 2.4713,
      "step": 2006
    },
    {
      "epoch": 0.9205366357069144,
      "grad_norm": 0.4782304333677953,
      "learning_rate": 1.6433442284758903e-05,
      "loss": 2.3456,
      "step": 2007
    },
    {
      "epoch": 0.920995298704277,
      "grad_norm": 0.47833973879680114,
      "learning_rate": 1.624504192327392e-05,
      "loss": 2.3286,
      "step": 2008
    },
    {
      "epoch": 0.9214539617016397,
      "grad_norm": 0.47210034753105984,
      "learning_rate": 1.6057709915661856e-05,
      "loss": 2.3551,
      "step": 2009
    },
    {
      "epoch": 0.9219126246990024,
      "grad_norm": 0.5098200108176949,
      "learning_rate": 1.5871446675638057e-05,
      "loss": 2.4686,
      "step": 2010
    },
    {
      "epoch": 0.9223712876963651,
      "grad_norm": 0.481609287937598,
      "learning_rate": 1.5686252614557638e-05,
      "loss": 2.3174,
      "step": 2011
    },
    {
      "epoch": 0.9228299506937278,
      "grad_norm": 0.5011492370281388,
      "learning_rate": 1.5502128141414497e-05,
      "loss": 2.4133,
      "step": 2012
    },
    {
      "epoch": 0.9232886136910905,
      "grad_norm": 0.5183422870062241,
      "learning_rate": 1.5319073662840188e-05,
      "loss": 2.3306,
      "step": 2013
    },
    {
      "epoch": 0.9237472766884531,
      "grad_norm": 0.4985814655435563,
      "learning_rate": 1.5137089583103391e-05,
      "loss": 2.454,
      "step": 2014
    },
    {
      "epoch": 0.9242059396858159,
      "grad_norm": 0.5102035926361679,
      "learning_rate": 1.4956176304108893e-05,
      "loss": 2.491,
      "step": 2015
    },
    {
      "epoch": 0.9246646026831785,
      "grad_norm": 0.5308769094396107,
      "learning_rate": 1.4776334225396481e-05,
      "loss": 2.4155,
      "step": 2016
    },
    {
      "epoch": 0.9251232656805413,
      "grad_norm": 0.4844117858206554,
      "learning_rate": 1.4597563744140397e-05,
      "loss": 2.307,
      "step": 2017
    },
    {
      "epoch": 0.9255819286779039,
      "grad_norm": 0.515804680730688,
      "learning_rate": 1.4419865255148269e-05,
      "loss": 2.4638,
      "step": 2018
    },
    {
      "epoch": 0.9260405916752666,
      "grad_norm": 0.48382596855608295,
      "learning_rate": 1.4243239150860122e-05,
      "loss": 2.2559,
      "step": 2019
    },
    {
      "epoch": 0.9264992546726293,
      "grad_norm": 0.47222085189297114,
      "learning_rate": 1.4067685821347932e-05,
      "loss": 2.2999,
      "step": 2020
    },
    {
      "epoch": 0.926957917669992,
      "grad_norm": 0.477489626654259,
      "learning_rate": 1.389320565431429e-05,
      "loss": 2.4297,
      "step": 2021
    },
    {
      "epoch": 0.9274165806673547,
      "grad_norm": 0.4916646245664168,
      "learning_rate": 1.3719799035091851e-05,
      "loss": 2.3438,
      "step": 2022
    },
    {
      "epoch": 0.9278752436647173,
      "grad_norm": 0.4636411730050684,
      "learning_rate": 1.3547466346642278e-05,
      "loss": 2.3503,
      "step": 2023
    },
    {
      "epoch": 0.92833390666208,
      "grad_norm": 0.47539192604407293,
      "learning_rate": 1.3376207969555577e-05,
      "loss": 2.2875,
      "step": 2024
    },
    {
      "epoch": 0.9287925696594427,
      "grad_norm": 0.48120228682850547,
      "learning_rate": 1.32060242820492e-05,
      "loss": 2.3401,
      "step": 2025
    },
    {
      "epoch": 0.9292512326568054,
      "grad_norm": 0.46079125767354584,
      "learning_rate": 1.3036915659967118e-05,
      "loss": 2.3538,
      "step": 2026
    },
    {
      "epoch": 0.9297098956541681,
      "grad_norm": 0.4633521959089021,
      "learning_rate": 1.2868882476779087e-05,
      "loss": 2.3686,
      "step": 2027
    },
    {
      "epoch": 0.9301685586515308,
      "grad_norm": 0.5124433456979135,
      "learning_rate": 1.2701925103579815e-05,
      "loss": 2.3721,
      "step": 2028
    },
    {
      "epoch": 0.9306272216488934,
      "grad_norm": 0.4701013164842135,
      "learning_rate": 1.2536043909088191e-05,
      "loss": 2.432,
      "step": 2029
    },
    {
      "epoch": 0.9310858846462562,
      "grad_norm": 0.5152178598789352,
      "learning_rate": 1.2371239259646228e-05,
      "loss": 2.474,
      "step": 2030
    },
    {
      "epoch": 0.9315445476436188,
      "grad_norm": 0.48727660128977845,
      "learning_rate": 1.2207511519218672e-05,
      "loss": 2.4169,
      "step": 2031
    },
    {
      "epoch": 0.9320032106409816,
      "grad_norm": 0.5019707528526364,
      "learning_rate": 1.2044861049391676e-05,
      "loss": 2.388,
      "step": 2032
    },
    {
      "epoch": 0.9324618736383442,
      "grad_norm": 0.47757927306570963,
      "learning_rate": 1.1883288209372512e-05,
      "loss": 2.2802,
      "step": 2033
    },
    {
      "epoch": 0.932920536635707,
      "grad_norm": 0.4958119515742491,
      "learning_rate": 1.1722793355988471e-05,
      "loss": 2.448,
      "step": 2034
    },
    {
      "epoch": 0.9333791996330696,
      "grad_norm": 0.4726444529255864,
      "learning_rate": 1.1563376843686135e-05,
      "loss": 2.3964,
      "step": 2035
    },
    {
      "epoch": 0.9338378626304323,
      "grad_norm": 0.4807911942358651,
      "learning_rate": 1.140503902453055e-05,
      "loss": 2.3124,
      "step": 2036
    },
    {
      "epoch": 0.934296525627795,
      "grad_norm": 0.5136217634136597,
      "learning_rate": 1.1247780248204665e-05,
      "loss": 2.3734,
      "step": 2037
    },
    {
      "epoch": 0.9347551886251577,
      "grad_norm": 0.4684873964245703,
      "learning_rate": 1.1091600862008333e-05,
      "loss": 2.4387,
      "step": 2038
    },
    {
      "epoch": 0.9352138516225204,
      "grad_norm": 0.4779040554189871,
      "learning_rate": 1.0936501210857652e-05,
      "loss": 2.369,
      "step": 2039
    },
    {
      "epoch": 0.935672514619883,
      "grad_norm": 0.49165568608486476,
      "learning_rate": 1.0782481637284013e-05,
      "loss": 2.4359,
      "step": 2040
    },
    {
      "epoch": 0.9361311776172457,
      "grad_norm": 0.48979486117008797,
      "learning_rate": 1.0629542481433663e-05,
      "loss": 2.3788,
      "step": 2041
    },
    {
      "epoch": 0.9365898406146084,
      "grad_norm": 0.48762914413345154,
      "learning_rate": 1.0477684081066751e-05,
      "loss": 2.4284,
      "step": 2042
    },
    {
      "epoch": 0.9370485036119711,
      "grad_norm": 0.5337274934196439,
      "learning_rate": 1.0326906771556566e-05,
      "loss": 2.469,
      "step": 2043
    },
    {
      "epoch": 0.9375071666093338,
      "grad_norm": 0.47401121011633046,
      "learning_rate": 1.017721088588891e-05,
      "loss": 2.3896,
      "step": 2044
    },
    {
      "epoch": 0.9379658296066965,
      "grad_norm": 0.4540169705108994,
      "learning_rate": 1.0028596754661334e-05,
      "loss": 2.2898,
      "step": 2045
    },
    {
      "epoch": 0.9384244926040591,
      "grad_norm": 0.46708574160040345,
      "learning_rate": 9.881064706082298e-06,
      "loss": 2.3787,
      "step": 2046
    },
    {
      "epoch": 0.9388831556014219,
      "grad_norm": 0.4920069054460907,
      "learning_rate": 9.734615065970454e-06,
      "loss": 2.3543,
      "step": 2047
    },
    {
      "epoch": 0.9393418185987845,
      "grad_norm": 0.4924129618272423,
      "learning_rate": 9.58924815775425e-06,
      "loss": 2.4485,
      "step": 2048
    },
    {
      "epoch": 0.9398004815961473,
      "grad_norm": 0.4723734708273317,
      "learning_rate": 9.444964302470715e-06,
      "loss": 2.3413,
      "step": 2049
    },
    {
      "epoch": 0.9402591445935099,
      "grad_norm": 0.47105878722422306,
      "learning_rate": 9.301763818765018e-06,
      "loss": 2.3778,
      "step": 2050
    },
    {
      "epoch": 0.9407178075908726,
      "grad_norm": 0.47487132648143277,
      "learning_rate": 9.15964702288996e-06,
      "loss": 2.4077,
      "step": 2051
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.49356097114153996,
      "learning_rate": 9.018614228704925e-06,
      "loss": 2.254,
      "step": 2052
    },
    {
      "epoch": 0.941635133585598,
      "grad_norm": 0.4699829228157768,
      "learning_rate": 8.878665747675152e-06,
      "loss": 2.3139,
      "step": 2053
    },
    {
      "epoch": 0.9420937965829607,
      "grad_norm": 0.47715932644381703,
      "learning_rate": 8.739801888871469e-06,
      "loss": 2.3526,
      "step": 2054
    },
    {
      "epoch": 0.9425524595803234,
      "grad_norm": 0.4598583609073547,
      "learning_rate": 8.602022958969336e-06,
      "loss": 2.3996,
      "step": 2055
    },
    {
      "epoch": 0.943011122577686,
      "grad_norm": 0.4778210459354384,
      "learning_rate": 8.465329262248078e-06,
      "loss": 2.3432,
      "step": 2056
    },
    {
      "epoch": 0.9434697855750487,
      "grad_norm": 0.4765887371326737,
      "learning_rate": 8.32972110059027e-06,
      "loss": 2.3501,
      "step": 2057
    },
    {
      "epoch": 0.9439284485724114,
      "grad_norm": 0.46691882916320393,
      "learning_rate": 8.195198773481406e-06,
      "loss": 2.4173,
      "step": 2058
    },
    {
      "epoch": 0.9443871115697741,
      "grad_norm": 0.48395969963785035,
      "learning_rate": 8.061762578008613e-06,
      "loss": 2.3893,
      "step": 2059
    },
    {
      "epoch": 0.9448457745671368,
      "grad_norm": 0.47544247480230456,
      "learning_rate": 7.929412808860559e-06,
      "loss": 2.3497,
      "step": 2060
    },
    {
      "epoch": 0.9453044375644994,
      "grad_norm": 0.49248652388799957,
      "learning_rate": 7.79814975832649e-06,
      "loss": 2.4287,
      "step": 2061
    },
    {
      "epoch": 0.9457631005618622,
      "grad_norm": 0.5050206169494508,
      "learning_rate": 7.667973716295851e-06,
      "loss": 2.3862,
      "step": 2062
    },
    {
      "epoch": 0.9462217635592248,
      "grad_norm": 0.47938102011967865,
      "learning_rate": 7.5388849702571205e-06,
      "loss": 2.3998,
      "step": 2063
    },
    {
      "epoch": 0.9466804265565876,
      "grad_norm": 0.487633846895428,
      "learning_rate": 7.4108838052979185e-06,
      "loss": 2.3525,
      "step": 2064
    },
    {
      "epoch": 0.9471390895539502,
      "grad_norm": 0.47807313093923987,
      "learning_rate": 7.283970504103732e-06,
      "loss": 2.3259,
      "step": 2065
    },
    {
      "epoch": 0.947597752551313,
      "grad_norm": 0.4807232929170701,
      "learning_rate": 7.1581453469575785e-06,
      "loss": 2.3242,
      "step": 2066
    },
    {
      "epoch": 0.9480564155486756,
      "grad_norm": 0.4699379551017127,
      "learning_rate": 7.033408611739456e-06,
      "loss": 2.3579,
      "step": 2067
    },
    {
      "epoch": 0.9485150785460383,
      "grad_norm": 0.5173219284621383,
      "learning_rate": 6.909760573925561e-06,
      "loss": 2.4121,
      "step": 2068
    },
    {
      "epoch": 0.948973741543401,
      "grad_norm": 0.4561860688753469,
      "learning_rate": 6.787201506587626e-06,
      "loss": 2.3217,
      "step": 2069
    },
    {
      "epoch": 0.9494324045407637,
      "grad_norm": 0.472156460861174,
      "learning_rate": 6.66573168039264e-06,
      "loss": 2.4005,
      "step": 2070
    },
    {
      "epoch": 0.9498910675381264,
      "grad_norm": 0.47012160420484295,
      "learning_rate": 6.545351363601959e-06,
      "loss": 2.5071,
      "step": 2071
    },
    {
      "epoch": 0.9503497305354891,
      "grad_norm": 0.47899556123328463,
      "learning_rate": 6.426060822070812e-06,
      "loss": 2.2954,
      "step": 2072
    },
    {
      "epoch": 0.9508083935328517,
      "grad_norm": 0.4622720788385498,
      "learning_rate": 6.3078603192475716e-06,
      "loss": 2.4746,
      "step": 2073
    },
    {
      "epoch": 0.9512670565302144,
      "grad_norm": 0.4937324973973151,
      "learning_rate": 6.1907501161735934e-06,
      "loss": 2.4299,
      "step": 2074
    },
    {
      "epoch": 0.9517257195275771,
      "grad_norm": 0.4791716186299014,
      "learning_rate": 6.074730471482049e-06,
      "loss": 2.3322,
      "step": 2075
    },
    {
      "epoch": 0.9521843825249398,
      "grad_norm": 0.48104424878664753,
      "learning_rate": 5.959801641397755e-06,
      "loss": 2.3192,
      "step": 2076
    },
    {
      "epoch": 0.9526430455223025,
      "grad_norm": 0.47062704803118094,
      "learning_rate": 5.845963879736627e-06,
      "loss": 2.2805,
      "step": 2077
    },
    {
      "epoch": 0.9531017085196651,
      "grad_norm": 0.47289906886251176,
      "learning_rate": 5.733217437904892e-06,
      "loss": 2.3769,
      "step": 2078
    },
    {
      "epoch": 0.9535603715170279,
      "grad_norm": 0.4756135194644181,
      "learning_rate": 5.621562564898597e-06,
      "loss": 2.3596,
      "step": 2079
    },
    {
      "epoch": 0.9540190345143905,
      "grad_norm": 0.4825951537888047,
      "learning_rate": 5.51099950730316e-06,
      "loss": 2.3634,
      "step": 2080
    },
    {
      "epoch": 0.9544776975117533,
      "grad_norm": 0.4591903881489236,
      "learning_rate": 5.401528509292763e-06,
      "loss": 2.4344,
      "step": 2081
    },
    {
      "epoch": 0.9549363605091159,
      "grad_norm": 0.5192732362571026,
      "learning_rate": 5.2931498126298495e-06,
      "loss": 2.4944,
      "step": 2082
    },
    {
      "epoch": 0.9553950235064786,
      "grad_norm": 0.4799223870261892,
      "learning_rate": 5.1858636566645135e-06,
      "loss": 2.379,
      "step": 2083
    },
    {
      "epoch": 0.9558536865038413,
      "grad_norm": 0.4901693018649645,
      "learning_rate": 5.0796702783340035e-06,
      "loss": 2.2535,
      "step": 2084
    },
    {
      "epoch": 0.956312349501204,
      "grad_norm": 0.46302846945927584,
      "learning_rate": 4.97456991216233e-06,
      "loss": 2.3132,
      "step": 2085
    },
    {
      "epoch": 0.9567710124985667,
      "grad_norm": 0.5074565236020775,
      "learning_rate": 4.870562790259325e-06,
      "loss": 2.4344,
      "step": 2086
    },
    {
      "epoch": 0.9572296754959294,
      "grad_norm": 0.4979426159653781,
      "learning_rate": 4.7676491423208625e-06,
      "loss": 2.3304,
      "step": 2087
    },
    {
      "epoch": 0.957688338493292,
      "grad_norm": 0.4761934606463909,
      "learning_rate": 4.66582919562758e-06,
      "loss": 2.4089,
      "step": 2088
    },
    {
      "epoch": 0.9581470014906548,
      "grad_norm": 0.5107671179050187,
      "learning_rate": 4.5651031750448825e-06,
      "loss": 2.4776,
      "step": 2089
    },
    {
      "epoch": 0.9586056644880174,
      "grad_norm": 0.47961977174836384,
      "learning_rate": 4.465471303022217e-06,
      "loss": 2.3531,
      "step": 2090
    },
    {
      "epoch": 0.9590643274853801,
      "grad_norm": 0.4977168612527381,
      "learning_rate": 4.366933799592743e-06,
      "loss": 2.4308,
      "step": 2091
    },
    {
      "epoch": 0.9595229904827428,
      "grad_norm": 0.4953347779627533,
      "learning_rate": 4.269490882372551e-06,
      "loss": 2.3035,
      "step": 2092
    },
    {
      "epoch": 0.9599816534801054,
      "grad_norm": 0.4869051367700915,
      "learning_rate": 4.1731427665606115e-06,
      "loss": 2.4002,
      "step": 2093
    },
    {
      "epoch": 0.9604403164774682,
      "grad_norm": 0.4765805450703824,
      "learning_rate": 4.077889664937884e-06,
      "loss": 2.3538,
      "step": 2094
    },
    {
      "epoch": 0.9608989794748308,
      "grad_norm": 0.4715287269427023,
      "learning_rate": 3.983731787867207e-06,
      "loss": 2.3155,
      "step": 2095
    },
    {
      "epoch": 0.9613576424721936,
      "grad_norm": 0.49057278166400253,
      "learning_rate": 3.890669343292464e-06,
      "loss": 2.4286,
      "step": 2096
    },
    {
      "epoch": 0.9618163054695562,
      "grad_norm": 0.49285814929689414,
      "learning_rate": 3.7987025367384743e-06,
      "loss": 2.4039,
      "step": 2097
    },
    {
      "epoch": 0.962274968466919,
      "grad_norm": 0.5003296247507397,
      "learning_rate": 3.707831571310327e-06,
      "loss": 2.3702,
      "step": 2098
    },
    {
      "epoch": 0.9627336314642816,
      "grad_norm": 0.473109016422707,
      "learning_rate": 3.6180566476929912e-06,
      "loss": 2.3528,
      "step": 2099
    },
    {
      "epoch": 0.9631922944616443,
      "grad_norm": 0.4783408646163997,
      "learning_rate": 3.529377964150815e-06,
      "loss": 2.3553,
      "step": 2100
    },
    {
      "epoch": 0.963650957459007,
      "grad_norm": 0.4829897644858002,
      "learning_rate": 3.441795716527307e-06,
      "loss": 2.4201,
      "step": 2101
    },
    {
      "epoch": 0.9641096204563697,
      "grad_norm": 0.49726708513321427,
      "learning_rate": 3.355310098244302e-06,
      "loss": 2.4019,
      "step": 2102
    },
    {
      "epoch": 0.9645682834537324,
      "grad_norm": 0.4710391098749424,
      "learning_rate": 3.269921300301959e-06,
      "loss": 2.3441,
      "step": 2103
    },
    {
      "epoch": 0.9650269464510951,
      "grad_norm": 0.49095987705698924,
      "learning_rate": 3.1856295112780988e-06,
      "loss": 2.3704,
      "step": 2104
    },
    {
      "epoch": 0.9654856094484577,
      "grad_norm": 0.5000291985970743,
      "learning_rate": 3.102434917327812e-06,
      "loss": 2.408,
      "step": 2105
    },
    {
      "epoch": 0.9659442724458205,
      "grad_norm": 0.4815994520819602,
      "learning_rate": 3.0203377021831292e-06,
      "loss": 2.4766,
      "step": 2106
    },
    {
      "epoch": 0.9664029354431831,
      "grad_norm": 0.4824716806051691,
      "learning_rate": 2.939338047152573e-06,
      "loss": 2.283,
      "step": 2107
    },
    {
      "epoch": 0.9668615984405458,
      "grad_norm": 0.5003809718815126,
      "learning_rate": 2.8594361311206073e-06,
      "loss": 2.3145,
      "step": 2108
    },
    {
      "epoch": 0.9673202614379085,
      "grad_norm": 0.4780407877126396,
      "learning_rate": 2.7806321305475225e-06,
      "loss": 2.3642,
      "step": 2109
    },
    {
      "epoch": 0.9677789244352711,
      "grad_norm": 0.46559479929351816,
      "learning_rate": 2.7029262194688818e-06,
      "loss": 2.3475,
      "step": 2110
    },
    {
      "epoch": 0.9682375874326339,
      "grad_norm": 0.4752375293358689,
      "learning_rate": 2.626318569495134e-06,
      "loss": 2.3888,
      "step": 2111
    },
    {
      "epoch": 0.9686962504299965,
      "grad_norm": 0.4654977298174802,
      "learning_rate": 2.550809349811334e-06,
      "loss": 2.3516,
      "step": 2112
    },
    {
      "epoch": 0.9691549134273593,
      "grad_norm": 0.48243040281143185,
      "learning_rate": 2.476398727176532e-06,
      "loss": 2.3937,
      "step": 2113
    },
    {
      "epoch": 0.9696135764247219,
      "grad_norm": 0.49700950647119696,
      "learning_rate": 2.4030868659237204e-06,
      "loss": 2.4047,
      "step": 2114
    },
    {
      "epoch": 0.9700722394220846,
      "grad_norm": 0.4858668596865693,
      "learning_rate": 2.3308739279593317e-06,
      "loss": 2.3949,
      "step": 2115
    },
    {
      "epoch": 0.9705309024194473,
      "grad_norm": 0.4812172913585234,
      "learning_rate": 2.2597600727626845e-06,
      "loss": 2.3731,
      "step": 2116
    },
    {
      "epoch": 0.97098956541681,
      "grad_norm": 0.4794543657171018,
      "learning_rate": 2.1897454573860387e-06,
      "loss": 2.3614,
      "step": 2117
    },
    {
      "epoch": 0.9714482284141727,
      "grad_norm": 0.4955548452352089,
      "learning_rate": 2.1208302364538746e-06,
      "loss": 2.3445,
      "step": 2118
    },
    {
      "epoch": 0.9719068914115354,
      "grad_norm": 0.4875758417103421,
      "learning_rate": 2.0530145621627804e-06,
      "loss": 2.3712,
      "step": 2119
    },
    {
      "epoch": 0.972365554408898,
      "grad_norm": 0.48690150989465364,
      "learning_rate": 1.9862985842810653e-06,
      "loss": 2.3366,
      "step": 2120
    },
    {
      "epoch": 0.9728242174062608,
      "grad_norm": 0.5003913232604273,
      "learning_rate": 1.920682450148259e-06,
      "loss": 2.3612,
      "step": 2121
    },
    {
      "epoch": 0.9732828804036234,
      "grad_norm": 0.49881395763603337,
      "learning_rate": 1.856166304675111e-06,
      "loss": 2.4372,
      "step": 2122
    },
    {
      "epoch": 0.9737415434009862,
      "grad_norm": 0.48058522441374263,
      "learning_rate": 1.792750290342926e-06,
      "loss": 2.4032,
      "step": 2123
    },
    {
      "epoch": 0.9742002063983488,
      "grad_norm": 0.5011763270636863,
      "learning_rate": 1.7304345472035632e-06,
      "loss": 2.4296,
      "step": 2124
    },
    {
      "epoch": 0.9746588693957114,
      "grad_norm": 0.483896330560638,
      "learning_rate": 1.6692192128788253e-06,
      "loss": 2.3981,
      "step": 2125
    },
    {
      "epoch": 0.9751175323930742,
      "grad_norm": 0.4918075867305239,
      "learning_rate": 1.6091044225604035e-06,
      "loss": 2.4216,
      "step": 2126
    },
    {
      "epoch": 0.9755761953904368,
      "grad_norm": 0.48861867358958544,
      "learning_rate": 1.5500903090094888e-06,
      "loss": 2.3161,
      "step": 2127
    },
    {
      "epoch": 0.9760348583877996,
      "grad_norm": 0.48063336112497473,
      "learning_rate": 1.492177002556383e-06,
      "loss": 2.343,
      "step": 2128
    },
    {
      "epoch": 0.9764935213851622,
      "grad_norm": 0.49900196511345846,
      "learning_rate": 1.4353646311004443e-06,
      "loss": 2.3438,
      "step": 2129
    },
    {
      "epoch": 0.976952184382525,
      "grad_norm": 0.4840273143787097,
      "learning_rate": 1.3796533201094752e-06,
      "loss": 2.3808,
      "step": 2130
    },
    {
      "epoch": 0.9774108473798876,
      "grad_norm": 0.4967515290753237,
      "learning_rate": 1.3250431926197793e-06,
      "loss": 2.4334,
      "step": 2131
    },
    {
      "epoch": 0.9778695103772503,
      "grad_norm": 0.4832077949249092,
      "learning_rate": 1.2715343692356607e-06,
      "loss": 2.4625,
      "step": 2132
    },
    {
      "epoch": 0.978328173374613,
      "grad_norm": 0.4735674520934972,
      "learning_rate": 1.2191269681292582e-06,
      "loss": 2.4399,
      "step": 2133
    },
    {
      "epoch": 0.9787868363719757,
      "grad_norm": 0.5013471365424824,
      "learning_rate": 1.1678211050402676e-06,
      "loss": 2.4445,
      "step": 2134
    },
    {
      "epoch": 0.9792454993693384,
      "grad_norm": 0.489620165708571,
      "learning_rate": 1.117616893275719e-06,
      "loss": 2.4567,
      "step": 2135
    },
    {
      "epoch": 0.9797041623667011,
      "grad_norm": 0.4672471602735747,
      "learning_rate": 1.068514443709534e-06,
      "loss": 2.3525,
      "step": 2136
    },
    {
      "epoch": 0.9801628253640637,
      "grad_norm": 0.5006951655004043,
      "learning_rate": 1.0205138647826905e-06,
      "loss": 2.405,
      "step": 2137
    },
    {
      "epoch": 0.9806214883614265,
      "grad_norm": 0.499867913016459,
      "learning_rate": 9.73615262502503e-07,
      "loss": 2.4637,
      "step": 2138
    },
    {
      "epoch": 0.9810801513587891,
      "grad_norm": 0.49856720563186596,
      "learning_rate": 9.278187404426763e-07,
      "loss": 2.3863,
      "step": 2139
    },
    {
      "epoch": 0.9815388143561519,
      "grad_norm": 0.5039846516506765,
      "learning_rate": 8.831243997431404e-07,
      "loss": 2.4581,
      "step": 2140
    },
    {
      "epoch": 0.9819974773535145,
      "grad_norm": 0.48832168382156604,
      "learning_rate": 8.395323391094944e-07,
      "loss": 2.378,
      "step": 2141
    },
    {
      "epoch": 0.9824561403508771,
      "grad_norm": 0.4612522067474441,
      "learning_rate": 7.970426548131183e-07,
      "loss": 2.3121,
      "step": 2142
    },
    {
      "epoch": 0.9829148033482399,
      "grad_norm": 0.4816693325415478,
      "learning_rate": 7.556554406908389e-07,
      "loss": 2.2392,
      "step": 2143
    },
    {
      "epoch": 0.9833734663456025,
      "grad_norm": 0.5090032453601873,
      "learning_rate": 7.153707881446536e-07,
      "loss": 2.4704,
      "step": 2144
    },
    {
      "epoch": 0.9838321293429653,
      "grad_norm": 0.539122644975833,
      "learning_rate": 6.761887861417293e-07,
      "loss": 2.3013,
      "step": 2145
    },
    {
      "epoch": 0.9842907923403279,
      "grad_norm": 0.5054625265524493,
      "learning_rate": 6.381095212139032e-07,
      "loss": 2.3394,
      "step": 2146
    },
    {
      "epoch": 0.9847494553376906,
      "grad_norm": 0.5119711428326001,
      "learning_rate": 6.011330774577384e-07,
      "loss": 2.4439,
      "step": 2147
    },
    {
      "epoch": 0.9852081183350533,
      "grad_norm": 0.5028205593189838,
      "learning_rate": 5.652595365343016e-07,
      "loss": 2.3564,
      "step": 2148
    },
    {
      "epoch": 0.985666781332416,
      "grad_norm": 0.49210075152730387,
      "learning_rate": 5.304889776688859e-07,
      "loss": 2.4444,
      "step": 2149
    },
    {
      "epoch": 0.9861254443297787,
      "grad_norm": 0.4837327282324651,
      "learning_rate": 4.968214776508994e-07,
      "loss": 2.3985,
      "step": 2150
    },
    {
      "epoch": 0.9865841073271414,
      "grad_norm": 0.4708501538628562,
      "learning_rate": 4.6425711083375454e-07,
      "loss": 2.3256,
      "step": 2151
    },
    {
      "epoch": 0.987042770324504,
      "grad_norm": 0.4706704700835964,
      "learning_rate": 4.3279594913447906e-07,
      "loss": 2.3584,
      "step": 2152
    },
    {
      "epoch": 0.9875014333218668,
      "grad_norm": 0.47810920331231843,
      "learning_rate": 4.02438062033883e-07,
      "loss": 2.3191,
      "step": 2153
    },
    {
      "epoch": 0.9879600963192294,
      "grad_norm": 0.4769743986240949,
      "learning_rate": 3.7318351657616987e-07,
      "loss": 2.2905,
      "step": 2154
    },
    {
      "epoch": 0.9884187593165922,
      "grad_norm": 0.49047668705392505,
      "learning_rate": 3.4503237736882573e-07,
      "loss": 2.387,
      "step": 2155
    },
    {
      "epoch": 0.9888774223139548,
      "grad_norm": 0.5021005091444992,
      "learning_rate": 3.179847065825081e-07,
      "loss": 2.3531,
      "step": 2156
    },
    {
      "epoch": 0.9893360853113176,
      "grad_norm": 0.4737281076344282,
      "learning_rate": 2.9204056395104594e-07,
      "loss": 2.3188,
      "step": 2157
    },
    {
      "epoch": 0.9897947483086802,
      "grad_norm": 0.46690879022081055,
      "learning_rate": 2.672000067709956e-07,
      "loss": 2.2697,
      "step": 2158
    },
    {
      "epoch": 0.9902534113060428,
      "grad_norm": 0.492309125676261,
      "learning_rate": 2.4346308990175204e-07,
      "loss": 2.4091,
      "step": 2159
    },
    {
      "epoch": 0.9907120743034056,
      "grad_norm": 0.4705595243250054,
      "learning_rate": 2.208298657653818e-07,
      "loss": 2.3867,
      "step": 2160
    },
    {
      "epoch": 0.9911707373007682,
      "grad_norm": 0.47122057817613555,
      "learning_rate": 1.9930038434645692e-07,
      "loss": 2.3307,
      "step": 2161
    },
    {
      "epoch": 0.991629400298131,
      "grad_norm": 0.4917659130566456,
      "learning_rate": 1.7887469319205484e-07,
      "loss": 2.3699,
      "step": 2162
    },
    {
      "epoch": 0.9920880632954936,
      "grad_norm": 0.4787920759138479,
      "learning_rate": 1.5955283741142523e-07,
      "loss": 2.4593,
      "step": 2163
    },
    {
      "epoch": 0.9925467262928563,
      "grad_norm": 0.5048522633449655,
      "learning_rate": 1.4133485967615655e-07,
      "loss": 2.4024,
      "step": 2164
    },
    {
      "epoch": 0.993005389290219,
      "grad_norm": 0.5090949181103661,
      "learning_rate": 1.2422080021995407e-07,
      "loss": 2.5048,
      "step": 2165
    },
    {
      "epoch": 0.9934640522875817,
      "grad_norm": 0.4969789807336883,
      "learning_rate": 1.082106968385288e-07,
      "loss": 2.2859,
      "step": 2166
    },
    {
      "epoch": 0.9939227152849444,
      "grad_norm": 0.48150523321259137,
      "learning_rate": 9.330458488959748e-08,
      "loss": 2.4441,
      "step": 2167
    },
    {
      "epoch": 0.9943813782823071,
      "grad_norm": 0.46356855424391735,
      "learning_rate": 7.950249729271608e-08,
      "loss": 2.3189,
      "step": 2168
    },
    {
      "epoch": 0.9948400412796697,
      "grad_norm": 0.49904917403716836,
      "learning_rate": 6.680446452922429e-08,
      "loss": 2.4611,
      "step": 2169
    },
    {
      "epoch": 0.9952987042770325,
      "grad_norm": 0.477242334597859,
      "learning_rate": 5.521051464230098e-08,
      "loss": 2.3639,
      "step": 2170
    },
    {
      "epoch": 0.9957573672743951,
      "grad_norm": 0.49027484859439446,
      "learning_rate": 4.4720673236631206e-08,
      "loss": 2.4169,
      "step": 2171
    },
    {
      "epoch": 0.9962160302717579,
      "grad_norm": 0.48750672082698326,
      "learning_rate": 3.53349634786837e-08,
      "loss": 2.39,
      "step": 2172
    },
    {
      "epoch": 0.9966746932691205,
      "grad_norm": 0.45558942787196766,
      "learning_rate": 2.7053406096433365e-08,
      "loss": 2.4165,
      "step": 2173
    },
    {
      "epoch": 0.9971333562664833,
      "grad_norm": 0.47915422518900447,
      "learning_rate": 1.987601937930572e-08,
      "loss": 2.3707,
      "step": 2174
    },
    {
      "epoch": 0.9975920192638459,
      "grad_norm": 0.48478319079375215,
      "learning_rate": 1.3802819178398984e-08,
      "loss": 2.3861,
      "step": 2175
    },
    {
      "epoch": 0.9980506822612085,
      "grad_norm": 0.478718483210369,
      "learning_rate": 8.833818906039959e-09,
      "loss": 2.2967,
      "step": 2176
    },
    {
      "epoch": 0.9985093452585713,
      "grad_norm": 0.4629474622947143,
      "learning_rate": 4.969029536061598e-09,
      "loss": 2.3922,
      "step": 2177
    },
    {
      "epoch": 0.9989680082559339,
      "grad_norm": 0.47952891100928596,
      "learning_rate": 2.2084596038030037e-09,
      "loss": 2.3876,
      "step": 2178
    },
    {
      "epoch": 0.9994266712532967,
      "grad_norm": 0.48418370099388797,
      "learning_rate": 5.521152057763601e-10,
      "loss": 2.3963,
      "step": 2179
    },
    {
      "epoch": 0.9998853342506593,
      "grad_norm": 0.46918656556551847,
      "learning_rate": 0.0,
      "loss": 2.2985,
      "step": 2180
    },
    {
      "epoch": 0.9998853342506593,
      "step": 2180,
      "total_flos": 1023900197257216.0,
      "train_loss": 2.5577247956477174,
      "train_runtime": 14359.1509,
      "train_samples_per_second": 38.869,
      "train_steps_per_second": 0.152
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 24000,
  "total_flos": 1023900197257216.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}