{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998853342506593,
  "eval_steps": 500,
  "global_step": 2180,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00045866299736268775,
      "grad_norm": 17.943468112468544,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 6.3296,
      "step": 1
    },
    {
      "epoch": 0.0009173259947253755,
      "grad_norm": 15.37635052513414,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 6.3869,
      "step": 2
    },
    {
      "epoch": 0.0013759889920880633,
      "grad_norm": 17.458485034635796,
      "learning_rate": 4.545454545454546e-05,
      "loss": 6.3657,
      "step": 3
    },
    {
      "epoch": 0.001834651989450751,
      "grad_norm": 14.006860134595412,
      "learning_rate": 6.060606060606061e-05,
      "loss": 6.213,
      "step": 4
    },
    {
      "epoch": 0.002293314986813439,
      "grad_norm": 9.162499397872493,
      "learning_rate": 7.575757575757576e-05,
      "loss": 5.9268,
      "step": 5
    },
    {
      "epoch": 0.0027519779841761265,
      "grad_norm": 8.965032779021893,
      "learning_rate": 9.090909090909092e-05,
      "loss": 5.7329,
      "step": 6
    },
    {
      "epoch": 0.0032106409815388145,
      "grad_norm": 6.810998151264161,
      "learning_rate": 0.00010606060606060606,
      "loss": 5.7973,
      "step": 7
    },
    {
      "epoch": 0.003669303978901502,
      "grad_norm": 9.491646751273091,
      "learning_rate": 0.00012121212121212122,
      "loss": 5.6381,
      "step": 8
    },
    {
      "epoch": 0.0041279669762641896,
      "grad_norm": 8.628408297708937,
      "learning_rate": 0.00013636363636363637,
      "loss": 5.494,
      "step": 9
    },
    {
      "epoch": 0.004586629973626878,
      "grad_norm": 11.342875644195386,
      "learning_rate": 0.00015151515151515152,
      "loss": 5.3069,
      "step": 10
    },
    {
      "epoch": 0.0050452929709895655,
      "grad_norm": 7.536793598862285,
      "learning_rate": 0.00016666666666666666,
      "loss": 5.1436,
      "step": 11
    },
    {
      "epoch": 0.005503955968352253,
      "grad_norm": 9.8741568592872,
      "learning_rate": 0.00018181818181818183,
      "loss": 5.1556,
      "step": 12
    },
    {
      "epoch": 0.0059626189657149406,
      "grad_norm": 7.9137421269358095,
      "learning_rate": 0.00019696969696969695,
      "loss": 5.0699,
      "step": 13
    },
    {
      "epoch": 0.006421281963077629,
      "grad_norm": 5.975427648582609,
      "learning_rate": 0.00021212121212121213,
      "loss": 4.9423,
      "step": 14
    },
    {
      "epoch": 0.0068799449604403165,
      "grad_norm": 4.472866753430462,
      "learning_rate": 0.00022727272727272727,
      "loss": 4.8323,
      "step": 15
    },
    {
      "epoch": 0.007338607957803004,
      "grad_norm": 3.281421887763535,
      "learning_rate": 0.00024242424242424245,
      "loss": 4.7216,
      "step": 16
    },
    {
      "epoch": 0.007797270955165692,
      "grad_norm": 2.681635561842019,
      "learning_rate": 0.00025757575757575756,
      "loss": 4.648,
      "step": 17
    },
    {
      "epoch": 0.008255933952528379,
      "grad_norm": 2.6396631554211876,
      "learning_rate": 0.00027272727272727274,
      "loss": 4.6602,
      "step": 18
    },
    {
      "epoch": 0.008714596949891068,
      "grad_norm": 2.003929024074748,
      "learning_rate": 0.0002878787878787879,
      "loss": 4.6751,
      "step": 19
    },
    {
      "epoch": 0.009173259947253756,
      "grad_norm": 3.1879098867019993,
      "learning_rate": 0.00030303030303030303,
      "loss": 4.7859,
      "step": 20
    },
    {
      "epoch": 0.009631922944616443,
      "grad_norm": 2.253700438543604,
      "learning_rate": 0.0003181818181818182,
      "loss": 4.7804,
      "step": 21
    },
    {
      "epoch": 0.010090585941979131,
      "grad_norm": 1.9658048504084786,
      "learning_rate": 0.0003333333333333333,
      "loss": 4.5707,
      "step": 22
    },
    {
      "epoch": 0.010549248939341819,
      "grad_norm": 1.4929479353411832,
      "learning_rate": 0.0003484848484848485,
      "loss": 4.5604,
      "step": 23
    },
    {
      "epoch": 0.011007911936704506,
      "grad_norm": 2.1200736913278106,
      "learning_rate": 0.00036363636363636367,
      "loss": 4.6658,
      "step": 24
    },
    {
      "epoch": 0.011466574934067194,
      "grad_norm": 1.3322048596620872,
      "learning_rate": 0.0003787878787878788,
      "loss": 4.5541,
      "step": 25
    },
    {
      "epoch": 0.011925237931429881,
      "grad_norm": 1.206815147837302,
      "learning_rate": 0.0003939393939393939,
      "loss": 4.5265,
      "step": 26
    },
    {
      "epoch": 0.01238390092879257,
      "grad_norm": 1.2982085725753119,
      "learning_rate": 0.00040909090909090913,
      "loss": 4.5729,
      "step": 27
    },
    {
      "epoch": 0.012842563926155258,
      "grad_norm": 1.16243649449729,
      "learning_rate": 0.00042424242424242425,
      "loss": 4.5193,
      "step": 28
    },
    {
      "epoch": 0.013301226923517945,
      "grad_norm": 1.042820514000287,
      "learning_rate": 0.0004393939393939394,
      "loss": 4.5894,
      "step": 29
    },
    {
      "epoch": 0.013759889920880633,
      "grad_norm": 1.0993857968256853,
      "learning_rate": 0.00045454545454545455,
      "loss": 4.4947,
      "step": 30
    },
    {
      "epoch": 0.01421855291824332,
      "grad_norm": 1.1179769414009475,
      "learning_rate": 0.0004696969696969697,
      "loss": 4.5371,
      "step": 31
    },
    {
      "epoch": 0.014677215915606008,
      "grad_norm": 1.2849725382205683,
      "learning_rate": 0.0004848484848484849,
      "loss": 4.5586,
      "step": 32
    },
    {
      "epoch": 0.015135878912968696,
      "grad_norm": 0.9407090711953392,
      "learning_rate": 0.0005,
      "loss": 4.5201,
      "step": 33
    },
    {
      "epoch": 0.015594541910331383,
      "grad_norm": 1.0642460867357275,
      "learning_rate": 0.0005151515151515151,
      "loss": 4.5229,
      "step": 34
    },
    {
      "epoch": 0.01605320490769407,
      "grad_norm": 0.8783693306843252,
      "learning_rate": 0.0005303030303030302,
      "loss": 4.5384,
      "step": 35
    },
    {
      "epoch": 0.016511867905056758,
      "grad_norm": 1.0310032879858184,
      "learning_rate": 0.0005454545454545455,
      "loss": 4.3707,
      "step": 36
    },
    {
      "epoch": 0.016970530902419446,
      "grad_norm": 0.9213868880531199,
      "learning_rate": 0.0005606060606060606,
      "loss": 4.5035,
      "step": 37
    },
    {
      "epoch": 0.017429193899782137,
      "grad_norm": 0.9395928200378049,
      "learning_rate": 0.0005757575757575758,
      "loss": 4.4727,
      "step": 38
    },
    {
      "epoch": 0.017887856897144824,
      "grad_norm": 0.8310816838632767,
      "learning_rate": 0.0005909090909090909,
      "loss": 4.4838,
      "step": 39
    },
    {
      "epoch": 0.018346519894507512,
      "grad_norm": 1.1115864759899412,
      "learning_rate": 0.0006060606060606061,
      "loss": 4.4584,
      "step": 40
    },
    {
      "epoch": 0.0188051828918702,
      "grad_norm": 0.7949472372193864,
      "learning_rate": 0.0006212121212121212,
      "loss": 4.3822,
      "step": 41
    },
    {
      "epoch": 0.019263845889232887,
      "grad_norm": 0.8220639151622242,
      "learning_rate": 0.0006363636363636364,
      "loss": 4.3888,
      "step": 42
    },
    {
      "epoch": 0.019722508886595574,
      "grad_norm": 0.7555046803200236,
      "learning_rate": 0.0006515151515151515,
      "loss": 4.4688,
      "step": 43
    },
    {
      "epoch": 0.020181171883958262,
      "grad_norm": 0.8523300799938968,
      "learning_rate": 0.0006666666666666666,
      "loss": 4.3164,
      "step": 44
    },
    {
      "epoch": 0.02063983488132095,
      "grad_norm": 0.9700562578058233,
      "learning_rate": 0.0006818181818181818,
      "loss": 4.3547,
      "step": 45
    },
    {
      "epoch": 0.021098497878683637,
      "grad_norm": 0.8424193640157637,
      "learning_rate": 0.000696969696969697,
      "loss": 4.3872,
      "step": 46
    },
    {
      "epoch": 0.021557160876046325,
      "grad_norm": 0.8252355254397621,
      "learning_rate": 0.0007121212121212122,
      "loss": 4.3006,
      "step": 47
    },
    {
      "epoch": 0.022015823873409012,
      "grad_norm": 0.992669108365826,
      "learning_rate": 0.0007272727272727273,
      "loss": 4.3729,
      "step": 48
    },
    {
      "epoch": 0.0224744868707717,
      "grad_norm": 1.1517479786473563,
      "learning_rate": 0.0007424242424242425,
      "loss": 4.494,
      "step": 49
    },
    {
      "epoch": 0.022933149868134387,
      "grad_norm": 0.9456483579965196,
      "learning_rate": 0.0007575757575757576,
      "loss": 4.413,
      "step": 50
    },
    {
      "epoch": 0.023391812865497075,
      "grad_norm": 0.8371170179827339,
      "learning_rate": 0.0007727272727272727,
      "loss": 4.3191,
      "step": 51
    },
    {
      "epoch": 0.023850475862859762,
      "grad_norm": 1.0353308515867952,
      "learning_rate": 0.0007878787878787878,
      "loss": 4.4686,
      "step": 52
    },
    {
      "epoch": 0.024309138860222453,
      "grad_norm": 1.1792131761929867,
      "learning_rate": 0.000803030303030303,
      "loss": 4.4527,
      "step": 53
    },
    {
      "epoch": 0.02476780185758514,
      "grad_norm": 0.8429647763248761,
      "learning_rate": 0.0008181818181818183,
      "loss": 4.3161,
      "step": 54
    },
    {
      "epoch": 0.02522646485494783,
      "grad_norm": 1.0136761963652114,
      "learning_rate": 0.0008333333333333334,
      "loss": 4.3799,
      "step": 55
    },
    {
      "epoch": 0.025685127852310516,
      "grad_norm": 1.0855947497204084,
      "learning_rate": 0.0008484848484848485,
      "loss": 4.436,
      "step": 56
    },
    {
      "epoch": 0.026143790849673203,
      "grad_norm": 1.0801882003645389,
      "learning_rate": 0.0008636363636363636,
      "loss": 4.3537,
      "step": 57
    },
    {
      "epoch": 0.02660245384703589,
      "grad_norm": 1.2147934607417776,
      "learning_rate": 0.0008787878787878789,
      "loss": 4.4511,
      "step": 58
    },
    {
      "epoch": 0.02706111684439858,
      "grad_norm": 1.2771586667288912,
      "learning_rate": 0.000893939393939394,
      "loss": 4.3155,
      "step": 59
    },
    {
      "epoch": 0.027519779841761266,
      "grad_norm": 1.1167931711464905,
      "learning_rate": 0.0009090909090909091,
      "loss": 4.2435,
      "step": 60
    },
    {
      "epoch": 0.027978442839123954,
      "grad_norm": 1.16506449243758,
      "learning_rate": 0.0009242424242424242,
      "loss": 4.1807,
      "step": 61
    },
    {
      "epoch": 0.02843710583648664,
      "grad_norm": 1.180465604163433,
      "learning_rate": 0.0009393939393939394,
      "loss": 4.2587,
      "step": 62
    },
    {
      "epoch": 0.02889576883384933,
      "grad_norm": 1.1490879470490363,
      "learning_rate": 0.0009545454545454546,
      "loss": 4.2236,
      "step": 63
    },
    {
      "epoch": 0.029354431831212016,
      "grad_norm": 1.1376967522563404,
      "learning_rate": 0.0009696969696969698,
      "loss": 4.3637,
      "step": 64
    },
    {
      "epoch": 0.029813094828574704,
      "grad_norm": 1.1117530859082794,
      "learning_rate": 0.000984848484848485,
      "loss": 4.1081,
      "step": 65
    },
    {
      "epoch": 0.03027175782593739,
      "grad_norm": 1.1541927655025008,
      "learning_rate": 0.001,
      "loss": 4.2579,
      "step": 66
    },
    {
      "epoch": 0.03073042082330008,
      "grad_norm": 0.99673951416689,
      "learning_rate": 0.0009999994478847943,
      "loss": 4.189,
      "step": 67
    },
    {
      "epoch": 0.031189083820662766,
      "grad_norm": 1.0093982983617966,
      "learning_rate": 0.0009999977915403962,
      "loss": 4.1036,
      "step": 68
    },
    {
      "epoch": 0.03164774681802546,
      "grad_norm": 1.1813799246369743,
      "learning_rate": 0.0009999950309704639,
      "loss": 4.1838,
      "step": 69
    },
    {
      "epoch": 0.03210640981538814,
      "grad_norm": 1.0718018660111723,
      "learning_rate": 0.000999991166181094,
      "loss": 4.1258,
      "step": 70
    },
    {
      "epoch": 0.03256507281275083,
      "grad_norm": 1.1456400108391478,
      "learning_rate": 0.0009999861971808216,
      "loss": 4.1751,
      "step": 71
    },
    {
      "epoch": 0.033023735810113516,
      "grad_norm": 1.030714570037941,
      "learning_rate": 0.0009999801239806208,
      "loss": 4.1566,
      "step": 72
    },
    {
      "epoch": 0.03348239880747621,
      "grad_norm": 1.078154544136341,
      "learning_rate": 0.0009999729465939035,
      "loss": 4.0486,
      "step": 73
    },
    {
      "epoch": 0.03394106180483889,
      "grad_norm": 1.091672115612937,
      "learning_rate": 0.0009999646650365212,
      "loss": 4.1369,
      "step": 74
    },
    {
      "epoch": 0.03439972480220158,
      "grad_norm": 1.0546477368386238,
      "learning_rate": 0.0009999552793267634,
      "loss": 4.199,
      "step": 75
    },
    {
      "epoch": 0.034858387799564274,
      "grad_norm": 1.0084693367663085,
      "learning_rate": 0.0009999447894853577,
      "loss": 4.0692,
      "step": 76
    },
    {
      "epoch": 0.03531705079692696,
      "grad_norm": 1.1782119999931635,
      "learning_rate": 0.0009999331955354708,
      "loss": 4.1082,
      "step": 77
    },
    {
      "epoch": 0.03577571379428965,
      "grad_norm": 1.0703646143188574,
      "learning_rate": 0.0009999204975027073,
      "loss": 4.0525,
      "step": 78
    },
    {
      "epoch": 0.03623437679165233,
      "grad_norm": 1.022622196026956,
      "learning_rate": 0.0009999066954151103,
      "loss": 4.0004,
      "step": 79
    },
    {
      "epoch": 0.036693039789015024,
      "grad_norm": 1.0589404726522378,
      "learning_rate": 0.0009998917893031614,
      "loss": 4.0798,
      "step": 80
    },
    {
      "epoch": 0.03715170278637771,
      "grad_norm": 1.0619632608049858,
      "learning_rate": 0.0009998757791997801,
      "loss": 4.0281,
      "step": 81
    },
    {
      "epoch": 0.0376103657837404,
      "grad_norm": 1.1629256236506005,
      "learning_rate": 0.0009998586651403238,
      "loss": 4.072,
      "step": 82
    },
    {
      "epoch": 0.03806902878110308,
      "grad_norm": 1.0636197689315767,
      "learning_rate": 0.0009998404471625885,
      "loss": 3.9669,
      "step": 83
    },
    {
      "epoch": 0.038527691778465774,
      "grad_norm": 1.1099963617533926,
      "learning_rate": 0.0009998211253068078,
      "loss": 4.0132,
      "step": 84
    },
    {
      "epoch": 0.03898635477582846,
      "grad_norm": 1.1130968946730606,
      "learning_rate": 0.0009998006996156535,
      "loss": 4.1077,
      "step": 85
    },
    {
      "epoch": 0.03944501777319115,
      "grad_norm": 1.2251228264409124,
      "learning_rate": 0.0009997791701342347,
      "loss": 4.0983,
      "step": 86
    },
    {
      "epoch": 0.03990368077055383,
      "grad_norm": 1.2467558762470141,
      "learning_rate": 0.0009997565369100983,
      "loss": 3.8894,
      "step": 87
    },
    {
      "epoch": 0.040362343767916524,
      "grad_norm": 1.0823988830110767,
      "learning_rate": 0.0009997327999932291,
      "loss": 4.0175,
      "step": 88
    },
    {
      "epoch": 0.04082100676527921,
      "grad_norm": 1.1930955454421674,
      "learning_rate": 0.000999707959436049,
      "loss": 4.03,
      "step": 89
    },
    {
      "epoch": 0.0412796697626419,
      "grad_norm": 1.106891419334658,
      "learning_rate": 0.0009996820152934176,
      "loss": 4.0283,
      "step": 90
    },
    {
      "epoch": 0.04173833276000459,
      "grad_norm": 0.9274933621532563,
      "learning_rate": 0.000999654967622631,
      "loss": 3.8849,
      "step": 91
    },
    {
      "epoch": 0.042196995757367274,
      "grad_norm": 1.355164982857168,
      "learning_rate": 0.0009996268164834238,
      "loss": 3.9319,
      "step": 92
    },
    {
      "epoch": 0.042655658754729965,
      "grad_norm": 1.109267993849281,
      "learning_rate": 0.000999597561937966,
      "loss": 3.957,
      "step": 93
    },
    {
      "epoch": 0.04311432175209265,
      "grad_norm": 1.1224859255788129,
      "learning_rate": 0.0009995672040508656,
      "loss": 3.9557,
      "step": 94
    },
    {
      "epoch": 0.04357298474945534,
      "grad_norm": 1.0750544856335584,
      "learning_rate": 0.0009995357428891662,
      "loss": 3.9366,
      "step": 95
    },
    {
      "epoch": 0.044031647746818024,
      "grad_norm": 0.9961853693806473,
      "learning_rate": 0.0009995031785223491,
      "loss": 4.0171,
      "step": 96
    },
    {
      "epoch": 0.044490310744180715,
      "grad_norm": 1.0489241920566663,
      "learning_rate": 0.000999469511022331,
      "loss": 4.0307,
      "step": 97
    },
    {
      "epoch": 0.0449489737415434,
      "grad_norm": 1.082212870600674,
      "learning_rate": 0.0009994347404634657,
      "loss": 3.9838,
      "step": 98
    },
    {
      "epoch": 0.04540763673890609,
      "grad_norm": 0.965506935638409,
      "learning_rate": 0.0009993988669225423,
      "loss": 3.8962,
      "step": 99
    },
    {
      "epoch": 0.045866299736268774,
      "grad_norm": 1.0276753772058793,
      "learning_rate": 0.000999361890478786,
      "loss": 3.9339,
      "step": 100
    },
    {
      "epoch": 0.046324962733631465,
      "grad_norm": 1.025337096175501,
      "learning_rate": 0.0009993238112138583,
      "loss": 4.0434,
      "step": 101
    },
    {
      "epoch": 0.04678362573099415,
      "grad_norm": 0.9934372861007291,
      "learning_rate": 0.0009992846292118554,
      "loss": 3.7709,
      "step": 102
    },
    {
      "epoch": 0.04724228872835684,
      "grad_norm": 0.8936910953295213,
      "learning_rate": 0.000999244344559309,
      "loss": 3.808,
      "step": 103
    },
    {
      "epoch": 0.047700951725719525,
      "grad_norm": 0.9671939639827456,
      "learning_rate": 0.0009992029573451869,
      "loss": 3.9402,
      "step": 104
    },
    {
      "epoch": 0.048159614723082216,
      "grad_norm": 0.7880848680621161,
      "learning_rate": 0.0009991604676608905,
      "loss": 3.8427,
      "step": 105
    },
    {
      "epoch": 0.04861827772044491,
      "grad_norm": 1.1399698781962697,
      "learning_rate": 0.0009991168756002568,
      "loss": 3.9644,
      "step": 106
    },
    {
      "epoch": 0.04907694071780759,
      "grad_norm": 1.0257308265440117,
      "learning_rate": 0.0009990721812595574,
      "loss": 3.7844,
      "step": 107
    },
    {
      "epoch": 0.04953560371517028,
      "grad_norm": 0.8678450481212964,
      "learning_rate": 0.0009990263847374976,
      "loss": 3.8066,
      "step": 108
    },
    {
      "epoch": 0.049994266712532966,
      "grad_norm": 0.9069935609363584,
      "learning_rate": 0.0009989794861352173,
      "loss": 3.8788,
      "step": 109
    },
    {
      "epoch": 0.05045292970989566,
      "grad_norm": 0.8471683956371697,
      "learning_rate": 0.0009989314855562905,
      "loss": 3.9666,
      "step": 110
    },
    {
      "epoch": 0.05091159270725834,
      "grad_norm": 0.9201578440801265,
      "learning_rate": 0.0009988823831067245,
      "loss": 3.9037,
      "step": 111
    },
    {
      "epoch": 0.05137025570462103,
      "grad_norm": 0.9483953198355056,
      "learning_rate": 0.0009988321788949597,
      "loss": 3.8631,
      "step": 112
    },
    {
      "epoch": 0.051828918701983716,
      "grad_norm": 1.1135998361255406,
      "learning_rate": 0.0009987808730318709,
      "loss": 3.7754,
      "step": 113
    },
    {
      "epoch": 0.05228758169934641,
      "grad_norm": 0.8768048532817939,
      "learning_rate": 0.0009987284656307644,
      "loss": 3.8396,
      "step": 114
    },
    {
      "epoch": 0.05274624469670909,
      "grad_norm": 0.8952510425561575,
      "learning_rate": 0.0009986749568073802,
      "loss": 3.8158,
      "step": 115
    },
    {
      "epoch": 0.05320490769407178,
      "grad_norm": 1.0591351999968774,
      "learning_rate": 0.0009986203466798905,
      "loss": 3.8771,
      "step": 116
    },
    {
      "epoch": 0.053663570691434466,
      "grad_norm": 0.8932298861516204,
      "learning_rate": 0.0009985646353688996,
      "loss": 3.9131,
      "step": 117
    },
    {
      "epoch": 0.05412223368879716,
      "grad_norm": 1.0488907407152332,
      "learning_rate": 0.0009985078229974437,
      "loss": 3.7528,
      "step": 118
    },
    {
      "epoch": 0.05458089668615984,
      "grad_norm": 1.085586226071374,
      "learning_rate": 0.0009984499096909905,
      "loss": 3.8283,
      "step": 119
    },
    {
      "epoch": 0.05503955968352253,
      "grad_norm": 0.9389378156217235,
      "learning_rate": 0.0009983908955774397,
      "loss": 3.8531,
      "step": 120
    },
    {
      "epoch": 0.05549822268088522,
      "grad_norm": 1.020090544805995,
      "learning_rate": 0.0009983307807871211,
      "loss": 3.7849,
      "step": 121
    },
    {
      "epoch": 0.05595688567824791,
      "grad_norm": 0.9611915292872455,
      "learning_rate": 0.0009982695654527965,
      "loss": 3.7226,
      "step": 122
    },
    {
      "epoch": 0.0564155486756106,
      "grad_norm": 0.9284166429969796,
      "learning_rate": 0.0009982072497096571,
      "loss": 3.7787,
      "step": 123
    },
    {
      "epoch": 0.05687421167297328,
      "grad_norm": 0.8844749606318567,
      "learning_rate": 0.000998143833695325,
      "loss": 3.7628,
      "step": 124
    },
    {
      "epoch": 0.05733287467033597,
      "grad_norm": 0.936014470805572,
      "learning_rate": 0.0009980793175498517,
      "loss": 3.7713,
      "step": 125
    },
    {
      "epoch": 0.05779153766769866,
      "grad_norm": 0.8558020058595511,
      "learning_rate": 0.000998013701415719,
      "loss": 3.7691,
      "step": 126
    },
    {
      "epoch": 0.05825020066506135,
      "grad_norm": 0.8498365896947856,
      "learning_rate": 0.0009979469854378372,
      "loss": 3.7135,
      "step": 127
    },
    {
      "epoch": 0.05870886366242403,
      "grad_norm": 0.9240778928667513,
      "learning_rate": 0.000997879169763546,
      "loss": 3.7252,
      "step": 128
    },
    {
      "epoch": 0.05916752665978672,
      "grad_norm": 0.9504749575890826,
      "learning_rate": 0.000997810254542614,
      "loss": 3.7006,
      "step": 129
    },
    {
      "epoch": 0.05962618965714941,
      "grad_norm": 0.823566106403532,
      "learning_rate": 0.0009977402399272374,
      "loss": 3.7041,
      "step": 130
    },
    {
      "epoch": 0.0600848526545121,
      "grad_norm": 1.0024073211312763,
      "learning_rate": 0.0009976691260720407,
      "loss": 3.6067,
      "step": 131
    },
    {
      "epoch": 0.06054351565187478,
      "grad_norm": 0.8721875375845128,
      "learning_rate": 0.0009975969131340763,
      "loss": 3.7423,
      "step": 132
    },
    {
      "epoch": 0.06100217864923747,
      "grad_norm": 0.9543726306812474,
      "learning_rate": 0.0009975236012728236,
      "loss": 3.7178,
      "step": 133
    },
    {
      "epoch": 0.06146084164660016,
      "grad_norm": 0.9657134467537887,
      "learning_rate": 0.0009974491906501886,
      "loss": 3.7678,
      "step": 134
    },
    {
      "epoch": 0.06191950464396285,
      "grad_norm": 0.9108848966572082,
      "learning_rate": 0.0009973736814305049,
      "loss": 3.7802,
      "step": 135
    },
    {
      "epoch": 0.06237816764132553,
      "grad_norm": 0.8538479061392519,
      "learning_rate": 0.0009972970737805312,
      "loss": 3.7576,
      "step": 136
    },
    {
      "epoch": 0.06283683063868822,
      "grad_norm": 1.1814454798316567,
      "learning_rate": 0.0009972193678694525,
      "loss": 3.7146,
      "step": 137
    },
    {
      "epoch": 0.06329549363605091,
      "grad_norm": 0.9852051816258127,
      "learning_rate": 0.0009971405638688794,
      "loss": 3.714,
      "step": 138
    },
    {
      "epoch": 0.0637541566334136,
      "grad_norm": 1.1253662130463595,
      "learning_rate": 0.0009970606619528475,
      "loss": 3.6652,
      "step": 139
    },
    {
      "epoch": 0.06421281963077628,
      "grad_norm": 0.9432815103165995,
      "learning_rate": 0.000996979662297817,
      "loss": 3.7062,
      "step": 140
    },
    {
      "epoch": 0.06467148262813897,
      "grad_norm": 1.0048747191681577,
      "learning_rate": 0.0009968975650826721,
      "loss": 3.6694,
      "step": 141
    },
    {
      "epoch": 0.06513014562550166,
      "grad_norm": 0.9458607360887835,
      "learning_rate": 0.000996814370488722,
      "loss": 3.7447,
      "step": 142
    },
    {
      "epoch": 0.06558880862286436,
      "grad_norm": 0.8709426063467003,
      "learning_rate": 0.000996730078699698,
      "loss": 3.6411,
      "step": 143
    },
    {
      "epoch": 0.06604747162022703,
      "grad_norm": 0.884479411310515,
      "learning_rate": 0.0009966446899017558,
      "loss": 3.6754,
      "step": 144
    },
    {
      "epoch": 0.06650613461758972,
      "grad_norm": 1.033243331736565,
      "learning_rate": 0.0009965582042834728,
      "loss": 3.7128,
      "step": 145
    },
    {
      "epoch": 0.06696479761495241,
      "grad_norm": 0.8866260868523056,
      "learning_rate": 0.0009964706220358492,
      "loss": 3.7907,
      "step": 146
    },
    {
      "epoch": 0.0674234606123151,
      "grad_norm": 0.8649042257033452,
      "learning_rate": 0.000996381943352307,
      "loss": 3.6943,
      "step": 147
    },
    {
      "epoch": 0.06788212360967778,
      "grad_norm": 0.9565504809893532,
      "learning_rate": 0.0009962921684286896,
      "loss": 3.729,
      "step": 148
    },
    {
      "epoch": 0.06834078660704047,
      "grad_norm": 0.9849882117839757,
      "learning_rate": 0.0009962012974632614,
      "loss": 3.7303,
      "step": 149
    },
    {
      "epoch": 0.06879944960440317,
      "grad_norm": 1.266046811115115,
      "learning_rate": 0.0009961093306567075,
      "loss": 3.676,
      "step": 150
    },
    {
      "epoch": 0.06925811260176586,
      "grad_norm": 1.033768509923924,
      "learning_rate": 0.0009960162682121328,
      "loss": 3.7319,
      "step": 151
    },
    {
      "epoch": 0.06971677559912855,
      "grad_norm": 1.0972188797614368,
      "learning_rate": 0.0009959221103350623,
      "loss": 3.7095,
      "step": 152
    },
    {
      "epoch": 0.07017543859649122,
      "grad_norm": 1.2356653538738034,
      "learning_rate": 0.0009958268572334394,
      "loss": 3.5514,
      "step": 153
    },
    {
      "epoch": 0.07063410159385392,
      "grad_norm": 1.0544030928567816,
      "learning_rate": 0.0009957305091176274,
      "loss": 3.6601,
      "step": 154
    },
    {
      "epoch": 0.0710927645912166,
      "grad_norm": 1.1288535026555013,
      "learning_rate": 0.0009956330662004075,
      "loss": 3.6998,
      "step": 155
    },
    {
      "epoch": 0.0715514275885793,
      "grad_norm": 1.1227714500911825,
      "learning_rate": 0.0009955345286969779,
      "loss": 3.685,
      "step": 156
    },
    {
      "epoch": 0.07201009058594197,
      "grad_norm": 0.9687928429626916,
      "learning_rate": 0.0009954348968249551,
      "loss": 3.6342,
      "step": 157
    },
    {
      "epoch": 0.07246875358330467,
      "grad_norm": 1.0208666308065228,
      "learning_rate": 0.0009953341708043724,
      "loss": 3.7198,
      "step": 158
    },
    {
      "epoch": 0.07292741658066736,
      "grad_norm": 0.9452468005728822,
      "learning_rate": 0.0009952323508576793,
      "loss": 3.6903,
      "step": 159
    },
    {
      "epoch": 0.07338607957803005,
      "grad_norm": 0.9866908641776916,
      "learning_rate": 0.0009951294372097406,
      "loss": 3.5954,
      "step": 160
    },
    {
      "epoch": 0.07384474257539272,
      "grad_norm": 1.0761509102563886,
      "learning_rate": 0.0009950254300878378,
      "loss": 3.6426,
      "step": 161
    },
    {
      "epoch": 0.07430340557275542,
      "grad_norm": 0.927999939885147,
      "learning_rate": 0.000994920329721666,
      "loss": 3.5949,
      "step": 162
    },
    {
      "epoch": 0.0747620685701181,
      "grad_norm": 1.1895606786617492,
      "learning_rate": 0.0009948141363433356,
      "loss": 3.6591,
      "step": 163
    },
    {
      "epoch": 0.0752207315674808,
      "grad_norm": 0.9717387262303473,
      "learning_rate": 0.00099470685018737,
      "loss": 3.5184,
      "step": 164
    },
    {
      "epoch": 0.07567939456484347,
      "grad_norm": 1.2528295152798554,
      "learning_rate": 0.0009945984714907073,
      "loss": 3.6374,
      "step": 165
    },
    {
      "epoch": 0.07613805756220617,
      "grad_norm": 0.9727515494078616,
      "learning_rate": 0.000994489000492697,
      "loss": 3.6785,
      "step": 166
    },
    {
      "epoch": 0.07659672055956886,
      "grad_norm": 0.9817946500865486,
      "learning_rate": 0.0009943784374351016,
      "loss": 3.7336,
      "step": 167
    },
    {
      "epoch": 0.07705538355693155,
      "grad_norm": 1.0294574157413092,
      "learning_rate": 0.0009942667825620951,
      "loss": 3.5318,
      "step": 168
    },
    {
      "epoch": 0.07751404655429424,
      "grad_norm": 1.1703207647374148,
      "learning_rate": 0.0009941540361202634,
      "loss": 3.5062,
      "step": 169
    },
    {
      "epoch": 0.07797270955165692,
      "grad_norm": 0.8662080073094296,
      "learning_rate": 0.0009940401983586022,
      "loss": 3.6322,
      "step": 170
    },
    {
      "epoch": 0.0784313725490196,
      "grad_norm": 1.3461692864512464,
      "learning_rate": 0.000993925269528518,
      "loss": 3.6932,
      "step": 171
    },
    {
      "epoch": 0.0788900355463823,
      "grad_norm": 1.0206053412141425,
      "learning_rate": 0.0009938092498838265,
      "loss": 3.6839,
      "step": 172
    },
    {
      "epoch": 0.07934869854374499,
      "grad_norm": 1.0253985169343753,
      "learning_rate": 0.0009936921396807524,
      "loss": 3.7172,
      "step": 173
    },
    {
      "epoch": 0.07980736154110767,
      "grad_norm": 0.973552580380324,
      "learning_rate": 0.0009935739391779292,
      "loss": 3.5517,
      "step": 174
    },
    {
      "epoch": 0.08026602453847036,
      "grad_norm": 1.0255791771529974,
      "learning_rate": 0.000993454648636398,
      "loss": 3.5689,
      "step": 175
    },
    {
      "epoch": 0.08072468753583305,
      "grad_norm": 0.9818769120835799,
      "learning_rate": 0.0009933342683196074,
      "loss": 3.6039,
      "step": 176
    },
    {
      "epoch": 0.08118335053319574,
      "grad_norm": 1.1734979764686795,
      "learning_rate": 0.0009932127984934125,
      "loss": 3.6124,
      "step": 177
    },
    {
      "epoch": 0.08164201353055842,
      "grad_norm": 1.6638373232067991,
      "learning_rate": 0.0009930902394260745,
      "loss": 3.6811,
      "step": 178
    },
    {
      "epoch": 0.08210067652792111,
      "grad_norm": 0.9713277537812675,
      "learning_rate": 0.0009929665913882607,
      "loss": 3.5809,
      "step": 179
    },
    {
      "epoch": 0.0825593395252838,
      "grad_norm": 1.054289891314401,
      "learning_rate": 0.0009928418546530425,
      "loss": 3.523,
      "step": 180
    },
    {
      "epoch": 0.08301800252264649,
      "grad_norm": 0.9866592175540915,
      "learning_rate": 0.0009927160294958964,
      "loss": 3.6919,
      "step": 181
    },
    {
      "epoch": 0.08347666552000918,
      "grad_norm": 1.0393912652970285,
      "learning_rate": 0.000992589116194702,
      "loss": 3.6741,
      "step": 182
    },
    {
      "epoch": 0.08393532851737186,
      "grad_norm": 0.9983763338613221,
      "learning_rate": 0.000992461115029743,
      "loss": 3.5409,
      "step": 183
    },
    {
      "epoch": 0.08439399151473455,
      "grad_norm": 1.0170700320874875,
      "learning_rate": 0.000992332026283704,
      "loss": 3.6081,
      "step": 184
    },
    {
      "epoch": 0.08485265451209724,
      "grad_norm": 0.9358020511071979,
      "learning_rate": 0.0009922018502416736,
      "loss": 3.4979,
      "step": 185
    },
    {
      "epoch": 0.08531131750945993,
      "grad_norm": 1.0144694387978337,
      "learning_rate": 0.0009920705871911395,
      "loss": 3.4993,
      "step": 186
    },
    {
      "epoch": 0.08576998050682261,
      "grad_norm": 1.0123876619586385,
      "learning_rate": 0.0009919382374219915,
      "loss": 3.5424,
      "step": 187
    },
    {
      "epoch": 0.0862286435041853,
      "grad_norm": 1.002800551084436,
      "learning_rate": 0.0009918048012265187,
      "loss": 3.4756,
      "step": 188
    },
    {
      "epoch": 0.08668730650154799,
      "grad_norm": 1.0266874242414097,
      "learning_rate": 0.0009916702788994097,
      "loss": 3.5563,
      "step": 189
    },
    {
      "epoch": 0.08714596949891068,
      "grad_norm": 0.9621506656749562,
      "learning_rate": 0.0009915346707377519,
      "loss": 3.5448,
      "step": 190
    },
    {
      "epoch": 0.08760463249627336,
      "grad_norm": 0.9220519256793399,
      "learning_rate": 0.0009913979770410305,
      "loss": 3.5425,
      "step": 191
    },
    {
      "epoch": 0.08806329549363605,
      "grad_norm": 0.9342608929510409,
      "learning_rate": 0.0009912601981111285,
      "loss": 3.5988,
      "step": 192
    },
    {
      "epoch": 0.08852195849099874,
      "grad_norm": 0.9331563994276528,
      "learning_rate": 0.0009911213342523248,
      "loss": 3.6293,
      "step": 193
    },
    {
      "epoch": 0.08898062148836143,
      "grad_norm": 0.9096207642093378,
      "learning_rate": 0.000990981385771295,
      "loss": 3.5508,
      "step": 194
    },
    {
      "epoch": 0.08943928448572411,
      "grad_norm": 0.9360948293125991,
      "learning_rate": 0.00099084035297711,
      "loss": 3.5312,
      "step": 195
    },
    {
      "epoch": 0.0898979474830868,
      "grad_norm": 0.9173702555158931,
      "learning_rate": 0.000990698236181235,
      "loss": 3.5646,
      "step": 196
    },
    {
      "epoch": 0.09035661048044949,
      "grad_norm": 1.0026057601212104,
      "learning_rate": 0.0009905550356975293,
      "loss": 3.5348,
      "step": 197
    },
    {
      "epoch": 0.09081527347781218,
      "grad_norm": 1.0878010939641054,
      "learning_rate": 0.0009904107518422457,
      "loss": 3.5064,
      "step": 198
    },
    {
      "epoch": 0.09127393647517487,
      "grad_norm": 1.1153170793874727,
      "learning_rate": 0.0009902653849340295,
      "loss": 3.5528,
      "step": 199
    },
    {
      "epoch": 0.09173259947253755,
      "grad_norm": 0.8919778594061402,
      "learning_rate": 0.0009901189352939177,
      "loss": 3.5605,
      "step": 200
    },
    {
      "epoch": 0.09219126246990024,
      "grad_norm": 0.9609815704388212,
      "learning_rate": 0.0009899714032453387,
      "loss": 3.5356,
      "step": 201
    },
    {
      "epoch": 0.09264992546726293,
      "grad_norm": 0.9587849449779172,
      "learning_rate": 0.000989822789114111,
      "loss": 3.5073,
      "step": 202
    },
    {
      "epoch": 0.09310858846462562,
      "grad_norm": 0.9622918072785478,
      "learning_rate": 0.0009896730932284434,
      "loss": 3.5276,
      "step": 203
    },
    {
      "epoch": 0.0935672514619883,
      "grad_norm": 1.0854739153536879,
      "learning_rate": 0.0009895223159189332,
      "loss": 3.4892,
      "step": 204
    },
    {
      "epoch": 0.09402591445935099,
      "grad_norm": 0.9868760788433122,
      "learning_rate": 0.0009893704575185663,
      "loss": 3.4964,
      "step": 205
    },
    {
      "epoch": 0.09448457745671368,
      "grad_norm": 1.0213560390902827,
      "learning_rate": 0.000989217518362716,
      "loss": 3.5585,
      "step": 206
    },
    {
      "epoch": 0.09494324045407637,
      "grad_norm": 0.9950732498694792,
      "learning_rate": 0.0009890634987891425,
      "loss": 3.5223,
      "step": 207
    },
    {
      "epoch": 0.09540190345143905,
      "grad_norm": 1.0733074181211057,
      "learning_rate": 0.0009889083991379917,
      "loss": 3.5473,
      "step": 208
    },
    {
      "epoch": 0.09586056644880174,
      "grad_norm": 1.0868662903883068,
      "learning_rate": 0.0009887522197517954,
      "loss": 3.5364,
      "step": 209
    },
    {
      "epoch": 0.09631922944616443,
      "grad_norm": 0.9337776227640621,
      "learning_rate": 0.0009885949609754693,
      "loss": 3.5901,
      "step": 210
    },
    {
      "epoch": 0.09677789244352712,
      "grad_norm": 1.0630869250182386,
      "learning_rate": 0.000988436623156314,
      "loss": 3.4965,
      "step": 211
    },
    {
      "epoch": 0.09723655544088981,
      "grad_norm": 0.9698796825720555,
      "learning_rate": 0.0009882772066440114,
      "loss": 3.4131,
      "step": 212
    },
    {
      "epoch": 0.09769521843825249,
      "grad_norm": 1.096852659549129,
      "learning_rate": 0.0009881167117906276,
      "loss": 3.3258,
      "step": 213
    },
    {
      "epoch": 0.09815388143561518,
      "grad_norm": 1.0354242677558256,
      "learning_rate": 0.0009879551389506084,
      "loss": 3.5042,
      "step": 214
    },
    {
      "epoch": 0.09861254443297787,
      "grad_norm": 1.1361076690470235,
      "learning_rate": 0.0009877924884807814,
      "loss": 3.5549,
      "step": 215
    },
    {
      "epoch": 0.09907120743034056,
      "grad_norm": 1.196974776926783,
      "learning_rate": 0.000987628760740354,
      "loss": 3.5262,
      "step": 216
    },
    {
      "epoch": 0.09952987042770324,
      "grad_norm": 0.8929832114816277,
      "learning_rate": 0.0009874639560909118,
      "loss": 3.4572,
      "step": 217
    },
    {
      "epoch": 0.09998853342506593,
      "grad_norm": 0.9826384524468235,
      "learning_rate": 0.0009872980748964202,
      "loss": 3.4572,
      "step": 218
    },
    {
      "epoch": 0.10044719642242862,
      "grad_norm": 0.9851805083233569,
      "learning_rate": 0.000987131117523221,
      "loss": 3.4248,
      "step": 219
    },
    {
      "epoch": 0.10090585941979131,
      "grad_norm": 1.0401395251996244,
      "learning_rate": 0.000986963084340033,
      "loss": 3.4557,
      "step": 220
    },
    {
      "epoch": 0.10136452241715399,
      "grad_norm": 0.9306261668025227,
      "learning_rate": 0.0009867939757179508,
      "loss": 3.4605,
      "step": 221
    },
    {
      "epoch": 0.10182318541451668,
      "grad_norm": 1.0959562091286412,
      "learning_rate": 0.0009866237920304443,
      "loss": 3.48,
      "step": 222
    },
    {
      "epoch": 0.10228184841187937,
      "grad_norm": 0.8908463891950936,
      "learning_rate": 0.0009864525336533577,
      "loss": 3.5021,
      "step": 223
    },
    {
      "epoch": 0.10274051140924206,
      "grad_norm": 1.0101874429413036,
      "learning_rate": 0.000986280200964908,
      "loss": 3.5292,
      "step": 224
    },
    {
      "epoch": 0.10319917440660474,
      "grad_norm": 1.0186329762225295,
      "learning_rate": 0.0009861067943456856,
      "loss": 3.5433,
      "step": 225
    },
    {
      "epoch": 0.10365783740396743,
      "grad_norm": 0.9141975805791136,
      "learning_rate": 0.000985932314178652,
      "loss": 3.4572,
      "step": 226
    },
    {
      "epoch": 0.10411650040133012,
      "grad_norm": 0.9025322747962011,
      "learning_rate": 0.00098575676084914,
      "loss": 3.4353,
      "step": 227
    },
    {
      "epoch": 0.10457516339869281,
      "grad_norm": 0.9624777280978922,
      "learning_rate": 0.0009855801347448518,
      "loss": 3.4904,
      "step": 228
    },
    {
      "epoch": 0.1050338263960555,
      "grad_norm": 0.9264749183149537,
      "learning_rate": 0.0009854024362558596,
      "loss": 3.4093,
      "step": 229
    },
    {
      "epoch": 0.10549248939341818,
      "grad_norm": 1.0673786574374506,
      "learning_rate": 0.0009852236657746035,
      "loss": 3.4336,
      "step": 230
    },
    {
      "epoch": 0.10595115239078087,
      "grad_norm": 1.0170616023002956,
      "learning_rate": 0.0009850438236958911,
      "loss": 3.3519,
      "step": 231
    },
    {
      "epoch": 0.10640981538814356,
      "grad_norm": 0.8566965987488709,
      "learning_rate": 0.0009848629104168966,
      "loss": 3.4732,
      "step": 232
    },
    {
      "epoch": 0.10686847838550625,
      "grad_norm": 1.0500160358048445,
      "learning_rate": 0.00098468092633716,
      "loss": 3.5272,
      "step": 233
    },
    {
      "epoch": 0.10732714138286893,
      "grad_norm": 0.9388031649168712,
      "learning_rate": 0.0009844978718585855,
      "loss": 3.4785,
      "step": 234
    },
    {
      "epoch": 0.10778580438023162,
      "grad_norm": 0.9129302233642712,
      "learning_rate": 0.0009843137473854423,
      "loss": 3.4344,
      "step": 235
    },
    {
      "epoch": 0.10824446737759431,
      "grad_norm": 0.9877397909343745,
      "learning_rate": 0.000984128553324362,
      "loss": 3.4902,
      "step": 236
    },
    {
      "epoch": 0.108703130374957,
      "grad_norm": 1.0449740690648253,
      "learning_rate": 0.0009839422900843383,
      "loss": 3.3885,
      "step": 237
    },
    {
      "epoch": 0.10916179337231968,
      "grad_norm": 0.8869973655133224,
      "learning_rate": 0.0009837549580767261,
      "loss": 3.5303,
      "step": 238
    },
    {
      "epoch": 0.10962045636968237,
      "grad_norm": 0.925989554528617,
      "learning_rate": 0.0009835665577152411,
      "loss": 3.3575,
      "step": 239
    },
    {
      "epoch": 0.11007911936704506,
      "grad_norm": 0.8995018786736115,
      "learning_rate": 0.000983377089415958,
      "loss": 3.4851,
      "step": 240
    },
    {
      "epoch": 0.11053778236440776,
      "grad_norm": 0.9109442351479277,
      "learning_rate": 0.0009831865535973102,
      "loss": 3.4554,
      "step": 241
    },
    {
      "epoch": 0.11099644536177045,
      "grad_norm": 0.9539553767979682,
      "learning_rate": 0.0009829949506800885,
      "loss": 3.4273,
      "step": 242
    },
    {
      "epoch": 0.11145510835913312,
      "grad_norm": 0.9202794634995562,
      "learning_rate": 0.0009828022810874405,
      "loss": 3.3954,
      "step": 243
    },
    {
      "epoch": 0.11191377135649581,
      "grad_norm": 0.9767617617623686,
      "learning_rate": 0.0009826085452448693,
      "loss": 3.343,
      "step": 244
    },
    {
      "epoch": 0.1123724343538585,
      "grad_norm": 0.9051623583812842,
      "learning_rate": 0.000982413743580233,
      "loss": 3.4253,
      "step": 245
    },
    {
      "epoch": 0.1128310973512212,
      "grad_norm": 1.1386067597620586,
      "learning_rate": 0.0009822178765237436,
      "loss": 3.4025,
      "step": 246
    },
    {
      "epoch": 0.11328976034858387,
      "grad_norm": 0.9694716517182976,
      "learning_rate": 0.0009820209445079654,
      "loss": 3.4368,
      "step": 247
    },
    {
      "epoch": 0.11374842334594656,
      "grad_norm": 0.9606405281571214,
      "learning_rate": 0.0009818229479678158,
      "loss": 3.3339,
      "step": 248
    },
    {
      "epoch": 0.11420708634330926,
      "grad_norm": 1.0804892315049233,
      "learning_rate": 0.0009816238873405615,
      "loss": 3.3826,
      "step": 249
    },
    {
      "epoch": 0.11466574934067195,
      "grad_norm": 1.0803714482305822,
      "learning_rate": 0.0009814237630658207,
      "loss": 3.4845,
      "step": 250
    },
    {
      "epoch": 0.11512441233803462,
      "grad_norm": 0.9388062410386968,
      "learning_rate": 0.00098122257558556,
      "loss": 3.4888,
      "step": 251
    },
    {
      "epoch": 0.11558307533539731,
      "grad_norm": 1.0510719417307892,
      "learning_rate": 0.0009810203253440937,
      "loss": 3.4712,
      "step": 252
    },
    {
      "epoch": 0.11604173833276,
      "grad_norm": 0.9811775225965134,
      "learning_rate": 0.0009808170127880837,
      "loss": 3.4647,
      "step": 253
    },
    {
      "epoch": 0.1165004013301227,
      "grad_norm": 0.9290634962689815,
      "learning_rate": 0.000980612638366538,
      "loss": 3.4522,
      "step": 254
    },
    {
      "epoch": 0.11695906432748537,
      "grad_norm": 1.183777042129007,
      "learning_rate": 0.0009804072025308096,
      "loss": 3.38,
      "step": 255
    },
    {
      "epoch": 0.11741772732484806,
      "grad_norm": 0.9245938790116607,
      "learning_rate": 0.000980200705734595,
      "loss": 3.3494,
      "step": 256
    },
    {
      "epoch": 0.11787639032221076,
      "grad_norm": 0.870672813881699,
      "learning_rate": 0.0009799931484339344,
      "loss": 3.4026,
      "step": 257
    },
    {
      "epoch": 0.11833505331957345,
      "grad_norm": 1.0958583969990392,
      "learning_rate": 0.0009797845310872103,
      "loss": 3.3785,
      "step": 258
    },
    {
      "epoch": 0.11879371631693614,
      "grad_norm": 0.8762089997020831,
      "learning_rate": 0.0009795748541551457,
      "loss": 3.3379,
      "step": 259
    },
    {
      "epoch": 0.11925237931429881,
      "grad_norm": 1.0137341414492238,
      "learning_rate": 0.000979364118100804,
      "loss": 3.4166,
      "step": 260
    },
    {
      "epoch": 0.1197110423116615,
      "grad_norm": 0.9354510176546195,
      "learning_rate": 0.0009791523233895875,
      "loss": 3.4441,
      "step": 261
    },
    {
      "epoch": 0.1201697053090242,
      "grad_norm": 0.8797933714964914,
      "learning_rate": 0.0009789394704892364,
      "loss": 3.364,
      "step": 262
    },
    {
      "epoch": 0.12062836830638689,
      "grad_norm": 0.8991265437357239,
      "learning_rate": 0.0009787255598698282,
      "loss": 3.3606,
      "step": 263
    },
    {
      "epoch": 0.12108703130374956,
      "grad_norm": 0.9852139585627707,
      "learning_rate": 0.0009785105920037758,
      "loss": 3.4977,
      "step": 264
    },
    {
      "epoch": 0.12154569430111226,
      "grad_norm": 1.0722252180491556,
      "learning_rate": 0.0009782945673658275,
      "loss": 3.4472,
      "step": 265
    },
    {
      "epoch": 0.12200435729847495,
      "grad_norm": 0.935762514075292,
      "learning_rate": 0.0009780774864330654,
      "loss": 3.3561,
      "step": 266
    },
    {
      "epoch": 0.12246302029583764,
      "grad_norm": 0.8695850779934661,
      "learning_rate": 0.000977859349684904,
      "loss": 3.3771,
      "step": 267
    },
    {
      "epoch": 0.12292168329320032,
      "grad_norm": 0.867804555508135,
      "learning_rate": 0.00097764015760309,
      "loss": 3.3552,
      "step": 268
    },
    {
      "epoch": 0.123380346290563,
      "grad_norm": 0.9863931860470234,
      "learning_rate": 0.0009774199106717004,
      "loss": 3.449,
      "step": 269
    },
    {
      "epoch": 0.1238390092879257,
      "grad_norm": 0.8132925019563787,
      "learning_rate": 0.0009771986093771417,
      "loss": 3.2641,
      "step": 270
    },
    {
      "epoch": 0.12429767228528839,
      "grad_norm": 0.9742076615977411,
      "learning_rate": 0.0009769762542081496,
      "loss": 3.262,
      "step": 271
    },
    {
      "epoch": 0.12475633528265107,
      "grad_norm": 1.0271922155149515,
      "learning_rate": 0.000976752845655786,
      "loss": 3.3569,
      "step": 272
    },
    {
      "epoch": 0.12521499828001376,
      "grad_norm": 0.936698141875191,
      "learning_rate": 0.0009765283842134411,
      "loss": 3.309,
      "step": 273
    },
    {
      "epoch": 0.12567366127737645,
      "grad_norm": 0.9603625552524708,
      "learning_rate": 0.0009763028703768282,
      "loss": 3.3734,
      "step": 274
    },
    {
      "epoch": 0.12613232427473914,
      "grad_norm": 0.8973055229322328,
      "learning_rate": 0.0009760763046439862,
      "loss": 3.3872,
      "step": 275
    },
    {
      "epoch": 0.12659098727210183,
      "grad_norm": 0.7921445623883779,
      "learning_rate": 0.0009758486875152766,
      "loss": 3.3331,
      "step": 276
    },
    {
      "epoch": 0.12704965026946452,
      "grad_norm": 0.9745272180716665,
      "learning_rate": 0.0009756200194933829,
      "loss": 3.4003,
      "step": 277
    },
    {
      "epoch": 0.1275083132668272,
      "grad_norm": 1.048953542177579,
      "learning_rate": 0.0009753903010833094,
      "loss": 3.3088,
      "step": 278
    },
    {
      "epoch": 0.12796697626418987,
      "grad_norm": 0.9450515916910059,
      "learning_rate": 0.0009751595327923803,
      "loss": 3.3722,
      "step": 279
    },
    {
      "epoch": 0.12842563926155257,
      "grad_norm": 1.120154370216781,
      "learning_rate": 0.0009749277151302382,
      "loss": 3.3922,
      "step": 280
    },
    {
      "epoch": 0.12888430225891526,
      "grad_norm": 0.9469710334847199,
      "learning_rate": 0.0009746948486088435,
      "loss": 3.3701,
      "step": 281
    },
    {
      "epoch": 0.12934296525627795,
      "grad_norm": 0.9371296980229268,
      "learning_rate": 0.0009744609337424727,
      "loss": 3.384,
      "step": 282
    },
    {
      "epoch": 0.12980162825364064,
      "grad_norm": 0.9374560237234816,
      "learning_rate": 0.0009742259710477177,
      "loss": 3.3453,
      "step": 283
    },
    {
      "epoch": 0.13026029125100333,
      "grad_norm": 0.8594709229949161,
      "learning_rate": 0.0009739899610434841,
      "loss": 3.4812,
      "step": 284
    },
    {
      "epoch": 0.13071895424836602,
      "grad_norm": 0.9636302180347635,
      "learning_rate": 0.0009737529042509913,
      "loss": 3.2978,
      "step": 285
    },
    {
      "epoch": 0.1311776172457287,
      "grad_norm": 0.8891219781497066,
      "learning_rate": 0.0009735148011937693,
      "loss": 3.2899,
      "step": 286
    },
    {
      "epoch": 0.13163628024309137,
      "grad_norm": 0.9059733314515668,
      "learning_rate": 0.00097327565239766,
      "loss": 3.4338,
      "step": 287
    },
    {
      "epoch": 0.13209494324045407,
      "grad_norm": 0.8590143546910088,
      "learning_rate": 0.0009730354583908136,
      "loss": 3.3585,
      "step": 288
    },
    {
      "epoch": 0.13255360623781676,
      "grad_norm": 0.7788716874205323,
      "learning_rate": 0.0009727942197036895,
      "loss": 3.3725,
      "step": 289
    },
    {
      "epoch": 0.13301226923517945,
      "grad_norm": 0.9692049562627222,
      "learning_rate": 0.0009725519368690539,
      "loss": 3.4412,
      "step": 290
    },
    {
      "epoch": 0.13347093223254214,
      "grad_norm": 0.9160352829964119,
      "learning_rate": 0.0009723086104219787,
      "loss": 3.2846,
      "step": 291
    },
    {
      "epoch": 0.13392959522990483,
      "grad_norm": 0.8445270333399189,
      "learning_rate": 0.0009720642408998409,
      "loss": 3.3238,
      "step": 292
    },
    {
      "epoch": 0.13438825822726752,
      "grad_norm": 0.894203641385038,
      "learning_rate": 0.0009718188288423211,
      "loss": 3.2802,
      "step": 293
    },
    {
      "epoch": 0.1348469212246302,
      "grad_norm": 0.9078692163788737,
      "learning_rate": 0.0009715723747914022,
      "loss": 3.3336,
      "step": 294
    },
    {
      "epoch": 0.1353055842219929,
      "grad_norm": 0.9077971345983922,
      "learning_rate": 0.0009713248792913685,
      "loss": 3.3717,
      "step": 295
    },
    {
      "epoch": 0.13576424721935557,
      "grad_norm": 0.9614651774889446,
      "learning_rate": 0.0009710763428888037,
      "loss": 3.3747,
      "step": 296
    },
    {
      "epoch": 0.13622291021671826,
      "grad_norm": 0.8789966894052595,
      "learning_rate": 0.0009708267661325909,
      "loss": 3.4087,
      "step": 297
    },
    {
      "epoch": 0.13668157321408095,
      "grad_norm": 0.9124136072277399,
      "learning_rate": 0.0009705761495739107,
      "loss": 3.4205,
      "step": 298
    },
    {
      "epoch": 0.13714023621144364,
      "grad_norm": 1.075664864885312,
      "learning_rate": 0.0009703244937662399,
      "loss": 3.2209,
      "step": 299
    },
    {
      "epoch": 0.13759889920880633,
      "grad_norm": 0.8984520063186793,
      "learning_rate": 0.0009700717992653505,
      "loss": 3.3816,
      "step": 300
    },
    {
      "epoch": 0.13805756220616902,
      "grad_norm": 0.8746138918406968,
      "learning_rate": 0.0009698180666293083,
      "loss": 3.3327,
      "step": 301
    },
    {
      "epoch": 0.1385162252035317,
      "grad_norm": 0.8543207931763592,
      "learning_rate": 0.000969563296418472,
      "loss": 3.3116,
      "step": 302
    },
    {
      "epoch": 0.1389748882008944,
      "grad_norm": 0.8629217932135302,
      "learning_rate": 0.0009693074891954914,
      "loss": 3.3623,
      "step": 303
    },
    {
      "epoch": 0.1394335511982571,
      "grad_norm": 0.8471060103339403,
      "learning_rate": 0.0009690506455253072,
      "loss": 3.3432,
      "step": 304
    },
    {
      "epoch": 0.13989221419561976,
      "grad_norm": 0.9277350428356829,
      "learning_rate": 0.0009687927659751481,
      "loss": 3.2845,
      "step": 305
    },
    {
      "epoch": 0.14035087719298245,
      "grad_norm": 0.8987603496226502,
      "learning_rate": 0.0009685338511145312,
      "loss": 3.2916,
      "step": 306
    },
    {
      "epoch": 0.14080954019034514,
      "grad_norm": 0.9795163709097873,
      "learning_rate": 0.0009682739015152598,
      "loss": 3.2949,
      "step": 307
    },
    {
      "epoch": 0.14126820318770783,
      "grad_norm": 0.8850654519573358,
      "learning_rate": 0.0009680129177514226,
      "loss": 3.2843,
      "step": 308
    },
    {
      "epoch": 0.14172686618507052,
      "grad_norm": 0.8763304079258945,
      "learning_rate": 0.0009677509003993915,
      "loss": 3.3149,
      "step": 309
    },
    {
      "epoch": 0.1421855291824332,
      "grad_norm": 0.8114399447040569,
      "learning_rate": 0.0009674878500378221,
      "loss": 3.3558,
      "step": 310
    },
    {
      "epoch": 0.1426441921797959,
      "grad_norm": 0.8367308698754529,
      "learning_rate": 0.0009672237672476505,
      "loss": 3.2588,
      "step": 311
    },
    {
      "epoch": 0.1431028551771586,
      "grad_norm": 0.8883763951036638,
      "learning_rate": 0.0009669586526120935,
      "loss": 3.3041,
      "step": 312
    },
    {
      "epoch": 0.14356151817452126,
      "grad_norm": 0.9049941821927032,
      "learning_rate": 0.0009666925067166459,
      "loss": 3.369,
      "step": 313
    },
    {
      "epoch": 0.14402018117188395,
      "grad_norm": 0.8780723855010821,
      "learning_rate": 0.000966425330149081,
      "loss": 3.2942,
      "step": 314
    },
    {
      "epoch": 0.14447884416924664,
      "grad_norm": 0.9698543601544211,
      "learning_rate": 0.0009661571234994475,
      "loss": 3.2643,
      "step": 315
    },
    {
      "epoch": 0.14493750716660933,
      "grad_norm": 0.848714324242513,
      "learning_rate": 0.0009658878873600691,
      "loss": 3.278,
      "step": 316
    },
    {
      "epoch": 0.14539617016397202,
      "grad_norm": 1.0117620418622568,
      "learning_rate": 0.0009656176223255438,
      "loss": 3.3625,
      "step": 317
    },
    {
      "epoch": 0.1458548331613347,
      "grad_norm": 0.9640260821398663,
      "learning_rate": 0.000965346328992741,
      "loss": 3.3292,
      "step": 318
    },
    {
      "epoch": 0.1463134961586974,
      "grad_norm": 0.9349724031540078,
      "learning_rate": 0.0009650740079608014,
      "loss": 3.3939,
      "step": 319
    },
    {
      "epoch": 0.1467721591560601,
      "grad_norm": 0.8514650017694239,
      "learning_rate": 0.0009648006598311353,
      "loss": 3.2786,
      "step": 320
    },
    {
      "epoch": 0.14723082215342279,
      "grad_norm": 0.8119953154399092,
      "learning_rate": 0.0009645262852074214,
      "loss": 3.2802,
      "step": 321
    },
    {
      "epoch": 0.14768948515078545,
      "grad_norm": 0.8746991646672977,
      "learning_rate": 0.0009642508846956053,
      "loss": 3.3151,
      "step": 322
    },
    {
      "epoch": 0.14814814814814814,
      "grad_norm": 0.8357544195512239,
      "learning_rate": 0.0009639744589038983,
      "loss": 3.2807,
      "step": 323
    },
    {
      "epoch": 0.14860681114551083,
      "grad_norm": 1.0071970923197076,
      "learning_rate": 0.0009636970084427759,
      "loss": 3.41,
      "step": 324
    },
    {
      "epoch": 0.14906547414287352,
      "grad_norm": 0.8933928878538394,
      "learning_rate": 0.0009634185339249766,
      "loss": 3.3529,
      "step": 325
    },
    {
      "epoch": 0.1495241371402362,
      "grad_norm": 0.9043545049221422,
      "learning_rate": 0.0009631390359655003,
      "loss": 3.3833,
      "step": 326
    },
    {
      "epoch": 0.1499828001375989,
      "grad_norm": 0.7930077653417477,
      "learning_rate": 0.0009628585151816074,
      "loss": 3.2485,
      "step": 327
    },
    {
      "epoch": 0.1504414631349616,
      "grad_norm": 0.9385661326492604,
      "learning_rate": 0.0009625769721928172,
      "loss": 3.3282,
      "step": 328
    },
    {
      "epoch": 0.15090012613232429,
      "grad_norm": 0.8600436860846696,
      "learning_rate": 0.0009622944076209061,
      "loss": 3.2645,
      "step": 329
    },
    {
      "epoch": 0.15135878912968695,
      "grad_norm": 0.9515507861139411,
      "learning_rate": 0.0009620108220899071,
      "loss": 3.3278,
      "step": 330
    },
    {
      "epoch": 0.15181745212704964,
      "grad_norm": 1.00862060449521,
      "learning_rate": 0.0009617262162261075,
      "loss": 3.4021,
      "step": 331
    },
    {
      "epoch": 0.15227611512441233,
      "grad_norm": 0.9417856219120833,
      "learning_rate": 0.0009614405906580486,
      "loss": 3.372,
      "step": 332
    },
    {
      "epoch": 0.15273477812177502,
      "grad_norm": 0.9865515534439623,
      "learning_rate": 0.000961153946016523,
      "loss": 3.34,
      "step": 333
    },
    {
      "epoch": 0.1531934411191377,
      "grad_norm": 0.851264271139028,
      "learning_rate": 0.000960866282934574,
      "loss": 3.2088,
      "step": 334
    },
    {
      "epoch": 0.1536521041165004,
      "grad_norm": 1.1106580897613691,
      "learning_rate": 0.0009605776020474945,
      "loss": 3.3325,
      "step": 335
    },
    {
      "epoch": 0.1541107671138631,
      "grad_norm": 0.8375134611640744,
      "learning_rate": 0.0009602879039928249,
      "loss": 3.3524,
      "step": 336
    },
    {
      "epoch": 0.1545694301112258,
      "grad_norm": 0.81630578764718,
      "learning_rate": 0.0009599971894103521,
      "loss": 3.3025,
      "step": 337
    },
    {
      "epoch": 0.15502809310858848,
      "grad_norm": 0.8922525814886099,
      "learning_rate": 0.0009597054589421077,
      "loss": 3.2667,
      "step": 338
    },
    {
      "epoch": 0.15548675610595114,
      "grad_norm": 0.8049922282518243,
      "learning_rate": 0.0009594127132323669,
      "loss": 3.2523,
      "step": 339
    },
    {
      "epoch": 0.15594541910331383,
      "grad_norm": 0.9101906042818267,
      "learning_rate": 0.0009591189529276474,
      "loss": 3.3559,
      "step": 340
    },
    {
      "epoch": 0.15640408210067652,
      "grad_norm": 1.0664545471843911,
      "learning_rate": 0.0009588241786767072,
      "loss": 3.3107,
      "step": 341
    },
    {
      "epoch": 0.1568627450980392,
      "grad_norm": 0.8400782422652666,
      "learning_rate": 0.0009585283911305436,
      "loss": 3.1569,
      "step": 342
    },
    {
      "epoch": 0.1573214080954019,
      "grad_norm": 1.018849716157435,
      "learning_rate": 0.000958231590942392,
      "loss": 3.2992,
      "step": 343
    },
    {
      "epoch": 0.1577800710927646,
      "grad_norm": 1.1029096547885624,
      "learning_rate": 0.0009579337787677238,
      "loss": 3.3427,
      "step": 344
    },
    {
      "epoch": 0.1582387340901273,
      "grad_norm": 0.9239190041175263,
      "learning_rate": 0.0009576349552642456,
      "loss": 3.4218,
      "step": 345
    },
    {
      "epoch": 0.15869739708748998,
      "grad_norm": 0.8986552305521224,
      "learning_rate": 0.0009573351210918975,
      "loss": 3.2549,
      "step": 346
    },
    {
      "epoch": 0.15915606008485264,
      "grad_norm": 0.7876668209955419,
      "learning_rate": 0.0009570342769128514,
      "loss": 3.2755,
      "step": 347
    },
    {
      "epoch": 0.15961472308221533,
      "grad_norm": 0.8358741935188091,
      "learning_rate": 0.0009567324233915099,
      "loss": 3.2595,
      "step": 348
    },
    {
      "epoch": 0.16007338607957802,
      "grad_norm": 0.8305180991769566,
      "learning_rate": 0.0009564295611945047,
      "loss": 3.329,
      "step": 349
    },
    {
      "epoch": 0.1605320490769407,
      "grad_norm": 0.897029561805895,
      "learning_rate": 0.000956125690990695,
      "loss": 3.2575,
      "step": 350
    },
    {
      "epoch": 0.1609907120743034,
      "grad_norm": 0.8540319657604705,
      "learning_rate": 0.0009558208134511665,
      "loss": 3.3853,
      "step": 351
    },
    {
      "epoch": 0.1614493750716661,
      "grad_norm": 0.7272442904532783,
      "learning_rate": 0.0009555149292492289,
      "loss": 3.2628,
      "step": 352
    },
    {
      "epoch": 0.1619080380690288,
      "grad_norm": 0.8114800263628846,
      "learning_rate": 0.0009552080390604159,
      "loss": 3.2249,
      "step": 353
    },
    {
      "epoch": 0.16236670106639148,
      "grad_norm": 0.8108152068648854,
      "learning_rate": 0.0009549001435624823,
      "loss": 3.2487,
      "step": 354
    },
    {
      "epoch": 0.16282536406375417,
      "grad_norm": 0.8328600389225584,
      "learning_rate": 0.0009545912434354029,
      "loss": 3.2663,
      "step": 355
    },
    {
      "epoch": 0.16328402706111683,
      "grad_norm": 0.8567448086504513,
      "learning_rate": 0.0009542813393613721,
      "loss": 3.3804,
      "step": 356
    },
    {
      "epoch": 0.16374269005847952,
      "grad_norm": 0.8277631366316152,
      "learning_rate": 0.0009539704320248006,
      "loss": 3.3593,
      "step": 357
    },
    {
      "epoch": 0.16420135305584221,
      "grad_norm": 0.9318084529884195,
      "learning_rate": 0.0009536585221123151,
      "loss": 3.1186,
      "step": 358
    },
    {
      "epoch": 0.1646600160532049,
      "grad_norm": 0.8064778784530398,
      "learning_rate": 0.0009533456103127565,
      "loss": 3.4218,
      "step": 359
    },
    {
      "epoch": 0.1651186790505676,
      "grad_norm": 0.8529904907852707,
      "learning_rate": 0.000953031697317178,
      "loss": 3.2932,
      "step": 360
    },
    {
      "epoch": 0.1655773420479303,
      "grad_norm": 0.8342630111542715,
      "learning_rate": 0.0009527167838188445,
      "loss": 3.2616,
      "step": 361
    },
    {
      "epoch": 0.16603600504529298,
      "grad_norm": 0.8017508738205623,
      "learning_rate": 0.0009524008705132299,
      "loss": 3.2767,
      "step": 362
    },
    {
      "epoch": 0.16649466804265567,
      "grad_norm": 0.8823821789660512,
      "learning_rate": 0.0009520839580980166,
      "loss": 3.2056,
      "step": 363
    },
    {
      "epoch": 0.16695333104001836,
      "grad_norm": 0.8307790033685882,
      "learning_rate": 0.0009517660472730929,
      "loss": 3.2331,
      "step": 364
    },
    {
      "epoch": 0.16741199403738102,
      "grad_norm": 0.9498847921970575,
      "learning_rate": 0.0009514471387405526,
      "loss": 3.2925,
      "step": 365
    },
    {
      "epoch": 0.16787065703474371,
      "grad_norm": 0.8575799870089292,
      "learning_rate": 0.0009511272332046926,
      "loss": 3.2366,
      "step": 366
    },
    {
      "epoch": 0.1683293200321064,
      "grad_norm": 0.9555572815621624,
      "learning_rate": 0.0009508063313720119,
      "loss": 3.2917,
      "step": 367
    },
    {
      "epoch": 0.1687879830294691,
      "grad_norm": 0.9038011483961982,
      "learning_rate": 0.0009504844339512095,
      "loss": 3.3,
      "step": 368
    },
    {
      "epoch": 0.1692466460268318,
      "grad_norm": 0.8669622047245216,
      "learning_rate": 0.0009501615416531835,
      "loss": 3.3721,
      "step": 369
    },
    {
      "epoch": 0.16970530902419448,
      "grad_norm": 0.8429383184206596,
      "learning_rate": 0.0009498376551910285,
      "loss": 3.3259,
      "step": 370
    },
    {
      "epoch": 0.17016397202155717,
      "grad_norm": 0.8199966311569317,
      "learning_rate": 0.0009495127752800352,
      "loss": 3.294,
      "step": 371
    },
    {
      "epoch": 0.17062263501891986,
      "grad_norm": 0.8497605912343044,
      "learning_rate": 0.0009491869026376882,
      "loss": 3.3076,
      "step": 372
    },
    {
      "epoch": 0.17108129801628252,
      "grad_norm": 0.7998453843830156,
      "learning_rate": 0.0009488600379836648,
      "loss": 3.2424,
      "step": 373
    },
    {
      "epoch": 0.17153996101364521,
      "grad_norm": 0.9359289746253991,
      "learning_rate": 0.0009485321820398321,
      "loss": 3.1647,
      "step": 374
    },
    {
      "epoch": 0.1719986240110079,
      "grad_norm": 0.8622234920678125,
      "learning_rate": 0.0009482033355302475,
      "loss": 3.3352,
      "step": 375
    },
    {
      "epoch": 0.1724572870083706,
      "grad_norm": 0.8080060445778571,
      "learning_rate": 0.0009478734991811556,
      "loss": 3.2779,
      "step": 376
    },
    {
      "epoch": 0.1729159500057333,
      "grad_norm": 0.9733687146002076,
      "learning_rate": 0.0009475426737209871,
      "loss": 3.4347,
      "step": 377
    },
    {
      "epoch": 0.17337461300309598,
      "grad_norm": 0.7892057142886773,
      "learning_rate": 0.000947210859880357,
      "loss": 3.3371,
      "step": 378
    },
    {
      "epoch": 0.17383327600045867,
      "grad_norm": 0.9788731301870144,
      "learning_rate": 0.0009468780583920631,
      "loss": 3.2073,
      "step": 379
    },
    {
      "epoch": 0.17429193899782136,
      "grad_norm": 0.8593414892672117,
      "learning_rate": 0.0009465442699910846,
      "loss": 3.2018,
      "step": 380
    },
    {
      "epoch": 0.17475060199518405,
      "grad_norm": 0.8761536731488584,
      "learning_rate": 0.0009462094954145801,
      "loss": 3.4282,
      "step": 381
    },
    {
      "epoch": 0.17520926499254671,
      "grad_norm": 0.8959313574181662,
      "learning_rate": 0.0009458737354018859,
      "loss": 3.2887,
      "step": 382
    },
    {
      "epoch": 0.1756679279899094,
      "grad_norm": 0.8848428557537216,
      "learning_rate": 0.000945536990694515,
      "loss": 3.3068,
      "step": 383
    },
    {
      "epoch": 0.1761265909872721,
      "grad_norm": 0.8101397387360879,
      "learning_rate": 0.0009451992620361551,
      "loss": 3.3793,
      "step": 384
    },
    {
      "epoch": 0.1765852539846348,
      "grad_norm": 0.8485661310278648,
      "learning_rate": 0.0009448605501726664,
      "loss": 3.1698,
      "step": 385
    },
    {
      "epoch": 0.17704391698199748,
      "grad_norm": 0.7871622328921006,
      "learning_rate": 0.000944520855852081,
      "loss": 3.3746,
      "step": 386
    },
    {
      "epoch": 0.17750257997936017,
      "grad_norm": 0.8233987732378075,
      "learning_rate": 0.0009441801798246002,
      "loss": 3.1613,
      "step": 387
    },
    {
      "epoch": 0.17796124297672286,
      "grad_norm": 0.8216485749338457,
      "learning_rate": 0.0009438385228425939,
      "loss": 3.3168,
      "step": 388
    },
    {
      "epoch": 0.17841990597408555,
      "grad_norm": 0.7377367672668153,
      "learning_rate": 0.0009434958856605982,
      "loss": 3.3107,
      "step": 389
    },
    {
      "epoch": 0.17887856897144822,
      "grad_norm": 0.8541394836422574,
      "learning_rate": 0.0009431522690353137,
      "loss": 3.3855,
      "step": 390
    },
    {
      "epoch": 0.1793372319688109,
      "grad_norm": 0.8572918326410983,
      "learning_rate": 0.0009428076737256044,
      "loss": 3.2599,
      "step": 391
    },
    {
      "epoch": 0.1797958949661736,
      "grad_norm": 0.7765396375136336,
      "learning_rate": 0.0009424621004924954,
      "loss": 3.2868,
      "step": 392
    },
    {
      "epoch": 0.1802545579635363,
      "grad_norm": 0.8878384020177346,
      "learning_rate": 0.0009421155500991719,
      "loss": 3.2598,
      "step": 393
    },
    {
      "epoch": 0.18071322096089898,
      "grad_norm": 0.8233840290114891,
      "learning_rate": 0.0009417680233109767,
      "loss": 3.3974,
      "step": 394
    },
    {
      "epoch": 0.18117188395826167,
      "grad_norm": 0.7613676496833317,
      "learning_rate": 0.000941419520895409,
      "loss": 3.1149,
      "step": 395
    },
    {
      "epoch": 0.18163054695562436,
      "grad_norm": 0.8826519692576171,
      "learning_rate": 0.0009410700436221229,
      "loss": 3.2488,
      "step": 396
    },
    {
      "epoch": 0.18208920995298705,
      "grad_norm": 0.8400699500261944,
      "learning_rate": 0.0009407195922629252,
      "loss": 3.1871,
      "step": 397
    },
    {
      "epoch": 0.18254787295034974,
      "grad_norm": 0.7743218349004841,
      "learning_rate": 0.000940368167591774,
      "loss": 3.1222,
      "step": 398
    },
    {
      "epoch": 0.1830065359477124,
      "grad_norm": 0.750465562542294,
      "learning_rate": 0.0009400157703847769,
      "loss": 3.217,
      "step": 399
    },
    {
      "epoch": 0.1834651989450751,
      "grad_norm": 0.8411837693078386,
      "learning_rate": 0.0009396624014201895,
      "loss": 3.2629,
      "step": 400
    },
    {
      "epoch": 0.1839238619424378,
      "grad_norm": 0.765352162952569,
      "learning_rate": 0.000939308061478413,
      "loss": 3.2379,
      "step": 401
    },
    {
      "epoch": 0.18438252493980048,
      "grad_norm": 0.8289326973747366,
      "learning_rate": 0.0009389527513419935,
      "loss": 3.2666,
      "step": 402
    },
    {
      "epoch": 0.18484118793716317,
      "grad_norm": 0.8419538238065896,
      "learning_rate": 0.0009385964717956195,
      "loss": 3.2068,
      "step": 403
    },
    {
      "epoch": 0.18529985093452586,
      "grad_norm": 0.7867922426298891,
      "learning_rate": 0.0009382392236261201,
      "loss": 3.2417,
      "step": 404
    },
    {
      "epoch": 0.18575851393188855,
      "grad_norm": 0.7712193045119774,
      "learning_rate": 0.0009378810076224644,
      "loss": 3.2824,
      "step": 405
    },
    {
      "epoch": 0.18621717692925124,
      "grad_norm": 0.9229548015980975,
      "learning_rate": 0.0009375218245757582,
      "loss": 3.2938,
      "step": 406
    },
    {
      "epoch": 0.1866758399266139,
      "grad_norm": 0.8672264377051789,
      "learning_rate": 0.0009371616752792432,
      "loss": 3.2548,
      "step": 407
    },
    {
      "epoch": 0.1871345029239766,
      "grad_norm": 0.8695457896246844,
      "learning_rate": 0.0009368005605282949,
      "loss": 3.2165,
      "step": 408
    },
    {
      "epoch": 0.1875931659213393,
      "grad_norm": 0.8687066721250936,
      "learning_rate": 0.0009364384811204212,
      "loss": 3.273,
      "step": 409
    },
    {
      "epoch": 0.18805182891870198,
      "grad_norm": 0.799920970887805,
      "learning_rate": 0.00093607543785526,
      "loss": 3.3296,
      "step": 410
    },
    {
      "epoch": 0.18851049191606467,
      "grad_norm": 0.9172941302366844,
      "learning_rate": 0.0009357114315345787,
      "loss": 3.2604,
      "step": 411
    },
    {
      "epoch": 0.18896915491342736,
      "grad_norm": 0.9802917338918414,
      "learning_rate": 0.0009353464629622705,
      "loss": 3.2377,
      "step": 412
    },
    {
      "epoch": 0.18942781791079005,
      "grad_norm": 0.9828229493822883,
      "learning_rate": 0.0009349805329443544,
      "loss": 3.2492,
      "step": 413
    },
    {
      "epoch": 0.18988648090815274,
      "grad_norm": 0.8141581921911581,
      "learning_rate": 0.0009346136422889724,
      "loss": 3.1992,
      "step": 414
    },
    {
      "epoch": 0.19034514390551543,
      "grad_norm": 0.9125100360430246,
      "learning_rate": 0.0009342457918063882,
      "loss": 3.2556,
      "step": 415
    },
    {
      "epoch": 0.1908038069028781,
      "grad_norm": 0.9340967630442266,
      "learning_rate": 0.0009338769823089853,
      "loss": 3.2697,
      "step": 416
    },
    {
      "epoch": 0.1912624699002408,
      "grad_norm": 0.8112995210612522,
      "learning_rate": 0.0009335072146112648,
      "loss": 3.2812,
      "step": 417
    },
    {
      "epoch": 0.19172113289760348,
      "grad_norm": 0.8841348443023525,
      "learning_rate": 0.0009331364895298444,
      "loss": 3.4009,
      "step": 418
    },
    {
      "epoch": 0.19217979589496617,
      "grad_norm": 0.9484469975299833,
      "learning_rate": 0.0009327648078834559,
      "loss": 3.1178,
      "step": 419
    },
    {
      "epoch": 0.19263845889232886,
      "grad_norm": 0.790873730654921,
      "learning_rate": 0.0009323921704929434,
      "loss": 3.3582,
      "step": 420
    },
    {
      "epoch": 0.19309712188969155,
      "grad_norm": 0.828062354083055,
      "learning_rate": 0.0009320185781812623,
      "loss": 3.2543,
      "step": 421
    },
    {
      "epoch": 0.19355578488705424,
      "grad_norm": 0.7969911695145364,
      "learning_rate": 0.0009316440317734762,
      "loss": 3.1699,
      "step": 422
    },
    {
      "epoch": 0.19401444788441694,
      "grad_norm": 0.8259505560516446,
      "learning_rate": 0.0009312685320967565,
      "loss": 3.2137,
      "step": 423
    },
    {
      "epoch": 0.19447311088177963,
      "grad_norm": 0.8799527419395632,
      "learning_rate": 0.0009308920799803793,
      "loss": 3.3413,
      "step": 424
    },
    {
      "epoch": 0.1949317738791423,
      "grad_norm": 0.8520499430414086,
      "learning_rate": 0.0009305146762557246,
      "loss": 3.1782,
      "step": 425
    },
    {
      "epoch": 0.19539043687650498,
      "grad_norm": 0.8273304788979766,
      "learning_rate": 0.0009301363217562736,
      "loss": 3.2527,
      "step": 426
    },
    {
      "epoch": 0.19584909987386767,
      "grad_norm": 0.8672742332196675,
      "learning_rate": 0.0009297570173176074,
      "loss": 3.2659,
      "step": 427
    },
    {
      "epoch": 0.19630776287123036,
      "grad_norm": 0.9191974720673417,
      "learning_rate": 0.000929376763777405,
      "loss": 3.3346,
      "step": 428
    },
    {
      "epoch": 0.19676642586859305,
      "grad_norm": 0.8738463183164232,
      "learning_rate": 0.0009289955619754413,
      "loss": 3.2111,
      "step": 429
    },
    {
      "epoch": 0.19722508886595574,
      "grad_norm": 0.7991110867424364,
      "learning_rate": 0.0009286134127535859,
      "loss": 3.2644,
      "step": 430
    },
    {
      "epoch": 0.19768375186331844,
      "grad_norm": 0.8044438102009439,
      "learning_rate": 0.0009282303169558,
      "loss": 3.2366,
      "step": 431
    },
    {
      "epoch": 0.19814241486068113,
      "grad_norm": 0.7569081501274253,
      "learning_rate": 0.0009278462754281359,
      "loss": 3.1843,
      "step": 432
    },
    {
      "epoch": 0.1986010778580438,
      "grad_norm": 0.775466162949329,
      "learning_rate": 0.0009274612890187342,
      "loss": 3.2534,
      "step": 433
    },
    {
      "epoch": 0.19905974085540648,
      "grad_norm": 0.752706333361515,
      "learning_rate": 0.0009270753585778222,
      "loss": 3.2798,
      "step": 434
    },
    {
      "epoch": 0.19951840385276917,
      "grad_norm": 0.7556224601665628,
      "learning_rate": 0.0009266884849577124,
      "loss": 3.1539,
      "step": 435
    },
    {
      "epoch": 0.19997706685013186,
      "grad_norm": 0.8414566126530214,
      "learning_rate": 0.0009263006690127998,
      "loss": 3.1625,
      "step": 436
    },
    {
      "epoch": 0.20043572984749455,
      "grad_norm": 0.7422146681594882,
      "learning_rate": 0.0009259119115995609,
      "loss": 3.2336,
      "step": 437
    },
    {
      "epoch": 0.20089439284485724,
      "grad_norm": 0.7812137759564263,
      "learning_rate": 0.0009255222135765511,
      "loss": 3.2188,
      "step": 438
    },
    {
      "epoch": 0.20135305584221994,
      "grad_norm": 0.885042150230485,
      "learning_rate": 0.0009251315758044032,
      "loss": 3.3744,
      "step": 439
    },
    {
      "epoch": 0.20181171883958263,
      "grad_norm": 0.8495597597458548,
      "learning_rate": 0.0009247399991458255,
      "loss": 3.1964,
      "step": 440
    },
    {
      "epoch": 0.20227038183694532,
      "grad_norm": 0.7607487076266046,
      "learning_rate": 0.0009243474844655996,
      "loss": 3.2587,
      "step": 441
    },
    {
      "epoch": 0.20272904483430798,
      "grad_norm": 0.7603851659459793,
      "learning_rate": 0.0009239540326305791,
      "loss": 3.0967,
      "step": 442
    },
    {
      "epoch": 0.20318770783167067,
      "grad_norm": 0.8354927662703961,
      "learning_rate": 0.0009235596445096864,
      "loss": 3.3614,
      "step": 443
    },
    {
      "epoch": 0.20364637082903336,
      "grad_norm": 0.7857465688600208,
      "learning_rate": 0.0009231643209739127,
      "loss": 3.297,
      "step": 444
    },
    {
      "epoch": 0.20410503382639605,
      "grad_norm": 0.821160029055088,
      "learning_rate": 0.0009227680628963145,
      "loss": 3.2467,
      "step": 445
    },
    {
      "epoch": 0.20456369682375874,
      "grad_norm": 0.7791898282358862,
      "learning_rate": 0.000922370871152012,
      "loss": 3.3508,
      "step": 446
    },
    {
      "epoch": 0.20502235982112144,
      "grad_norm": 0.8327703717807746,
      "learning_rate": 0.0009219727466181877,
      "loss": 3.2559,
      "step": 447
    },
    {
      "epoch": 0.20548102281848413,
      "grad_norm": 0.803456477177174,
      "learning_rate": 0.0009215736901740841,
      "loss": 3.2888,
      "step": 448
    },
    {
      "epoch": 0.20593968581584682,
      "grad_norm": 0.771337497020899,
      "learning_rate": 0.0009211737027010016,
      "loss": 3.3183,
      "step": 449
    },
    {
      "epoch": 0.20639834881320948,
      "grad_norm": 0.8130598139436804,
      "learning_rate": 0.0009207727850822971,
      "loss": 3.2435,
      "step": 450
    },
    {
      "epoch": 0.20685701181057217,
      "grad_norm": 0.8176747099684437,
      "learning_rate": 0.0009203709382033814,
      "loss": 3.2839,
      "step": 451
    },
    {
      "epoch": 0.20731567480793486,
      "grad_norm": 0.8872536913505011,
      "learning_rate": 0.0009199681629517173,
      "loss": 3.2269,
      "step": 452
    },
    {
      "epoch": 0.20777433780529755,
      "grad_norm": 0.7789802790076006,
      "learning_rate": 0.0009195644602168184,
      "loss": 3.2517,
      "step": 453
    },
    {
      "epoch": 0.20823300080266025,
      "grad_norm": 0.7919596443259354,
      "learning_rate": 0.0009191598308902464,
      "loss": 3.2027,
      "step": 454
    },
    {
      "epoch": 0.20869166380002294,
      "grad_norm": 0.8408691092428546,
      "learning_rate": 0.0009187542758656091,
      "loss": 3.2007,
      "step": 455
    },
    {
      "epoch": 0.20915032679738563,
      "grad_norm": 0.8122049246944055,
      "learning_rate": 0.0009183477960385591,
      "loss": 3.1557,
      "step": 456
    },
    {
      "epoch": 0.20960898979474832,
      "grad_norm": 0.7685224580793721,
      "learning_rate": 0.0009179403923067912,
      "loss": 3.3028,
      "step": 457
    },
    {
      "epoch": 0.210067652792111,
      "grad_norm": 0.7862662446884805,
      "learning_rate": 0.0009175320655700406,
      "loss": 3.1897,
      "step": 458
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 0.8099509669822539,
      "learning_rate": 0.0009171228167300805,
      "loss": 3.2202,
      "step": 459
    },
    {
      "epoch": 0.21098497878683636,
      "grad_norm": 0.7750562979164515,
      "learning_rate": 0.0009167126466907215,
      "loss": 3.2332,
      "step": 460
    },
    {
      "epoch": 0.21144364178419905,
      "grad_norm": 0.7856136091817144,
      "learning_rate": 0.0009163015563578074,
      "loss": 3.2598,
      "step": 461
    },
    {
      "epoch": 0.21190230478156175,
      "grad_norm": 0.7961940573105765,
      "learning_rate": 0.0009158895466392158,
      "loss": 3.3081,
      "step": 462
    },
    {
      "epoch": 0.21236096777892444,
      "grad_norm": 0.8593022028788341,
      "learning_rate": 0.0009154766184448535,
      "loss": 3.1453,
      "step": 463
    },
    {
      "epoch": 0.21281963077628713,
      "grad_norm": 0.7977758024207255,
      "learning_rate": 0.0009150627726866568,
      "loss": 3.1503,
      "step": 464
    },
    {
      "epoch": 0.21327829377364982,
      "grad_norm": 0.7589521817947409,
      "learning_rate": 0.000914648010278587,
      "loss": 3.145,
      "step": 465
    },
    {
      "epoch": 0.2137369567710125,
      "grad_norm": 0.9346349933298742,
      "learning_rate": 0.0009142323321366315,
      "loss": 3.3464,
      "step": 466
    },
    {
      "epoch": 0.21419561976837517,
      "grad_norm": 0.7755217785221767,
      "learning_rate": 0.0009138157391787986,
      "loss": 3.3368,
      "step": 467
    },
    {
      "epoch": 0.21465428276573786,
      "grad_norm": 0.7337915047340958,
      "learning_rate": 0.0009133982323251177,
      "loss": 3.2074,
      "step": 468
    },
    {
      "epoch": 0.21511294576310055,
      "grad_norm": 0.7295234780675812,
      "learning_rate": 0.0009129798124976365,
      "loss": 3.3247,
      "step": 469
    },
    {
      "epoch": 0.21557160876046325,
      "grad_norm": 0.7654143183379779,
      "learning_rate": 0.0009125604806204187,
      "loss": 3.2012,
      "step": 470
    },
    {
      "epoch": 0.21603027175782594,
      "grad_norm": 0.7796973993263084,
      "learning_rate": 0.0009121402376195421,
      "loss": 3.1627,
      "step": 471
    },
    {
      "epoch": 0.21648893475518863,
      "grad_norm": 0.7506923564231756,
      "learning_rate": 0.0009117190844230972,
      "loss": 3.2818,
      "step": 472
    },
    {
      "epoch": 0.21694759775255132,
      "grad_norm": 0.8024220935757228,
      "learning_rate": 0.0009112970219611841,
      "loss": 3.1783,
      "step": 473
    },
    {
      "epoch": 0.217406260749914,
      "grad_norm": 0.8424026401423407,
      "learning_rate": 0.0009108740511659115,
      "loss": 3.2422,
      "step": 474
    },
    {
      "epoch": 0.2178649237472767,
      "grad_norm": 0.7550013394705456,
      "learning_rate": 0.0009104501729713935,
      "loss": 3.2226,
      "step": 475
    },
    {
      "epoch": 0.21832358674463936,
      "grad_norm": 0.9830513286716624,
      "learning_rate": 0.0009100253883137488,
      "loss": 3.1828,
      "step": 476
    },
    {
      "epoch": 0.21878224974200206,
      "grad_norm": 0.8089840801761491,
      "learning_rate": 0.0009095996981310974,
      "loss": 3.248,
      "step": 477
    },
    {
      "epoch": 0.21924091273936475,
      "grad_norm": 0.7768576498738755,
      "learning_rate": 0.0009091731033635596,
      "loss": 3.2258,
      "step": 478
    },
    {
      "epoch": 0.21969957573672744,
      "grad_norm": 0.9384934917027223,
      "learning_rate": 0.0009087456049532529,
      "loss": 3.2936,
      "step": 479
    },
    {
      "epoch": 0.22015823873409013,
      "grad_norm": 0.7503271040849723,
      "learning_rate": 0.0009083172038442914,
      "loss": 3.1966,
      "step": 480
    },
    {
      "epoch": 0.22061690173145282,
      "grad_norm": 0.7946516171425095,
      "learning_rate": 0.0009078879009827817,
      "loss": 3.1448,
      "step": 481
    },
    {
      "epoch": 0.2210755647288155,
      "grad_norm": 0.8526826232963316,
      "learning_rate": 0.0009074576973168223,
      "loss": 3.2828,
      "step": 482
    },
    {
      "epoch": 0.2215342277261782,
      "grad_norm": 0.7218664436785944,
      "learning_rate": 0.0009070265937965015,
      "loss": 3.2083,
      "step": 483
    },
    {
      "epoch": 0.2219928907235409,
      "grad_norm": 0.8708978352243796,
      "learning_rate": 0.0009065945913738942,
      "loss": 3.3089,
      "step": 484
    },
    {
      "epoch": 0.22245155372090356,
      "grad_norm": 0.8124919934933394,
      "learning_rate": 0.0009061616910030609,
      "loss": 3.1794,
      "step": 485
    },
    {
      "epoch": 0.22291021671826625,
      "grad_norm": 0.7841535578341474,
      "learning_rate": 0.0009057278936400453,
      "loss": 3.1768,
      "step": 486
    },
    {
      "epoch": 0.22336887971562894,
      "grad_norm": 0.7347134280310341,
      "learning_rate": 0.0009052932002428715,
      "loss": 3.2478,
      "step": 487
    },
    {
      "epoch": 0.22382754271299163,
      "grad_norm": 0.7482558533981621,
      "learning_rate": 0.0009048576117715435,
      "loss": 3.2447,
      "step": 488
    },
    {
      "epoch": 0.22428620571035432,
      "grad_norm": 0.8098272815294238,
      "learning_rate": 0.0009044211291880407,
      "loss": 3.1379,
      "step": 489
    },
    {
      "epoch": 0.224744868707717,
      "grad_norm": 0.8264548631983167,
      "learning_rate": 0.000903983753456318,
      "loss": 3.1662,
      "step": 490
    },
    {
      "epoch": 0.2252035317050797,
      "grad_norm": 0.7403669071712132,
      "learning_rate": 0.0009035454855423026,
      "loss": 3.2145,
      "step": 491
    },
    {
      "epoch": 0.2256621947024424,
      "grad_norm": 0.8174152360821924,
      "learning_rate": 0.0009031063264138922,
      "loss": 3.1612,
      "step": 492
    },
    {
      "epoch": 0.22612085769980506,
      "grad_norm": 0.7978970508290611,
      "learning_rate": 0.0009026662770409522,
      "loss": 3.2073,
      "step": 493
    },
    {
      "epoch": 0.22657952069716775,
      "grad_norm": 0.8172368461488635,
      "learning_rate": 0.0009022253383953147,
      "loss": 3.2201,
      "step": 494
    },
    {
      "epoch": 0.22703818369453044,
      "grad_norm": 0.7724526140509809,
      "learning_rate": 0.0009017835114507753,
      "loss": 3.168,
      "step": 495
    },
    {
      "epoch": 0.22749684669189313,
      "grad_norm": 0.7672639879596312,
      "learning_rate": 0.0009013407971830914,
      "loss": 3.2191,
      "step": 496
    },
    {
      "epoch": 0.22795550968925582,
      "grad_norm": 0.7223081101689751,
      "learning_rate": 0.0009008971965699801,
      "loss": 3.3075,
      "step": 497
    },
    {
      "epoch": 0.2284141726866185,
      "grad_norm": 0.7928908040118596,
      "learning_rate": 0.0009004527105911163,
      "loss": 3.2509,
      "step": 498
    },
    {
      "epoch": 0.2288728356839812,
      "grad_norm": 0.811357678325805,
      "learning_rate": 0.0009000073402281295,
      "loss": 3.2671,
      "step": 499
    },
    {
      "epoch": 0.2293314986813439,
      "grad_norm": 0.7629240069486285,
      "learning_rate": 0.0008995610864646028,
      "loss": 3.1586,
      "step": 500
    },
    {
      "epoch": 0.22979016167870658,
      "grad_norm": 0.8212730983879276,
      "learning_rate": 0.0008991139502860703,
      "loss": 3.224,
      "step": 501
    },
    {
      "epoch": 0.23024882467606925,
      "grad_norm": 0.8361339459772652,
      "learning_rate": 0.0008986659326800146,
      "loss": 3.0862,
      "step": 502
    },
    {
      "epoch": 0.23070748767343194,
      "grad_norm": 0.8740383410115516,
      "learning_rate": 0.0008982170346358651,
      "loss": 3.2594,
      "step": 503
    },
    {
      "epoch": 0.23116615067079463,
      "grad_norm": 0.9110018617158876,
      "learning_rate": 0.0008977672571449956,
      "loss": 3.1468,
      "step": 504
    },
    {
      "epoch": 0.23162481366815732,
      "grad_norm": 0.8190752876706053,
      "learning_rate": 0.0008973166012007217,
      "loss": 3.3273,
      "step": 505
    },
    {
      "epoch": 0.23208347666552,
      "grad_norm": 0.8282419384980617,
      "learning_rate": 0.0008968650677982998,
      "loss": 3.1875,
      "step": 506
    },
    {
      "epoch": 0.2325421396628827,
      "grad_norm": 0.9048664840970058,
      "learning_rate": 0.0008964126579349236,
      "loss": 3.1611,
      "step": 507
    },
    {
      "epoch": 0.2330008026602454,
      "grad_norm": 0.7404522739550113,
      "learning_rate": 0.0008959593726097226,
      "loss": 3.1545,
      "step": 508
    },
    {
      "epoch": 0.23345946565760808,
      "grad_norm": 0.8850179390941623,
      "learning_rate": 0.0008955052128237596,
      "loss": 3.1647,
      "step": 509
    },
    {
      "epoch": 0.23391812865497075,
      "grad_norm": 1.0138415359156905,
      "learning_rate": 0.0008950501795800288,
      "loss": 3.3107,
      "step": 510
    },
    {
      "epoch": 0.23437679165233344,
      "grad_norm": 0.7628170948845595,
      "learning_rate": 0.0008945942738834532,
      "loss": 3.1582,
      "step": 511
    },
    {
      "epoch": 0.23483545464969613,
      "grad_norm": 0.8438787112229201,
      "learning_rate": 0.0008941374967408826,
      "loss": 3.1952,
      "step": 512
    },
    {
      "epoch": 0.23529411764705882,
      "grad_norm": 0.9322426214992021,
      "learning_rate": 0.0008936798491610916,
      "loss": 3.2039,
      "step": 513
    },
    {
      "epoch": 0.2357527806444215,
      "grad_norm": 0.819809906313169,
      "learning_rate": 0.0008932213321547768,
      "loss": 3.2588,
      "step": 514
    },
    {
      "epoch": 0.2362114436417842,
      "grad_norm": 0.8180763902224117,
      "learning_rate": 0.0008927619467345554,
      "loss": 3.1819,
      "step": 515
    },
    {
      "epoch": 0.2366701066391469,
      "grad_norm": 0.8837376258048544,
      "learning_rate": 0.0008923016939149615,
      "loss": 3.2093,
      "step": 516
    },
    {
      "epoch": 0.23712876963650958,
      "grad_norm": 0.7058996288285925,
      "learning_rate": 0.0008918405747124458,
      "loss": 3.131,
      "step": 517
    },
    {
      "epoch": 0.23758743263387228,
      "grad_norm": 0.905141147763153,
      "learning_rate": 0.0008913785901453721,
      "loss": 3.2406,
      "step": 518
    },
    {
      "epoch": 0.23804609563123494,
      "grad_norm": 0.7885989586053459,
      "learning_rate": 0.000890915741234015,
      "loss": 3.2124,
      "step": 519
    },
    {
      "epoch": 0.23850475862859763,
      "grad_norm": 0.7443435283041199,
      "learning_rate": 0.0008904520290005582,
      "loss": 3.2597,
      "step": 520
    },
    {
      "epoch": 0.23896342162596032,
      "grad_norm": 0.9206302586846191,
      "learning_rate": 0.000889987454469092,
      "loss": 3.3058,
      "step": 521
    },
    {
      "epoch": 0.239422084623323,
      "grad_norm": 0.7631954574151686,
      "learning_rate": 0.0008895220186656111,
      "loss": 3.135,
      "step": 522
    },
    {
      "epoch": 0.2398807476206857,
      "grad_norm": 0.7484320148853968,
      "learning_rate": 0.0008890557226180122,
      "loss": 3.1762,
      "step": 523
    },
    {
      "epoch": 0.2403394106180484,
      "grad_norm": 0.821153119432168,
      "learning_rate": 0.0008885885673560921,
      "loss": 3.141,
      "step": 524
    },
    {
      "epoch": 0.24079807361541108,
      "grad_norm": 0.8903202948428712,
      "learning_rate": 0.0008881205539115444,
      "loss": 3.2355,
      "step": 525
    },
    {
      "epoch": 0.24125673661277378,
      "grad_norm": 0.7914662050459248,
      "learning_rate": 0.0008876516833179589,
      "loss": 3.2403,
      "step": 526
    },
    {
      "epoch": 0.24171539961013644,
      "grad_norm": 0.821774430439623,
      "learning_rate": 0.0008871819566108177,
      "loss": 3.1088,
      "step": 527
    },
    {
      "epoch": 0.24217406260749913,
      "grad_norm": 0.7974121541288103,
      "learning_rate": 0.000886711374827494,
      "loss": 3.1499,
      "step": 528
    },
    {
      "epoch": 0.24263272560486182,
      "grad_norm": 0.7350501578039774,
      "learning_rate": 0.0008862399390072491,
      "loss": 3.2367,
      "step": 529
    },
    {
      "epoch": 0.2430913886022245,
      "grad_norm": 0.7374730620784734,
      "learning_rate": 0.0008857676501912305,
      "loss": 3.1355,
      "step": 530
    },
    {
      "epoch": 0.2435500515995872,
      "grad_norm": 0.7465890571358703,
      "learning_rate": 0.0008852945094224697,
      "loss": 3.192,
      "step": 531
    },
    {
      "epoch": 0.2440087145969499,
      "grad_norm": 0.8024979436540938,
      "learning_rate": 0.0008848205177458795,
      "loss": 3.2772,
      "step": 532
    },
    {
      "epoch": 0.24446737759431258,
      "grad_norm": 0.7156207097268859,
      "learning_rate": 0.0008843456762082518,
      "loss": 3.1046,
      "step": 533
    },
    {
      "epoch": 0.24492604059167528,
      "grad_norm": 0.8316844706144888,
      "learning_rate": 0.0008838699858582557,
      "loss": 3.2454,
      "step": 534
    },
    {
      "epoch": 0.24538470358903797,
      "grad_norm": 0.7896174176493035,
      "learning_rate": 0.0008833934477464347,
      "loss": 3.247,
      "step": 535
    },
    {
      "epoch": 0.24584336658640063,
      "grad_norm": 0.7553528180956229,
      "learning_rate": 0.0008829160629252045,
      "loss": 3.2102,
      "step": 536
    },
    {
      "epoch": 0.24630202958376332,
      "grad_norm": 0.7545761777151194,
      "learning_rate": 0.0008824378324488509,
      "loss": 3.2633,
      "step": 537
    },
    {
      "epoch": 0.246760692581126,
      "grad_norm": 0.7173682918983624,
      "learning_rate": 0.0008819587573735268,
      "loss": 3.273,
      "step": 538
    },
    {
      "epoch": 0.2472193555784887,
      "grad_norm": 0.7202655803387259,
      "learning_rate": 0.0008814788387572513,
      "loss": 3.0775,
      "step": 539
    },
    {
      "epoch": 0.2476780185758514,
      "grad_norm": 0.7316907815803296,
      "learning_rate": 0.0008809980776599053,
      "loss": 3.113,
      "step": 540
    },
    {
      "epoch": 0.24813668157321409,
      "grad_norm": 0.8033671995504739,
      "learning_rate": 0.0008805164751432312,
      "loss": 3.0837,
      "step": 541
    },
    {
      "epoch": 0.24859534457057678,
      "grad_norm": 0.7252693026738362,
      "learning_rate": 0.0008800340322708292,
      "loss": 3.2954,
      "step": 542
    },
    {
      "epoch": 0.24905400756793947,
      "grad_norm": 0.8032164676349077,
      "learning_rate": 0.0008795507501081555,
      "loss": 3.1033,
      "step": 543
    },
    {
      "epoch": 0.24951267056530213,
      "grad_norm": 0.7518755578856395,
      "learning_rate": 0.0008790666297225196,
      "loss": 3.0513,
      "step": 544
    },
    {
      "epoch": 0.24997133356266482,
      "grad_norm": 0.8113229721067364,
      "learning_rate": 0.0008785816721830829,
      "loss": 3.2257,
      "step": 545
    },
    {
      "epoch": 0.2504299965600275,
      "grad_norm": 0.7403625609940983,
      "learning_rate": 0.0008780958785608546,
      "loss": 3.282,
      "step": 546
    },
    {
      "epoch": 0.2508886595573902,
      "grad_norm": 0.9228097606998446,
      "learning_rate": 0.0008776092499286912,
      "loss": 3.1305,
      "step": 547
    },
    {
      "epoch": 0.2513473225547529,
      "grad_norm": 0.7377326271793788,
      "learning_rate": 0.0008771217873612929,
      "loss": 3.107,
      "step": 548
    },
    {
      "epoch": 0.2518059855521156,
      "grad_norm": 0.8020546374974455,
      "learning_rate": 0.0008766334919352017,
      "loss": 3.2873,
      "step": 549
    },
    {
      "epoch": 0.2522646485494783,
      "grad_norm": 0.709491139683611,
      "learning_rate": 0.0008761443647287987,
      "loss": 3.1307,
      "step": 550
    },
    {
      "epoch": 0.25272331154684097,
      "grad_norm": 0.7981675117118613,
      "learning_rate": 0.0008756544068223026,
      "loss": 3.2333,
      "step": 551
    },
    {
      "epoch": 0.25318197454420366,
      "grad_norm": 0.8095690814013382,
      "learning_rate": 0.0008751636192977659,
      "loss": 3.1566,
      "step": 552
    },
    {
      "epoch": 0.25364063754156635,
      "grad_norm": 0.7191524426469637,
      "learning_rate": 0.0008746720032390737,
      "loss": 3.286,
      "step": 553
    },
    {
      "epoch": 0.25409930053892904,
      "grad_norm": 0.7902033576066148,
      "learning_rate": 0.0008741795597319408,
      "loss": 3.1941,
      "step": 554
    },
    {
      "epoch": 0.25455796353629173,
      "grad_norm": 0.9062137496147414,
      "learning_rate": 0.0008736862898639095,
      "loss": 3.2131,
      "step": 555
    },
    {
      "epoch": 0.2550166265336544,
      "grad_norm": 0.7235613857691086,
      "learning_rate": 0.0008731921947243468,
      "loss": 3.2564,
      "step": 556
    },
    {
      "epoch": 0.25547528953101706,
      "grad_norm": 0.716920699250594,
      "learning_rate": 0.0008726972754044427,
      "loss": 3.2383,
      "step": 557
    },
    {
      "epoch": 0.25593395252837975,
      "grad_norm": 0.7678585151417641,
      "learning_rate": 0.0008722015329972069,
      "loss": 3.2907,
      "step": 558
    },
    {
      "epoch": 0.25639261552574244,
      "grad_norm": 0.7512907074881263,
      "learning_rate": 0.0008717049685974672,
      "loss": 3.1816,
      "step": 559
    },
    {
      "epoch": 0.25685127852310513,
      "grad_norm": 0.8428344773656242,
      "learning_rate": 0.0008712075833018665,
      "loss": 3.2265,
      "step": 560
    },
    {
      "epoch": 0.2573099415204678,
      "grad_norm": 0.7932708921966066,
      "learning_rate": 0.0008707093782088608,
      "loss": 3.1825,
      "step": 561
    },
    {
      "epoch": 0.2577686045178305,
      "grad_norm": 0.8494457317787825,
      "learning_rate": 0.0008702103544187167,
      "loss": 3.1034,
      "step": 562
    },
    {
      "epoch": 0.2582272675151932,
      "grad_norm": 0.6933934366534206,
      "learning_rate": 0.0008697105130335085,
      "loss": 3.2135,
      "step": 563
    },
    {
      "epoch": 0.2586859305125559,
      "grad_norm": 0.8222143631412776,
      "learning_rate": 0.0008692098551571164,
      "loss": 3.2841,
      "step": 564
    },
    {
      "epoch": 0.2591445935099186,
      "grad_norm": 0.858373610239891,
      "learning_rate": 0.0008687083818952235,
      "loss": 3.2681,
      "step": 565
    },
    {
      "epoch": 0.2596032565072813,
      "grad_norm": 0.7110609959014258,
      "learning_rate": 0.0008682060943553143,
      "loss": 3.1317,
      "step": 566
    },
    {
      "epoch": 0.26006191950464397,
      "grad_norm": 0.7608331362782305,
      "learning_rate": 0.0008677029936466707,
      "loss": 3.2263,
      "step": 567
    },
    {
      "epoch": 0.26052058250200666,
      "grad_norm": 0.8697206631659785,
      "learning_rate": 0.0008671990808803711,
      "loss": 3.3013,
      "step": 568
    },
    {
      "epoch": 0.26097924549936935,
      "grad_norm": 0.7230067056899093,
      "learning_rate": 0.0008666943571692871,
      "loss": 3.1929,
      "step": 569
    },
    {
      "epoch": 0.26143790849673204,
      "grad_norm": 0.7361295367894525,
      "learning_rate": 0.0008661888236280813,
      "loss": 3.2796,
      "step": 570
    },
    {
      "epoch": 0.26189657149409473,
      "grad_norm": 0.8517918343590487,
      "learning_rate": 0.0008656824813732045,
      "loss": 3.0609,
      "step": 571
    },
    {
      "epoch": 0.2623552344914574,
      "grad_norm": 0.6741490907803892,
      "learning_rate": 0.000865175331522894,
      "loss": 3.2076,
      "step": 572
    },
    {
      "epoch": 0.2628138974888201,
      "grad_norm": 0.7296032164360354,
      "learning_rate": 0.0008646673751971703,
      "loss": 3.064,
      "step": 573
    },
    {
      "epoch": 0.26327256048618275,
      "grad_norm": 0.7729668123820974,
      "learning_rate": 0.000864158613517835,
      "loss": 3.1232,
      "step": 574
    },
    {
      "epoch": 0.26373122348354544,
      "grad_norm": 0.689057145165956,
      "learning_rate": 0.0008636490476084681,
      "loss": 3.2893,
      "step": 575
    },
    {
      "epoch": 0.26418988648090813,
      "grad_norm": 0.8076677392321719,
      "learning_rate": 0.0008631386785944264,
      "loss": 3.1426,
      "step": 576
    },
    {
      "epoch": 0.2646485494782708,
      "grad_norm": 0.8003435446778845,
      "learning_rate": 0.0008626275076028397,
      "loss": 3.2509,
      "step": 577
    },
    {
      "epoch": 0.2651072124756335,
      "grad_norm": 0.7236798400840557,
      "learning_rate": 0.0008621155357626091,
      "loss": 3.2549,
      "step": 578
    },
    {
      "epoch": 0.2655658754729962,
      "grad_norm": 0.7236686097728262,
      "learning_rate": 0.0008616027642044042,
      "loss": 3.2178,
      "step": 579
    },
    {
      "epoch": 0.2660245384703589,
      "grad_norm": 0.7928445907892355,
      "learning_rate": 0.000861089194060661,
      "loss": 3.271,
      "step": 580
    },
    {
      "epoch": 0.2664832014677216,
      "grad_norm": 0.7419218516287908,
      "learning_rate": 0.000860574826465579,
      "loss": 3.1576,
      "step": 581
    },
    {
      "epoch": 0.2669418644650843,
      "grad_norm": 0.7129258103653524,
      "learning_rate": 0.0008600596625551191,
      "loss": 3.2735,
      "step": 582
    },
    {
      "epoch": 0.26740052746244697,
      "grad_norm": 0.7780282842844888,
      "learning_rate": 0.0008595437034670006,
      "loss": 3.2029,
      "step": 583
    },
    {
      "epoch": 0.26785919045980966,
      "grad_norm": 0.8287343427457244,
      "learning_rate": 0.0008590269503406985,
      "loss": 3.1495,
      "step": 584
    },
    {
      "epoch": 0.26831785345717235,
      "grad_norm": 0.6750405715692653,
      "learning_rate": 0.0008585094043174423,
      "loss": 3.2363,
      "step": 585
    },
    {
      "epoch": 0.26877651645453504,
      "grad_norm": 0.777744852943111,
      "learning_rate": 0.0008579910665402118,
      "loss": 3.1721,
      "step": 586
    },
    {
      "epoch": 0.26923517945189773,
      "grad_norm": 0.8513730090398087,
      "learning_rate": 0.000857471938153736,
      "loss": 3.2562,
      "step": 587
    },
    {
      "epoch": 0.2696938424492604,
      "grad_norm": 0.6686488084412308,
      "learning_rate": 0.0008569520203044892,
      "loss": 3.1811,
      "step": 588
    },
    {
      "epoch": 0.2701525054466231,
      "grad_norm": 0.749204561009974,
      "learning_rate": 0.0008564313141406901,
      "loss": 3.152,
      "step": 589
    },
    {
      "epoch": 0.2706111684439858,
      "grad_norm": 0.7910236483505733,
      "learning_rate": 0.0008559098208122973,
      "loss": 3.1194,
      "step": 590
    },
    {
      "epoch": 0.2710698314413485,
      "grad_norm": 0.8311215799706031,
      "learning_rate": 0.0008553875414710089,
      "loss": 3.22,
      "step": 591
    },
    {
      "epoch": 0.27152849443871113,
      "grad_norm": 0.751212799028112,
      "learning_rate": 0.0008548644772702579,
      "loss": 3.0924,
      "step": 592
    },
    {
      "epoch": 0.2719871574360738,
      "grad_norm": 0.9028973515637921,
      "learning_rate": 0.0008543406293652116,
      "loss": 3.2082,
      "step": 593
    },
    {
      "epoch": 0.2724458204334365,
      "grad_norm": 0.819476335193976,
      "learning_rate": 0.0008538159989127671,
      "loss": 3.2281,
      "step": 594
    },
    {
      "epoch": 0.2729044834307992,
      "grad_norm": 0.6527220103823412,
      "learning_rate": 0.0008532905870715505,
      "loss": 3.1384,
      "step": 595
    },
    {
      "epoch": 0.2733631464281619,
      "grad_norm": 0.9089037051146103,
      "learning_rate": 0.0008527643950019131,
      "loss": 3.2255,
      "step": 596
    },
    {
      "epoch": 0.2738218094255246,
      "grad_norm": 0.7918286141825132,
      "learning_rate": 0.0008522374238659296,
      "loss": 3.1318,
      "step": 597
    },
    {
      "epoch": 0.2742804724228873,
      "grad_norm": 0.7278477121515728,
      "learning_rate": 0.0008517096748273951,
      "loss": 3.1033,
      "step": 598
    },
    {
      "epoch": 0.27473913542024997,
      "grad_norm": 0.7534124150119669,
      "learning_rate": 0.0008511811490518227,
      "loss": 3.1596,
      "step": 599
    },
    {
      "epoch": 0.27519779841761266,
      "grad_norm": 0.8425187094759051,
      "learning_rate": 0.0008506518477064405,
      "loss": 3.3334,
      "step": 600
    },
    {
      "epoch": 0.27565646141497535,
      "grad_norm": 0.7464085371664236,
      "learning_rate": 0.0008501217719601903,
      "loss": 3.1051,
      "step": 601
    },
    {
      "epoch": 0.27611512441233804,
      "grad_norm": 0.7338041238232182,
      "learning_rate": 0.0008495909229837233,
      "loss": 3.2262,
      "step": 602
    },
    {
      "epoch": 0.27657378740970073,
      "grad_norm": 0.7739631283971172,
      "learning_rate": 0.000849059301949399,
      "loss": 3.1128,
      "step": 603
    },
    {
      "epoch": 0.2770324504070634,
      "grad_norm": 0.7861079319886644,
      "learning_rate": 0.0008485269100312812,
      "loss": 3.102,
      "step": 604
    },
    {
      "epoch": 0.2774911134044261,
      "grad_norm": 0.7460113505959484,
      "learning_rate": 0.0008479937484051368,
      "loss": 3.2384,
      "step": 605
    },
    {
      "epoch": 0.2779497764017888,
      "grad_norm": 0.7214053509940046,
      "learning_rate": 0.0008474598182484323,
      "loss": 3.2145,
      "step": 606
    },
    {
      "epoch": 0.2784084393991515,
      "grad_norm": 0.7594477671593708,
      "learning_rate": 0.0008469251207403317,
      "loss": 3.1326,
      "step": 607
    },
    {
      "epoch": 0.2788671023965142,
      "grad_norm": 0.7250388842677422,
      "learning_rate": 0.0008463896570616934,
      "loss": 3.1694,
      "step": 608
    },
    {
      "epoch": 0.2793257653938768,
      "grad_norm": 0.6536801843903688,
      "learning_rate": 0.0008458534283950678,
      "loss": 3.1933,
      "step": 609
    },
    {
      "epoch": 0.2797844283912395,
      "grad_norm": 0.7693509777432775,
      "learning_rate": 0.0008453164359246952,
      "loss": 3.2083,
      "step": 610
    },
    {
      "epoch": 0.2802430913886022,
      "grad_norm": 0.6969788666734573,
      "learning_rate": 0.0008447786808365022,
      "loss": 3.1417,
      "step": 611
    },
    {
      "epoch": 0.2807017543859649,
      "grad_norm": 0.7032568492644257,
      "learning_rate": 0.0008442401643181,
      "loss": 3.3031,
      "step": 612
    },
    {
      "epoch": 0.2811604173833276,
      "grad_norm": 0.7252463644769347,
      "learning_rate": 0.0008437008875587811,
      "loss": 3.1728,
      "step": 613
    },
    {
      "epoch": 0.2816190803806903,
      "grad_norm": 0.7104680524189199,
      "learning_rate": 0.0008431608517495171,
      "loss": 3.1117,
      "step": 614
    },
    {
      "epoch": 0.28207774337805297,
      "grad_norm": 0.7383681226803276,
      "learning_rate": 0.0008426200580829561,
      "loss": 3.0693,
      "step": 615
    },
    {
      "epoch": 0.28253640637541566,
      "grad_norm": 0.6905916554092086,
      "learning_rate": 0.0008420785077534195,
      "loss": 3.1166,
      "step": 616
    },
    {
      "epoch": 0.28299506937277835,
      "grad_norm": 0.7601014424904727,
      "learning_rate": 0.0008415362019569001,
      "loss": 3.1916,
      "step": 617
    },
    {
      "epoch": 0.28345373237014104,
      "grad_norm": 0.7175609656162765,
      "learning_rate": 0.0008409931418910591,
      "loss": 3.1615,
      "step": 618
    },
    {
      "epoch": 0.28391239536750373,
      "grad_norm": 0.6904224508333296,
      "learning_rate": 0.0008404493287552232,
      "loss": 3.1902,
      "step": 619
    },
    {
      "epoch": 0.2843710583648664,
      "grad_norm": 0.6942135907719836,
      "learning_rate": 0.0008399047637503825,
      "loss": 3.1717,
      "step": 620
    },
    {
      "epoch": 0.2848297213622291,
      "grad_norm": 0.7306380110514119,
      "learning_rate": 0.0008393594480791875,
      "loss": 3.1057,
      "step": 621
    },
    {
      "epoch": 0.2852883843595918,
      "grad_norm": 0.7134696170797543,
      "learning_rate": 0.0008388133829459463,
      "loss": 3.2169,
      "step": 622
    },
    {
      "epoch": 0.2857470473569545,
      "grad_norm": 0.7832115806283774,
      "learning_rate": 0.0008382665695566227,
      "loss": 3.2901,
      "step": 623
    },
    {
      "epoch": 0.2862057103543172,
      "grad_norm": 0.7605481656074216,
      "learning_rate": 0.0008377190091188324,
      "loss": 3.1177,
      "step": 624
    },
    {
      "epoch": 0.2866643733516799,
      "grad_norm": 0.693075276146932,
      "learning_rate": 0.0008371707028418413,
      "loss": 3.1504,
      "step": 625
    },
    {
      "epoch": 0.2871230363490425,
      "grad_norm": 0.7823400764872694,
      "learning_rate": 0.0008366216519365621,
      "loss": 3.2863,
      "step": 626
    },
    {
      "epoch": 0.2875816993464052,
      "grad_norm": 0.7456972153524695,
      "learning_rate": 0.0008360718576155525,
      "loss": 3.1181,
      "step": 627
    },
    {
      "epoch": 0.2880403623437679,
      "grad_norm": 0.7144372282614999,
      "learning_rate": 0.0008355213210930118,
      "loss": 3.1472,
      "step": 628
    },
    {
      "epoch": 0.2884990253411306,
      "grad_norm": 0.7747798982955508,
      "learning_rate": 0.0008349700435847778,
      "loss": 3.2909,
      "step": 629
    },
    {
      "epoch": 0.2889576883384933,
      "grad_norm": 0.7366398979774915,
      "learning_rate": 0.0008344180263083256,
      "loss": 3.1943,
      "step": 630
    },
    {
      "epoch": 0.28941635133585597,
      "grad_norm": 0.6875412658918012,
      "learning_rate": 0.000833865270482764,
      "loss": 3.0744,
      "step": 631
    },
    {
      "epoch": 0.28987501433321866,
      "grad_norm": 0.692062235641888,
      "learning_rate": 0.0008333117773288324,
      "loss": 3.116,
      "step": 632
    },
    {
      "epoch": 0.29033367733058135,
      "grad_norm": 0.8087178364862736,
      "learning_rate": 0.0008327575480688985,
      "loss": 3.0852,
      "step": 633
    },
    {
      "epoch": 0.29079234032794404,
      "grad_norm": 0.7699733307327645,
      "learning_rate": 0.000832202583926956,
      "loss": 3.1543,
      "step": 634
    },
    {
      "epoch": 0.29125100332530673,
      "grad_norm": 0.6756574468936835,
      "learning_rate": 0.0008316468861286217,
      "loss": 3.1758,
      "step": 635
    },
    {
      "epoch": 0.2917096663226694,
      "grad_norm": 0.8194724764440202,
      "learning_rate": 0.0008310904559011323,
      "loss": 3.1463,
      "step": 636
    },
    {
      "epoch": 0.2921683293200321,
      "grad_norm": 0.7392395774493101,
      "learning_rate": 0.0008305332944733419,
      "loss": 3.216,
      "step": 637
    },
    {
      "epoch": 0.2926269923173948,
      "grad_norm": 0.7583637291228649,
      "learning_rate": 0.0008299754030757202,
      "loss": 3.1355,
      "step": 638
    },
    {
      "epoch": 0.2930856553147575,
      "grad_norm": 0.6968887157919894,
      "learning_rate": 0.0008294167829403481,
      "loss": 3.2387,
      "step": 639
    },
    {
      "epoch": 0.2935443183121202,
      "grad_norm": 0.7522883340248736,
      "learning_rate": 0.0008288574353009164,
      "loss": 3.1285,
      "step": 640
    },
    {
      "epoch": 0.2940029813094829,
      "grad_norm": 0.7228510230566454,
      "learning_rate": 0.0008282973613927225,
      "loss": 3.1509,
      "step": 641
    },
    {
      "epoch": 0.29446164430684557,
      "grad_norm": 0.7171871053240602,
      "learning_rate": 0.0008277365624526675,
      "loss": 3.1967,
      "step": 642
    },
    {
      "epoch": 0.2949203073042082,
      "grad_norm": 0.7730942536851931,
      "learning_rate": 0.0008271750397192541,
      "loss": 3.0416,
      "step": 643
    },
    {
      "epoch": 0.2953789703015709,
      "grad_norm": 0.7405725504483303,
      "learning_rate": 0.0008266127944325832,
      "loss": 3.1214,
      "step": 644
    },
    {
      "epoch": 0.2958376332989336,
      "grad_norm": 0.8486336468827639,
      "learning_rate": 0.0008260498278343513,
      "loss": 3.2123,
      "step": 645
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.7504465473729826,
      "learning_rate": 0.0008254861411678485,
      "loss": 3.1173,
      "step": 646
    },
    {
      "epoch": 0.29675495929365897,
      "grad_norm": 0.8147561583924393,
      "learning_rate": 0.0008249217356779544,
      "loss": 3.1497,
      "step": 647
    },
    {
      "epoch": 0.29721362229102166,
      "grad_norm": 0.6950578899718862,
      "learning_rate": 0.0008243566126111363,
      "loss": 3.1521,
      "step": 648
    },
    {
      "epoch": 0.29767228528838435,
      "grad_norm": 0.7162691864411552,
      "learning_rate": 0.0008237907732154466,
      "loss": 3.2174,
      "step": 649
    },
    {
      "epoch": 0.29813094828574704,
      "grad_norm": 0.7083995263091373,
      "learning_rate": 0.0008232242187405194,
      "loss": 3.1993,
      "step": 650
    },
    {
      "epoch": 0.29858961128310973,
      "grad_norm": 0.7326345045360606,
      "learning_rate": 0.000822656950437568,
      "loss": 3.1907,
      "step": 651
    },
    {
      "epoch": 0.2990482742804724,
      "grad_norm": 0.7585762906137219,
      "learning_rate": 0.0008220889695593823,
      "loss": 3.1323,
      "step": 652
    },
    {
      "epoch": 0.2995069372778351,
      "grad_norm": 0.7379445587477219,
      "learning_rate": 0.0008215202773603259,
      "loss": 3.1966,
      "step": 653
    },
    {
      "epoch": 0.2999656002751978,
      "grad_norm": 0.7077524004023856,
      "learning_rate": 0.0008209508750963328,
      "loss": 3.107,
      "step": 654
    },
    {
      "epoch": 0.3004242632725605,
      "grad_norm": 0.7436120572876802,
      "learning_rate": 0.0008203807640249062,
      "loss": 3.1669,
      "step": 655
    },
    {
      "epoch": 0.3008829262699232,
      "grad_norm": 0.8627939934622022,
      "learning_rate": 0.0008198099454051136,
      "loss": 3.2222,
      "step": 656
    },
    {
      "epoch": 0.3013415892672859,
      "grad_norm": 0.7399812305023159,
      "learning_rate": 0.0008192384204975857,
      "loss": 3.1265,
      "step": 657
    },
    {
      "epoch": 0.30180025226464857,
      "grad_norm": 0.7289568360375125,
      "learning_rate": 0.000818666190564513,
      "loss": 3.118,
      "step": 658
    },
    {
      "epoch": 0.30225891526201126,
      "grad_norm": 0.8292172494856066,
      "learning_rate": 0.0008180932568696426,
      "loss": 3.1064,
      "step": 659
    },
    {
      "epoch": 0.3027175782593739,
      "grad_norm": 0.7848295660046475,
      "learning_rate": 0.0008175196206782764,
      "loss": 3.1155,
      "step": 660
    },
    {
      "epoch": 0.3031762412567366,
      "grad_norm": 0.7783254309970074,
      "learning_rate": 0.0008169452832572675,
      "loss": 3.1091,
      "step": 661
    },
    {
      "epoch": 0.3036349042540993,
      "grad_norm": 0.8214638714372814,
      "learning_rate": 0.0008163702458750173,
      "loss": 3.1973,
      "step": 662
    },
    {
      "epoch": 0.30409356725146197,
      "grad_norm": 0.6924330970467306,
      "learning_rate": 0.0008157945098014734,
      "loss": 3.1547,
      "step": 663
    },
    {
      "epoch": 0.30455223024882466,
      "grad_norm": 0.7629757199662792,
      "learning_rate": 0.0008152180763081267,
      "loss": 3.2115,
      "step": 664
    },
    {
      "epoch": 0.30501089324618735,
      "grad_norm": 0.7638776833060489,
      "learning_rate": 0.0008146409466680076,
      "loss": 3.1982,
      "step": 665
    },
    {
      "epoch": 0.30546955624355004,
      "grad_norm": 0.74493566284566,
      "learning_rate": 0.0008140631221556845,
      "loss": 3.1584,
      "step": 666
    },
    {
      "epoch": 0.30592821924091274,
      "grad_norm": 0.7207698804340175,
      "learning_rate": 0.0008134846040472599,
      "loss": 3.169,
      "step": 667
    },
    {
      "epoch": 0.3063868822382754,
      "grad_norm": 0.9373426408494215,
      "learning_rate": 0.0008129053936203688,
      "loss": 3.1522,
      "step": 668
    },
    {
      "epoch": 0.3068455452356381,
      "grad_norm": 0.6960905919862106,
      "learning_rate": 0.0008123254921541745,
      "loss": 3.1612,
      "step": 669
    },
    {
      "epoch": 0.3073042082330008,
      "grad_norm": 0.7514098009792568,
      "learning_rate": 0.0008117449009293668,
      "loss": 3.1122,
      "step": 670
    },
    {
      "epoch": 0.3077628712303635,
      "grad_norm": 0.7481179627191243,
      "learning_rate": 0.0008111636212281586,
      "loss": 3.1615,
      "step": 671
    },
    {
      "epoch": 0.3082215342277262,
      "grad_norm": 0.7759378521347692,
      "learning_rate": 0.0008105816543342833,
      "loss": 3.1561,
      "step": 672
    },
    {
      "epoch": 0.3086801972250889,
      "grad_norm": 0.690075606641545,
      "learning_rate": 0.0008099990015329919,
      "loss": 3.2053,
      "step": 673
    },
    {
      "epoch": 0.3091388602224516,
      "grad_norm": 0.7675136597667795,
      "learning_rate": 0.0008094156641110504,
      "loss": 3.1849,
      "step": 674
    },
    {
      "epoch": 0.30959752321981426,
      "grad_norm": 0.6606065660655872,
      "learning_rate": 0.0008088316433567369,
      "loss": 3.2243,
      "step": 675
    },
    {
      "epoch": 0.31005618621717695,
      "grad_norm": 0.7406838864159596,
      "learning_rate": 0.0008082469405598378,
      "loss": 3.1988,
      "step": 676
    },
    {
      "epoch": 0.3105148492145396,
      "grad_norm": 0.7934981092065452,
      "learning_rate": 0.0008076615570116468,
      "loss": 3.1535,
      "step": 677
    },
    {
      "epoch": 0.3109735122119023,
      "grad_norm": 0.7057122523415135,
      "learning_rate": 0.0008070754940049603,
      "loss": 3.1906,
      "step": 678
    },
    {
      "epoch": 0.31143217520926497,
      "grad_norm": 0.6735286752365802,
      "learning_rate": 0.0008064887528340756,
      "loss": 3.1365,
      "step": 679
    },
    {
      "epoch": 0.31189083820662766,
      "grad_norm": 0.7167702218947712,
      "learning_rate": 0.0008059013347947874,
      "loss": 3.2389,
      "step": 680
    },
    {
      "epoch": 0.31234950120399035,
      "grad_norm": 0.6630720024909675,
      "learning_rate": 0.0008053132411843857,
      "loss": 3.0749,
      "step": 681
    },
    {
      "epoch": 0.31280816420135305,
      "grad_norm": 0.7014274885677249,
      "learning_rate": 0.0008047244733016521,
      "loss": 3.2164,
      "step": 682
    },
    {
      "epoch": 0.31326682719871574,
      "grad_norm": 0.735108849717787,
      "learning_rate": 0.0008041350324468573,
      "loss": 3.0713,
      "step": 683
    },
    {
      "epoch": 0.3137254901960784,
      "grad_norm": 0.6871914016818785,
      "learning_rate": 0.0008035449199217583,
      "loss": 3.2027,
      "step": 684
    },
    {
      "epoch": 0.3141841531934411,
      "grad_norm": 0.7673880988779274,
      "learning_rate": 0.0008029541370295957,
      "loss": 3.2097,
      "step": 685
    },
    {
      "epoch": 0.3146428161908038,
      "grad_norm": 0.6817812171305291,
      "learning_rate": 0.0008023626850750903,
      "loss": 3.2059,
      "step": 686
    },
    {
      "epoch": 0.3151014791881665,
      "grad_norm": 0.6722243656978517,
      "learning_rate": 0.0008017705653644406,
      "loss": 3.1729,
      "step": 687
    },
    {
      "epoch": 0.3155601421855292,
      "grad_norm": 0.7280423003428208,
      "learning_rate": 0.0008011777792053195,
      "loss": 3.0518,
      "step": 688
    },
    {
      "epoch": 0.3160188051828919,
      "grad_norm": 0.7145813623685454,
      "learning_rate": 0.0008005843279068725,
      "loss": 3.1966,
      "step": 689
    },
    {
      "epoch": 0.3164774681802546,
      "grad_norm": 0.7633830803311862,
      "learning_rate": 0.000799990212779713,
      "loss": 3.2321,
      "step": 690
    },
    {
      "epoch": 0.31693613117761726,
      "grad_norm": 0.6780445282127154,
      "learning_rate": 0.0007993954351359214,
      "loss": 3.1212,
      "step": 691
    },
    {
      "epoch": 0.31739479417497996,
      "grad_norm": 0.7142707038417037,
      "learning_rate": 0.0007987999962890406,
      "loss": 3.3591,
      "step": 692
    },
    {
      "epoch": 0.31785345717234265,
      "grad_norm": 0.7545253611828218,
      "learning_rate": 0.0007982038975540742,
      "loss": 3.1005,
      "step": 693
    },
    {
      "epoch": 0.3183121201697053,
      "grad_norm": 0.6940571582311126,
      "learning_rate": 0.0007976071402474826,
      "loss": 3.1209,
      "step": 694
    },
    {
      "epoch": 0.318770783167068,
      "grad_norm": 0.7237329637739753,
      "learning_rate": 0.0007970097256871811,
      "loss": 3.2284,
      "step": 695
    },
    {
      "epoch": 0.31922944616443066,
      "grad_norm": 0.6166718007366992,
      "learning_rate": 0.0007964116551925364,
      "loss": 3.1753,
      "step": 696
    },
    {
      "epoch": 0.31968810916179335,
      "grad_norm": 0.635720478661044,
      "learning_rate": 0.0007958129300843637,
      "loss": 3.1211,
      "step": 697
    },
    {
      "epoch": 0.32014677215915605,
      "grad_norm": 0.675425290405413,
      "learning_rate": 0.0007952135516849239,
      "loss": 3.055,
      "step": 698
    },
    {
      "epoch": 0.32060543515651874,
      "grad_norm": 0.7818123563959859,
      "learning_rate": 0.0007946135213179207,
      "loss": 3.2612,
      "step": 699
    },
    {
      "epoch": 0.3210640981538814,
      "grad_norm": 0.7025216857354131,
      "learning_rate": 0.0007940128403084977,
      "loss": 3.3093,
      "step": 700
    },
    {
      "epoch": 0.3215227611512441,
      "grad_norm": 0.745197837016151,
      "learning_rate": 0.0007934115099832355,
      "loss": 3.1596,
      "step": 701
    },
    {
      "epoch": 0.3219814241486068,
      "grad_norm": 0.6824575979552708,
      "learning_rate": 0.0007928095316701483,
      "loss": 3.1566,
      "step": 702
    },
    {
      "epoch": 0.3224400871459695,
      "grad_norm": 0.6863293424658617,
      "learning_rate": 0.0007922069066986819,
      "loss": 3.2246,
      "step": 703
    },
    {
      "epoch": 0.3228987501433322,
      "grad_norm": 0.6771991676812106,
      "learning_rate": 0.0007916036363997097,
      "loss": 3.1417,
      "step": 704
    },
    {
      "epoch": 0.3233574131406949,
      "grad_norm": 0.6690289680036632,
      "learning_rate": 0.0007909997221055308,
      "loss": 3.1984,
      "step": 705
    },
    {
      "epoch": 0.3238160761380576,
      "grad_norm": 0.732230310619468,
      "learning_rate": 0.0007903951651498658,
      "loss": 3.2232,
      "step": 706
    },
    {
      "epoch": 0.32427473913542026,
      "grad_norm": 0.7385824224331056,
      "learning_rate": 0.0007897899668678557,
      "loss": 3.1203,
      "step": 707
    },
    {
      "epoch": 0.32473340213278296,
      "grad_norm": 0.8246446670874208,
      "learning_rate": 0.0007891841285960566,
      "loss": 3.2265,
      "step": 708
    },
    {
      "epoch": 0.32519206513014565,
      "grad_norm": 0.8628941574750258,
      "learning_rate": 0.0007885776516724388,
      "loss": 3.132,
      "step": 709
    },
    {
      "epoch": 0.32565072812750834,
      "grad_norm": 0.7413504521273699,
      "learning_rate": 0.0007879705374363831,
      "loss": 3.1215,
      "step": 710
    },
    {
      "epoch": 0.32610939112487103,
      "grad_norm": 0.713277891067644,
      "learning_rate": 0.000787362787228677,
      "loss": 3.2057,
      "step": 711
    },
    {
      "epoch": 0.32656805412223366,
      "grad_norm": 0.8749560914523918,
      "learning_rate": 0.0007867544023915134,
      "loss": 3.2203,
      "step": 712
    },
    {
      "epoch": 0.32702671711959636,
      "grad_norm": 0.6865325085635834,
      "learning_rate": 0.0007861453842684861,
      "loss": 3.0795,
      "step": 713
    },
    {
      "epoch": 0.32748538011695905,
      "grad_norm": 0.6849896200039033,
      "learning_rate": 0.0007855357342045882,
      "loss": 3.121,
      "step": 714
    },
    {
      "epoch": 0.32794404311432174,
      "grad_norm": 0.6717450815367249,
      "learning_rate": 0.0007849254535462074,
      "loss": 3.0809,
      "step": 715
    },
    {
      "epoch": 0.32840270611168443,
      "grad_norm": 0.677053170652832,
      "learning_rate": 0.0007843145436411252,
      "loss": 3.1476,
      "step": 716
    },
    {
      "epoch": 0.3288613691090471,
      "grad_norm": 0.7566666824831816,
      "learning_rate": 0.0007837030058385117,
      "loss": 3.1399,
      "step": 717
    },
    {
      "epoch": 0.3293200321064098,
      "grad_norm": 0.7641534267843406,
      "learning_rate": 0.0007830908414889246,
      "loss": 3.2742,
      "step": 718
    },
    {
      "epoch": 0.3297786951037725,
      "grad_norm": 0.7428727633973461,
      "learning_rate": 0.0007824780519443046,
      "loss": 3.2058,
      "step": 719
    },
    {
      "epoch": 0.3302373581011352,
      "grad_norm": 0.7060773563284025,
      "learning_rate": 0.0007818646385579735,
      "loss": 3.0311,
      "step": 720
    },
    {
      "epoch": 0.3306960210984979,
      "grad_norm": 0.6976320513874106,
      "learning_rate": 0.0007812506026846307,
      "loss": 3.127,
      "step": 721
    },
    {
      "epoch": 0.3311546840958606,
      "grad_norm": 0.7183700676135965,
      "learning_rate": 0.0007806359456803504,
      "loss": 3.1962,
      "step": 722
    },
    {
      "epoch": 0.33161334709322327,
      "grad_norm": 0.7371277123817809,
      "learning_rate": 0.0007800206689025785,
      "loss": 3.1346,
      "step": 723
    },
    {
      "epoch": 0.33207201009058596,
      "grad_norm": 0.7852006409222877,
      "learning_rate": 0.0007794047737101297,
      "loss": 3.2676,
      "step": 724
    },
    {
      "epoch": 0.33253067308794865,
      "grad_norm": 0.7079936751457921,
      "learning_rate": 0.0007787882614631843,
      "loss": 3.154,
      "step": 725
    },
    {
      "epoch": 0.33298933608531134,
      "grad_norm": 0.6702321632926304,
      "learning_rate": 0.0007781711335232856,
      "loss": 3.1295,
      "step": 726
    },
    {
      "epoch": 0.33344799908267403,
      "grad_norm": 0.6528506089192102,
      "learning_rate": 0.0007775533912533363,
      "loss": 3.1508,
      "step": 727
    },
    {
      "epoch": 0.3339066620800367,
      "grad_norm": 0.7378996711837432,
      "learning_rate": 0.0007769350360175962,
      "loss": 3.3241,
      "step": 728
    },
    {
      "epoch": 0.33436532507739936,
      "grad_norm": 0.6835245611456335,
      "learning_rate": 0.0007763160691816784,
      "loss": 3.2,
      "step": 729
    },
    {
      "epoch": 0.33482398807476205,
      "grad_norm": 0.6970068011326298,
      "learning_rate": 0.000775696492112547,
      "loss": 3.0706,
      "step": 730
    },
    {
      "epoch": 0.33528265107212474,
      "grad_norm": 0.7530593507242777,
      "learning_rate": 0.0007750763061785137,
      "loss": 3.1029,
      "step": 731
    },
    {
      "epoch": 0.33574131406948743,
      "grad_norm": 0.6929353286200239,
      "learning_rate": 0.000774455512749235,
      "loss": 3.2096,
      "step": 732
    },
    {
      "epoch": 0.3361999770668501,
      "grad_norm": 0.731940070576897,
      "learning_rate": 0.0007738341131957085,
      "loss": 3.1139,
      "step": 733
    },
    {
      "epoch": 0.3366586400642128,
      "grad_norm": 0.6804294039303636,
      "learning_rate": 0.000773212108890271,
      "loss": 3.1152,
      "step": 734
    },
    {
      "epoch": 0.3371173030615755,
      "grad_norm": 0.6828752324706449,
      "learning_rate": 0.0007725895012065947,
      "loss": 3.0151,
      "step": 735
    },
    {
      "epoch": 0.3375759660589382,
      "grad_norm": 0.6525643704077861,
      "learning_rate": 0.0007719662915196844,
      "loss": 3.095,
      "step": 736
    },
    {
      "epoch": 0.3380346290563009,
      "grad_norm": 0.691293947493596,
      "learning_rate": 0.0007713424812058736,
      "loss": 3.1348,
      "step": 737
    },
    {
      "epoch": 0.3384932920536636,
      "grad_norm": 0.7181991378082083,
      "learning_rate": 0.0007707180716428237,
      "loss": 3.2006,
      "step": 738
    },
    {
      "epoch": 0.33895195505102627,
      "grad_norm": 0.6910750080888745,
      "learning_rate": 0.0007700930642095184,
      "loss": 3.1893,
      "step": 739
    },
    {
      "epoch": 0.33941061804838896,
      "grad_norm": 0.7888378157929276,
      "learning_rate": 0.0007694674602862621,
      "loss": 3.1256,
      "step": 740
    },
    {
      "epoch": 0.33986928104575165,
      "grad_norm": 0.7647335221298619,
      "learning_rate": 0.0007688412612546769,
      "loss": 3.1571,
      "step": 741
    },
    {
      "epoch": 0.34032794404311434,
      "grad_norm": 0.735956143075557,
      "learning_rate": 0.0007682144684976983,
      "loss": 3.0293,
      "step": 742
    },
    {
      "epoch": 0.34078660704047703,
      "grad_norm": 0.736123923867667,
      "learning_rate": 0.0007675870833995739,
      "loss": 3.0799,
      "step": 743
    },
    {
      "epoch": 0.3412452700378397,
      "grad_norm": 0.7266333534735845,
      "learning_rate": 0.0007669591073458592,
      "loss": 3.2777,
      "step": 744
    },
    {
      "epoch": 0.3417039330352024,
      "grad_norm": 0.6889143198080402,
      "learning_rate": 0.0007663305417234146,
      "loss": 3.1182,
      "step": 745
    },
    {
      "epoch": 0.34216259603256505,
      "grad_norm": 0.8169453452221827,
      "learning_rate": 0.0007657013879204022,
      "loss": 3.1276,
      "step": 746
    },
    {
      "epoch": 0.34262125902992774,
      "grad_norm": 0.7000329861657474,
      "learning_rate": 0.0007650716473262842,
      "loss": 3.0389,
      "step": 747
    },
    {
      "epoch": 0.34307992202729043,
      "grad_norm": 0.7015542590726193,
      "learning_rate": 0.0007644413213318177,
      "loss": 3.1614,
      "step": 748
    },
    {
      "epoch": 0.3435385850246531,
      "grad_norm": 0.7553022359449083,
      "learning_rate": 0.0007638104113290531,
      "loss": 3.1289,
      "step": 749
    },
    {
      "epoch": 0.3439972480220158,
      "grad_norm": 0.8866185833729594,
      "learning_rate": 0.0007631789187113303,
      "loss": 3.1626,
      "step": 750
    },
    {
      "epoch": 0.3444559110193785,
      "grad_norm": 0.7659960919524039,
      "learning_rate": 0.000762546844873276,
      "loss": 3.1187,
      "step": 751
    },
    {
      "epoch": 0.3449145740167412,
      "grad_norm": 0.7813855294559536,
      "learning_rate": 0.0007619141912108007,
      "loss": 3.2713,
      "step": 752
    },
    {
      "epoch": 0.3453732370141039,
      "grad_norm": 0.8427151901663973,
      "learning_rate": 0.000761280959121095,
      "loss": 3.1202,
      "step": 753
    },
    {
      "epoch": 0.3458319000114666,
      "grad_norm": 0.7139902197560286,
      "learning_rate": 0.0007606471500026273,
      "loss": 3.1826,
      "step": 754
    },
    {
      "epoch": 0.34629056300882927,
      "grad_norm": 0.701298949429705,
      "learning_rate": 0.0007600127652551401,
      "loss": 3.0874,
      "step": 755
    },
    {
      "epoch": 0.34674922600619196,
      "grad_norm": 0.747709873082544,
      "learning_rate": 0.0007593778062796472,
      "loss": 3.2597,
      "step": 756
    },
    {
      "epoch": 0.34720788900355465,
      "grad_norm": 0.7294557660671397,
      "learning_rate": 0.000758742274478431,
      "loss": 3.3059,
      "step": 757
    },
    {
      "epoch": 0.34766655200091734,
      "grad_norm": 0.7338841888989108,
      "learning_rate": 0.0007581061712550381,
      "loss": 3.145,
      "step": 758
    },
    {
      "epoch": 0.34812521499828003,
      "grad_norm": 0.6971917682631422,
      "learning_rate": 0.0007574694980142779,
      "loss": 3.114,
      "step": 759
    },
    {
      "epoch": 0.3485838779956427,
      "grad_norm": 0.7103222605522881,
      "learning_rate": 0.0007568322561622183,
      "loss": 3.1,
      "step": 760
    },
    {
      "epoch": 0.3490425409930054,
      "grad_norm": 0.7347593323060917,
      "learning_rate": 0.0007561944471061826,
      "loss": 3.161,
      "step": 761
    },
    {
      "epoch": 0.3495012039903681,
      "grad_norm": 0.7264787198124306,
      "learning_rate": 0.0007555560722547475,
      "loss": 2.9918,
      "step": 762
    },
    {
      "epoch": 0.34995986698773074,
      "grad_norm": 0.771194312001242,
      "learning_rate": 0.0007549171330177387,
      "loss": 3.2806,
      "step": 763
    },
    {
      "epoch": 0.35041852998509343,
      "grad_norm": 0.7335960269041473,
      "learning_rate": 0.0007542776308062285,
      "loss": 3.091,
      "step": 764
    },
    {
      "epoch": 0.3508771929824561,
      "grad_norm": 0.7353179531818858,
      "learning_rate": 0.0007536375670325325,
      "loss": 3.0555,
      "step": 765
    },
    {
      "epoch": 0.3513358559798188,
      "grad_norm": 0.7947748994731597,
      "learning_rate": 0.0007529969431102063,
      "loss": 3.2508,
      "step": 766
    },
    {
      "epoch": 0.3517945189771815,
      "grad_norm": 0.7569092272829191,
      "learning_rate": 0.000752355760454043,
      "loss": 3.1718,
      "step": 767
    },
    {
      "epoch": 0.3522531819745442,
      "grad_norm": 0.7565958490234997,
      "learning_rate": 0.0007517140204800693,
      "loss": 3.1623,
      "step": 768
    },
    {
      "epoch": 0.3527118449719069,
      "grad_norm": 0.660187752974448,
      "learning_rate": 0.0007510717246055425,
      "loss": 3.1812,
      "step": 769
    },
    {
      "epoch": 0.3531705079692696,
      "grad_norm": 0.7417011186338393,
      "learning_rate": 0.0007504288742489482,
      "loss": 3.1722,
      "step": 770
    },
    {
      "epoch": 0.35362917096663227,
      "grad_norm": 0.7278645632098398,
      "learning_rate": 0.0007497854708299963,
      "loss": 3.0733,
      "step": 771
    },
    {
      "epoch": 0.35408783396399496,
      "grad_norm": 0.7320181547883181,
      "learning_rate": 0.0007491415157696178,
      "loss": 3.1136,
      "step": 772
    },
    {
      "epoch": 0.35454649696135765,
      "grad_norm": 0.718840688988707,
      "learning_rate": 0.0007484970104899623,
      "loss": 3.1682,
      "step": 773
    },
    {
      "epoch": 0.35500515995872034,
      "grad_norm": 0.7412924184954086,
      "learning_rate": 0.0007478519564143945,
      "loss": 3.1939,
      "step": 774
    },
    {
      "epoch": 0.35546382295608303,
      "grad_norm": 0.71397806811412,
      "learning_rate": 0.000747206354967491,
      "loss": 3.1446,
      "step": 775
    },
    {
      "epoch": 0.3559224859534457,
      "grad_norm": 0.8387786127017882,
      "learning_rate": 0.0007465602075750373,
      "loss": 3.1334,
      "step": 776
    },
    {
      "epoch": 0.3563811489508084,
      "grad_norm": 0.6770452286624276,
      "learning_rate": 0.0007459135156640247,
      "loss": 3.2224,
      "step": 777
    },
    {
      "epoch": 0.3568398119481711,
      "grad_norm": 0.6342526984630229,
      "learning_rate": 0.0007452662806626468,
      "loss": 3.1701,
      "step": 778
    },
    {
      "epoch": 0.3572984749455338,
      "grad_norm": 0.7212351872479235,
      "learning_rate": 0.0007446185040002967,
      "loss": 3.0276,
      "step": 779
    },
    {
      "epoch": 0.35775713794289643,
      "grad_norm": 0.7367026732468724,
      "learning_rate": 0.0007439701871075642,
      "loss": 3.2152,
      "step": 780
    },
    {
      "epoch": 0.3582158009402591,
      "grad_norm": 0.6882153387485024,
      "learning_rate": 0.0007433213314162313,
      "loss": 3.1111,
      "step": 781
    },
    {
      "epoch": 0.3586744639376218,
      "grad_norm": 0.746939661125796,
      "learning_rate": 0.0007426719383592705,
      "loss": 3.1182,
      "step": 782
    },
    {
      "epoch": 0.3591331269349845,
      "grad_norm": 0.660427296250098,
      "learning_rate": 0.000742022009370841,
      "loss": 3.033,
      "step": 783
    },
    {
      "epoch": 0.3595917899323472,
      "grad_norm": 0.6726146256931447,
      "learning_rate": 0.0007413715458862855,
      "loss": 3.1418,
      "step": 784
    },
    {
      "epoch": 0.3600504529297099,
      "grad_norm": 0.7425806174780745,
      "learning_rate": 0.0007407205493421272,
      "loss": 3.1587,
      "step": 785
    },
    {
      "epoch": 0.3605091159270726,
      "grad_norm": 0.6868025511021183,
      "learning_rate": 0.0007400690211760661,
      "loss": 3.0581,
      "step": 786
    },
    {
      "epoch": 0.36096777892443527,
      "grad_norm": 0.7567925203138396,
      "learning_rate": 0.0007394169628269771,
      "loss": 2.9622,
      "step": 787
    },
    {
      "epoch": 0.36142644192179796,
      "grad_norm": 0.7268525604518599,
      "learning_rate": 0.0007387643757349051,
      "loss": 3.0481,
      "step": 788
    },
    {
      "epoch": 0.36188510491916065,
      "grad_norm": 0.8104312094804322,
      "learning_rate": 0.0007381112613410635,
      "loss": 3.0238,
      "step": 789
    },
    {
      "epoch": 0.36234376791652334,
      "grad_norm": 0.7135717321442028,
      "learning_rate": 0.0007374576210878298,
      "loss": 3.306,
      "step": 790
    },
    {
      "epoch": 0.36280243091388603,
      "grad_norm": 0.6602565276213743,
      "learning_rate": 0.0007368034564187425,
      "loss": 3.1396,
      "step": 791
    },
    {
      "epoch": 0.3632610939112487,
      "grad_norm": 0.7970343401947377,
      "learning_rate": 0.0007361487687784989,
      "loss": 3.1495,
      "step": 792
    },
    {
      "epoch": 0.3637197569086114,
      "grad_norm": 0.7480265725012953,
      "learning_rate": 0.0007354935596129513,
      "loss": 3.2081,
      "step": 793
    },
    {
      "epoch": 0.3641784199059741,
      "grad_norm": 0.7508093366404651,
      "learning_rate": 0.000734837830369103,
      "loss": 3.116,
      "step": 794
    },
    {
      "epoch": 0.3646370829033368,
      "grad_norm": 0.6782672781264846,
      "learning_rate": 0.0007341815824951066,
      "loss": 3.0533,
      "step": 795
    },
    {
      "epoch": 0.3650957459006995,
      "grad_norm": 0.7539471465096201,
      "learning_rate": 0.0007335248174402597,
      "loss": 3.095,
      "step": 796
    },
    {
      "epoch": 0.3655544088980621,
      "grad_norm": 0.7873470331460091,
      "learning_rate": 0.0007328675366550023,
      "loss": 3.0069,
      "step": 797
    },
    {
      "epoch": 0.3660130718954248,
      "grad_norm": 0.6595999129437113,
      "learning_rate": 0.0007322097415909134,
      "loss": 3.1354,
      "step": 798
    },
    {
      "epoch": 0.3664717348927875,
      "grad_norm": 0.8300323331403406,
      "learning_rate": 0.0007315514337007071,
      "loss": 3.0553,
      "step": 799
    },
    {
      "epoch": 0.3669303978901502,
      "grad_norm": 0.9789303249280017,
      "learning_rate": 0.0007308926144382312,
      "loss": 3.132,
      "step": 800
    },
    {
      "epoch": 0.3673890608875129,
      "grad_norm": 0.7823977887687825,
      "learning_rate": 0.0007302332852584619,
      "loss": 3.1692,
      "step": 801
    },
    {
      "epoch": 0.3678477238848756,
      "grad_norm": 0.7942786167185938,
      "learning_rate": 0.0007295734476175018,
      "loss": 3.1194,
      "step": 802
    },
    {
      "epoch": 0.36830638688223827,
      "grad_norm": 0.9359212962912214,
      "learning_rate": 0.0007289131029725768,
      "loss": 3.126,
      "step": 803
    },
    {
      "epoch": 0.36876504987960096,
      "grad_norm": 0.697740671607522,
      "learning_rate": 0.0007282522527820319,
      "loss": 3.0664,
      "step": 804
    },
    {
      "epoch": 0.36922371287696365,
      "grad_norm": 0.7140394136728633,
      "learning_rate": 0.000727590898505329,
      "loss": 3.1017,
      "step": 805
    },
    {
      "epoch": 0.36968237587432634,
      "grad_norm": 0.7388385055606912,
      "learning_rate": 0.0007269290416030429,
      "loss": 3.0883,
      "step": 806
    },
    {
      "epoch": 0.37014103887168903,
      "grad_norm": 0.6978702760865791,
      "learning_rate": 0.000726266683536859,
      "loss": 3.0203,
      "step": 807
    },
    {
      "epoch": 0.3705997018690517,
      "grad_norm": 0.6667758197775708,
      "learning_rate": 0.0007256038257695687,
      "loss": 3.0917,
      "step": 808
    },
    {
      "epoch": 0.3710583648664144,
      "grad_norm": 0.6654382446114777,
      "learning_rate": 0.0007249404697650678,
      "loss": 3.0667,
      "step": 809
    },
    {
      "epoch": 0.3715170278637771,
      "grad_norm": 0.7760308145835412,
      "learning_rate": 0.0007242766169883518,
      "loss": 3.1565,
      "step": 810
    },
    {
      "epoch": 0.3719756908611398,
      "grad_norm": 0.8245868951398485,
      "learning_rate": 0.0007236122689055138,
      "loss": 3.0913,
      "step": 811
    },
    {
      "epoch": 0.3724343538585025,
      "grad_norm": 0.6735747024726975,
      "learning_rate": 0.0007229474269837401,
      "loss": 3.1908,
      "step": 812
    },
    {
      "epoch": 0.3728930168558652,
      "grad_norm": 0.8824986179092167,
      "learning_rate": 0.0007222820926913085,
      "loss": 3.0011,
      "step": 813
    },
    {
      "epoch": 0.3733516798532278,
      "grad_norm": 0.8677691312238978,
      "learning_rate": 0.0007216162674975833,
      "loss": 3.2173,
      "step": 814
    },
    {
      "epoch": 0.3738103428505905,
      "grad_norm": 0.7125322994390606,
      "learning_rate": 0.0007209499528730138,
      "loss": 3.1243,
      "step": 815
    },
    {
      "epoch": 0.3742690058479532,
      "grad_norm": 0.9235425316189502,
      "learning_rate": 0.0007202831502891294,
      "loss": 3.0563,
      "step": 816
    },
    {
      "epoch": 0.3747276688453159,
      "grad_norm": 0.7556366420705082,
      "learning_rate": 0.0007196158612185375,
      "loss": 3.1914,
      "step": 817
    },
    {
      "epoch": 0.3751863318426786,
      "grad_norm": 0.7050601034827235,
      "learning_rate": 0.0007189480871349201,
      "loss": 3.0501,
      "step": 818
    },
    {
      "epoch": 0.37564499484004127,
      "grad_norm": 0.6843651964980925,
      "learning_rate": 0.0007182798295130299,
      "loss": 3.0795,
      "step": 819
    },
    {
      "epoch": 0.37610365783740396,
      "grad_norm": 0.8629707609040042,
      "learning_rate": 0.0007176110898286878,
      "loss": 3.1074,
      "step": 820
    },
    {
      "epoch": 0.37656232083476665,
      "grad_norm": 0.6901913934464562,
      "learning_rate": 0.0007169418695587791,
      "loss": 3.0835,
      "step": 821
    },
    {
      "epoch": 0.37702098383212934,
      "grad_norm": 0.6887925235037052,
      "learning_rate": 0.0007162721701812506,
      "loss": 3.0219,
      "step": 822
    },
    {
      "epoch": 0.37747964682949203,
      "grad_norm": 0.7376104953184932,
      "learning_rate": 0.0007156019931751072,
      "loss": 2.9976,
      "step": 823
    },
    {
      "epoch": 0.3779383098268547,
      "grad_norm": 0.8123124811167418,
      "learning_rate": 0.0007149313400204082,
      "loss": 3.0878,
      "step": 824
    },
    {
      "epoch": 0.3783969728242174,
      "grad_norm": 0.7542433172862717,
      "learning_rate": 0.0007142602121982653,
      "loss": 3.1596,
      "step": 825
    },
    {
      "epoch": 0.3788556358215801,
      "grad_norm": 0.771851791372673,
      "learning_rate": 0.0007135886111908379,
      "loss": 3.1792,
      "step": 826
    },
    {
      "epoch": 0.3793142988189428,
      "grad_norm": 0.9047894018414346,
      "learning_rate": 0.0007129165384813303,
      "loss": 3.1758,
      "step": 827
    },
    {
      "epoch": 0.3797729618163055,
      "grad_norm": 0.6700563823001419,
      "learning_rate": 0.0007122439955539888,
      "loss": 3.1428,
      "step": 828
    },
    {
      "epoch": 0.3802316248136682,
      "grad_norm": 0.6577221542374851,
      "learning_rate": 0.0007115709838940983,
      "loss": 3.271,
      "step": 829
    },
    {
      "epoch": 0.38069028781103087,
      "grad_norm": 0.7283922016947527,
      "learning_rate": 0.0007108975049879785,
      "loss": 3.1285,
      "step": 830
    },
    {
      "epoch": 0.3811489508083935,
      "grad_norm": 0.8409680529330732,
      "learning_rate": 0.0007102235603229814,
      "loss": 3.2007,
      "step": 831
    },
    {
      "epoch": 0.3816076138057562,
      "grad_norm": 0.6441455411213299,
      "learning_rate": 0.000709549151387487,
      "loss": 3.2372,
      "step": 832
    },
    {
      "epoch": 0.3820662768031189,
      "grad_norm": 0.6630774182664841,
      "learning_rate": 0.0007088742796709013,
      "loss": 3.1417,
      "step": 833
    },
    {
      "epoch": 0.3825249398004816,
      "grad_norm": 0.6290253024726785,
      "learning_rate": 0.000708198946663652,
      "loss": 3.1089,
      "step": 834
    },
    {
      "epoch": 0.38298360279784427,
      "grad_norm": 0.6557449629327654,
      "learning_rate": 0.0007075231538571856,
      "loss": 3.1269,
      "step": 835
    },
    {
      "epoch": 0.38344226579520696,
      "grad_norm": 0.6574170756699437,
      "learning_rate": 0.0007068469027439641,
      "loss": 3.1485,
      "step": 836
    },
    {
      "epoch": 0.38390092879256965,
      "grad_norm": 0.6310732788359574,
      "learning_rate": 0.0007061701948174613,
      "loss": 3.1157,
      "step": 837
    },
    {
      "epoch": 0.38435959178993234,
      "grad_norm": 0.6639508599118552,
      "learning_rate": 0.0007054930315721606,
      "loss": 3.0058,
      "step": 838
    },
    {
      "epoch": 0.38481825478729503,
      "grad_norm": 0.6595416417543696,
      "learning_rate": 0.0007048154145035501,
      "loss": 3.0127,
      "step": 839
    },
    {
      "epoch": 0.3852769177846577,
      "grad_norm": 0.7497991477723086,
      "learning_rate": 0.0007041373451081207,
      "loss": 3.0484,
      "step": 840
    },
    {
      "epoch": 0.3857355807820204,
      "grad_norm": 0.7243272078334305,
      "learning_rate": 0.0007034588248833621,
      "loss": 3.0945,
      "step": 841
    },
    {
      "epoch": 0.3861942437793831,
      "grad_norm": 0.7545685013040637,
      "learning_rate": 0.0007027798553277595,
      "loss": 3.2093,
      "step": 842
    },
    {
      "epoch": 0.3866529067767458,
      "grad_norm": 0.7384755790105965,
      "learning_rate": 0.0007021004379407909,
      "loss": 3.1553,
      "step": 843
    },
    {
      "epoch": 0.3871115697741085,
      "grad_norm": 0.8023058843185675,
      "learning_rate": 0.0007014205742229227,
      "loss": 3.0591,
      "step": 844
    },
    {
      "epoch": 0.3875702327714712,
      "grad_norm": 0.7688740678761761,
      "learning_rate": 0.0007007402656756072,
      "loss": 3.0525,
      "step": 845
    },
    {
      "epoch": 0.38802889576883387,
      "grad_norm": 0.6392314640867028,
      "learning_rate": 0.0007000595138012797,
      "loss": 3.1815,
      "step": 846
    },
    {
      "epoch": 0.38848755876619656,
      "grad_norm": 0.7219211759135818,
      "learning_rate": 0.0006993783201033535,
      "loss": 3.1546,
      "step": 847
    },
    {
      "epoch": 0.38894622176355925,
      "grad_norm": 0.7747242197901897,
      "learning_rate": 0.0006986966860862182,
      "loss": 3.1211,
      "step": 848
    },
    {
      "epoch": 0.3894048847609219,
      "grad_norm": 0.7149495413832142,
      "learning_rate": 0.000698014613255236,
      "loss": 3.0532,
      "step": 849
    },
    {
      "epoch": 0.3898635477582846,
      "grad_norm": 0.6833562539257828,
      "learning_rate": 0.0006973321031167382,
      "loss": 3.0501,
      "step": 850
    },
    {
      "epoch": 0.39032221075564727,
      "grad_norm": 0.726430503084542,
      "learning_rate": 0.0006966491571780216,
      "loss": 3.22,
      "step": 851
    },
    {
      "epoch": 0.39078087375300996,
      "grad_norm": 0.7185241557914684,
      "learning_rate": 0.0006959657769473453,
      "loss": 3.034,
      "step": 852
    },
    {
      "epoch": 0.39123953675037265,
      "grad_norm": 0.6361296679960272,
      "learning_rate": 0.000695281963933928,
      "loss": 3.1502,
      "step": 853
    },
    {
      "epoch": 0.39169819974773534,
      "grad_norm": 0.6235179708552211,
      "learning_rate": 0.0006945977196479438,
      "loss": 3.1643,
      "step": 854
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 0.6521902361955143,
      "learning_rate": 0.0006939130456005196,
      "loss": 3.2027,
      "step": 855
    },
    {
      "epoch": 0.3926155257424607,
      "grad_norm": 0.7085242008591677,
      "learning_rate": 0.0006932279433037311,
      "loss": 3.1355,
      "step": 856
    },
    {
      "epoch": 0.3930741887398234,
      "grad_norm": 0.6407239546857952,
      "learning_rate": 0.0006925424142705997,
      "loss": 3.111,
      "step": 857
    },
    {
      "epoch": 0.3935328517371861,
      "grad_norm": 0.6867654584102436,
      "learning_rate": 0.0006918564600150896,
      "loss": 3.0841,
      "step": 858
    },
    {
      "epoch": 0.3939915147345488,
      "grad_norm": 0.6893462206018015,
      "learning_rate": 0.0006911700820521042,
      "loss": 3.1029,
      "step": 859
    },
    {
      "epoch": 0.3944501777319115,
      "grad_norm": 0.6781358920142708,
      "learning_rate": 0.0006904832818974818,
      "loss": 3.1118,
      "step": 860
    },
    {
      "epoch": 0.3949088407292742,
      "grad_norm": 0.6590829948692474,
      "learning_rate": 0.0006897960610679939,
      "loss": 3.2478,
      "step": 861
    },
    {
      "epoch": 0.39536750372663687,
      "grad_norm": 0.7218619175542653,
      "learning_rate": 0.0006891084210813407,
      "loss": 3.1634,
      "step": 862
    },
    {
      "epoch": 0.39582616672399956,
      "grad_norm": 0.6681310830326312,
      "learning_rate": 0.0006884203634561483,
      "loss": 3.1491,
      "step": 863
    },
    {
      "epoch": 0.39628482972136225,
      "grad_norm": 0.6869654668992065,
      "learning_rate": 0.0006877318897119651,
      "loss": 3.0602,
      "step": 864
    },
    {
      "epoch": 0.39674349271872494,
      "grad_norm": 0.6854435218447607,
      "learning_rate": 0.0006870430013692579,
      "loss": 3.0598,
      "step": 865
    },
    {
      "epoch": 0.3972021557160876,
      "grad_norm": 0.7369270988453888,
      "learning_rate": 0.0006863536999494101,
      "loss": 3.1041,
      "step": 866
    },
    {
      "epoch": 0.39766081871345027,
      "grad_norm": 0.6260637030437854,
      "learning_rate": 0.0006856639869747167,
      "loss": 3.1789,
      "step": 867
    },
    {
      "epoch": 0.39811948171081296,
      "grad_norm": 0.6583711965290546,
      "learning_rate": 0.0006849738639683818,
      "loss": 3.0088,
      "step": 868
    },
    {
      "epoch": 0.39857814470817565,
      "grad_norm": 0.6994199929804483,
      "learning_rate": 0.000684283332454515,
      "loss": 3.1281,
      "step": 869
    },
    {
      "epoch": 0.39903680770553834,
      "grad_norm": 0.6564469927224692,
      "learning_rate": 0.0006835923939581281,
      "loss": 3.1306,
      "step": 870
    },
    {
      "epoch": 0.39949547070290103,
      "grad_norm": 0.6902174887138879,
      "learning_rate": 0.0006829010500051318,
      "loss": 3.2242,
      "step": 871
    },
    {
      "epoch": 0.3999541337002637,
      "grad_norm": 0.6715979048422147,
      "learning_rate": 0.0006822093021223321,
      "loss": 3.1628,
      "step": 872
    },
    {
      "epoch": 0.4004127966976264,
      "grad_norm": 0.6829088619811087,
      "learning_rate": 0.0006815171518374268,
      "loss": 3.1162,
      "step": 873
    },
    {
      "epoch": 0.4008714596949891,
      "grad_norm": 0.7106168874545339,
      "learning_rate": 0.0006808246006790031,
      "loss": 3.1082,
      "step": 874
    },
    {
      "epoch": 0.4013301226923518,
      "grad_norm": 0.6727430170229634,
      "learning_rate": 0.0006801316501765329,
      "loss": 3.141,
      "step": 875
    },
    {
      "epoch": 0.4017887856897145,
      "grad_norm": 0.7234687594115503,
      "learning_rate": 0.0006794383018603704,
      "loss": 3.2031,
      "step": 876
    },
    {
      "epoch": 0.4022474486870772,
      "grad_norm": 0.6915541794679859,
      "learning_rate": 0.0006787445572617481,
      "loss": 3.2091,
      "step": 877
    },
    {
      "epoch": 0.40270611168443987,
      "grad_norm": 0.6566221893653229,
      "learning_rate": 0.0006780504179127734,
      "loss": 3.1344,
      "step": 878
    },
    {
      "epoch": 0.40316477468180256,
      "grad_norm": 0.6681724901836777,
      "learning_rate": 0.0006773558853464265,
      "loss": 3.0869,
      "step": 879
    },
    {
      "epoch": 0.40362343767916525,
      "grad_norm": 0.6343556689079842,
      "learning_rate": 0.000676660961096555,
      "loss": 3.0964,
      "step": 880
    },
    {
      "epoch": 0.40408210067652794,
      "grad_norm": 0.7507509366243855,
      "learning_rate": 0.000675965646697872,
      "loss": 3.1367,
      "step": 881
    },
    {
      "epoch": 0.40454076367389064,
      "grad_norm": 0.6852425989851212,
      "learning_rate": 0.0006752699436859519,
      "loss": 3.0859,
      "step": 882
    },
    {
      "epoch": 0.40499942667125327,
      "grad_norm": 0.7671641153885796,
      "learning_rate": 0.0006745738535972279,
      "loss": 3.0712,
      "step": 883
    },
    {
      "epoch": 0.40545808966861596,
      "grad_norm": 0.7592080449966808,
      "learning_rate": 0.0006738773779689874,
      "loss": 3.1204,
      "step": 884
    },
    {
      "epoch": 0.40591675266597865,
      "grad_norm": 0.7137601473336679,
      "learning_rate": 0.0006731805183393696,
      "loss": 3.1136,
      "step": 885
    },
    {
      "epoch": 0.40637541566334134,
      "grad_norm": 0.6966997637692457,
      "learning_rate": 0.0006724832762473618,
      "loss": 3.0548,
      "step": 886
    },
    {
      "epoch": 0.40683407866070403,
      "grad_norm": 0.6972892331927579,
      "learning_rate": 0.0006717856532327956,
      "loss": 3.0665,
      "step": 887
    },
    {
      "epoch": 0.4072927416580667,
      "grad_norm": 0.7291408057422348,
      "learning_rate": 0.0006710876508363444,
      "loss": 3.1223,
      "step": 888
    },
    {
      "epoch": 0.4077514046554294,
      "grad_norm": 0.7023911972199759,
      "learning_rate": 0.0006703892705995189,
      "loss": 3.1595,
      "step": 889
    },
    {
      "epoch": 0.4082100676527921,
      "grad_norm": 0.6965570513114516,
      "learning_rate": 0.0006696905140646647,
      "loss": 3.1787,
      "step": 890
    },
    {
      "epoch": 0.4086687306501548,
      "grad_norm": 0.6815956931374472,
      "learning_rate": 0.0006689913827749581,
      "loss": 3.1312,
      "step": 891
    },
    {
      "epoch": 0.4091273936475175,
      "grad_norm": 0.6107276888268657,
      "learning_rate": 0.0006682918782744032,
      "loss": 3.0805,
      "step": 892
    },
    {
      "epoch": 0.4095860566448802,
      "grad_norm": 0.8373266503352337,
      "learning_rate": 0.0006675920021078282,
      "loss": 2.9382,
      "step": 893
    },
    {
      "epoch": 0.41004471964224287,
      "grad_norm": 0.6672834255394267,
      "learning_rate": 0.0006668917558208823,
      "loss": 3.2388,
      "step": 894
    },
    {
      "epoch": 0.41050338263960556,
      "grad_norm": 0.6609291402612054,
      "learning_rate": 0.0006661911409600321,
      "loss": 3.0913,
      "step": 895
    },
    {
      "epoch": 0.41096204563696825,
      "grad_norm": 0.664821695824061,
      "learning_rate": 0.0006654901590725577,
      "loss": 3.0584,
      "step": 896
    },
    {
      "epoch": 0.41142070863433094,
      "grad_norm": 0.6918212820627574,
      "learning_rate": 0.0006647888117065507,
      "loss": 3.1961,
      "step": 897
    },
    {
      "epoch": 0.41187937163169364,
      "grad_norm": 0.7028635375938151,
      "learning_rate": 0.0006640871004109086,
      "loss": 3.0567,
      "step": 898
    },
    {
      "epoch": 0.4123380346290563,
      "grad_norm": 0.7398478582382565,
      "learning_rate": 0.000663385026735334,
      "loss": 3.032,
      "step": 899
    },
    {
      "epoch": 0.41279669762641896,
      "grad_norm": 0.6711629382339482,
      "learning_rate": 0.0006626825922303285,
      "loss": 3.1995,
      "step": 900
    },
    {
      "epoch": 0.41325536062378165,
      "grad_norm": 0.7468419003272279,
      "learning_rate": 0.0006619797984471915,
      "loss": 3.1455,
      "step": 901
    },
    {
      "epoch": 0.41371402362114434,
      "grad_norm": 0.7029505418955191,
      "learning_rate": 0.0006612766469380158,
      "loss": 3.1287,
      "step": 902
    },
    {
      "epoch": 0.41417268661850704,
      "grad_norm": 0.721501688340865,
      "learning_rate": 0.0006605731392556833,
      "loss": 3.2919,
      "step": 903
    },
    {
      "epoch": 0.4146313496158697,
      "grad_norm": 0.7523655992317602,
      "learning_rate": 0.0006598692769538637,
      "loss": 3.1784,
      "step": 904
    },
    {
      "epoch": 0.4150900126132324,
      "grad_norm": 0.6331880682396132,
      "learning_rate": 0.0006591650615870091,
      "loss": 3.0795,
      "step": 905
    },
    {
      "epoch": 0.4155486756105951,
      "grad_norm": 0.6779393674887662,
      "learning_rate": 0.0006584604947103514,
      "loss": 3.1187,
      "step": 906
    },
    {
      "epoch": 0.4160073386079578,
      "grad_norm": 0.7446853475077725,
      "learning_rate": 0.0006577555778798993,
      "loss": 3.0719,
      "step": 907
    },
    {
      "epoch": 0.4164660016053205,
      "grad_norm": 0.6751992387439242,
      "learning_rate": 0.0006570503126524336,
      "loss": 3.0928,
      "step": 908
    },
    {
      "epoch": 0.4169246646026832,
      "grad_norm": 0.7134902757390164,
      "learning_rate": 0.0006563447005855054,
      "loss": 3.0951,
      "step": 909
    },
    {
      "epoch": 0.4173833276000459,
      "grad_norm": 0.7277165152566627,
      "learning_rate": 0.000655638743237431,
      "loss": 3.1789,
      "step": 910
    },
    {
      "epoch": 0.41784199059740856,
      "grad_norm": 0.6869965836318557,
      "learning_rate": 0.0006549324421672894,
      "loss": 3.1047,
      "step": 911
    },
    {
      "epoch": 0.41830065359477125,
      "grad_norm": 0.6953948817678915,
      "learning_rate": 0.0006542257989349194,
      "loss": 3.128,
      "step": 912
    },
    {
      "epoch": 0.41875931659213395,
      "grad_norm": 0.7169230062303444,
      "learning_rate": 0.0006535188151009142,
      "loss": 3.1314,
      "step": 913
    },
    {
      "epoch": 0.41921797958949664,
      "grad_norm": 0.6853112530269384,
      "learning_rate": 0.0006528114922266204,
      "loss": 3.1854,
      "step": 914
    },
    {
      "epoch": 0.4196766425868593,
      "grad_norm": 0.7128265644954832,
      "learning_rate": 0.0006521038318741327,
      "loss": 3.1721,
      "step": 915
    },
    {
      "epoch": 0.420135305584222,
      "grad_norm": 0.6286782104786347,
      "learning_rate": 0.0006513958356062912,
      "loss": 3.1621,
      "step": 916
    },
    {
      "epoch": 0.42059396858158465,
      "grad_norm": 0.7186403524259091,
      "learning_rate": 0.0006506875049866781,
      "loss": 3.0696,
      "step": 917
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 0.7308570921447236,
      "learning_rate": 0.0006499788415796137,
      "loss": 3.1283,
      "step": 918
    },
    {
      "epoch": 0.42151129457631004,
      "grad_norm": 0.7352590528750103,
      "learning_rate": 0.0006492698469501532,
      "loss": 3.0113,
      "step": 919
    },
    {
      "epoch": 0.4219699575736727,
      "grad_norm": 0.6932247785434271,
      "learning_rate": 0.0006485605226640837,
      "loss": 3.079,
      "step": 920
    },
    {
      "epoch": 0.4224286205710354,
      "grad_norm": 0.7822488412717216,
      "learning_rate": 0.00064785087028792,
      "loss": 3.1104,
      "step": 921
    },
    {
      "epoch": 0.4228872835683981,
      "grad_norm": 0.6457298703659631,
      "learning_rate": 0.0006471408913889019,
      "loss": 3.0418,
      "step": 922
    },
    {
      "epoch": 0.4233459465657608,
      "grad_norm": 0.7038764618614145,
      "learning_rate": 0.0006464305875349892,
      "loss": 3.0359,
      "step": 923
    },
    {
      "epoch": 0.4238046095631235,
      "grad_norm": 0.6351273935650728,
      "learning_rate": 0.000645719960294861,
      "loss": 3.0482,
      "step": 924
    },
    {
      "epoch": 0.4242632725604862,
      "grad_norm": 0.6952627505834507,
      "learning_rate": 0.0006450090112379092,
      "loss": 3.0469,
      "step": 925
    },
    {
      "epoch": 0.4247219355578489,
      "grad_norm": 0.7061243484595108,
      "learning_rate": 0.0006442977419342371,
      "loss": 2.9846,
      "step": 926
    },
    {
      "epoch": 0.42518059855521156,
      "grad_norm": 0.6474207672918255,
      "learning_rate": 0.000643586153954655,
      "loss": 3.0958,
      "step": 927
    },
    {
      "epoch": 0.42563926155257426,
      "grad_norm": 0.629506633274041,
      "learning_rate": 0.0006428742488706772,
      "loss": 3.0937,
      "step": 928
    },
    {
      "epoch": 0.42609792454993695,
      "grad_norm": 0.6902505126691058,
      "learning_rate": 0.0006421620282545182,
      "loss": 3.044,
      "step": 929
    },
    {
      "epoch": 0.42655658754729964,
      "grad_norm": 0.6492350625780351,
      "learning_rate": 0.0006414494936790892,
      "loss": 3.1216,
      "step": 930
    },
    {
      "epoch": 0.42701525054466233,
      "grad_norm": 0.7211699424617278,
      "learning_rate": 0.0006407366467179951,
      "loss": 3.0211,
      "step": 931
    },
    {
      "epoch": 0.427473913542025,
      "grad_norm": 0.7037628495880613,
      "learning_rate": 0.0006400234889455301,
      "loss": 3.1944,
      "step": 932
    },
    {
      "epoch": 0.4279325765393877,
      "grad_norm": 0.716704560095989,
      "learning_rate": 0.0006393100219366755,
      "loss": 3.2099,
      "step": 933
    },
    {
      "epoch": 0.42839123953675035,
      "grad_norm": 0.7058125785964168,
      "learning_rate": 0.0006385962472670953,
      "loss": 3.0426,
      "step": 934
    },
    {
      "epoch": 0.42884990253411304,
      "grad_norm": 0.6173459842079463,
      "learning_rate": 0.0006378821665131328,
      "loss": 3.0326,
      "step": 935
    },
    {
      "epoch": 0.4293085655314757,
      "grad_norm": 0.612773693722286,
      "learning_rate": 0.0006371677812518072,
      "loss": 3.1772,
      "step": 936
    },
    {
      "epoch": 0.4297672285288384,
      "grad_norm": 0.6392226676000592,
      "learning_rate": 0.0006364530930608107,
      "loss": 3.1094,
      "step": 937
    },
    {
      "epoch": 0.4302258915262011,
      "grad_norm": 0.6865059521983397,
      "learning_rate": 0.0006357381035185038,
      "loss": 3.0841,
      "step": 938
    },
    {
      "epoch": 0.4306845545235638,
      "grad_norm": 0.6745421978346996,
      "learning_rate": 0.0006350228142039131,
      "loss": 3.1533,
      "step": 939
    },
    {
      "epoch": 0.4311432175209265,
      "grad_norm": 0.6944567026635675,
      "learning_rate": 0.000634307226696727,
      "loss": 3.1032,
      "step": 940
    },
    {
      "epoch": 0.4316018805182892,
      "grad_norm": 0.6515990525398355,
      "learning_rate": 0.0006335913425772926,
      "loss": 3.1634,
      "step": 941
    },
    {
      "epoch": 0.4320605435156519,
      "grad_norm": 0.6541637900824325,
      "learning_rate": 0.0006328751634266117,
      "loss": 2.9865,
      "step": 942
    },
    {
      "epoch": 0.43251920651301456,
      "grad_norm": 0.6673793385610498,
      "learning_rate": 0.0006321586908263382,
      "loss": 3.0799,
      "step": 943
    },
    {
      "epoch": 0.43297786951037726,
      "grad_norm": 0.7240308352126764,
      "learning_rate": 0.0006314419263587732,
      "loss": 3.1312,
      "step": 944
    },
    {
      "epoch": 0.43343653250773995,
      "grad_norm": 0.6556929271616678,
      "learning_rate": 0.0006307248716068637,
      "loss": 3.0623,
      "step": 945
    },
    {
      "epoch": 0.43389519550510264,
      "grad_norm": 0.7043405299705796,
      "learning_rate": 0.0006300075281541964,
      "loss": 2.9893,
      "step": 946
    },
    {
      "epoch": 0.43435385850246533,
      "grad_norm": 0.6633460102348485,
      "learning_rate": 0.0006292898975849966,
      "loss": 3.2136,
      "step": 947
    },
    {
      "epoch": 0.434812521499828,
      "grad_norm": 0.6978093467426487,
      "learning_rate": 0.000628571981484123,
      "loss": 3.0708,
      "step": 948
    },
    {
      "epoch": 0.4352711844971907,
      "grad_norm": 0.6837019451714792,
      "learning_rate": 0.0006278537814370654,
      "loss": 3.2817,
      "step": 949
    },
    {
      "epoch": 0.4357298474945534,
      "grad_norm": 0.6600415206882896,
      "learning_rate": 0.0006271352990299406,
      "loss": 3.1638,
      "step": 950
    },
    {
      "epoch": 0.43618851049191604,
      "grad_norm": 0.6243437574263112,
      "learning_rate": 0.0006264165358494885,
      "loss": 3.0707,
      "step": 951
    },
    {
      "epoch": 0.43664717348927873,
      "grad_norm": 0.8219703926820663,
      "learning_rate": 0.0006256974934830694,
      "loss": 3.1519,
      "step": 952
    },
    {
      "epoch": 0.4371058364866414,
      "grad_norm": 0.6617033335990423,
      "learning_rate": 0.0006249781735186606,
      "loss": 3.1254,
      "step": 953
    },
    {
      "epoch": 0.4375644994840041,
      "grad_norm": 0.670244719365892,
      "learning_rate": 0.0006242585775448518,
      "loss": 3.12,
      "step": 954
    },
    {
      "epoch": 0.4380231624813668,
      "grad_norm": 0.6938784810745167,
      "learning_rate": 0.0006235387071508427,
      "loss": 2.994,
      "step": 955
    },
    {
      "epoch": 0.4384818254787295,
      "grad_norm": 0.6889044827393421,
      "learning_rate": 0.0006228185639264384,
      "loss": 3.1121,
      "step": 956
    },
    {
      "epoch": 0.4389404884760922,
      "grad_norm": 0.6522036741631617,
      "learning_rate": 0.0006220981494620475,
      "loss": 3.0968,
      "step": 957
    },
    {
      "epoch": 0.4393991514734549,
      "grad_norm": 0.7627227457664105,
      "learning_rate": 0.000621377465348677,
      "loss": 3.1833,
      "step": 958
    },
    {
      "epoch": 0.43985781447081757,
      "grad_norm": 0.6520995167999594,
      "learning_rate": 0.0006206565131779293,
      "loss": 3.0683,
      "step": 959
    },
    {
      "epoch": 0.44031647746818026,
      "grad_norm": 0.6554519735865072,
      "learning_rate": 0.0006199352945419994,
      "loss": 3.0947,
      "step": 960
    },
    {
      "epoch": 0.44077514046554295,
      "grad_norm": 0.7061242636990017,
      "learning_rate": 0.00061921381103367,
      "loss": 3.121,
      "step": 961
    },
    {
      "epoch": 0.44123380346290564,
      "grad_norm": 0.6810892532498135,
      "learning_rate": 0.0006184920642463094,
      "loss": 3.2113,
      "step": 962
    },
    {
      "epoch": 0.44169246646026833,
      "grad_norm": 0.8533529335806265,
      "learning_rate": 0.0006177700557738672,
      "loss": 3.1736,
      "step": 963
    },
    {
      "epoch": 0.442151129457631,
      "grad_norm": 0.6968731291389216,
      "learning_rate": 0.0006170477872108706,
      "loss": 3.015,
      "step": 964
    },
    {
      "epoch": 0.4426097924549937,
      "grad_norm": 0.6395528128125195,
      "learning_rate": 0.0006163252601524216,
      "loss": 3.1178,
      "step": 965
    },
    {
      "epoch": 0.4430684554523564,
      "grad_norm": 0.6784469860481238,
      "learning_rate": 0.0006156024761941925,
      "loss": 3.1087,
      "step": 966
    },
    {
      "epoch": 0.4435271184497191,
      "grad_norm": 0.6443089637149914,
      "learning_rate": 0.000614879436932424,
      "loss": 3.1419,
      "step": 967
    },
    {
      "epoch": 0.4439857814470818,
      "grad_norm": 0.6357432675437683,
      "learning_rate": 0.0006141561439639196,
      "loss": 3.0703,
      "step": 968
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.6608685635864752,
      "learning_rate": 0.0006134325988860433,
      "loss": 3.0613,
      "step": 969
    },
    {
      "epoch": 0.4449031074418071,
      "grad_norm": 0.6775048913715178,
      "learning_rate": 0.0006127088032967165,
      "loss": 3.0943,
      "step": 970
    },
    {
      "epoch": 0.4453617704391698,
      "grad_norm": 0.6525257912225543,
      "learning_rate": 0.0006119847587944131,
      "loss": 3.0707,
      "step": 971
    },
    {
      "epoch": 0.4458204334365325,
      "grad_norm": 0.6520008114922923,
      "learning_rate": 0.0006112604669781572,
      "loss": 3.0826,
      "step": 972
    },
    {
      "epoch": 0.4462790964338952,
      "grad_norm": 0.8155234114384898,
      "learning_rate": 0.0006105359294475188,
      "loss": 3.2122,
      "step": 973
    },
    {
      "epoch": 0.4467377594312579,
      "grad_norm": 0.6466273185873495,
      "learning_rate": 0.0006098111478026107,
      "loss": 3.0903,
      "step": 974
    },
    {
      "epoch": 0.44719642242862057,
      "grad_norm": 0.7117464495891096,
      "learning_rate": 0.0006090861236440848,
      "loss": 3.1824,
      "step": 975
    },
    {
      "epoch": 0.44765508542598326,
      "grad_norm": 0.7896122705294334,
      "learning_rate": 0.0006083608585731282,
      "loss": 3.0752,
      "step": 976
    },
    {
      "epoch": 0.44811374842334595,
      "grad_norm": 0.6491584283881134,
      "learning_rate": 0.0006076353541914609,
      "loss": 3.1015,
      "step": 977
    },
    {
      "epoch": 0.44857241142070864,
      "grad_norm": 0.6863102533733707,
      "learning_rate": 0.0006069096121013307,
      "loss": 3.1277,
      "step": 978
    },
    {
      "epoch": 0.44903107441807133,
      "grad_norm": 0.728123000290006,
      "learning_rate": 0.0006061836339055105,
      "loss": 3.0909,
      "step": 979
    },
    {
      "epoch": 0.449489737415434,
      "grad_norm": 0.64674892628609,
      "learning_rate": 0.0006054574212072948,
      "loss": 3.136,
      "step": 980
    },
    {
      "epoch": 0.4499484004127967,
      "grad_norm": 0.6508728911050616,
      "learning_rate": 0.0006047309756104958,
      "loss": 3.0393,
      "step": 981
    },
    {
      "epoch": 0.4504070634101594,
      "grad_norm": 0.7174959172492096,
      "learning_rate": 0.00060400429871944,
      "loss": 3.0673,
      "step": 982
    },
    {
      "epoch": 0.4508657264075221,
      "grad_norm": 0.7309849231543684,
      "learning_rate": 0.0006032773921389654,
      "loss": 3.0725,
      "step": 983
    },
    {
      "epoch": 0.4513243894048848,
      "grad_norm": 0.6770323888465662,
      "learning_rate": 0.0006025502574744162,
      "loss": 3.1265,
      "step": 984
    },
    {
      "epoch": 0.4517830524022475,
      "grad_norm": 0.6618823424060796,
      "learning_rate": 0.000601822896331641,
      "loss": 3.0984,
      "step": 985
    },
    {
      "epoch": 0.4522417153996101,
      "grad_norm": 0.7352399768210712,
      "learning_rate": 0.0006010953103169883,
      "loss": 3.0928,
      "step": 986
    },
    {
      "epoch": 0.4527003783969728,
      "grad_norm": 0.6367856346036533,
      "learning_rate": 0.0006003675010373034,
      "loss": 3.1388,
      "step": 987
    },
    {
      "epoch": 0.4531590413943355,
      "grad_norm": 0.6752216685379728,
      "learning_rate": 0.0005996394700999246,
      "loss": 3.0749,
      "step": 988
    },
    {
      "epoch": 0.4536177043916982,
      "grad_norm": 0.6416390955887816,
      "learning_rate": 0.0005989112191126794,
      "loss": 3.0029,
      "step": 989
    },
    {
      "epoch": 0.4540763673890609,
      "grad_norm": 0.7203169743453212,
      "learning_rate": 0.0005981827496838822,
      "loss": 3.0182,
      "step": 990
    },
    {
      "epoch": 0.45453503038642357,
      "grad_norm": 0.6552633089321115,
      "learning_rate": 0.0005974540634223286,
      "loss": 3.1321,
      "step": 991
    },
    {
      "epoch": 0.45499369338378626,
      "grad_norm": 0.6512612139862523,
      "learning_rate": 0.0005967251619372939,
      "loss": 3.1125,
      "step": 992
    },
    {
      "epoch": 0.45545235638114895,
      "grad_norm": 0.7474264326797961,
      "learning_rate": 0.0005959960468385284,
      "loss": 3.2226,
      "step": 993
    },
    {
      "epoch": 0.45591101937851164,
      "grad_norm": 0.6886019863485513,
      "learning_rate": 0.0005952667197362542,
      "loss": 3.0584,
      "step": 994
    },
    {
      "epoch": 0.45636968237587433,
      "grad_norm": 0.6712861118546642,
      "learning_rate": 0.0005945371822411621,
      "loss": 3.1073,
      "step": 995
    },
    {
      "epoch": 0.456828345373237,
      "grad_norm": 0.6478228426139955,
      "learning_rate": 0.0005938074359644063,
      "loss": 3.0196,
      "step": 996
    },
    {
      "epoch": 0.4572870083705997,
      "grad_norm": 0.6660020904993067,
      "learning_rate": 0.0005930774825176034,
      "loss": 3.1077,
      "step": 997
    },
    {
      "epoch": 0.4577456713679624,
      "grad_norm": 0.6497508355388117,
      "learning_rate": 0.0005923473235128268,
      "loss": 3.0977,
      "step": 998
    },
    {
      "epoch": 0.4582043343653251,
      "grad_norm": 0.6315735706924281,
      "learning_rate": 0.0005916169605626042,
      "loss": 3.0889,
      "step": 999
    },
    {
      "epoch": 0.4586629973626878,
      "grad_norm": 0.6366979016138046,
      "learning_rate": 0.0005908863952799134,
      "loss": 3.0824,
      "step": 1000
    },
    {
      "epoch": 0.4591216603600505,
      "grad_norm": 0.6632946842291488,
      "learning_rate": 0.0005901556292781793,
      "loss": 3.0764,
      "step": 1001
    },
    {
      "epoch": 0.45958032335741317,
      "grad_norm": 0.6638447010835036,
      "learning_rate": 0.0005894246641712698,
      "loss": 3.0457,
      "step": 1002
    },
    {
      "epoch": 0.4600389863547758,
      "grad_norm": 0.6750829983484139,
      "learning_rate": 0.0005886935015734931,
      "loss": 3.1351,
      "step": 1003
    },
    {
      "epoch": 0.4604976493521385,
      "grad_norm": 0.6574852511736028,
      "learning_rate": 0.0005879621430995928,
      "loss": 3.048,
      "step": 1004
    },
    {
      "epoch": 0.4609563123495012,
      "grad_norm": 0.6037565530310792,
      "learning_rate": 0.0005872305903647455,
      "loss": 3.07,
      "step": 1005
    },
    {
      "epoch": 0.4614149753468639,
      "grad_norm": 0.7621907936775368,
      "learning_rate": 0.0005864988449845569,
      "loss": 3.0746,
      "step": 1006
    },
    {
      "epoch": 0.46187363834422657,
      "grad_norm": 0.6438324676765739,
      "learning_rate": 0.0005857669085750578,
      "loss": 3.0998,
      "step": 1007
    },
    {
      "epoch": 0.46233230134158926,
      "grad_norm": 0.7003495744533592,
      "learning_rate": 0.0005850347827527013,
      "loss": 3.1538,
      "step": 1008
    },
    {
      "epoch": 0.46279096433895195,
      "grad_norm": 0.7433441641925648,
      "learning_rate": 0.0005843024691343584,
      "loss": 3.0625,
      "step": 1009
    },
    {
      "epoch": 0.46324962733631464,
      "grad_norm": 0.677673592523866,
      "learning_rate": 0.000583569969337315,
      "loss": 3.1469,
      "step": 1010
    },
    {
      "epoch": 0.46370829033367733,
      "grad_norm": 0.6635641324081417,
      "learning_rate": 0.0005828372849792686,
      "loss": 3.0811,
      "step": 1011
    },
    {
      "epoch": 0.46416695333104,
      "grad_norm": 0.7951519243964229,
      "learning_rate": 0.0005821044176783234,
      "loss": 3.1067,
      "step": 1012
    },
    {
      "epoch": 0.4646256163284027,
      "grad_norm": 0.6849878495123866,
      "learning_rate": 0.0005813713690529886,
      "loss": 3.0663,
      "step": 1013
    },
    {
      "epoch": 0.4650842793257654,
      "grad_norm": 0.682520726704445,
      "learning_rate": 0.0005806381407221729,
      "loss": 3.082,
      "step": 1014
    },
    {
      "epoch": 0.4655429423231281,
      "grad_norm": 0.724569054473346,
      "learning_rate": 0.0005799047343051826,
      "loss": 3.036,
      "step": 1015
    },
    {
      "epoch": 0.4660016053204908,
      "grad_norm": 0.6686881324542153,
      "learning_rate": 0.0005791711514217171,
      "loss": 3.0772,
      "step": 1016
    },
    {
      "epoch": 0.4664602683178535,
      "grad_norm": 0.7296062800399495,
      "learning_rate": 0.0005784373936918654,
      "loss": 3.1491,
      "step": 1017
    },
    {
      "epoch": 0.46691893131521617,
      "grad_norm": 0.6644334751957255,
      "learning_rate": 0.0005777034627361025,
      "loss": 3.1362,
      "step": 1018
    },
    {
      "epoch": 0.46737759431257886,
      "grad_norm": 0.679110755139691,
      "learning_rate": 0.0005769693601752864,
      "loss": 3.0289,
      "step": 1019
    },
    {
      "epoch": 0.4678362573099415,
      "grad_norm": 0.7275085263450719,
      "learning_rate": 0.0005762350876306537,
      "loss": 3.1453,
      "step": 1020
    },
    {
      "epoch": 0.4682949203073042,
      "grad_norm": 0.7012205788718144,
      "learning_rate": 0.0005755006467238168,
      "loss": 3.0677,
      "step": 1021
    },
    {
      "epoch": 0.4687535833046669,
      "grad_norm": 0.6461722069309596,
      "learning_rate": 0.0005747660390767593,
      "loss": 3.1308,
      "step": 1022
    },
    {
      "epoch": 0.46921224630202957,
      "grad_norm": 0.6275224124191461,
      "learning_rate": 0.0005740312663118338,
      "loss": 2.9606,
      "step": 1023
    },
    {
      "epoch": 0.46967090929939226,
      "grad_norm": 0.7019001017589465,
      "learning_rate": 0.0005732963300517568,
      "loss": 3.0408,
      "step": 1024
    },
    {
      "epoch": 0.47012957229675495,
      "grad_norm": 0.671285722269964,
      "learning_rate": 0.0005725612319196064,
      "loss": 3.1231,
      "step": 1025
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.666807652123182,
      "learning_rate": 0.000571825973538818,
      "loss": 3.0924,
      "step": 1026
    },
    {
      "epoch": 0.47104689829148033,
      "grad_norm": 0.6446603428464392,
      "learning_rate": 0.0005710905565331811,
      "loss": 3.1085,
      "step": 1027
    },
    {
      "epoch": 0.471505561288843,
      "grad_norm": 0.6803927374072273,
      "learning_rate": 0.0005703549825268353,
      "loss": 3.1456,
      "step": 1028
    },
    {
      "epoch": 0.4719642242862057,
      "grad_norm": 0.6765961800932156,
      "learning_rate": 0.0005696192531442667,
      "loss": 3.0798,
      "step": 1029
    },
    {
      "epoch": 0.4724228872835684,
      "grad_norm": 0.6487448961820507,
      "learning_rate": 0.000568883370010305,
      "loss": 3.1925,
      "step": 1030
    },
    {
      "epoch": 0.4728815502809311,
      "grad_norm": 0.6578260123201954,
      "learning_rate": 0.0005681473347501192,
      "loss": 3.3685,
      "step": 1031
    },
    {
      "epoch": 0.4733402132782938,
      "grad_norm": 0.7547400491750312,
      "learning_rate": 0.0005674111489892144,
      "loss": 3.0487,
      "step": 1032
    },
    {
      "epoch": 0.4737988762756565,
      "grad_norm": 0.6266429949294825,
      "learning_rate": 0.0005666748143534282,
      "loss": 3.1831,
      "step": 1033
    },
    {
      "epoch": 0.47425753927301917,
      "grad_norm": 0.7435433483485276,
      "learning_rate": 0.0005659383324689266,
      "loss": 3.0671,
      "step": 1034
    },
    {
      "epoch": 0.47471620227038186,
      "grad_norm": 0.7238183339152378,
      "learning_rate": 0.0005652017049622007,
      "loss": 3.1301,
      "step": 1035
    },
    {
      "epoch": 0.47517486526774455,
      "grad_norm": 0.6835495024297599,
      "learning_rate": 0.0005644649334600641,
      "loss": 3.058,
      "step": 1036
    },
    {
      "epoch": 0.4756335282651072,
      "grad_norm": 0.6998695269199392,
      "learning_rate": 0.0005637280195896474,
      "loss": 3.1917,
      "step": 1037
    },
    {
      "epoch": 0.4760921912624699,
      "grad_norm": 0.6542695133837165,
      "learning_rate": 0.0005629909649783961,
      "loss": 3.1232,
      "step": 1038
    },
    {
      "epoch": 0.47655085425983257,
      "grad_norm": 0.6755749327423467,
      "learning_rate": 0.0005622537712540664,
      "loss": 3.3448,
      "step": 1039
    },
    {
      "epoch": 0.47700951725719526,
      "grad_norm": 0.7395344226096286,
      "learning_rate": 0.0005615164400447218,
      "loss": 3.1112,
      "step": 1040
    },
    {
      "epoch": 0.47746818025455795,
      "grad_norm": 0.6770258593151713,
      "learning_rate": 0.0005607789729787294,
      "loss": 3.1254,
      "step": 1041
    },
    {
      "epoch": 0.47792684325192064,
      "grad_norm": 0.6142173499504351,
      "learning_rate": 0.0005600413716847564,
      "loss": 3.0569,
      "step": 1042
    },
    {
      "epoch": 0.47838550624928333,
      "grad_norm": 0.7347334993207203,
      "learning_rate": 0.000559303637791766,
      "loss": 3.0749,
      "step": 1043
    },
    {
      "epoch": 0.478844169246646,
      "grad_norm": 0.6622441038298172,
      "learning_rate": 0.0005585657729290151,
      "loss": 3.0508,
      "step": 1044
    },
    {
      "epoch": 0.4793028322440087,
      "grad_norm": 0.6971040225144273,
      "learning_rate": 0.000557827778726049,
      "loss": 3.0641,
      "step": 1045
    },
    {
      "epoch": 0.4797614952413714,
      "grad_norm": 0.6555159448516886,
      "learning_rate": 0.0005570896568126993,
      "loss": 2.998,
      "step": 1046
    },
    {
      "epoch": 0.4802201582387341,
      "grad_norm": 0.6877313964008517,
      "learning_rate": 0.0005563514088190788,
      "loss": 3.0968,
      "step": 1047
    },
    {
      "epoch": 0.4806788212360968,
      "grad_norm": 0.6481048659815342,
      "learning_rate": 0.0005556130363755798,
      "loss": 3.0428,
      "step": 1048
    },
    {
      "epoch": 0.4811374842334595,
      "grad_norm": 0.680783264515329,
      "learning_rate": 0.0005548745411128688,
      "loss": 2.9491,
      "step": 1049
    },
    {
      "epoch": 0.48159614723082217,
      "grad_norm": 0.6806723301227645,
      "learning_rate": 0.0005541359246618835,
      "loss": 3.0332,
      "step": 1050
    },
    {
      "epoch": 0.48205481022818486,
      "grad_norm": 0.606930306554715,
      "learning_rate": 0.0005533971886538293,
      "loss": 3.1151,
      "step": 1051
    },
    {
      "epoch": 0.48251347322554755,
      "grad_norm": 0.6572232645097332,
      "learning_rate": 0.000552658334720176,
      "loss": 3.1054,
      "step": 1052
    },
    {
      "epoch": 0.48297213622291024,
      "grad_norm": 0.743677555532042,
      "learning_rate": 0.0005519193644926535,
      "loss": 3.0459,
      "step": 1053
    },
    {
      "epoch": 0.4834307992202729,
      "grad_norm": 0.6362553811661331,
      "learning_rate": 0.0005511802796032485,
      "loss": 3.0422,
      "step": 1054
    },
    {
      "epoch": 0.48388946221763557,
      "grad_norm": 0.6333654174028209,
      "learning_rate": 0.0005504410816842009,
      "loss": 3.0254,
      "step": 1055
    },
    {
      "epoch": 0.48434812521499826,
      "grad_norm": 0.6700792494716414,
      "learning_rate": 0.0005497017723680009,
      "loss": 3.0015,
      "step": 1056
    },
    {
      "epoch": 0.48480678821236095,
      "grad_norm": 0.6507341898988928,
      "learning_rate": 0.0005489623532873836,
      "loss": 2.9671,
      "step": 1057
    },
    {
      "epoch": 0.48526545120972364,
      "grad_norm": 0.6789999145385299,
      "learning_rate": 0.0005482228260753273,
      "loss": 3.1301,
      "step": 1058
    },
    {
      "epoch": 0.48572411420708633,
      "grad_norm": 0.6292191020048042,
      "learning_rate": 0.0005474831923650488,
      "loss": 3.1058,
      "step": 1059
    },
    {
      "epoch": 0.486182777204449,
      "grad_norm": 0.7547976599357804,
      "learning_rate": 0.00054674345379,
      "loss": 3.0635,
      "step": 1060
    },
    {
      "epoch": 0.4866414402018117,
      "grad_norm": 0.6520749917642916,
      "learning_rate": 0.000546003611983865,
      "loss": 3.1258,
      "step": 1061
    },
    {
      "epoch": 0.4871001031991744,
      "grad_norm": 0.6192915874525313,
      "learning_rate": 0.0005452636685805552,
      "loss": 3.0578,
      "step": 1062
    },
    {
      "epoch": 0.4875587661965371,
      "grad_norm": 0.6552286726237105,
      "learning_rate": 0.0005445236252142066,
      "loss": 3.2653,
      "step": 1063
    },
    {
      "epoch": 0.4880174291938998,
      "grad_norm": 0.7087046743073845,
      "learning_rate": 0.000543783483519176,
      "loss": 3.1259,
      "step": 1064
    },
    {
      "epoch": 0.4884760921912625,
      "grad_norm": 0.6854433664398671,
      "learning_rate": 0.0005430432451300374,
      "loss": 3.0633,
      "step": 1065
    },
    {
      "epoch": 0.48893475518862517,
      "grad_norm": 0.5893467394231394,
      "learning_rate": 0.0005423029116815781,
      "loss": 3.0327,
      "step": 1066
    },
    {
      "epoch": 0.48939341818598786,
      "grad_norm": 0.6996439212592838,
      "learning_rate": 0.0005415624848087959,
      "loss": 3.0568,
      "step": 1067
    },
    {
      "epoch": 0.48985208118335055,
      "grad_norm": 0.7838422012778575,
      "learning_rate": 0.000540821966146894,
      "loss": 3.2361,
      "step": 1068
    },
    {
      "epoch": 0.49031074418071324,
      "grad_norm": 0.6575554369252368,
      "learning_rate": 0.0005400813573312793,
      "loss": 3.0362,
      "step": 1069
    },
    {
      "epoch": 0.49076940717807593,
      "grad_norm": 0.6581753721612702,
      "learning_rate": 0.0005393406599975572,
      "loss": 3.0746,
      "step": 1070
    },
    {
      "epoch": 0.49122807017543857,
      "grad_norm": 0.7500128942369736,
      "learning_rate": 0.0005385998757815287,
      "loss": 3.108,
      "step": 1071
    },
    {
      "epoch": 0.49168673317280126,
      "grad_norm": 0.785144851299806,
      "learning_rate": 0.0005378590063191867,
      "loss": 3.01,
      "step": 1072
    },
    {
      "epoch": 0.49214539617016395,
      "grad_norm": 0.8269450294252426,
      "learning_rate": 0.0005371180532467124,
      "loss": 3.1363,
      "step": 1073
    },
    {
      "epoch": 0.49260405916752664,
      "grad_norm": 0.6664174014466576,
      "learning_rate": 0.000536377018200472,
      "loss": 3.0853,
      "step": 1074
    },
    {
      "epoch": 0.49306272216488933,
      "grad_norm": 0.822495531275941,
      "learning_rate": 0.0005356359028170118,
      "loss": 3.1532,
      "step": 1075
    },
    {
      "epoch": 0.493521385162252,
      "grad_norm": 0.6885177730001754,
      "learning_rate": 0.0005348947087330564,
      "loss": 3.0462,
      "step": 1076
    },
    {
      "epoch": 0.4939800481596147,
      "grad_norm": 0.752522056229324,
      "learning_rate": 0.0005341534375855037,
      "loss": 3.153,
      "step": 1077
    },
    {
      "epoch": 0.4944387111569774,
      "grad_norm": 0.6484139657446143,
      "learning_rate": 0.0005334120910114222,
      "loss": 3.076,
      "step": 1078
    },
    {
      "epoch": 0.4948973741543401,
      "grad_norm": 0.74332669869155,
      "learning_rate": 0.0005326706706480467,
      "loss": 3.1018,
      "step": 1079
    },
    {
      "epoch": 0.4953560371517028,
      "grad_norm": 0.7657906520974225,
      "learning_rate": 0.0005319291781327749,
      "loss": 3.0115,
      "step": 1080
    },
    {
      "epoch": 0.4958147001490655,
      "grad_norm": 0.7364542315360929,
      "learning_rate": 0.0005311876151031642,
      "loss": 3.0706,
      "step": 1081
    },
    {
      "epoch": 0.49627336314642817,
      "grad_norm": 0.691442913288051,
      "learning_rate": 0.0005304459831969274,
      "loss": 3.0848,
      "step": 1082
    },
    {
      "epoch": 0.49673202614379086,
      "grad_norm": 0.6396839583358139,
      "learning_rate": 0.0005297042840519294,
      "loss": 2.9843,
      "step": 1083
    },
    {
      "epoch": 0.49719068914115355,
      "grad_norm": 0.7545508970649571,
      "learning_rate": 0.0005289625193061838,
      "loss": 3.0575,
      "step": 1084
    },
    {
      "epoch": 0.49764935213851624,
      "grad_norm": 0.726718938044344,
      "learning_rate": 0.0005282206905978489,
      "loss": 3.0354,
      "step": 1085
    },
    {
      "epoch": 0.49810801513587893,
      "grad_norm": 0.652683931677921,
      "learning_rate": 0.0005274787995652246,
      "loss": 3.0192,
      "step": 1086
    },
    {
      "epoch": 0.4985666781332416,
      "grad_norm": 0.6936571630351653,
      "learning_rate": 0.000526736847846748,
      "loss": 3.0554,
      "step": 1087
    },
    {
      "epoch": 0.49902534113060426,
      "grad_norm": 0.6749251906212498,
      "learning_rate": 0.0005259948370809901,
      "loss": 3.1651,
      "step": 1088
    },
    {
      "epoch": 0.49948400412796695,
      "grad_norm": 0.6412782971509562,
      "learning_rate": 0.0005252527689066533,
      "loss": 3.1243,
      "step": 1089
    },
    {
      "epoch": 0.49994266712532964,
      "grad_norm": 0.6115823645412004,
      "learning_rate": 0.0005245106449625654,
      "loss": 3.0729,
      "step": 1090
    },
    {
      "epoch": 0.5004013301226924,
      "grad_norm": 0.6388642875687328,
      "learning_rate": 0.0005237684668876785,
      "loss": 3.0835,
      "step": 1091
    },
    {
      "epoch": 0.500859993120055,
      "grad_norm": 0.6761550941651268,
      "learning_rate": 0.0005230262363210637,
      "loss": 3.1647,
      "step": 1092
    },
    {
      "epoch": 0.5013186561174178,
      "grad_norm": 0.6567831903052535,
      "learning_rate": 0.0005222839549019079,
      "loss": 3.1834,
      "step": 1093
    },
    {
      "epoch": 0.5017773191147804,
      "grad_norm": 0.6786298983584975,
      "learning_rate": 0.0005215416242695108,
      "loss": 2.9891,
      "step": 1094
    },
    {
      "epoch": 0.5022359821121432,
      "grad_norm": 0.6258523708020066,
      "learning_rate": 0.0005207992460632804,
      "loss": 3.0579,
      "step": 1095
    },
    {
      "epoch": 0.5026946451095058,
      "grad_norm": 0.7514805274464799,
      "learning_rate": 0.0005200568219227299,
      "loss": 3.016,
      "step": 1096
    },
    {
      "epoch": 0.5031533081068684,
      "grad_norm": 0.7605900173526556,
      "learning_rate": 0.000519314353487474,
      "loss": 3.0726,
      "step": 1097
    },
    {
      "epoch": 0.5036119711042312,
      "grad_norm": 0.6413864341721587,
      "learning_rate": 0.0005185718423972251,
      "loss": 3.0539,
      "step": 1098
    },
    {
      "epoch": 0.5040706341015938,
      "grad_norm": 0.653295901757746,
      "learning_rate": 0.0005178292902917898,
      "loss": 3.114,
      "step": 1099
    },
    {
      "epoch": 0.5045292970989566,
      "grad_norm": 0.7057900053235249,
      "learning_rate": 0.0005170866988110656,
      "loss": 3.1256,
      "step": 1100
    },
    {
      "epoch": 0.5049879600963192,
      "grad_norm": 0.6717233363232813,
      "learning_rate": 0.0005163440695950362,
      "loss": 3.0248,
      "step": 1101
    },
    {
      "epoch": 0.5054466230936819,
      "grad_norm": 0.6413420346610874,
      "learning_rate": 0.0005156014042837695,
      "loss": 2.9946,
      "step": 1102
    },
    {
      "epoch": 0.5059052860910446,
      "grad_norm": 0.6901699256257836,
      "learning_rate": 0.0005148587045174128,
      "loss": 3.1959,
      "step": 1103
    },
    {
      "epoch": 0.5063639490884073,
      "grad_norm": 0.7600885607931988,
      "learning_rate": 0.0005141159719361891,
      "loss": 3.0837,
      "step": 1104
    },
    {
      "epoch": 0.50682261208577,
      "grad_norm": 0.6576629738750148,
      "learning_rate": 0.0005133732081803945,
      "loss": 3.0513,
      "step": 1105
    },
    {
      "epoch": 0.5072812750831327,
      "grad_norm": 0.6188424398203527,
      "learning_rate": 0.0005126304148903936,
      "loss": 2.9888,
      "step": 1106
    },
    {
      "epoch": 0.5077399380804953,
      "grad_norm": 0.6777063310875914,
      "learning_rate": 0.0005118875937066161,
      "loss": 3.0949,
      "step": 1107
    },
    {
      "epoch": 0.5081986010778581,
      "grad_norm": 0.7321210983097336,
      "learning_rate": 0.0005111447462695537,
      "loss": 3.0938,
      "step": 1108
    },
    {
      "epoch": 0.5086572640752207,
      "grad_norm": 0.6492209428162368,
      "learning_rate": 0.0005104018742197557,
      "loss": 3.0834,
      "step": 1109
    },
    {
      "epoch": 0.5091159270725835,
      "grad_norm": 0.6480013950039659,
      "learning_rate": 0.0005096589791978261,
      "loss": 3.02,
      "step": 1110
    },
    {
      "epoch": 0.5095745900699461,
      "grad_norm": 0.6967355083526917,
      "learning_rate": 0.0005089160628444192,
      "loss": 3.1482,
      "step": 1111
    },
    {
      "epoch": 0.5100332530673088,
      "grad_norm": 0.739489226959968,
      "learning_rate": 0.0005081731268002371,
      "loss": 3.0873,
      "step": 1112
    },
    {
      "epoch": 0.5104919160646715,
      "grad_norm": 0.6610566573416103,
      "learning_rate": 0.0005074301727060243,
      "loss": 3.0633,
      "step": 1113
    },
    {
      "epoch": 0.5109505790620341,
      "grad_norm": 0.6635560071537904,
      "learning_rate": 0.0005066872022025663,
      "loss": 3.0836,
      "step": 1114
    },
    {
      "epoch": 0.5114092420593969,
      "grad_norm": 0.6579048054279117,
      "learning_rate": 0.0005059442169306844,
      "loss": 3.1611,
      "step": 1115
    },
    {
      "epoch": 0.5118679050567595,
      "grad_norm": 0.7394038234094188,
      "learning_rate": 0.0005052012185312321,
      "loss": 3.0731,
      "step": 1116
    },
    {
      "epoch": 0.5123265680541222,
      "grad_norm": 0.6921535632586755,
      "learning_rate": 0.0005044582086450925,
      "loss": 3.0849,
      "step": 1117
    },
    {
      "epoch": 0.5127852310514849,
      "grad_norm": 0.6112661633364659,
      "learning_rate": 0.0005037151889131737,
      "loss": 3.1269,
      "step": 1118
    },
    {
      "epoch": 0.5132438940488476,
      "grad_norm": 0.7578784963141433,
      "learning_rate": 0.0005029721609764059,
      "loss": 3.0327,
      "step": 1119
    },
    {
      "epoch": 0.5137025570462103,
      "grad_norm": 0.676481465423807,
      "learning_rate": 0.000502229126475737,
      "loss": 3.1183,
      "step": 1120
    },
    {
      "epoch": 0.514161220043573,
      "grad_norm": 0.7366573224297267,
      "learning_rate": 0.0005014860870521293,
      "loss": 2.9672,
      "step": 1121
    },
    {
      "epoch": 0.5146198830409356,
      "grad_norm": 0.6566051742836752,
      "learning_rate": 0.0005007430443465569,
      "loss": 3.1531,
      "step": 1122
    },
    {
      "epoch": 0.5150785460382984,
      "grad_norm": 0.7901489406804186,
      "learning_rate": 0.0005,
      "loss": 3.0717,
      "step": 1123
    },
    {
      "epoch": 0.515537209035661,
      "grad_norm": 0.8213734629632891,
      "learning_rate": 0.0004992569556534432,
      "loss": 3.1199,
      "step": 1124
    },
    {
      "epoch": 0.5159958720330238,
      "grad_norm": 0.680125655814202,
      "learning_rate": 0.0004985139129478707,
      "loss": 3.1006,
      "step": 1125
    },
    {
      "epoch": 0.5164545350303864,
      "grad_norm": 0.7110334171020444,
      "learning_rate": 0.0004977708735242633,
      "loss": 3.0451,
      "step": 1126
    },
    {
      "epoch": 0.5169131980277492,
      "grad_norm": 0.7283225460482978,
      "learning_rate": 0.0004970278390235942,
      "loss": 3.1153,
      "step": 1127
    },
    {
      "epoch": 0.5173718610251118,
      "grad_norm": 0.7154840733002972,
      "learning_rate": 0.0004962848110868262,
      "loss": 3.1224,
      "step": 1128
    },
    {
      "epoch": 0.5178305240224745,
      "grad_norm": 0.6337396725616047,
      "learning_rate": 0.0004955417913549074,
      "loss": 3.0499,
      "step": 1129
    },
    {
      "epoch": 0.5182891870198372,
      "grad_norm": 0.6437216050442411,
      "learning_rate": 0.0004947987814687679,
      "loss": 3.225,
      "step": 1130
    },
    {
      "epoch": 0.5187478500171998,
      "grad_norm": 0.8143360650119427,
      "learning_rate": 0.0004940557830693157,
      "loss": 2.9974,
      "step": 1131
    },
    {
      "epoch": 0.5192065130145626,
      "grad_norm": 0.7276365263684882,
      "learning_rate": 0.0004933127977974338,
      "loss": 3.0424,
      "step": 1132
    },
    {
      "epoch": 0.5196651760119252,
      "grad_norm": 0.6485281837679762,
      "learning_rate": 0.0004925698272939757,
      "loss": 3.0502,
      "step": 1133
    },
    {
      "epoch": 0.5201238390092879,
      "grad_norm": 0.6541460972461846,
      "learning_rate": 0.0004918268731997632,
      "loss": 3.0803,
      "step": 1134
    },
    {
      "epoch": 0.5205825020066506,
      "grad_norm": 0.6373050084761727,
      "learning_rate": 0.0004910839371555809,
      "loss": 3.0124,
      "step": 1135
    },
    {
      "epoch": 0.5210411650040133,
      "grad_norm": 0.6793373317169936,
      "learning_rate": 0.0004903410208021739,
      "loss": 3.006,
      "step": 1136
    },
    {
      "epoch": 0.521499828001376,
      "grad_norm": 0.6006612236045938,
      "learning_rate": 0.0004895981257802443,
      "loss": 2.9874,
      "step": 1137
    },
    {
      "epoch": 0.5219584909987387,
      "grad_norm": 0.662170655366154,
      "learning_rate": 0.0004888552537304463,
      "loss": 3.0086,
      "step": 1138
    },
    {
      "epoch": 0.5224171539961013,
      "grad_norm": 0.6975263261959307,
      "learning_rate": 0.00048811240629338394,
      "loss": 2.9299,
      "step": 1139
    },
    {
      "epoch": 0.5228758169934641,
      "grad_norm": 0.721925771179381,
      "learning_rate": 0.00048736958510960663,
      "loss": 3.0811,
      "step": 1140
    },
    {
      "epoch": 0.5233344799908267,
      "grad_norm": 0.766559528962657,
      "learning_rate": 0.00048662679181960564,
      "loss": 3.153,
      "step": 1141
    },
    {
      "epoch": 0.5237931429881895,
      "grad_norm": 0.6636492140607768,
      "learning_rate": 0.00048588402806381094,
      "loss": 3.0672,
      "step": 1142
    },
    {
      "epoch": 0.5242518059855521,
      "grad_norm": 0.6746660362957811,
      "learning_rate": 0.0004851412954825874,
      "loss": 3.047,
      "step": 1143
    },
    {
      "epoch": 0.5247104689829148,
      "grad_norm": 0.6317120359666832,
      "learning_rate": 0.00048439859571623034,
      "loss": 3.0514,
      "step": 1144
    },
    {
      "epoch": 0.5251691319802775,
      "grad_norm": 0.6225681262119452,
      "learning_rate": 0.00048365593040496373,
      "loss": 3.0953,
      "step": 1145
    },
    {
      "epoch": 0.5256277949776402,
      "grad_norm": 0.6441247346188876,
      "learning_rate": 0.00048291330118893443,
      "loss": 3.0555,
      "step": 1146
    },
    {
      "epoch": 0.5260864579750029,
      "grad_norm": 0.6140713842093426,
      "learning_rate": 0.0004821707097082102,
      "loss": 3.0279,
      "step": 1147
    },
    {
      "epoch": 0.5265451209723655,
      "grad_norm": 0.7538665766142664,
      "learning_rate": 0.0004814281576027749,
      "loss": 3.14,
      "step": 1148
    },
    {
      "epoch": 0.5270037839697282,
      "grad_norm": 0.6199180975633435,
      "learning_rate": 0.000480685646512526,
      "loss": 3.1319,
      "step": 1149
    },
    {
      "epoch": 0.5274624469670909,
      "grad_norm": 0.6239066358849388,
      "learning_rate": 0.00047994317807727025,
      "loss": 3.1564,
      "step": 1150
    },
    {
      "epoch": 0.5279211099644536,
      "grad_norm": 0.6724680914310345,
      "learning_rate": 0.00047920075393671974,
      "loss": 3.0227,
      "step": 1151
    },
    {
      "epoch": 0.5283797729618163,
      "grad_norm": 0.7278870318488276,
      "learning_rate": 0.0004784583757304893,
      "loss": 3.0889,
      "step": 1152
    },
    {
      "epoch": 0.528838435959179,
      "grad_norm": 0.6382999577215569,
      "learning_rate": 0.00047771604509809214,
      "loss": 3.1218,
      "step": 1153
    },
    {
      "epoch": 0.5292970989565416,
      "grad_norm": 0.7310673435673347,
      "learning_rate": 0.0004769737636789364,
      "loss": 3.0729,
      "step": 1154
    },
    {
      "epoch": 0.5297557619539044,
      "grad_norm": 0.76197084589687,
      "learning_rate": 0.00047623153311232157,
      "loss": 2.9297,
      "step": 1155
    },
    {
      "epoch": 0.530214424951267,
      "grad_norm": 0.6641683339946836,
      "learning_rate": 0.0004754893550374346,
      "loss": 2.997,
      "step": 1156
    },
    {
      "epoch": 0.5306730879486298,
      "grad_norm": 0.7219050367785391,
      "learning_rate": 0.00047474723109334685,
      "loss": 3.0709,
      "step": 1157
    },
    {
      "epoch": 0.5311317509459924,
      "grad_norm": 0.6002353386994843,
      "learning_rate": 0.00047400516291900993,
      "loss": 3.0408,
      "step": 1158
    },
    {
      "epoch": 0.5315904139433552,
      "grad_norm": 0.6678135976639192,
      "learning_rate": 0.0004732631521532522,
      "loss": 3.0938,
      "step": 1159
    },
    {
      "epoch": 0.5320490769407178,
      "grad_norm": 0.6805667143611382,
      "learning_rate": 0.0004725212004347755,
      "loss": 3.0415,
      "step": 1160
    },
    {
      "epoch": 0.5325077399380805,
      "grad_norm": 0.6586577284969714,
      "learning_rate": 0.00047177930940215095,
      "loss": 3.013,
      "step": 1161
    },
    {
      "epoch": 0.5329664029354432,
      "grad_norm": 0.7250009467116881,
      "learning_rate": 0.00047103748069381624,
      "loss": 3.0267,
      "step": 1162
    },
    {
      "epoch": 0.5334250659328059,
      "grad_norm": 0.682899772835115,
      "learning_rate": 0.0004702957159480707,
      "loss": 3.1266,
      "step": 1163
    },
    {
      "epoch": 0.5338837289301686,
      "grad_norm": 0.689339913253382,
      "learning_rate": 0.00046955401680307267,
      "loss": 3.2104,
      "step": 1164
    },
    {
      "epoch": 0.5343423919275313,
      "grad_norm": 0.7224529364338128,
      "learning_rate": 0.0004688123848968359,
      "loss": 3.0755,
      "step": 1165
    },
    {
      "epoch": 0.5348010549248939,
      "grad_norm": 0.6698463892743942,
      "learning_rate": 0.00046807082186722516,
      "loss": 3.0824,
      "step": 1166
    },
    {
      "epoch": 0.5352597179222566,
      "grad_norm": 0.6759162778559131,
      "learning_rate": 0.0004673293293519535,
      "loss": 3.0949,
      "step": 1167
    },
    {
      "epoch": 0.5357183809196193,
      "grad_norm": 0.7156187757565322,
      "learning_rate": 0.00046658790898857806,
      "loss": 3.1673,
      "step": 1168
    },
    {
      "epoch": 0.536177043916982,
      "grad_norm": 0.6312603592173943,
      "learning_rate": 0.0004658465624144963,
      "loss": 3.0058,
      "step": 1169
    },
    {
      "epoch": 0.5366357069143447,
      "grad_norm": 0.6603866295771847,
      "learning_rate": 0.0004651052912669438,
      "loss": 3.1804,
      "step": 1170
    },
    {
      "epoch": 0.5370943699117073,
      "grad_norm": 0.6153164968980647,
      "learning_rate": 0.0004643640971829883,
      "loss": 3.0042,
      "step": 1171
    },
    {
      "epoch": 0.5375530329090701,
      "grad_norm": 0.7031051982278499,
      "learning_rate": 0.0004636229817995281,
      "loss": 3.0691,
      "step": 1172
    },
    {
      "epoch": 0.5380116959064327,
      "grad_norm": 0.6808851013448712,
      "learning_rate": 0.0004628819467532876,
      "loss": 2.9173,
      "step": 1173
    },
    {
      "epoch": 0.5384703589037955,
      "grad_norm": 0.684603602748431,
      "learning_rate": 0.00046214099368081335,
      "loss": 3.11,
      "step": 1174
    },
    {
      "epoch": 0.5389290219011581,
      "grad_norm": 0.6931354391856059,
      "learning_rate": 0.0004614001242184714,
      "loss": 3.0646,
      "step": 1175
    },
    {
      "epoch": 0.5393876848985208,
      "grad_norm": 0.6469037628855391,
      "learning_rate": 0.000460659340002443,
      "loss": 3.076,
      "step": 1176
    },
    {
      "epoch": 0.5398463478958835,
      "grad_norm": 0.7518995111268049,
      "learning_rate": 0.00045991864266872073,
      "loss": 3.0097,
      "step": 1177
    },
    {
      "epoch": 0.5403050108932462,
      "grad_norm": 0.7339748303029743,
      "learning_rate": 0.00045917803385310595,
      "loss": 3.0503,
      "step": 1178
    },
    {
      "epoch": 0.5407636738906089,
      "grad_norm": 0.6310473849722398,
      "learning_rate": 0.00045843751519120417,
      "loss": 3.0566,
      "step": 1179
    },
    {
      "epoch": 0.5412223368879716,
      "grad_norm": 0.6413234894732799,
      "learning_rate": 0.00045769708831842193,
      "loss": 3.1111,
      "step": 1180
    },
    {
      "epoch": 0.5416809998853342,
      "grad_norm": 0.656383611101461,
      "learning_rate": 0.00045695675486996266,
      "loss": 3.0203,
      "step": 1181
    },
    {
      "epoch": 0.542139662882697,
      "grad_norm": 0.6793109541667087,
      "learning_rate": 0.00045621651648082405,
      "loss": 2.8842,
      "step": 1182
    },
    {
      "epoch": 0.5425983258800596,
      "grad_norm": 0.684147644589825,
      "learning_rate": 0.00045547637478579356,
      "loss": 2.9674,
      "step": 1183
    },
    {
      "epoch": 0.5430569888774223,
      "grad_norm": 0.6617462371472678,
      "learning_rate": 0.0004547363314194449,
      "loss": 3.1628,
      "step": 1184
    },
    {
      "epoch": 0.543515651874785,
      "grad_norm": 0.6543146405809009,
      "learning_rate": 0.000453996388016135,
      "loss": 3.1484,
      "step": 1185
    },
    {
      "epoch": 0.5439743148721476,
      "grad_norm": 0.6562128907725772,
      "learning_rate": 0.0004532565462099999,
      "loss": 2.9907,
      "step": 1186
    },
    {
      "epoch": 0.5444329778695104,
      "grad_norm": 0.6023946489795476,
      "learning_rate": 0.0004525168076349513,
      "loss": 3.1088,
      "step": 1187
    },
    {
      "epoch": 0.544891640866873,
      "grad_norm": 0.6821057172414595,
      "learning_rate": 0.0004517771739246729,
      "loss": 3.168,
      "step": 1188
    },
    {
      "epoch": 0.5453503038642358,
      "grad_norm": 0.6728854820623029,
      "learning_rate": 0.0004510376467126165,
      "loss": 3.0567,
      "step": 1189
    },
    {
      "epoch": 0.5458089668615984,
      "grad_norm": 0.6306015128782376,
      "learning_rate": 0.0004502982276319992,
      "loss": 3.0011,
      "step": 1190
    },
    {
      "epoch": 0.5462676298589612,
      "grad_norm": 0.6388476789357267,
      "learning_rate": 0.0004495589183157991,
      "loss": 2.9578,
      "step": 1191
    },
    {
      "epoch": 0.5467262928563238,
      "grad_norm": 0.7078415411398659,
      "learning_rate": 0.0004488197203967517,
      "loss": 3.0467,
      "step": 1192
    },
    {
      "epoch": 0.5471849558536865,
      "grad_norm": 0.6650147008075022,
      "learning_rate": 0.0004480806355073467,
      "loss": 2.9811,
      "step": 1193
    },
    {
      "epoch": 0.5476436188510492,
      "grad_norm": 0.742502038008124,
      "learning_rate": 0.000447341665279824,
      "loss": 3.0844,
      "step": 1194
    },
    {
      "epoch": 0.5481022818484119,
      "grad_norm": 0.6838483891593049,
      "learning_rate": 0.0004466028113461708,
      "loss": 2.9675,
      "step": 1195
    },
    {
      "epoch": 0.5485609448457746,
      "grad_norm": 0.6443059097156106,
      "learning_rate": 0.0004458640753381167,
      "loss": 3.0025,
      "step": 1196
    },
    {
      "epoch": 0.5490196078431373,
      "grad_norm": 0.6621740755594202,
      "learning_rate": 0.0004451254588871313,
      "loss": 3.1063,
      "step": 1197
    },
    {
      "epoch": 0.5494782708404999,
      "grad_norm": 0.6190281837274889,
      "learning_rate": 0.0004443869636244203,
      "loss": 3.1007,
      "step": 1198
    },
    {
      "epoch": 0.5499369338378627,
      "grad_norm": 0.6329345016428631,
      "learning_rate": 0.0004436485911809212,
      "loss": 2.9612,
      "step": 1199
    },
    {
      "epoch": 0.5503955968352253,
      "grad_norm": 0.6546052058424163,
      "learning_rate": 0.00044291034318730087,
      "loss": 3.1084,
      "step": 1200
    },
    {
      "epoch": 0.550854259832588,
      "grad_norm": 0.7120048417712803,
      "learning_rate": 0.0004421722212739511,
      "loss": 2.9843,
      "step": 1201
    },
    {
      "epoch": 0.5513129228299507,
      "grad_norm": 0.7090051627744679,
      "learning_rate": 0.0004414342270709848,
      "loss": 3.0298,
      "step": 1202
    },
    {
      "epoch": 0.5517715858273133,
      "grad_norm": 0.6641743092186625,
      "learning_rate": 0.00044069636220823397,
      "loss": 2.9803,
      "step": 1203
    },
    {
      "epoch": 0.5522302488246761,
      "grad_norm": 0.6269671900852826,
      "learning_rate": 0.0004399586283152437,
      "loss": 3.0847,
      "step": 1204
    },
    {
      "epoch": 0.5526889118220387,
      "grad_norm": 0.7279100317395414,
      "learning_rate": 0.0004392210270212706,
      "loss": 3.0411,
      "step": 1205
    },
    {
      "epoch": 0.5531475748194015,
      "grad_norm": 0.6852658993337264,
      "learning_rate": 0.00043848355995527825,
      "loss": 3.1058,
      "step": 1206
    },
    {
      "epoch": 0.5536062378167641,
      "grad_norm": 0.7462069634467037,
      "learning_rate": 0.00043774622874593374,
      "loss": 3.0711,
      "step": 1207
    },
    {
      "epoch": 0.5540649008141268,
      "grad_norm": 0.8232204860018464,
      "learning_rate": 0.000437009035021604,
      "loss": 2.9541,
      "step": 1208
    },
    {
      "epoch": 0.5545235638114895,
      "grad_norm": 0.6796013167255157,
      "learning_rate": 0.00043627198041035274,
      "loss": 3.145,
      "step": 1209
    },
    {
      "epoch": 0.5549822268088522,
      "grad_norm": 0.6697975562848184,
      "learning_rate": 0.00043553506653993597,
      "loss": 3.1589,
      "step": 1210
    },
    {
      "epoch": 0.5554408898062149,
      "grad_norm": 0.7331121643099409,
      "learning_rate": 0.0004347982950377992,
      "loss": 3.0352,
      "step": 1211
    },
    {
      "epoch": 0.5558995528035776,
      "grad_norm": 0.6598471999368697,
      "learning_rate": 0.0004340616675310735,
      "loss": 2.9884,
      "step": 1212
    },
    {
      "epoch": 0.5563582158009402,
      "grad_norm": 0.6875817816640742,
      "learning_rate": 0.00043332518564657193,
      "loss": 2.9823,
      "step": 1213
    },
    {
      "epoch": 0.556816878798303,
      "grad_norm": 0.8647078720837392,
      "learning_rate": 0.0004325888510107856,
      "loss": 3.2488,
      "step": 1214
    },
    {
      "epoch": 0.5572755417956656,
      "grad_norm": 0.6689565050661606,
      "learning_rate": 0.0004318526652498809,
      "loss": 3.0317,
      "step": 1215
    },
    {
      "epoch": 0.5577342047930284,
      "grad_norm": 0.678693111617319,
      "learning_rate": 0.00043111662998969523,
      "loss": 3.182,
      "step": 1216
    },
    {
      "epoch": 0.558192867790391,
      "grad_norm": 0.7147814164182417,
      "learning_rate": 0.0004303807468557335,
      "loss": 3.1945,
      "step": 1217
    },
    {
      "epoch": 0.5586515307877536,
      "grad_norm": 0.82826982479421,
      "learning_rate": 0.0004296450174731648,
      "loss": 3.0311,
      "step": 1218
    },
    {
      "epoch": 0.5591101937851164,
      "grad_norm": 0.7350350094188506,
      "learning_rate": 0.0004289094434668188,
      "loss": 3.0701,
      "step": 1219
    },
    {
      "epoch": 0.559568856782479,
      "grad_norm": 0.6209289369919866,
      "learning_rate": 0.00042817402646118185,
      "loss": 3.1067,
      "step": 1220
    },
    {
      "epoch": 0.5600275197798418,
      "grad_norm": 0.70255717641956,
      "learning_rate": 0.0004274387680803936,
      "loss": 3.1695,
      "step": 1221
    },
    {
      "epoch": 0.5604861827772044,
      "grad_norm": 0.6555242159187764,
      "learning_rate": 0.00042670366994824327,
      "loss": 3.0354,
      "step": 1222
    },
    {
      "epoch": 0.5609448457745672,
      "grad_norm": 0.6701674990222014,
      "learning_rate": 0.0004259687336881663,
      "loss": 3.0005,
      "step": 1223
    },
    {
      "epoch": 0.5614035087719298,
      "grad_norm": 0.6537040668654301,
      "learning_rate": 0.0004252339609232408,
      "loss": 3.0297,
      "step": 1224
    },
    {
      "epoch": 0.5618621717692925,
      "grad_norm": 0.6665986538874848,
      "learning_rate": 0.0004244993532761834,
      "loss": 3.0431,
      "step": 1225
    },
    {
      "epoch": 0.5623208347666552,
      "grad_norm": 0.7275312791121711,
      "learning_rate": 0.00042376491236934634,
      "loss": 3.1723,
      "step": 1226
    },
    {
      "epoch": 0.5627794977640179,
      "grad_norm": 0.6408239886523213,
      "learning_rate": 0.0004230306398247136,
      "loss": 2.8938,
      "step": 1227
    },
    {
      "epoch": 0.5632381607613806,
      "grad_norm": 0.6561862521387263,
      "learning_rate": 0.0004222965372638976,
      "loss": 3.1501,
      "step": 1228
    },
    {
      "epoch": 0.5636968237587433,
      "grad_norm": 0.7205201263370338,
      "learning_rate": 0.0004215626063081348,
      "loss": 3.2262,
      "step": 1229
    },
    {
      "epoch": 0.5641554867561059,
      "grad_norm": 0.6698698833596423,
      "learning_rate": 0.000420828848578283,
      "loss": 3.0619,
      "step": 1230
    },
    {
      "epoch": 0.5646141497534687,
      "grad_norm": 0.6530059660519444,
      "learning_rate": 0.0004200952656948175,
      "loss": 3.1785,
      "step": 1231
    },
    {
      "epoch": 0.5650728127508313,
      "grad_norm": 0.6770411698805453,
      "learning_rate": 0.0004193618592778272,
      "loss": 3.127,
      "step": 1232
    },
    {
      "epoch": 0.5655314757481941,
      "grad_norm": 0.6530360069392657,
      "learning_rate": 0.0004186286309470116,
      "loss": 3.0756,
      "step": 1233
    },
    {
      "epoch": 0.5659901387455567,
      "grad_norm": 0.6665412242477515,
      "learning_rate": 0.0004178955823216767,
      "loss": 3.0999,
      "step": 1234
    },
    {
      "epoch": 0.5664488017429193,
      "grad_norm": 0.7073843976412117,
      "learning_rate": 0.00041716271502073137,
      "loss": 3.1845,
      "step": 1235
    },
    {
      "epoch": 0.5669074647402821,
      "grad_norm": 0.6852792704162105,
      "learning_rate": 0.000416430030662685,
      "loss": 2.9723,
      "step": 1236
    },
    {
      "epoch": 0.5673661277376447,
      "grad_norm": 0.6749486615039657,
      "learning_rate": 0.00041569753086564173,
      "loss": 3.0478,
      "step": 1237
    },
    {
      "epoch": 0.5678247907350075,
      "grad_norm": 0.6932304236022216,
      "learning_rate": 0.0004149652172472988,
      "loss": 3.0872,
      "step": 1238
    },
    {
      "epoch": 0.5682834537323701,
      "grad_norm": 0.6914867253681392,
      "learning_rate": 0.00041423309142494234,
      "loss": 3.0511,
      "step": 1239
    },
    {
      "epoch": 0.5687421167297328,
      "grad_norm": 0.6345900638496179,
      "learning_rate": 0.0004135011550154433,
      "loss": 3.0841,
      "step": 1240
    },
    {
      "epoch": 0.5692007797270955,
      "grad_norm": 0.654867681338054,
      "learning_rate": 0.0004127694096352546,
      "loss": 3.0634,
      "step": 1241
    },
    {
      "epoch": 0.5696594427244582,
      "grad_norm": 0.6723760043280238,
      "learning_rate": 0.00041203785690040743,
      "loss": 3.0786,
      "step": 1242
    },
    {
      "epoch": 0.5701181057218209,
      "grad_norm": 0.7470040304567931,
      "learning_rate": 0.00041130649842650694,
      "loss": 3.1308,
      "step": 1243
    },
    {
      "epoch": 0.5705767687191836,
      "grad_norm": 0.6822705309698388,
      "learning_rate": 0.00041057533582873016,
      "loss": 3.1126,
      "step": 1244
    },
    {
      "epoch": 0.5710354317165462,
      "grad_norm": 0.611064790107651,
      "learning_rate": 0.0004098443707218208,
      "loss": 3.1289,
      "step": 1245
    },
    {
      "epoch": 0.571494094713909,
      "grad_norm": 0.6797633762489388,
      "learning_rate": 0.00040911360472008673,
      "loss": 3.1668,
      "step": 1246
    },
    {
      "epoch": 0.5719527577112716,
      "grad_norm": 0.6776589674223572,
      "learning_rate": 0.0004083830394373959,
      "loss": 3.0206,
      "step": 1247
    },
    {
      "epoch": 0.5724114207086344,
      "grad_norm": 0.7707721692177513,
      "learning_rate": 0.00040765267648717324,
      "loss": 3.1135,
      "step": 1248
    },
    {
      "epoch": 0.572870083705997,
      "grad_norm": 0.7348824436129132,
      "learning_rate": 0.00040692251748239677,
      "loss": 3.0798,
      "step": 1249
    },
    {
      "epoch": 0.5733287467033598,
      "grad_norm": 0.6621245177789316,
      "learning_rate": 0.00040619256403559383,
      "loss": 2.9342,
      "step": 1250
    },
    {
      "epoch": 0.5737874097007224,
      "grad_norm": 0.6956577804402104,
      "learning_rate": 0.000405462817758838,
      "loss": 3.1012,
      "step": 1251
    },
    {
      "epoch": 0.574246072698085,
      "grad_norm": 0.6678410488694735,
      "learning_rate": 0.0004047332802637457,
      "loss": 3.0364,
      "step": 1252
    },
    {
      "epoch": 0.5747047356954478,
      "grad_norm": 0.7419190385848397,
      "learning_rate": 0.00040400395316147157,
      "loss": 3.0519,
      "step": 1253
    },
    {
      "epoch": 0.5751633986928104,
      "grad_norm": 0.8614340354910055,
      "learning_rate": 0.00040327483806270627,
      "loss": 3.1615,
      "step": 1254
    },
    {
      "epoch": 0.5756220616901732,
      "grad_norm": 0.6899900620004893,
      "learning_rate": 0.0004025459365776715,
      "loss": 3.0077,
      "step": 1255
    },
    {
      "epoch": 0.5760807246875358,
      "grad_norm": 0.7228728855050028,
      "learning_rate": 0.00040181725031611794,
      "loss": 3.1679,
      "step": 1256
    },
    {
      "epoch": 0.5765393876848985,
      "grad_norm": 0.7560453570403102,
      "learning_rate": 0.0004010887808873206,
      "loss": 2.9725,
      "step": 1257
    },
    {
      "epoch": 0.5769980506822612,
      "grad_norm": 0.6329713775128447,
      "learning_rate": 0.00040036052990007553,
      "loss": 3.0329,
      "step": 1258
    },
    {
      "epoch": 0.5774567136796239,
      "grad_norm": 0.7061953773326217,
      "learning_rate": 0.0003996324989626967,
      "loss": 3.0633,
      "step": 1259
    },
    {
      "epoch": 0.5779153766769866,
      "grad_norm": 0.6420366912210783,
      "learning_rate": 0.00039890468968301166,
      "loss": 3.0824,
      "step": 1260
    },
    {
      "epoch": 0.5783740396743493,
      "grad_norm": 0.6653714835164345,
      "learning_rate": 0.0003981771036683591,
      "loss": 3.1157,
      "step": 1261
    },
    {
      "epoch": 0.5788327026717119,
      "grad_norm": 0.6453313268879711,
      "learning_rate": 0.00039744974252558385,
      "loss": 3.0209,
      "step": 1262
    },
    {
      "epoch": 0.5792913656690747,
      "grad_norm": 0.6958470549341738,
      "learning_rate": 0.00039672260786103463,
      "loss": 3.1237,
      "step": 1263
    },
    {
      "epoch": 0.5797500286664373,
      "grad_norm": 0.65422249644601,
      "learning_rate": 0.00039599570128055994,
      "loss": 3.1003,
      "step": 1264
    },
    {
      "epoch": 0.5802086916638001,
      "grad_norm": 0.6949295224169328,
      "learning_rate": 0.0003952690243895044,
      "loss": 3.0929,
      "step": 1265
    },
    {
      "epoch": 0.5806673546611627,
      "grad_norm": 0.7142103178978647,
      "learning_rate": 0.0003945425787927054,
      "loss": 3.1689,
      "step": 1266
    },
    {
      "epoch": 0.5811260176585255,
      "grad_norm": 0.6407224123125892,
      "learning_rate": 0.00039381636609448975,
      "loss": 2.9649,
      "step": 1267
    },
    {
      "epoch": 0.5815846806558881,
      "grad_norm": 0.6308461852563555,
      "learning_rate": 0.0003930903878986693,
      "loss": 3.0469,
      "step": 1268
    },
    {
      "epoch": 0.5820433436532507,
      "grad_norm": 0.6028187154790976,
      "learning_rate": 0.00039236464580853916,
      "loss": 3.1385,
      "step": 1269
    },
    {
      "epoch": 0.5825020066506135,
      "grad_norm": 0.6724279341168511,
      "learning_rate": 0.0003916391414268718,
      "loss": 3.0922,
      "step": 1270
    },
    {
      "epoch": 0.5829606696479761,
      "grad_norm": 0.6455305537932127,
      "learning_rate": 0.00039091387635591536,
      "loss": 3.1612,
      "step": 1271
    },
    {
      "epoch": 0.5834193326453389,
      "grad_norm": 0.6367570854751563,
      "learning_rate": 0.0003901888521973894,
      "loss": 2.9953,
      "step": 1272
    },
    {
      "epoch": 0.5838779956427015,
      "grad_norm": 0.6596804736945256,
      "learning_rate": 0.0003894640705524813,
      "loss": 3.0602,
      "step": 1273
    },
    {
      "epoch": 0.5843366586400642,
      "grad_norm": 0.6534741302577373,
      "learning_rate": 0.00038873953302184284,
      "loss": 2.9494,
      "step": 1274
    },
    {
      "epoch": 0.5847953216374269,
      "grad_norm": 0.7502378379071489,
      "learning_rate": 0.000388015241205587,
      "loss": 2.9654,
      "step": 1275
    },
    {
      "epoch": 0.5852539846347896,
      "grad_norm": 0.7544389410482206,
      "learning_rate": 0.00038729119670328355,
      "loss": 3.1491,
      "step": 1276
    },
    {
      "epoch": 0.5857126476321523,
      "grad_norm": 0.6272459471367009,
      "learning_rate": 0.00038656740111395665,
      "loss": 3.0851,
      "step": 1277
    },
    {
      "epoch": 0.586171310629515,
      "grad_norm": 0.7265685173076074,
      "learning_rate": 0.00038584385603608053,
      "loss": 3.1426,
      "step": 1278
    },
    {
      "epoch": 0.5866299736268776,
      "grad_norm": 0.7281216153367522,
      "learning_rate": 0.00038512056306757615,
      "loss": 3.1363,
      "step": 1279
    },
    {
      "epoch": 0.5870886366242404,
      "grad_norm": 0.6694685819399896,
      "learning_rate": 0.0003843975238058075,
      "loss": 3.0155,
      "step": 1280
    },
    {
      "epoch": 0.587547299621603,
      "grad_norm": 0.6237041442800615,
      "learning_rate": 0.00038367473984757863,
      "loss": 3.0404,
      "step": 1281
    },
    {
      "epoch": 0.5880059626189658,
      "grad_norm": 0.6272357230212914,
      "learning_rate": 0.0003829522127891296,
      "loss": 3.1,
      "step": 1282
    },
    {
      "epoch": 0.5884646256163284,
      "grad_norm": 0.6841594800736756,
      "learning_rate": 0.0003822299442261329,
      "loss": 2.9671,
      "step": 1283
    },
    {
      "epoch": 0.5889232886136911,
      "grad_norm": 0.6027568612248315,
      "learning_rate": 0.00038150793575369063,
      "loss": 3.1036,
      "step": 1284
    },
    {
      "epoch": 0.5893819516110538,
      "grad_norm": 0.6617429481448295,
      "learning_rate": 0.0003807861889663299,
      "loss": 3.0374,
      "step": 1285
    },
    {
      "epoch": 0.5898406146084164,
      "grad_norm": 0.6719210935389063,
      "learning_rate": 0.0003800647054580006,
      "loss": 3.0852,
      "step": 1286
    },
    {
      "epoch": 0.5902992776057792,
      "grad_norm": 0.6595262088184367,
      "learning_rate": 0.00037934348682207064,
      "loss": 3.1033,
      "step": 1287
    },
    {
      "epoch": 0.5907579406031418,
      "grad_norm": 0.6349066086446911,
      "learning_rate": 0.00037862253465132306,
      "loss": 3.0403,
      "step": 1288
    },
    {
      "epoch": 0.5912166036005045,
      "grad_norm": 0.6667116599406465,
      "learning_rate": 0.00037790185053795245,
      "loss": 3.0828,
      "step": 1289
    },
    {
      "epoch": 0.5916752665978672,
      "grad_norm": 0.6856920464504678,
      "learning_rate": 0.0003771814360735616,
      "loss": 3.1309,
      "step": 1290
    },
    {
      "epoch": 0.5921339295952299,
      "grad_norm": 0.7390610682698395,
      "learning_rate": 0.00037646129284915755,
      "loss": 3.094,
      "step": 1291
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 0.6699993941243626,
      "learning_rate": 0.00037574142245514825,
      "loss": 3.0775,
      "step": 1292
    },
    {
      "epoch": 0.5930512555899553,
      "grad_norm": 0.6941784942440161,
      "learning_rate": 0.0003750218264813393,
      "loss": 3.1361,
      "step": 1293
    },
    {
      "epoch": 0.5935099185873179,
      "grad_norm": 0.6623829626583226,
      "learning_rate": 0.0003743025065169305,
      "loss": 3.097,
      "step": 1294
    },
    {
      "epoch": 0.5939685815846807,
      "grad_norm": 0.6960629807541634,
      "learning_rate": 0.0003735834641505116,
      "loss": 3.2003,
      "step": 1295
    },
    {
      "epoch": 0.5944272445820433,
      "grad_norm": 0.6632314246093394,
      "learning_rate": 0.00037286470097005954,
      "loss": 2.966,
      "step": 1296
    },
    {
      "epoch": 0.5948859075794061,
      "grad_norm": 0.63193805091947,
      "learning_rate": 0.0003721462185629347,
      "loss": 2.9827,
      "step": 1297
    },
    {
      "epoch": 0.5953445705767687,
      "grad_norm": 0.6142137049391933,
      "learning_rate": 0.00037142801851587707,
      "loss": 3.039,
      "step": 1298
    },
    {
      "epoch": 0.5958032335741315,
      "grad_norm": 0.6196305987168691,
      "learning_rate": 0.00037071010241500357,
      "loss": 3.0721,
      "step": 1299
    },
    {
      "epoch": 0.5962618965714941,
      "grad_norm": 0.6276824680795946,
      "learning_rate": 0.00036999247184580383,
      "loss": 3.0206,
      "step": 1300
    },
    {
      "epoch": 0.5967205595688568,
      "grad_norm": 0.6104306273935688,
      "learning_rate": 0.00036927512839313636,
      "loss": 3.0432,
      "step": 1301
    },
    {
      "epoch": 0.5971792225662195,
      "grad_norm": 0.6764590301619685,
      "learning_rate": 0.0003685580736412268,
      "loss": 3.0093,
      "step": 1302
    },
    {
      "epoch": 0.5976378855635821,
      "grad_norm": 0.6805611403147767,
      "learning_rate": 0.000367841309173662,
      "loss": 3.02,
      "step": 1303
    },
    {
      "epoch": 0.5980965485609449,
      "grad_norm": 0.6471259741515094,
      "learning_rate": 0.0003671248365733883,
      "loss": 2.8919,
      "step": 1304
    },
    {
      "epoch": 0.5985552115583075,
      "grad_norm": 0.6623707805375012,
      "learning_rate": 0.0003664086574227075,
      "loss": 2.9297,
      "step": 1305
    },
    {
      "epoch": 0.5990138745556702,
      "grad_norm": 0.6670210908276736,
      "learning_rate": 0.000365692773303273,
      "loss": 3.0963,
      "step": 1306
    },
    {
      "epoch": 0.5994725375530329,
      "grad_norm": 0.6274477808078054,
      "learning_rate": 0.00036497718579608696,
      "loss": 2.9856,
      "step": 1307
    },
    {
      "epoch": 0.5999312005503956,
      "grad_norm": 0.6203408801306549,
      "learning_rate": 0.0003642618964814964,
      "loss": 2.9989,
      "step": 1308
    },
    {
      "epoch": 0.6003898635477583,
      "grad_norm": 0.7077829000431842,
      "learning_rate": 0.00036354690693918946,
      "loss": 3.1091,
      "step": 1309
    },
    {
      "epoch": 0.600848526545121,
      "grad_norm": 0.6330514927514925,
      "learning_rate": 0.00036283221874819284,
      "loss": 3.1074,
      "step": 1310
    },
    {
      "epoch": 0.6013071895424836,
      "grad_norm": 0.6461319911642611,
      "learning_rate": 0.0003621178334868672,
      "loss": 3.1012,
      "step": 1311
    },
    {
      "epoch": 0.6017658525398464,
      "grad_norm": 0.6456606780764187,
      "learning_rate": 0.00036140375273290476,
      "loss": 3.0949,
      "step": 1312
    },
    {
      "epoch": 0.602224515537209,
      "grad_norm": 0.7331731341990271,
      "learning_rate": 0.0003606899780633245,
      "loss": 2.9509,
      "step": 1313
    },
    {
      "epoch": 0.6026831785345718,
      "grad_norm": 0.6924059665919778,
      "learning_rate": 0.0003599765110544699,
      "loss": 2.8759,
      "step": 1314
    },
    {
      "epoch": 0.6031418415319344,
      "grad_norm": 0.6580017471537665,
      "learning_rate": 0.0003592633532820052,
      "loss": 2.9745,
      "step": 1315
    },
    {
      "epoch": 0.6036005045292971,
      "grad_norm": 0.6735098829821193,
      "learning_rate": 0.0003585505063209109,
      "loss": 3.0929,
      "step": 1316
    },
    {
      "epoch": 0.6040591675266598,
      "grad_norm": 0.6492184256611522,
      "learning_rate": 0.00035783797174548194,
      "loss": 3.1101,
      "step": 1317
    },
    {
      "epoch": 0.6045178305240225,
      "grad_norm": 0.6317189293670336,
      "learning_rate": 0.00035712575112932277,
      "loss": 2.9136,
      "step": 1318
    },
    {
      "epoch": 0.6049764935213852,
      "grad_norm": 0.6822895575618141,
      "learning_rate": 0.000356413846045345,
      "loss": 3.1218,
      "step": 1319
    },
    {
      "epoch": 0.6054351565187478,
      "grad_norm": 0.6466865063133038,
      "learning_rate": 0.000355702258065763,
      "loss": 2.9519,
      "step": 1320
    },
    {
      "epoch": 0.6058938195161105,
      "grad_norm": 0.7363439653113952,
      "learning_rate": 0.0003549909887620909,
      "loss": 3.0244,
      "step": 1321
    },
    {
      "epoch": 0.6063524825134732,
      "grad_norm": 0.6426227867200154,
      "learning_rate": 0.00035428003970513914,
      "loss": 3.0897,
      "step": 1322
    },
    {
      "epoch": 0.6068111455108359,
      "grad_norm": 0.6984512969136535,
      "learning_rate": 0.00035356941246501085,
      "loss": 3.1289,
      "step": 1323
    },
    {
      "epoch": 0.6072698085081986,
      "grad_norm": 0.6446350514320438,
      "learning_rate": 0.0003528591086110984,
      "loss": 3.1152,
      "step": 1324
    },
    {
      "epoch": 0.6077284715055613,
      "grad_norm": 0.6852213480281036,
      "learning_rate": 0.00035214912971208,
      "loss": 2.9679,
      "step": 1325
    },
    {
      "epoch": 0.6081871345029239,
      "grad_norm": 0.6733865380156311,
      "learning_rate": 0.0003514394773359163,
      "loss": 2.8545,
      "step": 1326
    },
    {
      "epoch": 0.6086457975002867,
      "grad_norm": 0.6680037270913844,
      "learning_rate": 0.0003507301530498469,
      "loss": 3.0851,
      "step": 1327
    },
    {
      "epoch": 0.6091044604976493,
      "grad_norm": 0.5965426429889876,
      "learning_rate": 0.00035002115842038646,
      "loss": 2.9734,
      "step": 1328
    },
    {
      "epoch": 0.6095631234950121,
      "grad_norm": 0.6522756677239258,
      "learning_rate": 0.00034931249501332195,
      "loss": 3.03,
      "step": 1329
    },
    {
      "epoch": 0.6100217864923747,
      "grad_norm": 0.7104703963797363,
      "learning_rate": 0.00034860416439370885,
      "loss": 3.117,
      "step": 1330
    },
    {
      "epoch": 0.6104804494897375,
      "grad_norm": 0.6903221448254646,
      "learning_rate": 0.0003478961681258674,
      "loss": 3.088,
      "step": 1331
    },
    {
      "epoch": 0.6109391124871001,
      "grad_norm": 0.6580198276458391,
      "learning_rate": 0.0003471885077733796,
      "loss": 2.9824,
      "step": 1332
    },
    {
      "epoch": 0.6113977754844628,
      "grad_norm": 0.6644495546393335,
      "learning_rate": 0.0003464811848990859,
      "loss": 3.1328,
      "step": 1333
    },
    {
      "epoch": 0.6118564384818255,
      "grad_norm": 0.7622014335985874,
      "learning_rate": 0.00034577420106508063,
      "loss": 3.117,
      "step": 1334
    },
    {
      "epoch": 0.6123151014791882,
      "grad_norm": 0.61717794931744,
      "learning_rate": 0.0003450675578327105,
      "loss": 3.0157,
      "step": 1335
    },
    {
      "epoch": 0.6127737644765509,
      "grad_norm": 0.6666320752306654,
      "learning_rate": 0.000344361256762569,
      "loss": 3.0617,
      "step": 1336
    },
    {
      "epoch": 0.6132324274739135,
      "grad_norm": 0.7350909143971379,
      "learning_rate": 0.00034365529941449456,
      "loss": 2.8915,
      "step": 1337
    },
    {
      "epoch": 0.6136910904712762,
      "grad_norm": 0.6701246139541525,
      "learning_rate": 0.0003429496873475664,
      "loss": 2.9946,
      "step": 1338
    },
    {
      "epoch": 0.6141497534686389,
      "grad_norm": 0.6373214073685496,
      "learning_rate": 0.0003422444221201009,
      "loss": 2.9803,
      "step": 1339
    },
    {
      "epoch": 0.6146084164660016,
      "grad_norm": 0.6693205921132411,
      "learning_rate": 0.0003415395052896487,
      "loss": 3.0945,
      "step": 1340
    },
    {
      "epoch": 0.6150670794633643,
      "grad_norm": 0.6734080423457784,
      "learning_rate": 0.0003408349384129912,
      "loss": 3.1091,
      "step": 1341
    },
    {
      "epoch": 0.615525742460727,
      "grad_norm": 0.7551062218235455,
      "learning_rate": 0.00034013072304613643,
      "loss": 3.0704,
      "step": 1342
    },
    {
      "epoch": 0.6159844054580896,
      "grad_norm": 0.6391162916503392,
      "learning_rate": 0.00033942686074431674,
      "loss": 3.0609,
      "step": 1343
    },
    {
      "epoch": 0.6164430684554524,
      "grad_norm": 0.6081363287101398,
      "learning_rate": 0.0003387233530619843,
      "loss": 3.0372,
      "step": 1344
    },
    {
      "epoch": 0.616901731452815,
      "grad_norm": 0.736636309489203,
      "learning_rate": 0.0003380202015528084,
      "loss": 3.2068,
      "step": 1345
    },
    {
      "epoch": 0.6173603944501778,
      "grad_norm": 0.6710284013697582,
      "learning_rate": 0.0003373174077696715,
      "loss": 3.0649,
      "step": 1346
    },
    {
      "epoch": 0.6178190574475404,
      "grad_norm": 0.6553068881637836,
      "learning_rate": 0.0003366149732646661,
      "loss": 3.0089,
      "step": 1347
    },
    {
      "epoch": 0.6182777204449031,
      "grad_norm": 0.6823374443727892,
      "learning_rate": 0.00033591289958909143,
      "loss": 2.9994,
      "step": 1348
    },
    {
      "epoch": 0.6187363834422658,
      "grad_norm": 0.6496906761678181,
      "learning_rate": 0.00033521118829344954,
      "loss": 2.9815,
      "step": 1349
    },
    {
      "epoch": 0.6191950464396285,
      "grad_norm": 0.7762813910755975,
      "learning_rate": 0.0003345098409274423,
      "loss": 3.226,
      "step": 1350
    },
    {
      "epoch": 0.6196537094369912,
      "grad_norm": 0.6542380901477436,
      "learning_rate": 0.00033380885903996796,
      "loss": 3.0757,
      "step": 1351
    },
    {
      "epoch": 0.6201123724343539,
      "grad_norm": 0.6536287815010289,
      "learning_rate": 0.00033310824417911766,
      "loss": 3.06,
      "step": 1352
    },
    {
      "epoch": 0.6205710354317165,
      "grad_norm": 0.6928357978326584,
      "learning_rate": 0.00033240799789217184,
      "loss": 3.128,
      "step": 1353
    },
    {
      "epoch": 0.6210296984290792,
      "grad_norm": 0.629589981601096,
      "learning_rate": 0.00033170812172559694,
      "loss": 3.0167,
      "step": 1354
    },
    {
      "epoch": 0.6214883614264419,
      "grad_norm": 0.642243576219751,
      "learning_rate": 0.000331008617225042,
      "loss": 3.0365,
      "step": 1355
    },
    {
      "epoch": 0.6219470244238046,
      "grad_norm": 0.671166236670201,
      "learning_rate": 0.0003303094859353355,
      "loss": 2.998,
      "step": 1356
    },
    {
      "epoch": 0.6224056874211673,
      "grad_norm": 0.6796446210867958,
      "learning_rate": 0.0003296107294004812,
      "loss": 2.9584,
      "step": 1357
    },
    {
      "epoch": 0.6228643504185299,
      "grad_norm": 0.6937340864126262,
      "learning_rate": 0.0003289123491636559,
      "loss": 3.0232,
      "step": 1358
    },
    {
      "epoch": 0.6233230134158927,
      "grad_norm": 0.6699606108487316,
      "learning_rate": 0.00032821434676720443,
      "loss": 3.1354,
      "step": 1359
    },
    {
      "epoch": 0.6237816764132553,
      "grad_norm": 0.8190922069721187,
      "learning_rate": 0.00032751672375263836,
      "loss": 3.0761,
      "step": 1360
    },
    {
      "epoch": 0.6242403394106181,
      "grad_norm": 0.7647096721554546,
      "learning_rate": 0.0003268194816606305,
      "loss": 3.1055,
      "step": 1361
    },
    {
      "epoch": 0.6246990024079807,
      "grad_norm": 0.7410312944282542,
      "learning_rate": 0.00032612262203101267,
      "loss": 3.0406,
      "step": 1362
    },
    {
      "epoch": 0.6251576654053435,
      "grad_norm": 0.6349664094885271,
      "learning_rate": 0.00032542614640277225,
      "loss": 2.9082,
      "step": 1363
    },
    {
      "epoch": 0.6256163284027061,
      "grad_norm": 0.6494788762501887,
      "learning_rate": 0.0003247300563140481,
      "loss": 2.998,
      "step": 1364
    },
    {
      "epoch": 0.6260749914000688,
      "grad_norm": 0.6569559074677712,
      "learning_rate": 0.00032403435330212807,
      "loss": 3.0801,
      "step": 1365
    },
    {
      "epoch": 0.6265336543974315,
      "grad_norm": 0.678181916209132,
      "learning_rate": 0.00032333903890344515,
      "loss": 2.9931,
      "step": 1366
    },
    {
      "epoch": 0.6269923173947942,
      "grad_norm": 0.6573968314356062,
      "learning_rate": 0.00032264411465357333,
      "loss": 3.1167,
      "step": 1367
    },
    {
      "epoch": 0.6274509803921569,
      "grad_norm": 0.6197751114792518,
      "learning_rate": 0.00032194958208722654,
      "loss": 3.0109,
      "step": 1368
    },
    {
      "epoch": 0.6279096433895196,
      "grad_norm": 0.6658853560476609,
      "learning_rate": 0.00032125544273825204,
      "loss": 2.9412,
      "step": 1369
    },
    {
      "epoch": 0.6283683063868822,
      "grad_norm": 0.6258490660801418,
      "learning_rate": 0.0003205616981396297,
      "loss": 3.1217,
      "step": 1370
    },
    {
      "epoch": 0.6288269693842449,
      "grad_norm": 0.594896916783035,
      "learning_rate": 0.00031986834982346713,
      "loss": 2.9474,
      "step": 1371
    },
    {
      "epoch": 0.6292856323816076,
      "grad_norm": 0.719029810714714,
      "learning_rate": 0.00031917539932099694,
      "loss": 2.9792,
      "step": 1372
    },
    {
      "epoch": 0.6297442953789703,
      "grad_norm": 0.7130668208719377,
      "learning_rate": 0.00031848284816257336,
      "loss": 3.0716,
      "step": 1373
    },
    {
      "epoch": 0.630202958376333,
      "grad_norm": 0.6590198433296539,
      "learning_rate": 0.0003177906978776682,
      "loss": 2.9905,
      "step": 1374
    },
    {
      "epoch": 0.6306616213736956,
      "grad_norm": 0.6369183440056624,
      "learning_rate": 0.0003170989499948683,
      "loss": 3.0945,
      "step": 1375
    },
    {
      "epoch": 0.6311202843710584,
      "grad_norm": 0.7024094854869535,
      "learning_rate": 0.0003164076060418719,
      "loss": 3.1522,
      "step": 1376
    },
    {
      "epoch": 0.631578947368421,
      "grad_norm": 0.7240929716697975,
      "learning_rate": 0.000315716667545485,
      "loss": 2.9134,
      "step": 1377
    },
    {
      "epoch": 0.6320376103657838,
      "grad_norm": 0.7744246011009513,
      "learning_rate": 0.00031502613603161836,
      "loss": 3.0695,
      "step": 1378
    },
    {
      "epoch": 0.6324962733631464,
      "grad_norm": 0.7056943859497421,
      "learning_rate": 0.00031433601302528335,
      "loss": 3.0851,
      "step": 1379
    },
    {
      "epoch": 0.6329549363605091,
      "grad_norm": 0.6496862694758209,
      "learning_rate": 0.00031364630005058995,
      "loss": 2.98,
      "step": 1380
    },
    {
      "epoch": 0.6334135993578718,
      "grad_norm": 0.7457489835989813,
      "learning_rate": 0.0003129569986307422,
      "loss": 3.1476,
      "step": 1381
    },
    {
      "epoch": 0.6338722623552345,
      "grad_norm": 0.6495165087248324,
      "learning_rate": 0.00031226811028803515,
      "loss": 3.0071,
      "step": 1382
    },
    {
      "epoch": 0.6343309253525972,
      "grad_norm": 0.6720460361283738,
      "learning_rate": 0.00031157963654385173,
      "loss": 3.0692,
      "step": 1383
    },
    {
      "epoch": 0.6347895883499599,
      "grad_norm": 0.8481886673943043,
      "learning_rate": 0.0003108915789186592,
      "loss": 3.1863,
      "step": 1384
    },
    {
      "epoch": 0.6352482513473225,
      "grad_norm": 0.6781449804234524,
      "learning_rate": 0.00031020393893200604,
      "loss": 3.067,
      "step": 1385
    },
    {
      "epoch": 0.6357069143446853,
      "grad_norm": 0.7219047770925074,
      "learning_rate": 0.00030951671810251823,
      "loss": 3.0226,
      "step": 1386
    },
    {
      "epoch": 0.6361655773420479,
      "grad_norm": 0.7780230127202374,
      "learning_rate": 0.0003088299179478959,
      "loss": 3.0767,
      "step": 1387
    },
    {
      "epoch": 0.6366242403394106,
      "grad_norm": 0.7803724500791076,
      "learning_rate": 0.0003081435399849104,
      "loss": 3.0979,
      "step": 1388
    },
    {
      "epoch": 0.6370829033367733,
      "grad_norm": 0.7031392674106153,
      "learning_rate": 0.0003074575857294004,
      "loss": 2.9795,
      "step": 1389
    },
    {
      "epoch": 0.637541566334136,
      "grad_norm": 0.7393335817995176,
      "learning_rate": 0.0003067720566962691,
      "loss": 3.0736,
      "step": 1390
    },
    {
      "epoch": 0.6380002293314987,
      "grad_norm": 0.7855800817517263,
      "learning_rate": 0.0003060869543994806,
      "loss": 3.1065,
      "step": 1391
    },
    {
      "epoch": 0.6384588923288613,
      "grad_norm": 0.7029924227180072,
      "learning_rate": 0.0003054022803520562,
      "loss": 3.0269,
      "step": 1392
    },
    {
      "epoch": 0.6389175553262241,
      "grad_norm": 0.8459855481251886,
      "learning_rate": 0.0003047180360660721,
      "loss": 3.0942,
      "step": 1393
    },
    {
      "epoch": 0.6393762183235867,
      "grad_norm": 0.6462549255393709,
      "learning_rate": 0.00030403422305265475,
      "loss": 2.9991,
      "step": 1394
    },
    {
      "epoch": 0.6398348813209495,
      "grad_norm": 0.7220296071794621,
      "learning_rate": 0.0003033508428219785,
      "loss": 3.0554,
      "step": 1395
    },
    {
      "epoch": 0.6402935443183121,
      "grad_norm": 0.6586579056227089,
      "learning_rate": 0.00030266789688326184,
      "loss": 3.1082,
      "step": 1396
    },
    {
      "epoch": 0.6407522073156748,
      "grad_norm": 0.6633678419321989,
      "learning_rate": 0.00030198538674476393,
      "loss": 3.0343,
      "step": 1397
    },
    {
      "epoch": 0.6412108703130375,
      "grad_norm": 0.6548733927218232,
      "learning_rate": 0.00030130331391378185,
      "loss": 2.9573,
      "step": 1398
    },
    {
      "epoch": 0.6416695333104002,
      "grad_norm": 0.6568431055889281,
      "learning_rate": 0.0003006216798966468,
      "loss": 2.9608,
      "step": 1399
    },
    {
      "epoch": 0.6421281963077629,
      "grad_norm": 0.6344597266192962,
      "learning_rate": 0.00029994048619872034,
      "loss": 2.9947,
      "step": 1400
    },
    {
      "epoch": 0.6425868593051256,
      "grad_norm": 0.696342134832008,
      "learning_rate": 0.0002992597343243927,
      "loss": 3.0301,
      "step": 1401
    },
    {
      "epoch": 0.6430455223024882,
      "grad_norm": 0.6904320483181452,
      "learning_rate": 0.0002985794257770773,
      "loss": 3.1716,
      "step": 1402
    },
    {
      "epoch": 0.643504185299851,
      "grad_norm": 0.7169727447426838,
      "learning_rate": 0.0002978995620592092,
      "loss": 3.1769,
      "step": 1403
    },
    {
      "epoch": 0.6439628482972136,
      "grad_norm": 0.6812343415412225,
      "learning_rate": 0.0002972201446722405,
      "loss": 3.1009,
      "step": 1404
    },
    {
      "epoch": 0.6444215112945763,
      "grad_norm": 0.6943866138106504,
      "learning_rate": 0.00029654117511663803,
      "loss": 2.9964,
      "step": 1405
    },
    {
      "epoch": 0.644880174291939,
      "grad_norm": 0.6311770143950715,
      "learning_rate": 0.0002958626548918795,
      "loss": 2.9747,
      "step": 1406
    },
    {
      "epoch": 0.6453388372893016,
      "grad_norm": 0.7565710432224275,
      "learning_rate": 0.00029518458549645014,
      "loss": 3.1488,
      "step": 1407
    },
    {
      "epoch": 0.6457975002866644,
      "grad_norm": 0.7229262147082912,
      "learning_rate": 0.00029450696842783954,
      "loss": 3.0058,
      "step": 1408
    },
    {
      "epoch": 0.646256163284027,
      "grad_norm": 0.6211587602584038,
      "learning_rate": 0.00029382980518253865,
      "loss": 3.0305,
      "step": 1409
    },
    {
      "epoch": 0.6467148262813898,
      "grad_norm": 0.7610783449069122,
      "learning_rate": 0.00029315309725603595,
      "loss": 3.104,
      "step": 1410
    },
    {
      "epoch": 0.6471734892787524,
      "grad_norm": 0.8033994993969843,
      "learning_rate": 0.00029247684614281446,
      "loss": 3.0504,
      "step": 1411
    },
    {
      "epoch": 0.6476321522761151,
      "grad_norm": 0.6969408158754389,
      "learning_rate": 0.0002918010533363481,
      "loss": 3.0512,
      "step": 1412
    },
    {
      "epoch": 0.6480908152734778,
      "grad_norm": 0.6443068595893772,
      "learning_rate": 0.0002911257203290987,
      "loss": 2.9645,
      "step": 1413
    },
    {
      "epoch": 0.6485494782708405,
      "grad_norm": 0.7532237703950267,
      "learning_rate": 0.00029045084861251314,
      "loss": 3.133,
      "step": 1414
    },
    {
      "epoch": 0.6490081412682032,
      "grad_norm": 0.6941924089606477,
      "learning_rate": 0.00028977643967701897,
      "loss": 3.1279,
      "step": 1415
    },
    {
      "epoch": 0.6494668042655659,
      "grad_norm": 0.7307467922508025,
      "learning_rate": 0.00028910249501202156,
      "loss": 3.0035,
      "step": 1416
    },
    {
      "epoch": 0.6499254672629285,
      "grad_norm": 0.7150626734855485,
      "learning_rate": 0.00028842901610590165,
      "loss": 3.0951,
      "step": 1417
    },
    {
      "epoch": 0.6503841302602913,
      "grad_norm": 0.6648536023866385,
      "learning_rate": 0.00028775600444601123,
      "loss": 3.1381,
      "step": 1418
    },
    {
      "epoch": 0.6508427932576539,
      "grad_norm": 0.6278898877441224,
      "learning_rate": 0.00028708346151866973,
      "loss": 2.9575,
      "step": 1419
    },
    {
      "epoch": 0.6513014562550167,
      "grad_norm": 0.7612236404700927,
      "learning_rate": 0.0002864113888091622,
      "loss": 3.0818,
      "step": 1420
    },
    {
      "epoch": 0.6517601192523793,
      "grad_norm": 0.7505119535879634,
      "learning_rate": 0.0002857397878017348,
      "loss": 3.0727,
      "step": 1421
    },
    {
      "epoch": 0.6522187822497421,
      "grad_norm": 0.6894750366301831,
      "learning_rate": 0.00028506865997959173,
      "loss": 3.0432,
      "step": 1422
    },
    {
      "epoch": 0.6526774452471047,
      "grad_norm": 0.7364998450238092,
      "learning_rate": 0.000284398006824893,
      "loss": 3.1344,
      "step": 1423
    },
    {
      "epoch": 0.6531361082444673,
      "grad_norm": 0.657213010564003,
      "learning_rate": 0.00028372782981874963,
      "loss": 3.0147,
      "step": 1424
    },
    {
      "epoch": 0.6535947712418301,
      "grad_norm": 0.6995458182579354,
      "learning_rate": 0.00028305813044122096,
      "loss": 3.0394,
      "step": 1425
    },
    {
      "epoch": 0.6540534342391927,
      "grad_norm": 0.694138862154269,
      "learning_rate": 0.0002823889101713122,
      "loss": 3.0748,
      "step": 1426
    },
    {
      "epoch": 0.6545120972365555,
      "grad_norm": 0.6524360913753218,
      "learning_rate": 0.0002817201704869701,
      "loss": 3.1227,
      "step": 1427
    },
    {
      "epoch": 0.6549707602339181,
      "grad_norm": 0.6718850499327087,
      "learning_rate": 0.00028105191286508,
      "loss": 3.1864,
      "step": 1428
    },
    {
      "epoch": 0.6554294232312808,
      "grad_norm": 0.7332140092151282,
      "learning_rate": 0.00028038413878146245,
      "loss": 2.9675,
      "step": 1429
    },
    {
      "epoch": 0.6558880862286435,
      "grad_norm": 0.7517008017817797,
      "learning_rate": 0.00027971684971087073,
      "loss": 3.0063,
      "step": 1430
    },
    {
      "epoch": 0.6563467492260062,
      "grad_norm": 0.6538451075297278,
      "learning_rate": 0.00027905004712698643,
      "loss": 3.0321,
      "step": 1431
    },
    {
      "epoch": 0.6568054122233689,
      "grad_norm": 0.6743733466612286,
      "learning_rate": 0.0002783837325024167,
      "loss": 3.0682,
      "step": 1432
    },
    {
      "epoch": 0.6572640752207316,
      "grad_norm": 0.6788368904262284,
      "learning_rate": 0.00027771790730869153,
      "loss": 3.1239,
      "step": 1433
    },
    {
      "epoch": 0.6577227382180942,
      "grad_norm": 0.7355086505368357,
      "learning_rate": 0.0002770525730162599,
      "loss": 3.0496,
      "step": 1434
    },
    {
      "epoch": 0.658181401215457,
      "grad_norm": 0.7252114335202405,
      "learning_rate": 0.00027638773109448645,
      "loss": 2.9529,
      "step": 1435
    },
    {
      "epoch": 0.6586400642128196,
      "grad_norm": 0.7710746783686147,
      "learning_rate": 0.00027572338301164824,
      "loss": 3.1488,
      "step": 1436
    },
    {
      "epoch": 0.6590987272101824,
      "grad_norm": 0.6892454058747375,
      "learning_rate": 0.0002750595302349324,
      "loss": 2.9156,
      "step": 1437
    },
    {
      "epoch": 0.659557390207545,
      "grad_norm": 0.7496718292636649,
      "learning_rate": 0.00027439617423043145,
      "loss": 3.0334,
      "step": 1438
    },
    {
      "epoch": 0.6600160532049077,
      "grad_norm": 0.7807638602339702,
      "learning_rate": 0.00027373331646314114,
      "loss": 2.9783,
      "step": 1439
    },
    {
      "epoch": 0.6604747162022704,
      "grad_norm": 0.6667215913879148,
      "learning_rate": 0.0002730709583969572,
      "loss": 2.9751,
      "step": 1440
    },
    {
      "epoch": 0.660933379199633,
      "grad_norm": 0.690935629023515,
      "learning_rate": 0.0002724091014946711,
      "loss": 3.1066,
      "step": 1441
    },
    {
      "epoch": 0.6613920421969958,
      "grad_norm": 0.6727765047186766,
      "learning_rate": 0.00027174774721796824,
      "loss": 3.0226,
      "step": 1442
    },
    {
      "epoch": 0.6618507051943584,
      "grad_norm": 0.6384331610653776,
      "learning_rate": 0.0002710868970274232,
      "loss": 2.9628,
      "step": 1443
    },
    {
      "epoch": 0.6623093681917211,
      "grad_norm": 0.6540101457387623,
      "learning_rate": 0.0002704265523824982,
      "loss": 2.988,
      "step": 1444
    },
    {
      "epoch": 0.6627680311890838,
      "grad_norm": 0.6784062291456444,
      "learning_rate": 0.00026976671474153826,
      "loss": 3.099,
      "step": 1445
    },
    {
      "epoch": 0.6632266941864465,
      "grad_norm": 0.7201408377741445,
      "learning_rate": 0.00026910738556176886,
      "loss": 3.0467,
      "step": 1446
    },
    {
      "epoch": 0.6636853571838092,
      "grad_norm": 0.7317958853552152,
      "learning_rate": 0.0002684485662992929,
      "loss": 3.0873,
      "step": 1447
    },
    {
      "epoch": 0.6641440201811719,
      "grad_norm": 0.6245386042067552,
      "learning_rate": 0.0002677902584090869,
      "loss": 3.0866,
      "step": 1448
    },
    {
      "epoch": 0.6646026831785345,
      "grad_norm": 0.723373558524341,
      "learning_rate": 0.00026713246334499774,
      "loss": 2.9554,
      "step": 1449
    },
    {
      "epoch": 0.6650613461758973,
      "grad_norm": 0.6797102911782383,
      "learning_rate": 0.00026647518255974023,
      "loss": 2.9946,
      "step": 1450
    },
    {
      "epoch": 0.6655200091732599,
      "grad_norm": 0.6551383163335837,
      "learning_rate": 0.0002658184175048934,
      "loss": 2.9699,
      "step": 1451
    },
    {
      "epoch": 0.6659786721706227,
      "grad_norm": 0.7636386300253665,
      "learning_rate": 0.00026516216963089694,
      "loss": 3.0532,
      "step": 1452
    },
    {
      "epoch": 0.6664373351679853,
      "grad_norm": 0.6111129911100197,
      "learning_rate": 0.0002645064403870488,
      "loss": 3.1143,
      "step": 1453
    },
    {
      "epoch": 0.6668959981653481,
      "grad_norm": 0.6263647217629392,
      "learning_rate": 0.0002638512312215011,
      "loss": 2.982,
      "step": 1454
    },
    {
      "epoch": 0.6673546611627107,
      "grad_norm": 0.6970522319415132,
      "learning_rate": 0.0002631965435812575,
      "loss": 3.0145,
      "step": 1455
    },
    {
      "epoch": 0.6678133241600734,
      "grad_norm": 0.6481327072523385,
      "learning_rate": 0.00026254237891217046,
      "loss": 3.0499,
      "step": 1456
    },
    {
      "epoch": 0.6682719871574361,
      "grad_norm": 0.6407885860995449,
      "learning_rate": 0.0002618887386589367,
      "loss": 3.0556,
      "step": 1457
    },
    {
      "epoch": 0.6687306501547987,
      "grad_norm": 0.6357619470139749,
      "learning_rate": 0.0002612356242650949,
      "loss": 2.9894,
      "step": 1458
    },
    {
      "epoch": 0.6691893131521615,
      "grad_norm": 0.6573028054575724,
      "learning_rate": 0.0002605830371730229,
      "loss": 2.88,
      "step": 1459
    },
    {
      "epoch": 0.6696479761495241,
      "grad_norm": 0.690355395796767,
      "learning_rate": 0.0002599309788239339,
      "loss": 3.1268,
      "step": 1460
    },
    {
      "epoch": 0.6701066391468868,
      "grad_norm": 0.6250728484839005,
      "learning_rate": 0.00025927945065787306,
      "loss": 3.0353,
      "step": 1461
    },
    {
      "epoch": 0.6705653021442495,
      "grad_norm": 0.6363246920934885,
      "learning_rate": 0.0002586284541137145,
      "loss": 3.0686,
      "step": 1462
    },
    {
      "epoch": 0.6710239651416122,
      "grad_norm": 0.596506138584893,
      "learning_rate": 0.00025797799062915905,
      "loss": 3.0456,
      "step": 1463
    },
    {
      "epoch": 0.6714826281389749,
      "grad_norm": 0.6558048780277302,
      "learning_rate": 0.00025732806164072966,
      "loss": 3.0495,
      "step": 1464
    },
    {
      "epoch": 0.6719412911363376,
      "grad_norm": 0.6634209387685998,
      "learning_rate": 0.00025667866858376874,
      "loss": 3.1325,
      "step": 1465
    },
    {
      "epoch": 0.6723999541337002,
      "grad_norm": 0.6035882467344753,
      "learning_rate": 0.0002560298128924358,
      "loss": 3.0579,
      "step": 1466
    },
    {
      "epoch": 0.672858617131063,
      "grad_norm": 0.7091100051378135,
      "learning_rate": 0.0002553814959997032,
      "loss": 3.1185,
      "step": 1467
    },
    {
      "epoch": 0.6733172801284256,
      "grad_norm": 0.6867741986630767,
      "learning_rate": 0.00025473371933735334,
      "loss": 2.9476,
      "step": 1468
    },
    {
      "epoch": 0.6737759431257884,
      "grad_norm": 0.6614663516071523,
      "learning_rate": 0.00025408648433597534,
      "loss": 3.0735,
      "step": 1469
    },
    {
      "epoch": 0.674234606123151,
      "grad_norm": 0.6628637822558595,
      "learning_rate": 0.00025343979242496283,
      "loss": 2.9687,
      "step": 1470
    },
    {
      "epoch": 0.6746932691205138,
      "grad_norm": 0.6158225844623954,
      "learning_rate": 0.00025279364503250925,
      "loss": 3.0732,
      "step": 1471
    },
    {
      "epoch": 0.6751519321178764,
      "grad_norm": 0.62763220541193,
      "learning_rate": 0.0002521480435856056,
      "loss": 2.9697,
      "step": 1472
    },
    {
      "epoch": 0.6756105951152391,
      "grad_norm": 0.6305720325608422,
      "learning_rate": 0.0002515029895100378,
      "loss": 2.9477,
      "step": 1473
    },
    {
      "epoch": 0.6760692581126018,
      "grad_norm": 0.7010242746323762,
      "learning_rate": 0.0002508584842303822,
      "loss": 3.1964,
      "step": 1474
    },
    {
      "epoch": 0.6765279211099644,
      "grad_norm": 0.6323300606989309,
      "learning_rate": 0.0002502145291700038,
      "loss": 3.0172,
      "step": 1475
    },
    {
      "epoch": 0.6769865841073271,
      "grad_norm": 0.6694760767304369,
      "learning_rate": 0.0002495711257510517,
      "loss": 3.0796,
      "step": 1476
    },
    {
      "epoch": 0.6774452471046898,
      "grad_norm": 0.6864108729863689,
      "learning_rate": 0.0002489282753944575,
      "loss": 3.0635,
      "step": 1477
    },
    {
      "epoch": 0.6779039101020525,
      "grad_norm": 0.6770979843158477,
      "learning_rate": 0.00024828597951993093,
      "loss": 2.9656,
      "step": 1478
    },
    {
      "epoch": 0.6783625730994152,
      "grad_norm": 0.6693133557001437,
      "learning_rate": 0.00024764423954595706,
      "loss": 3.0233,
      "step": 1479
    },
    {
      "epoch": 0.6788212360967779,
      "grad_norm": 0.6271798002324254,
      "learning_rate": 0.0002470030568897938,
      "loss": 3.008,
      "step": 1480
    },
    {
      "epoch": 0.6792798990941405,
      "grad_norm": 0.6170086298924518,
      "learning_rate": 0.00024636243296746773,
      "loss": 3.0275,
      "step": 1481
    },
    {
      "epoch": 0.6797385620915033,
      "grad_norm": 0.6637374120502089,
      "learning_rate": 0.0002457223691937716,
      "loss": 2.9994,
      "step": 1482
    },
    {
      "epoch": 0.6801972250888659,
      "grad_norm": 0.6156157290510357,
      "learning_rate": 0.0002450828669822613,
      "loss": 3.0134,
      "step": 1483
    },
    {
      "epoch": 0.6806558880862287,
      "grad_norm": 0.6743947693485889,
      "learning_rate": 0.00024444392774525253,
      "loss": 3.0024,
      "step": 1484
    },
    {
      "epoch": 0.6811145510835913,
      "grad_norm": 0.6143765583229984,
      "learning_rate": 0.00024380555289381733,
      "loss": 3.0846,
      "step": 1485
    },
    {
      "epoch": 0.6815732140809541,
      "grad_norm": 0.6789324019270097,
      "learning_rate": 0.00024316774383778184,
      "loss": 2.9968,
      "step": 1486
    },
    {
      "epoch": 0.6820318770783167,
      "grad_norm": 0.6495223133078313,
      "learning_rate": 0.0002425305019857222,
      "loss": 2.9748,
      "step": 1487
    },
    {
      "epoch": 0.6824905400756794,
      "grad_norm": 0.6906884709031204,
      "learning_rate": 0.00024189382874496184,
      "loss": 3.0632,
      "step": 1488
    },
    {
      "epoch": 0.6829492030730421,
      "grad_norm": 0.6797702719158275,
      "learning_rate": 0.00024125772552156916,
      "loss": 3.1016,
      "step": 1489
    },
    {
      "epoch": 0.6834078660704048,
      "grad_norm": 0.6655720652486345,
      "learning_rate": 0.00024062219372035292,
      "loss": 3.1741,
      "step": 1490
    },
    {
      "epoch": 0.6838665290677675,
      "grad_norm": 0.643648535120971,
      "learning_rate": 0.00023998723474486007,
      "loss": 3.0411,
      "step": 1491
    },
    {
      "epoch": 0.6843251920651301,
      "grad_norm": 0.670554240065189,
      "learning_rate": 0.00023935284999737272,
      "loss": 3.0964,
      "step": 1492
    },
    {
      "epoch": 0.6847838550624928,
      "grad_norm": 0.6654050249497837,
      "learning_rate": 0.00023871904087890505,
      "loss": 3.0276,
      "step": 1493
    },
    {
      "epoch": 0.6852425180598555,
      "grad_norm": 0.6567818783369908,
      "learning_rate": 0.00023808580878919945,
      "loss": 3.0442,
      "step": 1494
    },
    {
      "epoch": 0.6857011810572182,
      "grad_norm": 0.6565643255663408,
      "learning_rate": 0.00023745315512672398,
      "loss": 3.0312,
      "step": 1495
    },
    {
      "epoch": 0.6861598440545809,
      "grad_norm": 0.6316799597071165,
      "learning_rate": 0.0002368210812886698,
      "loss": 2.9629,
      "step": 1496
    },
    {
      "epoch": 0.6866185070519436,
      "grad_norm": 0.698203017082794,
      "learning_rate": 0.0002361895886709471,
      "loss": 3.0991,
      "step": 1497
    },
    {
      "epoch": 0.6870771700493062,
      "grad_norm": 0.6876223960589679,
      "learning_rate": 0.0002355586786681823,
      "loss": 3.0728,
      "step": 1498
    },
    {
      "epoch": 0.687535833046669,
      "grad_norm": 0.6492759490891535,
      "learning_rate": 0.00023492835267371575,
      "loss": 2.9868,
      "step": 1499
    },
    {
      "epoch": 0.6879944960440316,
      "grad_norm": 0.7118343503079175,
      "learning_rate": 0.0002342986120795978,
      "loss": 3.0527,
      "step": 1500
    },
    {
      "epoch": 0.6884531590413944,
      "grad_norm": 0.664246477933649,
      "learning_rate": 0.0002336694582765857,
      "loss": 3.0707,
      "step": 1501
    },
    {
      "epoch": 0.688911822038757,
      "grad_norm": 0.6698159901146075,
      "learning_rate": 0.00023304089265414085,
      "loss": 3.104,
      "step": 1502
    },
    {
      "epoch": 0.6893704850361198,
      "grad_norm": 0.6672200223348894,
      "learning_rate": 0.00023241291660042613,
      "loss": 3.0804,
      "step": 1503
    },
    {
      "epoch": 0.6898291480334824,
      "grad_norm": 0.7438736025837376,
      "learning_rate": 0.00023178553150230186,
      "loss": 3.1595,
      "step": 1504
    },
    {
      "epoch": 0.6902878110308451,
      "grad_norm": 0.7533527259176361,
      "learning_rate": 0.00023115873874532324,
      "loss": 3.0468,
      "step": 1505
    },
    {
      "epoch": 0.6907464740282078,
      "grad_norm": 0.6583481170183262,
      "learning_rate": 0.00023053253971373796,
      "loss": 3.0682,
      "step": 1506
    },
    {
      "epoch": 0.6912051370255705,
      "grad_norm": 0.6505527457355792,
      "learning_rate": 0.00022990693579048166,
      "loss": 3.0358,
      "step": 1507
    },
    {
      "epoch": 0.6916638000229332,
      "grad_norm": 0.6775501873901694,
      "learning_rate": 0.00022928192835717644,
      "loss": 3.0722,
      "step": 1508
    },
    {
      "epoch": 0.6921224630202958,
      "grad_norm": 0.7350665933570539,
      "learning_rate": 0.00022865751879412634,
      "loss": 3.0731,
      "step": 1509
    },
    {
      "epoch": 0.6925811260176585,
      "grad_norm": 0.6715749098194406,
      "learning_rate": 0.00022803370848031585,
      "loss": 3.1491,
      "step": 1510
    },
    {
      "epoch": 0.6930397890150212,
      "grad_norm": 0.6565958179921276,
      "learning_rate": 0.00022741049879340542,
      "loss": 3.0654,
      "step": 1511
    },
    {
      "epoch": 0.6934984520123839,
      "grad_norm": 0.6211594048136,
      "learning_rate": 0.00022678789110972897,
      "loss": 2.9929,
      "step": 1512
    },
    {
      "epoch": 0.6939571150097466,
      "grad_norm": 0.6991661829005592,
      "learning_rate": 0.00022616588680429155,
      "loss": 3.0343,
      "step": 1513
    },
    {
      "epoch": 0.6944157780071093,
      "grad_norm": 0.6972454545612496,
      "learning_rate": 0.00022554448725076526,
      "loss": 3.0396,
      "step": 1514
    },
    {
      "epoch": 0.6948744410044719,
      "grad_norm": 0.6472720562011463,
      "learning_rate": 0.0002249236938214863,
      "loss": 3.0262,
      "step": 1515
    },
    {
      "epoch": 0.6953331040018347,
      "grad_norm": 0.6901447920602142,
      "learning_rate": 0.00022430350788745296,
      "loss": 3.0552,
      "step": 1516
    },
    {
      "epoch": 0.6957917669991973,
      "grad_norm": 0.7096606264347535,
      "learning_rate": 0.00022368393081832166,
      "loss": 3.1512,
      "step": 1517
    },
    {
      "epoch": 0.6962504299965601,
      "grad_norm": 0.6158888457718174,
      "learning_rate": 0.00022306496398240383,
      "loss": 3.0583,
      "step": 1518
    },
    {
      "epoch": 0.6967090929939227,
      "grad_norm": 0.62407708594959,
      "learning_rate": 0.00022244660874666373,
      "loss": 2.9865,
      "step": 1519
    },
    {
      "epoch": 0.6971677559912854,
      "grad_norm": 0.638256206892099,
      "learning_rate": 0.00022182886647671452,
      "loss": 3.011,
      "step": 1520
    },
    {
      "epoch": 0.6976264189886481,
      "grad_norm": 0.6912409151882564,
      "learning_rate": 0.0002212117385368157,
      "loss": 2.9773,
      "step": 1521
    },
    {
      "epoch": 0.6980850819860108,
      "grad_norm": 0.6170270712407007,
      "learning_rate": 0.00022059522628987038,
      "loss": 2.9999,
      "step": 1522
    },
    {
      "epoch": 0.6985437449833735,
      "grad_norm": 0.6551805663621914,
      "learning_rate": 0.00021997933109742162,
      "loss": 3.0289,
      "step": 1523
    },
    {
      "epoch": 0.6990024079807362,
      "grad_norm": 0.6563895169848992,
      "learning_rate": 0.00021936405431964969,
      "loss": 2.9994,
      "step": 1524
    },
    {
      "epoch": 0.6994610709780988,
      "grad_norm": 0.7106735774205113,
      "learning_rate": 0.00021874939731536926,
      "loss": 2.9383,
      "step": 1525
    },
    {
      "epoch": 0.6999197339754615,
      "grad_norm": 0.6073029477588403,
      "learning_rate": 0.00021813536144202656,
      "loss": 2.9267,
      "step": 1526
    },
    {
      "epoch": 0.7003783969728242,
      "grad_norm": 0.6615543585220073,
      "learning_rate": 0.00021752194805569553,
      "loss": 3.0106,
      "step": 1527
    },
    {
      "epoch": 0.7008370599701869,
      "grad_norm": 0.7633455926733674,
      "learning_rate": 0.0002169091585110754,
      "loss": 2.9969,
      "step": 1528
    },
    {
      "epoch": 0.7012957229675496,
      "grad_norm": 0.6851785944765675,
      "learning_rate": 0.00021629699416148828,
      "loss": 2.9847,
      "step": 1529
    },
    {
      "epoch": 0.7017543859649122,
      "grad_norm": 0.7128476518997073,
      "learning_rate": 0.000215685456358875,
      "loss": 3.1472,
      "step": 1530
    },
    {
      "epoch": 0.702213048962275,
      "grad_norm": 0.6946664007218368,
      "learning_rate": 0.00021507454645379258,
      "loss": 3.0466,
      "step": 1531
    },
    {
      "epoch": 0.7026717119596376,
      "grad_norm": 0.68672890612988,
      "learning_rate": 0.00021446426579541184,
      "loss": 3.0759,
      "step": 1532
    },
    {
      "epoch": 0.7031303749570004,
      "grad_norm": 0.669138566412953,
      "learning_rate": 0.00021385461573151387,
      "loss": 2.9861,
      "step": 1533
    },
    {
      "epoch": 0.703589037954363,
      "grad_norm": 0.7033158190910707,
      "learning_rate": 0.00021324559760848677,
      "loss": 3.0691,
      "step": 1534
    },
    {
      "epoch": 0.7040477009517258,
      "grad_norm": 0.6330346156218066,
      "learning_rate": 0.00021263721277132303,
      "loss": 2.9675,
      "step": 1535
    },
    {
      "epoch": 0.7045063639490884,
      "grad_norm": 0.6258828319225607,
      "learning_rate": 0.0002120294625636171,
      "loss": 3.0188,
      "step": 1536
    },
    {
      "epoch": 0.7049650269464511,
      "grad_norm": 0.6538762026170244,
      "learning_rate": 0.0002114223483275613,
      "loss": 3.0686,
      "step": 1537
    },
    {
      "epoch": 0.7054236899438138,
      "grad_norm": 0.6551677358288885,
      "learning_rate": 0.0002108158714039435,
      "loss": 3.0843,
      "step": 1538
    },
    {
      "epoch": 0.7058823529411765,
      "grad_norm": 0.6513902625889774,
      "learning_rate": 0.00021021003313214455,
      "loss": 3.1487,
      "step": 1539
    },
    {
      "epoch": 0.7063410159385392,
      "grad_norm": 0.6863937646113084,
      "learning_rate": 0.00020960483485013432,
      "loss": 3.0345,
      "step": 1540
    },
    {
      "epoch": 0.7067996789359019,
      "grad_norm": 0.6294967431052648,
      "learning_rate": 0.0002090002778944694,
      "loss": 3.0321,
      "step": 1541
    },
    {
      "epoch": 0.7072583419332645,
      "grad_norm": 0.6156603500610812,
      "learning_rate": 0.00020839636360029025,
      "loss": 3.0181,
      "step": 1542
    },
    {
      "epoch": 0.7077170049306272,
      "grad_norm": 0.7383360729826346,
      "learning_rate": 0.00020779309330131818,
      "loss": 2.9994,
      "step": 1543
    },
    {
      "epoch": 0.7081756679279899,
      "grad_norm": 0.6736303403797959,
      "learning_rate": 0.00020719046832985184,
      "loss": 3.0442,
      "step": 1544
    },
    {
      "epoch": 0.7086343309253526,
      "grad_norm": 0.664101222817464,
      "learning_rate": 0.0002065884900167646,
      "loss": 2.9689,
      "step": 1545
    },
    {
      "epoch": 0.7090929939227153,
      "grad_norm": 0.6640234242358246,
      "learning_rate": 0.0002059871596915024,
      "loss": 3.1213,
      "step": 1546
    },
    {
      "epoch": 0.7095516569200779,
      "grad_norm": 0.6609734554463249,
      "learning_rate": 0.0002053864786820795,
      "loss": 3.1616,
      "step": 1547
    },
    {
      "epoch": 0.7100103199174407,
      "grad_norm": 0.6241015570523819,
      "learning_rate": 0.00020478644831507627,
      "loss": 2.8627,
      "step": 1548
    },
    {
      "epoch": 0.7104689829148033,
      "grad_norm": 0.6367297030851092,
      "learning_rate": 0.00020418706991563634,
      "loss": 3.1014,
      "step": 1549
    },
    {
      "epoch": 0.7109276459121661,
      "grad_norm": 0.6724914090253628,
      "learning_rate": 0.00020358834480746363,
      "loss": 3.0347,
      "step": 1550
    },
    {
      "epoch": 0.7113863089095287,
      "grad_norm": 0.6683073659223894,
      "learning_rate": 0.0002029902743128188,
      "loss": 3.0642,
      "step": 1551
    },
    {
      "epoch": 0.7118449719068914,
      "grad_norm": 0.6600998227035929,
      "learning_rate": 0.0002023928597525174,
      "loss": 3.0331,
      "step": 1552
    },
    {
      "epoch": 0.7123036349042541,
      "grad_norm": 0.6194496666351467,
      "learning_rate": 0.00020179610244592595,
      "loss": 2.9915,
      "step": 1553
    },
    {
      "epoch": 0.7127622979016168,
      "grad_norm": 0.6388862612990593,
      "learning_rate": 0.00020120000371095937,
      "loss": 3.0241,
      "step": 1554
    },
    {
      "epoch": 0.7132209608989795,
      "grad_norm": 0.668241978702525,
      "learning_rate": 0.0002006045648640787,
      "loss": 3.0133,
      "step": 1555
    },
    {
      "epoch": 0.7136796238963422,
      "grad_norm": 0.6317396403645027,
      "learning_rate": 0.00020000978722028713,
      "loss": 2.9888,
      "step": 1556
    },
    {
      "epoch": 0.7141382868937048,
      "grad_norm": 0.7344362759367745,
      "learning_rate": 0.00019941567209312767,
      "loss": 3.1438,
      "step": 1557
    },
    {
      "epoch": 0.7145969498910676,
      "grad_norm": 0.6911203824228598,
      "learning_rate": 0.00019882222079468036,
      "loss": 3.0393,
      "step": 1558
    },
    {
      "epoch": 0.7150556128884302,
      "grad_norm": 0.673215181326567,
      "learning_rate": 0.0001982294346355595,
      "loss": 2.9381,
      "step": 1559
    },
    {
      "epoch": 0.7155142758857929,
      "grad_norm": 0.6529532816096421,
      "learning_rate": 0.00019763731492490976,
      "loss": 3.0249,
      "step": 1560
    },
    {
      "epoch": 0.7159729388831556,
      "grad_norm": 0.668098428983686,
      "learning_rate": 0.00019704586297040422,
      "loss": 2.987,
      "step": 1561
    },
    {
      "epoch": 0.7164316018805182,
      "grad_norm": 0.6829493368718911,
      "learning_rate": 0.0001964550800782417,
      "loss": 2.9886,
      "step": 1562
    },
    {
      "epoch": 0.716890264877881,
      "grad_norm": 0.6391371768664071,
      "learning_rate": 0.00019586496755314288,
      "loss": 2.9441,
      "step": 1563
    },
    {
      "epoch": 0.7173489278752436,
      "grad_norm": 0.6729464429595979,
      "learning_rate": 0.00019527552669834798,
      "loss": 2.9419,
      "step": 1564
    },
    {
      "epoch": 0.7178075908726064,
      "grad_norm": 0.6899231832175985,
      "learning_rate": 0.0001946867588156142,
      "loss": 3.034,
      "step": 1565
    },
    {
      "epoch": 0.718266253869969,
      "grad_norm": 0.72768779850383,
      "learning_rate": 0.00019409866520521258,
      "loss": 2.9752,
      "step": 1566
    },
    {
      "epoch": 0.7187249168673318,
      "grad_norm": 0.6795164029106081,
      "learning_rate": 0.00019351124716592455,
      "loss": 3.0467,
      "step": 1567
    },
    {
      "epoch": 0.7191835798646944,
      "grad_norm": 0.6526706240152353,
      "learning_rate": 0.0001929245059950397,
      "loss": 2.9114,
      "step": 1568
    },
    {
      "epoch": 0.7196422428620571,
      "grad_norm": 0.6955686185263867,
      "learning_rate": 0.0001923384429883533,
      "loss": 3.1008,
      "step": 1569
    },
    {
      "epoch": 0.7201009058594198,
      "grad_norm": 0.650257541800438,
      "learning_rate": 0.00019175305944016237,
      "loss": 2.9103,
      "step": 1570
    },
    {
      "epoch": 0.7205595688567825,
      "grad_norm": 0.6377088409822013,
      "learning_rate": 0.00019116835664326326,
      "loss": 3.0388,
      "step": 1571
    },
    {
      "epoch": 0.7210182318541452,
      "grad_norm": 0.7869516527890781,
      "learning_rate": 0.0001905843358889497,
      "loss": 3.0841,
      "step": 1572
    },
    {
      "epoch": 0.7214768948515079,
      "grad_norm": 0.6541333304855756,
      "learning_rate": 0.00019000099846700836,
      "loss": 3.1051,
      "step": 1573
    },
    {
      "epoch": 0.7219355578488705,
      "grad_norm": 0.6410808877591536,
      "learning_rate": 0.00018941834566571692,
      "loss": 3.0045,
      "step": 1574
    },
    {
      "epoch": 0.7223942208462333,
      "grad_norm": 0.6729475975722882,
      "learning_rate": 0.00018883637877184145,
      "loss": 2.9161,
      "step": 1575
    },
    {
      "epoch": 0.7228528838435959,
      "grad_norm": 0.6692436495024521,
      "learning_rate": 0.00018825509907063325,
      "loss": 3.0596,
      "step": 1576
    },
    {
      "epoch": 0.7233115468409586,
      "grad_norm": 0.6794828226847512,
      "learning_rate": 0.00018767450784582557,
      "loss": 3.0327,
      "step": 1577
    },
    {
      "epoch": 0.7237702098383213,
      "grad_norm": 0.6557372284784632,
      "learning_rate": 0.00018709460637963122,
      "loss": 2.99,
      "step": 1578
    },
    {
      "epoch": 0.7242288728356839,
      "grad_norm": 0.6294118828876818,
      "learning_rate": 0.00018651539595274013,
      "loss": 2.9536,
      "step": 1579
    },
    {
      "epoch": 0.7246875358330467,
      "grad_norm": 0.6608225130098545,
      "learning_rate": 0.00018593687784431578,
      "loss": 3.0259,
      "step": 1580
    },
    {
      "epoch": 0.7251461988304093,
      "grad_norm": 0.6615278230320729,
      "learning_rate": 0.00018535905333199248,
      "loss": 2.8926,
      "step": 1581
    },
    {
      "epoch": 0.7256048618277721,
      "grad_norm": 0.6457980695892136,
      "learning_rate": 0.0001847819236918733,
      "loss": 2.9907,
      "step": 1582
    },
    {
      "epoch": 0.7260635248251347,
      "grad_norm": 0.6992091798260576,
      "learning_rate": 0.00018420549019852655,
      "loss": 3.0715,
      "step": 1583
    },
    {
      "epoch": 0.7265221878224974,
      "grad_norm": 0.7077089279099025,
      "learning_rate": 0.00018362975412498266,
      "loss": 3.0757,
      "step": 1584
    },
    {
      "epoch": 0.7269808508198601,
      "grad_norm": 0.6839243706266679,
      "learning_rate": 0.00018305471674273261,
      "loss": 3.0068,
      "step": 1585
    },
    {
      "epoch": 0.7274395138172228,
      "grad_norm": 0.6805521399618278,
      "learning_rate": 0.0001824803793217237,
      "loss": 2.9677,
      "step": 1586
    },
    {
      "epoch": 0.7278981768145855,
      "grad_norm": 0.7186492561226622,
      "learning_rate": 0.00018190674313035737,
      "loss": 3.0582,
      "step": 1587
    },
    {
      "epoch": 0.7283568398119482,
      "grad_norm": 0.672268590746229,
      "learning_rate": 0.00018133380943548716,
      "loss": 3.0081,
      "step": 1588
    },
    {
      "epoch": 0.7288155028093108,
      "grad_norm": 0.7641392261865853,
      "learning_rate": 0.00018076157950241452,
      "loss": 2.9898,
      "step": 1589
    },
    {
      "epoch": 0.7292741658066736,
      "grad_norm": 0.6723286384708537,
      "learning_rate": 0.00018019005459488652,
      "loss": 3.0896,
      "step": 1590
    },
    {
      "epoch": 0.7297328288040362,
      "grad_norm": 0.7205650693164407,
      "learning_rate": 0.00017961923597509388,
      "loss": 3.1549,
      "step": 1591
    },
    {
      "epoch": 0.730191491801399,
      "grad_norm": 0.719576638214199,
      "learning_rate": 0.00017904912490366722,
      "loss": 3.0161,
      "step": 1592
    },
    {
      "epoch": 0.7306501547987616,
      "grad_norm": 0.6569260446401457,
      "learning_rate": 0.00017847972263967433,
      "loss": 3.0723,
      "step": 1593
    },
    {
      "epoch": 0.7311088177961242,
      "grad_norm": 0.6734026420815616,
      "learning_rate": 0.0001779110304406177,
      "loss": 3.0452,
      "step": 1594
    },
    {
      "epoch": 0.731567480793487,
      "grad_norm": 0.7272571753933711,
      "learning_rate": 0.000177343049562432,
      "loss": 2.9894,
      "step": 1595
    },
    {
      "epoch": 0.7320261437908496,
      "grad_norm": 0.6623024589747989,
      "learning_rate": 0.0001767757812594807,
      "loss": 3.0206,
      "step": 1596
    },
    {
      "epoch": 0.7324848067882124,
      "grad_norm": 0.6478405344464508,
      "learning_rate": 0.0001762092267845534,
      "loss": 2.957,
      "step": 1597
    },
    {
      "epoch": 0.732943469785575,
      "grad_norm": 0.655662825910353,
      "learning_rate": 0.00017564338738886365,
      "loss": 2.974,
      "step": 1598
    },
    {
      "epoch": 0.7334021327829378,
      "grad_norm": 0.64147666431172,
      "learning_rate": 0.0001750782643220457,
      "loss": 3.1178,
      "step": 1599
    },
    {
      "epoch": 0.7338607957803004,
      "grad_norm": 0.6485434726042513,
      "learning_rate": 0.00017451385883215166,
      "loss": 3.1371,
      "step": 1600
    },
    {
      "epoch": 0.7343194587776631,
      "grad_norm": 0.6534153329088357,
      "learning_rate": 0.00017395017216564863,
      "loss": 2.8937,
      "step": 1601
    },
    {
      "epoch": 0.7347781217750258,
      "grad_norm": 0.6292806724888794,
      "learning_rate": 0.00017338720556741687,
      "loss": 3.0344,
      "step": 1602
    },
    {
      "epoch": 0.7352367847723885,
      "grad_norm": 0.6974783551243664,
      "learning_rate": 0.00017282496028074606,
      "loss": 3.1078,
      "step": 1603
    },
    {
      "epoch": 0.7356954477697512,
      "grad_norm": 0.6469621984408822,
      "learning_rate": 0.00017226343754733254,
      "loss": 3.0219,
      "step": 1604
    },
    {
      "epoch": 0.7361541107671139,
      "grad_norm": 0.6371432428325733,
      "learning_rate": 0.00017170263860727769,
      "loss": 3.0022,
      "step": 1605
    },
    {
      "epoch": 0.7366127737644765,
      "grad_norm": 0.642555445703426,
      "learning_rate": 0.0001711425646990838,
      "loss": 3.0,
      "step": 1606
    },
    {
      "epoch": 0.7370714367618393,
      "grad_norm": 0.6301897110683473,
      "learning_rate": 0.00017058321705965202,
      "loss": 3.1015,
      "step": 1607
    },
    {
      "epoch": 0.7375300997592019,
      "grad_norm": 0.6996654578768008,
      "learning_rate": 0.0001700245969242798,
      "loss": 2.9964,
      "step": 1608
    },
    {
      "epoch": 0.7379887627565647,
      "grad_norm": 0.6905242679927158,
      "learning_rate": 0.00016946670552665804,
      "loss": 3.0222,
      "step": 1609
    },
    {
      "epoch": 0.7384474257539273,
      "grad_norm": 0.6906601397377701,
      "learning_rate": 0.00016890954409886795,
      "loss": 3.0302,
      "step": 1610
    },
    {
      "epoch": 0.7389060887512899,
      "grad_norm": 0.6661322319801372,
      "learning_rate": 0.00016835311387137836,
      "loss": 3.0365,
      "step": 1611
    },
    {
      "epoch": 0.7393647517486527,
      "grad_norm": 0.6846027295590228,
      "learning_rate": 0.0001677974160730441,
      "loss": 3.0141,
      "step": 1612
    },
    {
      "epoch": 0.7398234147460153,
      "grad_norm": 0.6923316871219104,
      "learning_rate": 0.00016724245193110176,
      "loss": 3.0587,
      "step": 1613
    },
    {
      "epoch": 0.7402820777433781,
      "grad_norm": 0.7587215203396124,
      "learning_rate": 0.00016668822267116784,
      "loss": 3.0317,
      "step": 1614
    },
    {
      "epoch": 0.7407407407407407,
      "grad_norm": 0.6255147724484887,
      "learning_rate": 0.00016613472951723597,
      "loss": 3.0023,
      "step": 1615
    },
    {
      "epoch": 0.7411994037381034,
      "grad_norm": 0.6228018322592016,
      "learning_rate": 0.00016558197369167434,
      "loss": 3.0022,
      "step": 1616
    },
    {
      "epoch": 0.7416580667354661,
      "grad_norm": 0.6793733806764654,
      "learning_rate": 0.00016502995641522216,
      "loss": 3.0768,
      "step": 1617
    },
    {
      "epoch": 0.7421167297328288,
      "grad_norm": 0.634829748555302,
      "learning_rate": 0.00016447867890698843,
      "loss": 3.0474,
      "step": 1618
    },
    {
      "epoch": 0.7425753927301915,
      "grad_norm": 0.6448017508417844,
      "learning_rate": 0.00016392814238444753,
      "loss": 3.0987,
      "step": 1619
    },
    {
      "epoch": 0.7430340557275542,
      "grad_norm": 0.6646698306997456,
      "learning_rate": 0.00016337834806343782,
      "loss": 2.992,
      "step": 1620
    },
    {
      "epoch": 0.7434927187249168,
      "grad_norm": 0.6958559960500378,
      "learning_rate": 0.0001628292971581588,
      "loss": 3.0372,
      "step": 1621
    },
    {
      "epoch": 0.7439513817222796,
      "grad_norm": 0.6830928977397042,
      "learning_rate": 0.00016228099088116772,
      "loss": 3.1195,
      "step": 1622
    },
    {
      "epoch": 0.7444100447196422,
      "grad_norm": 0.6397911424494805,
      "learning_rate": 0.00016173343044337734,
      "loss": 3.087,
      "step": 1623
    },
    {
      "epoch": 0.744868707717005,
      "grad_norm": 0.7211511783540164,
      "learning_rate": 0.00016118661705405356,
      "loss": 2.9499,
      "step": 1624
    },
    {
      "epoch": 0.7453273707143676,
      "grad_norm": 0.6571868018217797,
      "learning_rate": 0.00016064055192081255,
      "loss": 3.036,
      "step": 1625
    },
    {
      "epoch": 0.7457860337117304,
      "grad_norm": 0.6281662308758662,
      "learning_rate": 0.00016009523624961757,
      "loss": 2.9992,
      "step": 1626
    },
    {
      "epoch": 0.746244696709093,
      "grad_norm": 0.6720267669462975,
      "learning_rate": 0.00015955067124477678,
      "loss": 2.9222,
      "step": 1627
    },
    {
      "epoch": 0.7467033597064556,
      "grad_norm": 0.616341350392487,
      "learning_rate": 0.000159006858108941,
      "loss": 3.0257,
      "step": 1628
    },
    {
      "epoch": 0.7471620227038184,
      "grad_norm": 0.6648237736610907,
      "learning_rate": 0.00015846379804310002,
      "loss": 3.0118,
      "step": 1629
    },
    {
      "epoch": 0.747620685701181,
      "grad_norm": 0.651435901067183,
      "learning_rate": 0.00015792149224658054,
      "loss": 2.9536,
      "step": 1630
    },
    {
      "epoch": 0.7480793486985438,
      "grad_norm": 0.6310628448330091,
      "learning_rate": 0.00015737994191704385,
      "loss": 3.0232,
      "step": 1631
    },
    {
      "epoch": 0.7485380116959064,
      "grad_norm": 0.6396281611162157,
      "learning_rate": 0.0001568391482504829,
      "loss": 2.9509,
      "step": 1632
    },
    {
      "epoch": 0.7489966746932691,
      "grad_norm": 0.7363828044624424,
      "learning_rate": 0.00015629911244121903,
      "loss": 3.0066,
      "step": 1633
    },
    {
      "epoch": 0.7494553376906318,
      "grad_norm": 0.6447924913697293,
      "learning_rate": 0.0001557598356819,
      "loss": 3.1158,
      "step": 1634
    },
    {
      "epoch": 0.7499140006879945,
      "grad_norm": 0.7747626943601752,
      "learning_rate": 0.00015522131916349786,
      "loss": 3.0077,
      "step": 1635
    },
    {
      "epoch": 0.7503726636853572,
      "grad_norm": 0.8089298252844297,
      "learning_rate": 0.00015468356407530493,
      "loss": 3.1643,
      "step": 1636
    },
    {
      "epoch": 0.7508313266827199,
      "grad_norm": 0.7213245997732138,
      "learning_rate": 0.00015414657160493217,
      "loss": 3.1115,
      "step": 1637
    },
    {
      "epoch": 0.7512899896800825,
      "grad_norm": 0.6738084182962,
      "learning_rate": 0.00015361034293830673,
      "loss": 3.0536,
      "step": 1638
    },
    {
      "epoch": 0.7517486526774453,
      "grad_norm": 0.6579738936815556,
      "learning_rate": 0.00015307487925966844,
      "loss": 3.0285,
      "step": 1639
    },
    {
      "epoch": 0.7522073156748079,
      "grad_norm": 0.6725993274948854,
      "learning_rate": 0.00015254018175156776,
      "loss": 3.1096,
      "step": 1640
    },
    {
      "epoch": 0.7526659786721707,
      "grad_norm": 0.7532404712272238,
      "learning_rate": 0.0001520062515948632,
      "loss": 3.1462,
      "step": 1641
    },
    {
      "epoch": 0.7531246416695333,
      "grad_norm": 0.6689221727099777,
      "learning_rate": 0.0001514730899687189,
      "loss": 2.8448,
      "step": 1642
    },
    {
      "epoch": 0.753583304666896,
      "grad_norm": 0.7146928012428223,
      "learning_rate": 0.00015094069805060122,
      "loss": 2.9883,
      "step": 1643
    },
    {
      "epoch": 0.7540419676642587,
      "grad_norm": 0.634564935278199,
      "learning_rate": 0.00015040907701627666,
      "loss": 2.9676,
      "step": 1644
    },
    {
      "epoch": 0.7545006306616213,
      "grad_norm": 0.644574842593486,
      "learning_rate": 0.00014987822803980976,
      "loss": 2.9314,
      "step": 1645
    },
    {
      "epoch": 0.7549592936589841,
      "grad_norm": 0.6299488106432124,
      "learning_rate": 0.00014934815229355965,
      "loss": 3.0655,
      "step": 1646
    },
    {
      "epoch": 0.7554179566563467,
      "grad_norm": 0.7175427740022573,
      "learning_rate": 0.00014881885094817748,
      "loss": 3.0619,
      "step": 1647
    },
    {
      "epoch": 0.7558766196537094,
      "grad_norm": 0.6970524494348008,
      "learning_rate": 0.00014829032517260488,
      "loss": 3.1132,
      "step": 1648
    },
    {
      "epoch": 0.7563352826510721,
      "grad_norm": 0.6312785891350696,
      "learning_rate": 0.0001477625761340704,
      "loss": 3.0599,
      "step": 1649
    },
    {
      "epoch": 0.7567939456484348,
      "grad_norm": 0.7026641090631878,
      "learning_rate": 0.0001472356049980868,
      "loss": 3.0318,
      "step": 1650
    },
    {
      "epoch": 0.7572526086457975,
      "grad_norm": 0.6682996219176904,
      "learning_rate": 0.00014670941292844954,
      "loss": 3.0004,
      "step": 1651
    },
    {
      "epoch": 0.7577112716431602,
      "grad_norm": 0.6585756599448345,
      "learning_rate": 0.00014618400108723295,
      "loss": 2.9266,
      "step": 1652
    },
    {
      "epoch": 0.7581699346405228,
      "grad_norm": 0.6587789832910116,
      "learning_rate": 0.00014565937063478862,
      "loss": 2.8984,
      "step": 1653
    },
    {
      "epoch": 0.7586285976378856,
      "grad_norm": 0.7055090923808445,
      "learning_rate": 0.00014513552272974207,
      "loss": 3.0456,
      "step": 1654
    },
    {
      "epoch": 0.7590872606352482,
      "grad_norm": 0.7107200238021025,
      "learning_rate": 0.0001446124585289913,
      "loss": 2.9421,
      "step": 1655
    },
    {
      "epoch": 0.759545923632611,
      "grad_norm": 0.7058953589158897,
      "learning_rate": 0.00014409017918770266,
      "loss": 3.0273,
      "step": 1656
    },
    {
      "epoch": 0.7600045866299736,
      "grad_norm": 0.6470089951262038,
      "learning_rate": 0.00014356868585930994,
      "loss": 3.0933,
      "step": 1657
    },
    {
      "epoch": 0.7604632496273364,
      "grad_norm": 0.6479955112411414,
      "learning_rate": 0.00014304797969551077,
      "loss": 2.8778,
      "step": 1658
    },
    {
      "epoch": 0.760921912624699,
      "grad_norm": 0.6583333308010575,
      "learning_rate": 0.00014252806184626417,
      "loss": 3.2237,
      "step": 1659
    },
    {
      "epoch": 0.7613805756220617,
      "grad_norm": 0.7657663603379313,
      "learning_rate": 0.00014200893345978817,
      "loss": 3.0987,
      "step": 1660
    },
    {
      "epoch": 0.7618392386194244,
      "grad_norm": 0.6657821180832093,
      "learning_rate": 0.00014149059568255778,
      "loss": 3.0204,
      "step": 1661
    },
    {
      "epoch": 0.762297901616787,
      "grad_norm": 0.776699404390819,
      "learning_rate": 0.00014097304965930157,
      "loss": 2.9766,
      "step": 1662
    },
    {
      "epoch": 0.7627565646141498,
      "grad_norm": 0.6551050634962763,
      "learning_rate": 0.00014045629653299953,
      "loss": 3.1315,
      "step": 1663
    },
    {
      "epoch": 0.7632152276115124,
      "grad_norm": 0.6636517708491991,
      "learning_rate": 0.00013994033744488076,
      "loss": 3.0813,
      "step": 1664
    },
    {
      "epoch": 0.7636738906088751,
      "grad_norm": 0.7257506645611947,
      "learning_rate": 0.00013942517353442092,
      "loss": 2.9134,
      "step": 1665
    },
    {
      "epoch": 0.7641325536062378,
      "grad_norm": 0.7148619878157896,
      "learning_rate": 0.0001389108059393391,
      "loss": 3.0162,
      "step": 1666
    },
    {
      "epoch": 0.7645912166036005,
      "grad_norm": 0.6751254885307946,
      "learning_rate": 0.00013839723579559581,
      "loss": 3.1021,
      "step": 1667
    },
    {
      "epoch": 0.7650498796009632,
      "grad_norm": 0.6474271608902755,
      "learning_rate": 0.00013788446423739103,
      "loss": 2.998,
      "step": 1668
    },
    {
      "epoch": 0.7655085425983259,
      "grad_norm": 0.6181859020099221,
      "learning_rate": 0.00013737249239716042,
      "loss": 3.0064,
      "step": 1669
    },
    {
      "epoch": 0.7659672055956885,
      "grad_norm": 0.6611573447381819,
      "learning_rate": 0.00013686132140557355,
      "loss": 3.0035,
      "step": 1670
    },
    {
      "epoch": 0.7664258685930513,
      "grad_norm": 0.6519209775505217,
      "learning_rate": 0.00013635095239153188,
      "loss": 3.1007,
      "step": 1671
    },
    {
      "epoch": 0.7668845315904139,
      "grad_norm": 0.7124326452868487,
      "learning_rate": 0.00013584138648216527,
      "loss": 3.0151,
      "step": 1672
    },
    {
      "epoch": 0.7673431945877767,
      "grad_norm": 0.6251677243232165,
      "learning_rate": 0.0001353326248028298,
      "loss": 3.0003,
      "step": 1673
    },
    {
      "epoch": 0.7678018575851393,
      "grad_norm": 0.7482973455737433,
      "learning_rate": 0.00013482466847710594,
      "loss": 3.0636,
      "step": 1674
    },
    {
      "epoch": 0.768260520582502,
      "grad_norm": 0.6130702256654873,
      "learning_rate": 0.00013431751862679554,
      "loss": 3.055,
      "step": 1675
    },
    {
      "epoch": 0.7687191835798647,
      "grad_norm": 0.6384157427874845,
      "learning_rate": 0.00013381117637191887,
      "loss": 2.9485,
      "step": 1676
    },
    {
      "epoch": 0.7691778465772274,
      "grad_norm": 0.6452502418124424,
      "learning_rate": 0.00013330564283071293,
      "loss": 3.0135,
      "step": 1677
    },
    {
      "epoch": 0.7696365095745901,
      "grad_norm": 0.6860196854114731,
      "learning_rate": 0.000132800919119629,
      "loss": 3.0031,
      "step": 1678
    },
    {
      "epoch": 0.7700951725719528,
      "grad_norm": 0.6512828949739824,
      "learning_rate": 0.00013229700635332948,
      "loss": 2.9681,
      "step": 1679
    },
    {
      "epoch": 0.7705538355693154,
      "grad_norm": 0.6492594030245684,
      "learning_rate": 0.00013179390564468585,
      "loss": 3.0623,
      "step": 1680
    },
    {
      "epoch": 0.7710124985666781,
      "grad_norm": 0.6591384339097061,
      "learning_rate": 0.00013129161810477641,
      "loss": 3.033,
      "step": 1681
    },
    {
      "epoch": 0.7714711615640408,
      "grad_norm": 0.6603443523982993,
      "learning_rate": 0.0001307901448428837,
      "loss": 3.0842,
      "step": 1682
    },
    {
      "epoch": 0.7719298245614035,
      "grad_norm": 0.6738241956508082,
      "learning_rate": 0.0001302894869664916,
      "loss": 3.0641,
      "step": 1683
    },
    {
      "epoch": 0.7723884875587662,
      "grad_norm": 0.6630339378328629,
      "learning_rate": 0.00012978964558128336,
      "loss": 2.9646,
      "step": 1684
    },
    {
      "epoch": 0.7728471505561288,
      "grad_norm": 0.6769886199444096,
      "learning_rate": 0.00012929062179113925,
      "loss": 2.9359,
      "step": 1685
    },
    {
      "epoch": 0.7733058135534916,
      "grad_norm": 0.6554468524605177,
      "learning_rate": 0.00012879241669813368,
      "loss": 2.9426,
      "step": 1686
    },
    {
      "epoch": 0.7737644765508542,
      "grad_norm": 0.7200704605170678,
      "learning_rate": 0.00012829503140253295,
      "loss": 3.1218,
      "step": 1687
    },
    {
      "epoch": 0.774223139548217,
      "grad_norm": 0.6594696024464377,
      "learning_rate": 0.0001277984670027933,
      "loss": 2.994,
      "step": 1688
    },
    {
      "epoch": 0.7746818025455796,
      "grad_norm": 0.686572893995273,
      "learning_rate": 0.00012730272459555737,
      "loss": 3.0757,
      "step": 1689
    },
    {
      "epoch": 0.7751404655429424,
      "grad_norm": 0.6323763113762738,
      "learning_rate": 0.00012680780527565312,
      "loss": 3.0065,
      "step": 1690
    },
    {
      "epoch": 0.775599128540305,
      "grad_norm": 0.6256135306676003,
      "learning_rate": 0.0001263137101360905,
      "loss": 2.9197,
      "step": 1691
    },
    {
      "epoch": 0.7760577915376677,
      "grad_norm": 0.6695502430216543,
      "learning_rate": 0.00012582044026805922,
      "loss": 2.9702,
      "step": 1692
    },
    {
      "epoch": 0.7765164545350304,
      "grad_norm": 0.6665080396556708,
      "learning_rate": 0.00012532799676092627,
      "loss": 2.9623,
      "step": 1693
    },
    {
      "epoch": 0.7769751175323931,
      "grad_norm": 0.6362171578666647,
      "learning_rate": 0.00012483638070223414,
      "loss": 3.0799,
      "step": 1694
    },
    {
      "epoch": 0.7774337805297558,
      "grad_norm": 0.7103167710073928,
      "learning_rate": 0.00012434559317769752,
      "loss": 3.0297,
      "step": 1695
    },
    {
      "epoch": 0.7778924435271185,
      "grad_norm": 0.6778786318297736,
      "learning_rate": 0.0001238556352712012,
      "loss": 3.0813,
      "step": 1696
    },
    {
      "epoch": 0.7783511065244811,
      "grad_norm": 0.6365266742319932,
      "learning_rate": 0.00012336650806479827,
      "loss": 3.0927,
      "step": 1697
    },
    {
      "epoch": 0.7788097695218438,
      "grad_norm": 0.6776581465505641,
      "learning_rate": 0.00012287821263870708,
      "loss": 3.0419,
      "step": 1698
    },
    {
      "epoch": 0.7792684325192065,
      "grad_norm": 0.6629475736362204,
      "learning_rate": 0.00012239075007130885,
      "loss": 3.1217,
      "step": 1699
    },
    {
      "epoch": 0.7797270955165692,
      "grad_norm": 0.6891647860828709,
      "learning_rate": 0.00012190412143914536,
      "loss": 2.9308,
      "step": 1700
    },
    {
      "epoch": 0.7801857585139319,
      "grad_norm": 0.6186850199659731,
      "learning_rate": 0.0001214183278169172,
      "loss": 2.8736,
      "step": 1701
    },
    {
      "epoch": 0.7806444215112945,
      "grad_norm": 0.6038860562109273,
      "learning_rate": 0.00012093337027748042,
      "loss": 3.1157,
      "step": 1702
    },
    {
      "epoch": 0.7811030845086573,
      "grad_norm": 0.6840320425008227,
      "learning_rate": 0.00012044924989184459,
      "loss": 3.0118,
      "step": 1703
    },
    {
      "epoch": 0.7815617475060199,
      "grad_norm": 0.6493456962916418,
      "learning_rate": 0.0001199659677291709,
      "loss": 3.0217,
      "step": 1704
    },
    {
      "epoch": 0.7820204105033827,
      "grad_norm": 0.6506810599443457,
      "learning_rate": 0.00011948352485676895,
      "loss": 3.1082,
      "step": 1705
    },
    {
      "epoch": 0.7824790735007453,
      "grad_norm": 0.7300552713392977,
      "learning_rate": 0.00011900192234009477,
      "loss": 3.0493,
      "step": 1706
    },
    {
      "epoch": 0.782937736498108,
      "grad_norm": 0.6944223117187656,
      "learning_rate": 0.00011852116124274875,
      "loss": 3.0336,
      "step": 1707
    },
    {
      "epoch": 0.7833963994954707,
      "grad_norm": 0.6764759670165105,
      "learning_rate": 0.00011804124262647314,
      "loss": 3.0655,
      "step": 1708
    },
    {
      "epoch": 0.7838550624928334,
      "grad_norm": 0.6837310663899522,
      "learning_rate": 0.00011756216755114929,
      "loss": 3.0013,
      "step": 1709
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 0.6813361566994296,
      "learning_rate": 0.00011708393707479548,
      "loss": 3.1384,
      "step": 1710
    },
    {
      "epoch": 0.7847723884875588,
      "grad_norm": 0.6620692980329616,
      "learning_rate": 0.00011660655225356531,
      "loss": 2.9587,
      "step": 1711
    },
    {
      "epoch": 0.7852310514849214,
      "grad_norm": 0.639136228485321,
      "learning_rate": 0.0001161300141417444,
      "loss": 3.0302,
      "step": 1712
    },
    {
      "epoch": 0.7856897144822842,
      "grad_norm": 0.6695270929738621,
      "learning_rate": 0.00011565432379174823,
      "loss": 3.0625,
      "step": 1713
    },
    {
      "epoch": 0.7861483774796468,
      "grad_norm": 0.6299335275978036,
      "learning_rate": 0.00011517948225412056,
      "loss": 3.0093,
      "step": 1714
    },
    {
      "epoch": 0.7866070404770095,
      "grad_norm": 0.6493086209703577,
      "learning_rate": 0.00011470549057753032,
      "loss": 3.0875,
      "step": 1715
    },
    {
      "epoch": 0.7870657034743722,
      "grad_norm": 0.663083050422343,
      "learning_rate": 0.00011423234980876957,
      "loss": 3.0854,
      "step": 1716
    },
    {
      "epoch": 0.7875243664717348,
      "grad_norm": 0.6051359568356935,
      "learning_rate": 0.00011376006099275099,
      "loss": 2.976,
      "step": 1717
    },
    {
      "epoch": 0.7879830294690976,
      "grad_norm": 0.6412046762744907,
      "learning_rate": 0.00011328862517250609,
      "loss": 3.0418,
      "step": 1718
    },
    {
      "epoch": 0.7884416924664602,
      "grad_norm": 0.697745217778334,
      "learning_rate": 0.00011281804338918239,
      "loss": 3.0174,
      "step": 1719
    },
    {
      "epoch": 0.788900355463823,
      "grad_norm": 0.7345856597944957,
      "learning_rate": 0.00011234831668204115,
      "loss": 2.9331,
      "step": 1720
    },
    {
      "epoch": 0.7893590184611856,
      "grad_norm": 0.6584224130245395,
      "learning_rate": 0.00011187944608845569,
      "loss": 3.0323,
      "step": 1721
    },
    {
      "epoch": 0.7898176814585484,
      "grad_norm": 0.6474803970508639,
      "learning_rate": 0.00011141143264390801,
      "loss": 3.0667,
      "step": 1722
    },
    {
      "epoch": 0.790276344455911,
      "grad_norm": 0.6885363773904061,
      "learning_rate": 0.0001109442773819877,
      "loss": 2.9963,
      "step": 1723
    },
    {
      "epoch": 0.7907350074532737,
      "grad_norm": 0.6969707440067353,
      "learning_rate": 0.0001104779813343889,
      "loss": 2.9523,
      "step": 1724
    },
    {
      "epoch": 0.7911936704506364,
      "grad_norm": 0.6768767964301503,
      "learning_rate": 0.00011001254553090812,
      "loss": 3.0338,
      "step": 1725
    },
    {
      "epoch": 0.7916523334479991,
      "grad_norm": 0.641027394641895,
      "learning_rate": 0.00010954797099944186,
      "loss": 3.0031,
      "step": 1726
    },
    {
      "epoch": 0.7921109964453618,
      "grad_norm": 0.6827990558657665,
      "learning_rate": 0.0001090842587659851,
      "loss": 2.9497,
      "step": 1727
    },
    {
      "epoch": 0.7925696594427245,
      "grad_norm": 0.6816102752517301,
      "learning_rate": 0.00010862140985462804,
      "loss": 3.103,
      "step": 1728
    },
    {
      "epoch": 0.7930283224400871,
      "grad_norm": 0.6776778741604019,
      "learning_rate": 0.00010815942528755418,
      "loss": 3.0183,
      "step": 1729
    },
    {
      "epoch": 0.7934869854374499,
      "grad_norm": 0.7085170020573506,
      "learning_rate": 0.00010769830608503844,
      "loss": 3.0125,
      "step": 1730
    },
    {
      "epoch": 0.7939456484348125,
      "grad_norm": 0.6825180081316916,
      "learning_rate": 0.00010723805326544473,
      "loss": 3.1186,
      "step": 1731
    },
    {
      "epoch": 0.7944043114321752,
      "grad_norm": 0.6506246189172111,
      "learning_rate": 0.00010677866784522316,
      "loss": 3.077,
      "step": 1732
    },
    {
      "epoch": 0.7948629744295379,
      "grad_norm": 0.6889048744142637,
      "learning_rate": 0.00010632015083890839,
      "loss": 2.9587,
      "step": 1733
    },
    {
      "epoch": 0.7953216374269005,
      "grad_norm": 0.6818563508766325,
      "learning_rate": 0.00010586250325911745,
      "loss": 3.1094,
      "step": 1734
    },
    {
      "epoch": 0.7957803004242633,
      "grad_norm": 0.6363624295537086,
      "learning_rate": 0.00010540572611654697,
      "loss": 3.0178,
      "step": 1735
    },
    {
      "epoch": 0.7962389634216259,
      "grad_norm": 0.6254521974810892,
      "learning_rate": 0.00010494982041997126,
      "loss": 3.0736,
      "step": 1736
    },
    {
      "epoch": 0.7966976264189887,
      "grad_norm": 0.6839490775362224,
      "learning_rate": 0.0001044947871762405,
      "loss": 3.1012,
      "step": 1737
    },
    {
      "epoch": 0.7971562894163513,
      "grad_norm": 0.6230258690089137,
      "learning_rate": 0.00010404062739027753,
      "loss": 3.0782,
      "step": 1738
    },
    {
      "epoch": 0.797614952413714,
      "grad_norm": 0.6390987570468027,
      "learning_rate": 0.00010358734206507641,
      "loss": 3.1034,
      "step": 1739
    },
    {
      "epoch": 0.7980736154110767,
      "grad_norm": 0.658992499020429,
      "learning_rate": 0.00010313493220170017,
      "loss": 3.013,
      "step": 1740
    },
    {
      "epoch": 0.7985322784084394,
      "grad_norm": 0.6389985713256899,
      "learning_rate": 0.00010268339879927836,
      "loss": 2.9516,
      "step": 1741
    },
    {
      "epoch": 0.7989909414058021,
      "grad_norm": 0.6155347355069137,
      "learning_rate": 0.00010223274285500466,
      "loss": 2.9991,
      "step": 1742
    },
    {
      "epoch": 0.7994496044031648,
      "grad_norm": 0.6550285759184024,
      "learning_rate": 0.00010178296536413495,
      "loss": 3.0363,
      "step": 1743
    },
    {
      "epoch": 0.7999082674005275,
      "grad_norm": 0.6957472890676969,
      "learning_rate": 0.00010133406731998546,
      "loss": 3.0317,
      "step": 1744
    },
    {
      "epoch": 0.8003669303978902,
      "grad_norm": 0.7437066926701498,
      "learning_rate": 0.00010088604971392979,
      "loss": 3.0466,
      "step": 1745
    },
    {
      "epoch": 0.8008255933952528,
      "grad_norm": 0.6489391873218353,
      "learning_rate": 0.0001004389135353972,
      "loss": 3.0403,
      "step": 1746
    },
    {
      "epoch": 0.8012842563926156,
      "grad_norm": 0.643145652139938,
      "learning_rate": 9.999265977187049e-05,
      "loss": 3.0529,
      "step": 1747
    },
    {
      "epoch": 0.8017429193899782,
      "grad_norm": 0.6764105812605715,
      "learning_rate": 9.95472894088838e-05,
      "loss": 3.0827,
      "step": 1748
    },
    {
      "epoch": 0.8022015823873409,
      "grad_norm": 0.6281269706832036,
      "learning_rate": 9.910280343001993e-05,
      "loss": 2.9764,
      "step": 1749
    },
    {
      "epoch": 0.8026602453847036,
      "grad_norm": 0.6158801405632275,
      "learning_rate": 9.865920281690866e-05,
      "loss": 2.9825,
      "step": 1750
    },
    {
      "epoch": 0.8031189083820662,
      "grad_norm": 0.6533303911386644,
      "learning_rate": 9.821648854922482e-05,
      "loss": 2.9603,
      "step": 1751
    },
    {
      "epoch": 0.803577571379429,
      "grad_norm": 0.6728661507341588,
      "learning_rate": 9.77746616046854e-05,
      "loss": 3.0238,
      "step": 1752
    },
    {
      "epoch": 0.8040362343767916,
      "grad_norm": 0.6458270636691978,
      "learning_rate": 9.733372295904774e-05,
      "loss": 3.0881,
      "step": 1753
    },
    {
      "epoch": 0.8044948973741544,
      "grad_norm": 0.6933341953602582,
      "learning_rate": 9.68936735861079e-05,
      "loss": 3.0685,
      "step": 1754
    },
    {
      "epoch": 0.804953560371517,
      "grad_norm": 0.6636889717649646,
      "learning_rate": 9.645451445769737e-05,
      "loss": 3.1466,
      "step": 1755
    },
    {
      "epoch": 0.8054122233688797,
      "grad_norm": 0.664790217080727,
      "learning_rate": 9.601624654368196e-05,
      "loss": 2.9605,
      "step": 1756
    },
    {
      "epoch": 0.8058708863662424,
      "grad_norm": 0.6607419407374215,
      "learning_rate": 9.557887081195938e-05,
      "loss": 2.9837,
      "step": 1757
    },
    {
      "epoch": 0.8063295493636051,
      "grad_norm": 0.7854723719610965,
      "learning_rate": 9.514238822845667e-05,
      "loss": 3.1555,
      "step": 1758
    },
    {
      "epoch": 0.8067882123609678,
      "grad_norm": 0.6650359605571989,
      "learning_rate": 9.470679975712837e-05,
      "loss": 2.93,
      "step": 1759
    },
    {
      "epoch": 0.8072468753583305,
      "grad_norm": 0.6462427414406021,
      "learning_rate": 9.427210635995481e-05,
      "loss": 3.0181,
      "step": 1760
    },
    {
      "epoch": 0.8077055383556931,
      "grad_norm": 0.6739681360209325,
      "learning_rate": 9.383830899693923e-05,
      "loss": 2.9983,
      "step": 1761
    },
    {
      "epoch": 0.8081642013530559,
      "grad_norm": 0.67828171008057,
      "learning_rate": 9.340540862610591e-05,
      "loss": 2.9831,
      "step": 1762
    },
    {
      "epoch": 0.8086228643504185,
      "grad_norm": 0.6757071721637472,
      "learning_rate": 9.297340620349854e-05,
      "loss": 3.0854,
      "step": 1763
    },
    {
      "epoch": 0.8090815273477813,
      "grad_norm": 0.7502003276745671,
      "learning_rate": 9.25423026831777e-05,
      "loss": 3.0653,
      "step": 1764
    },
    {
      "epoch": 0.8095401903451439,
      "grad_norm": 0.634556276762087,
      "learning_rate": 9.211209901721846e-05,
      "loss": 2.9924,
      "step": 1765
    },
    {
      "epoch": 0.8099988533425065,
      "grad_norm": 0.7054806077277378,
      "learning_rate": 9.168279615570863e-05,
      "loss": 2.9327,
      "step": 1766
    },
    {
      "epoch": 0.8104575163398693,
      "grad_norm": 0.6471792993857772,
      "learning_rate": 9.125439504674699e-05,
      "loss": 3.0223,
      "step": 1767
    },
    {
      "epoch": 0.8109161793372319,
      "grad_norm": 0.6528724609587437,
      "learning_rate": 9.082689663644057e-05,
      "loss": 2.9303,
      "step": 1768
    },
    {
      "epoch": 0.8113748423345947,
      "grad_norm": 0.6499875567225869,
      "learning_rate": 9.040030186890264e-05,
      "loss": 2.9578,
      "step": 1769
    },
    {
      "epoch": 0.8118335053319573,
      "grad_norm": 0.6373385946299317,
      "learning_rate": 8.997461168625138e-05,
      "loss": 3.0151,
      "step": 1770
    },
    {
      "epoch": 0.81229216832932,
      "grad_norm": 0.6789400616429099,
      "learning_rate": 8.954982702860664e-05,
      "loss": 3.0738,
      "step": 1771
    },
    {
      "epoch": 0.8127508313266827,
      "grad_norm": 0.6561362852027618,
      "learning_rate": 8.912594883408865e-05,
      "loss": 2.9818,
      "step": 1772
    },
    {
      "epoch": 0.8132094943240454,
      "grad_norm": 0.7110202058005337,
      "learning_rate": 8.870297803881589e-05,
      "loss": 3.0582,
      "step": 1773
    },
    {
      "epoch": 0.8136681573214081,
      "grad_norm": 0.6792557276119893,
      "learning_rate": 8.828091557690287e-05,
      "loss": 3.0154,
      "step": 1774
    },
    {
      "epoch": 0.8141268203187708,
      "grad_norm": 0.6830154076839684,
      "learning_rate": 8.785976238045801e-05,
      "loss": 2.9499,
      "step": 1775
    },
    {
      "epoch": 0.8145854833161335,
      "grad_norm": 0.7136018853406432,
      "learning_rate": 8.743951937958144e-05,
      "loss": 2.8891,
      "step": 1776
    },
    {
      "epoch": 0.8150441463134962,
      "grad_norm": 0.7018539911829338,
      "learning_rate": 8.702018750236357e-05,
      "loss": 3.0135,
      "step": 1777
    },
    {
      "epoch": 0.8155028093108588,
      "grad_norm": 0.6718716840030667,
      "learning_rate": 8.660176767488237e-05,
      "loss": 3.0877,
      "step": 1778
    },
    {
      "epoch": 0.8159614723082216,
      "grad_norm": 0.6723071729699739,
      "learning_rate": 8.618426082120146e-05,
      "loss": 3.0628,
      "step": 1779
    },
    {
      "epoch": 0.8164201353055842,
      "grad_norm": 0.6488778508481033,
      "learning_rate": 8.576766786336854e-05,
      "loss": 2.9351,
      "step": 1780
    },
    {
      "epoch": 0.816878798302947,
      "grad_norm": 0.6566059006464233,
      "learning_rate": 8.535198972141294e-05,
      "loss": 3.037,
      "step": 1781
    },
    {
      "epoch": 0.8173374613003096,
      "grad_norm": 0.7139675034979526,
      "learning_rate": 8.493722731334347e-05,
      "loss": 3.0868,
      "step": 1782
    },
    {
      "epoch": 0.8177961242976722,
      "grad_norm": 0.6294610387351646,
      "learning_rate": 8.452338155514644e-05,
      "loss": 3.1307,
      "step": 1783
    },
    {
      "epoch": 0.818254787295035,
      "grad_norm": 0.6312260497414109,
      "learning_rate": 8.411045336078426e-05,
      "loss": 3.11,
      "step": 1784
    },
    {
      "epoch": 0.8187134502923976,
      "grad_norm": 0.6623728454983024,
      "learning_rate": 8.369844364219264e-05,
      "loss": 3.0396,
      "step": 1785
    },
    {
      "epoch": 0.8191721132897604,
      "grad_norm": 0.6916247733764784,
      "learning_rate": 8.328735330927873e-05,
      "loss": 2.9737,
      "step": 1786
    },
    {
      "epoch": 0.819630776287123,
      "grad_norm": 0.6580564607366398,
      "learning_rate": 8.287718326991961e-05,
      "loss": 2.9805,
      "step": 1787
    },
    {
      "epoch": 0.8200894392844857,
      "grad_norm": 0.6306847666263616,
      "learning_rate": 8.246793442995954e-05,
      "loss": 3.1507,
      "step": 1788
    },
    {
      "epoch": 0.8205481022818484,
      "grad_norm": 0.6311571646955194,
      "learning_rate": 8.205960769320875e-05,
      "loss": 3.0413,
      "step": 1789
    },
    {
      "epoch": 0.8210067652792111,
      "grad_norm": 0.6479387407822959,
      "learning_rate": 8.165220396144085e-05,
      "loss": 2.9429,
      "step": 1790
    },
    {
      "epoch": 0.8214654282765738,
      "grad_norm": 0.670655948943643,
      "learning_rate": 8.12457241343909e-05,
      "loss": 3.1272,
      "step": 1791
    },
    {
      "epoch": 0.8219240912739365,
      "grad_norm": 0.6285757021302096,
      "learning_rate": 8.084016910975367e-05,
      "loss": 2.9848,
      "step": 1792
    },
    {
      "epoch": 0.8223827542712991,
      "grad_norm": 0.642176589135351,
      "learning_rate": 8.043553978318169e-05,
      "loss": 3.0011,
      "step": 1793
    },
    {
      "epoch": 0.8228414172686619,
      "grad_norm": 0.6370065135059683,
      "learning_rate": 8.003183704828281e-05,
      "loss": 3.0272,
      "step": 1794
    },
    {
      "epoch": 0.8233000802660245,
      "grad_norm": 0.6601314552928743,
      "learning_rate": 7.962906179661872e-05,
      "loss": 3.1031,
      "step": 1795
    },
    {
      "epoch": 0.8237587432633873,
      "grad_norm": 0.6253879416584696,
      "learning_rate": 7.922721491770296e-05,
      "loss": 3.0165,
      "step": 1796
    },
    {
      "epoch": 0.8242174062607499,
      "grad_norm": 0.7126327205624721,
      "learning_rate": 7.882629729899832e-05,
      "loss": 3.0578,
      "step": 1797
    },
    {
      "epoch": 0.8246760692581127,
      "grad_norm": 0.7252487551136366,
      "learning_rate": 7.842630982591598e-05,
      "loss": 2.8596,
      "step": 1798
    },
    {
      "epoch": 0.8251347322554753,
      "grad_norm": 0.6389721092634144,
      "learning_rate": 7.802725338181232e-05,
      "loss": 2.9697,
      "step": 1799
    },
    {
      "epoch": 0.8255933952528379,
      "grad_norm": 0.7211940185358521,
      "learning_rate": 7.762912884798812e-05,
      "loss": 2.9888,
      "step": 1800
    },
    {
      "epoch": 0.8260520582502007,
      "grad_norm": 0.6832722627463664,
      "learning_rate": 7.723193710368564e-05,
      "loss": 3.0606,
      "step": 1801
    },
    {
      "epoch": 0.8265107212475633,
      "grad_norm": 0.638934118268674,
      "learning_rate": 7.683567902608729e-05,
      "loss": 2.9118,
      "step": 1802
    },
    {
      "epoch": 0.826969384244926,
      "grad_norm": 0.6829281761957259,
      "learning_rate": 7.644035549031364e-05,
      "loss": 3.0683,
      "step": 1803
    },
    {
      "epoch": 0.8274280472422887,
      "grad_norm": 0.7041717986712495,
      "learning_rate": 7.604596736942115e-05,
      "loss": 2.9771,
      "step": 1804
    },
    {
      "epoch": 0.8278867102396514,
      "grad_norm": 0.6740993305908342,
      "learning_rate": 7.56525155344004e-05,
      "loss": 2.9948,
      "step": 1805
    },
    {
      "epoch": 0.8283453732370141,
      "grad_norm": 0.6832224623091674,
      "learning_rate": 7.52600008541745e-05,
      "loss": 2.9642,
      "step": 1806
    },
    {
      "epoch": 0.8288040362343768,
      "grad_norm": 0.6472479587008184,
      "learning_rate": 7.486842419559681e-05,
      "loss": 3.0516,
      "step": 1807
    },
    {
      "epoch": 0.8292626992317395,
      "grad_norm": 0.7029665105125094,
      "learning_rate": 7.447778642344898e-05,
      "loss": 3.0023,
      "step": 1808
    },
    {
      "epoch": 0.8297213622291022,
      "grad_norm": 0.692680891508112,
      "learning_rate": 7.408808840043912e-05,
      "loss": 3.0482,
      "step": 1809
    },
    {
      "epoch": 0.8301800252264648,
      "grad_norm": 0.6462372405782772,
      "learning_rate": 7.369933098720021e-05,
      "loss": 3.032,
      "step": 1810
    },
    {
      "epoch": 0.8306386882238276,
      "grad_norm": 0.6699668099471525,
      "learning_rate": 7.331151504228767e-05,
      "loss": 3.0234,
      "step": 1811
    },
    {
      "epoch": 0.8310973512211902,
      "grad_norm": 0.6781723279780337,
      "learning_rate": 7.292464142217775e-05,
      "loss": 3.0062,
      "step": 1812
    },
    {
      "epoch": 0.831556014218553,
      "grad_norm": 0.7008182812199776,
      "learning_rate": 7.25387109812658e-05,
      "loss": 3.0239,
      "step": 1813
    },
    {
      "epoch": 0.8320146772159156,
      "grad_norm": 0.6721153898834656,
      "learning_rate": 7.215372457186415e-05,
      "loss": 3.0021,
      "step": 1814
    },
    {
      "epoch": 0.8324733402132783,
      "grad_norm": 0.6842562028104977,
      "learning_rate": 7.176968304420007e-05,
      "loss": 2.9828,
      "step": 1815
    },
    {
      "epoch": 0.832932003210641,
      "grad_norm": 0.6814509423791982,
      "learning_rate": 7.138658724641417e-05,
      "loss": 2.9566,
      "step": 1816
    },
    {
      "epoch": 0.8333906662080036,
      "grad_norm": 0.6727133793461657,
      "learning_rate": 7.10044380245587e-05,
      "loss": 2.9849,
      "step": 1817
    },
    {
      "epoch": 0.8338493292053664,
      "grad_norm": 0.6570499182868785,
      "learning_rate": 7.062323622259515e-05,
      "loss": 2.9558,
      "step": 1818
    },
    {
      "epoch": 0.834307992202729,
      "grad_norm": 0.6685315129185309,
      "learning_rate": 7.024298268239265e-05,
      "loss": 2.8955,
      "step": 1819
    },
    {
      "epoch": 0.8347666552000917,
      "grad_norm": 0.6667842642103021,
      "learning_rate": 6.986367824372647e-05,
      "loss": 3.0181,
      "step": 1820
    },
    {
      "epoch": 0.8352253181974544,
      "grad_norm": 0.6185452788380313,
      "learning_rate": 6.948532374427541e-05,
      "loss": 3.0101,
      "step": 1821
    },
    {
      "epoch": 0.8356839811948171,
      "grad_norm": 0.6821849050280023,
      "learning_rate": 6.910792001962063e-05,
      "loss": 3.1038,
      "step": 1822
    },
    {
      "epoch": 0.8361426441921798,
      "grad_norm": 0.6808278482222306,
      "learning_rate": 6.873146790324358e-05,
      "loss": 2.9791,
      "step": 1823
    },
    {
      "epoch": 0.8366013071895425,
      "grad_norm": 0.7468459325188949,
      "learning_rate": 6.83559682265239e-05,
      "loss": 3.0372,
      "step": 1824
    },
    {
      "epoch": 0.8370599701869051,
      "grad_norm": 0.6778603082415232,
      "learning_rate": 6.798142181873784e-05,
      "loss": 2.9777,
      "step": 1825
    },
    {
      "epoch": 0.8375186331842679,
      "grad_norm": 0.7403530466427678,
      "learning_rate": 6.760782950705662e-05,
      "loss": 3.0648,
      "step": 1826
    },
    {
      "epoch": 0.8379772961816305,
      "grad_norm": 0.6353732610572786,
      "learning_rate": 6.723519211654422e-05,
      "loss": 2.9795,
      "step": 1827
    },
    {
      "epoch": 0.8384359591789933,
      "grad_norm": 0.6316591532377928,
      "learning_rate": 6.686351047015554e-05,
      "loss": 3.0455,
      "step": 1828
    },
    {
      "epoch": 0.8388946221763559,
      "grad_norm": 0.6801507466069642,
      "learning_rate": 6.649278538873515e-05,
      "loss": 2.9046,
      "step": 1829
    },
    {
      "epoch": 0.8393532851737187,
      "grad_norm": 0.6420685242394331,
      "learning_rate": 6.612301769101465e-05,
      "loss": 3.033,
      "step": 1830
    },
    {
      "epoch": 0.8398119481710813,
      "grad_norm": 0.6294023573324117,
      "learning_rate": 6.575420819361177e-05,
      "loss": 3.1381,
      "step": 1831
    },
    {
      "epoch": 0.840270611168444,
      "grad_norm": 0.6890507264290672,
      "learning_rate": 6.538635771102757e-05,
      "loss": 2.9353,
      "step": 1832
    },
    {
      "epoch": 0.8407292741658067,
      "grad_norm": 0.7458603171641653,
      "learning_rate": 6.501946705564566e-05,
      "loss": 3.0909,
      "step": 1833
    },
    {
      "epoch": 0.8411879371631693,
      "grad_norm": 0.6802607280291062,
      "learning_rate": 6.465353703772959e-05,
      "loss": 2.9317,
      "step": 1834
    },
    {
      "epoch": 0.841646600160532,
      "grad_norm": 0.7378412706016965,
      "learning_rate": 6.428856846542136e-05,
      "loss": 3.0417,
      "step": 1835
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 0.6869864201190061,
      "learning_rate": 6.392456214473996e-05,
      "loss": 3.0628,
      "step": 1836
    },
    {
      "epoch": 0.8425639261552574,
      "grad_norm": 0.6414105185316413,
      "learning_rate": 6.3561518879579e-05,
      "loss": 2.922,
      "step": 1837
    },
    {
      "epoch": 0.8430225891526201,
      "grad_norm": 0.6517936244363177,
      "learning_rate": 6.31994394717052e-05,
      "loss": 2.9315,
      "step": 1838
    },
    {
      "epoch": 0.8434812521499828,
      "grad_norm": 0.7213733278347114,
      "learning_rate": 6.283832472075685e-05,
      "loss": 3.0476,
      "step": 1839
    },
    {
      "epoch": 0.8439399151473455,
      "grad_norm": 0.6586766440269919,
      "learning_rate": 6.247817542424178e-05,
      "loss": 3.0499,
      "step": 1840
    },
    {
      "epoch": 0.8443985781447082,
      "grad_norm": 0.7370305318669964,
      "learning_rate": 6.211899237753559e-05,
      "loss": 2.9993,
      "step": 1841
    },
    {
      "epoch": 0.8448572411420708,
      "grad_norm": 0.7326140523633858,
      "learning_rate": 6.176077637387984e-05,
      "loss": 2.9971,
      "step": 1842
    },
    {
      "epoch": 0.8453159041394336,
      "grad_norm": 0.7785982556993931,
      "learning_rate": 6.140352820438066e-05,
      "loss": 3.0016,
      "step": 1843
    },
    {
      "epoch": 0.8457745671367962,
      "grad_norm": 0.6513414565020226,
      "learning_rate": 6.104724865800665e-05,
      "loss": 3.0033,
      "step": 1844
    },
    {
      "epoch": 0.846233230134159,
      "grad_norm": 0.6747803160522804,
      "learning_rate": 6.069193852158711e-05,
      "loss": 3.0499,
      "step": 1845
    },
    {
      "epoch": 0.8466918931315216,
      "grad_norm": 0.7137634487428938,
      "learning_rate": 6.0337598579810584e-05,
      "loss": 2.9646,
      "step": 1846
    },
    {
      "epoch": 0.8471505561288843,
      "grad_norm": 0.6847398990235453,
      "learning_rate": 5.9984229615223096e-05,
      "loss": 2.8953,
      "step": 1847
    },
    {
      "epoch": 0.847609219126247,
      "grad_norm": 0.6374249790786923,
      "learning_rate": 5.963183240822606e-05,
      "loss": 2.9676,
      "step": 1848
    },
    {
      "epoch": 0.8480678821236097,
      "grad_norm": 0.6504374313785392,
      "learning_rate": 5.9280407737074825e-05,
      "loss": 2.9542,
      "step": 1849
    },
    {
      "epoch": 0.8485265451209724,
      "grad_norm": 0.7056819881754838,
      "learning_rate": 5.8929956377877125e-05,
      "loss": 3.0107,
      "step": 1850
    },
    {
      "epoch": 0.848985208118335,
      "grad_norm": 0.7810886185905462,
      "learning_rate": 5.8580479104591075e-05,
      "loss": 2.9641,
      "step": 1851
    },
    {
      "epoch": 0.8494438711156977,
      "grad_norm": 0.731108397810015,
      "learning_rate": 5.823197668902341e-05,
      "loss": 2.9834,
      "step": 1852
    },
    {
      "epoch": 0.8499025341130604,
      "grad_norm": 0.6987105738272242,
      "learning_rate": 5.78844499008282e-05,
      "loss": 2.9233,
      "step": 1853
    },
    {
      "epoch": 0.8503611971104231,
      "grad_norm": 0.6953944940734128,
      "learning_rate": 5.753789950750454e-05,
      "loss": 2.9934,
      "step": 1854
    },
    {
      "epoch": 0.8508198601077858,
      "grad_norm": 0.6536904964854107,
      "learning_rate": 5.719232627439558e-05,
      "loss": 3.0495,
      "step": 1855
    },
    {
      "epoch": 0.8512785231051485,
      "grad_norm": 0.6811629473271866,
      "learning_rate": 5.6847730964686315e-05,
      "loss": 2.9357,
      "step": 1856
    },
    {
      "epoch": 0.8517371861025111,
      "grad_norm": 0.6214495214713808,
      "learning_rate": 5.650411433940189e-05,
      "loss": 3.0473,
      "step": 1857
    },
    {
      "epoch": 0.8521958490998739,
      "grad_norm": 0.7198292660405421,
      "learning_rate": 5.61614771574061e-05,
      "loss": 2.9773,
      "step": 1858
    },
    {
      "epoch": 0.8526545120972365,
      "grad_norm": 0.6479927636711956,
      "learning_rate": 5.581982017539988e-05,
      "loss": 2.907,
      "step": 1859
    },
    {
      "epoch": 0.8531131750945993,
      "grad_norm": 0.7771321380646782,
      "learning_rate": 5.5479144147919216e-05,
      "loss": 2.9798,
      "step": 1860
    },
    {
      "epoch": 0.8535718380919619,
      "grad_norm": 0.7255026170373434,
      "learning_rate": 5.51394498273336e-05,
      "loss": 2.9614,
      "step": 1861
    },
    {
      "epoch": 0.8540305010893247,
      "grad_norm": 0.7142308166194636,
      "learning_rate": 5.480073796384494e-05,
      "loss": 3.1488,
      "step": 1862
    },
    {
      "epoch": 0.8544891640866873,
      "grad_norm": 0.6558173807883824,
      "learning_rate": 5.446300930548492e-05,
      "loss": 3.1039,
      "step": 1863
    },
    {
      "epoch": 0.85494782708405,
      "grad_norm": 0.6294581625522438,
      "learning_rate": 5.412626459811415e-05,
      "loss": 2.9414,
      "step": 1864
    },
    {
      "epoch": 0.8554064900814127,
      "grad_norm": 0.6527601511724266,
      "learning_rate": 5.3790504585419954e-05,
      "loss": 2.9401,
      "step": 1865
    },
    {
      "epoch": 0.8558651530787754,
      "grad_norm": 0.63381754841955,
      "learning_rate": 5.345573000891541e-05,
      "loss": 2.792,
      "step": 1866
    },
    {
      "epoch": 0.8563238160761381,
      "grad_norm": 0.6496568354457013,
      "learning_rate": 5.312194160793693e-05,
      "loss": 3.0021,
      "step": 1867
    },
    {
      "epoch": 0.8567824790735007,
      "grad_norm": 0.6472513125077793,
      "learning_rate": 5.278914011964303e-05,
      "loss": 3.0313,
      "step": 1868
    },
    {
      "epoch": 0.8572411420708634,
      "grad_norm": 0.7017176970928535,
      "learning_rate": 5.2457326279013006e-05,
      "loss": 2.9782,
      "step": 1869
    },
    {
      "epoch": 0.8576998050682261,
      "grad_norm": 0.7308038178724577,
      "learning_rate": 5.2126500818844514e-05,
      "loss": 3.1595,
      "step": 1870
    },
    {
      "epoch": 0.8581584680655888,
      "grad_norm": 0.6685380772636215,
      "learning_rate": 5.1796664469752566e-05,
      "loss": 3.0525,
      "step": 1871
    },
    {
      "epoch": 0.8586171310629515,
      "grad_norm": 0.6330452273553452,
      "learning_rate": 5.1467817960167975e-05,
      "loss": 2.9536,
      "step": 1872
    },
    {
      "epoch": 0.8590757940603142,
      "grad_norm": 0.6844942013012738,
      "learning_rate": 5.113996201633536e-05,
      "loss": 3.0735,
      "step": 1873
    },
    {
      "epoch": 0.8595344570576768,
      "grad_norm": 0.676785145257179,
      "learning_rate": 5.0813097362311765e-05,
      "loss": 2.9932,
      "step": 1874
    },
    {
      "epoch": 0.8599931200550396,
      "grad_norm": 0.6446702564000089,
      "learning_rate": 5.048722471996475e-05,
      "loss": 2.9133,
      "step": 1875
    },
    {
      "epoch": 0.8604517830524022,
      "grad_norm": 0.6912963121384043,
      "learning_rate": 5.016234480897158e-05,
      "loss": 3.0117,
      "step": 1876
    },
    {
      "epoch": 0.860910446049765,
      "grad_norm": 0.6444323630107441,
      "learning_rate": 4.9838458346816664e-05,
      "loss": 2.9809,
      "step": 1877
    },
    {
      "epoch": 0.8613691090471276,
      "grad_norm": 0.6589023176419904,
      "learning_rate": 4.9515566048790485e-05,
      "loss": 2.9707,
      "step": 1878
    },
    {
      "epoch": 0.8618277720444903,
      "grad_norm": 0.692293210483117,
      "learning_rate": 4.9193668627988074e-05,
      "loss": 2.9621,
      "step": 1879
    },
    {
      "epoch": 0.862286435041853,
      "grad_norm": 0.6060857850087302,
      "learning_rate": 4.887276679530744e-05,
      "loss": 3.0024,
      "step": 1880
    },
    {
      "epoch": 0.8627450980392157,
      "grad_norm": 0.6447843521601494,
      "learning_rate": 4.855286125944752e-05,
      "loss": 2.9834,
      "step": 1881
    },
    {
      "epoch": 0.8632037610365784,
      "grad_norm": 0.6574078580656385,
      "learning_rate": 4.8233952726907224e-05,
      "loss": 3.0622,
      "step": 1882
    },
    {
      "epoch": 0.8636624240339411,
      "grad_norm": 0.7143182082917628,
      "learning_rate": 4.7916041901983565e-05,
      "loss": 3.0486,
      "step": 1883
    },
    {
      "epoch": 0.8641210870313037,
      "grad_norm": 0.649015812152456,
      "learning_rate": 4.7599129486770145e-05,
      "loss": 2.9732,
      "step": 1884
    },
    {
      "epoch": 0.8645797500286664,
      "grad_norm": 0.676483771264332,
      "learning_rate": 4.728321618115555e-05,
      "loss": 2.9419,
      "step": 1885
    },
    {
      "epoch": 0.8650384130260291,
      "grad_norm": 0.700495611637168,
      "learning_rate": 4.696830268282204e-05,
      "loss": 2.9841,
      "step": 1886
    },
    {
      "epoch": 0.8654970760233918,
      "grad_norm": 0.656548828208783,
      "learning_rate": 4.665438968724361e-05,
      "loss": 3.0581,
      "step": 1887
    },
    {
      "epoch": 0.8659557390207545,
      "grad_norm": 0.6906081332301638,
      "learning_rate": 4.634147788768489e-05,
      "loss": 2.9462,
      "step": 1888
    },
    {
      "epoch": 0.8664144020181171,
      "grad_norm": 0.6701582336776114,
      "learning_rate": 4.6029567975199414e-05,
      "loss": 3.1082,
      "step": 1889
    },
    {
      "epoch": 0.8668730650154799,
      "grad_norm": 0.6523785798892155,
      "learning_rate": 4.571866063862795e-05,
      "loss": 3.0166,
      "step": 1890
    },
    {
      "epoch": 0.8673317280128425,
      "grad_norm": 0.6630576334059284,
      "learning_rate": 4.540875656459703e-05,
      "loss": 3.1366,
      "step": 1891
    },
    {
      "epoch": 0.8677903910102053,
      "grad_norm": 0.7163353709028495,
      "learning_rate": 4.509985643751785e-05,
      "loss": 3.0088,
      "step": 1892
    },
    {
      "epoch": 0.8682490540075679,
      "grad_norm": 0.6852436636709531,
      "learning_rate": 4.479196093958421e-05,
      "loss": 2.9649,
      "step": 1893
    },
    {
      "epoch": 0.8687077170049307,
      "grad_norm": 0.6585950675548039,
      "learning_rate": 4.4485070750771187e-05,
      "loss": 3.0672,
      "step": 1894
    },
    {
      "epoch": 0.8691663800022933,
      "grad_norm": 0.6953522394852871,
      "learning_rate": 4.417918654883363e-05,
      "loss": 2.9858,
      "step": 1895
    },
    {
      "epoch": 0.869625042999656,
      "grad_norm": 0.7091997022479529,
      "learning_rate": 4.3874309009305e-05,
      "loss": 3.0213,
      "step": 1896
    },
    {
      "epoch": 0.8700837059970187,
      "grad_norm": 0.6573040127253356,
      "learning_rate": 4.357043880549538e-05,
      "loss": 3.1236,
      "step": 1897
    },
    {
      "epoch": 0.8705423689943814,
      "grad_norm": 0.6311656602511478,
      "learning_rate": 4.326757660849012e-05,
      "loss": 3.0569,
      "step": 1898
    },
    {
      "epoch": 0.8710010319917441,
      "grad_norm": 0.6653007953499247,
      "learning_rate": 4.2965723087148635e-05,
      "loss": 2.9878,
      "step": 1899
    },
    {
      "epoch": 0.8714596949891068,
      "grad_norm": 0.6498427978825381,
      "learning_rate": 4.266487890810256e-05,
      "loss": 2.9709,
      "step": 1900
    },
    {
      "epoch": 0.8719183579864694,
      "grad_norm": 0.632231555879059,
      "learning_rate": 4.2365044735754365e-05,
      "loss": 2.8764,
      "step": 1901
    },
    {
      "epoch": 0.8723770209838321,
      "grad_norm": 0.718860708021063,
      "learning_rate": 4.2066221232276266e-05,
      "loss": 2.9265,
      "step": 1902
    },
    {
      "epoch": 0.8728356839811948,
      "grad_norm": 0.6550353533164156,
      "learning_rate": 4.176840905760815e-05,
      "loss": 2.9557,
      "step": 1903
    },
    {
      "epoch": 0.8732943469785575,
      "grad_norm": 0.671446013783065,
      "learning_rate": 4.1471608869456443e-05,
      "loss": 2.8939,
      "step": 1904
    },
    {
      "epoch": 0.8737530099759202,
      "grad_norm": 0.6674600740920138,
      "learning_rate": 4.117582132329284e-05,
      "loss": 3.1218,
      "step": 1905
    },
    {
      "epoch": 0.8742116729732828,
      "grad_norm": 0.6447909838311987,
      "learning_rate": 4.088104707235263e-05,
      "loss": 3.0175,
      "step": 1906
    },
    {
      "epoch": 0.8746703359706456,
      "grad_norm": 0.666458161480262,
      "learning_rate": 4.058728676763313e-05,
      "loss": 3.0338,
      "step": 1907
    },
    {
      "epoch": 0.8751289989680082,
      "grad_norm": 0.6516526874888922,
      "learning_rate": 4.0294541057892375e-05,
      "loss": 2.9929,
      "step": 1908
    },
    {
      "epoch": 0.875587661965371,
      "grad_norm": 0.675972351497959,
      "learning_rate": 4.000281058964794e-05,
      "loss": 2.9315,
      "step": 1909
    },
    {
      "epoch": 0.8760463249627336,
      "grad_norm": 0.6881339018783966,
      "learning_rate": 3.971209600717507e-05,
      "loss": 2.9162,
      "step": 1910
    },
    {
      "epoch": 0.8765049879600963,
      "grad_norm": 0.7317770898759115,
      "learning_rate": 3.9422397952505465e-05,
      "loss": 2.8874,
      "step": 1911
    },
    {
      "epoch": 0.876963650957459,
      "grad_norm": 0.6222650807586384,
      "learning_rate": 3.913371706542596e-05,
      "loss": 3.0588,
      "step": 1912
    },
    {
      "epoch": 0.8774223139548217,
      "grad_norm": 0.7065243888573468,
      "learning_rate": 3.884605398347707e-05,
      "loss": 2.8847,
      "step": 1913
    },
    {
      "epoch": 0.8778809769521844,
      "grad_norm": 0.6562850897230333,
      "learning_rate": 3.8559409341951456e-05,
      "loss": 3.1068,
      "step": 1914
    },
    {
      "epoch": 0.8783396399495471,
      "grad_norm": 0.6847671710741273,
      "learning_rate": 3.8273783773892404e-05,
      "loss": 3.1134,
      "step": 1915
    },
    {
      "epoch": 0.8787983029469097,
      "grad_norm": 0.6461143705748221,
      "learning_rate": 3.798917791009293e-05,
      "loss": 2.9777,
      "step": 1916
    },
    {
      "epoch": 0.8792569659442725,
      "grad_norm": 0.6556415644514593,
      "learning_rate": 3.770559237909393e-05,
      "loss": 2.9722,
      "step": 1917
    },
    {
      "epoch": 0.8797156289416351,
      "grad_norm": 0.6527867457402151,
      "learning_rate": 3.742302780718288e-05,
      "loss": 2.9004,
      "step": 1918
    },
    {
      "epoch": 0.8801742919389978,
      "grad_norm": 0.6378254249124051,
      "learning_rate": 3.7141484818392635e-05,
      "loss": 2.918,
      "step": 1919
    },
    {
      "epoch": 0.8806329549363605,
      "grad_norm": 0.6524513315314897,
      "learning_rate": 3.686096403449973e-05,
      "loss": 2.9985,
      "step": 1920
    },
    {
      "epoch": 0.8810916179337231,
      "grad_norm": 0.6508046786785264,
      "learning_rate": 3.658146607502344e-05,
      "loss": 2.9819,
      "step": 1921
    },
    {
      "epoch": 0.8815502809310859,
      "grad_norm": 0.6383331943062733,
      "learning_rate": 3.630299155722411e-05,
      "loss": 3.0141,
      "step": 1922
    },
    {
      "epoch": 0.8820089439284485,
      "grad_norm": 0.6798009429308227,
      "learning_rate": 3.6025541096101676e-05,
      "loss": 3.0319,
      "step": 1923
    },
    {
      "epoch": 0.8824676069258113,
      "grad_norm": 0.6817997208759652,
      "learning_rate": 3.574911530439473e-05,
      "loss": 3.0612,
      "step": 1924
    },
    {
      "epoch": 0.8829262699231739,
      "grad_norm": 0.6787802752482044,
      "learning_rate": 3.5473714792578606e-05,
      "loss": 3.0859,
      "step": 1925
    },
    {
      "epoch": 0.8833849329205367,
      "grad_norm": 0.6873915685075794,
      "learning_rate": 3.519934016886478e-05,
      "loss": 3.1328,
      "step": 1926
    },
    {
      "epoch": 0.8838435959178993,
      "grad_norm": 0.725238060194368,
      "learning_rate": 3.4925992039198776e-05,
      "loss": 3.1044,
      "step": 1927
    },
    {
      "epoch": 0.884302258915262,
      "grad_norm": 0.6857908627049609,
      "learning_rate": 3.465367100725908e-05,
      "loss": 3.0315,
      "step": 1928
    },
    {
      "epoch": 0.8847609219126247,
      "grad_norm": 0.6519543097967735,
      "learning_rate": 3.438237767445618e-05,
      "loss": 2.9263,
      "step": 1929
    },
    {
      "epoch": 0.8852195849099874,
      "grad_norm": 0.6385715961303056,
      "learning_rate": 3.4112112639930804e-05,
      "loss": 3.0551,
      "step": 1930
    },
    {
      "epoch": 0.8856782479073501,
      "grad_norm": 0.7442034099209512,
      "learning_rate": 3.3842876500552564e-05,
      "loss": 2.9815,
      "step": 1931
    },
    {
      "epoch": 0.8861369109047128,
      "grad_norm": 0.7241792357669599,
      "learning_rate": 3.357466985091906e-05,
      "loss": 3.0966,
      "step": 1932
    },
    {
      "epoch": 0.8865955739020754,
      "grad_norm": 0.6671065374309016,
      "learning_rate": 3.330749328335414e-05,
      "loss": 2.96,
      "step": 1933
    },
    {
      "epoch": 0.8870542368994382,
      "grad_norm": 0.6892100438629569,
      "learning_rate": 3.304134738790659e-05,
      "loss": 2.9745,
      "step": 1934
    },
    {
      "epoch": 0.8875128998968008,
      "grad_norm": 0.6489022015501543,
      "learning_rate": 3.277623275234953e-05,
      "loss": 2.9943,
      "step": 1935
    },
    {
      "epoch": 0.8879715628941636,
      "grad_norm": 0.644644549765099,
      "learning_rate": 3.2512149962177994e-05,
      "loss": 3.0391,
      "step": 1936
    },
    {
      "epoch": 0.8884302258915262,
      "grad_norm": 0.6824152243282381,
      "learning_rate": 3.224909960060851e-05,
      "loss": 2.9681,
      "step": 1937
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.6781082561883417,
      "learning_rate": 3.198708224857755e-05,
      "loss": 3.0093,
      "step": 1938
    },
    {
      "epoch": 0.8893475518862516,
      "grad_norm": 0.6592690693963166,
      "learning_rate": 3.172609848474023e-05,
      "loss": 2.9603,
      "step": 1939
    },
    {
      "epoch": 0.8898062148836142,
      "grad_norm": 0.6451732289306502,
      "learning_rate": 3.1466148885468895e-05,
      "loss": 3.0856,
      "step": 1940
    },
    {
      "epoch": 0.890264877880977,
      "grad_norm": 0.6598390422753863,
      "learning_rate": 3.120723402485198e-05,
      "loss": 3.047,
      "step": 1941
    },
    {
      "epoch": 0.8907235408783396,
      "grad_norm": 0.6978664771554163,
      "learning_rate": 3.094935447469294e-05,
      "loss": 2.9574,
      "step": 1942
    },
    {
      "epoch": 0.8911822038757024,
      "grad_norm": 0.6684878022486517,
      "learning_rate": 3.069251080450863e-05,
      "loss": 3.0387,
      "step": 1943
    },
    {
      "epoch": 0.891640866873065,
      "grad_norm": 0.6451754208820604,
      "learning_rate": 3.0436703581528113e-05,
      "loss": 2.9563,
      "step": 1944
    },
    {
      "epoch": 0.8920995298704277,
      "grad_norm": 0.6658394811460133,
      "learning_rate": 3.0181933370691694e-05,
      "loss": 3.0208,
      "step": 1945
    },
    {
      "epoch": 0.8925581928677904,
      "grad_norm": 0.6642798087441769,
      "learning_rate": 2.9928200734649523e-05,
      "loss": 2.9535,
      "step": 1946
    },
    {
      "epoch": 0.8930168558651531,
      "grad_norm": 0.6954695641678481,
      "learning_rate": 2.9675506233760142e-05,
      "loss": 2.9595,
      "step": 1947
    },
    {
      "epoch": 0.8934755188625157,
      "grad_norm": 0.6666977633130443,
      "learning_rate": 2.942385042608925e-05,
      "loss": 3.0441,
      "step": 1948
    },
    {
      "epoch": 0.8939341818598785,
      "grad_norm": 0.6543119597774091,
      "learning_rate": 2.9173233867409054e-05,
      "loss": 2.9906,
      "step": 1949
    },
    {
      "epoch": 0.8943928448572411,
      "grad_norm": 0.7050354874541636,
      "learning_rate": 2.892365711119638e-05,
      "loss": 2.9855,
      "step": 1950
    },
    {
      "epoch": 0.8948515078546039,
      "grad_norm": 0.6541444963117617,
      "learning_rate": 2.8675120708631596e-05,
      "loss": 3.0185,
      "step": 1951
    },
    {
      "epoch": 0.8953101708519665,
      "grad_norm": 0.6875753784722364,
      "learning_rate": 2.8427625208597764e-05,
      "loss": 2.9956,
      "step": 1952
    },
    {
      "epoch": 0.8957688338493293,
      "grad_norm": 0.6335611822620765,
      "learning_rate": 2.8181171157678874e-05,
      "loss": 3.0016,
      "step": 1953
    },
    {
      "epoch": 0.8962274968466919,
      "grad_norm": 0.6748166787289624,
      "learning_rate": 2.7935759100159053e-05,
      "loss": 3.0049,
      "step": 1954
    },
    {
      "epoch": 0.8966861598440545,
      "grad_norm": 0.6469763547457464,
      "learning_rate": 2.7691389578021365e-05,
      "loss": 3.019,
      "step": 1955
    },
    {
      "epoch": 0.8971448228414173,
      "grad_norm": 0.6854478737109584,
      "learning_rate": 2.7448063130946223e-05,
      "loss": 3.0103,
      "step": 1956
    },
    {
      "epoch": 0.8976034858387799,
      "grad_norm": 0.720516125156413,
      "learning_rate": 2.7205780296310544e-05,
      "loss": 2.9887,
      "step": 1957
    },
    {
      "epoch": 0.8980621488361427,
      "grad_norm": 0.6606445457399953,
      "learning_rate": 2.6964541609186378e-05,
      "loss": 2.98,
      "step": 1958
    },
    {
      "epoch": 0.8985208118335053,
      "grad_norm": 0.658879231250771,
      "learning_rate": 2.6724347602340104e-05,
      "loss": 2.9942,
      "step": 1959
    },
    {
      "epoch": 0.898979474830868,
      "grad_norm": 0.6540125635926614,
      "learning_rate": 2.6485198806230682e-05,
      "loss": 2.9989,
      "step": 1960
    },
    {
      "epoch": 0.8994381378282307,
      "grad_norm": 0.6981017075208438,
      "learning_rate": 2.6247095749008797e-05,
      "loss": 3.0661,
      "step": 1961
    },
    {
      "epoch": 0.8998968008255934,
      "grad_norm": 0.6423153841743992,
      "learning_rate": 2.6010038956515826e-05,
      "loss": 3.0629,
      "step": 1962
    },
    {
      "epoch": 0.9003554638229561,
      "grad_norm": 0.6929388060682686,
      "learning_rate": 2.5774028952282423e-05,
      "loss": 2.9956,
      "step": 1963
    },
    {
      "epoch": 0.9008141268203188,
      "grad_norm": 0.7011436011357876,
      "learning_rate": 2.5539066257527277e-05,
      "loss": 3.0043,
      "step": 1964
    },
    {
      "epoch": 0.9012727898176814,
      "grad_norm": 0.6648515309897416,
      "learning_rate": 2.530515139115652e-05,
      "loss": 2.993,
      "step": 1965
    },
    {
      "epoch": 0.9017314528150442,
      "grad_norm": 0.6569660320051706,
      "learning_rate": 2.5072284869761874e-05,
      "loss": 3.0142,
      "step": 1966
    },
    {
      "epoch": 0.9021901158124068,
      "grad_norm": 0.6736146299091901,
      "learning_rate": 2.4840467207619786e-05,
      "loss": 2.9816,
      "step": 1967
    },
    {
      "epoch": 0.9026487788097696,
      "grad_norm": 0.687983344553333,
      "learning_rate": 2.460969891669068e-05,
      "loss": 3.0396,
      "step": 1968
    },
    {
      "epoch": 0.9031074418071322,
      "grad_norm": 0.6476762355399026,
      "learning_rate": 2.4379980506617272e-05,
      "loss": 3.0018,
      "step": 1969
    },
    {
      "epoch": 0.903566104804495,
      "grad_norm": 0.6974130982908785,
      "learning_rate": 2.4151312484723464e-05,
      "loss": 2.9986,
      "step": 1970
    },
    {
      "epoch": 0.9040247678018576,
      "grad_norm": 0.6735474810316766,
      "learning_rate": 2.3923695356013798e-05,
      "loss": 2.9462,
      "step": 1971
    },
    {
      "epoch": 0.9044834307992202,
      "grad_norm": 0.6265138799617227,
      "learning_rate": 2.3697129623171833e-05,
      "loss": 2.9254,
      "step": 1972
    },
    {
      "epoch": 0.904942093796583,
      "grad_norm": 0.6625179663069535,
      "learning_rate": 2.3471615786559042e-05,
      "loss": 3.0672,
      "step": 1973
    },
    {
      "epoch": 0.9054007567939456,
      "grad_norm": 0.6516222958834658,
      "learning_rate": 2.3247154344213818e-05,
      "loss": 2.9335,
      "step": 1974
    },
    {
      "epoch": 0.9058594197913084,
      "grad_norm": 0.7059826777140058,
      "learning_rate": 2.3023745791850625e-05,
      "loss": 2.9963,
      "step": 1975
    },
    {
      "epoch": 0.906318082788671,
      "grad_norm": 0.6667817190829858,
      "learning_rate": 2.2801390622858354e-05,
      "loss": 3.109,
      "step": 1976
    },
    {
      "epoch": 0.9067767457860337,
      "grad_norm": 0.6374933098436726,
      "learning_rate": 2.2580089328299746e-05,
      "loss": 2.9206,
      "step": 1977
    },
    {
      "epoch": 0.9072354087833964,
      "grad_norm": 0.6667305534745882,
      "learning_rate": 2.235984239690997e-05,
      "loss": 3.0331,
      "step": 1978
    },
    {
      "epoch": 0.9076940717807591,
      "grad_norm": 0.6508254917597266,
      "learning_rate": 2.2140650315095934e-05,
      "loss": 2.9554,
      "step": 1979
    },
    {
      "epoch": 0.9081527347781218,
      "grad_norm": 0.6175580704376902,
      "learning_rate": 2.192251356693459e-05,
      "loss": 3.0858,
      "step": 1980
    },
    {
      "epoch": 0.9086113977754845,
      "grad_norm": 0.6532239105232175,
      "learning_rate": 2.170543263417246e-05,
      "loss": 3.0641,
      "step": 1981
    },
    {
      "epoch": 0.9090700607728471,
      "grad_norm": 0.6798561738122711,
      "learning_rate": 2.1489407996224286e-05,
      "loss": 3.0543,
      "step": 1982
    },
    {
      "epoch": 0.9095287237702099,
      "grad_norm": 0.6751259187223206,
      "learning_rate": 2.127444013017199e-05,
      "loss": 2.9897,
      "step": 1983
    },
    {
      "epoch": 0.9099873867675725,
      "grad_norm": 0.6475538721937045,
      "learning_rate": 2.1060529510763648e-05,
      "loss": 2.98,
      "step": 1984
    },
    {
      "epoch": 0.9104460497649353,
      "grad_norm": 0.6744302674942863,
      "learning_rate": 2.084767661041259e-05,
      "loss": 3.0414,
      "step": 1985
    },
    {
      "epoch": 0.9109047127622979,
      "grad_norm": 0.6520738205012955,
      "learning_rate": 2.063588189919596e-05,
      "loss": 3.0274,
      "step": 1986
    },
    {
      "epoch": 0.9113633757596606,
      "grad_norm": 0.6787891902888267,
      "learning_rate": 2.0425145844854275e-05,
      "loss": 3.0701,
      "step": 1987
    },
    {
      "epoch": 0.9118220387570233,
      "grad_norm": 0.7059944416464459,
      "learning_rate": 2.0215468912789693e-05,
      "loss": 3.0315,
      "step": 1988
    },
    {
      "epoch": 0.9122807017543859,
      "grad_norm": 0.6627798918106893,
      "learning_rate": 2.0006851566065575e-05,
      "loss": 3.0199,
      "step": 1989
    },
    {
      "epoch": 0.9127393647517487,
      "grad_norm": 0.6969595725902578,
      "learning_rate": 1.9799294265405166e-05,
      "loss": 2.9489,
      "step": 1990
    },
    {
      "epoch": 0.9131980277491113,
      "grad_norm": 0.6580644224681038,
      "learning_rate": 1.9592797469190572e-05,
      "loss": 3.0498,
      "step": 1991
    },
    {
      "epoch": 0.913656690746474,
      "grad_norm": 0.6492863755134236,
      "learning_rate": 1.938736163346194e-05,
      "loss": 3.009,
      "step": 1992
    },
    {
      "epoch": 0.9141153537438367,
      "grad_norm": 0.679803142544398,
      "learning_rate": 1.9182987211916246e-05,
      "loss": 2.9432,
      "step": 1993
    },
    {
      "epoch": 0.9145740167411994,
      "grad_norm": 0.657338872720423,
      "learning_rate": 1.8979674655906332e-05,
      "loss": 3.0477,
      "step": 1994
    },
    {
      "epoch": 0.9150326797385621,
      "grad_norm": 0.6528755415112459,
      "learning_rate": 1.8777424414440024e-05,
      "loss": 2.9157,
      "step": 1995
    },
    {
      "epoch": 0.9154913427359248,
      "grad_norm": 0.7041845740209626,
      "learning_rate": 1.8576236934179202e-05,
      "loss": 3.1007,
      "step": 1996
    },
    {
      "epoch": 0.9159500057332874,
      "grad_norm": 0.6412324541613986,
      "learning_rate": 1.8376112659438393e-05,
      "loss": 3.0822,
      "step": 1997
    },
    {
      "epoch": 0.9164086687306502,
      "grad_norm": 0.6844155077694412,
      "learning_rate": 1.8177052032184282e-05,
      "loss": 2.9836,
      "step": 1998
    },
    {
      "epoch": 0.9168673317280128,
      "grad_norm": 0.6803619110684935,
      "learning_rate": 1.7979055492034435e-05,
      "loss": 3.0768,
      "step": 1999
    },
    {
      "epoch": 0.9173259947253756,
      "grad_norm": 0.6892820156218373,
      "learning_rate": 1.7782123476256407e-05,
      "loss": 3.0281,
      "step": 2000
    },
    {
      "epoch": 0.9177846577227382,
      "grad_norm": 0.6871865880206173,
      "learning_rate": 1.7586256419766965e-05,
      "loss": 3.0867,
      "step": 2001
    },
    {
      "epoch": 0.918243320720101,
      "grad_norm": 0.6658810684246836,
      "learning_rate": 1.7391454755130766e-05,
      "loss": 2.945,
      "step": 2002
    },
    {
      "epoch": 0.9187019837174636,
      "grad_norm": 0.6655523008713539,
      "learning_rate": 1.7197718912559557e-05,
      "loss": 2.9528,
      "step": 2003
    },
    {
      "epoch": 0.9191606467148263,
      "grad_norm": 0.6810744762465948,
      "learning_rate": 1.700504931991148e-05,
      "loss": 2.9921,
      "step": 2004
    },
    {
      "epoch": 0.919619309712189,
      "grad_norm": 0.6908975544322955,
      "learning_rate": 1.681344640268978e-05,
      "loss": 3.0019,
      "step": 2005
    },
    {
      "epoch": 0.9200779727095516,
      "grad_norm": 0.6568811077433133,
      "learning_rate": 1.6622910584041974e-05,
      "loss": 3.133,
      "step": 2006
    },
    {
      "epoch": 0.9205366357069144,
      "grad_norm": 0.6792169761720204,
      "learning_rate": 1.6433442284758903e-05,
      "loss": 3.0066,
      "step": 2007
    },
    {
      "epoch": 0.920995298704277,
      "grad_norm": 0.6763605126941662,
      "learning_rate": 1.624504192327392e-05,
      "loss": 2.9388,
      "step": 2008
    },
    {
      "epoch": 0.9214539617016397,
      "grad_norm": 0.6897111265158485,
      "learning_rate": 1.6057709915661856e-05,
      "loss": 2.9646,
      "step": 2009
    },
    {
      "epoch": 0.9219126246990024,
      "grad_norm": 0.6320614478343157,
      "learning_rate": 1.5871446675638057e-05,
      "loss": 3.1126,
      "step": 2010
    },
    {
      "epoch": 0.9223712876963651,
      "grad_norm": 0.6731913397558726,
      "learning_rate": 1.5686252614557638e-05,
      "loss": 2.9012,
      "step": 2011
    },
    {
      "epoch": 0.9228299506937278,
      "grad_norm": 0.6452650139227278,
      "learning_rate": 1.5502128141414497e-05,
      "loss": 3.034,
      "step": 2012
    },
    {
      "epoch": 0.9232886136910905,
      "grad_norm": 0.7521950526291677,
      "learning_rate": 1.5319073662840188e-05,
      "loss": 2.9438,
      "step": 2013
    },
    {
      "epoch": 0.9237472766884531,
      "grad_norm": 0.7024051549970572,
      "learning_rate": 1.5137089583103391e-05,
      "loss": 3.0649,
      "step": 2014
    },
    {
      "epoch": 0.9242059396858159,
      "grad_norm": 0.7240671769944185,
      "learning_rate": 1.4956176304108893e-05,
      "loss": 3.0626,
      "step": 2015
    },
    {
      "epoch": 0.9246646026831785,
      "grad_norm": 0.6751696814561863,
      "learning_rate": 1.4776334225396481e-05,
      "loss": 3.0779,
      "step": 2016
    },
    {
      "epoch": 0.9251232656805413,
      "grad_norm": 0.6842700350516285,
      "learning_rate": 1.4597563744140397e-05,
      "loss": 2.9764,
      "step": 2017
    },
    {
      "epoch": 0.9255819286779039,
      "grad_norm": 0.6712983075692215,
      "learning_rate": 1.4419865255148269e-05,
      "loss": 3.1135,
      "step": 2018
    },
    {
      "epoch": 0.9260405916752666,
      "grad_norm": 0.7113846874491301,
      "learning_rate": 1.4243239150860122e-05,
      "loss": 2.8575,
      "step": 2019
    },
    {
      "epoch": 0.9264992546726293,
      "grad_norm": 0.6605478043207408,
      "learning_rate": 1.4067685821347932e-05,
      "loss": 2.9452,
      "step": 2020
    },
    {
      "epoch": 0.926957917669992,
      "grad_norm": 0.7051750524349397,
      "learning_rate": 1.389320565431429e-05,
      "loss": 3.067,
      "step": 2021
    },
    {
      "epoch": 0.9274165806673547,
      "grad_norm": 0.645101565842522,
      "learning_rate": 1.3719799035091851e-05,
      "loss": 2.9412,
      "step": 2022
    },
    {
      "epoch": 0.9278752436647173,
      "grad_norm": 0.6226101687919923,
      "learning_rate": 1.3547466346642278e-05,
      "loss": 2.9949,
      "step": 2023
    },
    {
      "epoch": 0.92833390666208,
      "grad_norm": 0.6697704149138762,
      "learning_rate": 1.3376207969555577e-05,
      "loss": 2.9343,
      "step": 2024
    },
    {
      "epoch": 0.9287925696594427,
      "grad_norm": 0.6453075067890675,
      "learning_rate": 1.32060242820492e-05,
      "loss": 2.9528,
      "step": 2025
    },
    {
      "epoch": 0.9292512326568054,
      "grad_norm": 0.6363708825355617,
      "learning_rate": 1.3036915659967118e-05,
      "loss": 2.9484,
      "step": 2026
    },
    {
      "epoch": 0.9297098956541681,
      "grad_norm": 0.6441981303585065,
      "learning_rate": 1.2868882476779087e-05,
      "loss": 2.9622,
      "step": 2027
    },
    {
      "epoch": 0.9301685586515308,
      "grad_norm": 0.6718042086747764,
      "learning_rate": 1.2701925103579815e-05,
      "loss": 3.0328,
      "step": 2028
    },
    {
      "epoch": 0.9306272216488934,
      "grad_norm": 0.6982976614622619,
      "learning_rate": 1.2536043909088191e-05,
      "loss": 3.0678,
      "step": 2029
    },
    {
      "epoch": 0.9310858846462562,
      "grad_norm": 0.6928847766673774,
      "learning_rate": 1.2371239259646228e-05,
      "loss": 3.0485,
      "step": 2030
    },
    {
      "epoch": 0.9315445476436188,
      "grad_norm": 0.6593636557239084,
      "learning_rate": 1.2207511519218672e-05,
      "loss": 3.0498,
      "step": 2031
    },
    {
      "epoch": 0.9320032106409816,
      "grad_norm": 0.6701671889499304,
      "learning_rate": 1.2044861049391676e-05,
      "loss": 3.0052,
      "step": 2032
    },
    {
      "epoch": 0.9324618736383442,
      "grad_norm": 0.6228860704924591,
      "learning_rate": 1.1883288209372512e-05,
      "loss": 2.9931,
      "step": 2033
    },
    {
      "epoch": 0.932920536635707,
      "grad_norm": 0.6677028342493895,
      "learning_rate": 1.1722793355988471e-05,
      "loss": 3.0979,
      "step": 2034
    },
    {
      "epoch": 0.9333791996330696,
      "grad_norm": 0.668031707281505,
      "learning_rate": 1.1563376843686135e-05,
      "loss": 3.0167,
      "step": 2035
    },
    {
      "epoch": 0.9338378626304323,
      "grad_norm": 0.7064416603812986,
      "learning_rate": 1.140503902453055e-05,
      "loss": 2.9599,
      "step": 2036
    },
    {
      "epoch": 0.934296525627795,
      "grad_norm": 0.781056416167012,
      "learning_rate": 1.1247780248204665e-05,
      "loss": 3.0583,
      "step": 2037
    },
    {
      "epoch": 0.9347551886251577,
      "grad_norm": 0.6283940135657622,
      "learning_rate": 1.1091600862008333e-05,
      "loss": 3.0358,
      "step": 2038
    },
    {
      "epoch": 0.9352138516225204,
      "grad_norm": 0.66591303880525,
      "learning_rate": 1.0936501210857652e-05,
      "loss": 3.0018,
      "step": 2039
    },
    {
      "epoch": 0.935672514619883,
      "grad_norm": 0.6718317414093802,
      "learning_rate": 1.0782481637284013e-05,
      "loss": 3.0725,
      "step": 2040
    },
    {
      "epoch": 0.9361311776172457,
      "grad_norm": 0.6627360515693086,
      "learning_rate": 1.0629542481433663e-05,
      "loss": 2.995,
      "step": 2041
    },
    {
      "epoch": 0.9365898406146084,
      "grad_norm": 0.6641240045049271,
      "learning_rate": 1.0477684081066751e-05,
      "loss": 3.0343,
      "step": 2042
    },
    {
      "epoch": 0.9370485036119711,
      "grad_norm": 0.7251342870960797,
      "learning_rate": 1.0326906771556566e-05,
      "loss": 3.0688,
      "step": 2043
    },
    {
      "epoch": 0.9375071666093338,
      "grad_norm": 0.6183719666984232,
      "learning_rate": 1.017721088588891e-05,
      "loss": 3.0026,
      "step": 2044
    },
    {
      "epoch": 0.9379658296066965,
      "grad_norm": 0.6548808393293211,
      "learning_rate": 1.0028596754661334e-05,
      "loss": 2.9287,
      "step": 2045
    },
    {
      "epoch": 0.9384244926040591,
      "grad_norm": 0.6372753403765333,
      "learning_rate": 9.881064706082298e-06,
      "loss": 2.9675,
      "step": 2046
    },
    {
      "epoch": 0.9388831556014219,
      "grad_norm": 0.6672537251382099,
      "learning_rate": 9.734615065970454e-06,
      "loss": 2.9491,
      "step": 2047
    },
    {
      "epoch": 0.9393418185987845,
      "grad_norm": 0.6574976543257727,
      "learning_rate": 9.58924815775425e-06,
      "loss": 3.0625,
      "step": 2048
    },
    {
      "epoch": 0.9398004815961473,
      "grad_norm": 0.6745606663247444,
      "learning_rate": 9.444964302470715e-06,
      "loss": 3.0213,
      "step": 2049
    },
    {
      "epoch": 0.9402591445935099,
      "grad_norm": 0.6454352353206572,
      "learning_rate": 9.301763818765018e-06,
      "loss": 2.9619,
      "step": 2050
    },
    {
      "epoch": 0.9407178075908726,
      "grad_norm": 0.7143148993203249,
      "learning_rate": 9.15964702288996e-06,
      "loss": 3.0243,
      "step": 2051
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.6475354923009055,
      "learning_rate": 9.018614228704925e-06,
      "loss": 2.9297,
      "step": 2052
    },
    {
      "epoch": 0.941635133585598,
      "grad_norm": 0.6462506829383183,
      "learning_rate": 8.878665747675152e-06,
      "loss": 2.951,
      "step": 2053
    },
    {
      "epoch": 0.9420937965829607,
      "grad_norm": 0.652360979824706,
      "learning_rate": 8.739801888871469e-06,
      "loss": 2.9766,
      "step": 2054
    },
    {
      "epoch": 0.9425524595803234,
      "grad_norm": 0.6632067406564507,
      "learning_rate": 8.602022958969336e-06,
      "loss": 3.0294,
      "step": 2055
    },
    {
      "epoch": 0.943011122577686,
      "grad_norm": 0.636830535504264,
      "learning_rate": 8.465329262248078e-06,
      "loss": 2.9394,
      "step": 2056
    },
    {
      "epoch": 0.9434697855750487,
      "grad_norm": 0.6543699209881721,
      "learning_rate": 8.32972110059027e-06,
      "loss": 2.9787,
      "step": 2057
    },
    {
      "epoch": 0.9439284485724114,
      "grad_norm": 0.6645384768708683,
      "learning_rate": 8.195198773481406e-06,
      "loss": 3.0446,
      "step": 2058
    },
    {
      "epoch": 0.9443871115697741,
      "grad_norm": 0.6651217891938328,
      "learning_rate": 8.061762578008613e-06,
      "loss": 3.0297,
      "step": 2059
    },
    {
      "epoch": 0.9448457745671368,
      "grad_norm": 0.639059832131877,
      "learning_rate": 7.929412808860559e-06,
      "loss": 3.0046,
      "step": 2060
    },
    {
      "epoch": 0.9453044375644994,
      "grad_norm": 0.6613215022009621,
      "learning_rate": 7.79814975832649e-06,
      "loss": 3.089,
      "step": 2061
    },
    {
      "epoch": 0.9457631005618622,
      "grad_norm": 0.7195805913788961,
      "learning_rate": 7.667973716295851e-06,
      "loss": 3.0107,
      "step": 2062
    },
    {
      "epoch": 0.9462217635592248,
      "grad_norm": 0.6379684334793645,
      "learning_rate": 7.5388849702571205e-06,
      "loss": 2.996,
      "step": 2063
    },
    {
      "epoch": 0.9466804265565876,
      "grad_norm": 0.6671064259279911,
      "learning_rate": 7.4108838052979185e-06,
      "loss": 2.9657,
      "step": 2064
    },
    {
      "epoch": 0.9471390895539502,
      "grad_norm": 0.6547997506047407,
      "learning_rate": 7.283970504103732e-06,
      "loss": 2.9352,
      "step": 2065
    },
    {
      "epoch": 0.947597752551313,
      "grad_norm": 0.679866126525491,
      "learning_rate": 7.1581453469575785e-06,
      "loss": 2.9174,
      "step": 2066
    },
    {
      "epoch": 0.9480564155486756,
      "grad_norm": 0.6198315787880179,
      "learning_rate": 7.033408611739456e-06,
      "loss": 2.9768,
      "step": 2067
    },
    {
      "epoch": 0.9485150785460383,
      "grad_norm": 0.672208661822221,
      "learning_rate": 6.909760573925561e-06,
      "loss": 3.0509,
      "step": 2068
    },
    {
      "epoch": 0.948973741543401,
      "grad_norm": 0.636133182207471,
      "learning_rate": 6.787201506587626e-06,
      "loss": 2.97,
      "step": 2069
    },
    {
      "epoch": 0.9494324045407637,
      "grad_norm": 0.6395085186026888,
      "learning_rate": 6.66573168039264e-06,
      "loss": 3.0715,
      "step": 2070
    },
    {
      "epoch": 0.9498910675381264,
      "grad_norm": 0.6358907238814737,
      "learning_rate": 6.545351363601959e-06,
      "loss": 3.1011,
      "step": 2071
    },
    {
      "epoch": 0.9503497305354891,
      "grad_norm": 0.6763232025309436,
      "learning_rate": 6.426060822070812e-06,
      "loss": 2.9689,
      "step": 2072
    },
    {
      "epoch": 0.9508083935328517,
      "grad_norm": 0.6140676389194715,
      "learning_rate": 6.3078603192475716e-06,
      "loss": 3.0922,
      "step": 2073
    },
    {
      "epoch": 0.9512670565302144,
      "grad_norm": 0.7099158606083168,
      "learning_rate": 6.1907501161735934e-06,
      "loss": 3.0642,
      "step": 2074
    },
    {
      "epoch": 0.9517257195275771,
      "grad_norm": 0.6989205117133516,
      "learning_rate": 6.074730471482049e-06,
      "loss": 2.968,
      "step": 2075
    },
    {
      "epoch": 0.9521843825249398,
      "grad_norm": 0.7351567289509215,
      "learning_rate": 5.959801641397755e-06,
      "loss": 2.9545,
      "step": 2076
    },
    {
      "epoch": 0.9526430455223025,
      "grad_norm": 0.6829067300550644,
      "learning_rate": 5.845963879736627e-06,
      "loss": 2.8896,
      "step": 2077
    },
    {
      "epoch": 0.9531017085196651,
      "grad_norm": 0.6442101518192227,
      "learning_rate": 5.733217437904892e-06,
      "loss": 2.9821,
      "step": 2078
    },
    {
      "epoch": 0.9535603715170279,
      "grad_norm": 0.6481467641762563,
      "learning_rate": 5.621562564898597e-06,
      "loss": 3.0258,
      "step": 2079
    },
    {
      "epoch": 0.9540190345143905,
      "grad_norm": 0.6458352030101566,
      "learning_rate": 5.51099950730316e-06,
      "loss": 2.971,
      "step": 2080
    },
    {
      "epoch": 0.9544776975117533,
      "grad_norm": 0.6528317853054818,
      "learning_rate": 5.401528509292763e-06,
      "loss": 3.1204,
      "step": 2081
    },
    {
      "epoch": 0.9549363605091159,
      "grad_norm": 0.6656958391044329,
      "learning_rate": 5.2931498126298495e-06,
      "loss": 3.0563,
      "step": 2082
    },
    {
      "epoch": 0.9553950235064786,
      "grad_norm": 0.6158060691174717,
      "learning_rate": 5.1858636566645135e-06,
      "loss": 2.9927,
      "step": 2083
    },
    {
      "epoch": 0.9558536865038413,
      "grad_norm": 0.7147522526813133,
      "learning_rate": 5.0796702783340035e-06,
      "loss": 2.9146,
      "step": 2084
    },
    {
      "epoch": 0.956312349501204,
      "grad_norm": 0.6612603335359275,
      "learning_rate": 4.97456991216233e-06,
      "loss": 2.9045,
      "step": 2085
    },
    {
      "epoch": 0.9567710124985667,
      "grad_norm": 0.7302127781293464,
      "learning_rate": 4.870562790259325e-06,
      "loss": 3.0759,
      "step": 2086
    },
    {
      "epoch": 0.9572296754959294,
      "grad_norm": 0.706103832280798,
      "learning_rate": 4.7676491423208625e-06,
      "loss": 2.9129,
      "step": 2087
    },
    {
      "epoch": 0.957688338493292,
      "grad_norm": 0.6409858255138046,
      "learning_rate": 4.66582919562758e-06,
      "loss": 2.9862,
      "step": 2088
    },
    {
      "epoch": 0.9581470014906548,
      "grad_norm": 0.6522364878207066,
      "learning_rate": 4.5651031750448825e-06,
      "loss": 3.1085,
      "step": 2089
    },
    {
      "epoch": 0.9586056644880174,
      "grad_norm": 0.7222429908526272,
      "learning_rate": 4.465471303022217e-06,
      "loss": 2.9558,
      "step": 2090
    },
    {
      "epoch": 0.9590643274853801,
      "grad_norm": 0.6398155689062567,
      "learning_rate": 4.366933799592743e-06,
      "loss": 3.0506,
      "step": 2091
    },
    {
      "epoch": 0.9595229904827428,
      "grad_norm": 0.6844171434834567,
      "learning_rate": 4.269490882372551e-06,
      "loss": 3.023,
      "step": 2092
    },
    {
      "epoch": 0.9599816534801054,
      "grad_norm": 0.6286090173726981,
      "learning_rate": 4.1731427665606115e-06,
      "loss": 3.0047,
      "step": 2093
    },
    {
      "epoch": 0.9604403164774682,
      "grad_norm": 0.6541143141687955,
      "learning_rate": 4.077889664937884e-06,
      "loss": 2.9951,
      "step": 2094
    },
    {
      "epoch": 0.9608989794748308,
      "grad_norm": 0.7004923361384203,
      "learning_rate": 3.983731787867207e-06,
      "loss": 2.8889,
      "step": 2095
    },
    {
      "epoch": 0.9613576424721936,
      "grad_norm": 0.7014231028624667,
      "learning_rate": 3.890669343292464e-06,
      "loss": 3.0489,
      "step": 2096
    },
    {
      "epoch": 0.9618163054695562,
      "grad_norm": 0.6670855491529468,
      "learning_rate": 3.7987025367384743e-06,
      "loss": 3.0283,
      "step": 2097
    },
    {
      "epoch": 0.962274968466919,
      "grad_norm": 0.6749446013808336,
      "learning_rate": 3.707831571310327e-06,
      "loss": 3.0553,
      "step": 2098
    },
    {
      "epoch": 0.9627336314642816,
      "grad_norm": 0.6425699720587995,
      "learning_rate": 3.6180566476929912e-06,
      "loss": 2.9922,
      "step": 2099
    },
    {
      "epoch": 0.9631922944616443,
      "grad_norm": 0.6211307096366416,
      "learning_rate": 3.529377964150815e-06,
      "loss": 2.9882,
      "step": 2100
    },
    {
      "epoch": 0.963650957459007,
      "grad_norm": 0.676723318427042,
      "learning_rate": 3.441795716527307e-06,
      "loss": 3.0588,
      "step": 2101
    },
    {
      "epoch": 0.9641096204563697,
      "grad_norm": 0.7085555241270474,
      "learning_rate": 3.355310098244302e-06,
      "loss": 3.0265,
      "step": 2102
    },
    {
      "epoch": 0.9645682834537324,
      "grad_norm": 0.6906240180637688,
      "learning_rate": 3.269921300301959e-06,
      "loss": 2.9445,
      "step": 2103
    },
    {
      "epoch": 0.9650269464510951,
      "grad_norm": 0.679926784098148,
      "learning_rate": 3.1856295112780988e-06,
      "loss": 3.0283,
      "step": 2104
    },
    {
      "epoch": 0.9654856094484577,
      "grad_norm": 0.674780531878602,
      "learning_rate": 3.102434917327812e-06,
      "loss": 3.0817,
      "step": 2105
    },
    {
      "epoch": 0.9659442724458205,
      "grad_norm": 0.6388829710208815,
      "learning_rate": 3.0203377021831292e-06,
      "loss": 3.1262,
      "step": 2106
    },
    {
      "epoch": 0.9664029354431831,
      "grad_norm": 0.6682571894377225,
      "learning_rate": 2.939338047152573e-06,
      "loss": 2.8926,
      "step": 2107
    },
    {
      "epoch": 0.9668615984405458,
      "grad_norm": 0.6524375952233289,
      "learning_rate": 2.8594361311206073e-06,
      "loss": 2.922,
      "step": 2108
    },
    {
      "epoch": 0.9673202614379085,
      "grad_norm": 0.6413485791624883,
      "learning_rate": 2.7806321305475225e-06,
      "loss": 3.0175,
      "step": 2109
    },
    {
      "epoch": 0.9677789244352711,
      "grad_norm": 0.6362588380121106,
      "learning_rate": 2.7029262194688818e-06,
      "loss": 2.9087,
      "step": 2110
    },
    {
      "epoch": 0.9682375874326339,
      "grad_norm": 0.659729181632484,
      "learning_rate": 2.626318569495134e-06,
      "loss": 3.0134,
      "step": 2111
    },
    {
      "epoch": 0.9686962504299965,
      "grad_norm": 0.666193672943161,
      "learning_rate": 2.550809349811334e-06,
      "loss": 2.9686,
      "step": 2112
    },
    {
      "epoch": 0.9691549134273593,
      "grad_norm": 0.6593853054601952,
      "learning_rate": 2.476398727176532e-06,
      "loss": 3.0315,
      "step": 2113
    },
    {
      "epoch": 0.9696135764247219,
      "grad_norm": 0.6844051631628532,
      "learning_rate": 2.4030868659237204e-06,
      "loss": 3.0778,
      "step": 2114
    },
    {
      "epoch": 0.9700722394220846,
      "grad_norm": 0.6361429051195407,
      "learning_rate": 2.3308739279593317e-06,
      "loss": 3.0332,
      "step": 2115
    },
    {
      "epoch": 0.9705309024194473,
      "grad_norm": 0.6965737919643721,
      "learning_rate": 2.2597600727626845e-06,
      "loss": 2.9404,
      "step": 2116
    },
    {
      "epoch": 0.97098956541681,
      "grad_norm": 0.6663672219301654,
      "learning_rate": 2.1897454573860387e-06,
      "loss": 3.0101,
      "step": 2117
    },
    {
      "epoch": 0.9714482284141727,
      "grad_norm": 0.648773760079353,
      "learning_rate": 2.1208302364538746e-06,
      "loss": 2.9145,
      "step": 2118
    },
    {
      "epoch": 0.9719068914115354,
      "grad_norm": 0.6305916681999383,
      "learning_rate": 2.0530145621627804e-06,
      "loss": 2.9965,
      "step": 2119
    },
    {
      "epoch": 0.972365554408898,
      "grad_norm": 0.6401629976484051,
      "learning_rate": 1.9862985842810653e-06,
      "loss": 2.9846,
      "step": 2120
    },
    {
      "epoch": 0.9728242174062608,
      "grad_norm": 0.6922148022115461,
      "learning_rate": 1.920682450148259e-06,
      "loss": 3.047,
      "step": 2121
    },
    {
      "epoch": 0.9732828804036234,
      "grad_norm": 0.6633352231532863,
      "learning_rate": 1.856166304675111e-06,
      "loss": 3.1078,
      "step": 2122
    },
    {
      "epoch": 0.9737415434009862,
      "grad_norm": 0.6600909221870369,
      "learning_rate": 1.792750290342926e-06,
      "loss": 3.0404,
      "step": 2123
    },
    {
      "epoch": 0.9742002063983488,
      "grad_norm": 0.6569517916232296,
      "learning_rate": 1.7304345472035632e-06,
      "loss": 3.0082,
      "step": 2124
    },
    {
      "epoch": 0.9746588693957114,
      "grad_norm": 0.6301168595636366,
      "learning_rate": 1.6692192128788253e-06,
      "loss": 3.0293,
      "step": 2125
    },
    {
      "epoch": 0.9751175323930742,
      "grad_norm": 0.6767929643943976,
      "learning_rate": 1.6091044225604035e-06,
      "loss": 3.0093,
      "step": 2126
    },
    {
      "epoch": 0.9755761953904368,
      "grad_norm": 0.6585036709156726,
      "learning_rate": 1.5500903090094888e-06,
      "loss": 2.962,
      "step": 2127
    },
    {
      "epoch": 0.9760348583877996,
      "grad_norm": 0.6567213689220283,
      "learning_rate": 1.492177002556383e-06,
      "loss": 2.9619,
      "step": 2128
    },
    {
      "epoch": 0.9764935213851622,
      "grad_norm": 0.6630132338000835,
      "learning_rate": 1.4353646311004443e-06,
      "loss": 2.9368,
      "step": 2129
    },
    {
      "epoch": 0.976952184382525,
      "grad_norm": 0.6879712574198182,
      "learning_rate": 1.3796533201094752e-06,
      "loss": 2.9274,
      "step": 2130
    },
    {
      "epoch": 0.9774108473798876,
      "grad_norm": 0.7259260821572484,
      "learning_rate": 1.3250431926197793e-06,
      "loss": 3.0718,
      "step": 2131
    },
    {
      "epoch": 0.9778695103772503,
      "grad_norm": 0.6474234623907312,
      "learning_rate": 1.2715343692356607e-06,
      "loss": 3.0791,
      "step": 2132
    },
    {
      "epoch": 0.978328173374613,
      "grad_norm": 0.6286708590822713,
      "learning_rate": 1.2191269681292582e-06,
      "loss": 3.0371,
      "step": 2133
    },
    {
      "epoch": 0.9787868363719757,
      "grad_norm": 0.6581616732822797,
      "learning_rate": 1.1678211050402676e-06,
      "loss": 3.09,
      "step": 2134
    },
    {
      "epoch": 0.9792454993693384,
      "grad_norm": 0.6586382910206913,
      "learning_rate": 1.117616893275719e-06,
      "loss": 3.061,
      "step": 2135
    },
    {
      "epoch": 0.9797041623667011,
      "grad_norm": 0.647802406376668,
      "learning_rate": 1.068514443709534e-06,
      "loss": 2.9446,
      "step": 2136
    },
    {
      "epoch": 0.9801628253640637,
      "grad_norm": 0.6683146252770575,
      "learning_rate": 1.0205138647826905e-06,
      "loss": 2.9965,
      "step": 2137
    },
    {
      "epoch": 0.9806214883614265,
      "grad_norm": 0.6737776339389759,
      "learning_rate": 9.73615262502503e-07,
      "loss": 3.0999,
      "step": 2138
    },
    {
      "epoch": 0.9810801513587891,
      "grad_norm": 0.6577313314562322,
      "learning_rate": 9.278187404426763e-07,
      "loss": 3.0087,
      "step": 2139
    },
    {
      "epoch": 0.9815388143561519,
      "grad_norm": 0.6587545993413763,
      "learning_rate": 8.831243997431404e-07,
      "loss": 3.1016,
      "step": 2140
    },
    {
      "epoch": 0.9819974773535145,
      "grad_norm": 0.658884561603309,
      "learning_rate": 8.395323391094944e-07,
      "loss": 3.0199,
      "step": 2141
    },
    {
      "epoch": 0.9824561403508771,
      "grad_norm": 0.6528596449492242,
      "learning_rate": 7.970426548131183e-07,
      "loss": 2.9496,
      "step": 2142
    },
    {
      "epoch": 0.9829148033482399,
      "grad_norm": 0.6612034630707344,
      "learning_rate": 7.556554406908389e-07,
      "loss": 2.8771,
      "step": 2143
    },
    {
      "epoch": 0.9833734663456025,
      "grad_norm": 0.7085048105922412,
      "learning_rate": 7.153707881446536e-07,
      "loss": 3.0834,
      "step": 2144
    },
    {
      "epoch": 0.9838321293429653,
      "grad_norm": 0.675358328113669,
      "learning_rate": 6.761887861417293e-07,
      "loss": 2.9585,
      "step": 2145
    },
    {
      "epoch": 0.9842907923403279,
      "grad_norm": 0.6577370128198776,
      "learning_rate": 6.381095212139032e-07,
      "loss": 2.8982,
      "step": 2146
    },
    {
      "epoch": 0.9847494553376906,
      "grad_norm": 0.6396080686957092,
      "learning_rate": 6.011330774577384e-07,
      "loss": 3.0529,
      "step": 2147
    },
    {
      "epoch": 0.9852081183350533,
      "grad_norm": 0.6678366477505512,
      "learning_rate": 5.652595365343016e-07,
      "loss": 2.9469,
      "step": 2148
    },
    {
      "epoch": 0.985666781332416,
      "grad_norm": 0.6832051277226656,
      "learning_rate": 5.304889776688859e-07,
      "loss": 3.0936,
      "step": 2149
    },
    {
      "epoch": 0.9861254443297787,
      "grad_norm": 0.6420101002283679,
      "learning_rate": 4.968214776508994e-07,
      "loss": 3.009,
      "step": 2150
    },
    {
      "epoch": 0.9865841073271414,
      "grad_norm": 0.6437381336254079,
      "learning_rate": 4.6425711083375454e-07,
      "loss": 2.9286,
      "step": 2151
    },
    {
      "epoch": 0.987042770324504,
      "grad_norm": 0.6608551439930688,
      "learning_rate": 4.3279594913447906e-07,
      "loss": 2.9915,
      "step": 2152
    },
    {
      "epoch": 0.9875014333218668,
      "grad_norm": 0.6689308810560283,
      "learning_rate": 4.02438062033883e-07,
      "loss": 2.893,
      "step": 2153
    },
    {
      "epoch": 0.9879600963192294,
      "grad_norm": 0.650474946548337,
      "learning_rate": 3.7318351657616987e-07,
      "loss": 2.9384,
      "step": 2154
    },
    {
      "epoch": 0.9884187593165922,
      "grad_norm": 0.6836465412355913,
      "learning_rate": 3.4503237736882573e-07,
      "loss": 3.0271,
      "step": 2155
    },
    {
      "epoch": 0.9888774223139548,
      "grad_norm": 0.6717460577579956,
      "learning_rate": 3.179847065825081e-07,
      "loss": 2.9279,
      "step": 2156
    },
    {
      "epoch": 0.9893360853113176,
      "grad_norm": 0.6463612277136448,
      "learning_rate": 2.9204056395104594e-07,
      "loss": 2.9134,
      "step": 2157
    },
    {
      "epoch": 0.9897947483086802,
      "grad_norm": 0.6615484228918488,
      "learning_rate": 2.672000067709956e-07,
      "loss": 2.9125,
      "step": 2158
    },
    {
      "epoch": 0.9902534113060428,
      "grad_norm": 0.6517416719470706,
      "learning_rate": 2.4346308990175204e-07,
      "loss": 3.0152,
      "step": 2159
    },
    {
      "epoch": 0.9907120743034056,
      "grad_norm": 0.6726003266928121,
      "learning_rate": 2.208298657653818e-07,
      "loss": 3.0218,
      "step": 2160
    },
    {
      "epoch": 0.9911707373007682,
      "grad_norm": 0.6203540286117977,
      "learning_rate": 1.9930038434645692e-07,
      "loss": 2.9419,
      "step": 2161
    },
    {
      "epoch": 0.991629400298131,
      "grad_norm": 0.647243491602095,
      "learning_rate": 1.7887469319205484e-07,
      "loss": 3.0025,
      "step": 2162
    },
    {
      "epoch": 0.9920880632954936,
      "grad_norm": 0.6304543067333892,
      "learning_rate": 1.5955283741142523e-07,
      "loss": 3.0678,
      "step": 2163
    },
    {
      "epoch": 0.9925467262928563,
      "grad_norm": 0.6573772325450864,
      "learning_rate": 1.4133485967615655e-07,
      "loss": 3.0381,
      "step": 2164
    },
    {
      "epoch": 0.993005389290219,
      "grad_norm": 0.6743840755288072,
      "learning_rate": 1.2422080021995407e-07,
      "loss": 3.0749,
      "step": 2165
    },
    {
      "epoch": 0.9934640522875817,
      "grad_norm": 0.6907896651995468,
      "learning_rate": 1.082106968385288e-07,
      "loss": 2.9352,
      "step": 2166
    },
    {
      "epoch": 0.9939227152849444,
      "grad_norm": 0.6360779117435094,
      "learning_rate": 9.330458488959748e-08,
      "loss": 3.1077,
      "step": 2167
    },
    {
      "epoch": 0.9943813782823071,
      "grad_norm": 0.6586016708197246,
      "learning_rate": 7.950249729271608e-08,
      "loss": 2.9343,
      "step": 2168
    },
    {
      "epoch": 0.9948400412796697,
      "grad_norm": 0.6557489756326084,
      "learning_rate": 6.680446452922429e-08,
      "loss": 3.0195,
      "step": 2169
    },
    {
      "epoch": 0.9952987042770325,
      "grad_norm": 0.6412774062052773,
      "learning_rate": 5.521051464230098e-08,
      "loss": 2.9793,
      "step": 2170
    },
    {
      "epoch": 0.9957573672743951,
      "grad_norm": 0.6361205929264915,
      "learning_rate": 4.4720673236631206e-08,
      "loss": 3.1288,
      "step": 2171
    },
    {
      "epoch": 0.9962160302717579,
      "grad_norm": 0.6514127359676336,
      "learning_rate": 3.53349634786837e-08,
      "loss": 2.918,
      "step": 2172
    },
    {
      "epoch": 0.9966746932691205,
      "grad_norm": 0.6232116239122191,
      "learning_rate": 2.7053406096433365e-08,
      "loss": 3.1042,
      "step": 2173
    },
    {
      "epoch": 0.9971333562664833,
      "grad_norm": 0.6858878703618153,
      "learning_rate": 1.987601937930572e-08,
      "loss": 3.0116,
      "step": 2174
    },
    {
      "epoch": 0.9975920192638459,
      "grad_norm": 0.6587222258640006,
      "learning_rate": 1.3802819178398984e-08,
      "loss": 3.0203,
      "step": 2175
    },
    {
      "epoch": 0.9980506822612085,
      "grad_norm": 0.6883595085042858,
      "learning_rate": 8.833818906039959e-09,
      "loss": 2.9218,
      "step": 2176
    },
    {
      "epoch": 0.9985093452585713,
      "grad_norm": 0.6216740383012617,
      "learning_rate": 4.969029536061598e-09,
      "loss": 2.9433,
      "step": 2177
    },
    {
      "epoch": 0.9989680082559339,
      "grad_norm": 0.7010447517841151,
      "learning_rate": 2.2084596038030037e-09,
      "loss": 2.9892,
      "step": 2178
    },
    {
      "epoch": 0.9994266712532967,
      "grad_norm": 0.6776185845626641,
      "learning_rate": 5.521152057763601e-10,
      "loss": 3.0503,
      "step": 2179
    },
    {
      "epoch": 0.9998853342506593,
      "grad_norm": 0.6838658084973492,
      "learning_rate": 0.0,
      "loss": 2.902,
      "step": 2180
    },
    {
      "epoch": 0.9998853342506593,
      "step": 2180,
      "total_flos": 233962147659776.0,
      "train_loss": 3.19626295085347,
      "train_runtime": 8325.1501,
      "train_samples_per_second": 67.041,
      "train_steps_per_second": 0.262
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 24000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 233962147659776.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}