{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 2181,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 27.25418061980136,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 6.9324,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 25.06107797761673,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 6.9468,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 22.412489154544822,
      "learning_rate": 4.545454545454546e-05,
      "loss": 6.8335,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.091217562142628,
      "learning_rate": 6.060606060606061e-05,
      "loss": 6.4099,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.45628533974049,
      "learning_rate": 7.575757575757576e-05,
      "loss": 6.0067,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.129078184574343,
      "learning_rate": 9.090909090909092e-05,
      "loss": 5.9756,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.175644688580551,
      "learning_rate": 0.00010606060606060606,
      "loss": 5.757,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 7.102837212372658,
      "learning_rate": 0.00012121212121212122,
      "loss": 5.4476,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 13.940209840261844,
      "learning_rate": 0.00013636363636363637,
      "loss": 5.3324,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 17.6612336139773,
      "learning_rate": 0.00015151515151515152,
      "loss": 5.2867,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.734555346012675,
      "learning_rate": 0.00016666666666666666,
      "loss": 5.1371,
      "step": 11
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.12360040775622,
      "learning_rate": 0.00018181818181818183,
      "loss": 5.1095,
      "step": 12
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.797924106717556,
      "learning_rate": 0.00019696969696969695,
      "loss": 5.1685,
      "step": 13
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.3054981943023365,
      "learning_rate": 0.00021212121212121213,
      "loss": 4.9237,
      "step": 14
    },
    {
      "epoch": 0.01,
      "grad_norm": 13.427722429100394,
      "learning_rate": 0.00022727272727272727,
      "loss": 4.9491,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.509052777991658,
      "learning_rate": 0.00024242424242424245,
      "loss": 4.776,
      "step": 16
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.659640262827037,
      "learning_rate": 0.00025757575757575756,
      "loss": 4.908,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.566726307159835,
      "learning_rate": 0.00027272727272727274,
      "loss": 4.8177,
      "step": 18
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.863831923008084,
      "learning_rate": 0.0002878787878787879,
      "loss": 4.7602,
      "step": 19
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.887785923373675,
      "learning_rate": 0.00030303030303030303,
      "loss": 4.6343,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.8908988495123062,
      "learning_rate": 0.0003181818181818182,
      "loss": 4.6429,
      "step": 21
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.30107982465852,
      "learning_rate": 0.0003333333333333333,
      "loss": 4.4927,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.1878482915832844,
      "learning_rate": 0.0003484848484848485,
      "loss": 4.4852,
      "step": 23
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6209892612292671,
      "learning_rate": 0.00036363636363636367,
      "loss": 4.5934,
      "step": 24
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.48803815458834,
      "learning_rate": 0.0003787878787878788,
      "loss": 4.4572,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.036165954280268,
      "learning_rate": 0.0003939393939393939,
      "loss": 4.4566,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.9064005110272444,
      "learning_rate": 0.00040909090909090913,
      "loss": 4.5677,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.356892263803719,
      "learning_rate": 0.00042424242424242425,
      "loss": 4.71,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.373925762819672,
      "learning_rate": 0.0004393939393939394,
      "loss": 4.3585,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.4858047559450378,
      "learning_rate": 0.00045454545454545455,
      "loss": 4.5787,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.4878107350775382,
      "learning_rate": 0.0004696969696969697,
      "loss": 4.442,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3593662370798811,
      "learning_rate": 0.0004848484848484849,
      "loss": 4.4678,
      "step": 32
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.3984033958921955,
      "learning_rate": 0.0005,
      "loss": 4.3809,
      "step": 33
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.9284761578247347,
      "learning_rate": 0.0005151515151515151,
      "loss": 4.4357,
      "step": 34
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0891505052071728,
      "learning_rate": 0.0005303030303030302,
      "loss": 4.3733,
      "step": 35
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7135710337034287,
      "learning_rate": 0.0005454545454545455,
      "loss": 4.2389,
      "step": 36
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.9028892639541435,
      "learning_rate": 0.0005606060606060606,
      "loss": 4.4465,
      "step": 37
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6937596245202444,
      "learning_rate": 0.0005757575757575758,
      "loss": 4.435,
      "step": 38
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1823864808313476,
      "learning_rate": 0.0005909090909090909,
      "loss": 4.428,
      "step": 39
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.788836403134561,
      "learning_rate": 0.0006060606060606061,
      "loss": 4.4744,
      "step": 40
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.201452117528056,
      "learning_rate": 0.0006212121212121212,
      "loss": 4.2685,
      "step": 41
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1809204023701556,
      "learning_rate": 0.0006363636363636364,
      "loss": 4.3584,
      "step": 42
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1604934533689484,
      "learning_rate": 0.0006515151515151515,
      "loss": 4.2532,
      "step": 43
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.9775846274689797,
      "learning_rate": 0.0006666666666666666,
      "loss": 4.2962,
      "step": 44
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.285536379748986,
      "learning_rate": 0.0006818181818181818,
      "loss": 4.3281,
      "step": 45
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.34600449797241,
      "learning_rate": 0.000696969696969697,
      "loss": 4.3981,
      "step": 46
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6118034773758332,
      "learning_rate": 0.0007121212121212122,
      "loss": 4.3614,
      "step": 47
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.994715462066948,
      "learning_rate": 0.0007272727272727273,
      "loss": 4.2926,
      "step": 48
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.816199057714251,
      "learning_rate": 0.0007424242424242425,
      "loss": 4.3175,
      "step": 49
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2177182976729957,
      "learning_rate": 0.0007575757575757576,
      "loss": 4.3518,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0560796131417238,
      "learning_rate": 0.0007727272727272727,
      "loss": 4.3587,
      "step": 51
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9956840544045574,
      "learning_rate": 0.0007878787878787878,
      "loss": 4.2496,
      "step": 52
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3233386120857227,
      "learning_rate": 0.000803030303030303,
      "loss": 4.2293,
      "step": 53
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.0201412553232645,
      "learning_rate": 0.0008181818181818183,
      "loss": 4.3615,
      "step": 54
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6331152088082685,
      "learning_rate": 0.0008333333333333334,
      "loss": 4.3019,
      "step": 55
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9047729870779803,
      "learning_rate": 0.0008484848484848485,
      "loss": 4.4078,
      "step": 56
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9734016145471781,
      "learning_rate": 0.0008636363636363636,
      "loss": 4.171,
      "step": 57
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.04783534380154,
      "learning_rate": 0.0008787878787878789,
      "loss": 4.2737,
      "step": 58
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9695343114426056,
      "learning_rate": 0.000893939393939394,
      "loss": 4.1405,
      "step": 59
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6951903287539359,
      "learning_rate": 0.0009090909090909091,
      "loss": 4.1794,
      "step": 60
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.3214549941199927,
      "learning_rate": 0.0009242424242424242,
      "loss": 4.1954,
      "step": 61
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9420003988673595,
      "learning_rate": 0.0009393939393939394,
      "loss": 4.2588,
      "step": 62
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.679982213561416,
      "learning_rate": 0.0009545454545454546,
      "loss": 4.1122,
      "step": 63
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0215526931754213,
      "learning_rate": 0.0009696969696969698,
      "loss": 4.0661,
      "step": 64
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8634808785988068,
      "learning_rate": 0.000984848484848485,
      "loss": 4.1828,
      "step": 65
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4411764118860844,
      "learning_rate": 0.001,
      "loss": 4.0998,
      "step": 66
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2723179585196565,
      "learning_rate": 0.0009999994484067654,
      "loss": 4.1188,
      "step": 67
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.1043597707353823,
      "learning_rate": 0.0009999977936282788,
      "loss": 4.1244,
      "step": 68
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9817915503560174,
      "learning_rate": 0.0009999950356681913,
      "loss": 4.0304,
      "step": 69
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7988875524737565,
      "learning_rate": 0.0009999911745325876,
      "loss": 4.121,
      "step": 70
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.942544528212302,
      "learning_rate": 0.0009999862102299873,
      "loss": 4.0066,
      "step": 71
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1077093382773775,
      "learning_rate": 0.0009999801427713433,
      "loss": 4.0582,
      "step": 72
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1532118469139352,
      "learning_rate": 0.0009999729721700424,
      "loss": 3.9301,
      "step": 73
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9922409369634542,
      "learning_rate": 0.000999964698441906,
      "loss": 4.1038,
      "step": 74
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.844556390564166,
      "learning_rate": 0.0009999553216051892,
      "loss": 3.9826,
      "step": 75
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1133618561383598,
      "learning_rate": 0.00099994484168058,
      "loss": 4.0842,
      "step": 76
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.078436049966755,
      "learning_rate": 0.0009999332586912019,
      "loss": 4.174,
      "step": 77
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2947688454698785,
      "learning_rate": 0.0009999205726626108,
      "loss": 3.8421,
      "step": 78
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9471142207610105,
      "learning_rate": 0.000999906783622797,
      "loss": 3.9163,
      "step": 79
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1266307258548935,
      "learning_rate": 0.0009998918916021842,
      "loss": 4.0297,
      "step": 80
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8125607005268005,
      "learning_rate": 0.0009998758966336297,
      "loss": 4.0809,
      "step": 81
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7350154565409385,
      "learning_rate": 0.0009998587987524242,
      "loss": 3.9457,
      "step": 82
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1159697504347594,
      "learning_rate": 0.0009998405979962926,
      "loss": 3.9515,
      "step": 83
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9711725670442317,
      "learning_rate": 0.000999821294405392,
      "loss": 3.8974,
      "step": 84
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.9008999835592364,
      "learning_rate": 0.0009998008880223134,
      "loss": 3.9294,
      "step": 85
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.075544518233491,
      "learning_rate": 0.000999779378892081,
      "loss": 3.8154,
      "step": 86
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8419074467012906,
      "learning_rate": 0.0009997567670621522,
      "loss": 3.8821,
      "step": 87
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8596159505152742,
      "learning_rate": 0.0009997330525824165,
      "loss": 3.8249,
      "step": 88
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7097514276850831,
      "learning_rate": 0.0009997082355051976,
      "loss": 3.9018,
      "step": 89
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8400280167461674,
      "learning_rate": 0.000999682315885251,
      "loss": 3.9287,
      "step": 90
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.572468236320145,
      "learning_rate": 0.0009996552937797645,
      "loss": 3.8897,
      "step": 91
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8731888568627861,
      "learning_rate": 0.0009996271692483596,
      "loss": 3.7916,
      "step": 92
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9214569609067346,
      "learning_rate": 0.0009995979423530893,
      "loss": 3.8218,
      "step": 93
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6810211956973232,
      "learning_rate": 0.000999567613158439,
      "loss": 3.7162,
      "step": 94
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7480308995769965,
      "learning_rate": 0.0009995361817313263,
      "loss": 3.8136,
      "step": 95
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7681432011182641,
      "learning_rate": 0.0009995036481411004,
      "loss": 3.7908,
      "step": 96
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9916879818979584,
      "learning_rate": 0.0009994700124595429,
      "loss": 3.8632,
      "step": 97
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7133590540218228,
      "learning_rate": 0.0009994352747608663,
      "loss": 3.7771,
      "step": 98
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0682429165719862,
      "learning_rate": 0.0009993994351217151,
      "loss": 3.8912,
      "step": 99
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.87552872112844,
      "learning_rate": 0.000999362493621165,
      "loss": 3.8284,
      "step": 100
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8029905030472825,
      "learning_rate": 0.0009993244503407226,
      "loss": 3.8204,
      "step": 101
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8231190011844454,
      "learning_rate": 0.0009992853053643258,
      "loss": 3.7353,
      "step": 102
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8124930334026569,
      "learning_rate": 0.0009992450587783426,
      "loss": 3.7596,
      "step": 103
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8346058286596693,
      "learning_rate": 0.000999203710671572,
      "loss": 3.6314,
      "step": 104
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8413111300249805,
      "learning_rate": 0.0009991612611352438,
      "loss": 3.7839,
      "step": 105
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9421557839050209,
      "learning_rate": 0.0009991177102630173,
      "loss": 3.7284,
      "step": 106
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6395855141695401,
      "learning_rate": 0.0009990730581509817,
      "loss": 3.7115,
      "step": 107
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8065469409265555,
      "learning_rate": 0.0009990273048976566,
      "loss": 3.7035,
      "step": 108
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8591722428732174,
      "learning_rate": 0.0009989804506039905,
      "loss": 3.7359,
      "step": 109
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8191216577249071,
      "learning_rate": 0.0009989324953733614,
      "loss": 3.7153,
      "step": 110
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8721191377253802,
      "learning_rate": 0.0009988834393115766,
      "loss": 3.7048,
      "step": 111
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8321384771762248,
      "learning_rate": 0.000998833282526872,
      "loss": 3.7638,
      "step": 112
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8761676936519258,
      "learning_rate": 0.0009987820251299122,
      "loss": 3.6665,
      "step": 113
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9025031723366378,
      "learning_rate": 0.00099872966723379,
      "loss": 3.7462,
      "step": 114
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8182896206481743,
      "learning_rate": 0.0009986762089540266,
      "loss": 3.6088,
      "step": 115
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9266126527623925,
      "learning_rate": 0.0009986216504085709,
      "loss": 3.6318,
      "step": 116
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8192856624941116,
      "learning_rate": 0.0009985659917177991,
      "loss": 3.6524,
      "step": 117
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7709238638832073,
      "learning_rate": 0.0009985092330045155,
      "loss": 3.7542,
      "step": 118
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7485405096484611,
      "learning_rate": 0.0009984513743939508,
      "loss": 3.7206,
      "step": 119
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7840013214514009,
      "learning_rate": 0.0009983924160137626,
      "loss": 3.6575,
      "step": 120
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.022517160535569,
      "learning_rate": 0.000998332357994035,
      "loss": 3.7064,
      "step": 121
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8610599959207252,
      "learning_rate": 0.0009982712004672786,
      "loss": 3.7547,
      "step": 122
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7892195977522768,
      "learning_rate": 0.0009982089435684295,
      "loss": 3.6999,
      "step": 123
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.740053298857104,
      "learning_rate": 0.0009981455874348499,
      "loss": 3.6092,
      "step": 124
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7700107802888632,
      "learning_rate": 0.0009980811322063269,
      "loss": 3.628,
      "step": 125
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7961131352843049,
      "learning_rate": 0.0009980155780250728,
      "loss": 3.5976,
      "step": 126
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8549382001628636,
      "learning_rate": 0.0009979489250357243,
      "loss": 3.6225,
      "step": 127
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8490782852963471,
      "learning_rate": 0.0009978811733853431,
      "loss": 3.6275,
      "step": 128
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8673306535430608,
      "learning_rate": 0.0009978123232234147,
      "loss": 3.6528,
      "step": 129
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8152681151613268,
      "learning_rate": 0.000997742374701848,
      "loss": 3.6067,
      "step": 130
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8665834544415236,
      "learning_rate": 0.0009976713279749754,
      "loss": 3.6772,
      "step": 131
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8502230460031183,
      "learning_rate": 0.0009975991831995528,
      "loss": 3.636,
      "step": 132
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6663649205173037,
      "learning_rate": 0.0009975259405347581,
      "loss": 3.6,
      "step": 133
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7831147618406208,
      "learning_rate": 0.0009974516001421926,
      "loss": 3.5395,
      "step": 134
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7501180552169227,
      "learning_rate": 0.000997376162185878,
      "loss": 3.6073,
      "step": 135
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0583607997260835,
      "learning_rate": 0.0009972996268322594,
      "loss": 3.6468,
      "step": 136
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8277360805487379,
      "learning_rate": 0.0009972219942502017,
      "loss": 3.6288,
      "step": 137
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8180675801366009,
      "learning_rate": 0.0009971432646109918,
      "loss": 3.5221,
      "step": 138
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8212514480188801,
      "learning_rate": 0.0009970634380883365,
      "loss": 3.5897,
      "step": 139
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7154476595619186,
      "learning_rate": 0.0009969825148583627,
      "loss": 3.5191,
      "step": 140
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7298697852081835,
      "learning_rate": 0.0009969004950996173,
      "loss": 3.5872,
      "step": 141
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8630742107439774,
      "learning_rate": 0.0009968173789930668,
      "loss": 3.5905,
      "step": 142
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8246023706348641,
      "learning_rate": 0.0009967331667220958,
      "loss": 3.539,
      "step": 143
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8820775724854881,
      "learning_rate": 0.0009966478584725086,
      "loss": 3.6468,
      "step": 144
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7242405843831884,
      "learning_rate": 0.0009965614544325263,
      "loss": 3.4931,
      "step": 145
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8650119131534362,
      "learning_rate": 0.000996473954792789,
      "loss": 3.5359,
      "step": 146
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7111590951843672,
      "learning_rate": 0.0009963853597463532,
      "loss": 3.4207,
      "step": 147
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8033097735397208,
      "learning_rate": 0.000996295669488693,
      "loss": 3.6068,
      "step": 148
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8129645313910489,
      "learning_rate": 0.0009962048842176979,
      "loss": 3.5139,
      "step": 149
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7699023488793142,
      "learning_rate": 0.0009961130041336748,
      "loss": 3.5398,
      "step": 150
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7970297972961577,
      "learning_rate": 0.0009960200294393449,
      "loss": 3.3823,
      "step": 151
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7442752497108583,
      "learning_rate": 0.0009959259603398453,
      "loss": 3.5124,
      "step": 152
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7860787874636147,
      "learning_rate": 0.0009958307970427275,
      "loss": 3.5711,
      "step": 153
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8225459917626947,
      "learning_rate": 0.0009957345397579572,
      "loss": 3.4698,
      "step": 154
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7882681322386145,
      "learning_rate": 0.0009956371886979138,
      "loss": 3.5185,
      "step": 155
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7608615640495452,
      "learning_rate": 0.00099553874407739,
      "loss": 3.5703,
      "step": 156
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8312426643917121,
      "learning_rate": 0.0009954392061135916,
      "loss": 3.5125,
      "step": 157
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8317388843105208,
      "learning_rate": 0.0009953385750261364,
      "loss": 3.4485,
      "step": 158
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8653997190662069,
      "learning_rate": 0.0009952368510370538,
      "loss": 3.4878,
      "step": 159
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7846591079400399,
      "learning_rate": 0.0009951340343707852,
      "loss": 3.4646,
      "step": 160
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7363872255479877,
      "learning_rate": 0.0009950301252541823,
      "loss": 3.4316,
      "step": 161
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7582973740000023,
      "learning_rate": 0.0009949251239165075,
      "loss": 3.4372,
      "step": 162
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8143713211158347,
      "learning_rate": 0.000994819030589433,
      "loss": 3.3235,
      "step": 163
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8565997719237195,
      "learning_rate": 0.00099471184550704,
      "loss": 3.3724,
      "step": 164
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8134919196251175,
      "learning_rate": 0.0009946035689058189,
      "loss": 3.3886,
      "step": 165
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7628579221812775,
      "learning_rate": 0.0009944942010246681,
      "loss": 3.423,
      "step": 166
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7436206246822563,
      "learning_rate": 0.0009943837421048942,
      "loss": 3.4687,
      "step": 167
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7638446916733588,
      "learning_rate": 0.0009942721923902106,
      "loss": 3.4131,
      "step": 168
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7202066402674219,
      "learning_rate": 0.0009941595521267377,
      "loss": 3.5017,
      "step": 169
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8015205292193962,
      "learning_rate": 0.0009940458215630017,
      "loss": 3.358,
      "step": 170
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8031796665841471,
      "learning_rate": 0.0009939310009499348,
      "loss": 3.3753,
      "step": 171
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.763175097723978,
      "learning_rate": 0.000993815090540874,
      "loss": 3.409,
      "step": 172
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7411213194585495,
      "learning_rate": 0.000993698090591561,
      "loss": 3.4118,
      "step": 173
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7977475527455178,
      "learning_rate": 0.0009935800013601416,
      "loss": 3.3067,
      "step": 174
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7622957495047376,
      "learning_rate": 0.000993460823107164,
      "loss": 3.4444,
      "step": 175
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7708047477491731,
      "learning_rate": 0.0009933405560955803,
      "loss": 3.3772,
      "step": 176
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8164773274861827,
      "learning_rate": 0.0009932192005907446,
      "loss": 3.3692,
      "step": 177
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7339300920344815,
      "learning_rate": 0.0009930967568604118,
      "loss": 3.3572,
      "step": 178
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8806655876856871,
      "learning_rate": 0.000992973225174739,
      "loss": 3.4002,
      "step": 179
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7935952425759498,
      "learning_rate": 0.0009928486058062827,
      "loss": 3.3552,
      "step": 180
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8359390927426354,
      "learning_rate": 0.0009927228990299999,
      "loss": 3.3431,
      "step": 181
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7571687026957618,
      "learning_rate": 0.0009925961051232468,
      "loss": 3.4011,
      "step": 182
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8070260673750724,
      "learning_rate": 0.000992468224365778,
      "loss": 3.4625,
      "step": 183
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8096392437016644,
      "learning_rate": 0.000992339257039746,
      "loss": 3.3654,
      "step": 184
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.823611269808183,
      "learning_rate": 0.0009922092034297006,
      "loss": 3.3631,
      "step": 185
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9127680481329633,
      "learning_rate": 0.0009920780638225891,
      "loss": 3.2392,
      "step": 186
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8605929543636784,
      "learning_rate": 0.0009919458385077538,
      "loss": 3.3779,
      "step": 187
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8205858797520125,
      "learning_rate": 0.0009918125277769336,
      "loss": 3.3023,
      "step": 188
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8491009583214255,
      "learning_rate": 0.0009916781319242614,
      "loss": 3.475,
      "step": 189
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8292727032939875,
      "learning_rate": 0.0009915426512462646,
      "loss": 3.3082,
      "step": 190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8053070923691996,
      "learning_rate": 0.0009914060860418644,
      "loss": 3.2681,
      "step": 191
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8485864534314711,
      "learning_rate": 0.000991268436612374,
      "loss": 3.2408,
      "step": 192
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.848808749497239,
      "learning_rate": 0.0009911297032614997,
      "loss": 3.3026,
      "step": 193
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8244384478120382,
      "learning_rate": 0.000990989886295339,
      "loss": 3.4356,
      "step": 194
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8550476949031862,
      "learning_rate": 0.0009908489860223804,
      "loss": 3.3417,
      "step": 195
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8673566797804122,
      "learning_rate": 0.000990707002753502,
      "loss": 3.3229,
      "step": 196
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8467398727958831,
      "learning_rate": 0.0009905639368019724,
      "loss": 3.2411,
      "step": 197
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8283993913754418,
      "learning_rate": 0.0009904197884834482,
      "loss": 3.2414,
      "step": 198
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9085064278870816,
      "learning_rate": 0.0009902745581159742,
      "loss": 3.26,
      "step": 199
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.976541908053258,
      "learning_rate": 0.0009901282460199829,
      "loss": 3.3247,
      "step": 200
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8626965271498034,
      "learning_rate": 0.0009899808525182935,
      "loss": 3.3272,
      "step": 201
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8501655879859812,
      "learning_rate": 0.0009898323779361107,
      "loss": 3.2657,
      "step": 202
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8448788261367622,
      "learning_rate": 0.000989682822601025,
      "loss": 3.2815,
      "step": 203
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9592423275570708,
      "learning_rate": 0.0009895321868430113,
      "loss": 3.174,
      "step": 204
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9731507070721693,
      "learning_rate": 0.0009893804709944281,
      "loss": 3.3446,
      "step": 205
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8707886501932849,
      "learning_rate": 0.0009892276753900174,
      "loss": 3.2442,
      "step": 206
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9250172272500942,
      "learning_rate": 0.0009890738003669028,
      "loss": 3.2431,
      "step": 207
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9207492331187418,
      "learning_rate": 0.0009889188462645904,
      "loss": 3.2706,
      "step": 208
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9380598378543981,
      "learning_rate": 0.0009887628134249667,
      "loss": 3.1841,
      "step": 209
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.880913291659186,
      "learning_rate": 0.0009886057021922983,
      "loss": 3.2809,
      "step": 210
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7812959190717477,
      "learning_rate": 0.0009884475129132311,
      "loss": 3.2439,
      "step": 211
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9517264351358456,
      "learning_rate": 0.0009882882459367897,
      "loss": 3.2338,
      "step": 212
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8181082837840105,
      "learning_rate": 0.0009881279016143766,
      "loss": 3.2417,
      "step": 213
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9133481687911347,
      "learning_rate": 0.0009879664802997707,
      "loss": 3.2358,
      "step": 214
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9800332644274791,
      "learning_rate": 0.000987803982349128,
      "loss": 3.278,
      "step": 215
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9192393278092459,
      "learning_rate": 0.0009876404081209796,
      "loss": 3.2894,
      "step": 216
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8313798646681891,
      "learning_rate": 0.000987475757976231,
      "loss": 3.1735,
      "step": 217
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8604964604402353,
      "learning_rate": 0.000987310032278162,
      "loss": 3.281,
      "step": 218
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9216174898614408,
      "learning_rate": 0.0009871432313924254,
      "loss": 3.3263,
      "step": 219
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.870508880528554,
      "learning_rate": 0.000986975355687046,
      "loss": 3.2546,
      "step": 220
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.076820762972361,
      "learning_rate": 0.0009868064055324204,
      "loss": 3.2449,
      "step": 221
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8896174545880525,
      "learning_rate": 0.0009866363813013153,
      "loss": 3.2187,
      "step": 222
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9836406023504746,
      "learning_rate": 0.0009864652833688676,
      "loss": 3.2528,
      "step": 223
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8772010261986216,
      "learning_rate": 0.0009862931121125836,
      "loss": 3.2552,
      "step": 224
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.803673565017186,
      "learning_rate": 0.000986119867912337,
      "loss": 3.1203,
      "step": 225
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8215247614506712,
      "learning_rate": 0.000985945551150369,
      "loss": 3.1391,
      "step": 226
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9219588534359795,
      "learning_rate": 0.0009857701622112876,
      "loss": 3.3058,
      "step": 227
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8688962382930965,
      "learning_rate": 0.000985593701482066,
      "loss": 3.2253,
      "step": 228
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.82394815306517,
      "learning_rate": 0.0009854161693520424,
      "loss": 3.2412,
      "step": 229
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7976343346385849,
      "learning_rate": 0.0009852375662129194,
      "loss": 3.1704,
      "step": 230
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9008843846045782,
      "learning_rate": 0.0009850578924587613,
      "loss": 3.288,
      "step": 231
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8470976645812418,
      "learning_rate": 0.000984877148485996,
      "loss": 3.1658,
      "step": 232
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9185951487914747,
      "learning_rate": 0.000984695334693412,
      "loss": 3.1692,
      "step": 233
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8557027977897207,
      "learning_rate": 0.000984512451482158,
      "loss": 3.2372,
      "step": 234
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8042558259948798,
      "learning_rate": 0.0009843284992557431,
      "loss": 3.1338,
      "step": 235
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8748523470921408,
      "learning_rate": 0.000984143478420034,
      "loss": 3.1552,
      "step": 236
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7657801282258068,
      "learning_rate": 0.0009839573893832563,
      "loss": 3.1936,
      "step": 237
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7539179040335949,
      "learning_rate": 0.000983770232555991,
      "loss": 3.173,
      "step": 238
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0121751049456098,
      "learning_rate": 0.0009835820083511765,
      "loss": 3.1717,
      "step": 239
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8683450976831973,
      "learning_rate": 0.0009833927171841055,
      "loss": 3.1094,
      "step": 240
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9227766948404562,
      "learning_rate": 0.0009832023594724246,
      "loss": 3.0984,
      "step": 241
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9017922226918064,
      "learning_rate": 0.0009830109356361344,
      "loss": 3.2145,
      "step": 242
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8074389867211043,
      "learning_rate": 0.0009828184460975867,
      "loss": 3.1879,
      "step": 243
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9699790670614145,
      "learning_rate": 0.0009826248912814855,
      "loss": 3.129,
      "step": 244
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7788938097994266,
      "learning_rate": 0.0009824302716148847,
      "loss": 3.2386,
      "step": 245
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7968503063642219,
      "learning_rate": 0.0009822345875271884,
      "loss": 3.1046,
      "step": 246
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8744480222746384,
      "learning_rate": 0.0009820378394501481,
      "loss": 3.268,
      "step": 247
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7887421821947679,
      "learning_rate": 0.0009818400278178636,
      "loss": 3.1464,
      "step": 248
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8868707670931841,
      "learning_rate": 0.0009816411530667814,
      "loss": 3.2087,
      "step": 249
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7385727209308872,
      "learning_rate": 0.000981441215635693,
      "loss": 3.0774,
      "step": 250
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8552032929376603,
      "learning_rate": 0.0009812402159657353,
      "loss": 3.0846,
      "step": 251
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7510404866134811,
      "learning_rate": 0.000981038154500388,
      "loss": 3.0558,
      "step": 252
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7990153092830867,
      "learning_rate": 0.0009808350316854746,
      "loss": 3.063,
      "step": 253
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8339526044993663,
      "learning_rate": 0.0009806308479691594,
      "loss": 3.048,
      "step": 254
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8536945275593776,
      "learning_rate": 0.0009804256038019482,
      "loss": 3.1768,
      "step": 255
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7602620371103112,
      "learning_rate": 0.0009802192996366857,
      "loss": 3.1373,
      "step": 256
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8324086991666675,
      "learning_rate": 0.0009800119359285563,
      "loss": 3.149,
      "step": 257
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8590883747785334,
      "learning_rate": 0.0009798035131350813,
      "loss": 3.1405,
      "step": 258
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8049124858267558,
      "learning_rate": 0.0009795940317161194,
      "loss": 3.1328,
      "step": 259
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8816772635852559,
      "learning_rate": 0.0009793834921338646,
      "loss": 3.0292,
      "step": 260
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9032069594557421,
      "learning_rate": 0.0009791718948528457,
      "loss": 3.1947,
      "step": 261
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8674874335898389,
      "learning_rate": 0.0009789592403399252,
      "loss": 3.1481,
      "step": 262
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8389274550745486,
      "learning_rate": 0.0009787455290642985,
      "loss": 3.1702,
      "step": 263
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7775890047173999,
      "learning_rate": 0.000978530761497492,
      "loss": 3.2067,
      "step": 264
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9625182844661632,
      "learning_rate": 0.0009783149381133633,
      "loss": 3.1666,
      "step": 265
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7616466844166859,
      "learning_rate": 0.0009780980593880992,
      "loss": 3.1391,
      "step": 266
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8537994150325409,
      "learning_rate": 0.0009778801258002153,
      "loss": 3.1637,
      "step": 267
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7809332696123402,
      "learning_rate": 0.000977661137830554,
      "loss": 3.1582,
      "step": 268
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8822589205455351,
      "learning_rate": 0.0009774410959622845,
      "loss": 3.0975,
      "step": 269
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9542443368441633,
      "learning_rate": 0.000977220000680901,
      "loss": 3.0081,
      "step": 270
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.843158110994416,
      "learning_rate": 0.000976997852474223,
      "loss": 3.0191,
      "step": 271
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8825494818499465,
      "learning_rate": 0.0009767746518323914,
      "loss": 3.1227,
      "step": 272
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8411736519102609,
      "learning_rate": 0.0009765503992478704,
      "loss": 3.1148,
      "step": 273
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.789776136125465,
      "learning_rate": 0.0009763250952154449,
      "loss": 3.1438,
      "step": 274
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7355754974019576,
      "learning_rate": 0.0009760987402322195,
      "loss": 3.0378,
      "step": 275
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7664128168347535,
      "learning_rate": 0.0009758713347976178,
      "loss": 3.0797,
      "step": 276
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7587678450960446,
      "learning_rate": 0.000975642879413381,
      "loss": 3.1745,
      "step": 277
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8305742928159127,
      "learning_rate": 0.0009754133745835665,
      "loss": 3.1677,
      "step": 278
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8470153321642685,
      "learning_rate": 0.0009751828208145482,
      "loss": 3.0662,
      "step": 279
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8885360038786294,
      "learning_rate": 0.0009749512186150131,
      "loss": 3.1283,
      "step": 280
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7619457033653811,
      "learning_rate": 0.0009747185684959625,
      "loss": 3.0589,
      "step": 281
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7796453331055505,
      "learning_rate": 0.000974484870970709,
      "loss": 3.1084,
      "step": 282
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8042073661902421,
      "learning_rate": 0.0009742501265548767,
      "loss": 3.0401,
      "step": 283
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8415127225265054,
      "learning_rate": 0.0009740143357663993,
      "loss": 3.1034,
      "step": 284
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7540247002033804,
      "learning_rate": 0.000973777499125519,
      "loss": 3.0358,
      "step": 285
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7866853813068256,
      "learning_rate": 0.0009735396171547859,
      "loss": 3.1107,
      "step": 286
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8163606791989854,
      "learning_rate": 0.0009733006903790564,
      "loss": 3.1442,
      "step": 287
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8713574843375903,
      "learning_rate": 0.0009730607193254922,
      "loss": 3.1654,
      "step": 288
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9074006537226015,
      "learning_rate": 0.0009728197045235585,
      "loss": 3.0353,
      "step": 289
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8131047686988839,
      "learning_rate": 0.0009725776465050242,
      "loss": 3.0578,
      "step": 290
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7682952562149132,
      "learning_rate": 0.0009723345458039594,
      "loss": 3.0432,
      "step": 291
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7931294463523139,
      "learning_rate": 0.000972090402956735,
      "loss": 3.0397,
      "step": 292
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8068763875416832,
      "learning_rate": 0.0009718452185020212,
      "loss": 3.0134,
      "step": 293
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8263368363674933,
      "learning_rate": 0.0009715989929807862,
      "loss": 3.0834,
      "step": 294
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7706354505354844,
      "learning_rate": 0.0009713517269362955,
      "loss": 3.0744,
      "step": 295
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8456808867480254,
      "learning_rate": 0.0009711034209141101,
      "loss": 2.9927,
      "step": 296
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7320071777659394,
      "learning_rate": 0.0009708540754620856,
      "loss": 3.0411,
      "step": 297
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8297819476074642,
      "learning_rate": 0.0009706036911303713,
      "loss": 3.1677,
      "step": 298
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.768032596525196,
      "learning_rate": 0.0009703522684714083,
      "loss": 3.0958,
      "step": 299
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8233413302370477,
      "learning_rate": 0.0009700998080399286,
      "loss": 3.0334,
      "step": 300
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7920808419417137,
      "learning_rate": 0.0009698463103929542,
      "loss": 3.0392,
      "step": 301
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7857255127934325,
      "learning_rate": 0.0009695917760897954,
      "loss": 3.0484,
      "step": 302
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8011006094660138,
      "learning_rate": 0.0009693362056920501,
      "loss": 2.9458,
      "step": 303
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.831514785362435,
      "learning_rate": 0.0009690795997636015,
      "loss": 3.0536,
      "step": 304
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.795819388119662,
      "learning_rate": 0.0009688219588706179,
      "loss": 3.1179,
      "step": 305
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8289487567779077,
      "learning_rate": 0.0009685632835815518,
      "loss": 2.9891,
      "step": 306
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7382448121199399,
      "learning_rate": 0.0009683035744671367,
      "loss": 3.0612,
      "step": 307
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7587992173181418,
      "learning_rate": 0.0009680428321003883,
      "loss": 3.0698,
      "step": 308
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8261857272644269,
      "learning_rate": 0.000967781057056601,
      "loss": 3.0175,
      "step": 309
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7230664419968206,
      "learning_rate": 0.0009675182499133485,
      "loss": 3.0299,
      "step": 310
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7943232216862569,
      "learning_rate": 0.0009672544112504813,
      "loss": 3.0154,
      "step": 311
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8959727777106347,
      "learning_rate": 0.0009669895416501257,
      "loss": 2.9817,
      "step": 312
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7737545685921253,
      "learning_rate": 0.0009667236416966833,
      "loss": 3.0313,
      "step": 313
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8278432679566414,
      "learning_rate": 0.0009664567119768281,
      "loss": 3.0571,
      "step": 314
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8588686312448822,
      "learning_rate": 0.0009661887530795067,
      "loss": 2.965,
      "step": 315
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7785661013791103,
      "learning_rate": 0.0009659197655959365,
      "loss": 2.8934,
      "step": 316
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.751185252390731,
      "learning_rate": 0.000965649750119604,
      "loss": 2.9923,
      "step": 317
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.775203380664251,
      "learning_rate": 0.0009653787072462643,
      "loss": 3.0646,
      "step": 318
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7627143887382205,
      "learning_rate": 0.0009651066375739388,
      "loss": 3.0904,
      "step": 319
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7235220855420933,
      "learning_rate": 0.000964833541702915,
      "loss": 2.9961,
      "step": 320
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.78193426723318,
      "learning_rate": 0.0009645594202357438,
      "loss": 2.9833,
      "step": 321
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8025450959674113,
      "learning_rate": 0.0009642842737772397,
      "loss": 2.9949,
      "step": 322
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8705419459729813,
      "learning_rate": 0.0009640081029344782,
      "loss": 3.0467,
      "step": 323
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7711061111635203,
      "learning_rate": 0.0009637309083167956,
      "loss": 2.9588,
      "step": 324
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8035689036912641,
      "learning_rate": 0.0009634526905357859,
      "loss": 3.1384,
      "step": 325
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7957093957493075,
      "learning_rate": 0.000963173450205302,
      "loss": 3.0552,
      "step": 326
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7255479829301316,
      "learning_rate": 0.0009628931879414517,
      "loss": 3.0364,
      "step": 327
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7360702051734563,
      "learning_rate": 0.0009626119043625983,
      "loss": 3.0809,
      "step": 328
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7715101287391699,
      "learning_rate": 0.0009623296000893582,
      "loss": 3.0543,
      "step": 329
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8314731314833435,
      "learning_rate": 0.0009620462757446,
      "loss": 3.0464,
      "step": 330
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8748670394711449,
      "learning_rate": 0.0009617619319534428,
      "loss": 3.1147,
      "step": 331
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.834918099773583,
      "learning_rate": 0.000961476569343255,
      "loss": 3.0989,
      "step": 332
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7508338345155293,
      "learning_rate": 0.0009611901885436529,
      "loss": 3.092,
      "step": 333
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8616773535034735,
      "learning_rate": 0.0009609027901864996,
      "loss": 3.0606,
      "step": 334
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.782999389308099,
      "learning_rate": 0.0009606143749059029,
      "loss": 3.0291,
      "step": 335
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7590945958187725,
      "learning_rate": 0.0009603249433382144,
      "loss": 2.9771,
      "step": 336
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8170884276865951,
      "learning_rate": 0.0009600344961220282,
      "loss": 3.0625,
      "step": 337
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8415664339465141,
      "learning_rate": 0.0009597430338981791,
      "loss": 3.0214,
      "step": 338
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8478334689287894,
      "learning_rate": 0.0009594505573097414,
      "loss": 2.9522,
      "step": 339
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7918955821862056,
      "learning_rate": 0.0009591570670020277,
      "loss": 3.082,
      "step": 340
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7829047970285964,
      "learning_rate": 0.0009588625636225871,
      "loss": 2.9764,
      "step": 341
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6938173907323087,
      "learning_rate": 0.0009585670478212036,
      "loss": 3.0062,
      "step": 342
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7892423601107379,
      "learning_rate": 0.0009582705202498956,
      "loss": 3.0272,
      "step": 343
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7752550189649491,
      "learning_rate": 0.0009579729815629133,
      "loss": 2.9821,
      "step": 344
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8089132855160504,
      "learning_rate": 0.0009576744324167379,
      "loss": 3.0793,
      "step": 345
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7699994619181856,
      "learning_rate": 0.0009573748734700804,
      "loss": 3.0499,
      "step": 346
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7693278237821239,
      "learning_rate": 0.0009570743053838796,
      "loss": 3.0986,
      "step": 347
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8221624466355294,
      "learning_rate": 0.0009567727288213005,
      "loss": 3.0007,
      "step": 348
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7751039429864068,
      "learning_rate": 0.0009564701444477337,
      "loss": 3.0515,
      "step": 349
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7584224791067652,
      "learning_rate": 0.000956166552930793,
      "loss": 3.022,
      "step": 350
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7926787462851236,
      "learning_rate": 0.0009558619549403147,
      "loss": 2.9788,
      "step": 351
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7503067389583234,
      "learning_rate": 0.0009555563511483555,
      "loss": 3.027,
      "step": 352
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7586659732017802,
      "learning_rate": 0.0009552497422291912,
      "loss": 3.0046,
      "step": 353
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.802350733976182,
      "learning_rate": 0.0009549421288593157,
      "loss": 3.0626,
      "step": 354
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.721781440313141,
      "learning_rate": 0.0009546335117174385,
      "loss": 2.9978,
      "step": 355
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8075009527508075,
      "learning_rate": 0.0009543238914844843,
      "loss": 3.0041,
      "step": 356
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8032718440608807,
      "learning_rate": 0.0009540132688435907,
      "loss": 2.9437,
      "step": 357
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.741758970908557,
      "learning_rate": 0.0009537016444801074,
      "loss": 3.006,
      "step": 358
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8418747545442065,
      "learning_rate": 0.0009533890190815935,
      "loss": 2.9888,
      "step": 359
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8302770362395955,
      "learning_rate": 0.0009530753933378173,
      "loss": 3.0129,
      "step": 360
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.76402564676377,
      "learning_rate": 0.0009527607679407545,
      "loss": 2.9752,
      "step": 361
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7472498930389411,
      "learning_rate": 0.0009524451435845857,
      "loss": 2.9787,
      "step": 362
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8154359076980758,
      "learning_rate": 0.0009521285209656963,
      "loss": 2.9621,
      "step": 363
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6947575828772793,
      "learning_rate": 0.0009518109007826734,
      "loss": 2.9976,
      "step": 364
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8744006443927206,
      "learning_rate": 0.0009514922837363059,
      "loss": 2.9967,
      "step": 365
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.799752108975712,
      "learning_rate": 0.0009511726705295817,
      "loss": 2.9841,
      "step": 366
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.754040367512254,
      "learning_rate": 0.000950852061867687,
      "loss": 3.0225,
      "step": 367
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7221505809560893,
      "learning_rate": 0.0009505304584580038,
      "loss": 2.9364,
      "step": 368
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8139304824050919,
      "learning_rate": 0.0009502078610101092,
      "loss": 3.0309,
      "step": 369
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7529470619065177,
      "learning_rate": 0.0009498842702357736,
      "loss": 2.9934,
      "step": 370
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7636389077549532,
      "learning_rate": 0.0009495596868489587,
      "loss": 2.934,
      "step": 371
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7357041333424714,
      "learning_rate": 0.0009492341115658167,
      "loss": 2.9244,
      "step": 372
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7586098860934306,
      "learning_rate": 0.0009489075451046879,
      "loss": 2.9503,
      "step": 373
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7565442739815671,
      "learning_rate": 0.0009485799881861,
      "loss": 2.9886,
      "step": 374
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.819237197247838,
      "learning_rate": 0.0009482514415327654,
      "loss": 3.0942,
      "step": 375
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8201376973470804,
      "learning_rate": 0.000947921905869581,
      "loss": 2.9398,
      "step": 376
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7580790214235937,
      "learning_rate": 0.0009475913819236248,
      "loss": 2.937,
      "step": 377
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7268178518752757,
      "learning_rate": 0.0009472598704241561,
      "loss": 3.0224,
      "step": 378
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7131361834006328,
      "learning_rate": 0.0009469273721026131,
      "loss": 3.0003,
      "step": 379
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7571350716752488,
      "learning_rate": 0.0009465938876926111,
      "loss": 2.9438,
      "step": 380
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8239240829502088,
      "learning_rate": 0.0009462594179299406,
      "loss": 2.8919,
      "step": 381
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7439784197727697,
      "learning_rate": 0.0009459239635525672,
      "loss": 3.0158,
      "step": 382
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8054607075338643,
      "learning_rate": 0.0009455875253006281,
      "loss": 3.008,
      "step": 383
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.006542622689333,
      "learning_rate": 0.0009452501039164315,
      "loss": 3.0452,
      "step": 384
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7715289888512084,
      "learning_rate": 0.0009449117001444549,
      "loss": 3.0322,
      "step": 385
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6999920608674332,
      "learning_rate": 0.0009445723147313433,
      "loss": 2.9432,
      "step": 386
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8155227238402714,
      "learning_rate": 0.0009442319484259074,
      "loss": 2.8735,
      "step": 387
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.81507422521716,
      "learning_rate": 0.0009438906019791222,
      "loss": 2.9406,
      "step": 388
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7963763891914728,
      "learning_rate": 0.0009435482761441251,
      "loss": 3.0962,
      "step": 389
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7643311723641332,
      "learning_rate": 0.000943204971676215,
      "loss": 2.9552,
      "step": 390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7629331302082998,
      "learning_rate": 0.0009428606893328493,
      "loss": 2.9595,
      "step": 391
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7516143818519396,
      "learning_rate": 0.0009425154298736432,
      "loss": 3.0252,
      "step": 392
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7439170296103297,
      "learning_rate": 0.0009421691940603678,
      "loss": 3.0579,
      "step": 393
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7240439223313602,
      "learning_rate": 0.0009418219826569488,
      "loss": 2.9494,
      "step": 394
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7476999224010188,
      "learning_rate": 0.0009414737964294635,
      "loss": 3.0201,
      "step": 395
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7793878569306824,
      "learning_rate": 0.000941124636146141,
      "loss": 3.0261,
      "step": 396
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7827697130312699,
      "learning_rate": 0.0009407745025773589,
      "loss": 2.8763,
      "step": 397
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7140081743622357,
      "learning_rate": 0.0009404233964956423,
      "loss": 3.0395,
      "step": 398
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7819461838672397,
      "learning_rate": 0.0009400713186756625,
      "loss": 2.8901,
      "step": 399
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8519397256476173,
      "learning_rate": 0.0009397182698942342,
      "loss": 3.0186,
      "step": 400
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7583022826383997,
      "learning_rate": 0.0009393642509303149,
      "loss": 3.1027,
      "step": 401
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7516996988304859,
      "learning_rate": 0.0009390092625650023,
      "loss": 2.9667,
      "step": 402
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7181874246642317,
      "learning_rate": 0.0009386533055815332,
      "loss": 2.982,
      "step": 403
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7384959033128577,
      "learning_rate": 0.0009382963807652813,
      "loss": 2.943,
      "step": 404
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7263296072509065,
      "learning_rate": 0.000937938488903756,
      "loss": 3.0355,
      "step": 405
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7132923893919709,
      "learning_rate": 0.0009375796307866003,
      "loss": 2.9279,
      "step": 406
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7439149541174559,
      "learning_rate": 0.0009372198072055888,
      "loss": 2.922,
      "step": 407
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7294878860706784,
      "learning_rate": 0.0009368590189546268,
      "loss": 2.9899,
      "step": 408
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7223469892158065,
      "learning_rate": 0.0009364972668297474,
      "loss": 3.0113,
      "step": 409
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7157758144041945,
      "learning_rate": 0.0009361345516291111,
      "loss": 2.9441,
      "step": 410
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7527319347490755,
      "learning_rate": 0.0009357708741530024,
      "loss": 3.0289,
      "step": 411
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7404085864556846,
      "learning_rate": 0.00093540623520383,
      "loss": 2.9282,
      "step": 412
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7353484994722471,
      "learning_rate": 0.000935040635586123,
      "loss": 3.004,
      "step": 413
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7477785027465166,
      "learning_rate": 0.0009346740761065305,
      "loss": 2.9584,
      "step": 414
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7682435402350191,
      "learning_rate": 0.0009343065575738197,
      "loss": 2.9065,
      "step": 415
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6936197816839004,
      "learning_rate": 0.0009339380807988733,
      "loss": 2.9799,
      "step": 416
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7363346779154126,
      "learning_rate": 0.0009335686465946887,
      "loss": 3.0985,
      "step": 417
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7253241744280284,
      "learning_rate": 0.0009331982557763754,
      "loss": 2.8658,
      "step": 418
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7919388337229888,
      "learning_rate": 0.0009328269091611537,
      "loss": 3.0526,
      "step": 419
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7728127957085157,
      "learning_rate": 0.0009324546075683524,
      "loss": 3.0105,
      "step": 420
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7634023811568907,
      "learning_rate": 0.0009320813518194083,
      "loss": 2.8829,
      "step": 421
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7235554141410393,
      "learning_rate": 0.0009317071427378624,
      "loss": 2.8958,
      "step": 422
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7548647741114339,
      "learning_rate": 0.0009313319811493594,
      "loss": 3.0291,
      "step": 423
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7403385055234982,
      "learning_rate": 0.000930955867881646,
      "loss": 2.8492,
      "step": 424
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7405210090921727,
      "learning_rate": 0.0009305788037645681,
      "loss": 2.9998,
      "step": 425
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7248999821368799,
      "learning_rate": 0.0009302007896300697,
      "loss": 2.9237,
      "step": 426
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7233723183300574,
      "learning_rate": 0.0009298218263121911,
      "loss": 2.948,
      "step": 427
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7412991854637495,
      "learning_rate": 0.0009294419146470668,
      "loss": 3.0363,
      "step": 428
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7623411090005502,
      "learning_rate": 0.0009290610554729234,
      "loss": 2.9675,
      "step": 429
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6750833251172197,
      "learning_rate": 0.0009286792496300784,
      "loss": 3.029,
      "step": 430
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.693755628542295,
      "learning_rate": 0.0009282964979609379,
      "loss": 3.0249,
      "step": 431
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7427530127637241,
      "learning_rate": 0.0009279128013099947,
      "loss": 2.9627,
      "step": 432
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6909220135185692,
      "learning_rate": 0.0009275281605238268,
      "loss": 2.9679,
      "step": 433
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.74103375065701,
      "learning_rate": 0.0009271425764510953,
      "loss": 2.9616,
      "step": 434
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7264112338105153,
      "learning_rate": 0.0009267560499425423,
      "loss": 2.9661,
      "step": 435
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7135039647778509,
      "learning_rate": 0.0009263685818509895,
      "loss": 2.911,
      "step": 436
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7712094980741175,
      "learning_rate": 0.000925980173031336,
      "loss": 2.9819,
      "step": 437
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6812037502787398,
      "learning_rate": 0.0009255908243405567,
      "loss": 2.8749,
      "step": 438
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7394089937560382,
      "learning_rate": 0.0009252005366376996,
      "loss": 2.9734,
      "step": 439
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7287109103544333,
      "learning_rate": 0.0009248093107838852,
      "loss": 2.9064,
      "step": 440
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6835897357403975,
      "learning_rate": 0.0009244171476423036,
      "loss": 3.0212,
      "step": 441
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7134226111242622,
      "learning_rate": 0.0009240240480782129,
      "loss": 2.8714,
      "step": 442
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.73381128694398,
      "learning_rate": 0.0009236300129589376,
      "loss": 3.0034,
      "step": 443
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7874408408766034,
      "learning_rate": 0.0009232350431538657,
      "loss": 2.9718,
      "step": 444
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7742858526733759,
      "learning_rate": 0.0009228391395344482,
      "loss": 2.9786,
      "step": 445
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7648963015400514,
      "learning_rate": 0.000922442302974196,
      "loss": 2.9202,
      "step": 446
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6848393728176513,
      "learning_rate": 0.0009220445343486785,
      "loss": 2.9584,
      "step": 447
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7929389920087544,
      "learning_rate": 0.0009216458345355217,
      "loss": 2.9055,
      "step": 448
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.72762470935157,
      "learning_rate": 0.0009212462044144061,
      "loss": 2.7933,
      "step": 449
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.774011226661468,
      "learning_rate": 0.0009208456448670648,
      "loss": 2.8727,
      "step": 450
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7989166530109736,
      "learning_rate": 0.0009204441567772816,
      "loss": 2.988,
      "step": 451
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7640209762869673,
      "learning_rate": 0.0009200417410308888,
      "loss": 2.9942,
      "step": 452
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7677529801181178,
      "learning_rate": 0.0009196383985157656,
      "loss": 2.9351,
      "step": 453
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6596481586591506,
      "learning_rate": 0.000919234130121836,
      "loss": 2.9781,
      "step": 454
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.722321762020435,
      "learning_rate": 0.0009188289367410672,
      "loss": 2.8892,
      "step": 455
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7346287061259723,
      "learning_rate": 0.0009184228192674666,
      "loss": 2.8694,
      "step": 456
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7437270033996709,
      "learning_rate": 0.0009180157785970808,
      "loss": 3.0127,
      "step": 457
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8129776984962982,
      "learning_rate": 0.0009176078156279932,
      "loss": 2.9455,
      "step": 458
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6636649783694668,
      "learning_rate": 0.0009171989312603226,
      "loss": 2.9277,
      "step": 459
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7340265652658952,
      "learning_rate": 0.0009167891263962202,
      "loss": 2.8697,
      "step": 460
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7262254961953987,
      "learning_rate": 0.0009163784019398685,
      "loss": 3.0357,
      "step": 461
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7355852439189486,
      "learning_rate": 0.0009159667587974785,
      "loss": 2.8842,
      "step": 462
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6945040513122828,
      "learning_rate": 0.0009155541978772887,
      "loss": 2.8707,
      "step": 463
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6899909995807749,
      "learning_rate": 0.0009151407200895625,
      "loss": 2.9262,
      "step": 464
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7462628291888529,
      "learning_rate": 0.000914726326346586,
      "loss": 2.9361,
      "step": 465
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8141692327724593,
      "learning_rate": 0.0009143110175626661,
      "loss": 2.9737,
      "step": 466
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7183837113780687,
      "learning_rate": 0.0009138947946541291,
      "loss": 2.9088,
      "step": 467
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7192631160382027,
      "learning_rate": 0.0009134776585393181,
      "loss": 2.8093,
      "step": 468
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6897078186557966,
      "learning_rate": 0.0009130596101385906,
      "loss": 2.948,
      "step": 469
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7631760876695918,
      "learning_rate": 0.0009126406503743174,
      "loss": 2.9492,
      "step": 470
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7222051392283677,
      "learning_rate": 0.0009122207801708802,
      "loss": 2.8608,
      "step": 471
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7392868034243938,
      "learning_rate": 0.0009118000004546689,
      "loss": 2.8537,
      "step": 472
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6878273882015559,
      "learning_rate": 0.0009113783121540807,
      "loss": 2.8993,
      "step": 473
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7365791696794944,
      "learning_rate": 0.0009109557161995172,
      "loss": 3.0372,
      "step": 474
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7598181489262681,
      "learning_rate": 0.0009105322135233828,
      "loss": 2.9049,
      "step": 475
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7055227691860203,
      "learning_rate": 0.0009101078050600821,
      "loss": 2.9637,
      "step": 476
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7000461557270132,
      "learning_rate": 0.0009096824917460186,
      "loss": 2.9188,
      "step": 477
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7451268304248932,
      "learning_rate": 0.0009092562745195921,
      "loss": 2.983,
      "step": 478
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7074794871047629,
      "learning_rate": 0.0009088291543211967,
      "loss": 2.8506,
      "step": 479
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7170880956448551,
      "learning_rate": 0.0009084011320932188,
      "loss": 2.8803,
      "step": 480
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7345301410846902,
      "learning_rate": 0.0009079722087800352,
      "loss": 2.8652,
      "step": 481
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7197237472979676,
      "learning_rate": 0.0009075423853280106,
      "loss": 2.9248,
      "step": 482
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7099723676487361,
      "learning_rate": 0.0009071116626854958,
      "loss": 2.9881,
      "step": 483
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7069813073377884,
      "learning_rate": 0.0009066800418028256,
      "loss": 2.8878,
      "step": 484
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6831333306350141,
      "learning_rate": 0.0009062475236323168,
      "loss": 2.9167,
      "step": 485
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6670962302153269,
      "learning_rate": 0.0009058141091282656,
      "loss": 2.8374,
      "step": 486
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7565224872181255,
      "learning_rate": 0.0009053797992469461,
      "loss": 3.0867,
      "step": 487
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7258937082507263,
      "learning_rate": 0.0009049445949466078,
      "loss": 2.9504,
      "step": 488
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7442518336721164,
      "learning_rate": 0.0009045084971874737,
      "loss": 2.7965,
      "step": 489
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6772192466307553,
      "learning_rate": 0.0009040715069317382,
      "loss": 2.8333,
      "step": 490
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6950571432457272,
      "learning_rate": 0.0009036336251435648,
      "loss": 2.8947,
      "step": 491
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.757580510854113,
      "learning_rate": 0.0009031948527890839,
      "loss": 3.0013,
      "step": 492
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7318783507561439,
      "learning_rate": 0.000902755190836391,
      "loss": 2.8861,
      "step": 493
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7893821815719108,
      "learning_rate": 0.0009023146402555442,
      "loss": 3.0605,
      "step": 494
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.692850131603595,
      "learning_rate": 0.0009018732020185624,
      "loss": 2.9309,
      "step": 495
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6894279945434691,
      "learning_rate": 0.0009014308770994235,
      "loss": 2.835,
      "step": 496
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6962129182956213,
      "learning_rate": 0.0009009876664740605,
      "loss": 2.9123,
      "step": 497
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6847491908764987,
      "learning_rate": 0.0009005435711203618,
      "loss": 2.9057,
      "step": 498
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7271146737977124,
      "learning_rate": 0.000900098592018167,
      "loss": 2.8871,
      "step": 499
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6854528476750934,
      "learning_rate": 0.0008996527301492663,
      "loss": 2.938,
      "step": 500
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7424796612242082,
      "learning_rate": 0.0008992059864973972,
      "loss": 2.8724,
      "step": 501
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7168374087682924,
      "learning_rate": 0.0008987583620482427,
      "loss": 2.8777,
      "step": 502
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7126379390466472,
      "learning_rate": 0.0008983098577894292,
      "loss": 2.9507,
      "step": 503
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6843289858494696,
      "learning_rate": 0.0008978604747105246,
      "loss": 2.8586,
      "step": 504
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6274899229309381,
      "learning_rate": 0.0008974102138030354,
      "loss": 2.8861,
      "step": 505
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7246106112404554,
      "learning_rate": 0.000896959076060405,
      "loss": 2.9729,
      "step": 506
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7288478927171036,
      "learning_rate": 0.0008965070624780116,
      "loss": 2.8325,
      "step": 507
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.685172023015516,
      "learning_rate": 0.0008960541740531658,
      "loss": 3.0372,
      "step": 508
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.691857378929873,
      "learning_rate": 0.0008956004117851083,
      "loss": 2.9148,
      "step": 509
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7318896795755983,
      "learning_rate": 0.0008951457766750079,
      "loss": 2.9111,
      "step": 510
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7025846361168648,
      "learning_rate": 0.0008946902697259593,
      "loss": 2.8325,
      "step": 511
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7284767266836271,
      "learning_rate": 0.0008942338919429805,
      "loss": 2.8619,
      "step": 512
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7741127480359397,
      "learning_rate": 0.0008937766443330113,
      "loss": 2.8647,
      "step": 513
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7283855621446607,
      "learning_rate": 0.0008933185279049103,
      "loss": 2.986,
      "step": 514
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7082931915044666,
      "learning_rate": 0.0008928595436694532,
      "loss": 2.957,
      "step": 515
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7250653817590555,
      "learning_rate": 0.0008923996926393305,
      "loss": 2.7999,
      "step": 516
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7030935277607737,
      "learning_rate": 0.0008919389758291449,
      "loss": 2.9319,
      "step": 517
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6774942257182602,
      "learning_rate": 0.0008914773942554098,
      "loss": 2.9078,
      "step": 518
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6477784658780003,
      "learning_rate": 0.000891014948936546,
      "loss": 3.0369,
      "step": 519
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6904834878216182,
      "learning_rate": 0.0008905516408928804,
      "loss": 3.0119,
      "step": 520
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7306140950477482,
      "learning_rate": 0.0008900874711466434,
      "loss": 2.83,
      "step": 521
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7263009972041609,
      "learning_rate": 0.0008896224407219666,
      "loss": 3.0091,
      "step": 522
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.714553036373405,
      "learning_rate": 0.0008891565506448804,
      "loss": 2.9409,
      "step": 523
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7260624865697921,
      "learning_rate": 0.0008886898019433122,
      "loss": 2.8465,
      "step": 524
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7480197753213476,
      "learning_rate": 0.0008882221956470836,
      "loss": 2.9307,
      "step": 525
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7125911447677519,
      "learning_rate": 0.0008877537327879086,
      "loss": 2.8428,
      "step": 526
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.807578428886163,
      "learning_rate": 0.0008872844143993908,
      "loss": 2.9051,
      "step": 527
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8134078701437222,
      "learning_rate": 0.0008868142415170218,
      "loss": 2.9341,
      "step": 528
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7312248732071894,
      "learning_rate": 0.0008863432151781781,
      "loss": 2.983,
      "step": 529
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6891584309094715,
      "learning_rate": 0.0008858713364221195,
      "loss": 2.8657,
      "step": 530
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6986498631902776,
      "learning_rate": 0.0008853986062899868,
      "loss": 2.8696,
      "step": 531
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7509381334690731,
      "learning_rate": 0.0008849250258247986,
      "loss": 2.94,
      "step": 532
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7055413307212491,
      "learning_rate": 0.0008844505960714503,
      "loss": 2.9055,
      "step": 533
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7079071558269446,
      "learning_rate": 0.0008839753180767108,
      "loss": 2.8138,
      "step": 534
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7065840723419738,
      "learning_rate": 0.0008834991928892204,
      "loss": 2.9762,
      "step": 535
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7078525038174537,
      "learning_rate": 0.000883022221559489,
      "loss": 2.969,
      "step": 536
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6833094300805787,
      "learning_rate": 0.0008825444051398934,
      "loss": 2.937,
      "step": 537
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7060418170034332,
      "learning_rate": 0.0008820657446846745,
      "loss": 2.9399,
      "step": 538
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6725392074389746,
      "learning_rate": 0.000881586241249936,
      "loss": 2.9143,
      "step": 539
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7256922064771237,
      "learning_rate": 0.0008811058958936411,
      "loss": 3.0352,
      "step": 540
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7057252271363501,
      "learning_rate": 0.000880624709675611,
      "loss": 2.8737,
      "step": 541
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7427585434542736,
      "learning_rate": 0.000880142683657522,
      "loss": 2.9154,
      "step": 542
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7513186013805504,
      "learning_rate": 0.0008796598189029029,
      "loss": 2.8175,
      "step": 543
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7094776263484107,
      "learning_rate": 0.0008791761164771338,
      "loss": 2.8467,
      "step": 544
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.702963808369374,
      "learning_rate": 0.0008786915774474424,
      "loss": 2.7967,
      "step": 545
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7232119698206347,
      "learning_rate": 0.0008782062028829027,
      "loss": 2.892,
      "step": 546
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6864715216571011,
      "learning_rate": 0.0008777199938544318,
      "loss": 2.8863,
      "step": 547
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6499755183978725,
      "learning_rate": 0.0008772329514347883,
      "loss": 2.7452,
      "step": 548
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6662140036900686,
      "learning_rate": 0.0008767450766985694,
      "loss": 2.8979,
      "step": 549
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6849999791497862,
      "learning_rate": 0.0008762563707222086,
      "loss": 2.9449,
      "step": 550
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.66538934909562,
      "learning_rate": 0.0008757668345839738,
      "loss": 2.9487,
      "step": 551
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.753294438707781,
      "learning_rate": 0.0008752764693639638,
      "loss": 2.9994,
      "step": 552
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6422798858989069,
      "learning_rate": 0.0008747852761441078,
      "loss": 2.8646,
      "step": 553
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6973795842117014,
      "learning_rate": 0.0008742932560081607,
      "loss": 2.8576,
      "step": 554
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7638006230478994,
      "learning_rate": 0.0008738004100417025,
      "loss": 2.8852,
      "step": 555
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7111818561381972,
      "learning_rate": 0.0008733067393321355,
      "loss": 3.0061,
      "step": 556
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7809328516249335,
      "learning_rate": 0.000872812244968681,
      "loss": 2.952,
      "step": 557
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7533329963125718,
      "learning_rate": 0.0008723169280423783,
      "loss": 2.9467,
      "step": 558
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6879055736162206,
      "learning_rate": 0.0008718207896460811,
      "loss": 2.9439,
      "step": 559
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7087952730749557,
      "learning_rate": 0.0008713238308744557,
      "loss": 2.9893,
      "step": 560
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7207821455401328,
      "learning_rate": 0.0008708260528239789,
      "loss": 2.858,
      "step": 561
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7212505973784625,
      "learning_rate": 0.000870327456592934,
      "loss": 2.8815,
      "step": 562
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6441842597979083,
      "learning_rate": 0.0008698280432814107,
      "loss": 2.9422,
      "step": 563
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6747745883083466,
      "learning_rate": 0.000869327813991301,
      "loss": 2.8948,
      "step": 564
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7379195320920783,
      "learning_rate": 0.0008688267698262971,
      "loss": 2.9415,
      "step": 565
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7237611963014017,
      "learning_rate": 0.0008683249118918894,
      "loss": 2.8793,
      "step": 566
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6269045691370486,
      "learning_rate": 0.0008678222412953637,
      "loss": 2.9201,
      "step": 567
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7705368702772072,
      "learning_rate": 0.0008673187591457987,
      "loss": 3.068,
      "step": 568
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7064098672987241,
      "learning_rate": 0.0008668144665540639,
      "loss": 2.916,
      "step": 569
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.658710242420312,
      "learning_rate": 0.0008663093646328167,
      "loss": 2.9345,
      "step": 570
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6965672164872224,
      "learning_rate": 0.0008658034544965003,
      "loss": 2.9494,
      "step": 571
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7269281271837978,
      "learning_rate": 0.0008652967372613412,
      "loss": 2.8758,
      "step": 572
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.695848793156735,
      "learning_rate": 0.0008647892140453466,
      "loss": 2.9231,
      "step": 573
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7262754233627919,
      "learning_rate": 0.0008642808859683021,
      "loss": 2.8204,
      "step": 574
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7386521529025977,
      "learning_rate": 0.0008637717541517689,
      "loss": 2.9902,
      "step": 575
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6877576017578881,
      "learning_rate": 0.0008632618197190816,
      "loss": 2.8952,
      "step": 576
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6620141648580078,
      "learning_rate": 0.0008627510837953458,
      "loss": 2.9401,
      "step": 577
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6644192931462521,
      "learning_rate": 0.0008622395475074355,
      "loss": 2.8831,
      "step": 578
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7043897324069232,
      "learning_rate": 0.0008617272119839903,
      "loss": 2.8651,
      "step": 579
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7059831665819184,
      "learning_rate": 0.0008612140783554136,
      "loss": 2.7895,
      "step": 580
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7274078088895474,
      "learning_rate": 0.0008607001477538696,
      "loss": 2.8782,
      "step": 581
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6994733894784295,
      "learning_rate": 0.0008601854213132807,
      "loss": 2.9811,
      "step": 582
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7212785973791889,
      "learning_rate": 0.0008596699001693256,
      "loss": 2.8394,
      "step": 583
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6793972339475409,
      "learning_rate": 0.000859153585459436,
      "loss": 2.8721,
      "step": 584
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.664141840473036,
      "learning_rate": 0.0008586364783227949,
      "loss": 2.8146,
      "step": 585
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6796220731323511,
      "learning_rate": 0.0008581185799003332,
      "loss": 2.9645,
      "step": 586
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7353532242176284,
      "learning_rate": 0.0008575998913347283,
      "loss": 2.8769,
      "step": 587
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.771152421598142,
      "learning_rate": 0.0008570804137704004,
      "loss": 2.8307,
      "step": 588
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.665667123555086,
      "learning_rate": 0.0008565601483535108,
      "loss": 2.8279,
      "step": 589
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6430784816841258,
      "learning_rate": 0.0008560390962319591,
      "loss": 2.7804,
      "step": 590
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7087249593052473,
      "learning_rate": 0.0008555172585553804,
      "loss": 2.8669,
      "step": 591
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6970333239608708,
      "learning_rate": 0.0008549946364751435,
      "loss": 2.8156,
      "step": 592
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6559646789690727,
      "learning_rate": 0.0008544712311443475,
      "loss": 2.8531,
      "step": 593
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7009015356001321,
      "learning_rate": 0.0008539470437178196,
      "loss": 2.8572,
      "step": 594
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7061405030802398,
      "learning_rate": 0.000853422075352113,
      "loss": 2.8808,
      "step": 595
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.64979400457968,
      "learning_rate": 0.0008528963272055035,
      "loss": 2.8252,
      "step": 596
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6986003054392433,
      "learning_rate": 0.0008523698004379877,
      "loss": 2.8768,
      "step": 597
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6448383481229394,
      "learning_rate": 0.00085184249621128,
      "loss": 2.9499,
      "step": 598
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7327245787060438,
      "learning_rate": 0.0008513144156888101,
      "loss": 2.8925,
      "step": 599
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6723535770714548,
      "learning_rate": 0.0008507855600357207,
      "loss": 2.941,
      "step": 600
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.687979356725179,
      "learning_rate": 0.0008502559304188644,
      "loss": 2.9118,
      "step": 601
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6782409919679621,
      "learning_rate": 0.0008497255280068019,
      "loss": 2.9111,
      "step": 602
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6786574808497027,
      "learning_rate": 0.0008491943539697986,
      "loss": 2.8001,
      "step": 603
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.696672636193599,
      "learning_rate": 0.0008486624094798226,
      "loss": 2.8382,
      "step": 604
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6557214831068906,
      "learning_rate": 0.0008481296957105417,
      "loss": 2.9298,
      "step": 605
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.669808176503967,
      "learning_rate": 0.0008475962138373213,
      "loss": 2.8539,
      "step": 606
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6760923273805501,
      "learning_rate": 0.0008470619650372211,
      "loss": 2.8971,
      "step": 607
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6893625362019772,
      "learning_rate": 0.0008465269504889934,
      "loss": 2.9833,
      "step": 608
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6897898033917297,
      "learning_rate": 0.0008459911713730799,
      "loss": 2.8662,
      "step": 609
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6879793489885307,
      "learning_rate": 0.0008454546288716089,
      "loss": 3.0317,
      "step": 610
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.706727181375616,
      "learning_rate": 0.0008449173241683935,
      "loss": 2.9283,
      "step": 611
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.674330345663181,
      "learning_rate": 0.0008443792584489281,
      "loss": 2.9039,
      "step": 612
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6690953149652253,
      "learning_rate": 0.0008438404329003863,
      "loss": 2.9014,
      "step": 613
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6737281890795093,
      "learning_rate": 0.0008433008487116183,
      "loss": 2.8949,
      "step": 614
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6715522059114793,
      "learning_rate": 0.0008427605070731481,
      "loss": 2.7896,
      "step": 615
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7046606519869588,
      "learning_rate": 0.0008422194091771708,
      "loss": 2.9802,
      "step": 616
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6541983453264394,
      "learning_rate": 0.0008416775562175503,
      "loss": 2.7366,
      "step": 617
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.657565304598245,
      "learning_rate": 0.000841134949389816,
      "loss": 2.8493,
      "step": 618
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6768848332606172,
      "learning_rate": 0.0008405915898911611,
      "loss": 2.8603,
      "step": 619
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6649429018843389,
      "learning_rate": 0.0008400474789204396,
      "loss": 2.9042,
      "step": 620
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6944292168957882,
      "learning_rate": 0.0008395026176781626,
      "loss": 2.9006,
      "step": 621
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7229079388523725,
      "learning_rate": 0.0008389570073664976,
      "loss": 2.8992,
      "step": 622
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6684945787643205,
      "learning_rate": 0.0008384106491892642,
      "loss": 2.8837,
      "step": 623
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6743202574549816,
      "learning_rate": 0.0008378635443519327,
      "loss": 2.89,
      "step": 624
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6733850714097439,
      "learning_rate": 0.0008373156940616199,
      "loss": 2.9421,
      "step": 625
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7464211445277723,
      "learning_rate": 0.0008367670995270882,
      "loss": 2.9165,
      "step": 626
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.63065767022515,
      "learning_rate": 0.0008362177619587416,
      "loss": 2.9066,
      "step": 627
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6720369242296879,
      "learning_rate": 0.0008356676825686238,
      "loss": 2.8826,
      "step": 628
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6648283987742454,
      "learning_rate": 0.0008351168625704147,
      "loss": 2.9243,
      "step": 629
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6604539188411358,
      "learning_rate": 0.0008345653031794292,
      "loss": 2.9534,
      "step": 630
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6829901953762257,
      "learning_rate": 0.0008340130056126125,
      "loss": 2.9202,
      "step": 631
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6813617621107516,
      "learning_rate": 0.0008334599710885394,
      "loss": 2.8503,
      "step": 632
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6536927137502409,
      "learning_rate": 0.0008329062008274098,
      "loss": 2.8784,
      "step": 633
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6820929613165202,
      "learning_rate": 0.000832351696051048,
      "loss": 2.955,
      "step": 634
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.667972816949912,
      "learning_rate": 0.000831796457982898,
      "loss": 2.8838,
      "step": 635
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.664007705889026,
      "learning_rate": 0.0008312404878480222,
      "loss": 2.9068,
      "step": 636
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6339594702158183,
      "learning_rate": 0.0008306837868730979,
      "loss": 2.9512,
      "step": 637
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6379337296549885,
      "learning_rate": 0.0008301263562864152,
      "loss": 2.8556,
      "step": 638
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6529457618467472,
      "learning_rate": 0.0008295681973178737,
      "loss": 2.7947,
      "step": 639
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7004666103160503,
      "learning_rate": 0.0008290093111989804,
      "loss": 2.9035,
      "step": 640
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6678824278236417,
      "learning_rate": 0.0008284496991628465,
      "loss": 2.7657,
      "step": 641
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6596844200502364,
      "learning_rate": 0.0008278893624441847,
      "loss": 2.7566,
      "step": 642
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.66420080277266,
      "learning_rate": 0.000827328302279307,
      "loss": 2.8679,
      "step": 643
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6421017662442032,
      "learning_rate": 0.0008267665199061211,
      "loss": 2.6916,
      "step": 644
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6710440526610564,
      "learning_rate": 0.0008262040165641288,
      "loss": 2.9225,
      "step": 645
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6861077704846513,
      "learning_rate": 0.0008256407934944219,
      "loss": 2.8805,
      "step": 646
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6808549607802862,
      "learning_rate": 0.0008250768519396807,
      "loss": 2.879,
      "step": 647
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7075165727397363,
      "learning_rate": 0.0008245121931441706,
      "loss": 2.8299,
      "step": 648
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6361296529483289,
      "learning_rate": 0.0008239468183537393,
      "loss": 2.874,
      "step": 649
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6485087455730462,
      "learning_rate": 0.0008233807288158146,
      "loss": 2.8459,
      "step": 650
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6567594093077754,
      "learning_rate": 0.0008228139257794012,
      "loss": 2.8637,
      "step": 651
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6859522317161735,
      "learning_rate": 0.0008222464104950778,
      "loss": 2.8205,
      "step": 652
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6907792924693378,
      "learning_rate": 0.000821678184214995,
      "loss": 2.8699,
      "step": 653
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6769554952538364,
      "learning_rate": 0.0008211092481928716,
      "loss": 2.7731,
      "step": 654
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7021519868456736,
      "learning_rate": 0.0008205396036839927,
      "loss": 2.875,
      "step": 655
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7061047167159717,
      "learning_rate": 0.0008199692519452069,
      "loss": 2.9509,
      "step": 656
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6859044627314214,
      "learning_rate": 0.0008193981942349224,
      "loss": 2.8784,
      "step": 657
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7045582235229657,
      "learning_rate": 0.0008188264318131056,
      "loss": 2.832,
      "step": 658
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6559033098187161,
      "learning_rate": 0.0008182539659412776,
      "loss": 2.7858,
      "step": 659
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6959300020631796,
      "learning_rate": 0.0008176807978825118,
      "loss": 2.7834,
      "step": 660
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6891200289302226,
      "learning_rate": 0.0008171069289014306,
      "loss": 2.9508,
      "step": 661
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6600075266861203,
      "learning_rate": 0.0008165323602642028,
      "loss": 2.9834,
      "step": 662
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7085152434088501,
      "learning_rate": 0.0008159570932385414,
      "loss": 2.8052,
      "step": 663
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6705323048260711,
      "learning_rate": 0.0008153811290936999,
      "loss": 2.7855,
      "step": 664
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6798747555238546,
      "learning_rate": 0.0008148044691004698,
      "loss": 2.7428,
      "step": 665
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6543158502525542,
      "learning_rate": 0.0008142271145311783,
      "loss": 2.8783,
      "step": 666
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6761702869588093,
      "learning_rate": 0.000813649066659685,
      "loss": 2.9747,
      "step": 667
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6960191726052146,
      "learning_rate": 0.0008130703267613787,
      "loss": 2.9021,
      "step": 668
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6681901804585111,
      "learning_rate": 0.0008124908961131759,
      "loss": 2.87,
      "step": 669
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6562330940260868,
      "learning_rate": 0.0008119107759935163,
      "loss": 2.69,
      "step": 670
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.675035087664794,
      "learning_rate": 0.0008113299676823615,
      "loss": 2.8513,
      "step": 671
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6416064845259728,
      "learning_rate": 0.0008107484724611911,
      "loss": 2.9715,
      "step": 672
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.666854220677846,
      "learning_rate": 0.0008101662916130006,
      "loss": 2.8728,
      "step": 673
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7185177015247631,
      "learning_rate": 0.0008095834264222979,
      "loss": 2.829,
      "step": 674
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6811474306395472,
      "learning_rate": 0.0008089998781751009,
      "loss": 2.9489,
      "step": 675
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6399096495588535,
      "learning_rate": 0.0008084156481589349,
      "loss": 2.9047,
      "step": 676
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7044106854503697,
      "learning_rate": 0.0008078307376628291,
      "loss": 2.9625,
      "step": 677
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6372133464187824,
      "learning_rate": 0.0008072451479773143,
      "loss": 2.8096,
      "step": 678
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6474328082641543,
      "learning_rate": 0.0008066588803944195,
      "loss": 2.9497,
      "step": 679
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6759811268803007,
      "learning_rate": 0.0008060719362076697,
      "loss": 2.9251,
      "step": 680
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6699682527201466,
      "learning_rate": 0.0008054843167120826,
      "loss": 2.9332,
      "step": 681
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.680064189737136,
      "learning_rate": 0.0008048960232041663,
      "loss": 2.87,
      "step": 682
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6873615924374241,
      "learning_rate": 0.0008043070569819153,
      "loss": 2.8292,
      "step": 683
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6728703242958792,
      "learning_rate": 0.0008037174193448089,
      "loss": 2.9254,
      "step": 684
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6884975474626338,
      "learning_rate": 0.0008031271115938077,
      "loss": 2.7669,
      "step": 685
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6269487296519424,
      "learning_rate": 0.0008025361350313505,
      "loss": 2.7089,
      "step": 686
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6317911801167915,
      "learning_rate": 0.0008019444909613523,
      "loss": 2.9169,
      "step": 687
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7133135221121171,
      "learning_rate": 0.0008013521806892003,
      "loss": 2.9634,
      "step": 688
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7098415965625541,
      "learning_rate": 0.000800759205521752,
      "loss": 2.7957,
      "step": 689
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.67877145063947,
      "learning_rate": 0.0008001655667673318,
      "loss": 3.0163,
      "step": 690
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6759749287432631,
      "learning_rate": 0.0007995712657357279,
      "loss": 2.9672,
      "step": 691
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6229181755488097,
      "learning_rate": 0.0007989763037381904,
      "loss": 2.8416,
      "step": 692
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6557240305163861,
      "learning_rate": 0.0007983806820874271,
      "loss": 2.7925,
      "step": 693
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6503502838514486,
      "learning_rate": 0.0007977844020976016,
      "loss": 2.9497,
      "step": 694
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.664338829773036,
      "learning_rate": 0.00079718746508433,
      "loss": 2.8859,
      "step": 695
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.666851502138237,
      "learning_rate": 0.0007965898723646776,
      "loss": 2.8919,
      "step": 696
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6593057374404684,
      "learning_rate": 0.0007959916252571573,
      "loss": 2.7468,
      "step": 697
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6447788639776756,
      "learning_rate": 0.000795392725081725,
      "loss": 2.7755,
      "step": 698
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7521025288047457,
      "learning_rate": 0.000794793173159778,
      "loss": 2.9324,
      "step": 699
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6784829405078737,
      "learning_rate": 0.0007941929708141513,
      "loss": 2.9363,
      "step": 700
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6801000609130698,
      "learning_rate": 0.0007935921193691153,
      "loss": 2.9145,
      "step": 701
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6417922357560648,
      "learning_rate": 0.0007929906201503722,
      "loss": 2.8681,
      "step": 702
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6793958821335585,
      "learning_rate": 0.0007923884744850536,
      "loss": 2.7456,
      "step": 703
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6828976659949606,
      "learning_rate": 0.0007917856837017176,
      "loss": 2.9088,
      "step": 704
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6434273838594824,
      "learning_rate": 0.0007911822491303452,
      "loss": 2.679,
      "step": 705
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.724310880675687,
      "learning_rate": 0.0007905781721023382,
      "loss": 2.7643,
      "step": 706
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6921570519970112,
      "learning_rate": 0.000789973453950516,
      "loss": 2.89,
      "step": 707
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7269047638154935,
      "learning_rate": 0.000789368096009112,
      "loss": 2.8827,
      "step": 708
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6976447847404449,
      "learning_rate": 0.0007887620996137721,
      "loss": 2.8768,
      "step": 709
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6677521195994494,
      "learning_rate": 0.0007881554661015497,
      "loss": 2.9274,
      "step": 710
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6765837660661156,
      "learning_rate": 0.0007875481968109051,
      "loss": 2.8717,
      "step": 711
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6457758218467381,
      "learning_rate": 0.0007869402930817007,
      "loss": 2.7923,
      "step": 712
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6871631876088189,
      "learning_rate": 0.0007863317562551987,
      "loss": 2.811,
      "step": 713
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6933734894112576,
      "learning_rate": 0.0007857225876740584,
      "loss": 2.7599,
      "step": 714
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6784348565519861,
      "learning_rate": 0.0007851127886823327,
      "loss": 2.9547,
      "step": 715
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7019737245376716,
      "learning_rate": 0.0007845023606254658,
      "loss": 2.8795,
      "step": 716
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6502084377778499,
      "learning_rate": 0.0007838913048502894,
      "loss": 2.7991,
      "step": 717
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6564908092985371,
      "learning_rate": 0.0007832796227050208,
      "loss": 2.888,
      "step": 718
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.656350723780206,
      "learning_rate": 0.0007826673155392587,
      "loss": 2.9153,
      "step": 719
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6450523057552554,
      "learning_rate": 0.000782054384703981,
      "loss": 2.8526,
      "step": 720
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6812569993916829,
      "learning_rate": 0.0007814408315515418,
      "loss": 2.7381,
      "step": 721
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.605484800174392,
      "learning_rate": 0.0007808266574356683,
      "loss": 2.8905,
      "step": 722
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7037683811165786,
      "learning_rate": 0.0007802118637114573,
      "loss": 2.9105,
      "step": 723
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7098017553644146,
      "learning_rate": 0.0007795964517353734,
      "loss": 2.8222,
      "step": 724
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6291860852836423,
      "learning_rate": 0.0007789804228652449,
      "loss": 2.8143,
      "step": 725
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6512397745599787,
      "learning_rate": 0.0007783637784602609,
      "loss": 2.8831,
      "step": 726
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7110033141746653,
      "learning_rate": 0.0007777465198809692,
      "loss": 2.8415,
      "step": 727
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6166089092668936,
      "learning_rate": 0.0007771286484892722,
      "loss": 2.9073,
      "step": 728
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6722932101322932,
      "learning_rate": 0.000776510165648425,
      "loss": 2.888,
      "step": 729
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6415896740035674,
      "learning_rate": 0.0007758910727230311,
      "loss": 2.8705,
      "step": 730
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7190840938517749,
      "learning_rate": 0.0007752713710790404,
      "loss": 2.9344,
      "step": 731
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7326817362685869,
      "learning_rate": 0.0007746510620837459,
      "loss": 2.775,
      "step": 732
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6468211994424211,
      "learning_rate": 0.0007740301471057807,
      "loss": 2.8533,
      "step": 733
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7281104039271744,
      "learning_rate": 0.0007734086275151146,
      "loss": 2.8234,
      "step": 734
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6877263752872416,
      "learning_rate": 0.0007727865046830517,
      "loss": 2.9328,
      "step": 735
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6294865447495106,
      "learning_rate": 0.0007721637799822269,
      "loss": 2.8057,
      "step": 736
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6533247959281416,
      "learning_rate": 0.0007715404547866032,
      "loss": 2.8201,
      "step": 737
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.671634616849327,
      "learning_rate": 0.0007709165304714685,
      "loss": 2.7882,
      "step": 738
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6511806459379541,
      "learning_rate": 0.0007702920084134324,
      "loss": 2.8511,
      "step": 739
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6664746605834022,
      "learning_rate": 0.0007696668899904236,
      "loss": 2.9137,
      "step": 740
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6972292404803699,
      "learning_rate": 0.0007690411765816864,
      "loss": 2.9594,
      "step": 741
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6648799094829916,
      "learning_rate": 0.0007684148695677778,
      "loss": 2.8419,
      "step": 742
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6751314925987619,
      "learning_rate": 0.000767787970330565,
      "loss": 2.8784,
      "step": 743
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.645813113573744,
      "learning_rate": 0.000767160480253221,
      "loss": 2.9324,
      "step": 744
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6682163745729743,
      "learning_rate": 0.0007665324007202235,
      "loss": 2.9263,
      "step": 745
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.626492202837814,
      "learning_rate": 0.0007659037331173498,
      "loss": 2.8462,
      "step": 746
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7036640283506183,
      "learning_rate": 0.0007652744788316752,
      "loss": 2.7446,
      "step": 747
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6815672900021781,
      "learning_rate": 0.0007646446392515692,
      "loss": 2.8424,
      "step": 748
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6632966972711014,
      "learning_rate": 0.000764014215766693,
      "loss": 2.8576,
      "step": 749
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.688549600654755,
      "learning_rate": 0.0007633832097679958,
      "loss": 2.8619,
      "step": 750
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6911217833363038,
      "learning_rate": 0.0007627516226477122,
      "loss": 2.8165,
      "step": 751
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6686636521731483,
      "learning_rate": 0.0007621194557993589,
      "loss": 2.9527,
      "step": 752
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6721800465898855,
      "learning_rate": 0.0007614867106177319,
      "loss": 2.7862,
      "step": 753
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6521059470991838,
      "learning_rate": 0.0007608533884989029,
      "loss": 2.8637,
      "step": 754
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6451736848429709,
      "learning_rate": 0.0007602194908402166,
      "loss": 2.8279,
      "step": 755
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6872903137433278,
      "learning_rate": 0.0007595850190402877,
      "loss": 2.8443,
      "step": 756
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6973876682992635,
      "learning_rate": 0.0007589499744989976,
      "loss": 2.9095,
      "step": 757
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6433321638708164,
      "learning_rate": 0.0007583143586174916,
      "loss": 2.9422,
      "step": 758
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6275005535734832,
      "learning_rate": 0.000757678172798175,
      "loss": 2.846,
      "step": 759
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6601528239206826,
      "learning_rate": 0.0007570414184447112,
      "loss": 2.8237,
      "step": 760
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6816286503653554,
      "learning_rate": 0.0007564040969620179,
      "loss": 2.847,
      "step": 761
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6844696438472946,
      "learning_rate": 0.0007557662097562636,
      "loss": 2.9067,
      "step": 762
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6642581243036395,
      "learning_rate": 0.0007551277582348658,
      "loss": 2.7501,
      "step": 763
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.677719112559927,
      "learning_rate": 0.0007544887438064862,
      "loss": 2.9258,
      "step": 764
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7043602268632662,
      "learning_rate": 0.0007538491678810294,
      "loss": 2.907,
      "step": 765
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.676531911346554,
      "learning_rate": 0.0007532090318696381,
      "loss": 2.8174,
      "step": 766
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6907007713350418,
      "learning_rate": 0.0007525683371846913,
      "loss": 2.8444,
      "step": 767
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6984911199244611,
      "learning_rate": 0.0007519270852398001,
      "loss": 2.8713,
      "step": 768
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6423201327976905,
      "learning_rate": 0.000751285277449806,
      "loss": 2.7997,
      "step": 769
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6668149810761174,
      "learning_rate": 0.0007506429152307756,
      "loss": 2.8383,
      "step": 770
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6583928761527886,
      "learning_rate": 0.00075,
      "loss": 2.9041,
      "step": 771
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6165374673789986,
      "learning_rate": 0.00074935653317599,
      "loss": 2.8286,
      "step": 772
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7105466741839712,
      "learning_rate": 0.000748712516178473,
      "loss": 2.8574,
      "step": 773
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6987700983834068,
      "learning_rate": 0.0007480679504283911,
      "loss": 2.9853,
      "step": 774
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7195361243042511,
      "learning_rate": 0.0007474228373478964,
      "loss": 2.8987,
      "step": 775
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6566282064104466,
      "learning_rate": 0.0007467771783603492,
      "loss": 2.9726,
      "step": 776
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6711675486218207,
      "learning_rate": 0.0007461309748903138,
      "loss": 2.7901,
      "step": 777
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7047976109967236,
      "learning_rate": 0.0007454842283635562,
      "loss": 2.8252,
      "step": 778
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6347876014702384,
      "learning_rate": 0.0007448369402070404,
      "loss": 2.7819,
      "step": 779
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6501527705201948,
      "learning_rate": 0.0007441891118489254,
      "loss": 2.8531,
      "step": 780
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7513913779563098,
      "learning_rate": 0.0007435407447185622,
      "loss": 2.8624,
      "step": 781
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6375417179846173,
      "learning_rate": 0.0007428918402464908,
      "loss": 2.8795,
      "step": 782
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6794976032056942,
      "learning_rate": 0.0007422423998644359,
      "loss": 2.8386,
      "step": 783
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7105010354010419,
      "learning_rate": 0.0007415924250053055,
      "loss": 2.8279,
      "step": 784
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.708499949630301,
      "learning_rate": 0.0007409419171031865,
      "loss": 2.8638,
      "step": 785
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6767511513959931,
      "learning_rate": 0.0007402908775933419,
      "loss": 2.8458,
      "step": 786
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.624855683068869,
      "learning_rate": 0.0007396393079122077,
      "loss": 2.7898,
      "step": 787
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.644299500100122,
      "learning_rate": 0.0007389872094973896,
      "loss": 2.864,
      "step": 788
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.650380889625101,
      "learning_rate": 0.00073833458378766,
      "loss": 2.9314,
      "step": 789
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6432812823537791,
      "learning_rate": 0.0007376814322229544,
      "loss": 2.8123,
      "step": 790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6798922689224729,
      "learning_rate": 0.0007370277562443688,
      "loss": 2.9116,
      "step": 791
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.677212871750393,
      "learning_rate": 0.0007363735572941564,
      "loss": 2.8625,
      "step": 792
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6504735886969696,
      "learning_rate": 0.0007357188368157236,
      "loss": 2.8241,
      "step": 793
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7059414574228032,
      "learning_rate": 0.0007350635962536284,
      "loss": 2.8346,
      "step": 794
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6700195988309257,
      "learning_rate": 0.0007344078370535756,
      "loss": 2.8674,
      "step": 795
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6803812781889931,
      "learning_rate": 0.0007337515606624148,
      "loss": 2.8959,
      "step": 796
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6767050302181459,
      "learning_rate": 0.0007330947685281362,
      "loss": 2.88,
      "step": 797
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6414487108384049,
      "learning_rate": 0.0007324374620998682,
      "loss": 2.7665,
      "step": 798
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6281430789691612,
      "learning_rate": 0.000731779642827874,
      "loss": 2.8512,
      "step": 799
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7275673568939098,
      "learning_rate": 0.0007311213121635483,
      "loss": 2.8559,
      "step": 800
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6830243832616503,
      "learning_rate": 0.0007304624715594139,
      "loss": 2.8051,
      "step": 801
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6910643801762241,
      "learning_rate": 0.0007298031224691193,
      "loss": 2.9528,
      "step": 802
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6588111039113771,
      "learning_rate": 0.0007291432663474339,
      "loss": 2.8736,
      "step": 803
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6396728717000612,
      "learning_rate": 0.0007284829046502467,
      "loss": 2.8669,
      "step": 804
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6836101788382131,
      "learning_rate": 0.0007278220388345619,
      "loss": 2.8079,
      "step": 805
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6467081308223376,
      "learning_rate": 0.0007271606703584958,
      "loss": 2.7147,
      "step": 806
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6916523028173526,
      "learning_rate": 0.000726498800681274,
      "loss": 2.7619,
      "step": 807
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6401494871347828,
      "learning_rate": 0.0007258364312632279,
      "loss": 2.7801,
      "step": 808
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6647172130865785,
      "learning_rate": 0.0007251735635657915,
      "loss": 2.916,
      "step": 809
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.615229028577924,
      "learning_rate": 0.000724510199051498,
      "loss": 2.8663,
      "step": 810
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7010997626365965,
      "learning_rate": 0.0007238463391839769,
      "loss": 2.974,
      "step": 811
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6582940037589831,
      "learning_rate": 0.0007231819854279508,
      "loss": 2.8448,
      "step": 812
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6768482703071028,
      "learning_rate": 0.0007225171392492316,
      "loss": 2.7897,
      "step": 813
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6318834374845765,
      "learning_rate": 0.0007218518021147182,
      "loss": 2.8573,
      "step": 814
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6324584375139606,
      "learning_rate": 0.0007211859754923923,
      "loss": 2.8998,
      "step": 815
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6827909691166996,
      "learning_rate": 0.0007205196608513158,
      "loss": 2.7599,
      "step": 816
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6375755762155171,
      "learning_rate": 0.0007198528596616272,
      "loss": 2.8514,
      "step": 817
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6056403267439662,
      "learning_rate": 0.0007191855733945387,
      "loss": 2.7186,
      "step": 818
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6572247848146298,
      "learning_rate": 0.0007185178035223327,
      "loss": 2.6554,
      "step": 819
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7020985547996746,
      "learning_rate": 0.0007178495515183583,
      "loss": 2.718,
      "step": 820
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6831051622079264,
      "learning_rate": 0.000717180818857029,
      "loss": 2.7589,
      "step": 821
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.683479542176189,
      "learning_rate": 0.0007165116070138182,
      "loss": 2.8138,
      "step": 822
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6917050102329145,
      "learning_rate": 0.0007158419174652569,
      "loss": 2.7494,
      "step": 823
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6575023225317403,
      "learning_rate": 0.00071517175168893,
      "loss": 2.8137,
      "step": 824
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6619286588198278,
      "learning_rate": 0.0007145011111634732,
      "loss": 2.776,
      "step": 825
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.626652260739784,
      "learning_rate": 0.0007138299973685694,
      "loss": 2.8982,
      "step": 826
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6165414682620002,
      "learning_rate": 0.0007131584117849459,
      "loss": 2.845,
      "step": 827
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6185191193054965,
      "learning_rate": 0.0007124863558943713,
      "loss": 2.8582,
      "step": 828
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6013713375295204,
      "learning_rate": 0.0007118138311796514,
      "loss": 2.8393,
      "step": 829
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.657317398186758,
      "learning_rate": 0.0007111408391246262,
      "loss": 2.8314,
      "step": 830
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.672710081910202,
      "learning_rate": 0.0007104673812141675,
      "loss": 2.7738,
      "step": 831
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6423546525971213,
      "learning_rate": 0.0007097934589341745,
      "loss": 2.8214,
      "step": 832
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6225398384476111,
      "learning_rate": 0.0007091190737715711,
      "loss": 2.8719,
      "step": 833
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6300994335702544,
      "learning_rate": 0.0007084442272143026,
      "loss": 2.7976,
      "step": 834
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6466854362561845,
      "learning_rate": 0.000707768920751332,
      "loss": 2.8353,
      "step": 835
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6523590948294402,
      "learning_rate": 0.0007070931558726373,
      "loss": 2.9414,
      "step": 836
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6703531013020557,
      "learning_rate": 0.0007064169340692076,
      "loss": 2.9319,
      "step": 837
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6472708574796016,
      "learning_rate": 0.0007057402568330407,
      "loss": 2.7966,
      "step": 838
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6520786657064959,
      "learning_rate": 0.0007050631256571389,
      "loss": 2.8299,
      "step": 839
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6947093660320908,
      "learning_rate": 0.000704385542035506,
      "loss": 2.868,
      "step": 840
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6602507682742397,
      "learning_rate": 0.000703707507463144,
      "loss": 2.9477,
      "step": 841
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6805026250847782,
      "learning_rate": 0.0007030290234360505,
      "loss": 2.7857,
      "step": 842
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6921933996128803,
      "learning_rate": 0.0007023500914512139,
      "loss": 2.8169,
      "step": 843
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.650580828039585,
      "learning_rate": 0.0007016707130066116,
      "loss": 2.8971,
      "step": 844
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6699990384212833,
      "learning_rate": 0.0007009908896012055,
      "loss": 2.8578,
      "step": 845
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.643340570796531,
      "learning_rate": 0.0007003106227349399,
      "loss": 2.8944,
      "step": 846
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6712387497113139,
      "learning_rate": 0.000699629913908737,
      "loss": 2.811,
      "step": 847
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6623314398291158,
      "learning_rate": 0.0006989487646244943,
      "loss": 2.8469,
      "step": 848
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7125184351036905,
      "learning_rate": 0.0006982671763850814,
      "loss": 2.7939,
      "step": 849
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6356264500053816,
      "learning_rate": 0.0006975851506943359,
      "loss": 2.8887,
      "step": 850
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.637892674627148,
      "learning_rate": 0.0006969026890570611,
      "loss": 2.9034,
      "step": 851
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.641128053662141,
      "learning_rate": 0.0006962197929790216,
      "loss": 2.7818,
      "step": 852
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6681797206296939,
      "learning_rate": 0.0006955364639669409,
      "loss": 2.7997,
      "step": 853
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6683106073995434,
      "learning_rate": 0.0006948527035284978,
      "loss": 2.7838,
      "step": 854
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6597408357764618,
      "learning_rate": 0.0006941685131723225,
      "loss": 2.8159,
      "step": 855
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6826396599213882,
      "learning_rate": 0.0006934838944079943,
      "loss": 2.8434,
      "step": 856
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6705538950146929,
      "learning_rate": 0.0006927988487460378,
      "loss": 2.8434,
      "step": 857
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6183835467876226,
      "learning_rate": 0.0006921133776979186,
      "loss": 2.8124,
      "step": 858
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6339035108838483,
      "learning_rate": 0.0006914274827760418,
      "loss": 2.8001,
      "step": 859
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6303299359449553,
      "learning_rate": 0.0006907411654937475,
      "loss": 2.7627,
      "step": 860
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6526942151464133,
      "learning_rate": 0.0006900544273653075,
      "loss": 2.8775,
      "step": 861
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6425390831898974,
      "learning_rate": 0.000689367269905922,
      "loss": 2.6503,
      "step": 862
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6110437254677608,
      "learning_rate": 0.0006886796946317168,
      "loss": 2.7202,
      "step": 863
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6784347858958367,
      "learning_rate": 0.0006879917030597397,
      "loss": 2.8228,
      "step": 864
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6441197844062947,
      "learning_rate": 0.0006873032967079561,
      "loss": 2.8789,
      "step": 865
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6462209483642265,
      "learning_rate": 0.0006866144770952474,
      "loss": 2.7812,
      "step": 866
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6313397522854628,
      "learning_rate": 0.0006859252457414067,
      "loss": 2.8194,
      "step": 867
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6851600464084924,
      "learning_rate": 0.0006852356041671351,
      "loss": 2.8331,
      "step": 868
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6752035920756047,
      "learning_rate": 0.0006845455538940394,
      "loss": 2.8619,
      "step": 869
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6730884783979343,
      "learning_rate": 0.0006838550964446276,
      "loss": 2.8668,
      "step": 870
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.661108701251095,
      "learning_rate": 0.0006831642333423067,
      "loss": 2.7023,
      "step": 871
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6439215885982454,
      "learning_rate": 0.000682472966111378,
      "loss": 2.741,
      "step": 872
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6891919449034237,
      "learning_rate": 0.0006817812962770348,
      "loss": 2.7913,
      "step": 873
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6682657204351297,
      "learning_rate": 0.0006810892253653589,
      "loss": 2.8986,
      "step": 874
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6911633277275944,
      "learning_rate": 0.0006803967549033167,
      "loss": 2.9208,
      "step": 875
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6614571007243235,
      "learning_rate": 0.0006797038864187564,
      "loss": 2.7507,
      "step": 876
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6433639312415241,
      "learning_rate": 0.0006790106214404043,
      "loss": 2.8399,
      "step": 877
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6317644411999921,
      "learning_rate": 0.0006783169614978614,
      "loss": 2.8222,
      "step": 878
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6463528285473991,
      "learning_rate": 0.0006776229081216001,
      "loss": 2.8225,
      "step": 879
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6383754491763907,
      "learning_rate": 0.0006769284628429611,
      "loss": 2.8837,
      "step": 880
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6357966162279989,
      "learning_rate": 0.0006762336271941498,
      "loss": 2.7765,
      "step": 881
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6425080080584749,
      "learning_rate": 0.0006755384027082326,
      "loss": 2.6938,
      "step": 882
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6374625567304084,
      "learning_rate": 0.0006748427909191342,
      "loss": 2.741,
      "step": 883
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6730412428564307,
      "learning_rate": 0.0006741467933616335,
      "loss": 2.8522,
      "step": 884
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6855361469463993,
      "learning_rate": 0.0006734504115713604,
      "loss": 2.7785,
      "step": 885
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7017402121581778,
      "learning_rate": 0.0006727536470847932,
      "loss": 2.8295,
      "step": 886
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.657717039367999,
      "learning_rate": 0.000672056501439254,
      "loss": 2.7949,
      "step": 887
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6829472426226201,
      "learning_rate": 0.0006713589761729063,
      "loss": 2.8201,
      "step": 888
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7039908801492405,
      "learning_rate": 0.0006706610728247508,
      "loss": 2.7544,
      "step": 889
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7063341843453184,
      "learning_rate": 0.0006699627929346227,
      "loss": 2.9021,
      "step": 890
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6489900784861634,
      "learning_rate": 0.0006692641380431879,
      "loss": 2.8436,
      "step": 891
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6394468183389042,
      "learning_rate": 0.0006685651096919393,
      "loss": 2.8843,
      "step": 892
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7053294570369525,
      "learning_rate": 0.0006678657094231944,
      "loss": 2.8661,
      "step": 893
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6451549814672224,
      "learning_rate": 0.0006671659387800909,
      "loss": 2.8567,
      "step": 894
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6576898878976147,
      "learning_rate": 0.000666465799306584,
      "loss": 2.8605,
      "step": 895
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6935556714476492,
      "learning_rate": 0.0006657652925474423,
      "loss": 2.889,
      "step": 896
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6359364486140726,
      "learning_rate": 0.000665064420048245,
      "loss": 2.7634,
      "step": 897
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7063556256587206,
      "learning_rate": 0.0006643631833553785,
      "loss": 2.862,
      "step": 898
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.617037115524754,
      "learning_rate": 0.000663661584016032,
      "loss": 2.8777,
      "step": 899
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6775947398835831,
      "learning_rate": 0.0006629596235781957,
      "loss": 2.8864,
      "step": 900
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6467390969950593,
      "learning_rate": 0.0006622573035906556,
      "loss": 2.7346,
      "step": 901
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6894532708143958,
      "learning_rate": 0.0006615546256029921,
      "loss": 2.8129,
      "step": 902
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6628090525182255,
      "learning_rate": 0.0006608515911655743,
      "loss": 2.8651,
      "step": 903
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6269581594075185,
      "learning_rate": 0.0006601482018295591,
      "loss": 2.897,
      "step": 904
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6785424061428552,
      "learning_rate": 0.0006594444591468851,
      "loss": 2.7767,
      "step": 905
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6913125066465915,
      "learning_rate": 0.0006587403646702713,
      "loss": 2.7376,
      "step": 906
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6383186978807115,
      "learning_rate": 0.0006580359199532126,
      "loss": 2.8251,
      "step": 907
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.609631351011384,
      "learning_rate": 0.000657331126549977,
      "loss": 2.7836,
      "step": 908
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6264535264000234,
      "learning_rate": 0.0006566259860156014,
      "loss": 2.8288,
      "step": 909
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6751961885570701,
      "learning_rate": 0.0006559204999058888,
      "loss": 2.8464,
      "step": 910
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6635357653546411,
      "learning_rate": 0.0006552146697774049,
      "loss": 2.8515,
      "step": 911
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7026845002558647,
      "learning_rate": 0.0006545084971874737,
      "loss": 2.6692,
      "step": 912
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6357924071418309,
      "learning_rate": 0.0006538019836941758,
      "loss": 2.6384,
      "step": 913
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6621423314172385,
      "learning_rate": 0.0006530951308563431,
      "loss": 2.7994,
      "step": 914
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6316860528698579,
      "learning_rate": 0.0006523879402335567,
      "loss": 2.8738,
      "step": 915
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6840342389170786,
      "learning_rate": 0.0006516804133861429,
      "loss": 2.8707,
      "step": 916
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6786888057844995,
      "learning_rate": 0.0006509725518751698,
      "loss": 2.9252,
      "step": 917
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6230724322308074,
      "learning_rate": 0.0006502643572624438,
      "loss": 2.9645,
      "step": 918
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6480729532837318,
      "learning_rate": 0.0006495558311105064,
      "loss": 2.7603,
      "step": 919
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6051782539105303,
      "learning_rate": 0.0006488469749826305,
      "loss": 2.8802,
      "step": 920
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6521081774133886,
      "learning_rate": 0.000648137790442817,
      "loss": 2.8531,
      "step": 921
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6241446419538993,
      "learning_rate": 0.0006474282790557916,
      "loss": 2.7782,
      "step": 922
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6080152582975951,
      "learning_rate": 0.000646718442387001,
      "loss": 2.8193,
      "step": 923
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6432273681352122,
      "learning_rate": 0.0006460082820026094,
      "loss": 2.8027,
      "step": 924
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6101103644200566,
      "learning_rate": 0.0006452977994694959,
      "loss": 2.7603,
      "step": 925
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6918680956067716,
      "learning_rate": 0.0006445869963552496,
      "loss": 2.938,
      "step": 926
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6970821571858448,
      "learning_rate": 0.0006438758742281672,
      "loss": 2.8788,
      "step": 927
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6714463026175794,
      "learning_rate": 0.0006431644346572495,
      "loss": 2.837,
      "step": 928
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6534419485336769,
      "learning_rate": 0.0006424526792121974,
      "loss": 2.8126,
      "step": 929
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6569780724950447,
      "learning_rate": 0.0006417406094634089,
      "loss": 2.783,
      "step": 930
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6152541012167855,
      "learning_rate": 0.0006410282269819756,
      "loss": 2.669,
      "step": 931
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6106794136532617,
      "learning_rate": 0.0006403155333396787,
      "loss": 2.8595,
      "step": 932
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6773966606076006,
      "learning_rate": 0.0006396025301089863,
      "loss": 2.8285,
      "step": 933
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6450597852802665,
      "learning_rate": 0.0006388892188630493,
      "loss": 2.7491,
      "step": 934
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6150185319282352,
      "learning_rate": 0.0006381756011756982,
      "loss": 2.9454,
      "step": 935
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6123170634374495,
      "learning_rate": 0.0006374616786214403,
      "loss": 2.8718,
      "step": 936
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6609387402535163,
      "learning_rate": 0.0006367474527754544,
      "loss": 2.7679,
      "step": 937
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6411098647167845,
      "learning_rate": 0.0006360329252135894,
      "loss": 2.6949,
      "step": 938
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6545870391994457,
      "learning_rate": 0.0006353180975123595,
      "loss": 2.7869,
      "step": 939
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6504222464225352,
      "learning_rate": 0.0006346029712489413,
      "loss": 2.8531,
      "step": 940
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6425337529321639,
      "learning_rate": 0.0006338875480011698,
      "loss": 2.762,
      "step": 941
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6368531705996588,
      "learning_rate": 0.0006331718293475357,
      "loss": 2.8883,
      "step": 942
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6345448964251504,
      "learning_rate": 0.0006324558168671811,
      "loss": 2.7511,
      "step": 943
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.67151735272666,
      "learning_rate": 0.0006317395121398968,
      "loss": 2.8963,
      "step": 944
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6703761073017157,
      "learning_rate": 0.0006310229167461179,
      "loss": 2.7538,
      "step": 945
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.601806697518854,
      "learning_rate": 0.0006303060322669214,
      "loss": 2.7196,
      "step": 946
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6946686006082274,
      "learning_rate": 0.0006295888602840214,
      "loss": 2.7941,
      "step": 947
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6358889869791414,
      "learning_rate": 0.0006288714023797671,
      "loss": 2.7289,
      "step": 948
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6593060797330235,
      "learning_rate": 0.000628153660137138,
      "loss": 2.7805,
      "step": 949
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6979264965941234,
      "learning_rate": 0.0006274356351397413,
      "loss": 2.8695,
      "step": 950
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6588797144632866,
      "learning_rate": 0.0006267173289718079,
      "loss": 2.8673,
      "step": 951
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6490732460592944,
      "learning_rate": 0.000625998743218189,
      "loss": 2.9421,
      "step": 952
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5811393479433044,
      "learning_rate": 0.000625279879464353,
      "loss": 2.7641,
      "step": 953
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.664271656401736,
      "learning_rate": 0.000624560739296381,
      "loss": 2.8022,
      "step": 954
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.679206746876827,
      "learning_rate": 0.0006238413243009648,
      "loss": 2.7397,
      "step": 955
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6390504974076052,
      "learning_rate": 0.000623121636065402,
      "loss": 2.8988,
      "step": 956
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5982397414143763,
      "learning_rate": 0.0006224016761775933,
      "loss": 2.8576,
      "step": 957
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6367748249156486,
      "learning_rate": 0.0006216814462260386,
      "loss": 2.8817,
      "step": 958
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6249803531485728,
      "learning_rate": 0.0006209609477998338,
      "loss": 2.7501,
      "step": 959
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6580777190430133,
      "learning_rate": 0.0006202401824886674,
      "loss": 2.8981,
      "step": 960
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6780491201067299,
      "learning_rate": 0.0006195191518828162,
      "loss": 2.8064,
      "step": 961
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6702694684203198,
      "learning_rate": 0.0006187978575731427,
      "loss": 2.8799,
      "step": 962
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.645960755955511,
      "learning_rate": 0.0006180763011510911,
      "loss": 2.8513,
      "step": 963
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6039940505790157,
      "learning_rate": 0.000617354484208684,
      "loss": 2.6327,
      "step": 964
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6677091936839217,
      "learning_rate": 0.0006166324083385189,
      "loss": 2.8862,
      "step": 965
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6827894742740226,
      "learning_rate": 0.0006159100751337642,
      "loss": 2.7651,
      "step": 966
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6803842392425176,
      "learning_rate": 0.0006151874861881565,
      "loss": 2.8837,
      "step": 967
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6304844786734837,
      "learning_rate": 0.0006144646430959964,
      "loss": 2.8775,
      "step": 968
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6192496106313646,
      "learning_rate": 0.0006137415474521454,
      "loss": 2.7953,
      "step": 969
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.618521404993983,
      "learning_rate": 0.0006130182008520222,
      "loss": 2.9229,
      "step": 970
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6243560232069123,
      "learning_rate": 0.000612294604891599,
      "loss": 2.7964,
      "step": 971
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.679250631741959,
      "learning_rate": 0.0006115707611673986,
      "loss": 2.7683,
      "step": 972
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6366633824304159,
      "learning_rate": 0.0006108466712764902,
      "loss": 2.8864,
      "step": 973
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6404792921521623,
      "learning_rate": 0.0006101223368164858,
      "loss": 2.8749,
      "step": 974
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6836397086709257,
      "learning_rate": 0.0006093977593855375,
      "loss": 2.8169,
      "step": 975
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6655928771058002,
      "learning_rate": 0.0006086729405823335,
      "loss": 2.7728,
      "step": 976
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6770110484561592,
      "learning_rate": 0.0006079478820060943,
      "loss": 2.7848,
      "step": 977
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6194801350858231,
      "learning_rate": 0.0006072225852565695,
      "loss": 2.7848,
      "step": 978
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6600444797149354,
      "learning_rate": 0.0006064970519340341,
      "loss": 2.7294,
      "step": 979
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.651757009827359,
      "learning_rate": 0.0006057712836392856,
      "loss": 2.6731,
      "step": 980
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7095060393687154,
      "learning_rate": 0.0006050452819736389,
      "loss": 2.8028,
      "step": 981
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6378384342065095,
      "learning_rate": 0.000604319048538925,
      "loss": 2.7974,
      "step": 982
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6516526798940574,
      "learning_rate": 0.0006035925849374855,
      "loss": 2.8816,
      "step": 983
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.657723208041418,
      "learning_rate": 0.0006028658927721697,
      "loss": 2.8321,
      "step": 984
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6364055787509102,
      "learning_rate": 0.0006021389736463321,
      "loss": 2.7009,
      "step": 985
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6672165422391325,
      "learning_rate": 0.0006014118291638271,
      "loss": 2.7665,
      "step": 986
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6227998690519988,
      "learning_rate": 0.0006006844609290065,
      "loss": 2.8237,
      "step": 987
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6218303598154977,
      "learning_rate": 0.0005999568705467161,
      "loss": 2.7544,
      "step": 988
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.646056014007768,
      "learning_rate": 0.0005992290596222915,
      "loss": 2.8276,
      "step": 989
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6677935116923817,
      "learning_rate": 0.0005985010297615551,
      "loss": 2.9213,
      "step": 990
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6365619943935695,
      "learning_rate": 0.0005977727825708123,
      "loss": 2.7845,
      "step": 991
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6703849269612259,
      "learning_rate": 0.0005970443196568478,
      "loss": 2.8166,
      "step": 992
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6481058812225433,
      "learning_rate": 0.0005963156426269227,
      "loss": 2.8088,
      "step": 993
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6631856063389966,
      "learning_rate": 0.0005955867530887702,
      "loss": 2.795,
      "step": 994
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6439796529199748,
      "learning_rate": 0.0005948576526505923,
      "loss": 2.7771,
      "step": 995
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6317771105092698,
      "learning_rate": 0.0005941283429210568,
      "loss": 2.7674,
      "step": 996
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6113897890179166,
      "learning_rate": 0.0005933988255092926,
      "loss": 2.7985,
      "step": 997
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.633456925860764,
      "learning_rate": 0.0005926691020248874,
      "loss": 2.6913,
      "step": 998
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6462296203909401,
      "learning_rate": 0.0005919391740778833,
      "loss": 2.8374,
      "step": 999
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6489641498816938,
      "learning_rate": 0.0005912090432787736,
      "loss": 2.7429,
      "step": 1000
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6882623102187995,
      "learning_rate": 0.000590478711238499,
      "loss": 2.7876,
      "step": 1001
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6290044675836121,
      "learning_rate": 0.0005897481795684446,
      "loss": 2.781,
      "step": 1002
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6562722921515378,
      "learning_rate": 0.0005890174498804355,
      "loss": 2.8546,
      "step": 1003
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.647921099023526,
      "learning_rate": 0.0005882865237867339,
      "loss": 2.739,
      "step": 1004
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6430078162876027,
      "learning_rate": 0.0005875554029000353,
      "loss": 2.8473,
      "step": 1005
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6178048399854651,
      "learning_rate": 0.0005868240888334653,
      "loss": 2.854,
      "step": 1006
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6110673232043129,
      "learning_rate": 0.0005860925832005753,
      "loss": 2.7966,
      "step": 1007
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6519782344738387,
      "learning_rate": 0.0005853608876153395,
      "loss": 2.7216,
      "step": 1008
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6473086745729413,
      "learning_rate": 0.0005846290036921512,
      "loss": 2.7879,
      "step": 1009
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6535805375237734,
      "learning_rate": 0.0005838969330458195,
      "loss": 2.8368,
      "step": 1010
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6717635024320405,
      "learning_rate": 0.0005831646772915651,
      "loss": 2.8403,
      "step": 1011
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6799738679137991,
      "learning_rate": 0.0005824322380450173,
      "loss": 2.9009,
      "step": 1012
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.650381768550353,
      "learning_rate": 0.0005816996169222102,
      "loss": 2.8365,
      "step": 1013
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6288874298308469,
      "learning_rate": 0.0005809668155395793,
      "loss": 2.767,
      "step": 1014
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6538557541616926,
      "learning_rate": 0.0005802338355139578,
      "loss": 2.7354,
      "step": 1015
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6010246036008144,
      "learning_rate": 0.0005795006784625728,
      "loss": 2.8092,
      "step": 1016
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6122310514740935,
      "learning_rate": 0.0005787673460030423,
      "loss": 2.7957,
      "step": 1017
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6069783948510697,
      "learning_rate": 0.000578033839753371,
      "loss": 2.7699,
      "step": 1018
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6948468350820757,
      "learning_rate": 0.0005773001613319476,
      "loss": 2.8471,
      "step": 1019
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6913316805142534,
      "learning_rate": 0.00057656631235754,
      "loss": 2.8355,
      "step": 1020
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6525243999902035,
      "learning_rate": 0.0005758322944492929,
      "loss": 2.8905,
      "step": 1021
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6537053901419875,
      "learning_rate": 0.0005750981092267237,
      "loss": 2.8331,
      "step": 1022
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6573505711782152,
      "learning_rate": 0.0005743637583097183,
      "loss": 2.812,
      "step": 1023
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6851014431737846,
      "learning_rate": 0.0005736292433185291,
      "loss": 2.7498,
      "step": 1024
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6249651344660951,
      "learning_rate": 0.0005728945658737699,
      "loss": 2.8324,
      "step": 1025
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.658663266027406,
      "learning_rate": 0.0005721597275964133,
      "loss": 2.8482,
      "step": 1026
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6511071507218827,
      "learning_rate": 0.0005714247301077865,
      "loss": 2.7841,
      "step": 1027
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.623687166596817,
      "learning_rate": 0.0005706895750295682,
      "loss": 2.8587,
      "step": 1028
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6142266922984857,
      "learning_rate": 0.0005699542639837844,
      "loss": 2.7008,
      "step": 1029
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6461463341264593,
      "learning_rate": 0.0005692187985928055,
      "loss": 2.8783,
      "step": 1030
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6120371091967152,
      "learning_rate": 0.0005684831804793427,
      "loss": 2.6942,
      "step": 1031
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6081400722016902,
      "learning_rate": 0.0005677474112664438,
      "loss": 2.7547,
      "step": 1032
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6500092243114506,
      "learning_rate": 0.0005670114925774899,
      "loss": 2.7623,
      "step": 1033
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.665097663090073,
      "learning_rate": 0.0005662754260361924,
      "loss": 2.806,
      "step": 1034
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6380745357688592,
      "learning_rate": 0.0005655392132665884,
      "loss": 2.7857,
      "step": 1035
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6605375006031048,
      "learning_rate": 0.000564802855893038,
      "loss": 2.7906,
      "step": 1036
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6643334575157506,
      "learning_rate": 0.0005640663555402198,
      "loss": 2.8291,
      "step": 1037
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.681394876372352,
      "learning_rate": 0.0005633297138331285,
      "loss": 2.7066,
      "step": 1038
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6168909714785439,
      "learning_rate": 0.0005625929323970705,
      "loss": 2.785,
      "step": 1039
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6316871779126412,
      "learning_rate": 0.0005618560128576603,
      "loss": 2.7415,
      "step": 1040
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6601243079546848,
      "learning_rate": 0.0005611189568408173,
      "loss": 2.8874,
      "step": 1041
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7328789246853801,
      "learning_rate": 0.0005603817659727619,
      "loss": 2.8736,
      "step": 1042
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6745751737108492,
      "learning_rate": 0.0005596444418800121,
      "loss": 2.9033,
      "step": 1043
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6405444264115894,
      "learning_rate": 0.0005589069861893798,
      "loss": 2.7623,
      "step": 1044
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6187222431045536,
      "learning_rate": 0.0005581694005279673,
      "loss": 2.8234,
      "step": 1045
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6088422941720759,
      "learning_rate": 0.0005574316865231637,
      "loss": 2.7334,
      "step": 1046
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6078168553771758,
      "learning_rate": 0.0005566938458026411,
      "loss": 2.7511,
      "step": 1047
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6223473038581202,
      "learning_rate": 0.0005559558799943514,
      "loss": 2.8296,
      "step": 1048
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6254563056348991,
      "learning_rate": 0.0005552177907265223,
      "loss": 2.8156,
      "step": 1049
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6585423096637241,
      "learning_rate": 0.000554479579627654,
      "loss": 2.8599,
      "step": 1050
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6289866031898055,
      "learning_rate": 0.0005537412483265157,
      "loss": 2.8022,
      "step": 1051
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6555111026151906,
      "learning_rate": 0.0005530027984521413,
      "loss": 2.8069,
      "step": 1052
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6481655137876906,
      "learning_rate": 0.0005522642316338268,
      "loss": 2.7634,
      "step": 1053
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7600507730925433,
      "learning_rate": 0.0005515255495011259,
      "loss": 2.861,
      "step": 1054
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6253101207495895,
      "learning_rate": 0.0005507867536838472,
      "loss": 2.8769,
      "step": 1055
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6641500509651912,
      "learning_rate": 0.0005500478458120492,
      "loss": 2.8499,
      "step": 1056
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6134620575931949,
      "learning_rate": 0.0005493088275160387,
      "loss": 2.7599,
      "step": 1057
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6586316955470254,
      "learning_rate": 0.0005485697004263657,
      "loss": 2.7986,
      "step": 1058
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.624048987140075,
      "learning_rate": 0.0005478304661738199,
      "loss": 2.8883,
      "step": 1059
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6459162064932127,
      "learning_rate": 0.0005470911263894279,
      "loss": 2.7563,
      "step": 1060
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6763076237751451,
      "learning_rate": 0.0005463516827044491,
      "loss": 2.7938,
      "step": 1061
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6206693615777228,
      "learning_rate": 0.000545612136750372,
      "loss": 2.8804,
      "step": 1062
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6429779036255244,
      "learning_rate": 0.0005448724901589107,
      "loss": 2.7275,
      "step": 1063
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6371792146954438,
      "learning_rate": 0.0005441327445620014,
      "loss": 2.7684,
      "step": 1064
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6596181561637787,
      "learning_rate": 0.0005433929015917988,
      "loss": 2.856,
      "step": 1065
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6553144266436355,
      "learning_rate": 0.0005426529628806724,
      "loss": 2.8081,
      "step": 1066
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6864166094464929,
      "learning_rate": 0.0005419129300612029,
      "loss": 2.7796,
      "step": 1067
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6211720562790642,
      "learning_rate": 0.000541172804766179,
      "loss": 2.797,
      "step": 1068
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6351409707744679,
      "learning_rate": 0.0005404325886285927,
      "loss": 2.836,
      "step": 1069
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6689309063395904,
      "learning_rate": 0.000539692283281637,
      "loss": 2.7327,
      "step": 1070
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6478374897171414,
      "learning_rate": 0.0005389518903587017,
      "loss": 2.9032,
      "step": 1071
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6138415153839947,
      "learning_rate": 0.0005382114114933695,
      "loss": 2.8288,
      "step": 1072
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5926235941970769,
      "learning_rate": 0.0005374708483194132,
      "loss": 2.7338,
      "step": 1073
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6041445289198832,
      "learning_rate": 0.000536730202470791,
      "loss": 2.7515,
      "step": 1074
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6122242565206845,
      "learning_rate": 0.0005359894755816443,
      "loss": 2.8253,
      "step": 1075
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5947516089598155,
      "learning_rate": 0.0005352486692862926,
      "loss": 2.8042,
      "step": 1076
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6241842270237038,
      "learning_rate": 0.0005345077852192307,
      "loss": 2.8612,
      "step": 1077
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6542271358113072,
      "learning_rate": 0.0005337668250151254,
      "loss": 2.7348,
      "step": 1078
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6232294738585494,
      "learning_rate": 0.0005330257903088111,
      "loss": 2.8154,
      "step": 1079
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6530438587914764,
      "learning_rate": 0.000532284682735287,
      "loss": 2.793,
      "step": 1080
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6387519160873849,
      "learning_rate": 0.0005315435039297124,
      "loss": 2.7459,
      "step": 1081
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6323620627322497,
      "learning_rate": 0.0005308022555274046,
      "loss": 2.7294,
      "step": 1082
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6128059281886653,
      "learning_rate": 0.0005300609391638336,
      "loss": 2.7926,
      "step": 1083
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6718429817314946,
      "learning_rate": 0.0005293195564746201,
      "loss": 2.854,
      "step": 1084
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6027374012481128,
      "learning_rate": 0.0005285781090955304,
      "loss": 2.768,
      "step": 1085
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6342678394259824,
      "learning_rate": 0.0005278365986624743,
      "loss": 2.7831,
      "step": 1086
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6423551813113064,
      "learning_rate": 0.0005270950268115001,
      "loss": 2.7449,
      "step": 1087
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6477994062135121,
      "learning_rate": 0.0005263533951787919,
      "loss": 2.7545,
      "step": 1088
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6592413317198098,
      "learning_rate": 0.000525611705400666,
      "loss": 2.7468,
      "step": 1089
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6778772928285216,
      "learning_rate": 0.0005248699591135664,
      "loss": 2.8517,
      "step": 1090
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6343215425992852,
      "learning_rate": 0.0005241281579540618,
      "loss": 2.8281,
      "step": 1091
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6117175004283055,
      "learning_rate": 0.0005233863035588427,
      "loss": 2.7295,
      "step": 1092
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6463401648586088,
      "learning_rate": 0.0005226443975647161,
      "loss": 2.7648,
      "step": 1093
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6505039482270331,
      "learning_rate": 0.0005219024416086036,
      "loss": 2.7762,
      "step": 1094
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6200184934338929,
      "learning_rate": 0.0005211604373275366,
      "loss": 2.7526,
      "step": 1095
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6390556380882628,
      "learning_rate": 0.0005204183863586533,
      "loss": 2.82,
      "step": 1096
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6450313782982992,
      "learning_rate": 0.0005196762903391951,
      "loss": 2.9149,
      "step": 1097
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6282602395529642,
      "learning_rate": 0.0005189341509065023,
      "loss": 2.7232,
      "step": 1098
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.696782971676494,
      "learning_rate": 0.0005181919696980112,
      "loss": 2.8308,
      "step": 1099
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.630042449394694,
      "learning_rate": 0.0005174497483512506,
      "loss": 2.6131,
      "step": 1100
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.660555283855771,
      "learning_rate": 0.0005167074885038374,
      "loss": 2.8079,
      "step": 1101
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6824842894880345,
      "learning_rate": 0.0005159651917934735,
      "loss": 2.7406,
      "step": 1102
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6267543560044656,
      "learning_rate": 0.0005152228598579428,
      "loss": 2.7122,
      "step": 1103
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.682719971751918,
      "learning_rate": 0.000514480494335106,
      "loss": 2.7901,
      "step": 1104
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6445335386193758,
      "learning_rate": 0.0005137380968628983,
      "loss": 2.722,
      "step": 1105
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6365529092614447,
      "learning_rate": 0.0005129956690793255,
      "loss": 2.7187,
      "step": 1106
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6244937832984365,
      "learning_rate": 0.0005122532126224601,
      "loss": 2.7544,
      "step": 1107
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6148389715784361,
      "learning_rate": 0.0005115107291304378,
      "loss": 2.8267,
      "step": 1108
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6584822886258797,
      "learning_rate": 0.0005107682202414544,
      "loss": 2.709,
      "step": 1109
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6190933233042533,
      "learning_rate": 0.0005100256875937613,
      "loss": 2.7097,
      "step": 1110
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6620823060218402,
      "learning_rate": 0.0005092831328256625,
      "loss": 2.7241,
      "step": 1111
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6449909007620442,
      "learning_rate": 0.0005085405575755105,
      "loss": 2.788,
      "step": 1112
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6762656546281846,
      "learning_rate": 0.0005077979634817034,
      "loss": 2.8368,
      "step": 1113
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6389895259310308,
      "learning_rate": 0.0005070553521826808,
      "loss": 2.7741,
      "step": 1114
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.636594865677625,
      "learning_rate": 0.00050631272531692,
      "loss": 2.8144,
      "step": 1115
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6355650204696507,
      "learning_rate": 0.0005055700845229327,
      "loss": 2.7258,
      "step": 1116
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5917774692726981,
      "learning_rate": 0.000504827431439262,
      "loss": 2.7919,
      "step": 1117
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6326861156952357,
      "learning_rate": 0.000504084767704477,
      "loss": 2.7739,
      "step": 1118
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6139255870150371,
      "learning_rate": 0.0005033420949571712,
      "loss": 2.7972,
      "step": 1119
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6138361735893739,
      "learning_rate": 0.0005025994148359574,
      "loss": 2.7453,
      "step": 1120
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6666648207783342,
      "learning_rate": 0.0005018567289794651,
      "loss": 2.758,
      "step": 1121
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6286867273874681,
      "learning_rate": 0.0005011140390263362,
      "loss": 2.6731,
      "step": 1122
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6427646521790411,
      "learning_rate": 0.0005003713466152218,
      "loss": 2.6959,
      "step": 1123
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6642802378331134,
      "learning_rate": 0.0004996286533847783,
      "loss": 2.8319,
      "step": 1124
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6402648612707385,
      "learning_rate": 0.000498885960973664,
      "loss": 2.7716,
      "step": 1125
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6120148857777371,
      "learning_rate": 0.000498143271020535,
      "loss": 2.8562,
      "step": 1126
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6246748204948556,
      "learning_rate": 0.0004974005851640428,
      "loss": 2.7129,
      "step": 1127
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6383879457286835,
      "learning_rate": 0.000496657905042829,
      "loss": 2.6592,
      "step": 1128
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6089387566107988,
      "learning_rate": 0.0004959152322955232,
      "loss": 2.7974,
      "step": 1129
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6339836851559342,
      "learning_rate": 0.0004951725685607382,
      "loss": 2.7094,
      "step": 1130
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6436164287879164,
      "learning_rate": 0.0004944299154770673,
      "loss": 2.8765,
      "step": 1131
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.637100813280831,
      "learning_rate": 0.0004936872746830802,
      "loss": 2.845,
      "step": 1132
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6138115239073293,
      "learning_rate": 0.0004929446478173195,
      "loss": 2.716,
      "step": 1133
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6300582824956132,
      "learning_rate": 0.0004922020365182968,
      "loss": 2.6704,
      "step": 1134
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.64866050948088,
      "learning_rate": 0.0004914594424244897,
      "loss": 2.7723,
      "step": 1135
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6376001274663657,
      "learning_rate": 0.0004907168671743376,
      "loss": 2.7915,
      "step": 1136
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.643395146757661,
      "learning_rate": 0.0004899743124062387,
      "loss": 2.8329,
      "step": 1137
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6374541084118671,
      "learning_rate": 0.0004892317797585456,
      "loss": 2.8268,
      "step": 1138
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6469123518914278,
      "learning_rate": 0.0004884892708695623,
      "loss": 2.7798,
      "step": 1139
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6285395772539232,
      "learning_rate": 0.0004877467873775402,
      "loss": 2.8825,
      "step": 1140
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.632332669796596,
      "learning_rate": 0.00048700433092067473,
      "loss": 2.6625,
      "step": 1141
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6333682457083977,
      "learning_rate": 0.0004862619031371019,
      "loss": 2.749,
      "step": 1142
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6378530241960467,
      "learning_rate": 0.0004855195056648942,
      "loss": 2.837,
      "step": 1143
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6140971146632731,
      "learning_rate": 0.00048477714014205734,
      "loss": 2.7988,
      "step": 1144
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.652775301406985,
      "learning_rate": 0.00048403480820652644,
      "loss": 2.7836,
      "step": 1145
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.639677645063898,
      "learning_rate": 0.0004832925114961629,
      "loss": 2.8296,
      "step": 1146
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6240443298019196,
      "learning_rate": 0.0004825502516487497,
      "loss": 2.758,
      "step": 1147
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6435173845030893,
      "learning_rate": 0.00048180803030198896,
      "loss": 2.7995,
      "step": 1148
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6357544196991132,
      "learning_rate": 0.0004810658490934979,
      "loss": 2.7339,
      "step": 1149
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6247032072585758,
      "learning_rate": 0.000480323709660805,
      "loss": 2.8059,
      "step": 1150
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.613034015163278,
      "learning_rate": 0.0004795816136413467,
      "loss": 2.7172,
      "step": 1151
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6868105088521904,
      "learning_rate": 0.00047883956267246353,
      "loss": 2.808,
      "step": 1152
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6217791889732895,
      "learning_rate": 0.00047809755839139657,
      "loss": 2.877,
      "step": 1153
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6215388626236851,
      "learning_rate": 0.0004773556024352841,
      "loss": 2.9013,
      "step": 1154
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6317282718817757,
      "learning_rate": 0.00047661369644115754,
      "loss": 2.8028,
      "step": 1155
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6662604130998807,
      "learning_rate": 0.0004758718420459383,
      "loss": 2.8453,
      "step": 1156
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6154768391009283,
      "learning_rate": 0.0004751300408864339,
      "loss": 2.6694,
      "step": 1157
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6570562915903215,
      "learning_rate": 0.00047438829459933414,
      "loss": 2.7501,
      "step": 1158
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6716505758713898,
      "learning_rate": 0.0004736466048212082,
      "loss": 2.7265,
      "step": 1159
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6547063379967089,
      "learning_rate": 0.0004729049731885002,
      "loss": 2.7361,
      "step": 1160
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6256609983288606,
      "learning_rate": 0.000472163401337526,
      "loss": 2.666,
      "step": 1161
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6546157002841385,
      "learning_rate": 0.00047142189090446985,
      "loss": 2.6709,
      "step": 1162
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6040513163472837,
      "learning_rate": 0.0004706804435253802,
      "loss": 2.7119,
      "step": 1163
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6278222945964784,
      "learning_rate": 0.0004699390608361665,
      "loss": 2.7325,
      "step": 1164
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6590808419972488,
      "learning_rate": 0.0004691977444725955,
      "loss": 2.7975,
      "step": 1165
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.636695245779222,
      "learning_rate": 0.0004684564960702877,
      "loss": 2.7209,
      "step": 1166
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6226150670315898,
      "learning_rate": 0.0004677153172647131,
      "loss": 2.7053,
      "step": 1167
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6078907273587658,
      "learning_rate": 0.00046697420969118894,
      "loss": 2.7244,
      "step": 1168
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6479996093094283,
      "learning_rate": 0.00046623317498487466,
      "loss": 2.729,
      "step": 1169
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6413986000026903,
      "learning_rate": 0.0004654922147807694,
      "loss": 2.7957,
      "step": 1170
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6332556472002517,
      "learning_rate": 0.00046475133071370757,
      "loss": 2.8999,
      "step": 1171
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6347019972663959,
      "learning_rate": 0.00046401052441835574,
      "loss": 2.6953,
      "step": 1172
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6122754283082352,
      "learning_rate": 0.000463269797529209,
      "loss": 2.6255,
      "step": 1173
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6682985255412839,
      "learning_rate": 0.00046252915168058697,
      "loss": 2.7789,
      "step": 1174
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6510987122780432,
      "learning_rate": 0.0004617885885066305,
      "loss": 2.7465,
      "step": 1175
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6270455732400106,
      "learning_rate": 0.0004610481096412984,
      "loss": 2.7202,
      "step": 1176
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6671026140281228,
      "learning_rate": 0.000460307716718363,
      "loss": 2.8116,
      "step": 1177
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6471760389576228,
      "learning_rate": 0.0004595674113714074,
      "loss": 2.8112,
      "step": 1178
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6318570318830069,
      "learning_rate": 0.0004588271952338212,
      "loss": 2.7894,
      "step": 1179
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6468224461668577,
      "learning_rate": 0.00045808706993879714,
      "loss": 2.7749,
      "step": 1180
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6189986873148672,
      "learning_rate": 0.00045734703711932767,
      "loss": 2.689,
      "step": 1181
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6410926998682407,
      "learning_rate": 0.0004566070984082013,
      "loss": 2.7853,
      "step": 1182
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6395782374619703,
      "learning_rate": 0.00045586725543799865,
      "loss": 2.6951,
      "step": 1183
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6466445264839661,
      "learning_rate": 0.00045512750984108937,
      "loss": 2.7652,
      "step": 1184
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.625592582921604,
      "learning_rate": 0.000454387863249628,
      "loss": 2.8214,
      "step": 1185
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6089589433806195,
      "learning_rate": 0.00045364831729555096,
      "loss": 2.7991,
      "step": 1186
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6465925722736509,
      "learning_rate": 0.0004529088736105721,
      "loss": 2.777,
      "step": 1187
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6795917908614912,
      "learning_rate": 0.0004521695338261802,
      "loss": 2.83,
      "step": 1188
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6617329985505067,
      "learning_rate": 0.0004514302995736344,
      "loss": 2.7866,
      "step": 1189
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.60974045413122,
      "learning_rate": 0.0004506911724839613,
      "loss": 2.7757,
      "step": 1190
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6430829947837134,
      "learning_rate": 0.0004499521541879508,
      "loss": 2.794,
      "step": 1191
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6542474695397806,
      "learning_rate": 0.00044921324631615303,
      "loss": 2.697,
      "step": 1192
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6192922307852046,
      "learning_rate": 0.0004484744504988742,
      "loss": 2.8073,
      "step": 1193
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.624924180028392,
      "learning_rate": 0.00044773576836617336,
      "loss": 2.7188,
      "step": 1194
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6401009699944809,
      "learning_rate": 0.0004469972015478588,
      "loss": 2.7735,
      "step": 1195
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6379792595771379,
      "learning_rate": 0.0004462587516734844,
      "loss": 2.8651,
      "step": 1196
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6462098356342661,
      "learning_rate": 0.00044552042037234596,
      "loss": 2.7111,
      "step": 1197
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6419800312699754,
      "learning_rate": 0.00044478220927347774,
      "loss": 2.7754,
      "step": 1198
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6469088137617518,
      "learning_rate": 0.00044404412000564875,
      "loss": 2.7221,
      "step": 1199
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6780051307541233,
      "learning_rate": 0.000443306154197359,
      "loss": 2.7619,
      "step": 1200
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6464753344729731,
      "learning_rate": 0.00044256831347683646,
      "loss": 2.8153,
      "step": 1201
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6031574705160438,
      "learning_rate": 0.0004418305994720328,
      "loss": 2.7571,
      "step": 1202
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6379369824105204,
      "learning_rate": 0.0004410930138106203,
      "loss": 2.7798,
      "step": 1203
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6221785940563144,
      "learning_rate": 0.000440355558119988,
      "loss": 2.7599,
      "step": 1204
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5981342461842415,
      "learning_rate": 0.00043961823402723814,
      "loss": 2.7818,
      "step": 1205
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6172816035147782,
      "learning_rate": 0.0004388810431591829,
      "loss": 2.6616,
      "step": 1206
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5968948295728452,
      "learning_rate": 0.0004381439871423398,
      "loss": 2.7286,
      "step": 1207
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6157689245991784,
      "learning_rate": 0.00043740706760292966,
      "loss": 2.8685,
      "step": 1208
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.646522969749317,
      "learning_rate": 0.0004366702861668716,
      "loss": 2.7469,
      "step": 1209
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.639309900840895,
      "learning_rate": 0.00043593364445978036,
      "loss": 2.6904,
      "step": 1210
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6440041604062611,
      "learning_rate": 0.0004351971441069622,
      "loss": 2.7654,
      "step": 1211
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6172859931451548,
      "learning_rate": 0.0004344607867334116,
      "loss": 2.7771,
      "step": 1212
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6119516676306319,
      "learning_rate": 0.00043372457396380766,
      "loss": 2.6829,
      "step": 1213
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6659363949067715,
      "learning_rate": 0.00043298850742251013,
      "loss": 2.7332,
      "step": 1214
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6486697954813476,
      "learning_rate": 0.0004322525887335563,
      "loss": 2.8164,
      "step": 1215
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6319975063934676,
      "learning_rate": 0.00043151681952065734,
      "loss": 2.7467,
      "step": 1216
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6345432558599361,
      "learning_rate": 0.00043078120140719456,
      "loss": 2.8435,
      "step": 1217
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6334929217479472,
      "learning_rate": 0.0004300457360162158,
      "loss": 2.7248,
      "step": 1218
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6520723381839327,
      "learning_rate": 0.0004293104249704319,
      "loss": 2.7831,
      "step": 1219
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6061851265202726,
      "learning_rate": 0.00042857526989221355,
      "loss": 2.738,
      "step": 1220
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6322267606515984,
      "learning_rate": 0.00042784027240358674,
      "loss": 2.7138,
      "step": 1221
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6280181621856648,
      "learning_rate": 0.0004271054341262301,
      "loss": 2.7118,
      "step": 1222
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.671268668729935,
      "learning_rate": 0.000426370756681471,
      "loss": 2.8376,
      "step": 1223
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.635814124453432,
      "learning_rate": 0.0004256362416902817,
      "loss": 2.7302,
      "step": 1224
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.723340802413471,
      "learning_rate": 0.00042490189077327637,
      "loss": 2.7329,
      "step": 1225
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6372707358607109,
      "learning_rate": 0.00042416770555070703,
      "loss": 2.6834,
      "step": 1226
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6135771355933638,
      "learning_rate": 0.00042343368764246,
      "loss": 2.822,
      "step": 1227
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6353772622875081,
      "learning_rate": 0.0004226998386680524,
      "loss": 2.7615,
      "step": 1228
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6368263066549162,
      "learning_rate": 0.000421966160246629,
      "loss": 2.8227,
      "step": 1229
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.610606904651122,
      "learning_rate": 0.00042123265399695783,
      "loss": 2.7506,
      "step": 1230
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.581011041743626,
      "learning_rate": 0.0004204993215374273,
      "loss": 2.6772,
      "step": 1231
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6469047086272686,
      "learning_rate": 0.00041976616448604226,
      "loss": 2.838,
      "step": 1232
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5863271487914641,
      "learning_rate": 0.00041903318446042076,
      "loss": 2.8077,
      "step": 1233
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6285074566914857,
      "learning_rate": 0.00041830038307778984,
      "loss": 2.8665,
      "step": 1234
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6082391243683604,
      "learning_rate": 0.0004175677619549828,
      "loss": 2.7468,
      "step": 1235
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6671497111469642,
      "learning_rate": 0.000416835322708435,
      "loss": 2.7804,
      "step": 1236
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6354523806143756,
      "learning_rate": 0.00041610306695418056,
      "loss": 2.7705,
      "step": 1237
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6004511652920359,
      "learning_rate": 0.0004153709963078488,
      "loss": 2.7192,
      "step": 1238
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.61950714241324,
      "learning_rate": 0.0004146391123846606,
      "loss": 2.6813,
      "step": 1239
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6344821003174775,
      "learning_rate": 0.0004139074167994249,
      "loss": 2.8838,
      "step": 1240
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6551571296183243,
      "learning_rate": 0.00041317591116653486,
      "loss": 2.7834,
      "step": 1241
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6236661559036004,
      "learning_rate": 0.0004124445970999648,
      "loss": 2.7295,
      "step": 1242
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6052696135788416,
      "learning_rate": 0.00041171347621326627,
      "loss": 2.7734,
      "step": 1243
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6504781491353397,
      "learning_rate": 0.00041098255011956465,
      "loss": 2.9009,
      "step": 1244
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.658691639517507,
      "learning_rate": 0.00041025182043155547,
      "loss": 2.7231,
      "step": 1245
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6376902373919809,
      "learning_rate": 0.000409521288761501,
      "loss": 2.6331,
      "step": 1246
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.617948746050041,
      "learning_rate": 0.00040879095672122646,
      "loss": 2.8206,
      "step": 1247
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.624056100834437,
      "learning_rate": 0.0004080608259221167,
      "loss": 2.7696,
      "step": 1248
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6278243934332851,
      "learning_rate": 0.0004073308979751126,
      "loss": 2.725,
      "step": 1249
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6074758077961864,
      "learning_rate": 0.0004066011744907074,
      "loss": 2.8041,
      "step": 1250
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6838453110662579,
      "learning_rate": 0.00040587165707894326,
      "loss": 2.8028,
      "step": 1251
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6354816560596394,
      "learning_rate": 0.0004051423473494076,
      "loss": 2.7093,
      "step": 1252
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6386901832239922,
      "learning_rate": 0.0004044132469112299,
      "loss": 2.7199,
      "step": 1253
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6066942743495045,
      "learning_rate": 0.00040368435737307733,
      "loss": 2.6626,
      "step": 1254
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6213136943681584,
      "learning_rate": 0.00040295568034315224,
      "loss": 2.8329,
      "step": 1255
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6641803799293037,
      "learning_rate": 0.0004022272174291878,
      "loss": 2.7868,
      "step": 1256
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6208921496918416,
      "learning_rate": 0.0004014989702384449,
      "loss": 2.7579,
      "step": 1257
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6112294496838029,
      "learning_rate": 0.00040077094037770843,
      "loss": 2.6737,
      "step": 1258
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6299500428671034,
      "learning_rate": 0.0004000431294532838,
      "loss": 2.7606,
      "step": 1259
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6991017789217313,
      "learning_rate": 0.0003993155390709935,
      "loss": 2.6959,
      "step": 1260
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6376268708132169,
      "learning_rate": 0.0003985881708361729,
      "loss": 2.8254,
      "step": 1261
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6467222935680281,
      "learning_rate": 0.00039786102635366784,
      "loss": 2.6795,
      "step": 1262
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6341651097009717,
      "learning_rate": 0.0003971341072278302,
      "loss": 2.6595,
      "step": 1263
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6294953756530999,
      "learning_rate": 0.00039640741506251457,
      "loss": 2.6738,
      "step": 1264
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6707189103732449,
      "learning_rate": 0.00039568095146107495,
      "loss": 2.7575,
      "step": 1265
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6417909700834205,
      "learning_rate": 0.00039495471802636096,
      "loss": 2.7122,
      "step": 1266
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6510503947655316,
      "learning_rate": 0.0003942287163607145,
      "loss": 2.7943,
      "step": 1267
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6187545146739879,
      "learning_rate": 0.0003935029480659658,
      "loss": 2.7552,
      "step": 1268
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6263813277586531,
      "learning_rate": 0.00039277741474343054,
      "loss": 2.7359,
      "step": 1269
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6385649686331926,
      "learning_rate": 0.0003920521179939057,
      "loss": 2.7746,
      "step": 1270
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6283026524915711,
      "learning_rate": 0.00039132705941766644,
      "loss": 2.8032,
      "step": 1271
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6512183576656996,
      "learning_rate": 0.0003906022406144624,
      "loss": 2.8079,
      "step": 1272
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6497358151558807,
      "learning_rate": 0.0003898776631835143,
      "loss": 2.7795,
      "step": 1273
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6108447702464099,
      "learning_rate": 0.00038915332872350994,
      "loss": 2.7496,
      "step": 1274
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.644288494027928,
      "learning_rate": 0.00038842923883260135,
      "loss": 2.7692,
      "step": 1275
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6421242865108201,
      "learning_rate": 0.00038770539510840093,
      "loss": 2.81,
      "step": 1276
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6221428249396642,
      "learning_rate": 0.00038698179914797783,
      "loss": 2.6608,
      "step": 1277
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6195916751921029,
      "learning_rate": 0.0003862584525478545,
      "loss": 2.9335,
      "step": 1278
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5944871077803489,
      "learning_rate": 0.00038553535690400353,
      "loss": 2.8005,
      "step": 1279
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6077915353686778,
      "learning_rate": 0.00038481251381184355,
      "loss": 2.8397,
      "step": 1280
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.611617049191793,
      "learning_rate": 0.00038408992486623584,
      "loss": 2.7073,
      "step": 1281
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6087747508201033,
      "learning_rate": 0.00038336759166148117,
      "loss": 2.6593,
      "step": 1282
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6158921517301038,
      "learning_rate": 0.0003826455157913159,
      "loss": 2.8019,
      "step": 1283
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6297400179099074,
      "learning_rate": 0.00038192369884890886,
      "loss": 2.7319,
      "step": 1284
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6435088130262355,
      "learning_rate": 0.00038120214242685723,
      "loss": 2.638,
      "step": 1285
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.653084619815899,
      "learning_rate": 0.00038048084811718373,
      "loss": 2.7751,
      "step": 1286
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6544485403035453,
      "learning_rate": 0.0003797598175113327,
      "loss": 2.7325,
      "step": 1287
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6294189690705336,
      "learning_rate": 0.0003790390522001662,
      "loss": 2.8315,
      "step": 1288
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6598420538686434,
      "learning_rate": 0.0003783185537739615,
      "loss": 2.6696,
      "step": 1289
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6103686342325869,
      "learning_rate": 0.00037759832382240697,
      "loss": 2.658,
      "step": 1290
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6448176333719482,
      "learning_rate": 0.00037687836393459826,
      "loss": 2.8372,
      "step": 1291
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6272886630504434,
      "learning_rate": 0.0003761586756990354,
      "loss": 2.7656,
      "step": 1292
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.62250294779287,
      "learning_rate": 0.0003754392607036191,
      "loss": 2.8293,
      "step": 1293
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.606208697575486,
      "learning_rate": 0.0003747201205356472,
      "loss": 2.6105,
      "step": 1294
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6556702309789473,
      "learning_rate": 0.0003740012567818111,
      "loss": 2.7558,
      "step": 1295
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5999464184391136,
      "learning_rate": 0.0003732826710281922,
      "loss": 2.7012,
      "step": 1296
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6363726579729537,
      "learning_rate": 0.0003725643648602588,
      "loss": 2.6832,
      "step": 1297
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6673517591820985,
      "learning_rate": 0.0003718463398628621,
      "loss": 2.8036,
      "step": 1298
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5949907774310158,
      "learning_rate": 0.0003711285976202331,
      "loss": 2.7077,
      "step": 1299
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6328474317609296,
      "learning_rate": 0.0003704111397159787,
      "loss": 2.7432,
      "step": 1300
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.650643834267811,
      "learning_rate": 0.0003696939677330788,
      "loss": 2.8184,
      "step": 1301
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6067039565921163,
      "learning_rate": 0.00036897708325388213,
      "loss": 2.7783,
      "step": 1302
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.7140853318925794,
      "learning_rate": 0.0003682604878601034,
      "loss": 2.7264,
      "step": 1303
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6512455624309894,
      "learning_rate": 0.000367544183132819,
      "loss": 2.7786,
      "step": 1304
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6891761100517395,
      "learning_rate": 0.0003668281706524645,
      "loss": 2.7432,
      "step": 1305
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6307102877039963,
      "learning_rate": 0.0003661124519988304,
      "loss": 2.7721,
      "step": 1306
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6277459165177024,
      "learning_rate": 0.00036539702875105893,
      "loss": 2.8744,
      "step": 1307
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6266007815777896,
      "learning_rate": 0.0003646819024876406,
      "loss": 2.696,
      "step": 1308
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6178345142145522,
      "learning_rate": 0.0003639670747864107,
      "loss": 2.7638,
      "step": 1309
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6131693428225208,
      "learning_rate": 0.00036325254722454584,
      "loss": 2.7178,
      "step": 1310
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.602288482638704,
      "learning_rate": 0.00036253832137855997,
      "loss": 2.7531,
      "step": 1311
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6389983429577797,
      "learning_rate": 0.00036182439882430183,
      "loss": 2.8201,
      "step": 1312
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6509657303922215,
      "learning_rate": 0.00036111078113695096,
      "loss": 2.7531,
      "step": 1313
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6126773019739933,
      "learning_rate": 0.0003603974698910139,
      "loss": 2.7609,
      "step": 1314
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6396629425009543,
      "learning_rate": 0.0003596844666603214,
      "loss": 2.784,
      "step": 1315
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6015648346986264,
      "learning_rate": 0.0003589717730180245,
      "loss": 2.7703,
      "step": 1316
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6340491768708606,
      "learning_rate": 0.00035825939053659117,
      "loss": 2.8514,
      "step": 1317
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6797530676286125,
      "learning_rate": 0.00035754732078780273,
      "loss": 2.8084,
      "step": 1318
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6071816324962938,
      "learning_rate": 0.00035683556534275076,
      "loss": 2.6788,
      "step": 1319
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6551086093116381,
      "learning_rate": 0.00035612412577183303,
      "loss": 2.6974,
      "step": 1320
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6770593234195577,
      "learning_rate": 0.00035541300364475063,
      "loss": 2.7884,
      "step": 1321
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6526440384661477,
      "learning_rate": 0.0003547022005305043,
      "loss": 2.6479,
      "step": 1322
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6459076895587875,
      "learning_rate": 0.0003539917179973907,
      "loss": 2.7734,
      "step": 1323
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5979964782326989,
      "learning_rate": 0.00035328155761299917,
      "loss": 2.6732,
      "step": 1324
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5975039825459425,
      "learning_rate": 0.0003525717209442085,
      "loss": 2.7723,
      "step": 1325
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5976742399647611,
      "learning_rate": 0.00035186220955718306,
      "loss": 2.7282,
      "step": 1326
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5911398371628392,
      "learning_rate": 0.0003511530250173696,
      "loss": 2.8624,
      "step": 1327
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6041350798580188,
      "learning_rate": 0.00035044416888949364,
      "loss": 2.7227,
      "step": 1328
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5877875214137195,
      "learning_rate": 0.0003497356427375562,
      "loss": 2.805,
      "step": 1329
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.61757325805493,
      "learning_rate": 0.00034902744812483034,
      "loss": 2.8094,
      "step": 1330
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6530516598223389,
      "learning_rate": 0.00034831958661385714,
      "loss": 2.7999,
      "step": 1331
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6370901913967283,
      "learning_rate": 0.0003476120597664434,
      "loss": 2.6982,
      "step": 1332
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6513304292024849,
      "learning_rate": 0.00034690486914365704,
      "loss": 2.7518,
      "step": 1333
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6504541819791063,
      "learning_rate": 0.00034619801630582435,
      "loss": 2.7801,
      "step": 1334
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.620502761541974,
      "learning_rate": 0.00034549150281252633,
      "loss": 2.6756,
      "step": 1335
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6620633974698407,
      "learning_rate": 0.0003447853302225952,
      "loss": 2.7797,
      "step": 1336
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6751636185165341,
      "learning_rate": 0.00034407950009411126,
      "loss": 2.6626,
      "step": 1337
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6366818425511759,
      "learning_rate": 0.00034337401398439873,
      "loss": 2.7132,
      "step": 1338
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6614581230773988,
      "learning_rate": 0.00034266887345002305,
      "loss": 2.767,
      "step": 1339
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6118077423957087,
      "learning_rate": 0.0003419640800467874,
      "loss": 2.725,
      "step": 1340
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6262598253004945,
      "learning_rate": 0.0003412596353297288,
      "loss": 2.6507,
      "step": 1341
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6136731598987177,
      "learning_rate": 0.00034055554085311493,
      "loss": 2.7887,
      "step": 1342
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6345272483893063,
      "learning_rate": 0.00033985179817044105,
      "loss": 2.7261,
      "step": 1343
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6613040804431861,
      "learning_rate": 0.0003391484088344257,
      "loss": 2.7858,
      "step": 1344
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6206032833564276,
      "learning_rate": 0.00033844537439700807,
      "loss": 2.6959,
      "step": 1345
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6353695550375328,
      "learning_rate": 0.00033774269640934445,
      "loss": 2.7462,
      "step": 1346
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5894371812870495,
      "learning_rate": 0.0003370403764218045,
      "loss": 2.6918,
      "step": 1347
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6089582059346759,
      "learning_rate": 0.000336338415983968,
      "loss": 2.7169,
      "step": 1348
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6160252324639746,
      "learning_rate": 0.00033563681664462155,
      "loss": 2.6864,
      "step": 1349
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6220263466169502,
      "learning_rate": 0.000334935579951755,
      "loss": 2.7648,
      "step": 1350
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6363555174652329,
      "learning_rate": 0.0003342347074525578,
      "loss": 2.7802,
      "step": 1351
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6215304760099576,
      "learning_rate": 0.0003335342006934161,
      "loss": 2.7827,
      "step": 1352
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6409222782078258,
      "learning_rate": 0.00033283406121990914,
      "loss": 2.6971,
      "step": 1353
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6441280080303643,
      "learning_rate": 0.0003321342905768057,
      "loss": 2.7257,
      "step": 1354
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6732860554804382,
      "learning_rate": 0.00033143489030806086,
      "loss": 2.758,
      "step": 1355
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6242283268408575,
      "learning_rate": 0.00033073586195681227,
      "loss": 2.8504,
      "step": 1356
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6138715758939867,
      "learning_rate": 0.00033003720706537736,
      "loss": 2.6436,
      "step": 1357
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6678252835349157,
      "learning_rate": 0.0003293389271752492,
      "loss": 2.6677,
      "step": 1358
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6159303522059439,
      "learning_rate": 0.00032864102382709374,
      "loss": 2.7275,
      "step": 1359
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6309487167160864,
      "learning_rate": 0.000327943498560746,
      "loss": 2.6859,
      "step": 1360
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6333607103121395,
      "learning_rate": 0.00032724635291520694,
      "loss": 2.6995,
      "step": 1361
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6466608546846704,
      "learning_rate": 0.00032654958842863967,
      "loss": 2.7989,
      "step": 1362
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6393843811036483,
      "learning_rate": 0.0003258532066383667,
      "loss": 2.799,
      "step": 1363
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6264862381921261,
      "learning_rate": 0.000325157209080866,
      "loss": 2.721,
      "step": 1364
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.649105539027306,
      "learning_rate": 0.00032446159729176743,
      "loss": 2.6926,
      "step": 1365
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6523022305261802,
      "learning_rate": 0.0003237663728058502,
      "loss": 2.9842,
      "step": 1366
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6197132529696121,
      "learning_rate": 0.0003230715371570389,
      "loss": 2.7808,
      "step": 1367
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6282639811042473,
      "learning_rate": 0.00032237709187839996,
      "loss": 2.729,
      "step": 1368
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7097820449693957,
      "learning_rate": 0.0003216830385021388,
      "loss": 2.7278,
      "step": 1369
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6149566052187593,
      "learning_rate": 0.0003209893785595959,
      "loss": 2.6717,
      "step": 1370
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.617699189572728,
      "learning_rate": 0.00032029611358124366,
      "loss": 2.5946,
      "step": 1371
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6108828191950194,
      "learning_rate": 0.00031960324509668336,
      "loss": 2.7596,
      "step": 1372
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6426181881997991,
      "learning_rate": 0.0003189107746346412,
      "loss": 2.7723,
      "step": 1373
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6511471878209479,
      "learning_rate": 0.0003182187037229653,
      "loss": 2.7255,
      "step": 1374
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6201351096868867,
      "learning_rate": 0.0003175270338886221,
      "loss": 2.7075,
      "step": 1375
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6252129390389268,
      "learning_rate": 0.00031683576665769345,
      "loss": 2.797,
      "step": 1376
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5897209435470037,
      "learning_rate": 0.0003161449035553724,
      "loss": 2.7787,
      "step": 1377
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6327130766510505,
      "learning_rate": 0.00031545444610596077,
      "loss": 2.7098,
      "step": 1378
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6235302986102236,
      "learning_rate": 0.000314764395832865,
      "loss": 2.7272,
      "step": 1379
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6391364591719753,
      "learning_rate": 0.0003140747542585934,
      "loss": 2.8114,
      "step": 1380
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6488012789185386,
      "learning_rate": 0.00031338552290475266,
      "loss": 2.7581,
      "step": 1381
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6455671040099107,
      "learning_rate": 0.00031269670329204396,
      "loss": 2.8032,
      "step": 1382
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6096675569570861,
      "learning_rate": 0.0003120082969402604,
      "loss": 2.6776,
      "step": 1383
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.594136780251164,
      "learning_rate": 0.00031132030536828314,
      "loss": 2.7174,
      "step": 1384
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6284606315205208,
      "learning_rate": 0.00031063273009407805,
      "loss": 2.6237,
      "step": 1385
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6243697702470729,
      "learning_rate": 0.00030994557263469265,
      "loss": 2.7756,
      "step": 1386
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6416136690280447,
      "learning_rate": 0.0003092588345062526,
      "loss": 2.8427,
      "step": 1387
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6894245625116479,
      "learning_rate": 0.0003085725172239582,
      "loss": 2.711,
      "step": 1388
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6430307644503365,
      "learning_rate": 0.0003078866223020815,
      "loss": 2.7265,
      "step": 1389
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.651450542537383,
      "learning_rate": 0.0003072011512539624,
      "loss": 2.8258,
      "step": 1390
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6264512073130264,
      "learning_rate": 0.00030651610559200574,
      "loss": 2.7808,
      "step": 1391
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6332454024292778,
      "learning_rate": 0.00030583148682767757,
      "loss": 2.7401,
      "step": 1392
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6284812903825568,
      "learning_rate": 0.00030514729647150243,
      "loss": 2.7771,
      "step": 1393
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6602133582542372,
      "learning_rate": 0.0003044635360330592,
      "loss": 2.7654,
      "step": 1394
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6176370826005645,
      "learning_rate": 0.00030378020702097845,
      "loss": 2.8266,
      "step": 1395
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.651965882526233,
      "learning_rate": 0.000303097310942939,
      "loss": 2.7624,
      "step": 1396
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5975547989624672,
      "learning_rate": 0.0003024148493056641,
      "loss": 2.7978,
      "step": 1397
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6524307160318914,
      "learning_rate": 0.00030173282361491865,
      "loss": 2.8079,
      "step": 1398
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5932919707337178,
      "learning_rate": 0.0003010512353755057,
      "loss": 2.7364,
      "step": 1399
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6054821210375708,
      "learning_rate": 0.00030037008609126313,
      "loss": 2.7855,
      "step": 1400
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6244011465964282,
      "learning_rate": 0.0002996893772650602,
      "loss": 2.6668,
      "step": 1401
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6422815192483979,
      "learning_rate": 0.0002990091103987945,
      "loss": 2.7695,
      "step": 1402
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6220041777155422,
      "learning_rate": 0.0002983292869933886,
      "loss": 2.713,
      "step": 1403
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6321318350234194,
      "learning_rate": 0.0002976499085487862,
      "loss": 2.7641,
      "step": 1404
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6598009387341092,
      "learning_rate": 0.00029697097656394963,
      "loss": 2.6459,
      "step": 1405
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6929487491011455,
      "learning_rate": 0.00029629249253685595,
      "loss": 2.8237,
      "step": 1406
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.66996470939332,
      "learning_rate": 0.00029561445796449416,
      "loss": 2.7516,
      "step": 1407
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6458379999986125,
      "learning_rate": 0.0002949368743428612,
      "loss": 2.7303,
      "step": 1408
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.668848566959398,
      "learning_rate": 0.0002942597431669593,
      "loss": 2.7179,
      "step": 1409
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6130741634003433,
      "learning_rate": 0.0002935830659307924,
      "loss": 2.6799,
      "step": 1410
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6198786103690067,
      "learning_rate": 0.0002929068441273629,
      "loss": 2.8268,
      "step": 1411
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6040734576233056,
      "learning_rate": 0.0002922310792486681,
      "loss": 2.7227,
      "step": 1412
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6350292523191982,
      "learning_rate": 0.00029155577278569745,
      "loss": 2.6505,
      "step": 1413
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6370534749560725,
      "learning_rate": 0.00029088092622842895,
      "loss": 2.8298,
      "step": 1414
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6224964602889659,
      "learning_rate": 0.00029020654106582544,
      "loss": 2.81,
      "step": 1415
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6354055370287759,
      "learning_rate": 0.0002895326187858326,
      "loss": 2.6107,
      "step": 1416
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6475738166920785,
      "learning_rate": 0.00028885916087537377,
      "loss": 2.7393,
      "step": 1417
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6160222424717346,
      "learning_rate": 0.00028818616882034877,
      "loss": 2.6906,
      "step": 1418
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6380049007382155,
      "learning_rate": 0.0002875136441056286,
      "loss": 2.6599,
      "step": 1419
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6782880143220298,
      "learning_rate": 0.000286841588215054,
      "loss": 2.7409,
      "step": 1420
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6331437054854807,
      "learning_rate": 0.0002861700026314308,
      "loss": 2.7155,
      "step": 1421
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6178537059736411,
      "learning_rate": 0.00028549888883652686,
      "loss": 2.852,
      "step": 1422
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.654877572656158,
      "learning_rate": 0.00028482824831107,
      "loss": 2.8327,
      "step": 1423
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6521159977853153,
      "learning_rate": 0.000284158082534743,
      "loss": 2.6626,
      "step": 1424
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6622875386278342,
      "learning_rate": 0.00028348839298618177,
      "loss": 2.7711,
      "step": 1425
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7118357173271848,
      "learning_rate": 0.0002828191811429709,
      "loss": 2.7764,
      "step": 1426
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6316596766815222,
      "learning_rate": 0.00028215044848164164,
      "loss": 2.6016,
      "step": 1427
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6412205963965077,
      "learning_rate": 0.00028148219647766747,
      "loss": 2.6789,
      "step": 1428
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.608747313673289,
      "learning_rate": 0.00028081442660546124,
      "loss": 2.7573,
      "step": 1429
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6107087622077356,
      "learning_rate": 0.0002801471403383728,
      "loss": 2.6487,
      "step": 1430
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6185199838823758,
      "learning_rate": 0.00027948033914868415,
      "loss": 2.6893,
      "step": 1431
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6331503850321354,
      "learning_rate": 0.00027881402450760775,
      "loss": 2.6549,
      "step": 1432
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6215307015114478,
      "learning_rate": 0.00027814819788528165,
      "loss": 2.6756,
      "step": 1433
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6107875779314822,
      "learning_rate": 0.00027748286075076836,
      "loss": 2.71,
      "step": 1434
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5968491883963493,
      "learning_rate": 0.00027681801457204937,
      "loss": 2.6663,
      "step": 1435
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.61052275510145,
      "learning_rate": 0.00027615366081602306,
      "loss": 2.7694,
      "step": 1436
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5912795108424939,
      "learning_rate": 0.0002754898009485021,
      "loss": 2.8286,
      "step": 1437
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6503400741869754,
      "learning_rate": 0.0002748264364342085,
      "loss": 2.6686,
      "step": 1438
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6257373880698442,
      "learning_rate": 0.00027416356873677204,
      "loss": 2.7476,
      "step": 1439
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.647717653243571,
      "learning_rate": 0.0002735011993187258,
      "loss": 2.7178,
      "step": 1440
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6239755660342826,
      "learning_rate": 0.0002728393296415042,
      "loss": 2.8266,
      "step": 1441
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6211699150681532,
      "learning_rate": 0.00027217796116543817,
      "loss": 2.6782,
      "step": 1442
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6433503910588813,
      "learning_rate": 0.0002715170953497532,
      "loss": 2.7418,
      "step": 1443
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6264488615165051,
      "learning_rate": 0.00027085673365256614,
      "loss": 2.7281,
      "step": 1444
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6459169060106922,
      "learning_rate": 0.00027019687753088075,
      "loss": 2.6644,
      "step": 1445
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6454184727586559,
      "learning_rate": 0.00026953752844058597,
      "loss": 2.8431,
      "step": 1446
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6058418591638561,
      "learning_rate": 0.0002688786878364516,
      "loss": 2.7334,
      "step": 1447
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6454748950501453,
      "learning_rate": 0.00026822035717212597,
      "loss": 2.7348,
      "step": 1448
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6647420786981967,
      "learning_rate": 0.00026756253790013193,
      "loss": 2.7634,
      "step": 1449
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5857736577607178,
      "learning_rate": 0.0002669052314718641,
      "loss": 2.8077,
      "step": 1450
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6383897344972914,
      "learning_rate": 0.0002662484393375855,
      "loss": 2.7814,
      "step": 1451
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6103235073473379,
      "learning_rate": 0.00026559216294642446,
      "loss": 2.7487,
      "step": 1452
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.621453146282452,
      "learning_rate": 0.0002649364037463718,
      "loss": 2.7893,
      "step": 1453
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6398869516213045,
      "learning_rate": 0.0002642811631842764,
      "loss": 2.7457,
      "step": 1454
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6420800466189192,
      "learning_rate": 0.0002636264427058439,
      "loss": 2.6847,
      "step": 1455
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6584960325570632,
      "learning_rate": 0.00026297224375563123,
      "loss": 2.7922,
      "step": 1456
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6224653187226731,
      "learning_rate": 0.00026231856777704575,
      "loss": 2.6692,
      "step": 1457
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6374535261438521,
      "learning_rate": 0.00026166541621234026,
      "loss": 2.7686,
      "step": 1458
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6550180120866828,
      "learning_rate": 0.00026101279050261045,
      "loss": 2.7178,
      "step": 1459
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6330090169444424,
      "learning_rate": 0.00026036069208779247,
      "loss": 2.7228,
      "step": 1460
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6417285673667609,
      "learning_rate": 0.0002597091224066581,
      "loss": 2.748,
      "step": 1461
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6490257359167125,
      "learning_rate": 0.00025905808289681365,
      "loss": 2.714,
      "step": 1462
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.632811994404011,
      "learning_rate": 0.0002584075749946946,
      "loss": 2.7375,
      "step": 1463
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6508130872126122,
      "learning_rate": 0.00025775760013556424,
      "loss": 2.6788,
      "step": 1464
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6458764798537311,
      "learning_rate": 0.0002571081597535095,
      "loss": 2.7419,
      "step": 1465
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.653448736549814,
      "learning_rate": 0.00025645925528143776,
      "loss": 2.7178,
      "step": 1466
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6498457922190433,
      "learning_rate": 0.0002558108881510747,
      "loss": 2.7426,
      "step": 1467
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6514467088226236,
      "learning_rate": 0.00025516305979295963,
      "loss": 2.8015,
      "step": 1468
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6366677253015567,
      "learning_rate": 0.0002545157716364439,
      "loss": 2.7764,
      "step": 1469
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.595222891293821,
      "learning_rate": 0.00025386902510968624,
      "loss": 2.7034,
      "step": 1470
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.584315300934136,
      "learning_rate": 0.00025322282163965095,
      "loss": 2.7864,
      "step": 1471
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6278596846082969,
      "learning_rate": 0.00025257716265210384,
      "loss": 2.7231,
      "step": 1472
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5945659274003832,
      "learning_rate": 0.0002519320495716091,
      "loss": 2.7922,
      "step": 1473
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6071068105849208,
      "learning_rate": 0.00025128748382152716,
      "loss": 2.7097,
      "step": 1474
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6246884401797179,
      "learning_rate": 0.00025064346682401016,
      "loss": 2.8333,
      "step": 1475
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6238296687681417,
      "learning_rate": 0.0002500000000000001,
      "loss": 2.6134,
      "step": 1476
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6442993661930286,
      "learning_rate": 0.0002493570847692246,
      "loss": 2.7676,
      "step": 1477
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6073862341170382,
      "learning_rate": 0.00024871472255019424,
      "loss": 2.6901,
      "step": 1478
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6375381050904739,
      "learning_rate": 0.00024807291476019994,
      "loss": 2.7067,
      "step": 1479
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6255003672545146,
      "learning_rate": 0.00024743166281530877,
      "loss": 2.6144,
      "step": 1480
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7215885432034062,
      "learning_rate": 0.000246790968130362,
      "loss": 2.7069,
      "step": 1481
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6566559794343394,
      "learning_rate": 0.0002461508321189706,
      "loss": 2.6186,
      "step": 1482
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6936179089186506,
      "learning_rate": 0.00024551125619351385,
      "loss": 2.7725,
      "step": 1483
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6520814259110075,
      "learning_rate": 0.00024487224176513453,
      "loss": 2.6972,
      "step": 1484
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6226644646327975,
      "learning_rate": 0.0002442337902437365,
      "loss": 2.6195,
      "step": 1485
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6544142902272195,
      "learning_rate": 0.0002435959030379824,
      "loss": 2.8483,
      "step": 1486
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6344347406317479,
      "learning_rate": 0.00024295858155528888,
      "loss": 2.7045,
      "step": 1487
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6437967817439112,
      "learning_rate": 0.00024232182720182523,
      "loss": 2.7791,
      "step": 1488
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6171541992104371,
      "learning_rate": 0.00024168564138250855,
      "loss": 2.8009,
      "step": 1489
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6292587115311796,
      "learning_rate": 0.00024105002550100246,
      "loss": 2.7287,
      "step": 1490
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6260606569799444,
      "learning_rate": 0.00024041498095971254,
      "loss": 2.7307,
      "step": 1491
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5913093403955492,
      "learning_rate": 0.0002397805091597835,
      "loss": 2.6823,
      "step": 1492
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.589492586500018,
      "learning_rate": 0.0002391466115010973,
      "loss": 2.7766,
      "step": 1493
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6177807338092545,
      "learning_rate": 0.00023851328938226808,
      "loss": 2.6607,
      "step": 1494
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6336089988964346,
      "learning_rate": 0.00023788054420064109,
      "loss": 2.7783,
      "step": 1495
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6527218924810568,
      "learning_rate": 0.00023724837735228773,
      "loss": 2.7369,
      "step": 1496
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6441236282185139,
      "learning_rate": 0.00023661679023200422,
      "loss": 2.6358,
      "step": 1497
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6926078822219095,
      "learning_rate": 0.00023598578423330714,
      "loss": 2.7148,
      "step": 1498
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6312341815298945,
      "learning_rate": 0.00023535536074843083,
      "loss": 2.6866,
      "step": 1499
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6312397591317205,
      "learning_rate": 0.00023472552116832502,
      "loss": 2.7337,
      "step": 1500
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.620475722981856,
      "learning_rate": 0.0002340962668826503,
      "loss": 2.6576,
      "step": 1501
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6380791594025776,
      "learning_rate": 0.00023346759927977663,
      "loss": 2.6941,
      "step": 1502
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6463432434985208,
      "learning_rate": 0.0002328395197467789,
      "loss": 2.7129,
      "step": 1503
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.630820787381599,
      "learning_rate": 0.00023221202966943515,
      "loss": 2.6434,
      "step": 1504
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6370020282295328,
      "learning_rate": 0.0002315851304322223,
      "loss": 2.857,
      "step": 1505
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6290450554045599,
      "learning_rate": 0.0002309588234183137,
      "loss": 2.7772,
      "step": 1506
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6393869874317353,
      "learning_rate": 0.00023033311000957653,
      "loss": 2.6658,
      "step": 1507
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6232075181352864,
      "learning_rate": 0.00022970799158656758,
      "loss": 2.6752,
      "step": 1508
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5922839634925677,
      "learning_rate": 0.0002290834695285316,
      "loss": 2.7629,
      "step": 1509
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6334889796950933,
      "learning_rate": 0.00022845954521339678,
      "loss": 2.7248,
      "step": 1510
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6297955089732306,
      "learning_rate": 0.0002278362200177732,
      "loss": 2.7537,
      "step": 1511
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6191079593470977,
      "learning_rate": 0.00022721349531694852,
      "loss": 2.7554,
      "step": 1512
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6370355025041962,
      "learning_rate": 0.0002265913724848855,
      "loss": 2.7756,
      "step": 1513
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6292965787546873,
      "learning_rate": 0.00022596985289421946,
      "loss": 2.5999,
      "step": 1514
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6166487731599651,
      "learning_rate": 0.00022534893791625405,
      "loss": 2.684,
      "step": 1515
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6721643960299745,
      "learning_rate": 0.00022472862892095968,
      "loss": 2.8368,
      "step": 1516
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6180890067408564,
      "learning_rate": 0.00022410892727696896,
      "loss": 2.7563,
      "step": 1517
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6236084690996941,
      "learning_rate": 0.0002234898343515751,
      "loss": 2.6663,
      "step": 1518
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6472760405634955,
      "learning_rate": 0.00022287135151072792,
      "loss": 2.6753,
      "step": 1519
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6500928698278464,
      "learning_rate": 0.00022225348011903096,
      "loss": 2.8532,
      "step": 1520
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6477732427417981,
      "learning_rate": 0.0002216362215397393,
      "loss": 2.7321,
      "step": 1521
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.63736062112998,
      "learning_rate": 0.00022101957713475522,
      "loss": 2.6963,
      "step": 1522
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6254806300658902,
      "learning_rate": 0.00022040354826462666,
      "loss": 2.7346,
      "step": 1523
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6335068958714614,
      "learning_rate": 0.0002197881362885426,
      "loss": 2.7969,
      "step": 1524
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6169283780264364,
      "learning_rate": 0.0002191733425643318,
      "loss": 2.6729,
      "step": 1525
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6182861413777385,
      "learning_rate": 0.00021855916844845826,
      "loss": 2.7174,
      "step": 1526
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6500771622080572,
      "learning_rate": 0.00021794561529601898,
      "loss": 2.5965,
      "step": 1527
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6569488022993007,
      "learning_rate": 0.00021733268446074138,
      "loss": 2.6503,
      "step": 1528
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5994543971614218,
      "learning_rate": 0.00021672037729497917,
      "loss": 2.7804,
      "step": 1529
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6513532692277277,
      "learning_rate": 0.0002161086951497106,
      "loss": 2.7438,
      "step": 1530
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6085256138291649,
      "learning_rate": 0.00021549763937453442,
      "loss": 2.6849,
      "step": 1531
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6317377563765001,
      "learning_rate": 0.00021488721131766736,
      "loss": 2.8633,
      "step": 1532
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6197407524543308,
      "learning_rate": 0.00021427741232594183,
      "loss": 2.7705,
      "step": 1533
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6344779908936806,
      "learning_rate": 0.0002136682437448013,
      "loss": 2.7805,
      "step": 1534
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5981792545401536,
      "learning_rate": 0.0002130597069182994,
      "loss": 2.7684,
      "step": 1535
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6463195135311257,
      "learning_rate": 0.0002124518031890948,
      "loss": 2.7352,
      "step": 1536
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6637090332843117,
      "learning_rate": 0.0002118445338984502,
      "loss": 2.5839,
      "step": 1537
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6208869160745392,
      "learning_rate": 0.00021123790038622808,
      "loss": 2.7401,
      "step": 1538
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6508371008391046,
      "learning_rate": 0.0002106319039908879,
      "loss": 2.7696,
      "step": 1539
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6221861461252807,
      "learning_rate": 0.00021002654604948412,
      "loss": 2.6988,
      "step": 1540
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6528918789315094,
      "learning_rate": 0.00020942182789766172,
      "loss": 2.7291,
      "step": 1541
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6564962307850273,
      "learning_rate": 0.00020881775086965492,
      "loss": 2.731,
      "step": 1542
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6552458156901881,
      "learning_rate": 0.00020821431629828246,
      "loss": 2.7875,
      "step": 1543
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6353843725300453,
      "learning_rate": 0.00020761152551494643,
      "loss": 2.7233,
      "step": 1544
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6549571861945142,
      "learning_rate": 0.00020700937984962798,
      "loss": 2.7975,
      "step": 1545
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6054850370580027,
      "learning_rate": 0.0002064078806308848,
      "loss": 2.6566,
      "step": 1546
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6425579222108642,
      "learning_rate": 0.00020580702918584882,
      "loss": 2.6864,
      "step": 1547
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6187650672673335,
      "learning_rate": 0.000205206826840222,
      "loss": 2.7484,
      "step": 1548
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6444299666365624,
      "learning_rate": 0.0002046072749182751,
      "loss": 2.769,
      "step": 1549
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6478424167455991,
      "learning_rate": 0.00020400837474284273,
      "loss": 2.7306,
      "step": 1550
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6413675871964095,
      "learning_rate": 0.0002034101276353224,
      "loss": 2.7776,
      "step": 1551
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6193710739620578,
      "learning_rate": 0.00020281253491567027,
      "loss": 2.7808,
      "step": 1552
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6211980335835589,
      "learning_rate": 0.0002022155979023984,
      "loss": 2.717,
      "step": 1553
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.676019884543057,
      "learning_rate": 0.000201619317912573,
      "loss": 2.7997,
      "step": 1554
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6484446454597199,
      "learning_rate": 0.00020102369626180962,
      "loss": 2.7611,
      "step": 1555
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6166764050248417,
      "learning_rate": 0.0002004287342642721,
      "loss": 2.7191,
      "step": 1556
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6084807533980207,
      "learning_rate": 0.00019983443323266824,
      "loss": 2.7143,
      "step": 1557
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5909699329282431,
      "learning_rate": 0.00019924079447824805,
      "loss": 2.7588,
      "step": 1558
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6462965983687988,
      "learning_rate": 0.00019864781931079977,
      "loss": 2.6364,
      "step": 1559
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.61850879356432,
      "learning_rate": 0.00019805550903864773,
      "loss": 2.8186,
      "step": 1560
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.581673185667961,
      "learning_rate": 0.00019746386496864948,
      "loss": 2.6151,
      "step": 1561
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6236317490333018,
      "learning_rate": 0.00019687288840619226,
      "loss": 2.7467,
      "step": 1562
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6168646795017312,
      "learning_rate": 0.0001962825806551911,
      "loss": 2.7573,
      "step": 1563
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6558836801559594,
      "learning_rate": 0.0001956929430180846,
      "loss": 2.7866,
      "step": 1564
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6158101908570595,
      "learning_rate": 0.00019510397679583374,
      "loss": 2.7829,
      "step": 1565
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6296273468431052,
      "learning_rate": 0.0001945156832879174,
      "loss": 2.7604,
      "step": 1566
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6224604038653515,
      "learning_rate": 0.00019392806379233036,
      "loss": 2.6333,
      "step": 1567
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6377904374254532,
      "learning_rate": 0.00019334111960558065,
      "loss": 2.793,
      "step": 1568
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6329285648929212,
      "learning_rate": 0.00019275485202268573,
      "loss": 2.8116,
      "step": 1569
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5916513842779426,
      "learning_rate": 0.00019216926233717085,
      "loss": 2.7069,
      "step": 1570
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6358695138015724,
      "learning_rate": 0.00019158435184106498,
      "loss": 2.7715,
      "step": 1571
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6454478728248961,
      "learning_rate": 0.00019100012182489905,
      "loss": 2.6795,
      "step": 1572
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6456269976164931,
      "learning_rate": 0.00019041657357770226,
      "loss": 2.7257,
      "step": 1573
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6537038584288,
      "learning_rate": 0.00018983370838699943,
      "loss": 2.7211,
      "step": 1574
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6939914296670532,
      "learning_rate": 0.00018925152753880892,
      "loss": 2.7569,
      "step": 1575
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6571910218034565,
      "learning_rate": 0.00018867003231763847,
      "loss": 2.8529,
      "step": 1576
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6462701229322753,
      "learning_rate": 0.00018808922400648375,
      "loss": 2.8047,
      "step": 1577
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6537376759836679,
      "learning_rate": 0.00018750910388682428,
      "loss": 2.7943,
      "step": 1578
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6364718816483239,
      "learning_rate": 0.00018692967323862125,
      "loss": 2.6703,
      "step": 1579
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6227320461477114,
      "learning_rate": 0.00018635093334031517,
      "loss": 2.7584,
      "step": 1580
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.684493780526975,
      "learning_rate": 0.00018577288546882165,
      "loss": 2.6875,
      "step": 1581
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.675876703506501,
      "learning_rate": 0.00018519553089953023,
      "loss": 2.6854,
      "step": 1582
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5936239647247773,
      "learning_rate": 0.0001846188709063001,
      "loss": 2.6794,
      "step": 1583
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6471663938069634,
      "learning_rate": 0.00018404290676145857,
      "loss": 2.7128,
      "step": 1584
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6242143051968408,
      "learning_rate": 0.00018346763973579722,
      "loss": 2.7106,
      "step": 1585
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6235144886496622,
      "learning_rate": 0.00018289307109856939,
      "loss": 2.8044,
      "step": 1586
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6423185523580803,
      "learning_rate": 0.0001823192021174882,
      "loss": 2.7179,
      "step": 1587
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6255042326105124,
      "learning_rate": 0.0001817460340587223,
      "loss": 2.7461,
      "step": 1588
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6376743149279199,
      "learning_rate": 0.00018117356818689445,
      "loss": 2.7997,
      "step": 1589
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6050253124686694,
      "learning_rate": 0.00018060180576507756,
      "loss": 2.7025,
      "step": 1590
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6818285226019682,
      "learning_rate": 0.00018003074805479313,
      "loss": 2.6363,
      "step": 1591
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6372251825516059,
      "learning_rate": 0.00017946039631600724,
      "loss": 2.727,
      "step": 1592
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6121622612502269,
      "learning_rate": 0.00017889075180712837,
      "loss": 2.7328,
      "step": 1593
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6224695039180018,
      "learning_rate": 0.00017832181578500512,
      "loss": 2.6782,
      "step": 1594
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6504373753836005,
      "learning_rate": 0.0001777535895049221,
      "loss": 2.6845,
      "step": 1595
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6297509350702325,
      "learning_rate": 0.0001771860742205988,
      "loss": 2.7752,
      "step": 1596
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6475462839093173,
      "learning_rate": 0.00017661927118418525,
      "loss": 2.8017,
      "step": 1597
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.689869782087148,
      "learning_rate": 0.00017605318164626066,
      "loss": 2.8022,
      "step": 1598
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6365156581279909,
      "learning_rate": 0.00017548780685582949,
      "loss": 2.7164,
      "step": 1599
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6200529064508365,
      "learning_rate": 0.00017492314806031922,
      "loss": 2.8071,
      "step": 1600
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6282306239568943,
      "learning_rate": 0.00017435920650557806,
      "loss": 2.7148,
      "step": 1601
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.670955756152052,
      "learning_rate": 0.00017379598343587112,
      "loss": 2.6898,
      "step": 1602
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6237570998131523,
      "learning_rate": 0.00017323348009387878,
      "loss": 2.6515,
      "step": 1603
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6467788604105088,
      "learning_rate": 0.0001726716977206929,
      "loss": 2.6798,
      "step": 1604
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6351257256446275,
      "learning_rate": 0.00017211063755581525,
      "loss": 2.6846,
      "step": 1605
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6485964419827044,
      "learning_rate": 0.0001715503008371536,
      "loss": 2.7582,
      "step": 1606
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6531397641997179,
      "learning_rate": 0.0001709906888010196,
      "loss": 2.6384,
      "step": 1607
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6076487237550727,
      "learning_rate": 0.00017043180268212638,
      "loss": 2.7836,
      "step": 1608
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6231280996959695,
      "learning_rate": 0.00016987364371358481,
      "loss": 2.7015,
      "step": 1609
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.623645927349127,
      "learning_rate": 0.00016931621312690214,
      "loss": 2.6389,
      "step": 1610
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6307873007583931,
      "learning_rate": 0.00016875951215197777,
      "loss": 2.7067,
      "step": 1611
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6627629896602406,
      "learning_rate": 0.00016820354201710214,
      "loss": 2.7701,
      "step": 1612
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6404484385372684,
      "learning_rate": 0.00016764830394895203,
      "loss": 2.5672,
      "step": 1613
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6553125528379448,
      "learning_rate": 0.00016709379917259027,
      "loss": 2.6678,
      "step": 1614
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6447172803822503,
      "learning_rate": 0.00016654002891146091,
      "loss": 2.7896,
      "step": 1615
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6530283911361078,
      "learning_rate": 0.00016598699438738764,
      "loss": 2.698,
      "step": 1616
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5897916281521253,
      "learning_rate": 0.00016543469682057105,
      "loss": 2.8202,
      "step": 1617
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.596608858400432,
      "learning_rate": 0.00016488313742958526,
      "loss": 2.7866,
      "step": 1618
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6284731440741788,
      "learning_rate": 0.00016433231743137646,
      "loss": 2.6157,
      "step": 1619
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.67508538696502,
      "learning_rate": 0.0001637822380412584,
      "loss": 2.7258,
      "step": 1620
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.642123574402379,
      "learning_rate": 0.00016323290047291195,
      "loss": 2.6994,
      "step": 1621
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6107076650917487,
      "learning_rate": 0.0001626843059383803,
      "loss": 2.7807,
      "step": 1622
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6004955486815468,
      "learning_rate": 0.00016213645564806752,
      "loss": 2.7692,
      "step": 1623
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.618163592988467,
      "learning_rate": 0.0001615893508107359,
      "loss": 2.6411,
      "step": 1624
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6104823994068422,
      "learning_rate": 0.00016104299263350252,
      "loss": 2.7554,
      "step": 1625
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6543361073206535,
      "learning_rate": 0.00016049738232183758,
      "loss": 2.7211,
      "step": 1626
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.620193023514711,
      "learning_rate": 0.0001599525210795606,
      "loss": 2.7525,
      "step": 1627
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.605177788104516,
      "learning_rate": 0.00015940841010883889,
      "loss": 2.6106,
      "step": 1628
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6054637189187578,
      "learning_rate": 0.00015886505061018413,
      "loss": 2.6702,
      "step": 1629
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6316131534722624,
      "learning_rate": 0.0001583224437824498,
      "loss": 2.6494,
      "step": 1630
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6236701422896417,
      "learning_rate": 0.0001577805908228293,
      "loss": 2.6323,
      "step": 1631
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6245960216206288,
      "learning_rate": 0.00015723949292685191,
      "loss": 2.6204,
      "step": 1632
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6358732541880103,
      "learning_rate": 0.0001566991512883818,
      "loss": 2.649,
      "step": 1633
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6399030703012214,
      "learning_rate": 0.00015615956709961378,
      "loss": 2.6669,
      "step": 1634
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6450733407977254,
      "learning_rate": 0.00015562074155107215,
      "loss": 2.6454,
      "step": 1635
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6882728421868187,
      "learning_rate": 0.0001550826758316068,
      "loss": 2.6961,
      "step": 1636
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5970963860630595,
      "learning_rate": 0.00015454537112839122,
      "loss": 2.6893,
      "step": 1637
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5998536245006661,
      "learning_rate": 0.00015400882862692033,
      "loss": 2.6583,
      "step": 1638
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6319726695167651,
      "learning_rate": 0.00015347304951100665,
      "loss": 2.7447,
      "step": 1639
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6100241619349287,
      "learning_rate": 0.00015293803496277907,
      "loss": 2.7434,
      "step": 1640
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6218530843396893,
      "learning_rate": 0.00015240378616267886,
      "loss": 2.6885,
      "step": 1641
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6003651292349059,
      "learning_rate": 0.00015187030428945843,
      "loss": 2.6079,
      "step": 1642
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6228004535207816,
      "learning_rate": 0.0001513375905201776,
      "loss": 2.7911,
      "step": 1643
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.672689906540977,
      "learning_rate": 0.00015080564603020142,
      "loss": 2.7704,
      "step": 1644
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6295625618665904,
      "learning_rate": 0.0001502744719931982,
      "loss": 2.7809,
      "step": 1645
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6319979645330636,
      "learning_rate": 0.00014974406958113558,
      "loss": 2.6578,
      "step": 1646
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6372939444134729,
      "learning_rate": 0.00014921443996427947,
      "loss": 2.7116,
      "step": 1647
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6256225213238357,
      "learning_rate": 0.0001486855843111901,
      "loss": 2.7556,
      "step": 1648
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.613111764333231,
      "learning_rate": 0.0001481575037887201,
      "loss": 2.739,
      "step": 1649
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.661654243803134,
      "learning_rate": 0.00014763019956201253,
      "loss": 2.7486,
      "step": 1650
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6442262517688634,
      "learning_rate": 0.0001471036727944966,
      "loss": 2.6843,
      "step": 1651
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6562038039074841,
      "learning_rate": 0.0001465779246478872,
      "loss": 2.6608,
      "step": 1652
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6550854263385764,
      "learning_rate": 0.00014605295628218045,
      "loss": 2.704,
      "step": 1653
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6422563537758581,
      "learning_rate": 0.0001455287688556527,
      "loss": 2.6588,
      "step": 1654
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6498740422593721,
      "learning_rate": 0.00014500536352485673,
      "loss": 2.686,
      "step": 1655
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6366153759258948,
      "learning_rate": 0.00014448274144461965,
      "loss": 2.6864,
      "step": 1656
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6512962662909797,
      "learning_rate": 0.00014396090376804112,
      "loss": 2.8396,
      "step": 1657
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6693177235857392,
      "learning_rate": 0.00014343985164648926,
      "loss": 2.694,
      "step": 1658
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6634635005804822,
      "learning_rate": 0.00014291958622959973,
      "loss": 2.6371,
      "step": 1659
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5931673452078291,
      "learning_rate": 0.00014240010866527176,
      "loss": 2.7484,
      "step": 1660
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6194818680865956,
      "learning_rate": 0.00014188142009966686,
      "loss": 2.5979,
      "step": 1661
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6321763693097393,
      "learning_rate": 0.0001413635216772053,
      "loss": 2.6829,
      "step": 1662
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6193959905980981,
      "learning_rate": 0.000140846414540564,
      "loss": 2.7,
      "step": 1663
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6208474709391976,
      "learning_rate": 0.00014033009983067452,
      "loss": 2.6289,
      "step": 1664
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6211784288103235,
      "learning_rate": 0.00013981457868671927,
      "loss": 2.7053,
      "step": 1665
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6721505873087611,
      "learning_rate": 0.0001392998522461305,
      "loss": 2.9004,
      "step": 1666
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6195608808972638,
      "learning_rate": 0.00013878592164458635,
      "loss": 2.6206,
      "step": 1667
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6069086275050051,
      "learning_rate": 0.00013827278801600978,
      "loss": 2.7534,
      "step": 1668
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6642777440696355,
      "learning_rate": 0.0001377604524925647,
      "loss": 2.8729,
      "step": 1669
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6520113484469633,
      "learning_rate": 0.00013724891620465424,
      "loss": 2.727,
      "step": 1670
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6044104430055067,
      "learning_rate": 0.0001367381802809185,
      "loss": 2.6301,
      "step": 1671
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6274148941035383,
      "learning_rate": 0.00013622824584823113,
      "loss": 2.6907,
      "step": 1672
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6536207204184445,
      "learning_rate": 0.00013571911403169795,
      "loss": 2.754,
      "step": 1673
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6125975680156929,
      "learning_rate": 0.0001352107859546533,
      "loss": 2.6912,
      "step": 1674
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6269124107307932,
      "learning_rate": 0.00013470326273865886,
      "loss": 2.7056,
      "step": 1675
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6456804620721616,
      "learning_rate": 0.00013419654550349985,
      "loss": 2.7876,
      "step": 1676
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6399253799902034,
      "learning_rate": 0.00013369063536718346,
      "loss": 2.7123,
      "step": 1677
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6477610250000104,
      "learning_rate": 0.00013318553344593632,
      "loss": 2.665,
      "step": 1678
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6219075538544693,
      "learning_rate": 0.00013268124085420136,
      "loss": 2.7228,
      "step": 1679
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.644435281615433,
      "learning_rate": 0.0001321777587046364,
      "loss": 2.813,
      "step": 1680
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6114413023852328,
      "learning_rate": 0.00013167508810811059,
      "loss": 2.7373,
      "step": 1681
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6620138597364751,
      "learning_rate": 0.0001311732301737029,
      "loss": 2.7778,
      "step": 1682
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6460397495956313,
      "learning_rate": 0.0001306721860086991,
      "loss": 2.7464,
      "step": 1683
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5976284443892604,
      "learning_rate": 0.00013017195671858928,
      "loss": 2.6973,
      "step": 1684
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.634164662278792,
      "learning_rate": 0.0001296725434070661,
      "loss": 2.8223,
      "step": 1685
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6223492827763986,
      "learning_rate": 0.00012917394717602121,
      "loss": 2.7761,
      "step": 1686
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6164317961134479,
      "learning_rate": 0.00012867616912554426,
      "loss": 2.6168,
      "step": 1687
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6072070423568421,
      "learning_rate": 0.00012817921035391882,
      "loss": 2.6669,
      "step": 1688
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6326122947567046,
      "learning_rate": 0.00012768307195762168,
      "loss": 2.7542,
      "step": 1689
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6029928988789955,
      "learning_rate": 0.00012718775503131908,
      "loss": 2.6549,
      "step": 1690
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6439391492814002,
      "learning_rate": 0.0001266932606678646,
      "loss": 2.72,
      "step": 1691
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6116083723773678,
      "learning_rate": 0.00012619958995829756,
      "loss": 2.7334,
      "step": 1692
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6129081109876777,
      "learning_rate": 0.0001257067439918394,
      "loss": 2.7234,
      "step": 1693
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6274369067136563,
      "learning_rate": 0.00012521472385589234,
      "loss": 2.6946,
      "step": 1694
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6240738946130858,
      "learning_rate": 0.00012472353063603626,
      "loss": 2.7205,
      "step": 1695
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.658046150777427,
      "learning_rate": 0.0001242331654160263,
      "loss": 2.6813,
      "step": 1696
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.636920347381468,
      "learning_rate": 0.0001237436292777914,
      "loss": 2.748,
      "step": 1697
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6532211565069803,
      "learning_rate": 0.00012325492330143061,
      "loss": 2.7235,
      "step": 1698
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6849761840571454,
      "learning_rate": 0.00012276704856521175,
      "loss": 2.632,
      "step": 1699
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6436996893249748,
      "learning_rate": 0.00012228000614556816,
      "loss": 2.733,
      "step": 1700
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.611076008465425,
      "learning_rate": 0.00012179379711709738,
      "loss": 2.7497,
      "step": 1701
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5975251534290245,
      "learning_rate": 0.0001213084225525577,
      "loss": 2.6992,
      "step": 1702
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6295448737418261,
      "learning_rate": 0.00012082388352286627,
      "loss": 2.8915,
      "step": 1703
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6444823786565287,
      "learning_rate": 0.00012034018109709716,
      "loss": 2.7949,
      "step": 1704
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5962502467555756,
      "learning_rate": 0.00011985731634247809,
      "loss": 2.644,
      "step": 1705
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6393176534084918,
      "learning_rate": 0.00011937529032438904,
      "loss": 2.7105,
      "step": 1706
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.600493860261291,
      "learning_rate": 0.00011889410410635887,
      "loss": 2.6315,
      "step": 1707
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6405522926636272,
      "learning_rate": 0.0001184137587500641,
      "loss": 2.6482,
      "step": 1708
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6429228621460142,
      "learning_rate": 0.00011793425531532564,
      "loss": 2.598,
      "step": 1709
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5944789325333188,
      "learning_rate": 0.00011745559486010671,
      "loss": 2.7466,
      "step": 1710
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6101129118920728,
      "learning_rate": 0.00011697777844051105,
      "loss": 2.8217,
      "step": 1711
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6176859696160295,
      "learning_rate": 0.00011650080711077964,
      "loss": 2.7076,
      "step": 1712
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.625259706333176,
      "learning_rate": 0.00011602468192328936,
      "loss": 2.7646,
      "step": 1713
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6040916110562742,
      "learning_rate": 0.00011554940392854973,
      "loss": 2.7568,
      "step": 1714
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5989949352868673,
      "learning_rate": 0.00011507497417520146,
      "loss": 2.7469,
      "step": 1715
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6124022868889243,
      "learning_rate": 0.00011460139371001339,
      "loss": 2.7373,
      "step": 1716
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6089324421507557,
      "learning_rate": 0.00011412866357788049,
      "loss": 2.6889,
      "step": 1717
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5921133209606456,
      "learning_rate": 0.00011365678482182207,
      "loss": 2.5834,
      "step": 1718
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6260504318399872,
      "learning_rate": 0.0001131857584829783,
      "loss": 2.7266,
      "step": 1719
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6782431503668144,
      "learning_rate": 0.0001127155856006093,
      "loss": 2.7656,
      "step": 1720
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6585420522826294,
      "learning_rate": 0.00011224626721209141,
      "loss": 2.5688,
      "step": 1721
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6347709600073697,
      "learning_rate": 0.0001117778043529164,
      "loss": 2.788,
      "step": 1722
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6557528675744269,
      "learning_rate": 0.0001113101980566879,
      "loss": 2.6528,
      "step": 1723
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6368153421830317,
      "learning_rate": 0.00011084344935511958,
      "loss": 2.672,
      "step": 1724
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6536063255274408,
      "learning_rate": 0.00011037755927803345,
      "loss": 2.7406,
      "step": 1725
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5823690474672623,
      "learning_rate": 0.00010991252885335651,
      "loss": 2.7432,
      "step": 1726
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6531612938338455,
      "learning_rate": 0.00010944835910711958,
      "loss": 2.7384,
      "step": 1727
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6289340860150313,
      "learning_rate": 0.00010898505106345396,
      "loss": 2.7739,
      "step": 1728
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6334898370360917,
      "learning_rate": 0.00010852260574459022,
      "loss": 2.7222,
      "step": 1729
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6315719322303565,
      "learning_rate": 0.00010806102417085512,
      "loss": 2.6555,
      "step": 1730
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6196023670141766,
      "learning_rate": 0.00010760030736066951,
      "loss": 2.7185,
      "step": 1731
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6236808757382312,
      "learning_rate": 0.00010714045633054687,
      "loss": 2.7002,
      "step": 1732
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.646812815901429,
      "learning_rate": 0.00010668147209508971,
      "loss": 2.7023,
      "step": 1733
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6205418465013662,
      "learning_rate": 0.00010622335566698877,
      "loss": 2.778,
      "step": 1734
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6132482364725533,
      "learning_rate": 0.00010576610805701942,
      "loss": 2.7779,
      "step": 1735
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6480335174415008,
      "learning_rate": 0.00010530973027404073,
      "loss": 2.7184,
      "step": 1736
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6175517352405285,
      "learning_rate": 0.00010485422332499212,
      "loss": 2.677,
      "step": 1737
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5928470709212844,
      "learning_rate": 0.00010439958821489165,
      "loss": 2.6484,
      "step": 1738
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6511575655878284,
      "learning_rate": 0.00010394582594683428,
      "loss": 2.6466,
      "step": 1739
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6362636226640822,
      "learning_rate": 0.0001034929375219884,
      "loss": 2.6205,
      "step": 1740
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6328614330403047,
      "learning_rate": 0.00010304092393959514,
      "loss": 2.6929,
      "step": 1741
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6140184746055799,
      "learning_rate": 0.00010258978619696468,
      "loss": 2.6304,
      "step": 1742
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6459150816088173,
      "learning_rate": 0.00010213952528947551,
      "loss": 2.7625,
      "step": 1743
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.601108810656283,
      "learning_rate": 0.00010169014221057089,
      "loss": 2.5891,
      "step": 1744
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.64866190057896,
      "learning_rate": 0.00010124163795175734,
      "loss": 2.713,
      "step": 1745
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6252259454598681,
      "learning_rate": 0.00010079401350260287,
      "loss": 2.5937,
      "step": 1746
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6272171760978849,
      "learning_rate": 0.00010034726985073362,
      "loss": 2.7865,
      "step": 1747
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6230839975625527,
      "learning_rate": 9.9901407981833e-05,
      "loss": 2.7786,
      "step": 1748
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6664974023897563,
      "learning_rate": 9.94564288796384e-05,
      "loss": 2.7587,
      "step": 1749
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6471326179016211,
      "learning_rate": 9.901233352593953e-05,
      "loss": 2.7399,
      "step": 1750
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6375006322862158,
      "learning_rate": 9.856912290057668e-05,
      "loss": 2.6175,
      "step": 1751
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6225604110070521,
      "learning_rate": 9.812679798143748e-05,
      "loss": 2.7211,
      "step": 1752
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.61950902890617,
      "learning_rate": 9.768535974445586e-05,
      "loss": 2.7424,
      "step": 1753
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.59145564749334,
      "learning_rate": 9.724480916360906e-05,
      "loss": 2.5995,
      "step": 1754
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6296865013962968,
      "learning_rate": 9.68051472109162e-05,
      "loss": 2.6799,
      "step": 1755
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6513753744163636,
      "learning_rate": 9.636637485643529e-05,
      "loss": 2.756,
      "step": 1756
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6353039447369796,
      "learning_rate": 9.592849306826174e-05,
      "loss": 2.7963,
      "step": 1757
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6524442527515563,
      "learning_rate": 9.549150281252633e-05,
      "loss": 2.8028,
      "step": 1758
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6710217818667272,
      "learning_rate": 9.505540505339223e-05,
      "loss": 2.662,
      "step": 1759
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6393173673112391,
      "learning_rate": 9.4620200753054e-05,
      "loss": 2.695,
      "step": 1760
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6661736774134492,
      "learning_rate": 9.418589087173441e-05,
      "loss": 2.5923,
      "step": 1761
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5911393422511462,
      "learning_rate": 9.375247636768325e-05,
      "loss": 2.6815,
      "step": 1762
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6219896426543232,
      "learning_rate": 9.331995819717443e-05,
      "loss": 2.7789,
      "step": 1763
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6204229326584481,
      "learning_rate": 9.288833731450419e-05,
      "loss": 2.7198,
      "step": 1764
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6435723251942698,
      "learning_rate": 9.245761467198948e-05,
      "loss": 2.6984,
      "step": 1765
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6363094957337434,
      "learning_rate": 9.20277912199648e-05,
      "loss": 2.6731,
      "step": 1766
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6326938598557512,
      "learning_rate": 9.159886790678123e-05,
      "loss": 2.7913,
      "step": 1767
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.605492396094881,
      "learning_rate": 9.11708456788033e-05,
      "loss": 2.7072,
      "step": 1768
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6181084659050362,
      "learning_rate": 9.074372548040793e-05,
      "loss": 2.7026,
      "step": 1769
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6099373301592773,
      "learning_rate": 9.031750825398145e-05,
      "loss": 2.6603,
      "step": 1770
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6436970392972902,
      "learning_rate": 8.98921949399179e-05,
      "loss": 2.6319,
      "step": 1771
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.62261749205448,
      "learning_rate": 8.94677864766173e-05,
      "loss": 2.6688,
      "step": 1772
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6154123860785063,
      "learning_rate": 8.904428380048269e-05,
      "loss": 2.6715,
      "step": 1773
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6086860375138657,
      "learning_rate": 8.862168784591929e-05,
      "loss": 2.7726,
      "step": 1774
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6132977914616429,
      "learning_rate": 8.819999954533115e-05,
      "loss": 2.8172,
      "step": 1775
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6291806632662885,
      "learning_rate": 8.777921982911996e-05,
      "loss": 2.6953,
      "step": 1776
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6442674169694262,
      "learning_rate": 8.735934962568253e-05,
      "loss": 2.7025,
      "step": 1777
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6199297819128261,
      "learning_rate": 8.694038986140945e-05,
      "loss": 2.6392,
      "step": 1778
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6359631846745137,
      "learning_rate": 8.652234146068206e-05,
      "loss": 2.7021,
      "step": 1779
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6403293493930363,
      "learning_rate": 8.610520534587086e-05,
      "loss": 2.7005,
      "step": 1780
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6352864168986107,
      "learning_rate": 8.568898243733397e-05,
      "loss": 2.8049,
      "step": 1781
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.639250520700899,
      "learning_rate": 8.527367365341409e-05,
      "loss": 2.7131,
      "step": 1782
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.644575831338207,
      "learning_rate": 8.485927991043757e-05,
      "loss": 2.5539,
      "step": 1783
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6129390213668546,
      "learning_rate": 8.444580212271125e-05,
      "loss": 2.7701,
      "step": 1784
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5917912217388615,
      "learning_rate": 8.403324120252159e-05,
      "loss": 2.7101,
      "step": 1785
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6191944702396102,
      "learning_rate": 8.362159806013175e-05,
      "loss": 2.7258,
      "step": 1786
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6607015391091243,
      "learning_rate": 8.321087360377988e-05,
      "loss": 2.7868,
      "step": 1787
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6361563924833618,
      "learning_rate": 8.280106873967752e-05,
      "loss": 2.6959,
      "step": 1788
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6606109450943417,
      "learning_rate": 8.239218437200679e-05,
      "loss": 2.6717,
      "step": 1789
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6412404638438649,
      "learning_rate": 8.198422140291939e-05,
      "loss": 2.6775,
      "step": 1790
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6061768021851341,
      "learning_rate": 8.157718073253351e-05,
      "loss": 2.7281,
      "step": 1791
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6218982718292262,
      "learning_rate": 8.117106325893287e-05,
      "loss": 2.6959,
      "step": 1792
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6014827393625438,
      "learning_rate": 8.076586987816404e-05,
      "loss": 2.6918,
      "step": 1793
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.611184742586177,
      "learning_rate": 8.036160148423449e-05,
      "loss": 2.8267,
      "step": 1794
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6480020353397646,
      "learning_rate": 7.995825896911141e-05,
      "loss": 2.5831,
      "step": 1795
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6207210814178743,
      "learning_rate": 7.955584322271853e-05,
      "loss": 2.6899,
      "step": 1796
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6472674648642913,
      "learning_rate": 7.915435513293523e-05,
      "loss": 2.7965,
      "step": 1797
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.618791475048808,
      "learning_rate": 7.875379558559387e-05,
      "loss": 2.8233,
      "step": 1798
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6172129653342528,
      "learning_rate": 7.835416546447838e-05,
      "loss": 2.7316,
      "step": 1799
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6389866963699571,
      "learning_rate": 7.795546565132167e-05,
      "loss": 2.7089,
      "step": 1800
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6160688872422397,
      "learning_rate": 7.755769702580412e-05,
      "loss": 2.6548,
      "step": 1801
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6181399628180403,
      "learning_rate": 7.716086046555193e-05,
      "loss": 2.6798,
      "step": 1802
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6939707868820734,
      "learning_rate": 7.676495684613432e-05,
      "loss": 2.6374,
      "step": 1803
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6278906234052509,
      "learning_rate": 7.636998704106252e-05,
      "loss": 2.7614,
      "step": 1804
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6365336249632685,
      "learning_rate": 7.597595192178702e-05,
      "loss": 2.6476,
      "step": 1805
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6378544906462441,
      "learning_rate": 7.558285235769646e-05,
      "loss": 2.7209,
      "step": 1806
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6608124232533175,
      "learning_rate": 7.519068921611494e-05,
      "loss": 2.7519,
      "step": 1807
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6001916230355513,
      "learning_rate": 7.479946336230047e-05,
      "loss": 2.7311,
      "step": 1808
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6750351725310961,
      "learning_rate": 7.440917565944349e-05,
      "loss": 2.682,
      "step": 1809
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6480374470642892,
      "learning_rate": 7.4019826968664e-05,
      "loss": 2.7394,
      "step": 1810
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6345738948884312,
      "learning_rate": 7.363141814901053e-05,
      "loss": 2.6677,
      "step": 1811
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5994241147958391,
      "learning_rate": 7.32439500574577e-05,
      "loss": 2.7146,
      "step": 1812
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.649947540315163,
      "learning_rate": 7.285742354890473e-05,
      "loss": 2.7245,
      "step": 1813
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6106724115794867,
      "learning_rate": 7.247183947617325e-05,
      "loss": 2.6175,
      "step": 1814
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6170672162463112,
      "learning_rate": 7.20871986900053e-05,
      "loss": 2.7738,
      "step": 1815
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6697719747365866,
      "learning_rate": 7.170350203906218e-05,
      "loss": 2.7235,
      "step": 1816
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6329894001342398,
      "learning_rate": 7.132075036992158e-05,
      "loss": 2.6906,
      "step": 1817
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6977935626040879,
      "learning_rate": 7.093894452707666e-05,
      "loss": 2.7241,
      "step": 1818
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.616573526226144,
      "learning_rate": 7.055808535293334e-05,
      "loss": 2.6918,
      "step": 1819
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6291637359629678,
      "learning_rate": 7.017817368780888e-05,
      "loss": 2.7608,
      "step": 1820
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6611715668395742,
      "learning_rate": 6.979921036993042e-05,
      "loss": 2.7595,
      "step": 1821
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6720052199972015,
      "learning_rate": 6.942119623543202e-05,
      "loss": 2.6942,
      "step": 1822
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6168774650708274,
      "learning_rate": 6.904413211835414e-05,
      "loss": 2.6522,
      "step": 1823
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6334286590177923,
      "learning_rate": 6.866801885064056e-05,
      "loss": 2.757,
      "step": 1824
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6442211303489885,
      "learning_rate": 6.829285726213769e-05,
      "loss": 2.6836,
      "step": 1825
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6556405181723619,
      "learning_rate": 6.79186481805918e-05,
      "loss": 2.7114,
      "step": 1826
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.65490817571973,
      "learning_rate": 6.754539243164754e-05,
      "loss": 2.8184,
      "step": 1827
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6134038629871568,
      "learning_rate": 6.717309083884654e-05,
      "loss": 2.6484,
      "step": 1828
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6314606348569319,
      "learning_rate": 6.680174422362468e-05,
      "loss": 2.7212,
      "step": 1829
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6141851477974741,
      "learning_rate": 6.643135340531136e-05,
      "loss": 2.7072,
      "step": 1830
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6037182272786391,
      "learning_rate": 6.606191920112664e-05,
      "loss": 2.6571,
      "step": 1831
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6283069496408079,
      "learning_rate": 6.569344242618036e-05,
      "loss": 2.7193,
      "step": 1832
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6266800572239589,
      "learning_rate": 6.532592389346958e-05,
      "loss": 2.8052,
      "step": 1833
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6483831948076276,
      "learning_rate": 6.495936441387713e-05,
      "loss": 2.7472,
      "step": 1834
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6429651870253696,
      "learning_rate": 6.459376479617013e-05,
      "loss": 2.6745,
      "step": 1835
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6113875561063007,
      "learning_rate": 6.422912584699752e-05,
      "loss": 2.6127,
      "step": 1836
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6249818135283265,
      "learning_rate": 6.386544837088904e-05,
      "loss": 2.7805,
      "step": 1837
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6211181490237152,
      "learning_rate": 6.350273317025251e-05,
      "loss": 2.7585,
      "step": 1838
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6241779670791995,
      "learning_rate": 6.314098104537324e-05,
      "loss": 2.7421,
      "step": 1839
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6096499025171285,
      "learning_rate": 6.278019279441122e-05,
      "loss": 2.5019,
      "step": 1840
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6521396767353551,
      "learning_rate": 6.242036921339972e-05,
      "loss": 2.7852,
      "step": 1841
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6498219773261181,
      "learning_rate": 6.206151109624402e-05,
      "loss": 2.7929,
      "step": 1842
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5963774976512458,
      "learning_rate": 6.170361923471868e-05,
      "loss": 2.7583,
      "step": 1843
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6293181206323797,
      "learning_rate": 6.134669441846691e-05,
      "loss": 2.7417,
      "step": 1844
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6485227774153687,
      "learning_rate": 6.099073743499772e-05,
      "loss": 2.8101,
      "step": 1845
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6042082668163751,
      "learning_rate": 6.063574906968511e-05,
      "loss": 2.742,
      "step": 1846
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6120467056465021,
      "learning_rate": 6.028173010576582e-05,
      "loss": 2.631,
      "step": 1847
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6455499859135982,
      "learning_rate": 5.9928681324337544e-05,
      "loss": 2.6945,
      "step": 1848
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6276012827844369,
      "learning_rate": 5.957660350435773e-05,
      "loss": 2.6236,
      "step": 1849
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6294376234582265,
      "learning_rate": 5.922549742264122e-05,
      "loss": 2.8063,
      "step": 1850
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6423109061934292,
      "learning_rate": 5.8875363853859166e-05,
      "loss": 2.6936,
      "step": 1851
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6400927989586874,
      "learning_rate": 5.852620357053651e-05,
      "loss": 2.7682,
      "step": 1852
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6004160748237418,
      "learning_rate": 5.8178017343051336e-05,
      "loss": 2.6649,
      "step": 1853
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6348993784707029,
      "learning_rate": 5.783080593963219e-05,
      "loss": 2.6864,
      "step": 1854
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6131997202111529,
      "learning_rate": 5.748457012635683e-05,
      "loss": 2.5887,
      "step": 1855
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6749533442580467,
      "learning_rate": 5.713931066715078e-05,
      "loss": 2.772,
      "step": 1856
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6311388069172098,
      "learning_rate": 5.679502832378497e-05,
      "loss": 2.7704,
      "step": 1857
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5899503671360025,
      "learning_rate": 5.645172385587482e-05,
      "loss": 2.638,
      "step": 1858
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5988657001977793,
      "learning_rate": 5.6109398020877834e-05,
      "loss": 2.7267,
      "step": 1859
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.620011531931444,
      "learning_rate": 5.576805157409265e-05,
      "loss": 2.591,
      "step": 1860
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6450822199192319,
      "learning_rate": 5.542768526865677e-05,
      "loss": 2.6397,
      "step": 1861
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6393710410301812,
      "learning_rate": 5.508829985554509e-05,
      "loss": 2.6616,
      "step": 1862
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6454484262904654,
      "learning_rate": 5.474989608356856e-05,
      "loss": 2.7177,
      "step": 1863
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6553866804220755,
      "learning_rate": 5.441247469937194e-05,
      "loss": 2.6252,
      "step": 1864
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6157239582205556,
      "learning_rate": 5.407603644743286e-05,
      "loss": 2.7152,
      "step": 1865
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6311783961324098,
      "learning_rate": 5.374058207005944e-05,
      "loss": 2.7031,
      "step": 1866
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6381354012958836,
      "learning_rate": 5.3406112307389066e-05,
      "loss": 2.6948,
      "step": 1867
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6425233454596784,
      "learning_rate": 5.3072627897386926e-05,
      "loss": 2.5842,
      "step": 1868
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5780845841047135,
      "learning_rate": 5.27401295758439e-05,
      "loss": 2.6656,
      "step": 1869
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.629350724528526,
      "learning_rate": 5.2408618076375315e-05,
      "loss": 2.683,
      "step": 1870
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6145331260378482,
      "learning_rate": 5.207809413041914e-05,
      "loss": 2.5563,
      "step": 1871
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6286090073402848,
      "learning_rate": 5.174855846723459e-05,
      "loss": 2.757,
      "step": 1872
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6489714206587864,
      "learning_rate": 5.1420011813900104e-05,
      "loss": 2.6538,
      "step": 1873
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6228235107809368,
      "learning_rate": 5.109245489531211e-05,
      "loss": 2.7018,
      "step": 1874
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6426397551410107,
      "learning_rate": 5.0765888434183446e-05,
      "loss": 2.6925,
      "step": 1875
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6328860704030947,
      "learning_rate": 5.0440313151041364e-05,
      "loss": 2.6526,
      "step": 1876
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6500316480777278,
      "learning_rate": 5.011572976422657e-05,
      "loss": 2.6178,
      "step": 1877
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6052572771964985,
      "learning_rate": 4.9792138989890825e-05,
      "loss": 2.6897,
      "step": 1878
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5632157370988777,
      "learning_rate": 4.9469541541996234e-05,
      "loss": 2.5987,
      "step": 1879
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6398383266899388,
      "learning_rate": 4.914793813231305e-05,
      "loss": 2.7408,
      "step": 1880
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6630968566407405,
      "learning_rate": 4.882732947041818e-05,
      "loss": 2.746,
      "step": 1881
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6268668485545381,
      "learning_rate": 4.850771626369416e-05,
      "loss": 2.5466,
      "step": 1882
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6728542038178272,
      "learning_rate": 4.818909921732662e-05,
      "loss": 2.7868,
      "step": 1883
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6044754346398774,
      "learning_rate": 4.787147903430383e-05,
      "loss": 2.7322,
      "step": 1884
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6631841866128323,
      "learning_rate": 4.755485641541424e-05,
      "loss": 2.8742,
      "step": 1885
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.668111574619838,
      "learning_rate": 4.723923205924557e-05,
      "loss": 2.7714,
      "step": 1886
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6095599806539034,
      "learning_rate": 4.6924606662182736e-05,
      "loss": 2.6914,
      "step": 1887
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6494547464533522,
      "learning_rate": 4.6610980918406596e-05,
      "loss": 2.6609,
      "step": 1888
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6364238725578503,
      "learning_rate": 4.629835551989276e-05,
      "loss": 2.7034,
      "step": 1889
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6198549141085192,
      "learning_rate": 4.5986731156409224e-05,
      "loss": 2.6293,
      "step": 1890
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6148034173536071,
      "learning_rate": 4.567610851551568e-05,
      "loss": 2.7099,
      "step": 1891
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6294815761891018,
      "learning_rate": 4.536648828256146e-05,
      "loss": 2.7748,
      "step": 1892
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6440084755340225,
      "learning_rate": 4.505787114068433e-05,
      "loss": 2.8164,
      "step": 1893
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6580449754833597,
      "learning_rate": 4.4750257770808764e-05,
      "loss": 2.7009,
      "step": 1894
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6515984808149335,
      "learning_rate": 4.444364885164448e-05,
      "loss": 2.6831,
      "step": 1895
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6633958375664942,
      "learning_rate": 4.413804505968533e-05,
      "loss": 2.6555,
      "step": 1896
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6206170998615385,
      "learning_rate": 4.3833447069206944e-05,
      "loss": 2.7299,
      "step": 1897
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.643333440508051,
      "learning_rate": 4.352985555226635e-05,
      "loss": 2.8333,
      "step": 1898
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6181171622809533,
      "learning_rate": 4.322727117869951e-05,
      "loss": 2.7543,
      "step": 1899
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6232682113678312,
      "learning_rate": 4.29256946161205e-05,
      "loss": 2.6166,
      "step": 1900
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6525588034844998,
      "learning_rate": 4.262512652991968e-05,
      "loss": 2.6375,
      "step": 1901
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6503237556784797,
      "learning_rate": 4.2325567583262113e-05,
      "loss": 2.8377,
      "step": 1902
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6277044746603896,
      "learning_rate": 4.2027018437086895e-05,
      "loss": 2.7395,
      "step": 1903
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6181983950820251,
      "learning_rate": 4.172947975010449e-05,
      "loss": 2.6266,
      "step": 1904
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5923477072233271,
      "learning_rate": 4.143295217879645e-05,
      "loss": 2.7653,
      "step": 1905
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6209124422514455,
      "learning_rate": 4.113743637741296e-05,
      "loss": 2.8185,
      "step": 1906
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6107581887289776,
      "learning_rate": 4.084293299797226e-05,
      "loss": 2.7115,
      "step": 1907
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.631640822461674,
      "learning_rate": 4.054944269025862e-05,
      "loss": 2.7815,
      "step": 1908
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6143483265871379,
      "learning_rate": 4.025696610182095e-05,
      "loss": 2.744,
      "step": 1909
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.643656060864183,
      "learning_rate": 3.996550387797187e-05,
      "loss": 2.6537,
      "step": 1910
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6471492352009972,
      "learning_rate": 3.9675056661785556e-05,
      "loss": 2.5991,
      "step": 1911
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6413420216055933,
      "learning_rate": 3.9385625094097154e-05,
      "loss": 2.736,
      "step": 1912
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6241814791175555,
      "learning_rate": 3.909720981350034e-05,
      "loss": 2.8629,
      "step": 1913
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6573916796595193,
      "learning_rate": 3.880981145634704e-05,
      "loss": 2.765,
      "step": 1914
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.637244695735911,
      "learning_rate": 3.852343065674507e-05,
      "loss": 2.6775,
      "step": 1915
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6090397478790776,
      "learning_rate": 3.8238068046557276e-05,
      "loss": 2.7546,
      "step": 1916
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6501955512253661,
      "learning_rate": 3.795372425540006e-05,
      "loss": 2.8395,
      "step": 1917
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6188592077106304,
      "learning_rate": 3.76703999106418e-05,
      "loss": 2.6273,
      "step": 1918
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6762181620221188,
      "learning_rate": 3.7388095637401754e-05,
      "loss": 2.7205,
      "step": 1919
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6440233794112381,
      "learning_rate": 3.7106812058548376e-05,
      "loss": 2.6131,
      "step": 1920
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6251601411148519,
      "learning_rate": 3.682654979469807e-05,
      "loss": 2.6997,
      "step": 1921
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6149922282496838,
      "learning_rate": 3.654730946421403e-05,
      "loss": 2.6906,
      "step": 1922
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6171291261656368,
      "learning_rate": 3.6269091683204466e-05,
      "loss": 2.741,
      "step": 1923
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6228383784113404,
      "learning_rate": 3.5991897065521693e-05,
      "loss": 2.7033,
      "step": 1924
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6611530544333888,
      "learning_rate": 3.571572622276026e-05,
      "loss": 2.8216,
      "step": 1925
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6812212628254047,
      "learning_rate": 3.544057976425619e-05,
      "loss": 2.67,
      "step": 1926
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6238791626604984,
      "learning_rate": 3.5166458297085146e-05,
      "loss": 2.5927,
      "step": 1927
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6556791189519183,
      "learning_rate": 3.489336242606111e-05,
      "loss": 2.6519,
      "step": 1928
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6682927158550837,
      "learning_rate": 3.462129275373577e-05,
      "loss": 2.7105,
      "step": 1929
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6371097975889882,
      "learning_rate": 3.4350249880395924e-05,
      "loss": 2.8299,
      "step": 1930
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6437558333375708,
      "learning_rate": 3.408023440406355e-05,
      "loss": 2.7502,
      "step": 1931
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6210999130823361,
      "learning_rate": 3.381124692049331e-05,
      "loss": 2.6994,
      "step": 1932
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6479072104638112,
      "learning_rate": 3.354328802317197e-05,
      "loss": 2.7275,
      "step": 1933
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6472659416911041,
      "learning_rate": 3.327635830331677e-05,
      "loss": 2.6936,
      "step": 1934
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.626491604804155,
      "learning_rate": 3.3010458349874206e-05,
      "loss": 2.6314,
      "step": 1935
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6057957567099111,
      "learning_rate": 3.2745588749518775e-05,
      "loss": 2.6263,
      "step": 1936
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5993626620182836,
      "learning_rate": 3.248175008665161e-05,
      "loss": 2.7697,
      "step": 1937
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.637037044195432,
      "learning_rate": 3.221894294339911e-05,
      "loss": 2.7385,
      "step": 1938
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6585930065055119,
      "learning_rate": 3.1957167899611836e-05,
      "loss": 2.7881,
      "step": 1939
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.645217353676008,
      "learning_rate": 3.169642553286334e-05,
      "loss": 2.6396,
      "step": 1940
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6655590777493133,
      "learning_rate": 3.143671641844831e-05,
      "loss": 2.6416,
      "step": 1941
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6013044520644226,
      "learning_rate": 3.117804112938205e-05,
      "loss": 2.6501,
      "step": 1942
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.624204654778921,
      "learning_rate": 3.092040023639869e-05,
      "loss": 2.7161,
      "step": 1943
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6090839397622151,
      "learning_rate": 3.066379430795002e-05,
      "loss": 2.6977,
      "step": 1944
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6545971993012837,
      "learning_rate": 3.040822391020459e-05,
      "loss": 2.6709,
      "step": 1945
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6217739132114528,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 2.7513,
      "step": 1946
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6297268535847418,
      "learning_rate": 2.9900191960071545e-05,
      "loss": 2.5866,
      "step": 1947
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6493021846344142,
      "learning_rate": 2.9647731528591848e-05,
      "loss": 2.6564,
      "step": 1948
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6037263807037065,
      "learning_rate": 2.9396308869628795e-05,
      "loss": 2.6708,
      "step": 1949
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6537897116610027,
      "learning_rate": 2.914592453791448e-05,
      "loss": 2.7306,
      "step": 1950
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6434164479330635,
      "learning_rate": 2.8896579085889994e-05,
      "loss": 2.7898,
      "step": 1951
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6398838173643004,
      "learning_rate": 2.86482730637046e-05,
      "loss": 2.7088,
      "step": 1952
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6459022164187534,
      "learning_rate": 2.840100701921383e-05,
      "loss": 2.5962,
      "step": 1953
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6313984813482678,
      "learning_rate": 2.8154781497978898e-05,
      "loss": 2.7485,
      "step": 1954
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7034173131750912,
      "learning_rate": 2.7909597043265013e-05,
      "loss": 2.6825,
      "step": 1955
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6176134728393409,
      "learning_rate": 2.7665454196040662e-05,
      "loss": 2.7207,
      "step": 1956
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6429102465551273,
      "learning_rate": 2.7422353494975905e-05,
      "loss": 2.7014,
      "step": 1957
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6513838476290849,
      "learning_rate": 2.7180295476441573e-05,
      "loss": 2.815,
      "step": 1958
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6349726449986295,
      "learning_rate": 2.6939280674508016e-05,
      "loss": 2.6982,
      "step": 1959
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6239818505057136,
      "learning_rate": 2.669930962094358e-05,
      "loss": 2.7189,
      "step": 1960
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6375943545723922,
      "learning_rate": 2.6460382845214126e-05,
      "loss": 2.7386,
      "step": 1961
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.677978182154996,
      "learning_rate": 2.6222500874481025e-05,
      "loss": 2.7108,
      "step": 1962
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.630902477649172,
      "learning_rate": 2.5985664233600827e-05,
      "loss": 2.7842,
      "step": 1963
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6320453389719404,
      "learning_rate": 2.574987344512336e-05,
      "loss": 2.7256,
      "step": 1964
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6522795460089297,
      "learning_rate": 2.5515129029290984e-05,
      "loss": 2.7058,
      "step": 1965
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.599873920691179,
      "learning_rate": 2.5281431504037556e-05,
      "loss": 2.704,
      "step": 1966
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6081832625938837,
      "learning_rate": 2.504878138498684e-05,
      "loss": 2.6087,
      "step": 1967
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6191857200223927,
      "learning_rate": 2.48171791854519e-05,
      "loss": 2.7598,
      "step": 1968
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6425548449873538,
      "learning_rate": 2.4586625416433473e-05,
      "loss": 2.635,
      "step": 1969
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6248205987263061,
      "learning_rate": 2.435712058661921e-05,
      "loss": 2.7139,
      "step": 1970
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6158385839366717,
      "learning_rate": 2.4128665202382327e-05,
      "loss": 2.6798,
      "step": 1971
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6186918071959225,
      "learning_rate": 2.3901259767780515e-05,
      "loss": 2.6545,
      "step": 1972
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5948412364275552,
      "learning_rate": 2.367490478455514e-05,
      "loss": 2.6962,
      "step": 1973
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.640820405402728,
      "learning_rate": 2.3449600752129597e-05,
      "loss": 2.7948,
      "step": 1974
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6243861187999984,
      "learning_rate": 2.3225348167608685e-05,
      "loss": 2.8094,
      "step": 1975
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.631096150740603,
      "learning_rate": 2.3002147525777118e-05,
      "loss": 2.6978,
      "step": 1976
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.62389549443628,
      "learning_rate": 2.2779999319098856e-05,
      "loss": 2.7616,
      "step": 1977
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6368948939674515,
      "learning_rate": 2.255890403771571e-05,
      "loss": 2.7411,
      "step": 1978
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6250208447025324,
      "learning_rate": 2.233886216944614e-05,
      "loss": 2.5363,
      "step": 1979
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6338077567688063,
      "learning_rate": 2.211987419978484e-05,
      "loss": 2.6234,
      "step": 1980
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6149856239568655,
      "learning_rate": 2.1901940611900705e-05,
      "loss": 2.69,
      "step": 1981
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6280477821060305,
      "learning_rate": 2.168506188663666e-05,
      "loss": 2.725,
      "step": 1982
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6252381667285303,
      "learning_rate": 2.1469238502507925e-05,
      "loss": 2.817,
      "step": 1983
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6058245665203449,
      "learning_rate": 2.125447093570154e-05,
      "loss": 2.6268,
      "step": 1984
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6399362617422958,
      "learning_rate": 2.1040759660074793e-05,
      "loss": 2.706,
      "step": 1985
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6286829690166642,
      "learning_rate": 2.0828105147154273e-05,
      "loss": 2.6981,
      "step": 1986
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6309443595381755,
      "learning_rate": 2.061650786613545e-05,
      "loss": 2.6388,
      "step": 1987
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6343252030204705,
      "learning_rate": 2.040596828388058e-05,
      "loss": 2.7484,
      "step": 1988
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.650257605079322,
      "learning_rate": 2.019648686491865e-05,
      "loss": 2.7892,
      "step": 1989
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6369089506732896,
      "learning_rate": 1.9988064071443767e-05,
      "loss": 2.63,
      "step": 1990
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6524121082802443,
      "learning_rate": 1.9780700363314253e-05,
      "loss": 2.7905,
      "step": 1991
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6802313400651648,
      "learning_rate": 1.957439619805196e-05,
      "loss": 2.6515,
      "step": 1992
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6030897722456977,
      "learning_rate": 1.9369152030840554e-05,
      "loss": 2.7794,
      "step": 1993
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6473960465716728,
      "learning_rate": 1.916496831452552e-05,
      "loss": 2.7203,
      "step": 1994
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5967013199242301,
      "learning_rate": 1.8961845499611998e-05,
      "loss": 2.6912,
      "step": 1995
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.640500679239724,
      "learning_rate": 1.8759784034264925e-05,
      "loss": 2.7396,
      "step": 1996
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6742425650482188,
      "learning_rate": 1.855878436430708e-05,
      "loss": 2.6632,
      "step": 1997
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.620996480537198,
      "learning_rate": 1.835884693321871e-05,
      "loss": 2.7294,
      "step": 1998
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6158450762842765,
      "learning_rate": 1.8159972182136386e-05,
      "loss": 2.6337,
      "step": 1999
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6543202814271385,
      "learning_rate": 1.7962160549851945e-05,
      "loss": 2.7445,
      "step": 2000
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.619030088299821,
      "learning_rate": 1.776541247281177e-05,
      "loss": 2.6679,
      "step": 2001
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6577629788874559,
      "learning_rate": 1.7569728385115224e-05,
      "loss": 2.5591,
      "step": 2002
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6246712619771643,
      "learning_rate": 1.7375108718514665e-05,
      "loss": 2.6911,
      "step": 2003
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6261534789943594,
      "learning_rate": 1.7181553902413438e-05,
      "loss": 2.7051,
      "step": 2004
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6706563727067705,
      "learning_rate": 1.698906436386577e-05,
      "loss": 2.6351,
      "step": 2005
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6430452800019851,
      "learning_rate": 1.679764052757532e-05,
      "loss": 2.6386,
      "step": 2006
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6136985954844784,
      "learning_rate": 1.6607282815894464e-05,
      "loss": 2.618,
      "step": 2007
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6109888650279606,
      "learning_rate": 1.6417991648823405e-05,
      "loss": 2.7412,
      "step": 2008
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6471716530927837,
      "learning_rate": 1.6229767444008835e-05,
      "loss": 2.6259,
      "step": 2009
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6323604777482702,
      "learning_rate": 1.604261061674378e-05,
      "loss": 2.7659,
      "step": 2010
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6626976540013197,
      "learning_rate": 1.5856521579965865e-05,
      "loss": 2.6943,
      "step": 2011
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6133369681572083,
      "learning_rate": 1.5671500744256938e-05,
      "loss": 2.5011,
      "step": 2012
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6400604687746909,
      "learning_rate": 1.5487548517841953e-05,
      "loss": 2.7569,
      "step": 2013
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6046676066725729,
      "learning_rate": 1.530466530658814e-05,
      "loss": 2.6336,
      "step": 2014
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6285042978850175,
      "learning_rate": 1.5122851514004054e-05,
      "loss": 2.628,
      "step": 2015
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6497908180327573,
      "learning_rate": 1.4942107541238703e-05,
      "loss": 2.6773,
      "step": 2016
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6119393150680731,
      "learning_rate": 1.4762433787080809e-05,
      "loss": 2.7196,
      "step": 2017
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6477447008423453,
      "learning_rate": 1.4583830647957541e-05,
      "loss": 2.7765,
      "step": 2018
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6207286426565061,
      "learning_rate": 1.4406298517934068e-05,
      "loss": 2.7531,
      "step": 2019
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.653283019241579,
      "learning_rate": 1.4229837788712562e-05,
      "loss": 2.7638,
      "step": 2020
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6128892741359144,
      "learning_rate": 1.4054448849631085e-05,
      "loss": 2.7251,
      "step": 2021
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6058600078261325,
      "learning_rate": 1.3880132087663145e-05,
      "loss": 2.6757,
      "step": 2022
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6128717961925729,
      "learning_rate": 1.3706887887416419e-05,
      "loss": 2.6262,
      "step": 2023
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6106629657311335,
      "learning_rate": 1.3534716631132316e-05,
      "loss": 2.6907,
      "step": 2024
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6189142033235678,
      "learning_rate": 1.3363618698684853e-05,
      "loss": 2.6343,
      "step": 2025
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5815326963857175,
      "learning_rate": 1.3193594467579728e-05,
      "loss": 2.6516,
      "step": 2026
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6050686367832645,
      "learning_rate": 1.3024644312954026e-05,
      "loss": 2.6282,
      "step": 2027
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6368327266107303,
      "learning_rate": 1.2856768607574564e-05,
      "loss": 2.6143,
      "step": 2028
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6397321713738077,
      "learning_rate": 1.2689967721837947e-05,
      "loss": 2.6395,
      "step": 2029
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6402104637286241,
      "learning_rate": 1.2524242023769006e-05,
      "loss": 2.5542,
      "step": 2030
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6381940376727218,
      "learning_rate": 1.2359591879020526e-05,
      "loss": 2.7063,
      "step": 2031
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.664949089622097,
      "learning_rate": 1.2196017650872081e-05,
      "loss": 2.6791,
      "step": 2032
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6402080239342132,
      "learning_rate": 1.2033519700229367e-05,
      "loss": 2.7606,
      "step": 2033
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6535579489352928,
      "learning_rate": 1.1872098385623586e-05,
      "loss": 2.6287,
      "step": 2034
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.617840883380306,
      "learning_rate": 1.1711754063210289e-05,
      "loss": 2.6764,
      "step": 2035
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6807536889407751,
      "learning_rate": 1.155248708676887e-05,
      "loss": 2.6527,
      "step": 2036
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6196492507669005,
      "learning_rate": 1.1394297807701737e-05,
      "loss": 2.7495,
      "step": 2037
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6112212167403943,
      "learning_rate": 1.1237186575033254e-05,
      "loss": 2.6139,
      "step": 2038
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6439056226492871,
      "learning_rate": 1.1081153735409522e-05,
      "loss": 2.6998,
      "step": 2039
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6352607870993741,
      "learning_rate": 1.0926199633097156e-05,
      "loss": 2.6895,
      "step": 2040
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6201153910004484,
      "learning_rate": 1.0772324609982787e-05,
      "loss": 2.6515,
      "step": 2041
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6454896654368176,
      "learning_rate": 1.0619529005571893e-05,
      "loss": 2.6633,
      "step": 2042
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6152881280885162,
      "learning_rate": 1.0467813156988748e-05,
      "loss": 2.6372,
      "step": 2043
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6297184875046314,
      "learning_rate": 1.0317177398975031e-05,
      "loss": 2.7349,
      "step": 2044
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6295913740452048,
      "learning_rate": 1.0167622063889326e-05,
      "loss": 2.666,
      "step": 2045
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6252086200399135,
      "learning_rate": 1.0019147481706625e-05,
      "loss": 2.6666,
      "step": 2046
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6190800385636702,
      "learning_rate": 9.871753980017051e-06,
      "loss": 2.6873,
      "step": 2047
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6131269180640482,
      "learning_rate": 9.725441884025855e-06,
      "loss": 2.6185,
      "step": 2048
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.655012354626824,
      "learning_rate": 9.580211516551862e-06,
      "loss": 2.7922,
      "step": 2049
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6378928215441021,
      "learning_rate": 9.436063198027589e-06,
      "loss": 2.6154,
      "step": 2050
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6505271709152004,
      "learning_rate": 9.292997246497959e-06,
      "loss": 2.6135,
      "step": 2051
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6102128786665189,
      "learning_rate": 9.151013977619693e-06,
      "loss": 2.8086,
      "step": 2052
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6445376165003391,
      "learning_rate": 9.010113704661038e-06,
      "loss": 2.7061,
      "step": 2053
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6396195256993423,
      "learning_rate": 8.870296738500316e-06,
      "loss": 2.7492,
      "step": 2054
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6219898796407605,
      "learning_rate": 8.731563387626095e-06,
      "loss": 2.678,
      "step": 2055
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6284143115715681,
      "learning_rate": 8.59391395813569e-06,
      "loss": 2.6231,
      "step": 2056
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6232948925567963,
      "learning_rate": 8.457348753735328e-06,
      "loss": 2.74,
      "step": 2057
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6088632744980823,
      "learning_rate": 8.321868075738593e-06,
      "loss": 2.6712,
      "step": 2058
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6223581982219983,
      "learning_rate": 8.187472223066371e-06,
      "loss": 2.7603,
      "step": 2059
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6028531441611618,
      "learning_rate": 8.054161492246136e-06,
      "loss": 2.6777,
      "step": 2060
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6289519752356738,
      "learning_rate": 7.921936177411049e-06,
      "loss": 2.7105,
      "step": 2061
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6502204376629652,
      "learning_rate": 7.790796570299463e-06,
      "loss": 2.6224,
      "step": 2062
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6434782926823606,
      "learning_rate": 7.660742960254207e-06,
      "loss": 2.6723,
      "step": 2063
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6209566420060979,
      "learning_rate": 7.531775634222138e-06,
      "loss": 2.6002,
      "step": 2064
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6288340040669436,
      "learning_rate": 7.403894876753192e-06,
      "loss": 2.6382,
      "step": 2065
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6452471338998932,
      "learning_rate": 7.277100970000061e-06,
      "loss": 2.7169,
      "step": 2066
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6262697927615362,
      "learning_rate": 7.151394193717408e-06,
      "loss": 2.6137,
      "step": 2067
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.596543253862108,
      "learning_rate": 7.026774825261151e-06,
      "loss": 2.7039,
      "step": 2068
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6544468087221963,
      "learning_rate": 6.903243139588233e-06,
      "loss": 2.6263,
      "step": 2069
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6284148950768841,
      "learning_rate": 6.780799409255522e-06,
      "loss": 2.6067,
      "step": 2070
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6626288501622188,
      "learning_rate": 6.659443904419637e-06,
      "loss": 2.8845,
      "step": 2071
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6016456339969876,
      "learning_rate": 6.539176892836008e-06,
      "loss": 2.7378,
      "step": 2072
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6102123539958391,
      "learning_rate": 6.4199986398585375e-06,
      "loss": 2.71,
      "step": 2073
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6409262056090148,
      "learning_rate": 6.3019094084388884e-06,
      "loss": 2.7407,
      "step": 2074
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.611050165514112,
      "learning_rate": 6.18490945912592e-06,
      "loss": 2.6858,
      "step": 2075
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6264758135659094,
      "learning_rate": 6.068999050065249e-06,
      "loss": 2.7019,
      "step": 2076
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6229383715427278,
      "learning_rate": 5.9541784369983586e-06,
      "loss": 2.6841,
      "step": 2077
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6211688857727121,
      "learning_rate": 5.840447873262433e-06,
      "loss": 2.7538,
      "step": 2078
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6637010407931145,
      "learning_rate": 5.727807609789471e-06,
      "loss": 2.6695,
      "step": 2079
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.589188787614309,
      "learning_rate": 5.616257895105892e-06,
      "loss": 2.6207,
      "step": 2080
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6418586424695416,
      "learning_rate": 5.505798975331933e-06,
      "loss": 2.7658,
      "step": 2081
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6250859945749382,
      "learning_rate": 5.396431094181198e-06,
      "loss": 2.7281,
      "step": 2082
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6283427420353873,
      "learning_rate": 5.288154492960107e-06,
      "loss": 2.8102,
      "step": 2083
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6280853168848739,
      "learning_rate": 5.1809694105671155e-06,
      "loss": 2.7618,
      "step": 2084
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6007314185693337,
      "learning_rate": 5.074876083492441e-06,
      "loss": 2.6557,
      "step": 2085
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6426502666328482,
      "learning_rate": 4.96987474581767e-06,
      "loss": 2.7508,
      "step": 2086
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5884768202976803,
      "learning_rate": 4.865965629214819e-06,
      "loss": 2.5753,
      "step": 2087
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5822228148032768,
      "learning_rate": 4.763148962946218e-06,
      "loss": 2.6289,
      "step": 2088
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.601889970029431,
      "learning_rate": 4.661424973863681e-06,
      "loss": 2.6824,
      "step": 2089
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6427349398663589,
      "learning_rate": 4.560793886408398e-06,
      "loss": 2.7521,
      "step": 2090
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6493829030480845,
      "learning_rate": 4.461255922609986e-06,
      "loss": 2.7885,
      "step": 2091
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6086352387277649,
      "learning_rate": 4.362811302086267e-06,
      "loss": 2.7298,
      "step": 2092
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5942019771516724,
      "learning_rate": 4.265460242042885e-06,
      "loss": 2.6441,
      "step": 2093
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6259146584937817,
      "learning_rate": 4.169202957272522e-06,
      "loss": 2.6732,
      "step": 2094
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6161489577465384,
      "learning_rate": 4.074039660154738e-06,
      "loss": 2.7074,
      "step": 2095
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6516743071441783,
      "learning_rate": 3.9799705606551325e-06,
      "loss": 2.7561,
      "step": 2096
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6452911839475853,
      "learning_rate": 3.886995866325294e-06,
      "loss": 2.6195,
      "step": 2097
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6208075857542975,
      "learning_rate": 3.795115782302072e-06,
      "loss": 2.7676,
      "step": 2098
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6191597529682514,
      "learning_rate": 3.704330511307197e-06,
      "loss": 2.6397,
      "step": 2099
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6381138268957757,
      "learning_rate": 3.614640253646828e-06,
      "loss": 2.6771,
      "step": 2100
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6551597942337175,
      "learning_rate": 3.5260452072110594e-06,
      "loss": 2.8678,
      "step": 2101
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6264561553841876,
      "learning_rate": 3.4385455674737498e-06,
      "loss": 2.6414,
      "step": 2102
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6488794705363147,
      "learning_rate": 3.3521415274915256e-06,
      "loss": 2.749,
      "step": 2103
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6140297528484142,
      "learning_rate": 3.2668332779041133e-06,
      "loss": 2.6709,
      "step": 2104
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6419427390127851,
      "learning_rate": 3.1826210069332838e-06,
      "loss": 2.6604,
      "step": 2105
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6494425699542368,
      "learning_rate": 3.0995049003826324e-06,
      "loss": 2.643,
      "step": 2106
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6462949388104118,
      "learning_rate": 3.017485141637355e-06,
      "loss": 2.6096,
      "step": 2107
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6235236523805388,
      "learning_rate": 2.9365619116636376e-06,
      "loss": 2.7075,
      "step": 2108
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6577381138848837,
      "learning_rate": 2.856735389008269e-06,
      "loss": 2.6667,
      "step": 2109
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6125222386348497,
      "learning_rate": 2.778005749798307e-06,
      "loss": 2.6799,
      "step": 2110
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6012957143369544,
      "learning_rate": 2.700373167740744e-06,
      "loss": 2.6644,
      "step": 2111
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6310359342903361,
      "learning_rate": 2.62383781412201e-06,
      "loss": 2.6619,
      "step": 2112
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6084335643477397,
      "learning_rate": 2.5483998578076373e-06,
      "loss": 2.5752,
      "step": 2113
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5830532435128494,
      "learning_rate": 2.4740594652418736e-06,
      "loss": 2.5485,
      "step": 2114
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6331795686939468,
      "learning_rate": 2.4008168004472917e-06,
      "loss": 2.6161,
      "step": 2115
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6469235343703664,
      "learning_rate": 2.3286720250246253e-06,
      "loss": 2.6425,
      "step": 2116
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.673794425663256,
      "learning_rate": 2.2576252981520994e-06,
      "loss": 2.5969,
      "step": 2117
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6704195937572773,
      "learning_rate": 2.1876767765853233e-06,
      "loss": 2.6567,
      "step": 2118
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6343474666132276,
      "learning_rate": 2.118826614656788e-06,
      "loss": 2.6575,
      "step": 2119
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6657082922736707,
      "learning_rate": 2.051074964275701e-06,
      "loss": 2.7103,
      "step": 2120
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6381649873841658,
      "learning_rate": 1.984421974927375e-06,
      "loss": 2.6638,
      "step": 2121
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6304522352700879,
      "learning_rate": 1.9188677936731734e-06,
      "loss": 2.6242,
      "step": 2122
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.599682124647259,
      "learning_rate": 1.8544125651501208e-06,
      "loss": 2.7079,
      "step": 2123
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6028310259517912,
      "learning_rate": 1.7910564315704035e-06,
      "loss": 2.7048,
      "step": 2124
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6417842786900182,
      "learning_rate": 1.7287995327214257e-06,
      "loss": 2.6572,
      "step": 2125
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6397731890930045,
      "learning_rate": 1.6676420059649754e-06,
      "loss": 2.6617,
      "step": 2126
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6426940395414206,
      "learning_rate": 1.6075839862374485e-06,
      "loss": 2.6718,
      "step": 2127
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.627128044960863,
      "learning_rate": 1.5486256060492366e-06,
      "loss": 2.7098,
      "step": 2128
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6333777652181098,
      "learning_rate": 1.4907669954844495e-06,
      "loss": 2.6368,
      "step": 2129
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6360565308506556,
      "learning_rate": 1.434008282200805e-06,
      "loss": 2.5858,
      "step": 2130
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6304017497986708,
      "learning_rate": 1.3783495914291844e-06,
      "loss": 2.6578,
      "step": 2131
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6361400527383214,
      "learning_rate": 1.3237910459734104e-06,
      "loss": 2.7341,
      "step": 2132
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6432227101068044,
      "learning_rate": 1.270332766210025e-06,
      "loss": 2.6627,
      "step": 2133
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.627310235033934,
      "learning_rate": 1.2179748700879012e-06,
      "loss": 2.7197,
      "step": 2134
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6344177415113982,
      "learning_rate": 1.1667174731280205e-06,
      "loss": 2.7389,
      "step": 2135
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6198948686565596,
      "learning_rate": 1.1165606884234182e-06,
      "loss": 2.7362,
      "step": 2136
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6113139179892626,
      "learning_rate": 1.0675046266386268e-06,
      "loss": 2.7144,
      "step": 2137
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6316637690849116,
      "learning_rate": 1.019549396009567e-06,
      "loss": 2.6497,
      "step": 2138
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6386474402729849,
      "learning_rate": 9.726951023434348e-07,
      "loss": 2.714,
      "step": 2139
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6088814373474395,
      "learning_rate": 9.269418490182591e-07,
      "loss": 2.678,
      "step": 2140
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6339870734316081,
      "learning_rate": 8.822897369827332e-07,
      "loss": 2.737,
      "step": 2141
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6262715005109207,
      "learning_rate": 8.387388647561611e-07,
      "loss": 2.6442,
      "step": 2142
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6344510599242669,
      "learning_rate": 7.962893284279016e-07,
      "loss": 2.6306,
      "step": 2143
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6105291998730085,
      "learning_rate": 7.549412216574791e-07,
      "loss": 2.7535,
      "step": 2144
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6312475500164458,
      "learning_rate": 7.146946356743067e-07,
      "loss": 2.6402,
      "step": 2145
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6139027951089021,
      "learning_rate": 6.755496592773524e-07,
      "loss": 2.7461,
      "step": 2146
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6068947810546176,
      "learning_rate": 6.375063788349733e-07,
      "loss": 2.7722,
      "step": 2147
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6510033212550984,
      "learning_rate": 6.005648782848594e-07,
      "loss": 2.8083,
      "step": 2148
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6432981578421751,
      "learning_rate": 5.647252391337565e-07,
      "loss": 2.6911,
      "step": 2149
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6135214592129172,
      "learning_rate": 5.299875404572441e-07,
      "loss": 2.6116,
      "step": 2150
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6395991213118003,
      "learning_rate": 4.963518588996796e-07,
      "loss": 2.5978,
      "step": 2151
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6119339253615395,
      "learning_rate": 4.638182686738657e-07,
      "loss": 2.6827,
      "step": 2152
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6244406212268235,
      "learning_rate": 4.3238684156110543e-07,
      "loss": 2.7027,
      "step": 2153
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6249245065315859,
      "learning_rate": 4.020576469108139e-07,
      "loss": 2.6296,
      "step": 2154
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6124653960866406,
      "learning_rate": 3.7283075164046274e-07,
      "loss": 2.6839,
      "step": 2155
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6614292357349901,
      "learning_rate": 3.4470622023557995e-07,
      "loss": 2.7859,
      "step": 2156
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6420049509703726,
      "learning_rate": 3.176841147492504e-07,
      "loss": 2.5346,
      "step": 2157
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6208840122434314,
      "learning_rate": 2.9176449480244895e-07,
      "loss": 2.6105,
      "step": 2158
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6107200748625579,
      "learning_rate": 2.6694741758342967e-07,
      "loss": 2.7661,
      "step": 2159
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6183432650812603,
      "learning_rate": 2.432329378478926e-07,
      "loss": 2.6948,
      "step": 2160
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6660205300432922,
      "learning_rate": 2.2062110791892798e-07,
      "loss": 2.8434,
      "step": 2161
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6389026140135611,
      "learning_rate": 1.9911197768662792e-07,
      "loss": 2.689,
      "step": 2162
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6299930308187295,
      "learning_rate": 1.7870559460814173e-07,
      "loss": 2.6625,
      "step": 2163
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6449858067556022,
      "learning_rate": 1.5940200370750947e-07,
      "loss": 2.727,
      "step": 2164
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6498813333942958,
      "learning_rate": 1.4120124757577291e-07,
      "loss": 2.7969,
      "step": 2165
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6100242405892398,
      "learning_rate": 1.2410336637047603e-07,
      "loss": 2.6736,
      "step": 2166
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.627446993115523,
      "learning_rate": 1.081083978159425e-07,
      "loss": 2.7394,
      "step": 2167
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6193389442892282,
      "learning_rate": 9.321637720310915e-08,
      "loss": 2.7608,
      "step": 2168
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6289768718764212,
      "learning_rate": 7.942733738924845e-08,
      "loss": 2.6023,
      "step": 2169
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6293177895682196,
      "learning_rate": 6.6741308798135e-08,
      "loss": 2.6102,
      "step": 2170
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6311526355405808,
      "learning_rate": 5.5158319419934546e-08,
      "loss": 2.7206,
      "step": 2171
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.565956379293873,
      "learning_rate": 4.4678394810981906e-08,
      "loss": 2.585,
      "step": 2172
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6050759210055813,
      "learning_rate": 3.5301558093947527e-08,
      "loss": 2.6388,
      "step": 2173
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6186648817179163,
      "learning_rate": 2.7027829957559925e-08,
      "loss": 2.6532,
      "step": 2174
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5969170900814658,
      "learning_rate": 1.985722865682771e-08,
      "loss": 2.7505,
      "step": 2175
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6278218350457447,
      "learning_rate": 1.3789770012762048e-08,
      "loss": 2.6766,
      "step": 2176
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6419604916928562,
      "learning_rate": 8.825467412376665e-09,
      "loss": 2.7867,
      "step": 2177
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6153777725453368,
      "learning_rate": 4.96433180879885e-09,
      "loss": 2.5703,
      "step": 2178
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6040041393088795,
      "learning_rate": 2.206371721158451e-09,
      "loss": 2.6124,
      "step": 2179
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6482524531768135,
      "learning_rate": 5.515932345323549e-10,
      "loss": 2.8625,
      "step": 2180
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6191782121409797,
      "learning_rate": 0.0,
      "loss": 2.6807,
      "step": 2181
    },
    {
      "epoch": 1.0,
      "step": 2181,
      "total_flos": 41282490912768.0,
      "train_loss": 2.9143491884482557,
      "train_runtime": 3340.5369,
      "train_samples_per_second": 167.077,
      "train_steps_per_second": 0.653
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2181,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50000.0,
  "total_flos": 41282490912768.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}