{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 6702,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 7.3166088841553645,
      "learning_rate": 9.900990099009901e-08,
      "loss": 0.7123,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 160.5654698237265,
      "learning_rate": 1.9801980198019803e-07,
      "loss": 1.9755,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 139.64922933177027,
      "learning_rate": 2.9702970297029703e-07,
      "loss": 1.8679,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 119.5401488425938,
      "learning_rate": 3.9603960396039606e-07,
      "loss": 1.8977,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 123.65778915875195,
      "learning_rate": 4.950495049504951e-07,
      "loss": 1.9742,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 155.2507530988027,
      "learning_rate": 5.940594059405941e-07,
      "loss": 1.9264,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 122.48288019344135,
      "learning_rate": 6.930693069306931e-07,
      "loss": 1.8099,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 89.67698248958338,
      "learning_rate": 7.920792079207921e-07,
      "loss": 1.7955,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 43.04234756744877,
      "learning_rate": 8.910891089108911e-07,
      "loss": 1.5853,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 45.64550771174287,
      "learning_rate": 9.900990099009902e-07,
      "loss": 1.4163,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 22.25789779782005,
      "learning_rate": 1.0891089108910893e-06,
      "loss": 1.4681,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 5.282976927585484,
      "learning_rate": 1.1881188118811881e-06,
      "loss": 0.6453,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 23.121587626529536,
      "learning_rate": 1.2871287128712872e-06,
      "loss": 1.3444,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 15.725789407787731,
      "learning_rate": 1.3861386138613863e-06,
      "loss": 1.2816,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 14.439084391558906,
      "learning_rate": 1.4851485148514852e-06,
      "loss": 1.3663,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.039992937490949,
      "learning_rate": 1.5841584158415842e-06,
      "loss": 1.1966,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 14.100072820923408,
      "learning_rate": 1.6831683168316833e-06,
      "loss": 1.2803,
      "step": 17
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.134557568108455,
      "learning_rate": 1.7821782178217822e-06,
      "loss": 1.2211,
      "step": 18
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.797945278108111,
      "learning_rate": 1.8811881188118813e-06,
      "loss": 1.176,
      "step": 19
    },
    {
      "epoch": 0.0,
      "grad_norm": 9.14921899064222,
      "learning_rate": 1.9801980198019803e-06,
      "loss": 1.1668,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 10.365848095037427,
      "learning_rate": 2.0792079207920794e-06,
      "loss": 1.1706,
      "step": 21
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.117828167966055,
      "learning_rate": 2.1782178217821785e-06,
      "loss": 1.1505,
      "step": 22
    },
    {
      "epoch": 0.0,
      "grad_norm": 9.72633948205264,
      "learning_rate": 2.2772277227722776e-06,
      "loss": 1.0858,
      "step": 23
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.28239559343447,
      "learning_rate": 2.3762376237623762e-06,
      "loss": 1.1667,
      "step": 24
    },
    {
      "epoch": 0.0,
      "grad_norm": 13.26184431812738,
      "learning_rate": 2.4752475247524753e-06,
      "loss": 1.1609,
      "step": 25
    },
    {
      "epoch": 0.0,
      "grad_norm": 21.714878193705506,
      "learning_rate": 2.5742574257425744e-06,
      "loss": 1.1169,
      "step": 26
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.16048978356235,
      "learning_rate": 2.6732673267326735e-06,
      "loss": 1.0757,
      "step": 27
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.832010242091268,
      "learning_rate": 2.7722772277227726e-06,
      "loss": 1.0707,
      "step": 28
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.438661197260782,
      "learning_rate": 2.8712871287128712e-06,
      "loss": 1.1578,
      "step": 29
    },
    {
      "epoch": 0.0,
      "grad_norm": 7.445064336812822,
      "learning_rate": 2.9702970297029703e-06,
      "loss": 1.0079,
      "step": 30
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.165535581393883,
      "learning_rate": 3.0693069306930694e-06,
      "loss": 1.073,
      "step": 31
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.61266118789428,
      "learning_rate": 3.1683168316831685e-06,
      "loss": 1.0382,
      "step": 32
    },
    {
      "epoch": 0.0,
      "grad_norm": 7.355074034877791,
      "learning_rate": 3.2673267326732676e-06,
      "loss": 0.9706,
      "step": 33
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.830053019918395,
      "learning_rate": 3.3663366336633666e-06,
      "loss": 1.0779,
      "step": 34
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.180482958339442,
      "learning_rate": 3.4653465346534653e-06,
      "loss": 0.673,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.597591806311885,
      "learning_rate": 3.5643564356435644e-06,
      "loss": 0.9739,
      "step": 36
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.958913198660308,
      "learning_rate": 3.6633663366336635e-06,
      "loss": 1.1625,
      "step": 37
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.922678554947608,
      "learning_rate": 3.7623762376237625e-06,
      "loss": 0.9891,
      "step": 38
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.060441573868854,
      "learning_rate": 3.861386138613862e-06,
      "loss": 1.0432,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.307067049675933,
      "learning_rate": 3.960396039603961e-06,
      "loss": 0.9963,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.348432917885828,
      "learning_rate": 4.05940594059406e-06,
      "loss": 0.9926,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.777648336932268,
      "learning_rate": 4.158415841584159e-06,
      "loss": 1.0198,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.366685089218206,
      "learning_rate": 4.2574257425742575e-06,
      "loss": 1.024,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.590376440692073,
      "learning_rate": 4.356435643564357e-06,
      "loss": 1.0078,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.091950280522779,
      "learning_rate": 4.455445544554456e-06,
      "loss": 0.9738,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": 15.151855755606688,
      "learning_rate": 4.554455445544555e-06,
      "loss": 0.7191,
      "step": 46
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.473331568587573,
      "learning_rate": 4.653465346534654e-06,
      "loss": 0.9205,
      "step": 47
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.237734783049029,
      "learning_rate": 4.7524752475247525e-06,
      "loss": 0.9603,
      "step": 48
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.013055413118203,
      "learning_rate": 4.851485148514852e-06,
      "loss": 1.0093,
      "step": 49
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.477313198353533,
      "learning_rate": 4.950495049504951e-06,
      "loss": 0.7813,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.612975079679774,
      "learning_rate": 5.04950495049505e-06,
      "loss": 0.9947,
      "step": 51
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.450281367395339,
      "learning_rate": 5.148514851485149e-06,
      "loss": 0.9041,
      "step": 52
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.65657131782604,
      "learning_rate": 5.247524752475248e-06,
      "loss": 0.9455,
      "step": 53
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.922016298112946,
      "learning_rate": 5.346534653465347e-06,
      "loss": 0.8798,
      "step": 54
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.743489634437524,
      "learning_rate": 5.4455445544554465e-06,
      "loss": 1.0017,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.654228837368931,
      "learning_rate": 5.544554455445545e-06,
      "loss": 0.9191,
      "step": 56
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.116257074434745,
      "learning_rate": 5.643564356435644e-06,
      "loss": 0.8838,
      "step": 57
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.207359046491791,
      "learning_rate": 5.7425742574257425e-06,
      "loss": 0.896,
      "step": 58
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.0800906591019475,
      "learning_rate": 5.841584158415842e-06,
      "loss": 1.0447,
      "step": 59
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.217519173556313,
      "learning_rate": 5.940594059405941e-06,
      "loss": 0.874,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.691868175509634,
      "learning_rate": 6.03960396039604e-06,
      "loss": 0.9479,
      "step": 61
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.9193195634595535,
      "learning_rate": 6.138613861386139e-06,
      "loss": 0.9547,
      "step": 62
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.734887033318289,
      "learning_rate": 6.237623762376238e-06,
      "loss": 0.9228,
      "step": 63
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.713064000584558,
      "learning_rate": 6.336633663366337e-06,
      "loss": 0.9433,
      "step": 64
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.152676851472636,
      "learning_rate": 6.4356435643564364e-06,
      "loss": 0.8514,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.480684520906506,
      "learning_rate": 6.534653465346535e-06,
      "loss": 0.8467,
      "step": 66
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.787923845064539,
      "learning_rate": 6.633663366336635e-06,
      "loss": 0.9095,
      "step": 67
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.749368088282488,
      "learning_rate": 6.732673267326733e-06,
      "loss": 0.9811,
      "step": 68
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.141574256517653,
      "learning_rate": 6.831683168316833e-06,
      "loss": 0.8315,
      "step": 69
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.881208209855175,
      "learning_rate": 6.930693069306931e-06,
      "loss": 0.8988,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.223739680203901,
      "learning_rate": 7.02970297029703e-06,
      "loss": 0.9125,
      "step": 71
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.920936691261693,
      "learning_rate": 7.128712871287129e-06,
      "loss": 0.8634,
      "step": 72
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.450704952175764,
      "learning_rate": 7.227722772277228e-06,
      "loss": 0.8455,
      "step": 73
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.679278997931167,
      "learning_rate": 7.326732673267327e-06,
      "loss": 0.8845,
      "step": 74
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.143882532005006,
      "learning_rate": 7.425742574257426e-06,
      "loss": 0.9252,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.063988861764314,
      "learning_rate": 7.524752475247525e-06,
      "loss": 0.9084,
      "step": 76
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.5480443467164995,
      "learning_rate": 7.6237623762376246e-06,
      "loss": 0.6685,
      "step": 77
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.2736585767763815,
      "learning_rate": 7.722772277227724e-06,
      "loss": 0.7976,
      "step": 78
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.9320953311124445,
      "learning_rate": 7.821782178217822e-06,
      "loss": 0.9689,
      "step": 79
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.569382902360533,
      "learning_rate": 7.920792079207921e-06,
      "loss": 0.8901,
      "step": 80
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.074004144438734,
      "learning_rate": 8.019801980198021e-06,
      "loss": 0.8034,
      "step": 81
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.036338802776951,
      "learning_rate": 8.11881188118812e-06,
      "loss": 0.9041,
      "step": 82
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.7048119839804925,
      "learning_rate": 8.217821782178218e-06,
      "loss": 0.8535,
      "step": 83
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.256442041808864,
      "learning_rate": 8.316831683168318e-06,
      "loss": 0.8982,
      "step": 84
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.5520625617199695,
      "learning_rate": 8.415841584158416e-06,
      "loss": 0.9622,
      "step": 85
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.025058668891865,
      "learning_rate": 8.514851485148515e-06,
      "loss": 0.9243,
      "step": 86
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.5569968243479835,
      "learning_rate": 8.613861386138615e-06,
      "loss": 1.0191,
      "step": 87
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.650770811489636,
      "learning_rate": 8.712871287128714e-06,
      "loss": 0.9607,
      "step": 88
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.583937546444573,
      "learning_rate": 8.811881188118812e-06,
      "loss": 0.99,
      "step": 89
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.263815026937134,
      "learning_rate": 8.910891089108911e-06,
      "loss": 0.8405,
      "step": 90
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.326583134220975,
      "learning_rate": 9.009900990099011e-06,
      "loss": 0.9517,
      "step": 91
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.1505380135692445,
      "learning_rate": 9.10891089108911e-06,
      "loss": 0.9098,
      "step": 92
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.177515574255036,
      "learning_rate": 9.20792079207921e-06,
      "loss": 0.8049,
      "step": 93
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.80835051965595,
      "learning_rate": 9.306930693069308e-06,
      "loss": 0.9571,
      "step": 94
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.210755837679168,
      "learning_rate": 9.405940594059405e-06,
      "loss": 0.9151,
      "step": 95
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.193078068901318,
      "learning_rate": 9.504950495049505e-06,
      "loss": 0.8638,
      "step": 96
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.514007891704931,
      "learning_rate": 9.603960396039604e-06,
      "loss": 0.8958,
      "step": 97
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.662626572988753,
      "learning_rate": 9.702970297029704e-06,
      "loss": 0.9048,
      "step": 98
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.2172535343064945,
      "learning_rate": 9.801980198019802e-06,
      "loss": 0.9406,
      "step": 99
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.881561066012887,
      "learning_rate": 9.900990099009901e-06,
      "loss": 0.9625,
      "step": 100
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.406698754481894,
      "learning_rate": 1e-05,
      "loss": 0.9973,
      "step": 101
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.829123884052018,
      "learning_rate": 1.00990099009901e-05,
      "loss": 0.7942,
      "step": 102
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.335551454675395,
      "learning_rate": 1.01980198019802e-05,
      "loss": 0.9227,
      "step": 103
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.6801519021729785,
      "learning_rate": 1.0297029702970298e-05,
      "loss": 0.8605,
      "step": 104
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.445570447958956,
      "learning_rate": 1.0396039603960397e-05,
      "loss": 0.8342,
      "step": 105
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.501846679397944,
      "learning_rate": 1.0495049504950497e-05,
      "loss": 0.966,
      "step": 106
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.6046637585623555,
      "learning_rate": 1.0594059405940596e-05,
      "loss": 0.9082,
      "step": 107
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.8077420193525846,
      "learning_rate": 1.0693069306930694e-05,
      "loss": 0.942,
      "step": 108
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.371071525926335,
      "learning_rate": 1.0792079207920793e-05,
      "loss": 0.8304,
      "step": 109
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.368412700410185,
      "learning_rate": 1.0891089108910893e-05,
      "loss": 0.873,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.932814079346339,
      "learning_rate": 1.0990099009900992e-05,
      "loss": 0.9246,
      "step": 111
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.9948092775816177,
      "learning_rate": 1.108910891089109e-05,
      "loss": 0.9036,
      "step": 112
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.50690880384228,
      "learning_rate": 1.118811881188119e-05,
      "loss": 0.8927,
      "step": 113
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.642340707064174,
      "learning_rate": 1.1287128712871288e-05,
      "loss": 0.8884,
      "step": 114
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.614384939471802,
      "learning_rate": 1.1386138613861385e-05,
      "loss": 0.9053,
      "step": 115
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.006636104165445,
      "learning_rate": 1.1485148514851485e-05,
      "loss": 0.9461,
      "step": 116
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.843865277937746,
      "learning_rate": 1.1584158415841584e-05,
      "loss": 0.8163,
      "step": 117
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.220804154477015,
      "learning_rate": 1.1683168316831684e-05,
      "loss": 0.8693,
      "step": 118
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.638030380536745,
      "learning_rate": 1.1782178217821782e-05,
      "loss": 0.8368,
      "step": 119
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.719469542342989,
      "learning_rate": 1.1881188118811881e-05,
      "loss": 0.8928,
      "step": 120
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.998652789120109,
      "learning_rate": 1.198019801980198e-05,
      "loss": 0.8977,
      "step": 121
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.118054802827915,
      "learning_rate": 1.207920792079208e-05,
      "loss": 0.8297,
      "step": 122
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.501361529023188,
      "learning_rate": 1.217821782178218e-05,
      "loss": 0.8995,
      "step": 123
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.036059666843671,
      "learning_rate": 1.2277227722772278e-05,
      "loss": 0.8322,
      "step": 124
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.616670835872452,
      "learning_rate": 1.2376237623762377e-05,
      "loss": 0.873,
      "step": 125
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.8447473786416264,
      "learning_rate": 1.2475247524752477e-05,
      "loss": 0.9382,
      "step": 126
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.51153057867994,
      "learning_rate": 1.2574257425742576e-05,
      "loss": 0.9483,
      "step": 127
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.721138001338311,
      "learning_rate": 1.2673267326732674e-05,
      "loss": 0.925,
      "step": 128
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.154449264114473,
      "learning_rate": 1.2772277227722773e-05,
      "loss": 0.9834,
      "step": 129
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.631820414849735,
      "learning_rate": 1.2871287128712873e-05,
      "loss": 0.7935,
      "step": 130
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.350825428754539,
      "learning_rate": 1.2970297029702972e-05,
      "loss": 0.8646,
      "step": 131
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.042147501400277,
      "learning_rate": 1.306930693069307e-05,
      "loss": 0.8337,
      "step": 132
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.8717539137050148,
      "learning_rate": 1.316831683168317e-05,
      "loss": 0.8724,
      "step": 133
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.382664323166443,
      "learning_rate": 1.326732673267327e-05,
      "loss": 0.8977,
      "step": 134
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.128359680394921,
      "learning_rate": 1.3366336633663369e-05,
      "loss": 0.9566,
      "step": 135
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.526189272300326,
      "learning_rate": 1.3465346534653467e-05,
      "loss": 0.8428,
      "step": 136
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.153189064233543,
      "learning_rate": 1.3564356435643566e-05,
      "loss": 0.8737,
      "step": 137
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7409116877213173,
      "learning_rate": 1.3663366336633666e-05,
      "loss": 0.8139,
      "step": 138
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.509630534052001,
      "learning_rate": 1.3762376237623762e-05,
      "loss": 0.9234,
      "step": 139
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.020204504052373,
      "learning_rate": 1.3861386138613861e-05,
      "loss": 0.9129,
      "step": 140
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.286227399960997,
      "learning_rate": 1.396039603960396e-05,
      "loss": 0.8928,
      "step": 141
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7866341621051474,
      "learning_rate": 1.405940594059406e-05,
      "loss": 0.9074,
      "step": 142
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.146055254243669,
      "learning_rate": 1.4158415841584158e-05,
      "loss": 0.8693,
      "step": 143
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.129773477260726,
      "learning_rate": 1.4257425742574257e-05,
      "loss": 0.8118,
      "step": 144
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.1374966776188105,
      "learning_rate": 1.4356435643564357e-05,
      "loss": 0.8654,
      "step": 145
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.5674273271481387,
      "learning_rate": 1.4455445544554456e-05,
      "loss": 0.8031,
      "step": 146
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7592318760205554,
      "learning_rate": 1.4554455445544556e-05,
      "loss": 0.9039,
      "step": 147
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.806400079081985,
      "learning_rate": 1.4653465346534654e-05,
      "loss": 0.8006,
      "step": 148
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.393099907109588,
      "learning_rate": 1.4752475247524753e-05,
      "loss": 0.9096,
      "step": 149
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7519068858326476,
      "learning_rate": 1.4851485148514853e-05,
      "loss": 0.9691,
      "step": 150
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.550153391747282,
      "learning_rate": 1.4950495049504952e-05,
      "loss": 0.8925,
      "step": 151
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.364776938496824,
      "learning_rate": 1.504950495049505e-05,
      "loss": 0.8475,
      "step": 152
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.27748079108989,
      "learning_rate": 1.514851485148515e-05,
      "loss": 0.8021,
      "step": 153
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.23492997373976,
      "learning_rate": 1.5247524752475249e-05,
      "loss": 0.9616,
      "step": 154
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.637719894505539,
      "learning_rate": 1.534653465346535e-05,
      "loss": 0.8169,
      "step": 155
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.21326979009792,
      "learning_rate": 1.5445544554455448e-05,
      "loss": 0.699,
      "step": 156
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.162665079783936,
      "learning_rate": 1.5544554455445548e-05,
      "loss": 0.871,
      "step": 157
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7476309303757325,
      "learning_rate": 1.5643564356435644e-05,
      "loss": 0.8869,
      "step": 158
    },
    {
      "epoch": 0.02,
      "grad_norm": 57.29318507092307,
      "learning_rate": 1.5742574257425743e-05,
      "loss": 0.8765,
      "step": 159
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.9290553519532736,
      "learning_rate": 1.5841584158415843e-05,
      "loss": 0.9001,
      "step": 160
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.789629768691958,
      "learning_rate": 1.5940594059405942e-05,
      "loss": 0.9184,
      "step": 161
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.012811744579857,
      "learning_rate": 1.6039603960396042e-05,
      "loss": 0.8873,
      "step": 162
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.799606583796098,
      "learning_rate": 1.613861386138614e-05,
      "loss": 0.9058,
      "step": 163
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.172156207835533,
      "learning_rate": 1.623762376237624e-05,
      "loss": 0.8849,
      "step": 164
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7571817379126466,
      "learning_rate": 1.6336633663366337e-05,
      "loss": 0.7797,
      "step": 165
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.814048391715082,
      "learning_rate": 1.6435643564356436e-05,
      "loss": 0.8523,
      "step": 166
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.186833739181641,
      "learning_rate": 1.6534653465346536e-05,
      "loss": 0.8727,
      "step": 167
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.251016771910348,
      "learning_rate": 1.6633663366336635e-05,
      "loss": 0.8634,
      "step": 168
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.351388878473547,
      "learning_rate": 1.6732673267326735e-05,
      "loss": 0.9522,
      "step": 169
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.582650762569586,
      "learning_rate": 1.683168316831683e-05,
      "loss": 0.9032,
      "step": 170
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.802337285547169,
      "learning_rate": 1.693069306930693e-05,
      "loss": 1.0035,
      "step": 171
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.777996766782033,
      "learning_rate": 1.702970297029703e-05,
      "loss": 0.928,
      "step": 172
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6808681675490917,
      "learning_rate": 1.712871287128713e-05,
      "loss": 0.9463,
      "step": 173
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.5406850468752338,
      "learning_rate": 1.722772277227723e-05,
      "loss": 0.9051,
      "step": 174
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.393836953877007,
      "learning_rate": 1.732673267326733e-05,
      "loss": 0.8642,
      "step": 175
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.333131751314714,
      "learning_rate": 1.7425742574257428e-05,
      "loss": 0.8577,
      "step": 176
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.9077810172451852,
      "learning_rate": 1.7524752475247528e-05,
      "loss": 0.9331,
      "step": 177
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.891296685529208,
      "learning_rate": 1.7623762376237624e-05,
      "loss": 0.9756,
      "step": 178
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6718801053253602,
      "learning_rate": 1.7722772277227723e-05,
      "loss": 0.9265,
      "step": 179
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.8636284368392895,
      "learning_rate": 1.7821782178217823e-05,
      "loss": 0.9106,
      "step": 180
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.887991472828738,
      "learning_rate": 1.7920792079207922e-05,
      "loss": 0.9022,
      "step": 181
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.737836193969339,
      "learning_rate": 1.8019801980198022e-05,
      "loss": 0.8881,
      "step": 182
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.881065819162963,
      "learning_rate": 1.811881188118812e-05,
      "loss": 0.8863,
      "step": 183
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.436777750941033,
      "learning_rate": 1.821782178217822e-05,
      "loss": 0.8969,
      "step": 184
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.813123805820978,
      "learning_rate": 1.831683168316832e-05,
      "loss": 0.895,
      "step": 185
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.209131545242473,
      "learning_rate": 1.841584158415842e-05,
      "loss": 0.8856,
      "step": 186
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.1833839752805355,
      "learning_rate": 1.8514851485148516e-05,
      "loss": 0.8605,
      "step": 187
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.61387318799391,
      "learning_rate": 1.8613861386138615e-05,
      "loss": 0.8868,
      "step": 188
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.974890096452814,
      "learning_rate": 1.8712871287128715e-05,
      "loss": 0.9724,
      "step": 189
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.7242791404857956,
      "learning_rate": 1.881188118811881e-05,
      "loss": 0.9701,
      "step": 190
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.646704419476855,
      "learning_rate": 1.891089108910891e-05,
      "loss": 0.9206,
      "step": 191
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.5928275107705785,
      "learning_rate": 1.900990099009901e-05,
      "loss": 0.8565,
      "step": 192
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.067828917801059,
      "learning_rate": 1.910891089108911e-05,
      "loss": 0.9562,
      "step": 193
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.7868361511646538,
      "learning_rate": 1.920792079207921e-05,
      "loss": 0.8375,
      "step": 194
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.120080914884209,
      "learning_rate": 1.930693069306931e-05,
      "loss": 0.9298,
      "step": 195
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.65109008251315,
      "learning_rate": 1.9405940594059408e-05,
      "loss": 0.8509,
      "step": 196
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6439070787118193,
      "learning_rate": 1.9504950495049508e-05,
      "loss": 0.8588,
      "step": 197
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.123091178478396,
      "learning_rate": 1.9603960396039604e-05,
      "loss": 0.8946,
      "step": 198
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.5942028155527916,
      "learning_rate": 1.9702970297029703e-05,
      "loss": 0.8313,
      "step": 199
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.922367052993968,
      "learning_rate": 1.9801980198019803e-05,
      "loss": 0.8772,
      "step": 200
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.520475632046856,
      "learning_rate": 1.9900990099009902e-05,
      "loss": 0.91,
      "step": 201
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.462942027288178,
      "learning_rate": 2e-05,
      "loss": 0.8865,
      "step": 202
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.318869042087924,
      "learning_rate": 1.9999998831999504e-05,
      "loss": 0.8854,
      "step": 203
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.523299532697857,
      "learning_rate": 1.9999995327998284e-05,
      "loss": 0.8736,
      "step": 204
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.772437194213217,
      "learning_rate": 1.9999989487997156e-05,
      "loss": 0.9026,
      "step": 205
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.290192040510306,
      "learning_rate": 1.9999981311997488e-05,
      "loss": 0.8011,
      "step": 206
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6357704733012843,
      "learning_rate": 1.999997080000119e-05,
      "loss": 0.8424,
      "step": 207
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.018855805675898,
      "learning_rate": 1.999995795201072e-05,
      "loss": 0.8452,
      "step": 208
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6269134129982157,
      "learning_rate": 1.9999942768029073e-05,
      "loss": 0.8621,
      "step": 209
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.40763658128183,
      "learning_rate": 1.99999252480598e-05,
      "loss": 0.9613,
      "step": 210
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.9240924677859015,
      "learning_rate": 1.9999905392106993e-05,
      "loss": 0.8921,
      "step": 211
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.663989476053507,
      "learning_rate": 1.9999883200175286e-05,
      "loss": 0.7889,
      "step": 212
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.2722729576541045,
      "learning_rate": 1.9999858672269874e-05,
      "loss": 0.8991,
      "step": 213
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.2934557149896717,
      "learning_rate": 1.9999831808396477e-05,
      "loss": 0.7252,
      "step": 214
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.449041612195769,
      "learning_rate": 1.999980260856137e-05,
      "loss": 0.9657,
      "step": 215
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6791202421119347,
      "learning_rate": 1.9999771072771384e-05,
      "loss": 0.9742,
      "step": 216
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.499997914634967,
      "learning_rate": 1.9999737201033877e-05,
      "loss": 0.9311,
      "step": 217
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.485628410258941,
      "learning_rate": 1.999970099335676e-05,
      "loss": 0.974,
      "step": 218
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.04382647535835,
      "learning_rate": 1.99996624497485e-05,
      "loss": 0.9398,
      "step": 219
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.6696490180802446,
      "learning_rate": 1.9999621570218092e-05,
      "loss": 0.9594,
      "step": 220
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.7651424821798996,
      "learning_rate": 1.999957835477509e-05,
      "loss": 0.9114,
      "step": 221
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.109934219132521,
      "learning_rate": 1.999953280342959e-05,
      "loss": 0.944,
      "step": 222
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.984209936637313,
      "learning_rate": 1.9999484916192225e-05,
      "loss": 0.8499,
      "step": 223
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.0217593417000255,
      "learning_rate": 1.9999434693074192e-05,
      "loss": 0.8422,
      "step": 224
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.254022443505724,
      "learning_rate": 1.999938213408722e-05,
      "loss": 0.9454,
      "step": 225
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.4386787897206297,
      "learning_rate": 1.9999327239243586e-05,
      "loss": 0.8847,
      "step": 226
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.837845363724535,
      "learning_rate": 1.9999270008556108e-05,
      "loss": 0.9388,
      "step": 227
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.116823571039296,
      "learning_rate": 1.9999210442038164e-05,
      "loss": 0.9727,
      "step": 228
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.8559418479625633,
      "learning_rate": 1.9999148539703662e-05,
      "loss": 0.8632,
      "step": 229
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.472974657110037,
      "learning_rate": 1.9999084301567066e-05,
      "loss": 0.8356,
      "step": 230
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.4659445948267837,
      "learning_rate": 1.9999017727643378e-05,
      "loss": 0.916,
      "step": 231
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.4774956499681595,
      "learning_rate": 1.9998948817948157e-05,
      "loss": 0.9239,
      "step": 232
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.343787704435267,
      "learning_rate": 1.9998877572497493e-05,
      "loss": 0.8934,
      "step": 233
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.245941460554685,
      "learning_rate": 1.9998803991308036e-05,
      "loss": 0.9726,
      "step": 234
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.7608394665380054,
      "learning_rate": 1.999872807439697e-05,
      "loss": 0.82,
      "step": 235
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.903737547188783,
      "learning_rate": 1.9998649821782027e-05,
      "loss": 0.9561,
      "step": 236
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.3412663246790935,
      "learning_rate": 1.999856923348149e-05,
      "loss": 0.9319,
      "step": 237
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.969766276730666,
      "learning_rate": 1.9998486309514184e-05,
      "loss": 1.0101,
      "step": 238
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.992465228128209,
      "learning_rate": 1.999840104989948e-05,
      "loss": 0.9525,
      "step": 239
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.997432939206047,
      "learning_rate": 1.9998313454657295e-05,
      "loss": 0.9136,
      "step": 240
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.158156474268775,
      "learning_rate": 1.9998223523808092e-05,
      "loss": 0.8652,
      "step": 241
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.325505674399735,
      "learning_rate": 1.9998131257372878e-05,
      "loss": 0.9053,
      "step": 242
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.691102570574966,
      "learning_rate": 1.9998036655373206e-05,
      "loss": 0.9137,
      "step": 243
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.1373741203492083,
      "learning_rate": 1.9997939717831173e-05,
      "loss": 0.8394,
      "step": 244
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.921996788054248,
      "learning_rate": 1.9997840444769428e-05,
      "loss": 1.0175,
      "step": 245
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.320150673299763,
      "learning_rate": 1.9997738836211157e-05,
      "loss": 0.8635,
      "step": 246
    },
    {
      "epoch": 0.04,
      "grad_norm": 8.578049974934958,
      "learning_rate": 1.99976348921801e-05,
      "loss": 0.8489,
      "step": 247
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.9394643802306355,
      "learning_rate": 1.9997528612700536e-05,
      "loss": 0.9736,
      "step": 248
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.552451637709187,
      "learning_rate": 1.999741999779729e-05,
      "loss": 0.8758,
      "step": 249
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.8132890309473813,
      "learning_rate": 1.999730904749574e-05,
      "loss": 0.9517,
      "step": 250
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.210647917767086,
      "learning_rate": 1.9997195761821797e-05,
      "loss": 0.8625,
      "step": 251
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.0695383186932546,
      "learning_rate": 1.9997080140801932e-05,
      "loss": 0.8845,
      "step": 252
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.0915503262559705,
      "learning_rate": 1.9996962184463147e-05,
      "loss": 0.8484,
      "step": 253
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.935357009154734,
      "learning_rate": 1.9996841892833e-05,
      "loss": 0.8452,
      "step": 254
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.9727188640477387,
      "learning_rate": 1.9996719265939594e-05,
      "loss": 0.9558,
      "step": 255
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.450017895993499,
      "learning_rate": 1.999659430381157e-05,
      "loss": 0.8143,
      "step": 256
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.7662806117796643,
      "learning_rate": 1.999646700647812e-05,
      "loss": 0.9278,
      "step": 257
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.643335158389842,
      "learning_rate": 1.999633737396898e-05,
      "loss": 0.8642,
      "step": 258
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.892956249467739,
      "learning_rate": 1.9996205406314434e-05,
      "loss": 0.9021,
      "step": 259
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.9452626619547333,
      "learning_rate": 1.9996071103545313e-05,
      "loss": 0.9207,
      "step": 260
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.354279117137909,
      "learning_rate": 1.9995934465692984e-05,
      "loss": 0.7969,
      "step": 261
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.0223452122704835,
      "learning_rate": 1.9995795492789368e-05,
      "loss": 0.9403,
      "step": 262
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.092798869218273,
      "learning_rate": 1.999565418486693e-05,
      "loss": 0.8927,
      "step": 263
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.282267478380457,
      "learning_rate": 1.999551054195868e-05,
      "loss": 0.8202,
      "step": 264
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.309718250491036,
      "learning_rate": 1.9995364564098166e-05,
      "loss": 0.8455,
      "step": 265
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.933443935034958,
      "learning_rate": 1.99952162513195e-05,
      "loss": 0.8981,
      "step": 266
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.787495991692889,
      "learning_rate": 1.9995065603657317e-05,
      "loss": 0.8284,
      "step": 267
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.482761083582415,
      "learning_rate": 1.9994912621146814e-05,
      "loss": 0.9472,
      "step": 268
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.8020033222484932,
      "learning_rate": 1.999475730382373e-05,
      "loss": 0.8929,
      "step": 269
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.712751755262025,
      "learning_rate": 1.9994599651724345e-05,
      "loss": 0.9555,
      "step": 270
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.38485906782752,
      "learning_rate": 1.9994439664885484e-05,
      "loss": 0.9304,
      "step": 271
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.34988802919745,
      "learning_rate": 1.999427734334452e-05,
      "loss": 0.8722,
      "step": 272
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.0174764396031626,
      "learning_rate": 1.9994112687139373e-05,
      "loss": 0.8794,
      "step": 273
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.0622421248522333,
      "learning_rate": 1.9993945696308508e-05,
      "loss": 0.9166,
      "step": 274
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.565037333991281,
      "learning_rate": 1.9993776370890932e-05,
      "loss": 0.8936,
      "step": 275
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.703684141127223,
      "learning_rate": 1.9993604710926203e-05,
      "loss": 0.8252,
      "step": 276
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.156894105206721,
      "learning_rate": 1.9993430716454415e-05,
      "loss": 0.7583,
      "step": 277
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.028638036455732,
      "learning_rate": 1.9993254387516216e-05,
      "loss": 0.8031,
      "step": 278
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.088555505560193,
      "learning_rate": 1.99930757241528e-05,
      "loss": 0.8439,
      "step": 279
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.7854608922879307,
      "learning_rate": 1.9992894726405894e-05,
      "loss": 0.765,
      "step": 280
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.5433756646595205,
      "learning_rate": 1.9992711394317787e-05,
      "loss": 0.8803,
      "step": 281
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.6094225134725564,
      "learning_rate": 1.9992525727931303e-05,
      "loss": 0.8287,
      "step": 282
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.048530440634091,
      "learning_rate": 1.9992337727289813e-05,
      "loss": 0.8084,
      "step": 283
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.046425726651039,
      "learning_rate": 1.9992147392437235e-05,
      "loss": 0.9548,
      "step": 284
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.8000412333230136,
      "learning_rate": 1.999195472341803e-05,
      "loss": 0.8136,
      "step": 285
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.3677533368331525,
      "learning_rate": 1.999175972027721e-05,
      "loss": 0.8535,
      "step": 286
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.1770636381917985,
      "learning_rate": 1.9991562383060316e-05,
      "loss": 0.8598,
      "step": 287
    },
    {
      "epoch": 0.04,
      "grad_norm": 7.340494431520682,
      "learning_rate": 1.999136271181346e-05,
      "loss": 0.8706,
      "step": 288
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.527288567093503,
      "learning_rate": 1.999116070658328e-05,
      "loss": 0.9202,
      "step": 289
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.9810930242456455,
      "learning_rate": 1.999095636741696e-05,
      "loss": 0.9419,
      "step": 290
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.6222424600213956,
      "learning_rate": 1.999074969436224e-05,
      "loss": 0.9031,
      "step": 291
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.989777593037465,
      "learning_rate": 1.9990540687467394e-05,
      "loss": 0.8044,
      "step": 292
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.6415418449036956,
      "learning_rate": 1.999032934678125e-05,
      "loss": 0.98,
      "step": 293
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.0826383237179957,
      "learning_rate": 1.9990115672353176e-05,
      "loss": 0.9411,
      "step": 294
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.895740336865066,
      "learning_rate": 1.998989966423308e-05,
      "loss": 0.9262,
      "step": 295
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.062144635627457,
      "learning_rate": 1.9989681322471434e-05,
      "loss": 0.7396,
      "step": 296
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.7340308433507468,
      "learning_rate": 1.9989460647119232e-05,
      "loss": 0.9073,
      "step": 297
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.004215695808563,
      "learning_rate": 1.998923763822803e-05,
      "loss": 0.9033,
      "step": 298
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.001821118441883,
      "learning_rate": 1.9989012295849917e-05,
      "loss": 0.9401,
      "step": 299
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.312030597232484,
      "learning_rate": 1.998878462003754e-05,
      "loss": 0.9591,
      "step": 300
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.2515617433940815,
      "learning_rate": 1.998855461084408e-05,
      "loss": 0.8947,
      "step": 301
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.222463678353184,
      "learning_rate": 1.998832226832327e-05,
      "loss": 0.9358,
      "step": 302
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.813938803935355,
      "learning_rate": 1.998808759252938e-05,
      "loss": 0.8868,
      "step": 303
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.2826992653250677,
      "learning_rate": 1.9987850583517232e-05,
      "loss": 0.9106,
      "step": 304
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0866180366605276,
      "learning_rate": 1.9987611241342196e-05,
      "loss": 0.9064,
      "step": 305
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.3032925272406324,
      "learning_rate": 1.998736956606018e-05,
      "loss": 0.8526,
      "step": 306
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.455208954150046,
      "learning_rate": 1.9987125557727633e-05,
      "loss": 0.9055,
      "step": 307
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.347325426923866,
      "learning_rate": 1.9986879216401562e-05,
      "loss": 0.8933,
      "step": 308
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.7073766890350517,
      "learning_rate": 1.9986630542139513e-05,
      "loss": 0.7651,
      "step": 309
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.107511102812643,
      "learning_rate": 1.9986379534999577e-05,
      "loss": 0.8866,
      "step": 310
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.434265892230359,
      "learning_rate": 1.9986126195040384e-05,
      "loss": 0.7257,
      "step": 311
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.4758157304173865,
      "learning_rate": 1.9985870522321118e-05,
      "loss": 0.8829,
      "step": 312
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.386762599942776,
      "learning_rate": 1.9985612516901504e-05,
      "loss": 0.8525,
      "step": 313
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.2291399537900185,
      "learning_rate": 1.9985352178841807e-05,
      "loss": 0.7946,
      "step": 314
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0618562331871133,
      "learning_rate": 1.998508950820285e-05,
      "loss": 0.8577,
      "step": 315
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0002056370785835,
      "learning_rate": 1.9984824505045988e-05,
      "loss": 0.8798,
      "step": 316
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0294390831504496,
      "learning_rate": 1.9984557169433126e-05,
      "loss": 0.8411,
      "step": 317
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.4423469567273455,
      "learning_rate": 1.998428750142672e-05,
      "loss": 0.8763,
      "step": 318
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.385903833330436,
      "learning_rate": 1.998401550108975e-05,
      "loss": 0.7512,
      "step": 319
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.594249127605131,
      "learning_rate": 1.9983741168485772e-05,
      "loss": 0.8174,
      "step": 320
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.1315522954021766,
      "learning_rate": 1.998346450367886e-05,
      "loss": 0.8342,
      "step": 321
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0643347279662105,
      "learning_rate": 1.9983185506733643e-05,
      "loss": 0.8626,
      "step": 322
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.4826919332526165,
      "learning_rate": 1.9982904177715297e-05,
      "loss": 0.8861,
      "step": 323
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.2396348491425915,
      "learning_rate": 1.9982620516689544e-05,
      "loss": 0.961,
      "step": 324
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.3362706996118243,
      "learning_rate": 1.9982334523722643e-05,
      "loss": 0.7902,
      "step": 325
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.61274254375095,
      "learning_rate": 1.9982046198881403e-05,
      "loss": 0.8802,
      "step": 326
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0380230974087605,
      "learning_rate": 1.9981755542233175e-05,
      "loss": 0.8242,
      "step": 327
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.756606889511332,
      "learning_rate": 1.998146255384586e-05,
      "loss": 0.9631,
      "step": 328
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.8948283390188707,
      "learning_rate": 1.9981167233787898e-05,
      "loss": 0.9048,
      "step": 329
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.6993429697826805,
      "learning_rate": 1.9980869582128274e-05,
      "loss": 0.8916,
      "step": 330
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.8075758915600164,
      "learning_rate": 1.9980569598936524e-05,
      "loss": 0.8731,
      "step": 331
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.851563396145934,
      "learning_rate": 1.9980267284282718e-05,
      "loss": 0.8884,
      "step": 332
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.5940662038738527,
      "learning_rate": 1.997996263823748e-05,
      "loss": 0.9631,
      "step": 333
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.920982406219225,
      "learning_rate": 1.997965566087198e-05,
      "loss": 0.8448,
      "step": 334
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.688641713721598,
      "learning_rate": 1.997934635225792e-05,
      "loss": 0.9058,
      "step": 335
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.1896898082156695,
      "learning_rate": 1.9979034712467556e-05,
      "loss": 0.7678,
      "step": 336
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.7123363197485486,
      "learning_rate": 1.9978720741573693e-05,
      "loss": 0.8968,
      "step": 337
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.89306524297746,
      "learning_rate": 1.997840443964967e-05,
      "loss": 0.9767,
      "step": 338
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.7471396636330225,
      "learning_rate": 1.9978085806769375e-05,
      "loss": 0.8937,
      "step": 339
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.6027000178317405,
      "learning_rate": 1.9977764843007242e-05,
      "loss": 0.8058,
      "step": 340
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.1333694038451774,
      "learning_rate": 1.9977441548438246e-05,
      "loss": 0.8251,
      "step": 341
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.2302309821521,
      "learning_rate": 1.9977115923137912e-05,
      "loss": 0.9249,
      "step": 342
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.9957056715504584,
      "learning_rate": 1.9976787967182303e-05,
      "loss": 0.9167,
      "step": 343
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.910759771911665,
      "learning_rate": 1.9976457680648033e-05,
      "loss": 0.9027,
      "step": 344
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.1379711449646557,
      "learning_rate": 1.9976125063612254e-05,
      "loss": 0.8846,
      "step": 345
    },
    {
      "epoch": 0.05,
      "grad_norm": 16.567693069831122,
      "learning_rate": 1.9975790116152668e-05,
      "loss": 0.8939,
      "step": 346
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.7887633859667136,
      "learning_rate": 1.9975452838347513e-05,
      "loss": 0.7864,
      "step": 347
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.8837086867902415,
      "learning_rate": 1.9975113230275583e-05,
      "loss": 0.8014,
      "step": 348
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.7521793339734484,
      "learning_rate": 1.997477129201621e-05,
      "loss": 1.0245,
      "step": 349
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.6174975011893493,
      "learning_rate": 1.997442702364927e-05,
      "loss": 0.8776,
      "step": 350
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.236393241845515,
      "learning_rate": 1.997408042525518e-05,
      "loss": 0.721,
      "step": 351
    },
    {
      "epoch": 0.05,
      "grad_norm": 13.005111852932707,
      "learning_rate": 1.9973731496914914e-05,
      "loss": 0.9342,
      "step": 352
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.734508449386361,
      "learning_rate": 1.9973380238709974e-05,
      "loss": 0.8968,
      "step": 353
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.6661326784800563,
      "learning_rate": 1.9973026650722417e-05,
      "loss": 0.8629,
      "step": 354
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.492781118580249,
      "learning_rate": 1.997267073303484e-05,
      "loss": 0.8361,
      "step": 355
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.8618152625502313,
      "learning_rate": 1.9972312485730384e-05,
      "loss": 0.8112,
      "step": 356
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.508527970115496,
      "learning_rate": 1.9971951908892743e-05,
      "loss": 0.8182,
      "step": 357
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.7625239802760233,
      "learning_rate": 1.997158900260614e-05,
      "loss": 0.8223,
      "step": 358
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.8459477447919883,
      "learning_rate": 1.9971223766955353e-05,
      "loss": 0.952,
      "step": 359
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.4833395079655216,
      "learning_rate": 1.99708562020257e-05,
      "loss": 0.8599,
      "step": 360
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.7377438622594474,
      "learning_rate": 1.997048630790305e-05,
      "loss": 0.9086,
      "step": 361
    },
    {
      "epoch": 0.05,
      "grad_norm": 15.341864421653868,
      "learning_rate": 1.9970114084673796e-05,
      "loss": 0.8458,
      "step": 362
    },
    {
      "epoch": 0.05,
      "grad_norm": 12.281295736397078,
      "learning_rate": 1.9969739532424907e-05,
      "loss": 0.9125,
      "step": 363
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.5012163373283425,
      "learning_rate": 1.9969362651243865e-05,
      "loss": 0.8539,
      "step": 364
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.901065576744456,
      "learning_rate": 1.9968983441218715e-05,
      "loss": 1.0102,
      "step": 365
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.2304318162091628,
      "learning_rate": 1.9968601902438043e-05,
      "loss": 0.8577,
      "step": 366
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.6305250920584875,
      "learning_rate": 1.996821803499097e-05,
      "loss": 0.8871,
      "step": 367
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.9284308483282606,
      "learning_rate": 1.9967831838967175e-05,
      "loss": 0.8761,
      "step": 368
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.5537943414937385,
      "learning_rate": 1.9967443314456867e-05,
      "loss": 0.9074,
      "step": 369
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.5674361922880737,
      "learning_rate": 1.996705246155081e-05,
      "loss": 0.8903,
      "step": 370
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.885013962676141,
      "learning_rate": 1.99666592803403e-05,
      "loss": 0.9204,
      "step": 371
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.4238238894808797,
      "learning_rate": 1.9966263770917192e-05,
      "loss": 0.8922,
      "step": 372
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.438766880645232,
      "learning_rate": 1.9965865933373874e-05,
      "loss": 0.7407,
      "step": 373
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.7407681652217013,
      "learning_rate": 1.9965465767803283e-05,
      "loss": 0.8834,
      "step": 374
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.041816984214405,
      "learning_rate": 1.9965063274298893e-05,
      "loss": 0.8275,
      "step": 375
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.941707052453482,
      "learning_rate": 1.996465845295473e-05,
      "loss": 0.9678,
      "step": 376
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.2032133952207524,
      "learning_rate": 1.9964251303865362e-05,
      "loss": 0.8323,
      "step": 377
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.820923836119256,
      "learning_rate": 1.9963841827125897e-05,
      "loss": 0.9264,
      "step": 378
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.1103270663158034,
      "learning_rate": 1.9963430022831988e-05,
      "loss": 0.8729,
      "step": 379
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.596383753817598,
      "learning_rate": 1.996301589107983e-05,
      "loss": 0.8009,
      "step": 380
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.3540343645010307,
      "learning_rate": 1.9962599431966168e-05,
      "loss": 0.8898,
      "step": 381
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.7858360453775965,
      "learning_rate": 1.996218064558829e-05,
      "loss": 0.804,
      "step": 382
    },
    {
      "epoch": 0.06,
      "grad_norm": 410.93858461960906,
      "learning_rate": 1.9961759532044017e-05,
      "loss": 0.8656,
      "step": 383
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.6287282002523558,
      "learning_rate": 1.9961336091431728e-05,
      "loss": 0.8493,
      "step": 384
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.148408469766858,
      "learning_rate": 1.9960910323850333e-05,
      "loss": 0.7573,
      "step": 385
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.5671632768198,
      "learning_rate": 1.9960482229399294e-05,
      "loss": 0.8525,
      "step": 386
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.2058186891979727,
      "learning_rate": 1.9960051808178616e-05,
      "loss": 0.8542,
      "step": 387
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.587194942800453,
      "learning_rate": 1.995961906028884e-05,
      "loss": 0.7632,
      "step": 388
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.7294866440492993,
      "learning_rate": 1.9959183985831063e-05,
      "loss": 0.8926,
      "step": 389
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.4120786142036597,
      "learning_rate": 1.9958746584906914e-05,
      "loss": 0.8579,
      "step": 390
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.573107890913196,
      "learning_rate": 1.995830685761857e-05,
      "loss": 0.7746,
      "step": 391
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.9802030413865275,
      "learning_rate": 1.9957864804068752e-05,
      "loss": 0.8312,
      "step": 392
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.9265398567299328,
      "learning_rate": 1.9957420424360726e-05,
      "loss": 0.8766,
      "step": 393
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.495370297188358,
      "learning_rate": 1.9956973718598292e-05,
      "loss": 0.8726,
      "step": 394
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.3956929370142275,
      "learning_rate": 1.9956524686885807e-05,
      "loss": 0.7857,
      "step": 395
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.960171554003013,
      "learning_rate": 1.9956073329328168e-05,
      "loss": 0.8556,
      "step": 396
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.410124304494831,
      "learning_rate": 1.99556196460308e-05,
      "loss": 0.8482,
      "step": 397
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.8913736226181563,
      "learning_rate": 1.9955163637099698e-05,
      "loss": 0.8194,
      "step": 398
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.03187217609103,
      "learning_rate": 1.9954705302641373e-05,
      "loss": 0.9615,
      "step": 399
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.1354331145510876,
      "learning_rate": 1.99542446427629e-05,
      "loss": 0.8819,
      "step": 400
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.642454847371572,
      "learning_rate": 1.9953781657571887e-05,
      "loss": 0.8025,
      "step": 401
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.8802112112816243,
      "learning_rate": 1.995331634717649e-05,
      "loss": 0.9734,
      "step": 402
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8282010441031118,
      "learning_rate": 1.9952848711685398e-05,
      "loss": 0.7311,
      "step": 403
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.067800728049944,
      "learning_rate": 1.9952378751207858e-05,
      "loss": 0.8653,
      "step": 404
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.098338645596385,
      "learning_rate": 1.995190646585365e-05,
      "loss": 0.8808,
      "step": 405
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.7192236499300426,
      "learning_rate": 1.99514318557331e-05,
      "loss": 0.8507,
      "step": 406
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.7500375316466927,
      "learning_rate": 1.9950954920957074e-05,
      "loss": 0.8459,
      "step": 407
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.5170840677545434,
      "learning_rate": 1.995047566163699e-05,
      "loss": 0.7958,
      "step": 408
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.754190442072124,
      "learning_rate": 1.99499940778848e-05,
      "loss": 0.8777,
      "step": 409
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.310498552517908,
      "learning_rate": 1.9949510169813006e-05,
      "loss": 0.9017,
      "step": 410
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.593840135496359,
      "learning_rate": 1.994902393753464e-05,
      "loss": 0.8219,
      "step": 411
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.768423290259711,
      "learning_rate": 1.994853538116329e-05,
      "loss": 0.8187,
      "step": 412
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6534435414091058,
      "learning_rate": 1.9948044500813085e-05,
      "loss": 0.689,
      "step": 413
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.0889601452452085,
      "learning_rate": 1.9947551296598698e-05,
      "loss": 0.8434,
      "step": 414
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.419621616085119,
      "learning_rate": 1.9947055768635333e-05,
      "loss": 0.8775,
      "step": 415
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.44560534560701,
      "learning_rate": 1.9946557917038752e-05,
      "loss": 0.8892,
      "step": 416
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.643550102764139,
      "learning_rate": 1.994605774192525e-05,
      "loss": 0.8622,
      "step": 417
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.3575465849224084,
      "learning_rate": 1.9945555243411666e-05,
      "loss": 0.8929,
      "step": 418
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.7975897892267243,
      "learning_rate": 1.994505042161539e-05,
      "loss": 0.9159,
      "step": 419
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.931115065081534,
      "learning_rate": 1.9944543276654343e-05,
      "loss": 0.9393,
      "step": 420
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.918370550340007,
      "learning_rate": 1.9944033808646997e-05,
      "loss": 0.8525,
      "step": 421
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.1093319169084666,
      "learning_rate": 1.994352201771236e-05,
      "loss": 0.9212,
      "step": 422
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.490682839664496,
      "learning_rate": 1.994300790396999e-05,
      "loss": 0.8358,
      "step": 423
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.303940645172802,
      "learning_rate": 1.9942491467539984e-05,
      "loss": 0.749,
      "step": 424
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.8546589103497624,
      "learning_rate": 1.994197270854298e-05,
      "loss": 1.0016,
      "step": 425
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.1616288460974507,
      "learning_rate": 1.9941451627100163e-05,
      "loss": 0.913,
      "step": 426
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.956444376127931,
      "learning_rate": 1.9940928223333254e-05,
      "loss": 0.8695,
      "step": 427
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.5868694861376196,
      "learning_rate": 1.994040249736452e-05,
      "loss": 0.8855,
      "step": 428
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.4805103258342216,
      "learning_rate": 1.9939874449316776e-05,
      "loss": 0.8313,
      "step": 429
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.980883341552564,
      "learning_rate": 1.9939344079313368e-05,
      "loss": 0.7741,
      "step": 430
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.3924688738346105,
      "learning_rate": 1.9938811387478193e-05,
      "loss": 0.9615,
      "step": 431
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.796357102363075,
      "learning_rate": 1.9938276373935688e-05,
      "loss": 0.7207,
      "step": 432
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.365870073518121,
      "learning_rate": 1.9937739038810833e-05,
      "loss": 0.7924,
      "step": 433
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.668078455199846,
      "learning_rate": 1.9937199382229147e-05,
      "loss": 0.8153,
      "step": 434
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.0535777168100133,
      "learning_rate": 1.9936657404316694e-05,
      "loss": 0.8743,
      "step": 435
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.542895412989776,
      "learning_rate": 1.9936113105200085e-05,
      "loss": 0.7897,
      "step": 436
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.696351313924855,
      "learning_rate": 1.9935566485006464e-05,
      "loss": 0.8783,
      "step": 437
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.918027659913036,
      "learning_rate": 1.9935017543863522e-05,
      "loss": 0.8869,
      "step": 438
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.790185033939861,
      "learning_rate": 1.993446628189949e-05,
      "loss": 0.6836,
      "step": 439
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.5326573426596983,
      "learning_rate": 1.993391269924315e-05,
      "loss": 0.8204,
      "step": 440
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.405516635173065,
      "learning_rate": 1.9933356796023808e-05,
      "loss": 0.8156,
      "step": 441
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.9164504155480824,
      "learning_rate": 1.993279857237133e-05,
      "loss": 0.8966,
      "step": 442
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.078471987974025,
      "learning_rate": 1.9932238028416118e-05,
      "loss": 0.8139,
      "step": 443
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5154412263530137,
      "learning_rate": 1.9931675164289114e-05,
      "loss": 0.7376,
      "step": 444
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.713520403270175,
      "learning_rate": 1.9931109980121797e-05,
      "loss": 0.8938,
      "step": 445
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.0740005521296707,
      "learning_rate": 1.9930542476046204e-05,
      "loss": 0.8386,
      "step": 446
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.834652977097898,
      "learning_rate": 1.99299726521949e-05,
      "loss": 0.8684,
      "step": 447
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.7386249801552633,
      "learning_rate": 1.9929400508700994e-05,
      "loss": 0.867,
      "step": 448
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.334942781434833,
      "learning_rate": 1.9928826045698138e-05,
      "loss": 0.7532,
      "step": 449
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.922818119796017,
      "learning_rate": 1.992824926332053e-05,
      "loss": 0.8224,
      "step": 450
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.28130677849987,
      "learning_rate": 1.9927670161702906e-05,
      "loss": 0.8288,
      "step": 451
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.2971638639800465,
      "learning_rate": 1.992708874098054e-05,
      "loss": 0.9381,
      "step": 452
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.8973078952456794,
      "learning_rate": 1.992650500128926e-05,
      "loss": 0.9235,
      "step": 453
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.822209808425352,
      "learning_rate": 1.992591894276542e-05,
      "loss": 0.8886,
      "step": 454
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.376838888987683,
      "learning_rate": 1.9925330565545927e-05,
      "loss": 0.8289,
      "step": 455
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.6356975286224276,
      "learning_rate": 1.9924739869768222e-05,
      "loss": 0.8417,
      "step": 456
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.905113228617208,
      "learning_rate": 1.9924146855570298e-05,
      "loss": 0.8143,
      "step": 457
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.626407751159239,
      "learning_rate": 1.992355152309068e-05,
      "loss": 0.8713,
      "step": 458
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.7033202943308194,
      "learning_rate": 1.9922953872468436e-05,
      "loss": 0.9371,
      "step": 459
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.269652644518838,
      "learning_rate": 1.992235390384318e-05,
      "loss": 0.7976,
      "step": 460
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.210586805660304,
      "learning_rate": 1.9921751617355063e-05,
      "loss": 0.8094,
      "step": 461
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.449515611265777,
      "learning_rate": 1.9921147013144782e-05,
      "loss": 0.8622,
      "step": 462
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.1867261757286656,
      "learning_rate": 1.9920540091353567e-05,
      "loss": 0.8234,
      "step": 463
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.046987564092285,
      "learning_rate": 1.99199308521232e-05,
      "loss": 0.8011,
      "step": 464
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.778448306774716,
      "learning_rate": 1.9919319295596e-05,
      "loss": 0.7903,
      "step": 465
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.4070879147037405,
      "learning_rate": 1.9918705421914816e-05,
      "loss": 0.7478,
      "step": 466
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.7090063809380176,
      "learning_rate": 1.9918089231223066e-05,
      "loss": 0.8742,
      "step": 467
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.937229173207836,
      "learning_rate": 1.991747072366468e-05,
      "loss": 0.8978,
      "step": 468
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.7229443193360328,
      "learning_rate": 1.9916849899384147e-05,
      "loss": 0.7729,
      "step": 469
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.5491249742482793,
      "learning_rate": 1.9916226758526487e-05,
      "loss": 0.7945,
      "step": 470
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.6755236739823784,
      "learning_rate": 1.9915601301237268e-05,
      "loss": 0.8975,
      "step": 471
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.6383074138638327,
      "learning_rate": 1.99149735276626e-05,
      "loss": 0.9,
      "step": 472
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.899133896764723,
      "learning_rate": 1.9914343437949127e-05,
      "loss": 1.0135,
      "step": 473
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.8596526047169504,
      "learning_rate": 1.991371103224404e-05,
      "loss": 0.8257,
      "step": 474
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.0250592442196957,
      "learning_rate": 1.9913076310695068e-05,
      "loss": 0.9063,
      "step": 475
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.9020394203727364,
      "learning_rate": 1.991243927345048e-05,
      "loss": 0.7619,
      "step": 476
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.7373730768384625,
      "learning_rate": 1.9911799920659093e-05,
      "loss": 0.8314,
      "step": 477
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.792472012484027,
      "learning_rate": 1.9911158252470257e-05,
      "loss": 0.8681,
      "step": 478
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.749748503165677,
      "learning_rate": 1.9910514269033866e-05,
      "loss": 0.8778,
      "step": 479
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.0684916485543114,
      "learning_rate": 1.9909867970500353e-05,
      "loss": 0.7891,
      "step": 480
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.6577712873188983,
      "learning_rate": 1.9909219357020695e-05,
      "loss": 0.8195,
      "step": 481
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.8693926124208984,
      "learning_rate": 1.9908568428746408e-05,
      "loss": 0.875,
      "step": 482
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.485484349518556,
      "learning_rate": 1.990791518582955e-05,
      "loss": 0.8198,
      "step": 483
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.9437000747953244,
      "learning_rate": 1.9907259628422718e-05,
      "loss": 0.8732,
      "step": 484
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.5230901620888693,
      "learning_rate": 1.9906601756679048e-05,
      "loss": 0.8281,
      "step": 485
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.4888380056849586,
      "learning_rate": 1.990594157075222e-05,
      "loss": 0.8188,
      "step": 486
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.8960645038142516,
      "learning_rate": 1.9905279070796454e-05,
      "loss": 0.7599,
      "step": 487
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.742237760169719,
      "learning_rate": 1.9904614256966514e-05,
      "loss": 0.7995,
      "step": 488
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.6543018988917635,
      "learning_rate": 1.9903947129417696e-05,
      "loss": 0.8483,
      "step": 489
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.760184965381157,
      "learning_rate": 1.990327768830584e-05,
      "loss": 0.8566,
      "step": 490
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.9923549482197807,
      "learning_rate": 1.990260593378733e-05,
      "loss": 0.8476,
      "step": 491
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.8364322881498083,
      "learning_rate": 1.9901931866019087e-05,
      "loss": 0.8741,
      "step": 492
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.740775845889864,
      "learning_rate": 1.9901255485158574e-05,
      "loss": 0.867,
      "step": 493
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.590271379597808,
      "learning_rate": 1.9900576791363795e-05,
      "loss": 0.8119,
      "step": 494
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.5231354109006636,
      "learning_rate": 1.989989578479329e-05,
      "loss": 0.8749,
      "step": 495
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.2213914975166844,
      "learning_rate": 1.989921246560614e-05,
      "loss": 0.8171,
      "step": 496
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.1640115806277787,
      "learning_rate": 1.989852683396198e-05,
      "loss": 0.8663,
      "step": 497
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.837310818053388,
      "learning_rate": 1.989783889002096e-05,
      "loss": 0.8458,
      "step": 498
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.5409698735142396,
      "learning_rate": 1.989714863394379e-05,
      "loss": 0.8268,
      "step": 499
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.7958534413383243,
      "learning_rate": 1.989645606589171e-05,
      "loss": 0.8698,
      "step": 500
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.6123404508865296,
      "learning_rate": 1.989576118602651e-05,
      "loss": 0.8642,
      "step": 501
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.1035916876956495,
      "learning_rate": 1.9895063994510512e-05,
      "loss": 0.8501,
      "step": 502
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.798325241383093,
      "learning_rate": 1.989436449150658e-05,
      "loss": 0.8821,
      "step": 503
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.863550957502718,
      "learning_rate": 1.9893662677178116e-05,
      "loss": 0.902,
      "step": 504
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.783290210436344,
      "learning_rate": 1.9892958551689065e-05,
      "loss": 0.8768,
      "step": 505
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.591638709487629,
      "learning_rate": 1.989225211520391e-05,
      "loss": 0.7598,
      "step": 506
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.457595476763254,
      "learning_rate": 1.9891543367887675e-05,
      "loss": 0.8461,
      "step": 507
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.999653260290463,
      "learning_rate": 1.9890832309905927e-05,
      "loss": 0.8421,
      "step": 508
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.8127704490729504,
      "learning_rate": 1.989011894142476e-05,
      "loss": 0.7992,
      "step": 509
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.105165860926858,
      "learning_rate": 1.9889403262610827e-05,
      "loss": 0.7215,
      "step": 510
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.7279777674653793,
      "learning_rate": 1.9888685273631307e-05,
      "loss": 0.8938,
      "step": 511
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.6731717751485085,
      "learning_rate": 1.988796497465392e-05,
      "loss": 0.8329,
      "step": 512
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.8736405438759145,
      "learning_rate": 1.9887242365846933e-05,
      "loss": 0.742,
      "step": 513
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.6608324177918443,
      "learning_rate": 1.988651744737914e-05,
      "loss": 0.8616,
      "step": 514
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.2363097720552005,
      "learning_rate": 1.9885790219419888e-05,
      "loss": 0.902,
      "step": 515
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.700503356531949,
      "learning_rate": 1.988506068213906e-05,
      "loss": 0.8549,
      "step": 516
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7101887956524968,
      "learning_rate": 1.988432883570707e-05,
      "loss": 0.6784,
      "step": 517
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.990046865124457,
      "learning_rate": 1.9883594680294878e-05,
      "loss": 0.7701,
      "step": 518
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.8435769900296237,
      "learning_rate": 1.9882858216073982e-05,
      "loss": 0.9146,
      "step": 519
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.3414704079894695,
      "learning_rate": 1.9882119443216426e-05,
      "loss": 0.9819,
      "step": 520
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.20373452282973,
      "learning_rate": 1.988137836189478e-05,
      "loss": 0.801,
      "step": 521
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.304894006587735,
      "learning_rate": 1.9880634972282168e-05,
      "loss": 0.8825,
      "step": 522
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.223710736734774,
      "learning_rate": 1.987988927455224e-05,
      "loss": 0.9363,
      "step": 523
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.0263132668412815,
      "learning_rate": 1.9879141268879194e-05,
      "loss": 0.8736,
      "step": 524
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.894868373689299,
      "learning_rate": 1.9878390955437764e-05,
      "loss": 0.8777,
      "step": 525
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5574458648241314,
      "learning_rate": 1.987763833440322e-05,
      "loss": 0.7257,
      "step": 526
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.9452284064492575,
      "learning_rate": 1.9876883405951378e-05,
      "loss": 0.8551,
      "step": 527
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.0681856438203887,
      "learning_rate": 1.9876126170258588e-05,
      "loss": 0.8626,
      "step": 528
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.922014380001908,
      "learning_rate": 1.9875366627501743e-05,
      "loss": 0.8256,
      "step": 529
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.633932616878976,
      "learning_rate": 1.9874604777858272e-05,
      "loss": 0.8262,
      "step": 530
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.744097168894831,
      "learning_rate": 1.9873840621506138e-05,
      "loss": 0.8742,
      "step": 531
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.9227671496124965,
      "learning_rate": 1.987307415862385e-05,
      "loss": 0.937,
      "step": 532
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.632730706404455,
      "learning_rate": 1.9872305389390454e-05,
      "loss": 0.8519,
      "step": 533
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.895824988597892,
      "learning_rate": 1.987153431398554e-05,
      "loss": 0.8804,
      "step": 534
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.782725352084899,
      "learning_rate": 1.9870760932589225e-05,
      "loss": 0.7615,
      "step": 535
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.7251207422371055,
      "learning_rate": 1.9869985245382172e-05,
      "loss": 0.8576,
      "step": 536
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.855353625425209,
      "learning_rate": 1.9869207252545582e-05,
      "loss": 0.8209,
      "step": 537
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.7083691512397268,
      "learning_rate": 1.9868426954261198e-05,
      "loss": 0.8931,
      "step": 538
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.2175821877026674,
      "learning_rate": 1.986764435071129e-05,
      "loss": 0.8114,
      "step": 539
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.129230443298896,
      "learning_rate": 1.986685944207868e-05,
      "loss": 0.9708,
      "step": 540
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.273679096444355,
      "learning_rate": 1.9866072228546724e-05,
      "loss": 0.8857,
      "step": 541
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.2003784274588623,
      "learning_rate": 1.986528271029931e-05,
      "loss": 0.7529,
      "step": 542
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.939477454547828,
      "learning_rate": 1.9864490887520877e-05,
      "loss": 0.7729,
      "step": 543
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.4136996505225934,
      "learning_rate": 1.986369676039638e-05,
      "loss": 0.8719,
      "step": 544
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.213082160040804,
      "learning_rate": 1.9862900329111344e-05,
      "loss": 0.8552,
      "step": 545
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.3929483458954204,
      "learning_rate": 1.986210159385181e-05,
      "loss": 0.8422,
      "step": 546
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.3812872557174836,
      "learning_rate": 1.9861300554804357e-05,
      "loss": 0.8708,
      "step": 547
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.5035876773695622,
      "learning_rate": 1.9860497212156114e-05,
      "loss": 0.8479,
      "step": 548
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.462121143729919,
      "learning_rate": 1.985969156609474e-05,
      "loss": 0.8402,
      "step": 549
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.5548538880475786,
      "learning_rate": 1.9858883616808434e-05,
      "loss": 0.868,
      "step": 550
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.7937025391218766,
      "learning_rate": 1.9858073364485933e-05,
      "loss": 0.8957,
      "step": 551
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.3937844676879005,
      "learning_rate": 1.985726080931651e-05,
      "loss": 0.8483,
      "step": 552
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.1488297737590036,
      "learning_rate": 1.9856445951489984e-05,
      "loss": 0.7885,
      "step": 553
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.855749751631625,
      "learning_rate": 1.9855628791196698e-05,
      "loss": 0.8739,
      "step": 554
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.5660318648801748,
      "learning_rate": 1.9854809328627546e-05,
      "loss": 0.817,
      "step": 555
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.621764465907884,
      "learning_rate": 1.985398756397395e-05,
      "loss": 0.7706,
      "step": 556
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.65487915141525,
      "learning_rate": 1.9853163497427885e-05,
      "loss": 0.8213,
      "step": 557
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.9423878899424323,
      "learning_rate": 1.985233712918184e-05,
      "loss": 0.8649,
      "step": 558
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.6370359725690267,
      "learning_rate": 1.9851508459428858e-05,
      "loss": 0.8915,
      "step": 559
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.148137881181125,
      "learning_rate": 1.985067748836252e-05,
      "loss": 0.836,
      "step": 560
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.3724165120590213,
      "learning_rate": 1.9849844216176945e-05,
      "loss": 0.8718,
      "step": 561
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.8913517268932645,
      "learning_rate": 1.9849008643066774e-05,
      "loss": 0.8387,
      "step": 562
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.2967603742083567,
      "learning_rate": 1.9848170769227203e-05,
      "loss": 0.9081,
      "step": 563
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.46729505789486,
      "learning_rate": 1.984733059485396e-05,
      "loss": 0.8609,
      "step": 564
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.8648277767093853,
      "learning_rate": 1.984648812014331e-05,
      "loss": 0.9238,
      "step": 565
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.64572672944512,
      "learning_rate": 1.9845643345292055e-05,
      "loss": 0.704,
      "step": 566
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.36500047463872,
      "learning_rate": 1.984479627049753e-05,
      "loss": 0.8887,
      "step": 567
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6072054310482484,
      "learning_rate": 1.984394689595762e-05,
      "loss": 0.7215,
      "step": 568
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.299146849980246,
      "learning_rate": 1.9843095221870736e-05,
      "loss": 0.8696,
      "step": 569
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.0792333245064807,
      "learning_rate": 1.984224124843582e-05,
      "loss": 0.8596,
      "step": 570
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.1301428492322048,
      "learning_rate": 1.9841384975852373e-05,
      "loss": 0.9443,
      "step": 571
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.3695495579037966,
      "learning_rate": 1.9840526404320415e-05,
      "loss": 0.893,
      "step": 572
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.8442206345919145,
      "learning_rate": 1.9839665534040507e-05,
      "loss": 0.8765,
      "step": 573
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.2486647724850983,
      "learning_rate": 1.9838802365213752e-05,
      "loss": 0.8576,
      "step": 574
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.2236853270538606,
      "learning_rate": 1.9837936898041783e-05,
      "loss": 0.6928,
      "step": 575
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.578001774927299,
      "learning_rate": 1.9837069132726775e-05,
      "loss": 0.7914,
      "step": 576
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.655225719893385,
      "learning_rate": 1.983619906947144e-05,
      "loss": 0.8383,
      "step": 577
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.752845566007686,
      "learning_rate": 1.9835326708479015e-05,
      "loss": 0.8827,
      "step": 578
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.549017203538896,
      "learning_rate": 1.98344520499533e-05,
      "loss": 0.9016,
      "step": 579
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5798978177926477,
      "learning_rate": 1.9833575094098602e-05,
      "loss": 0.7192,
      "step": 580
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.847526207843071,
      "learning_rate": 1.9832695841119784e-05,
      "loss": 0.922,
      "step": 581
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.1875152671312414,
      "learning_rate": 1.9831814291222233e-05,
      "loss": 0.9053,
      "step": 582
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.053214642526209,
      "learning_rate": 1.983093044461189e-05,
      "loss": 0.8171,
      "step": 583
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.1321428433898864,
      "learning_rate": 1.9830044301495213e-05,
      "loss": 0.8725,
      "step": 584
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.364517487145074,
      "learning_rate": 1.9829155862079207e-05,
      "loss": 0.7076,
      "step": 585
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.653822124853,
      "learning_rate": 1.9828265126571414e-05,
      "loss": 0.8365,
      "step": 586
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.551271047259048,
      "learning_rate": 1.982737209517991e-05,
      "loss": 0.874,
      "step": 587
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.1829435204091343,
      "learning_rate": 1.9826476768113304e-05,
      "loss": 0.8105,
      "step": 588
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.110070237303702,
      "learning_rate": 1.9825579145580747e-05,
      "loss": 0.8245,
      "step": 589
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.0711350477866852,
      "learning_rate": 1.982467922779192e-05,
      "loss": 0.8583,
      "step": 590
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.4295933681437254,
      "learning_rate": 1.982377701495705e-05,
      "loss": 0.8293,
      "step": 591
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.604258734695214,
      "learning_rate": 1.982287250728689e-05,
      "loss": 0.8696,
      "step": 592
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5721162197501757,
      "learning_rate": 1.982196570499273e-05,
      "loss": 0.6473,
      "step": 593
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.544775950714557,
      "learning_rate": 1.9821056608286406e-05,
      "loss": 0.843,
      "step": 594
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.3758815633819976,
      "learning_rate": 1.982014521738028e-05,
      "loss": 0.7863,
      "step": 595
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.4118786944526946,
      "learning_rate": 1.9819231532487252e-05,
      "loss": 0.8181,
      "step": 596
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.001575994275237,
      "learning_rate": 1.981831555382076e-05,
      "loss": 0.8606,
      "step": 597
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.914833453025676,
      "learning_rate": 1.9817397281594778e-05,
      "loss": 0.9037,
      "step": 598
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.1685115810924063,
      "learning_rate": 1.981647671602381e-05,
      "loss": 0.9171,
      "step": 599
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.6133303479342755,
      "learning_rate": 1.9815553857322905e-05,
      "loss": 0.8747,
      "step": 600
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.673132999547337,
      "learning_rate": 1.9814628705707643e-05,
      "loss": 0.8749,
      "step": 601
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.0960832345279226,
      "learning_rate": 1.9813701261394136e-05,
      "loss": 0.8557,
      "step": 602
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.19898141094019,
      "learning_rate": 1.9812771524599036e-05,
      "loss": 0.8776,
      "step": 603
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.7222697921879027,
      "learning_rate": 1.981183949553953e-05,
      "loss": 0.871,
      "step": 604
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.637272266574698,
      "learning_rate": 1.981090517443334e-05,
      "loss": 0.7539,
      "step": 605
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.2797704320065653,
      "learning_rate": 1.9809968561498728e-05,
      "loss": 0.8501,
      "step": 606
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.264906412252422,
      "learning_rate": 1.980902965695448e-05,
      "loss": 0.8616,
      "step": 607
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.2921952106124324,
      "learning_rate": 1.9808088461019926e-05,
      "loss": 0.8171,
      "step": 608
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.642536028879705,
      "learning_rate": 1.980714497391493e-05,
      "loss": 0.8004,
      "step": 609
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.056739191836135,
      "learning_rate": 1.9806199195859893e-05,
      "loss": 0.8583,
      "step": 610
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.70412158147101,
      "learning_rate": 1.9805251127075746e-05,
      "loss": 0.8591,
      "step": 611
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.948184773536071,
      "learning_rate": 1.9804300767783958e-05,
      "loss": 0.8037,
      "step": 612
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.7443438110952028,
      "learning_rate": 1.9803348118206536e-05,
      "loss": 0.8167,
      "step": 613
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.576722387154853,
      "learning_rate": 1.9802393178566017e-05,
      "loss": 0.8359,
      "step": 614
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.6246749486183325,
      "learning_rate": 1.9801435949085475e-05,
      "loss": 0.8555,
      "step": 615
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.6496597744031165,
      "learning_rate": 1.9800476429988516e-05,
      "loss": 0.8368,
      "step": 616
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.5155559220306984,
      "learning_rate": 1.979951462149929e-05,
      "loss": 0.8172,
      "step": 617
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.2970954514789073,
      "learning_rate": 1.979855052384247e-05,
      "loss": 0.789,
      "step": 618
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.11289584607039,
      "learning_rate": 1.9797584137243272e-05,
      "loss": 0.9348,
      "step": 619
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.8251504318109975,
      "learning_rate": 1.9796615461927443e-05,
      "loss": 0.803,
      "step": 620
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.907468614317832,
      "learning_rate": 1.9795644498121266e-05,
      "loss": 0.8164,
      "step": 621
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.862054823923021,
      "learning_rate": 1.979467124605156e-05,
      "loss": 0.8449,
      "step": 622
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.8691289912451854,
      "learning_rate": 1.9793695705945674e-05,
      "loss": 0.8913,
      "step": 623
    },
    {
      "epoch": 0.09,
      "grad_norm": 8.901023610347325,
      "learning_rate": 1.9792717878031498e-05,
      "loss": 0.7643,
      "step": 624
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.042644395576763,
      "learning_rate": 1.979173776253745e-05,
      "loss": 0.8385,
      "step": 625
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.6978816135859174,
      "learning_rate": 1.979075535969248e-05,
      "loss": 0.8166,
      "step": 626
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.938304244709976,
      "learning_rate": 1.9789770669726088e-05,
      "loss": 0.8986,
      "step": 627
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.450768343552597,
      "learning_rate": 1.9788783692868288e-05,
      "loss": 0.8673,
      "step": 628
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.630860636011841,
      "learning_rate": 1.9787794429349645e-05,
      "loss": 0.8935,
      "step": 629
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.3120738302013035,
      "learning_rate": 1.9786802879401248e-05,
      "loss": 0.8236,
      "step": 630
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.248242314156051,
      "learning_rate": 1.978580904325472e-05,
      "loss": 0.7642,
      "step": 631
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.8062774930781393,
      "learning_rate": 1.9784812921142232e-05,
      "loss": 0.8691,
      "step": 632
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.845946308554233,
      "learning_rate": 1.9783814513296464e-05,
      "loss": 0.7771,
      "step": 633
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.571928245836649,
      "learning_rate": 1.9782813819950656e-05,
      "loss": 0.7493,
      "step": 634
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.3112115888206133,
      "learning_rate": 1.9781810841338563e-05,
      "loss": 0.8318,
      "step": 635
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.8677134800346806,
      "learning_rate": 1.978080557769448e-05,
      "loss": 0.876,
      "step": 636
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.012001807132133,
      "learning_rate": 1.977979802925324e-05,
      "loss": 0.85,
      "step": 637
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0524744881781354,
      "learning_rate": 1.977878819625021e-05,
      "loss": 0.8528,
      "step": 638
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.723716468785889,
      "learning_rate": 1.9777776078921282e-05,
      "loss": 0.8737,
      "step": 639
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.216864558638458,
      "learning_rate": 1.9776761677502888e-05,
      "loss": 0.8676,
      "step": 640
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.1703355331495344,
      "learning_rate": 1.977574499223199e-05,
      "loss": 0.8044,
      "step": 641
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.647000713902006,
      "learning_rate": 1.977472602334609e-05,
      "loss": 0.8749,
      "step": 642
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.891941761629952,
      "learning_rate": 1.9773704771083217e-05,
      "loss": 0.6875,
      "step": 643
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.2798652005431927,
      "learning_rate": 1.9772681235681936e-05,
      "loss": 0.927,
      "step": 644
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.4357699188777597,
      "learning_rate": 1.9771655417381342e-05,
      "loss": 0.8052,
      "step": 645
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.274727138026295,
      "learning_rate": 1.9770627316421074e-05,
      "loss": 0.8953,
      "step": 646
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.9254056886202635,
      "learning_rate": 1.976959693304129e-05,
      "loss": 0.8075,
      "step": 647
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.8920263947136506,
      "learning_rate": 1.9768564267482685e-05,
      "loss": 0.8998,
      "step": 648
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.008617711826989,
      "learning_rate": 1.97675293199865e-05,
      "loss": 0.8116,
      "step": 649
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.130731316627525,
      "learning_rate": 1.9766492090794488e-05,
      "loss": 0.952,
      "step": 650
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.7337927227540257,
      "learning_rate": 1.9765452580148954e-05,
      "loss": 0.8551,
      "step": 651
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.193383144361353,
      "learning_rate": 1.9764410788292724e-05,
      "loss": 0.7423,
      "step": 652
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0710604788198683,
      "learning_rate": 1.976336671546916e-05,
      "loss": 0.9209,
      "step": 653
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.8582932692405265,
      "learning_rate": 1.9762320361922156e-05,
      "loss": 0.9126,
      "step": 654
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.6759160397671335,
      "learning_rate": 1.9761271727896148e-05,
      "loss": 0.8244,
      "step": 655
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0695718593298906,
      "learning_rate": 1.9760220813636087e-05,
      "loss": 0.7381,
      "step": 656
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.622960619540246,
      "learning_rate": 1.9759167619387474e-05,
      "loss": 0.7997,
      "step": 657
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.83998287762639,
      "learning_rate": 1.9758112145396335e-05,
      "loss": 0.8034,
      "step": 658
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.473883746071058,
      "learning_rate": 1.9757054391909224e-05,
      "loss": 0.9042,
      "step": 659
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.766315174034625,
      "learning_rate": 1.9755994359173238e-05,
      "loss": 0.89,
      "step": 660
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.1695828437620555,
      "learning_rate": 1.9754932047435994e-05,
      "loss": 0.8287,
      "step": 661
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.3942232428615666,
      "learning_rate": 1.9753867456945653e-05,
      "loss": 0.8613,
      "step": 662
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.945024712225957,
      "learning_rate": 1.9752800587950903e-05,
      "loss": 0.7947,
      "step": 663
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.058959806299725,
      "learning_rate": 1.9751731440700964e-05,
      "loss": 0.8083,
      "step": 664
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4049967135694577,
      "learning_rate": 1.975066001544559e-05,
      "loss": 0.6703,
      "step": 665
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.3982236391264125,
      "learning_rate": 1.9749586312435065e-05,
      "loss": 0.9326,
      "step": 666
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.2573091818061246,
      "learning_rate": 1.9748510331920204e-05,
      "loss": 0.8116,
      "step": 667
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.5605404211385845,
      "learning_rate": 1.974743207415236e-05,
      "loss": 0.7534,
      "step": 668
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.6129386013523104,
      "learning_rate": 1.9746351539383412e-05,
      "loss": 0.9166,
      "step": 669
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.400013069768836,
      "learning_rate": 1.9745268727865774e-05,
      "loss": 0.8145,
      "step": 670
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.6245757296242944,
      "learning_rate": 1.974418363985239e-05,
      "loss": 0.905,
      "step": 671
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.356400587977272,
      "learning_rate": 1.9743096275596735e-05,
      "loss": 0.8582,
      "step": 672
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0126653718870005,
      "learning_rate": 1.9742006635352822e-05,
      "loss": 0.8699,
      "step": 673
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.8681761083742066,
      "learning_rate": 1.9740914719375186e-05,
      "loss": 0.799,
      "step": 674
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.1852888729642057,
      "learning_rate": 1.9739820527918904e-05,
      "loss": 0.8892,
      "step": 675
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.5103908263216663,
      "learning_rate": 1.9738724061239574e-05,
      "loss": 0.8838,
      "step": 676
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.518206396991122,
      "learning_rate": 1.9737625319593338e-05,
      "loss": 0.905,
      "step": 677
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.5185905344512087,
      "learning_rate": 1.9736524303236852e-05,
      "loss": 0.8643,
      "step": 678
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.9825797384871273,
      "learning_rate": 1.973542101242732e-05,
      "loss": 0.881,
      "step": 679
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.3925171129569414,
      "learning_rate": 1.973431544742247e-05,
      "loss": 0.7634,
      "step": 680
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.4721897009658793,
      "learning_rate": 1.9733207608480563e-05,
      "loss": 0.9001,
      "step": 681
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.6421176304097918,
      "learning_rate": 1.9732097495860388e-05,
      "loss": 0.7164,
      "step": 682
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.5850690274024775,
      "learning_rate": 1.9730985109821268e-05,
      "loss": 0.8377,
      "step": 683
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.421148008598534,
      "learning_rate": 1.9729870450623056e-05,
      "loss": 0.9528,
      "step": 684
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0637490412075787,
      "learning_rate": 1.972875351852614e-05,
      "loss": 0.8887,
      "step": 685
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.447895809180982,
      "learning_rate": 1.972763431379143e-05,
      "loss": 0.7902,
      "step": 686
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.9623697113388754,
      "learning_rate": 1.972651283668038e-05,
      "loss": 0.7309,
      "step": 687
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.999878976203005,
      "learning_rate": 1.9725389087454955e-05,
      "loss": 0.812,
      "step": 688
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.5843930261696446,
      "learning_rate": 1.9724263066377678e-05,
      "loss": 0.8026,
      "step": 689
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.6341133049423155,
      "learning_rate": 1.9723134773711577e-05,
      "loss": 0.8745,
      "step": 690
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.4652919904683253,
      "learning_rate": 1.972200420972022e-05,
      "loss": 0.8788,
      "step": 691
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.462433935764904,
      "learning_rate": 1.9720871374667714e-05,
      "loss": 0.8817,
      "step": 692
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.3713330899305025,
      "learning_rate": 1.971973626881869e-05,
      "loss": 0.8292,
      "step": 693
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.5097937062004694,
      "learning_rate": 1.97185988924383e-05,
      "loss": 0.9452,
      "step": 694
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0430177329226966,
      "learning_rate": 1.9717459245792244e-05,
      "loss": 0.7574,
      "step": 695
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.30483086348639,
      "learning_rate": 1.971631732914674e-05,
      "loss": 0.8905,
      "step": 696
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.634279531244576,
      "learning_rate": 1.971517314276854e-05,
      "loss": 0.7772,
      "step": 697
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.785473905997318,
      "learning_rate": 1.9714026686924925e-05,
      "loss": 0.8979,
      "step": 698
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.533455219923911,
      "learning_rate": 1.971287796188371e-05,
      "loss": 0.7913,
      "step": 699
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.610472792744527,
      "learning_rate": 1.971172696791323e-05,
      "loss": 0.7967,
      "step": 700
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.4759287074646426,
      "learning_rate": 1.971057370528237e-05,
      "loss": 0.8502,
      "step": 701
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.4413235278984633,
      "learning_rate": 1.9709418174260523e-05,
      "loss": 0.8209,
      "step": 702
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.61133638898098,
      "learning_rate": 1.970826037511762e-05,
      "loss": 0.8077,
      "step": 703
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.8095640613185364,
      "learning_rate": 1.9707100308124128e-05,
      "loss": 0.8354,
      "step": 704
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.6079118026713646,
      "learning_rate": 1.9705937973551038e-05,
      "loss": 0.797,
      "step": 705
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.4380005571666947,
      "learning_rate": 1.9704773371669872e-05,
      "loss": 0.7863,
      "step": 706
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.294145157129573,
      "learning_rate": 1.9703606502752674e-05,
      "loss": 0.7845,
      "step": 707
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.3505586322571204,
      "learning_rate": 1.9702437367072035e-05,
      "loss": 0.9453,
      "step": 708
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.8989105333042735,
      "learning_rate": 1.970126596490106e-05,
      "loss": 0.8441,
      "step": 709
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.5652559367097525,
      "learning_rate": 1.9700092296513386e-05,
      "loss": 0.8325,
      "step": 710
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.589215045775247,
      "learning_rate": 1.969891636218319e-05,
      "loss": 0.8004,
      "step": 711
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.176953459185075,
      "learning_rate": 1.9697738162185163e-05,
      "loss": 0.817,
      "step": 712
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.856980808302633,
      "learning_rate": 1.9696557696794537e-05,
      "loss": 0.9694,
      "step": 713
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.6671811457449075,
      "learning_rate": 1.9695374966287065e-05,
      "loss": 0.7762,
      "step": 714
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.543898009267662,
      "learning_rate": 1.9694189970939033e-05,
      "loss": 0.9167,
      "step": 715
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.09158091558601,
      "learning_rate": 1.9693002711027264e-05,
      "loss": 0.8168,
      "step": 716
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.307006145525029,
      "learning_rate": 1.969181318682909e-05,
      "loss": 0.8592,
      "step": 717
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.700490296433574,
      "learning_rate": 1.9690621398622394e-05,
      "loss": 0.819,
      "step": 718
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.9633191991270396,
      "learning_rate": 1.968942734668557e-05,
      "loss": 0.9269,
      "step": 719
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.5059139366070617,
      "learning_rate": 1.9688231031297556e-05,
      "loss": 0.8939,
      "step": 720
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.665264447002026,
      "learning_rate": 1.9687032452737806e-05,
      "loss": 0.8492,
      "step": 721
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.9093645015764658,
      "learning_rate": 1.9685831611286312e-05,
      "loss": 0.7784,
      "step": 722
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.3005699624441305,
      "learning_rate": 1.9684628507223588e-05,
      "loss": 0.7846,
      "step": 723
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.849911620371387,
      "learning_rate": 1.968342314083068e-05,
      "loss": 0.7988,
      "step": 724
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.510961673388331,
      "learning_rate": 1.9682215512389163e-05,
      "loss": 0.8446,
      "step": 725
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.9517650658241603,
      "learning_rate": 1.9681005622181137e-05,
      "loss": 0.804,
      "step": 726
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.1579724267026053,
      "learning_rate": 1.967979347048923e-05,
      "loss": 0.844,
      "step": 727
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.6496259599772416,
      "learning_rate": 1.9678579057596608e-05,
      "loss": 0.9883,
      "step": 728
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.7510288907228135,
      "learning_rate": 1.967736238378695e-05,
      "loss": 0.8148,
      "step": 729
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.4271680664442448,
      "learning_rate": 1.9676143449344477e-05,
      "loss": 0.7574,
      "step": 730
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.3942876733571414,
      "learning_rate": 1.9674922254553933e-05,
      "loss": 0.8384,
      "step": 731
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.880770184979649,
      "learning_rate": 1.9673698799700582e-05,
      "loss": 0.8799,
      "step": 732
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.476364442211159,
      "learning_rate": 1.967247308507023e-05,
      "loss": 0.8377,
      "step": 733
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.9961135151103133,
      "learning_rate": 1.9671245110949202e-05,
      "loss": 0.8113,
      "step": 734
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.4248701459081845,
      "learning_rate": 1.9670014877624353e-05,
      "loss": 0.7907,
      "step": 735
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.1059724452169393,
      "learning_rate": 1.9668782385383065e-05,
      "loss": 0.9453,
      "step": 736
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.4858257888305584,
      "learning_rate": 1.9667547634513248e-05,
      "loss": 0.87,
      "step": 737
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.4902750025838705,
      "learning_rate": 1.966631062530334e-05,
      "loss": 0.8396,
      "step": 738
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.588748526638618,
      "learning_rate": 1.9665071358042307e-05,
      "loss": 0.9105,
      "step": 739
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.7132588734395413,
      "learning_rate": 1.9663829833019643e-05,
      "loss": 0.7301,
      "step": 740
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.823159717547895,
      "learning_rate": 1.9662586050525365e-05,
      "loss": 0.8759,
      "step": 741
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.021214556134104,
      "learning_rate": 1.9661340010850025e-05,
      "loss": 0.757,
      "step": 742
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.812101921611051,
      "learning_rate": 1.9660091714284694e-05,
      "loss": 0.8852,
      "step": 743
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.3081024058937656,
      "learning_rate": 1.9658841161120982e-05,
      "loss": 0.7359,
      "step": 744
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.805908025317033,
      "learning_rate": 1.9657588351651007e-05,
      "loss": 0.8652,
      "step": 745
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.0505692418182426,
      "learning_rate": 1.9656333286167432e-05,
      "loss": 0.9443,
      "step": 746
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.6714236260453377,
      "learning_rate": 1.9655075964963443e-05,
      "loss": 0.8782,
      "step": 747
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.4342327848580245,
      "learning_rate": 1.965381638833274e-05,
      "loss": 0.8058,
      "step": 748
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.7926564257837763,
      "learning_rate": 1.965255455656957e-05,
      "loss": 0.7901,
      "step": 749
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.195977989203139,
      "learning_rate": 1.9651290469968694e-05,
      "loss": 0.8494,
      "step": 750
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.835312844270778,
      "learning_rate": 1.9650024128825406e-05,
      "loss": 0.7432,
      "step": 751
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.495969214562499,
      "learning_rate": 1.9648755533435517e-05,
      "loss": 0.8364,
      "step": 752
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.5053648298012936,
      "learning_rate": 1.9647484684095373e-05,
      "loss": 0.8854,
      "step": 753
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.473637642713778,
      "learning_rate": 1.964621158110185e-05,
      "loss": 0.8096,
      "step": 754
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.7615926191582982,
      "learning_rate": 1.9644936224752336e-05,
      "loss": 0.8253,
      "step": 755
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.5420034402687026,
      "learning_rate": 1.9643658615344762e-05,
      "loss": 0.7765,
      "step": 756
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.27453875703555,
      "learning_rate": 1.9642378753177573e-05,
      "loss": 0.7687,
      "step": 757
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.70385486022613,
      "learning_rate": 1.964109663854975e-05,
      "loss": 0.9604,
      "step": 758
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.9931520720923834,
      "learning_rate": 1.9639812271760784e-05,
      "loss": 0.8469,
      "step": 759
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.9087772132262546,
      "learning_rate": 1.963852565311072e-05,
      "loss": 0.8338,
      "step": 760
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.073430794511401,
      "learning_rate": 1.96372367829001e-05,
      "loss": 0.8455,
      "step": 761
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.6495816022157443,
      "learning_rate": 1.9635945661430006e-05,
      "loss": 0.8169,
      "step": 762
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.785165327538727,
      "learning_rate": 1.9634652289002047e-05,
      "loss": 0.8571,
      "step": 763
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.8963406998147923,
      "learning_rate": 1.9633356665918354e-05,
      "loss": 0.8337,
      "step": 764
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.008850836371186,
      "learning_rate": 1.9632058792481582e-05,
      "loss": 0.7496,
      "step": 765
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.27009117106023,
      "learning_rate": 1.963075866899492e-05,
      "loss": 0.8151,
      "step": 766
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.0770426839436356,
      "learning_rate": 1.9629456295762067e-05,
      "loss": 0.8231,
      "step": 767
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.8165348090283597,
      "learning_rate": 1.962815167308727e-05,
      "loss": 0.8605,
      "step": 768
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.3263100774807914,
      "learning_rate": 1.962684480127528e-05,
      "loss": 0.8288,
      "step": 769
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8590348568504866,
      "learning_rate": 1.9625535680631386e-05,
      "loss": 0.7593,
      "step": 770
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.5414950417618067,
      "learning_rate": 1.96242243114614e-05,
      "loss": 0.8725,
      "step": 771
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.627961750828008,
      "learning_rate": 1.9622910694071654e-05,
      "loss": 0.8941,
      "step": 772
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.2961562633544146,
      "learning_rate": 1.962159482876901e-05,
      "loss": 0.8346,
      "step": 773
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.5442110548555035,
      "learning_rate": 1.962027671586086e-05,
      "loss": 0.7808,
      "step": 774
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.565199483992636,
      "learning_rate": 1.9618956355655107e-05,
      "loss": 0.8731,
      "step": 775
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.802823770670949,
      "learning_rate": 1.9617633748460193e-05,
      "loss": 0.8528,
      "step": 776
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.6335911746550558,
      "learning_rate": 1.9616308894585078e-05,
      "loss": 0.8502,
      "step": 777
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.521332382562993,
      "learning_rate": 1.9614981794339244e-05,
      "loss": 0.7792,
      "step": 778
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.6133260796794744,
      "learning_rate": 1.961365244803271e-05,
      "loss": 0.8523,
      "step": 779
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.800020912040283,
      "learning_rate": 1.9612320855976002e-05,
      "loss": 0.76,
      "step": 780
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.284431989358463,
      "learning_rate": 1.9610987018480186e-05,
      "loss": 0.8451,
      "step": 781
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.3580432644191784,
      "learning_rate": 1.9609650935856847e-05,
      "loss": 0.7707,
      "step": 782
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.055062576621709,
      "learning_rate": 1.9608312608418087e-05,
      "loss": 0.7693,
      "step": 783
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.8263090742711943,
      "learning_rate": 1.960697203647655e-05,
      "loss": 0.9527,
      "step": 784
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.61979061043731,
      "learning_rate": 1.9605629220345382e-05,
      "loss": 0.8016,
      "step": 785
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.2665762112369285,
      "learning_rate": 1.9604284160338276e-05,
      "loss": 0.7239,
      "step": 786
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.765848773059944,
      "learning_rate": 1.9602936856769432e-05,
      "loss": 0.8653,
      "step": 787
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.119114751470462,
      "learning_rate": 1.9601587309953584e-05,
      "loss": 0.8097,
      "step": 788
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.240347317395581,
      "learning_rate": 1.960023552020598e-05,
      "loss": 0.8077,
      "step": 789
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.3045951348904277,
      "learning_rate": 1.9598881487842406e-05,
      "loss": 0.8021,
      "step": 790
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.789943633408736,
      "learning_rate": 1.9597525213179157e-05,
      "loss": 0.8009,
      "step": 791
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.760845276943397,
      "learning_rate": 1.9596166696533062e-05,
      "loss": 0.8663,
      "step": 792
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.283882660195042,
      "learning_rate": 1.9594805938221473e-05,
      "loss": 0.7937,
      "step": 793
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.6668116019233605,
      "learning_rate": 1.959344293856226e-05,
      "loss": 0.839,
      "step": 794
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.3262848842265664,
      "learning_rate": 1.959207769787382e-05,
      "loss": 0.8049,
      "step": 795
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.1974159633277908,
      "learning_rate": 1.959071021647507e-05,
      "loss": 0.912,
      "step": 796
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.0716890830831134,
      "learning_rate": 1.9589340494685464e-05,
      "loss": 0.7828,
      "step": 797
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.9505403426384857,
      "learning_rate": 1.9587968532824963e-05,
      "loss": 0.8895,
      "step": 798
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.9349795656074105,
      "learning_rate": 1.958659433121406e-05,
      "loss": 0.8353,
      "step": 799
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.287535207926864,
      "learning_rate": 1.958521789017376e-05,
      "loss": 0.8056,
      "step": 800
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.9910136842641233,
      "learning_rate": 1.958383921002561e-05,
      "loss": 0.7618,
      "step": 801
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.9548941311598083,
      "learning_rate": 1.9582458291091664e-05,
      "loss": 1.0084,
      "step": 802
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.39879020339315,
      "learning_rate": 1.9581075133694508e-05,
      "loss": 0.7837,
      "step": 803
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.969788545598757,
      "learning_rate": 1.9579689738157245e-05,
      "loss": 0.8338,
      "step": 804
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.5006182026918906,
      "learning_rate": 1.9578302104803506e-05,
      "loss": 0.8376,
      "step": 805
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6822522882826878,
      "learning_rate": 1.957691223395744e-05,
      "loss": 0.7062,
      "step": 806
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.697264648455782,
      "learning_rate": 1.957552012594372e-05,
      "loss": 0.8713,
      "step": 807
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.336501098243366,
      "learning_rate": 1.957412578108755e-05,
      "loss": 0.835,
      "step": 808
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.9874369756975176,
      "learning_rate": 1.957272919971464e-05,
      "loss": 0.9221,
      "step": 809
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3583539958520003,
      "learning_rate": 1.9571330382151236e-05,
      "loss": 0.6841,
      "step": 810
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.7983410490933327,
      "learning_rate": 1.95699293287241e-05,
      "loss": 0.9302,
      "step": 811
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.085154544737979,
      "learning_rate": 1.956852603976052e-05,
      "loss": 0.8112,
      "step": 812
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.719746108872408,
      "learning_rate": 1.9567120515588307e-05,
      "loss": 0.8084,
      "step": 813
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.409684531004779,
      "learning_rate": 1.9565712756535785e-05,
      "loss": 0.9603,
      "step": 814
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.64857555768463,
      "learning_rate": 1.9564302762931812e-05,
      "loss": 0.7742,
      "step": 815
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.8556400687454957,
      "learning_rate": 1.956289053510576e-05,
      "loss": 0.7567,
      "step": 816
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.456131001542957,
      "learning_rate": 1.9561476073387527e-05,
      "loss": 0.8139,
      "step": 817
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.099227566062516,
      "learning_rate": 1.956005937810753e-05,
      "loss": 0.7712,
      "step": 818
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.9842493647518284,
      "learning_rate": 1.955864044959671e-05,
      "loss": 0.785,
      "step": 819
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.9649036801712794,
      "learning_rate": 1.955721928818653e-05,
      "loss": 0.7888,
      "step": 820
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.111682652203169,
      "learning_rate": 1.955579589420897e-05,
      "loss": 0.8116,
      "step": 821
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.422803911767154,
      "learning_rate": 1.9554370267996537e-05,
      "loss": 0.8505,
      "step": 822
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.320641721425735,
      "learning_rate": 1.9552942409882257e-05,
      "loss": 0.7484,
      "step": 823
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.385523390264906,
      "learning_rate": 1.9551512320199684e-05,
      "loss": 0.826,
      "step": 824
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.933626293377664,
      "learning_rate": 1.9550079999282874e-05,
      "loss": 0.7619,
      "step": 825
    },
    {
      "epoch": 0.12,
      "grad_norm": 6.410319114201933,
      "learning_rate": 1.9548645447466433e-05,
      "loss": 0.8218,
      "step": 826
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.1570067718814725,
      "learning_rate": 1.954720866508546e-05,
      "loss": 0.7795,
      "step": 827
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.6718646459155737,
      "learning_rate": 1.954576965247559e-05,
      "loss": 0.8447,
      "step": 828
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.4012688394183628,
      "learning_rate": 1.9544328409972978e-05,
      "loss": 0.9118,
      "step": 829
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4706168731991944,
      "learning_rate": 1.9542884937914302e-05,
      "loss": 0.7115,
      "step": 830
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.817876050525664,
      "learning_rate": 1.9541439236636752e-05,
      "loss": 0.8289,
      "step": 831
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.3784322163765768,
      "learning_rate": 1.9539991306478046e-05,
      "loss": 0.8582,
      "step": 832
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.575022633714647,
      "learning_rate": 1.953854114777642e-05,
      "loss": 0.7426,
      "step": 833
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.747684885012949,
      "learning_rate": 1.9537088760870632e-05,
      "loss": 0.8668,
      "step": 834
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.677248369247045,
      "learning_rate": 1.953563414609996e-05,
      "loss": 0.7487,
      "step": 835
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.7500399236378925,
      "learning_rate": 1.95341773038042e-05,
      "loss": 0.9537,
      "step": 836
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.2645825114645306,
      "learning_rate": 1.953271823432367e-05,
      "loss": 0.8533,
      "step": 837
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.7151042128455103,
      "learning_rate": 1.9531256937999217e-05,
      "loss": 0.8033,
      "step": 838
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.463492899188499,
      "learning_rate": 1.952979341517219e-05,
      "loss": 0.8125,
      "step": 839
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.2194951071098554,
      "learning_rate": 1.9528327666184472e-05,
      "loss": 0.7786,
      "step": 840
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.6800857413062595,
      "learning_rate": 1.9526859691378465e-05,
      "loss": 0.7171,
      "step": 841
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.3654069100206194,
      "learning_rate": 1.952538949109708e-05,
      "loss": 0.8089,
      "step": 842
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.1253544109225424,
      "learning_rate": 1.9523917065683764e-05,
      "loss": 0.7581,
      "step": 843
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.654553154424039,
      "learning_rate": 1.952244241548247e-05,
      "loss": 0.829,
      "step": 844
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.153936170755141,
      "learning_rate": 1.952096554083768e-05,
      "loss": 0.7746,
      "step": 845
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.1696377527267914,
      "learning_rate": 1.9519486442094397e-05,
      "loss": 0.8808,
      "step": 846
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.467120904038061,
      "learning_rate": 1.9518005119598124e-05,
      "loss": 0.8795,
      "step": 847
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.218301316394017,
      "learning_rate": 1.951652157369491e-05,
      "loss": 0.7951,
      "step": 848
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.9879098371011668,
      "learning_rate": 1.9515035804731313e-05,
      "loss": 0.7515,
      "step": 849
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.3066000449869626,
      "learning_rate": 1.9513547813054397e-05,
      "loss": 0.7537,
      "step": 850
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.783341337103394,
      "learning_rate": 1.951205759901177e-05,
      "loss": 0.9523,
      "step": 851
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.69520586805535,
      "learning_rate": 1.9510565162951538e-05,
      "loss": 0.7332,
      "step": 852
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.720012960550073,
      "learning_rate": 1.9509070505222336e-05,
      "loss": 0.8208,
      "step": 853
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7591255173419678,
      "learning_rate": 1.9507573626173317e-05,
      "loss": 0.7721,
      "step": 854
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.8206368326845217,
      "learning_rate": 1.9506074526154155e-05,
      "loss": 0.8984,
      "step": 855
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.06343631376119,
      "learning_rate": 1.950457320551503e-05,
      "loss": 0.8238,
      "step": 856
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.1439255032626585,
      "learning_rate": 1.9503069664606663e-05,
      "loss": 0.8769,
      "step": 857
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4433404366508422,
      "learning_rate": 1.950156390378027e-05,
      "loss": 0.7192,
      "step": 858
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.294702813956479,
      "learning_rate": 1.9500055923387608e-05,
      "loss": 0.8435,
      "step": 859
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.625950559045448,
      "learning_rate": 1.9498545723780932e-05,
      "loss": 0.835,
      "step": 860
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.9730861194917297,
      "learning_rate": 1.9497033305313033e-05,
      "loss": 0.7862,
      "step": 861
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.5214712398733146,
      "learning_rate": 1.9495518668337204e-05,
      "loss": 0.7188,
      "step": 862
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.842581514505878,
      "learning_rate": 1.949400181320727e-05,
      "loss": 0.8186,
      "step": 863
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.9030696181548086,
      "learning_rate": 1.9492482740277564e-05,
      "loss": 0.7869,
      "step": 864
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.4590007835699486,
      "learning_rate": 1.9490961449902946e-05,
      "loss": 0.9195,
      "step": 865
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.93837177446758,
      "learning_rate": 1.948943794243879e-05,
      "loss": 0.8275,
      "step": 866
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.3111114832984105,
      "learning_rate": 1.9487912218240983e-05,
      "loss": 0.8631,
      "step": 867
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.9282720637744912,
      "learning_rate": 1.9486384277665938e-05,
      "loss": 0.8241,
      "step": 868
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.7861651114017256,
      "learning_rate": 1.9484854121070578e-05,
      "loss": 0.8626,
      "step": 869
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.5086893560364305,
      "learning_rate": 1.9483321748812353e-05,
      "loss": 0.8357,
      "step": 870
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.1096184322697527,
      "learning_rate": 1.948178716124922e-05,
      "loss": 0.876,
      "step": 871
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.9309718082090805,
      "learning_rate": 1.9480250358739667e-05,
      "loss": 0.9268,
      "step": 872
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.77543723044068,
      "learning_rate": 1.947871134164268e-05,
      "loss": 0.9415,
      "step": 873
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.6391701764244555,
      "learning_rate": 1.9477170110317783e-05,
      "loss": 0.758,
      "step": 874
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.696046265095384,
      "learning_rate": 1.9475626665125e-05,
      "loss": 0.7823,
      "step": 875
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.266961903902719,
      "learning_rate": 1.947408100642489e-05,
      "loss": 0.9238,
      "step": 876
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.627600037716771,
      "learning_rate": 1.947253313457851e-05,
      "loss": 0.7986,
      "step": 877
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.1252275186850897,
      "learning_rate": 1.9470983049947446e-05,
      "loss": 0.7866,
      "step": 878
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.6353524567380715,
      "learning_rate": 1.9469430752893796e-05,
      "loss": 0.8589,
      "step": 879
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.615472979474978,
      "learning_rate": 1.946787624378018e-05,
      "loss": 0.7957,
      "step": 880
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.6446537003473916,
      "learning_rate": 1.946631952296973e-05,
      "loss": 0.8804,
      "step": 881
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.135148172472068,
      "learning_rate": 1.94647605908261e-05,
      "loss": 0.8246,
      "step": 882
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.98404877635991,
      "learning_rate": 1.946319944771345e-05,
      "loss": 0.8539,
      "step": 883
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.6536996575043594,
      "learning_rate": 1.9461636093996468e-05,
      "loss": 0.8804,
      "step": 884
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.648292120637623,
      "learning_rate": 1.9460070530040348e-05,
      "loss": 0.7928,
      "step": 885
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.478981383898485,
      "learning_rate": 1.9458502756210814e-05,
      "loss": 0.8522,
      "step": 886
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.699493153677281,
      "learning_rate": 1.9456932772874092e-05,
      "loss": 0.7633,
      "step": 887
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.754313742239044,
      "learning_rate": 1.9455360580396934e-05,
      "loss": 0.7332,
      "step": 888
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.747348778136381,
      "learning_rate": 1.94537861791466e-05,
      "loss": 0.7956,
      "step": 889
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.92487018647626,
      "learning_rate": 1.9452209569490874e-05,
      "loss": 0.8882,
      "step": 890
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.2961195152341105,
      "learning_rate": 1.945063075179805e-05,
      "loss": 0.7997,
      "step": 891
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.609244423123629,
      "learning_rate": 1.944904972643694e-05,
      "loss": 0.8854,
      "step": 892
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.4390022017387807,
      "learning_rate": 1.9447466493776877e-05,
      "loss": 0.7231,
      "step": 893
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.075143165854574,
      "learning_rate": 1.9445881054187694e-05,
      "loss": 0.8314,
      "step": 894
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.565345436371418,
      "learning_rate": 1.944429340803976e-05,
      "loss": 0.872,
      "step": 895
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.5914028512008107,
      "learning_rate": 1.9442703555703945e-05,
      "loss": 0.9133,
      "step": 896
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.7011390003977036,
      "learning_rate": 1.944111149755164e-05,
      "loss": 0.7911,
      "step": 897
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6831795419574944,
      "learning_rate": 1.9439517233954744e-05,
      "loss": 0.7181,
      "step": 898
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.2241775148414336,
      "learning_rate": 1.9437920765285683e-05,
      "loss": 0.8342,
      "step": 899
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.4213367918298574,
      "learning_rate": 1.9436322091917392e-05,
      "loss": 0.9194,
      "step": 900
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.5752976194444366,
      "learning_rate": 1.943472121422332e-05,
      "loss": 0.814,
      "step": 901
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.987587800108358,
      "learning_rate": 1.9433118132577432e-05,
      "loss": 0.8217,
      "step": 902
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.3526380688408217,
      "learning_rate": 1.943151284735421e-05,
      "loss": 0.7987,
      "step": 903
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.6123157595650293,
      "learning_rate": 1.9429905358928648e-05,
      "loss": 0.8362,
      "step": 904
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.7807031479984556,
      "learning_rate": 1.9428295667676253e-05,
      "loss": 0.7773,
      "step": 905
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.5286941334283557,
      "learning_rate": 1.942668377397305e-05,
      "loss": 0.7983,
      "step": 906
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.2278591625174093,
      "learning_rate": 1.9425069678195577e-05,
      "loss": 0.7977,
      "step": 907
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.352385476292227,
      "learning_rate": 1.9423453380720892e-05,
      "loss": 0.799,
      "step": 908
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.3817283795560265,
      "learning_rate": 1.9421834881926558e-05,
      "loss": 0.8568,
      "step": 909
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.129185613206879,
      "learning_rate": 1.9420214182190657e-05,
      "loss": 0.8288,
      "step": 910
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.0665554196605447,
      "learning_rate": 1.941859128189178e-05,
      "loss": 0.8459,
      "step": 911
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.629633540742469,
      "learning_rate": 1.9416966181409047e-05,
      "loss": 0.8043,
      "step": 912
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.1896186513878955,
      "learning_rate": 1.9415338881122074e-05,
      "loss": 0.868,
      "step": 913
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.214010922133802,
      "learning_rate": 1.9413709381411003e-05,
      "loss": 0.8095,
      "step": 914
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.692578499494834,
      "learning_rate": 1.9412077682656477e-05,
      "loss": 0.821,
      "step": 915
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.0854462241992113,
      "learning_rate": 1.941044378523967e-05,
      "loss": 0.8,
      "step": 916
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.9222347019750865,
      "learning_rate": 1.9408807689542257e-05,
      "loss": 0.8735,
      "step": 917
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.62275066619901,
      "learning_rate": 1.9407169395946427e-05,
      "loss": 0.766,
      "step": 918
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.6486051475198984,
      "learning_rate": 1.9405528904834895e-05,
      "loss": 0.874,
      "step": 919
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.498179816177209,
      "learning_rate": 1.940388621659087e-05,
      "loss": 0.8654,
      "step": 920
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.2360370436756347,
      "learning_rate": 1.9402241331598092e-05,
      "loss": 0.8088,
      "step": 921
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.8849493851495605,
      "learning_rate": 1.94005942502408e-05,
      "loss": 0.7556,
      "step": 922
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5605912784047327,
      "learning_rate": 1.939894497290375e-05,
      "loss": 0.7221,
      "step": 923
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.946202707538405,
      "learning_rate": 1.9397293499972224e-05,
      "loss": 0.8505,
      "step": 924
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.8482642732312533,
      "learning_rate": 1.9395639831831997e-05,
      "loss": 0.7378,
      "step": 925
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.6010773841604524,
      "learning_rate": 1.939398396886937e-05,
      "loss": 0.8193,
      "step": 926
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.118076897963182,
      "learning_rate": 1.9392325911471154e-05,
      "loss": 0.7357,
      "step": 927
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.188519777521179,
      "learning_rate": 1.939066566002467e-05,
      "loss": 0.8797,
      "step": 928
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.4365763991617526,
      "learning_rate": 1.938900321491775e-05,
      "loss": 0.81,
      "step": 929
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.9944089543019423,
      "learning_rate": 1.9387338576538743e-05,
      "loss": 0.7796,
      "step": 930
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.5195133177797677,
      "learning_rate": 1.938567174527651e-05,
      "loss": 0.8295,
      "step": 931
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.890508158538147,
      "learning_rate": 1.9384002721520423e-05,
      "loss": 0.7768,
      "step": 932
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.517753344786463,
      "learning_rate": 1.9382331505660364e-05,
      "loss": 0.8429,
      "step": 933
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.972973790865349,
      "learning_rate": 1.938065809808673e-05,
      "loss": 0.8123,
      "step": 934
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6049703948940164,
      "learning_rate": 1.9378982499190434e-05,
      "loss": 0.7466,
      "step": 935
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.745057463149336,
      "learning_rate": 1.937730470936289e-05,
      "loss": 0.7966,
      "step": 936
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.4361925925553303,
      "learning_rate": 1.937562472899603e-05,
      "loss": 0.8003,
      "step": 937
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.638753727499108,
      "learning_rate": 1.9373942558482303e-05,
      "loss": 0.9189,
      "step": 938
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.235599549621348,
      "learning_rate": 1.9372258198214654e-05,
      "loss": 0.8136,
      "step": 939
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.7330854870574677,
      "learning_rate": 1.937057164858656e-05,
      "loss": 0.8785,
      "step": 940
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.7619386425125745,
      "learning_rate": 1.9368882909991996e-05,
      "loss": 0.8676,
      "step": 941
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4249416855196624,
      "learning_rate": 1.936719198282545e-05,
      "loss": 0.736,
      "step": 942
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5095754643174237,
      "learning_rate": 1.9365498867481926e-05,
      "loss": 0.7109,
      "step": 943
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.508020334903183,
      "learning_rate": 1.9363803564356932e-05,
      "loss": 0.8979,
      "step": 944
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.27481066686589,
      "learning_rate": 1.936210607384649e-05,
      "loss": 0.79,
      "step": 945
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.140209636954069,
      "learning_rate": 1.936040639634714e-05,
      "loss": 0.7397,
      "step": 946
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6063371477392252,
      "learning_rate": 1.935870453225592e-05,
      "loss": 0.7798,
      "step": 947
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.3017773628205602,
      "learning_rate": 1.935700048197039e-05,
      "loss": 0.823,
      "step": 948
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.390972656647599,
      "learning_rate": 1.9355294245888617e-05,
      "loss": 0.8756,
      "step": 949
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.160736906334417,
      "learning_rate": 1.9353585824409178e-05,
      "loss": 0.8434,
      "step": 950
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.4409631706107806,
      "learning_rate": 1.9351875217931154e-05,
      "loss": 0.8372,
      "step": 951
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.2827459406504813,
      "learning_rate": 1.9350162426854152e-05,
      "loss": 0.8148,
      "step": 952
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.1910076123280064,
      "learning_rate": 1.9348447451578273e-05,
      "loss": 0.8749,
      "step": 953
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.7439360620522057,
      "learning_rate": 1.9346730292504134e-05,
      "loss": 0.8973,
      "step": 954
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.5668626917040824,
      "learning_rate": 1.934501095003287e-05,
      "loss": 0.7461,
      "step": 955
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.369885893127334,
      "learning_rate": 1.9343289424566122e-05,
      "loss": 0.7889,
      "step": 956
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.485555946975809,
      "learning_rate": 1.934156571650603e-05,
      "loss": 0.7679,
      "step": 957
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.965553766841728,
      "learning_rate": 1.9339839826255257e-05,
      "loss": 0.8046,
      "step": 958
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.583702764684166,
      "learning_rate": 1.9338111754216968e-05,
      "loss": 0.8302,
      "step": 959
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.7571957256027098,
      "learning_rate": 1.9336381500794845e-05,
      "loss": 0.7526,
      "step": 960
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.3912061941081624,
      "learning_rate": 1.9334649066393072e-05,
      "loss": 0.7913,
      "step": 961
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.5974631421468435,
      "learning_rate": 1.933291445141635e-05,
      "loss": 0.8108,
      "step": 962
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.3836915843987487,
      "learning_rate": 1.9331177656269878e-05,
      "loss": 0.8618,
      "step": 963
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.0295621180234296,
      "learning_rate": 1.932943868135938e-05,
      "loss": 0.8481,
      "step": 964
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.6248956433028714,
      "learning_rate": 1.9327697527091076e-05,
      "loss": 0.7578,
      "step": 965
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.525610667948419,
      "learning_rate": 1.9325954193871698e-05,
      "loss": 0.7797,
      "step": 966
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.4262133256090648,
      "learning_rate": 1.9324208682108493e-05,
      "loss": 0.8208,
      "step": 967
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.8354511815908217,
      "learning_rate": 1.932246099220921e-05,
      "loss": 0.7352,
      "step": 968
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.2469631809980717,
      "learning_rate": 1.932071112458211e-05,
      "loss": 0.7422,
      "step": 969
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.3308211464374056,
      "learning_rate": 1.9318959079635965e-05,
      "loss": 0.864,
      "step": 970
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.5271615890398995,
      "learning_rate": 1.931720485778005e-05,
      "loss": 0.9537,
      "step": 971
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.313109891561245,
      "learning_rate": 1.931544845942415e-05,
      "loss": 0.7698,
      "step": 972
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4967794399895333,
      "learning_rate": 1.9313689884978567e-05,
      "loss": 0.7079,
      "step": 973
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.8596584167211705,
      "learning_rate": 1.9311929134854093e-05,
      "loss": 0.7947,
      "step": 974
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.435134979260605,
      "learning_rate": 1.931016620946205e-05,
      "loss": 0.8147,
      "step": 975
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.299447505536842,
      "learning_rate": 1.930840110921425e-05,
      "loss": 0.6708,
      "step": 976
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.9632027522699618,
      "learning_rate": 1.9306633834523022e-05,
      "loss": 0.7275,
      "step": 977
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.328946761370979,
      "learning_rate": 1.9304864385801204e-05,
      "loss": 0.6542,
      "step": 978
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.607210624814545,
      "learning_rate": 1.9303092763462142e-05,
      "loss": 0.8343,
      "step": 979
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.392846076756328,
      "learning_rate": 1.9301318967919684e-05,
      "loss": 0.7803,
      "step": 980
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.2433801145736747,
      "learning_rate": 1.9299542999588184e-05,
      "loss": 0.8701,
      "step": 981
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.0018774903001963,
      "learning_rate": 1.9297764858882516e-05,
      "loss": 0.7558,
      "step": 982
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.3975742652459493,
      "learning_rate": 1.929598454621805e-05,
      "loss": 0.8109,
      "step": 983
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.7443566965924178,
      "learning_rate": 1.9294202062010667e-05,
      "loss": 0.8071,
      "step": 984
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.1966969302390127,
      "learning_rate": 1.929241740667676e-05,
      "loss": 0.8841,
      "step": 985
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.100070529647496,
      "learning_rate": 1.9290630580633215e-05,
      "loss": 0.8326,
      "step": 986
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4541649969591126,
      "learning_rate": 1.9288841584297445e-05,
      "loss": 0.7386,
      "step": 987
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.734049603308089,
      "learning_rate": 1.9287050418087355e-05,
      "loss": 0.9337,
      "step": 988
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.605210877355536,
      "learning_rate": 1.9285257082421363e-05,
      "loss": 0.8076,
      "step": 989
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.750793080292744,
      "learning_rate": 1.9283461577718387e-05,
      "loss": 0.8919,
      "step": 990
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.1803575297152205,
      "learning_rate": 1.9281663904397868e-05,
      "loss": 0.8501,
      "step": 991
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.177740656833628,
      "learning_rate": 1.927986406287973e-05,
      "loss": 0.8805,
      "step": 992
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4095978902828468,
      "learning_rate": 1.9278062053584426e-05,
      "loss": 0.7757,
      "step": 993
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.84561525353406,
      "learning_rate": 1.92762578769329e-05,
      "loss": 0.8642,
      "step": 994
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.1326531092696004,
      "learning_rate": 1.9274451533346617e-05,
      "loss": 0.7739,
      "step": 995
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.942481042063412,
      "learning_rate": 1.9272643023247527e-05,
      "loss": 0.7654,
      "step": 996
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.6092072065255394,
      "learning_rate": 1.92708323470581e-05,
      "loss": 0.7739,
      "step": 997
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.3583850765045193,
      "learning_rate": 1.9269019505201316e-05,
      "loss": 0.8024,
      "step": 998
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.5605573843085834,
      "learning_rate": 1.926720449810065e-05,
      "loss": 0.9041,
      "step": 999
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.626782273715371,
      "learning_rate": 1.9265387326180094e-05,
      "loss": 0.7917,
      "step": 1000
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.0463303052273774,
      "learning_rate": 1.9263567989864135e-05,
      "loss": 0.8537,
      "step": 1001
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.9348693008227045,
      "learning_rate": 1.9261746489577767e-05,
      "loss": 0.8894,
      "step": 1002
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.147840289910804,
      "learning_rate": 1.92599228257465e-05,
      "loss": 0.8034,
      "step": 1003
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4653901139783625,
      "learning_rate": 1.9258096998796335e-05,
      "loss": 0.7316,
      "step": 1004
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4676419027106986,
      "learning_rate": 1.9256269009153793e-05,
      "loss": 0.8655,
      "step": 1005
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.995279598605121,
      "learning_rate": 1.9254438857245885e-05,
      "loss": 0.8131,
      "step": 1006
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.7864431072819573,
      "learning_rate": 1.925260654350014e-05,
      "loss": 0.7098,
      "step": 1007
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.503656478702393,
      "learning_rate": 1.925077206834458e-05,
      "loss": 0.7971,
      "step": 1008
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.5119601518930303,
      "learning_rate": 1.924893543220775e-05,
      "loss": 0.8116,
      "step": 1009
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.260833233779425,
      "learning_rate": 1.924709663551868e-05,
      "loss": 0.7839,
      "step": 1010
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.0815867369357184,
      "learning_rate": 1.924525567870691e-05,
      "loss": 0.7621,
      "step": 1011
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.1971243133859617,
      "learning_rate": 1.92434125622025e-05,
      "loss": 0.8237,
      "step": 1012
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.65852881479779,
      "learning_rate": 1.924156728643599e-05,
      "loss": 0.8485,
      "step": 1013
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.590824705685645,
      "learning_rate": 1.923971985183844e-05,
      "loss": 0.8437,
      "step": 1014
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.32892690912116,
      "learning_rate": 1.9237870258841412e-05,
      "loss": 0.8482,
      "step": 1015
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.456118025803401,
      "learning_rate": 1.9236018507876973e-05,
      "loss": 0.8331,
      "step": 1016
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.443004543517921,
      "learning_rate": 1.9234164599377692e-05,
      "loss": 0.8558,
      "step": 1017
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.093210072621522,
      "learning_rate": 1.923230853377664e-05,
      "loss": 0.7557,
      "step": 1018
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.336558525132586,
      "learning_rate": 1.9230450311507393e-05,
      "loss": 0.8772,
      "step": 1019
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4100653665925673,
      "learning_rate": 1.9228589933004038e-05,
      "loss": 0.7822,
      "step": 1020
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4200286548149195,
      "learning_rate": 1.922672739870115e-05,
      "loss": 0.8041,
      "step": 1021
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.502174306292746,
      "learning_rate": 1.9224862709033823e-05,
      "loss": 0.7271,
      "step": 1022
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.5510487455532505,
      "learning_rate": 1.922299586443765e-05,
      "loss": 0.747,
      "step": 1023
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.1549061357925647,
      "learning_rate": 1.9221126865348726e-05,
      "loss": 0.8373,
      "step": 1024
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.80445686634638,
      "learning_rate": 1.9219255712203643e-05,
      "loss": 0.8557,
      "step": 1025
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.5760829917106074,
      "learning_rate": 1.921738240543951e-05,
      "loss": 0.742,
      "step": 1026
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.5466301815095265,
      "learning_rate": 1.9215506945493933e-05,
      "loss": 0.8622,
      "step": 1027
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.069407335056388,
      "learning_rate": 1.921362933280501e-05,
      "loss": 0.7275,
      "step": 1028
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.536370823276034,
      "learning_rate": 1.9211749567811357e-05,
      "loss": 0.9124,
      "step": 1029
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.3254344501227715,
      "learning_rate": 1.9209867650952088e-05,
      "loss": 0.7911,
      "step": 1030
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.764057323418322,
      "learning_rate": 1.920798358266682e-05,
      "loss": 0.7825,
      "step": 1031
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.1857406243074884,
      "learning_rate": 1.9206097363395668e-05,
      "loss": 0.7307,
      "step": 1032
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.4854063715186574,
      "learning_rate": 1.9204208993579256e-05,
      "loss": 0.8653,
      "step": 1033
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.3370844708470795,
      "learning_rate": 1.9202318473658707e-05,
      "loss": 0.9062,
      "step": 1034
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.6963319855831025,
      "learning_rate": 1.9200425804075643e-05,
      "loss": 0.7457,
      "step": 1035
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.262884595183988,
      "learning_rate": 1.91985309852722e-05,
      "loss": 0.7579,
      "step": 1036
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.722026290676619,
      "learning_rate": 1.9196634017690993e-05,
      "loss": 0.7667,
      "step": 1037
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.2174701135019386,
      "learning_rate": 1.919473490177517e-05,
      "loss": 0.8499,
      "step": 1038
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.0253024441481418,
      "learning_rate": 1.9192833637968357e-05,
      "loss": 0.8298,
      "step": 1039
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.679603540481227,
      "learning_rate": 1.919093022671469e-05,
      "loss": 0.7331,
      "step": 1040
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.5180590667310865,
      "learning_rate": 1.9189024668458803e-05,
      "loss": 0.8097,
      "step": 1041
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.6118982409330864,
      "learning_rate": 1.9187116963645845e-05,
      "loss": 0.7883,
      "step": 1042
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.350630052478493,
      "learning_rate": 1.9185207112721443e-05,
      "loss": 0.8895,
      "step": 1043
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.15780795181152,
      "learning_rate": 1.9183295116131747e-05,
      "loss": 0.9487,
      "step": 1044
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.270199779072172,
      "learning_rate": 1.91813809743234e-05,
      "loss": 0.8275,
      "step": 1045
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.1179294655373697,
      "learning_rate": 1.917946468774354e-05,
      "loss": 0.8625,
      "step": 1046
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.351603255346626,
      "learning_rate": 1.9177546256839814e-05,
      "loss": 0.7688,
      "step": 1047
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.330408984651392,
      "learning_rate": 1.9175625682060367e-05,
      "loss": 0.9194,
      "step": 1048
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3203320776653977,
      "learning_rate": 1.917370296385385e-05,
      "loss": 0.8138,
      "step": 1049
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.755750605774092,
      "learning_rate": 1.9171778102669404e-05,
      "loss": 0.8163,
      "step": 1050
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.4114482969170448,
      "learning_rate": 1.916985109895668e-05,
      "loss": 0.9067,
      "step": 1051
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.0029811813797838,
      "learning_rate": 1.9167921953165827e-05,
      "loss": 0.8873,
      "step": 1052
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5231907197661068,
      "learning_rate": 1.916599066574749e-05,
      "loss": 0.9076,
      "step": 1053
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.704430903825167,
      "learning_rate": 1.916405723715282e-05,
      "loss": 0.7439,
      "step": 1054
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.720227722189281,
      "learning_rate": 1.9162121667833473e-05,
      "loss": 0.7035,
      "step": 1055
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.452354962323166,
      "learning_rate": 1.9160183958241584e-05,
      "loss": 0.9104,
      "step": 1056
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5635566047760667,
      "learning_rate": 1.9158244108829815e-05,
      "loss": 0.8549,
      "step": 1057
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.104645239378268,
      "learning_rate": 1.9156302120051308e-05,
      "loss": 0.7465,
      "step": 1058
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.260913378753421,
      "learning_rate": 1.915435799235971e-05,
      "loss": 0.8409,
      "step": 1059
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.119306943770731,
      "learning_rate": 1.9152411726209176e-05,
      "loss": 0.761,
      "step": 1060
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5400237107435966,
      "learning_rate": 1.9150463322054352e-05,
      "loss": 0.7647,
      "step": 1061
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.3784934980510433,
      "learning_rate": 1.9148512780350384e-05,
      "loss": 0.8474,
      "step": 1062
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.4145415840843887,
      "learning_rate": 1.914656010155292e-05,
      "loss": 0.9353,
      "step": 1063
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3720854234792705,
      "learning_rate": 1.9144605286118104e-05,
      "loss": 0.8349,
      "step": 1064
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.0572613562687545,
      "learning_rate": 1.914264833450258e-05,
      "loss": 0.8903,
      "step": 1065
    },
    {
      "epoch": 0.16,
      "grad_norm": 10.539793393276268,
      "learning_rate": 1.9140689247163497e-05,
      "loss": 0.878,
      "step": 1066
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.201848534258594,
      "learning_rate": 1.9138728024558494e-05,
      "loss": 0.8428,
      "step": 1067
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.379664499329816,
      "learning_rate": 1.9136764667145715e-05,
      "loss": 0.8712,
      "step": 1068
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5032213035727398,
      "learning_rate": 1.91347991753838e-05,
      "loss": 0.8239,
      "step": 1069
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.839929357621138,
      "learning_rate": 1.9132831549731886e-05,
      "loss": 0.7986,
      "step": 1070
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.431093089586713,
      "learning_rate": 1.9130861790649613e-05,
      "loss": 0.8335,
      "step": 1071
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.506444395682134,
      "learning_rate": 1.9128889898597117e-05,
      "loss": 0.7361,
      "step": 1072
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.302637705316028,
      "learning_rate": 1.912691587403503e-05,
      "loss": 0.8147,
      "step": 1073
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5906891895256576,
      "learning_rate": 1.9124939717424486e-05,
      "loss": 0.8488,
      "step": 1074
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3023375133961514,
      "learning_rate": 1.9122961429227115e-05,
      "loss": 0.8707,
      "step": 1075
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3617651598288694,
      "learning_rate": 1.9120981009905044e-05,
      "loss": 0.8391,
      "step": 1076
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.7635276424714057,
      "learning_rate": 1.91189984599209e-05,
      "loss": 0.811,
      "step": 1077
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.399547699047,
      "learning_rate": 1.911701377973781e-05,
      "loss": 0.7749,
      "step": 1078
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.224496355333707,
      "learning_rate": 1.9115026969819396e-05,
      "loss": 0.853,
      "step": 1079
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.448752543270824,
      "learning_rate": 1.9113038030629767e-05,
      "loss": 0.7718,
      "step": 1080
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5699567633636162,
      "learning_rate": 1.9111046962633547e-05,
      "loss": 0.8374,
      "step": 1081
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.7737537759438156,
      "learning_rate": 1.910905376629585e-05,
      "loss": 0.7643,
      "step": 1082
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.582781513198518,
      "learning_rate": 1.9107058442082288e-05,
      "loss": 0.8336,
      "step": 1083
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.021572385573385,
      "learning_rate": 1.9105060990458964e-05,
      "loss": 0.8274,
      "step": 1084
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.4382494895003313,
      "learning_rate": 1.9103061411892488e-05,
      "loss": 0.7971,
      "step": 1085
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.6662453768942096,
      "learning_rate": 1.9101059706849957e-05,
      "loss": 0.8157,
      "step": 1086
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3900432563583425,
      "learning_rate": 1.9099055875798974e-05,
      "loss": 0.8099,
      "step": 1087
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5110792723021853,
      "learning_rate": 1.909704991920763e-05,
      "loss": 0.794,
      "step": 1088
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.7986704520310335,
      "learning_rate": 1.909504183754452e-05,
      "loss": 0.8192,
      "step": 1089
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3326805107539443,
      "learning_rate": 1.909303163127873e-05,
      "loss": 0.8191,
      "step": 1090
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.309132972783401,
      "learning_rate": 1.9091019300879848e-05,
      "loss": 0.8693,
      "step": 1091
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.4873542307992382,
      "learning_rate": 1.9089004846817947e-05,
      "loss": 0.8064,
      "step": 1092
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.8751810109063207,
      "learning_rate": 1.908698826956361e-05,
      "loss": 0.8469,
      "step": 1093
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.2990066477395126,
      "learning_rate": 1.9084969569587908e-05,
      "loss": 0.802,
      "step": 1094
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.644885923756177,
      "learning_rate": 1.9082948747362412e-05,
      "loss": 0.7603,
      "step": 1095
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3839789670428315,
      "learning_rate": 1.908092580335918e-05,
      "loss": 0.8978,
      "step": 1096
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.353482942144424,
      "learning_rate": 1.9078900738050776e-05,
      "loss": 0.8041,
      "step": 1097
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.1159928940056547,
      "learning_rate": 1.9076873551910256e-05,
      "loss": 0.7759,
      "step": 1098
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.1729178076294806,
      "learning_rate": 1.907484424541117e-05,
      "loss": 0.7258,
      "step": 1099
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.3806348789393237,
      "learning_rate": 1.9072812819027566e-05,
      "loss": 0.7835,
      "step": 1100
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.1890190640518674,
      "learning_rate": 1.907077927323398e-05,
      "loss": 0.8634,
      "step": 1101
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.573407149194515,
      "learning_rate": 1.9068743608505454e-05,
      "loss": 0.8209,
      "step": 1102
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.83093376441578,
      "learning_rate": 1.9066705825317518e-05,
      "loss": 0.7672,
      "step": 1103
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.5263120481735264,
      "learning_rate": 1.90646659241462e-05,
      "loss": 0.7735,
      "step": 1104
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.810505799174597,
      "learning_rate": 1.9062623905468015e-05,
      "loss": 0.8056,
      "step": 1105
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.3791735774522147,
      "learning_rate": 1.9060579769759986e-05,
      "loss": 0.7796,
      "step": 1106
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.1070176143621504,
      "learning_rate": 1.905853351749962e-05,
      "loss": 0.8129,
      "step": 1107
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.4441574873160024,
      "learning_rate": 1.905648514916492e-05,
      "loss": 0.7963,
      "step": 1108
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7348757306307911,
      "learning_rate": 1.905443466523439e-05,
      "loss": 0.7601,
      "step": 1109
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.8538298908230475,
      "learning_rate": 1.9052382066187017e-05,
      "loss": 0.8796,
      "step": 1110
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.3116008483812243,
      "learning_rate": 1.9050327352502292e-05,
      "loss": 0.8333,
      "step": 1111
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.614928069377844,
      "learning_rate": 1.9048270524660197e-05,
      "loss": 0.7938,
      "step": 1112
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.4255158802835473,
      "learning_rate": 1.9046211583141206e-05,
      "loss": 0.7888,
      "step": 1113
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.1946330643033227,
      "learning_rate": 1.9044150528426288e-05,
      "loss": 0.7888,
      "step": 1114
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.520557960256879,
      "learning_rate": 1.9042087360996904e-05,
      "loss": 0.7647,
      "step": 1115
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.5522796812350657,
      "learning_rate": 1.904002208133501e-05,
      "loss": 0.8162,
      "step": 1116
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.800748206001286,
      "learning_rate": 1.903795468992306e-05,
      "loss": 0.9286,
      "step": 1117
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.4800569085435336,
      "learning_rate": 1.9035885187243996e-05,
      "loss": 0.7525,
      "step": 1118
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.072280944644953,
      "learning_rate": 1.903381357378125e-05,
      "loss": 0.8713,
      "step": 1119
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.1412075853436674,
      "learning_rate": 1.9031739850018755e-05,
      "loss": 0.7687,
      "step": 1120
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.5007127407017022,
      "learning_rate": 1.902966401644093e-05,
      "loss": 0.8706,
      "step": 1121
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.3879478613277048,
      "learning_rate": 1.902758607353269e-05,
      "loss": 0.7578,
      "step": 1122
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.1065381099482074,
      "learning_rate": 1.9025506021779446e-05,
      "loss": 0.8786,
      "step": 1123
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.914152832060722,
      "learning_rate": 1.9023423861667093e-05,
      "loss": 0.7948,
      "step": 1124
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.6265828805095213,
      "learning_rate": 1.902133959368203e-05,
      "loss": 0.8062,
      "step": 1125
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.458435950105346,
      "learning_rate": 1.901925321831114e-05,
      "loss": 0.7929,
      "step": 1126
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.1060104852457187,
      "learning_rate": 1.9017164736041795e-05,
      "loss": 0.8084,
      "step": 1127
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.5646812476766496,
      "learning_rate": 1.9015074147361875e-05,
      "loss": 0.8715,
      "step": 1128
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.6500845542666287,
      "learning_rate": 1.901298145275973e-05,
      "loss": 0.7343,
      "step": 1129
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.1762239699886314,
      "learning_rate": 1.9010886652724226e-05,
      "loss": 0.7919,
      "step": 1130
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.0907742310204047,
      "learning_rate": 1.9008789747744697e-05,
      "loss": 0.8456,
      "step": 1131
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.3269550256314813,
      "learning_rate": 1.9006690738310988e-05,
      "loss": 0.7661,
      "step": 1132
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.4064789679509477,
      "learning_rate": 1.9004589624913428e-05,
      "loss": 0.7831,
      "step": 1133
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.5222664806919406,
      "learning_rate": 1.900248640804283e-05,
      "loss": 0.7486,
      "step": 1134
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.32143103192477,
      "learning_rate": 1.9000381088190512e-05,
      "loss": 0.7736,
      "step": 1135
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8003106270757292,
      "learning_rate": 1.8998273665848273e-05,
      "loss": 0.7786,
      "step": 1136
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.2547084879206962,
      "learning_rate": 1.8996164141508412e-05,
      "loss": 0.8714,
      "step": 1137
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.1124579885529298,
      "learning_rate": 1.899405251566371e-05,
      "loss": 0.8384,
      "step": 1138
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.8713777127497186,
      "learning_rate": 1.8991938788807446e-05,
      "loss": 0.7759,
      "step": 1139
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.3872754789697757,
      "learning_rate": 1.8989822961433386e-05,
      "loss": 0.8352,
      "step": 1140
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.9384727831464272,
      "learning_rate": 1.8987705034035784e-05,
      "loss": 0.7112,
      "step": 1141
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.0017642334689096,
      "learning_rate": 1.898558500710939e-05,
      "loss": 0.7107,
      "step": 1142
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.2306739013728962,
      "learning_rate": 1.8983462881149447e-05,
      "loss": 0.7811,
      "step": 1143
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.157699830823523,
      "learning_rate": 1.898133865665168e-05,
      "loss": 0.8192,
      "step": 1144
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.030268408300297,
      "learning_rate": 1.89792123341123e-05,
      "loss": 0.8865,
      "step": 1145
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.627667910160088,
      "learning_rate": 1.8977083914028034e-05,
      "loss": 0.7825,
      "step": 1146
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.619138978988932,
      "learning_rate": 1.8974953396896066e-05,
      "loss": 0.7906,
      "step": 1147
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.943837653562366,
      "learning_rate": 1.897282078321409e-05,
      "loss": 0.8028,
      "step": 1148
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.3124725919697844,
      "learning_rate": 1.8970686073480287e-05,
      "loss": 0.8291,
      "step": 1149
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.736057184206574,
      "learning_rate": 1.8968549268193325e-05,
      "loss": 0.7942,
      "step": 1150
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.7461975490893984,
      "learning_rate": 1.896641036785236e-05,
      "loss": 0.8437,
      "step": 1151
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.763602643873221,
      "learning_rate": 1.896426937295704e-05,
      "loss": 0.7184,
      "step": 1152
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.8006925433065204,
      "learning_rate": 1.89621262840075e-05,
      "loss": 0.8996,
      "step": 1153
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1449607676844387,
      "learning_rate": 1.895998110150437e-05,
      "loss": 0.6772,
      "step": 1154
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.1682286992744464,
      "learning_rate": 1.8957833825948756e-05,
      "loss": 0.8108,
      "step": 1155
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.8268130725344363,
      "learning_rate": 1.8955684457842275e-05,
      "loss": 0.8172,
      "step": 1156
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.4287833509276657,
      "learning_rate": 1.8953532997687008e-05,
      "loss": 0.7905,
      "step": 1157
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.483508742852887,
      "learning_rate": 1.895137944598554e-05,
      "loss": 0.8033,
      "step": 1158
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.538750671099674,
      "learning_rate": 1.8949223803240945e-05,
      "loss": 0.8825,
      "step": 1159
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.3151208556873497,
      "learning_rate": 1.8947066069956777e-05,
      "loss": 0.8595,
      "step": 1160
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.257136977283935,
      "learning_rate": 1.8944906246637084e-05,
      "loss": 0.8488,
      "step": 1161
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.625256879477829,
      "learning_rate": 1.89427443337864e-05,
      "loss": 0.843,
      "step": 1162
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.2490938757306305,
      "learning_rate": 1.8940580331909747e-05,
      "loss": 0.8726,
      "step": 1163
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.9012436222631799,
      "learning_rate": 1.893841424151264e-05,
      "loss": 0.7431,
      "step": 1164
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.592854192842055,
      "learning_rate": 1.8936246063101077e-05,
      "loss": 0.8739,
      "step": 1165
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.4710620538173633,
      "learning_rate": 1.893407579718154e-05,
      "loss": 0.8591,
      "step": 1166
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.1147183600683,
      "learning_rate": 1.8931903444261007e-05,
      "loss": 0.8403,
      "step": 1167
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.3861158799235387,
      "learning_rate": 1.892972900484694e-05,
      "loss": 0.8271,
      "step": 1168
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.6792554236465578,
      "learning_rate": 1.892755247944729e-05,
      "loss": 0.8247,
      "step": 1169
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2755066239284778,
      "learning_rate": 1.892537386857049e-05,
      "loss": 0.7047,
      "step": 1170
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.5223015081372187,
      "learning_rate": 1.8923193172725467e-05,
      "loss": 0.8011,
      "step": 1171
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.3741956542191027,
      "learning_rate": 1.8921010392421628e-05,
      "loss": 0.8929,
      "step": 1172
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.605642224404516,
      "learning_rate": 1.8918825528168872e-05,
      "loss": 0.8591,
      "step": 1173
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1789048719446678,
      "learning_rate": 1.8916638580477586e-05,
      "loss": 0.808,
      "step": 1174
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.354953745790704,
      "learning_rate": 1.891444954985864e-05,
      "loss": 0.83,
      "step": 1175
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.390592835980344,
      "learning_rate": 1.891225843682339e-05,
      "loss": 0.8267,
      "step": 1176
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.552162517798288,
      "learning_rate": 1.891006524188368e-05,
      "loss": 0.8552,
      "step": 1177
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.709015932530182,
      "learning_rate": 1.890786996555184e-05,
      "loss": 0.8517,
      "step": 1178
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.7534225345763823,
      "learning_rate": 1.8905672608340693e-05,
      "loss": 0.7327,
      "step": 1179
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.2872935056679444,
      "learning_rate": 1.890347317076354e-05,
      "loss": 0.718,
      "step": 1180
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.205147060682348,
      "learning_rate": 1.890127165333416e-05,
      "loss": 0.8158,
      "step": 1181
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.5589748169890827,
      "learning_rate": 1.889906805656684e-05,
      "loss": 0.7563,
      "step": 1182
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.3628089660787994,
      "learning_rate": 1.8896862380976332e-05,
      "loss": 0.7943,
      "step": 1183
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.2093917456174936,
      "learning_rate": 1.889465462707789e-05,
      "loss": 0.8125,
      "step": 1184
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.5172400731734923,
      "learning_rate": 1.8892444795387237e-05,
      "loss": 0.8644,
      "step": 1185
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1490355505041747,
      "learning_rate": 1.8890232886420598e-05,
      "loss": 0.7956,
      "step": 1186
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.9436385122520345,
      "learning_rate": 1.888801890069467e-05,
      "loss": 0.7433,
      "step": 1187
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.393167302119048,
      "learning_rate": 1.8885802838726634e-05,
      "loss": 0.7886,
      "step": 1188
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.454088270764129,
      "learning_rate": 1.8883584701034177e-05,
      "loss": 0.796,
      "step": 1189
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.756174702314066,
      "learning_rate": 1.8881364488135448e-05,
      "loss": 0.8782,
      "step": 1190
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.6033709308323263,
      "learning_rate": 1.887914220054909e-05,
      "loss": 0.7995,
      "step": 1191
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.174444300082248,
      "learning_rate": 1.8876917838794226e-05,
      "loss": 0.7133,
      "step": 1192
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4028163785356536,
      "learning_rate": 1.8874691403390476e-05,
      "loss": 0.7226,
      "step": 1193
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.9307145037770916,
      "learning_rate": 1.8872462894857927e-05,
      "loss": 0.8206,
      "step": 1194
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.853730661586226,
      "learning_rate": 1.887023231371716e-05,
      "loss": 0.8937,
      "step": 1195
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.430918029514779,
      "learning_rate": 1.886799966048924e-05,
      "loss": 0.8057,
      "step": 1196
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.83728337814641,
      "learning_rate": 1.886576493569572e-05,
      "loss": 0.8722,
      "step": 1197
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4457563448742565,
      "learning_rate": 1.8863528139858628e-05,
      "loss": 0.8082,
      "step": 1198
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.702805244057373,
      "learning_rate": 1.886128927350048e-05,
      "loss": 0.7653,
      "step": 1199
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.7200795686908545,
      "learning_rate": 1.885904833714427e-05,
      "loss": 0.7487,
      "step": 1200
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.273387897979811,
      "learning_rate": 1.8856805331313487e-05,
      "loss": 0.722,
      "step": 1201
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.545434956491304,
      "learning_rate": 1.8854560256532098e-05,
      "loss": 0.787,
      "step": 1202
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4441670077846656,
      "learning_rate": 1.8852313113324553e-05,
      "loss": 0.7541,
      "step": 1203
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.8373651049135553,
      "learning_rate": 1.885006390221578e-05,
      "loss": 0.7116,
      "step": 1204
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.103006126059385,
      "learning_rate": 1.8847812623731202e-05,
      "loss": 0.7561,
      "step": 1205
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.517940455670963,
      "learning_rate": 1.8845559278396707e-05,
      "loss": 0.7772,
      "step": 1206
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.6341204286228623,
      "learning_rate": 1.884330386673869e-05,
      "loss": 0.7612,
      "step": 1207
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.9897431122090854,
      "learning_rate": 1.8841046389284004e-05,
      "loss": 0.8698,
      "step": 1208
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.7054085354730386,
      "learning_rate": 1.8838786846560003e-05,
      "loss": 0.8013,
      "step": 1209
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.376985650467194,
      "learning_rate": 1.883652523909451e-05,
      "loss": 0.7002,
      "step": 1210
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.8425050682900017,
      "learning_rate": 1.883426156741585e-05,
      "loss": 0.7845,
      "step": 1211
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.291344757159967,
      "learning_rate": 1.8831995832052802e-05,
      "loss": 0.7387,
      "step": 1212
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4945449642800184,
      "learning_rate": 1.8829728033534644e-05,
      "loss": 0.745,
      "step": 1213
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.8470213675894414,
      "learning_rate": 1.882745817239114e-05,
      "loss": 0.7871,
      "step": 1214
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.5484743603303874,
      "learning_rate": 1.882518624915253e-05,
      "loss": 0.8574,
      "step": 1215
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.43329077471739,
      "learning_rate": 1.8822912264349535e-05,
      "loss": 0.7409,
      "step": 1216
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1755749662467023,
      "learning_rate": 1.8820636218513354e-05,
      "loss": 0.8176,
      "step": 1217
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.48342349089748,
      "learning_rate": 1.881835811217567e-05,
      "loss": 0.768,
      "step": 1218
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4135707050332815,
      "learning_rate": 1.8816077945868656e-05,
      "loss": 0.7897,
      "step": 1219
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1794683961693555,
      "learning_rate": 1.8813795720124958e-05,
      "loss": 0.874,
      "step": 1220
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.81721076992338,
      "learning_rate": 1.8811511435477695e-05,
      "loss": 0.7523,
      "step": 1221
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.4238774654228057,
      "learning_rate": 1.8809225092460488e-05,
      "loss": 0.8462,
      "step": 1222
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.6334723187912736,
      "learning_rate": 1.880693669160742e-05,
      "loss": 0.8661,
      "step": 1223
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1281828503543365,
      "learning_rate": 1.8804646233453067e-05,
      "loss": 0.7737,
      "step": 1224
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4513529871622914,
      "learning_rate": 1.8802353718532472e-05,
      "loss": 0.7609,
      "step": 1225
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.922232870873415,
      "learning_rate": 1.8800059147381172e-05,
      "loss": 0.8257,
      "step": 1226
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.3135119898866,
      "learning_rate": 1.8797762520535178e-05,
      "loss": 0.8162,
      "step": 1227
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.6961990114472445,
      "learning_rate": 1.8795463838530988e-05,
      "loss": 0.764,
      "step": 1228
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.8514821945593325,
      "learning_rate": 1.8793163101905562e-05,
      "loss": 0.7774,
      "step": 1229
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.853832193169439,
      "learning_rate": 1.8790860311196365e-05,
      "loss": 0.8495,
      "step": 1230
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.2184064212773236,
      "learning_rate": 1.878855546694132e-05,
      "loss": 0.7821,
      "step": 1231
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.2822209714476913,
      "learning_rate": 1.8786248569678847e-05,
      "loss": 0.8202,
      "step": 1232
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.5459162141511436,
      "learning_rate": 1.8783939619947827e-05,
      "loss": 0.8037,
      "step": 1233
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.601838476524112,
      "learning_rate": 1.878162861828764e-05,
      "loss": 0.8935,
      "step": 1234
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.558468686264578,
      "learning_rate": 1.8779315565238133e-05,
      "loss": 0.8554,
      "step": 1235
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.102502862659052,
      "learning_rate": 1.8777000461339635e-05,
      "loss": 0.7991,
      "step": 1236
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.8864667275526694,
      "learning_rate": 1.8774683307132956e-05,
      "loss": 0.7052,
      "step": 1237
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.447501054021182,
      "learning_rate": 1.877236410315938e-05,
      "loss": 0.8552,
      "step": 1238
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.4414082838883098,
      "learning_rate": 1.8770042849960676e-05,
      "loss": 0.8904,
      "step": 1239
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.089316337391729,
      "learning_rate": 1.8767719548079088e-05,
      "loss": 0.8277,
      "step": 1240
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.2288323066041618,
      "learning_rate": 1.8765394198057342e-05,
      "loss": 0.7462,
      "step": 1241
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.274446573356403,
      "learning_rate": 1.8763066800438638e-05,
      "loss": 0.938,
      "step": 1242
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.319392328809613,
      "learning_rate": 1.8760737355766654e-05,
      "loss": 0.8154,
      "step": 1243
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.2416774852570236,
      "learning_rate": 1.8758405864585554e-05,
      "loss": 0.878,
      "step": 1244
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.7628601963828223,
      "learning_rate": 1.875607232743997e-05,
      "loss": 0.8642,
      "step": 1245
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.365439777377247,
      "learning_rate": 1.875373674487502e-05,
      "loss": 0.8065,
      "step": 1246
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.4904928961884423,
      "learning_rate": 1.8751399117436292e-05,
      "loss": 0.8567,
      "step": 1247
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.049368333057193,
      "learning_rate": 1.8749059445669856e-05,
      "loss": 0.7411,
      "step": 1248
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.6561309942101987,
      "learning_rate": 1.8746717730122266e-05,
      "loss": 0.7726,
      "step": 1249
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.8987277846739157,
      "learning_rate": 1.874437397134054e-05,
      "loss": 0.9036,
      "step": 1250
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.701957135045233,
      "learning_rate": 1.8742028169872188e-05,
      "loss": 0.7739,
      "step": 1251
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.3185430157401625,
      "learning_rate": 1.873968032626518e-05,
      "loss": 0.7559,
      "step": 1252
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.3864660731475826,
      "learning_rate": 1.873733044106798e-05,
      "loss": 0.7351,
      "step": 1253
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.5523134366750933,
      "learning_rate": 1.8734978514829518e-05,
      "loss": 0.8804,
      "step": 1254
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.3705430128897964,
      "learning_rate": 1.8732624548099204e-05,
      "loss": 0.8382,
      "step": 1255
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.553210253284749,
      "learning_rate": 1.8730268541426924e-05,
      "loss": 0.8318,
      "step": 1256
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5670075142266915,
      "learning_rate": 1.8727910495363043e-05,
      "loss": 0.7244,
      "step": 1257
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.3601781728930757,
      "learning_rate": 1.8725550410458403e-05,
      "loss": 0.8378,
      "step": 1258
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1859664600694177,
      "learning_rate": 1.872318828726432e-05,
      "loss": 0.8239,
      "step": 1259
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.7608466586690357,
      "learning_rate": 1.8720824126332583e-05,
      "loss": 0.9001,
      "step": 1260
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.0189843029028025,
      "learning_rate": 1.8718457928215458e-05,
      "loss": 0.8776,
      "step": 1261
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.301122017720855,
      "learning_rate": 1.8716089693465696e-05,
      "loss": 0.821,
      "step": 1262
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.2330368793188806,
      "learning_rate": 1.871371942263651e-05,
      "loss": 0.7388,
      "step": 1263
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.0140765717137117,
      "learning_rate": 1.8711347116281598e-05,
      "loss": 0.7728,
      "step": 1264
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.5985690784347977,
      "learning_rate": 1.8708972774955136e-05,
      "loss": 0.814,
      "step": 1265
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.0712255369969452,
      "learning_rate": 1.8706596399211765e-05,
      "loss": 0.7346,
      "step": 1266
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.5234808771490167,
      "learning_rate": 1.8704217989606606e-05,
      "loss": 0.8432,
      "step": 1267
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.013615365180049,
      "learning_rate": 1.870183754669526e-05,
      "loss": 0.7796,
      "step": 1268
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.5719113882204603,
      "learning_rate": 1.8699455071033795e-05,
      "loss": 0.8525,
      "step": 1269
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1779268931753264,
      "learning_rate": 1.8697070563178758e-05,
      "loss": 0.7867,
      "step": 1270
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1432874971672518,
      "learning_rate": 1.869468402368717e-05,
      "loss": 0.8425,
      "step": 1271
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.636042052926931,
      "learning_rate": 1.869229545311653e-05,
      "loss": 0.8561,
      "step": 1272
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.205582583613183,
      "learning_rate": 1.8689904852024803e-05,
      "loss": 0.8363,
      "step": 1273
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.4758485360062767,
      "learning_rate": 1.868751222097044e-05,
      "loss": 0.7966,
      "step": 1274
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1760410543218742,
      "learning_rate": 1.868511756051236e-05,
      "loss": 0.6984,
      "step": 1275
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.213200003848236,
      "learning_rate": 1.868272087120995e-05,
      "loss": 0.7518,
      "step": 1276
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.3549257359778264,
      "learning_rate": 1.8680322153623077e-05,
      "loss": 0.8353,
      "step": 1277
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.3173800340300694,
      "learning_rate": 1.8677921408312083e-05,
      "loss": 0.7532,
      "step": 1278
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1519250220924544,
      "learning_rate": 1.8675518635837788e-05,
      "loss": 0.8255,
      "step": 1279
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.866464066130219,
      "learning_rate": 1.8673113836761475e-05,
      "loss": 0.8492,
      "step": 1280
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.9049233393379303,
      "learning_rate": 1.86707070116449e-05,
      "loss": 0.8217,
      "step": 1281
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.385834508125829,
      "learning_rate": 1.8668298161050308e-05,
      "loss": 0.7512,
      "step": 1282
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.4595310714687932,
      "learning_rate": 1.8665887285540405e-05,
      "loss": 0.8745,
      "step": 1283
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.2058588088102136,
      "learning_rate": 1.8663474385678364e-05,
      "loss": 0.8591,
      "step": 1284
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.864043730612341,
      "learning_rate": 1.8661059462027844e-05,
      "loss": 0.7972,
      "step": 1285
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.546745206021909,
      "learning_rate": 1.8658642515152973e-05,
      "loss": 0.8302,
      "step": 1286
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.797707872555705,
      "learning_rate": 1.8656223545618345e-05,
      "loss": 0.8959,
      "step": 1287
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.3213818621760036,
      "learning_rate": 1.8653802553989037e-05,
      "loss": 0.8431,
      "step": 1288
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.151576108022096,
      "learning_rate": 1.865137954083059e-05,
      "loss": 0.7528,
      "step": 1289
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.245607945388081,
      "learning_rate": 1.864895450670902e-05,
      "loss": 0.8473,
      "step": 1290
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.37799429532058,
      "learning_rate": 1.8646527452190815e-05,
      "loss": 0.7732,
      "step": 1291
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.9793502378114265,
      "learning_rate": 1.8644098377842934e-05,
      "loss": 0.8479,
      "step": 1292
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.214996416193581,
      "learning_rate": 1.8641667284232813e-05,
      "loss": 0.8582,
      "step": 1293
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1448866769001746,
      "learning_rate": 1.8639234171928355e-05,
      "loss": 0.7919,
      "step": 1294
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.5070909835125867,
      "learning_rate": 1.863679904149793e-05,
      "loss": 0.7939,
      "step": 1295
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.4223357202462275,
      "learning_rate": 1.8634361893510393e-05,
      "loss": 0.7954,
      "step": 1296
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.4411342500021753,
      "learning_rate": 1.8631922728535054e-05,
      "loss": 0.7659,
      "step": 1297
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.157253012685968,
      "learning_rate": 1.8629481547141708e-05,
      "loss": 0.8365,
      "step": 1298
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.7229202380457944,
      "learning_rate": 1.862703834990061e-05,
      "loss": 0.8785,
      "step": 1299
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.0041694146858915,
      "learning_rate": 1.8624593137382495e-05,
      "loss": 0.8692,
      "step": 1300
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6925508169463455,
      "learning_rate": 1.8622145910158568e-05,
      "loss": 0.7147,
      "step": 1301
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.338003335744998,
      "learning_rate": 1.8619696668800494e-05,
      "loss": 0.7468,
      "step": 1302
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.4825150300840693,
      "learning_rate": 1.861724541388042e-05,
      "loss": 0.8085,
      "step": 1303
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.8246504042618343,
      "learning_rate": 1.8614792145970958e-05,
      "loss": 0.7147,
      "step": 1304
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.14775971456475,
      "learning_rate": 1.861233686564519e-05,
      "loss": 0.7494,
      "step": 1305
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.779079248199389,
      "learning_rate": 1.860987957347668e-05,
      "loss": 0.8055,
      "step": 1306
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.103867600492578,
      "learning_rate": 1.860742027003944e-05,
      "loss": 0.7445,
      "step": 1307
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.348766597382255,
      "learning_rate": 1.8604958955907964e-05,
      "loss": 0.8342,
      "step": 1308
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.9126369922965925,
      "learning_rate": 1.8602495631657222e-05,
      "loss": 0.7955,
      "step": 1309
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.1944051045577204,
      "learning_rate": 1.8600030297862643e-05,
      "loss": 0.9315,
      "step": 1310
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.875541075524072,
      "learning_rate": 1.859756295510013e-05,
      "loss": 0.9389,
      "step": 1311
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.9769189058675665,
      "learning_rate": 1.8595093603946053e-05,
      "loss": 0.8372,
      "step": 1312
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.7384934068702984,
      "learning_rate": 1.8592622244977255e-05,
      "loss": 0.8103,
      "step": 1313
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.965036180802319,
      "learning_rate": 1.8590148878771043e-05,
      "loss": 0.9257,
      "step": 1314
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.074494507977202,
      "learning_rate": 1.8587673505905198e-05,
      "loss": 0.8627,
      "step": 1315
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.431869478004499,
      "learning_rate": 1.858519612695797e-05,
      "loss": 0.7409,
      "step": 1316
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.500573008517587,
      "learning_rate": 1.8582716742508066e-05,
      "loss": 0.8224,
      "step": 1317
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.206129084127986,
      "learning_rate": 1.8580235353134678e-05,
      "loss": 0.8004,
      "step": 1318
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.363593760543782,
      "learning_rate": 1.8577751959417458e-05,
      "loss": 0.821,
      "step": 1319
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.036256079947035,
      "learning_rate": 1.8575266561936526e-05,
      "loss": 0.7482,
      "step": 1320
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.3575753404673683,
      "learning_rate": 1.857277916127247e-05,
      "loss": 0.8322,
      "step": 1321
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4660227891452804,
      "learning_rate": 1.8570289758006346e-05,
      "loss": 0.8507,
      "step": 1322
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.924928697746759,
      "learning_rate": 1.856779835271968e-05,
      "loss": 0.8029,
      "step": 1323
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.349641730001025,
      "learning_rate": 1.856530494599447e-05,
      "loss": 0.8486,
      "step": 1324
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.390857667519759,
      "learning_rate": 1.856280953841317e-05,
      "loss": 0.8845,
      "step": 1325
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.172990335221345,
      "learning_rate": 1.8560312130558706e-05,
      "loss": 0.8516,
      "step": 1326
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.509214132243127,
      "learning_rate": 1.8557812723014476e-05,
      "loss": 0.8382,
      "step": 1327
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.1846725502719377,
      "learning_rate": 1.8555311316364344e-05,
      "loss": 0.8183,
      "step": 1328
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.274726172277523,
      "learning_rate": 1.8552807911192636e-05,
      "loss": 0.762,
      "step": 1329
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.1820358828477584,
      "learning_rate": 1.8550302508084145e-05,
      "loss": 0.8275,
      "step": 1330
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.106721316271904,
      "learning_rate": 1.8547795107624137e-05,
      "loss": 0.8076,
      "step": 1331
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4464538386725727,
      "learning_rate": 1.8545285710398343e-05,
      "loss": 0.9235,
      "step": 1332
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.5297059693543056,
      "learning_rate": 1.8542774316992953e-05,
      "loss": 0.8514,
      "step": 1333
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.9362604335650497,
      "learning_rate": 1.8540260927994633e-05,
      "loss": 0.7231,
      "step": 1334
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.8442563383431403,
      "learning_rate": 1.853774554399051e-05,
      "loss": 0.8889,
      "step": 1335
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.5919979014156684,
      "learning_rate": 1.8535228165568177e-05,
      "loss": 0.8528,
      "step": 1336
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4620884478969707,
      "learning_rate": 1.853270879331569e-05,
      "loss": 0.8246,
      "step": 1337
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.497201223346022,
      "learning_rate": 1.8530187427821585e-05,
      "loss": 0.7712,
      "step": 1338
    },
    {
      "epoch": 0.2,
      "grad_norm": 19.830257767944833,
      "learning_rate": 1.8527664069674844e-05,
      "loss": 0.789,
      "step": 1339
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.6851290301760673,
      "learning_rate": 1.8525138719464927e-05,
      "loss": 0.7701,
      "step": 1340
    },
    {
      "epoch": 0.2,
      "grad_norm": 5.7653611898429835,
      "learning_rate": 1.8522611377781758e-05,
      "loss": 0.762,
      "step": 1341
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4387431429296305,
      "learning_rate": 1.852008204521572e-05,
      "loss": 0.829,
      "step": 1342
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.2987765541746477,
      "learning_rate": 1.8517550722357667e-05,
      "loss": 0.8726,
      "step": 1343
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4522112893798242,
      "learning_rate": 1.8515017409798915e-05,
      "loss": 0.848,
      "step": 1344
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.3234070262264503,
      "learning_rate": 1.8512482108131254e-05,
      "loss": 0.758,
      "step": 1345
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.3567384043515314,
      "learning_rate": 1.850994481794692e-05,
      "loss": 0.7828,
      "step": 1346
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.9840910469054676,
      "learning_rate": 1.850740553983863e-05,
      "loss": 0.7966,
      "step": 1347
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.0728294271964,
      "learning_rate": 1.8504864274399557e-05,
      "loss": 0.689,
      "step": 1348
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.394799489302784,
      "learning_rate": 1.8502321022223344e-05,
      "loss": 0.8351,
      "step": 1349
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4437202390712036,
      "learning_rate": 1.8499775783904094e-05,
      "loss": 0.9017,
      "step": 1350
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.3088929844107695,
      "learning_rate": 1.849722856003637e-05,
      "loss": 0.7436,
      "step": 1351
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.415288186597073,
      "learning_rate": 1.8494679351215212e-05,
      "loss": 0.8009,
      "step": 1352
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.7903206636426363,
      "learning_rate": 1.8492128158036113e-05,
      "loss": 0.8132,
      "step": 1353
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.5375835330415533,
      "learning_rate": 1.8489574981095026e-05,
      "loss": 0.9019,
      "step": 1354
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.3664260464568025,
      "learning_rate": 1.8487019820988378e-05,
      "loss": 0.7809,
      "step": 1355
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.525144314507886,
      "learning_rate": 1.8484462678313053e-05,
      "loss": 0.8135,
      "step": 1356
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.473181618562349,
      "learning_rate": 1.8481903553666405e-05,
      "loss": 0.8234,
      "step": 1357
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.5814396333949023,
      "learning_rate": 1.847934244764624e-05,
      "loss": 0.825,
      "step": 1358
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4349295866668643,
      "learning_rate": 1.8476779360850833e-05,
      "loss": 0.8117,
      "step": 1359
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.3245392403222342,
      "learning_rate": 1.8474214293878926e-05,
      "loss": 0.8455,
      "step": 1360
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4628067590713942,
      "learning_rate": 1.8471647247329714e-05,
      "loss": 0.7861,
      "step": 1361
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.8885121927692836,
      "learning_rate": 1.846907822180286e-05,
      "loss": 0.7759,
      "step": 1362
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.2684732859315946,
      "learning_rate": 1.8466507217898493e-05,
      "loss": 0.8633,
      "step": 1363
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.1231721954575873,
      "learning_rate": 1.8463934236217195e-05,
      "loss": 0.7753,
      "step": 1364
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4511166814189647,
      "learning_rate": 1.8461359277360014e-05,
      "loss": 0.8704,
      "step": 1365
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.202804097293901,
      "learning_rate": 1.8458782341928465e-05,
      "loss": 0.7928,
      "step": 1366
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.889017277152375,
      "learning_rate": 1.845620343052452e-05,
      "loss": 0.6516,
      "step": 1367
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.029418594363161,
      "learning_rate": 1.8453622543750608e-05,
      "loss": 0.8157,
      "step": 1368
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.7779764910853513,
      "learning_rate": 1.8451039682209626e-05,
      "loss": 0.8889,
      "step": 1369
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.4115846738259794,
      "learning_rate": 1.8448454846504936e-05,
      "loss": 0.8209,
      "step": 1370
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.318370383968664,
      "learning_rate": 1.844586803724035e-05,
      "loss": 0.7152,
      "step": 1371
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.1844226158766706,
      "learning_rate": 1.8443279255020153e-05,
      "loss": 0.8578,
      "step": 1372
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.1334115669055564,
      "learning_rate": 1.8440688500449076e-05,
      "loss": 0.8967,
      "step": 1373
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.5614315199913946,
      "learning_rate": 1.8438095774132327e-05,
      "loss": 0.7197,
      "step": 1374
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.450156037266048,
      "learning_rate": 1.8435501076675566e-05,
      "loss": 0.8126,
      "step": 1375
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.4747461285233885,
      "learning_rate": 1.8432904408684912e-05,
      "loss": 0.755,
      "step": 1376
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.333123615081256,
      "learning_rate": 1.8430305770766947e-05,
      "loss": 0.7558,
      "step": 1377
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1734917467415302,
      "learning_rate": 1.8427705163528716e-05,
      "loss": 0.8416,
      "step": 1378
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.0324342547967142,
      "learning_rate": 1.8425102587577716e-05,
      "loss": 0.7719,
      "step": 1379
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.880014671688545,
      "learning_rate": 1.8422498043521915e-05,
      "loss": 0.8021,
      "step": 1380
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.395721769383328,
      "learning_rate": 1.841989153196973e-05,
      "loss": 0.8061,
      "step": 1381
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1082453560755923,
      "learning_rate": 1.8417283053530047e-05,
      "loss": 0.8156,
      "step": 1382
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.2858900073635935,
      "learning_rate": 1.84146726088122e-05,
      "loss": 0.8512,
      "step": 1383
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.620970662068255,
      "learning_rate": 1.8412060198426e-05,
      "loss": 0.8019,
      "step": 1384
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.8871122883207687,
      "learning_rate": 1.8409445822981694e-05,
      "loss": 0.8488,
      "step": 1385
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.5493148755032027,
      "learning_rate": 1.8406829483090006e-05,
      "loss": 0.7692,
      "step": 1386
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.141084116825931,
      "learning_rate": 1.8404211179362116e-05,
      "loss": 0.8218,
      "step": 1387
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.3388373041867676,
      "learning_rate": 1.8401590912409653e-05,
      "loss": 0.7251,
      "step": 1388
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.4037640713906647,
      "learning_rate": 1.839896868284472e-05,
      "loss": 0.6956,
      "step": 1389
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.318544912838424,
      "learning_rate": 1.8396344491279864e-05,
      "loss": 0.7988,
      "step": 1390
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.8363930299588054,
      "learning_rate": 1.8393718338328102e-05,
      "loss": 0.8156,
      "step": 1391
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.62419822360959,
      "learning_rate": 1.8391090224602895e-05,
      "loss": 0.75,
      "step": 1392
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.783291307364137,
      "learning_rate": 1.838846015071818e-05,
      "loss": 0.8585,
      "step": 1393
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6252330314048764,
      "learning_rate": 1.8385828117288333e-05,
      "loss": 0.7564,
      "step": 1394
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.364919384630871,
      "learning_rate": 1.838319412492821e-05,
      "loss": 0.7907,
      "step": 1395
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.867433956366655,
      "learning_rate": 1.8380558174253095e-05,
      "loss": 0.751,
      "step": 1396
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.6814942381938103,
      "learning_rate": 1.837792026587876e-05,
      "loss": 0.8287,
      "step": 1397
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.133916106868895,
      "learning_rate": 1.837528040042142e-05,
      "loss": 0.8135,
      "step": 1398
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.537661294349074,
      "learning_rate": 1.8372638578497738e-05,
      "loss": 0.8135,
      "step": 1399
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.011864627013697,
      "learning_rate": 1.8369994800724855e-05,
      "loss": 0.7803,
      "step": 1400
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.408517043980139,
      "learning_rate": 1.836734906772035e-05,
      "loss": 0.7509,
      "step": 1401
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.254890227601404,
      "learning_rate": 1.8364701380102267e-05,
      "loss": 0.7081,
      "step": 1402
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.5701580963587687,
      "learning_rate": 1.836205173848911e-05,
      "loss": 0.7553,
      "step": 1403
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1743511530038453,
      "learning_rate": 1.835940014349984e-05,
      "loss": 0.8383,
      "step": 1404
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.547473425330882,
      "learning_rate": 1.8356746595753856e-05,
      "loss": 0.7739,
      "step": 1405
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.0772612581093743,
      "learning_rate": 1.8354091095871038e-05,
      "loss": 0.7441,
      "step": 1406
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1628617524855227,
      "learning_rate": 1.8351433644471708e-05,
      "loss": 0.7496,
      "step": 1407
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.4480154868769457,
      "learning_rate": 1.8348774242176642e-05,
      "loss": 0.7506,
      "step": 1408
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.299019869304074,
      "learning_rate": 1.8346112889607086e-05,
      "loss": 0.7809,
      "step": 1409
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.122106013179081,
      "learning_rate": 1.8343449587384727e-05,
      "loss": 0.7312,
      "step": 1410
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.18658623095346,
      "learning_rate": 1.8340784336131715e-05,
      "loss": 0.816,
      "step": 1411
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.589171131258708,
      "learning_rate": 1.8338117136470648e-05,
      "loss": 0.8083,
      "step": 1412
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.40551722191751,
      "learning_rate": 1.833544798902459e-05,
      "loss": 0.8332,
      "step": 1413
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.678519412540704,
      "learning_rate": 1.8332776894417047e-05,
      "loss": 0.823,
      "step": 1414
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.200604013920883,
      "learning_rate": 1.8330103853271993e-05,
      "loss": 0.8052,
      "step": 1415
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.6092377122852386,
      "learning_rate": 1.832742886621385e-05,
      "loss": 0.7656,
      "step": 1416
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.264885898455279,
      "learning_rate": 1.8324751933867496e-05,
      "loss": 0.8783,
      "step": 1417
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.0961315860169036,
      "learning_rate": 1.8322073056858257e-05,
      "loss": 0.7865,
      "step": 1418
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.677288431091955,
      "learning_rate": 1.8319392235811927e-05,
      "loss": 0.7686,
      "step": 1419
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.3562367827154644,
      "learning_rate": 1.831670947135474e-05,
      "loss": 0.7773,
      "step": 1420
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.550271257386657,
      "learning_rate": 1.8314024764113392e-05,
      "loss": 0.8614,
      "step": 1421
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.6378472348898256,
      "learning_rate": 1.831133811471503e-05,
      "loss": 0.8611,
      "step": 1422
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1298271732033665,
      "learning_rate": 1.830864952378726e-05,
      "loss": 0.8004,
      "step": 1423
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.195426790783144,
      "learning_rate": 1.830595899195813e-05,
      "loss": 0.7376,
      "step": 1424
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.4239676770221577,
      "learning_rate": 1.830326651985615e-05,
      "loss": 0.7214,
      "step": 1425
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.613195425593422,
      "learning_rate": 1.8300572108110287e-05,
      "loss": 0.893,
      "step": 1426
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.9752044511516456,
      "learning_rate": 1.829787575734995e-05,
      "loss": 0.7875,
      "step": 1427
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.2160096454279548,
      "learning_rate": 1.8295177468205015e-05,
      "loss": 0.7779,
      "step": 1428
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.4577512000655015,
      "learning_rate": 1.8292477241305794e-05,
      "loss": 0.7923,
      "step": 1429
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.4718790376528776,
      "learning_rate": 1.8289775077283063e-05,
      "loss": 0.9229,
      "step": 1430
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.1354430445414976,
      "learning_rate": 1.8287070976768045e-05,
      "loss": 0.913,
      "step": 1431
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.031092495949324,
      "learning_rate": 1.8284364940392426e-05,
      "loss": 0.7188,
      "step": 1432
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.358929990555296,
      "learning_rate": 1.828165696878833e-05,
      "loss": 0.7703,
      "step": 1433
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.3008107222911542,
      "learning_rate": 1.8278947062588343e-05,
      "loss": 0.775,
      "step": 1434
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.233069478266631,
      "learning_rate": 1.8276235222425494e-05,
      "loss": 0.8315,
      "step": 1435
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.402771023141552,
      "learning_rate": 1.8273521448933277e-05,
      "loss": 0.794,
      "step": 1436
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.3725446234507452,
      "learning_rate": 1.827080574274562e-05,
      "loss": 0.8479,
      "step": 1437
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.5826132430512123,
      "learning_rate": 1.826808810449692e-05,
      "loss": 0.8367,
      "step": 1438
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.322503777929655,
      "learning_rate": 1.8265368534822016e-05,
      "loss": 0.7589,
      "step": 1439
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.32285809614207,
      "learning_rate": 1.8262647034356197e-05,
      "loss": 0.8147,
      "step": 1440
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.508267007609755,
      "learning_rate": 1.825992360373521e-05,
      "loss": 0.7769,
      "step": 1441
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1515920885353266,
      "learning_rate": 1.825719824359524e-05,
      "loss": 0.7817,
      "step": 1442
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.966284885399116,
      "learning_rate": 1.8254470954572946e-05,
      "loss": 0.7684,
      "step": 1443
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.3518694709107426,
      "learning_rate": 1.825174173730541e-05,
      "loss": 0.8277,
      "step": 1444
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1346203951215035,
      "learning_rate": 1.8249010592430186e-05,
      "loss": 0.796,
      "step": 1445
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.3320666654794984,
      "learning_rate": 1.8246277520585262e-05,
      "loss": 0.8095,
      "step": 1446
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2797684693042792,
      "learning_rate": 1.824354252240909e-05,
      "loss": 0.6585,
      "step": 1447
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.167842199993284,
      "learning_rate": 1.8240805598540562e-05,
      "loss": 0.7704,
      "step": 1448
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.6533818295871763,
      "learning_rate": 1.8238066749619026e-05,
      "loss": 0.7643,
      "step": 1449
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.6963983313051316,
      "learning_rate": 1.8235325976284276e-05,
      "loss": 0.895,
      "step": 1450
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.982234851870424,
      "learning_rate": 1.823258327917656e-05,
      "loss": 0.8024,
      "step": 1451
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.295554750846794,
      "learning_rate": 1.8229838658936566e-05,
      "loss": 0.7814,
      "step": 1452
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2077482822331604,
      "learning_rate": 1.822709211620544e-05,
      "loss": 0.795,
      "step": 1453
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.134898256809262,
      "learning_rate": 1.822434365162478e-05,
      "loss": 0.7334,
      "step": 1454
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.965771383315957,
      "learning_rate": 1.8221593265836624e-05,
      "loss": 0.7425,
      "step": 1455
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.8459998605790995,
      "learning_rate": 1.821884095948346e-05,
      "loss": 0.8923,
      "step": 1456
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.6538376002328676,
      "learning_rate": 1.821608673320823e-05,
      "loss": 0.7817,
      "step": 1457
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.338349950025637,
      "learning_rate": 1.8213330587654324e-05,
      "loss": 0.7667,
      "step": 1458
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.681036430859151,
      "learning_rate": 1.8210572523465567e-05,
      "loss": 0.7968,
      "step": 1459
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.5813333297833694,
      "learning_rate": 1.8207812541286256e-05,
      "loss": 0.784,
      "step": 1460
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.9966424613403173,
      "learning_rate": 1.820505064176112e-05,
      "loss": 0.718,
      "step": 1461
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.161155383312667,
      "learning_rate": 1.820228682553533e-05,
      "loss": 0.7752,
      "step": 1462
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2152537994507484,
      "learning_rate": 1.8199521093254524e-05,
      "loss": 0.642,
      "step": 1463
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.205086785642548,
      "learning_rate": 1.8196753445564775e-05,
      "loss": 0.8006,
      "step": 1464
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.001770987570073,
      "learning_rate": 1.8193983883112603e-05,
      "loss": 0.7303,
      "step": 1465
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4053165627827346,
      "learning_rate": 1.819121240654498e-05,
      "loss": 0.8362,
      "step": 1466
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4001417731314207,
      "learning_rate": 1.818843901650932e-05,
      "loss": 0.6789,
      "step": 1467
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.064737009788916,
      "learning_rate": 1.8185663713653495e-05,
      "loss": 0.7927,
      "step": 1468
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.226276956787384,
      "learning_rate": 1.8182886498625806e-05,
      "loss": 0.7755,
      "step": 1469
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1283719190833255,
      "learning_rate": 1.818010737207502e-05,
      "loss": 0.8344,
      "step": 1470
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.608307796221049,
      "learning_rate": 1.8177326334650335e-05,
      "loss": 0.9111,
      "step": 1471
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.0770225255631183,
      "learning_rate": 1.8174543387001403e-05,
      "loss": 0.7542,
      "step": 1472
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.45407990366435,
      "learning_rate": 1.817175852977832e-05,
      "loss": 0.7862,
      "step": 1473
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.36660028349771,
      "learning_rate": 1.8168971763631636e-05,
      "loss": 0.7591,
      "step": 1474
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.3644895590816635,
      "learning_rate": 1.816618308921233e-05,
      "loss": 0.8191,
      "step": 1475
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.069341144953263,
      "learning_rate": 1.816339250717184e-05,
      "loss": 0.8321,
      "step": 1476
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.190150660458237,
      "learning_rate": 1.816060001816205e-05,
      "loss": 0.7981,
      "step": 1477
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4673762686948577,
      "learning_rate": 1.815780562283528e-05,
      "loss": 0.8033,
      "step": 1478
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.797648017370872,
      "learning_rate": 1.8155009321844306e-05,
      "loss": 0.797,
      "step": 1479
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.665448617547776,
      "learning_rate": 1.8152211115842342e-05,
      "loss": 0.8061,
      "step": 1480
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.875214279721849,
      "learning_rate": 1.8149411005483047e-05,
      "loss": 0.7819,
      "step": 1481
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.063891494404424,
      "learning_rate": 1.8146608991420533e-05,
      "loss": 0.7542,
      "step": 1482
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.3748134429217114,
      "learning_rate": 1.8143805074309344e-05,
      "loss": 0.8465,
      "step": 1483
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2331550752363487,
      "learning_rate": 1.814099925480448e-05,
      "loss": 0.7959,
      "step": 1484
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1847917590842143,
      "learning_rate": 1.813819153356138e-05,
      "loss": 0.7579,
      "step": 1485
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.092293915254962,
      "learning_rate": 1.8135381911235924e-05,
      "loss": 0.8075,
      "step": 1486
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.219843974097834,
      "learning_rate": 1.8132570388484442e-05,
      "loss": 0.6556,
      "step": 1487
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.26054854388942,
      "learning_rate": 1.8129756965963712e-05,
      "loss": 0.8007,
      "step": 1488
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2615149544355098,
      "learning_rate": 1.812694164433094e-05,
      "loss": 0.7588,
      "step": 1489
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1939890801065425,
      "learning_rate": 1.8124124424243794e-05,
      "loss": 0.8378,
      "step": 1490
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2640919633964423,
      "learning_rate": 1.8121305306360374e-05,
      "loss": 0.847,
      "step": 1491
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.296523244038414,
      "learning_rate": 1.811848429133922e-05,
      "loss": 0.7168,
      "step": 1492
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1032535852112733,
      "learning_rate": 1.8115661379839328e-05,
      "loss": 0.7113,
      "step": 1493
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1866902839807136,
      "learning_rate": 1.8112836572520132e-05,
      "loss": 0.8184,
      "step": 1494
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.2948983171167425,
      "learning_rate": 1.8110009870041505e-05,
      "loss": 0.7416,
      "step": 1495
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.0372688759749376,
      "learning_rate": 1.8107181273063764e-05,
      "loss": 0.8171,
      "step": 1496
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2178258632536294,
      "learning_rate": 1.810435078224767e-05,
      "loss": 0.8363,
      "step": 1497
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.14397308942421,
      "learning_rate": 1.8101518398254423e-05,
      "loss": 0.7457,
      "step": 1498
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.302097800168762,
      "learning_rate": 1.8098684121745675e-05,
      "loss": 0.8336,
      "step": 1499
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4884640978789916,
      "learning_rate": 1.8095847953383506e-05,
      "loss": 0.8315,
      "step": 1500
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.8021142906099277,
      "learning_rate": 1.809300989383045e-05,
      "loss": 0.701,
      "step": 1501
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4688800517908636,
      "learning_rate": 1.8090169943749477e-05,
      "loss": 0.8433,
      "step": 1502
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4462067583508356,
      "learning_rate": 1.8087328103803998e-05,
      "loss": 0.7922,
      "step": 1503
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.016406999362461,
      "learning_rate": 1.808448437465787e-05,
      "loss": 0.7278,
      "step": 1504
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.548670933167701,
      "learning_rate": 1.8081638756975385e-05,
      "loss": 0.8554,
      "step": 1505
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.3054361907396963,
      "learning_rate": 1.8078791251421282e-05,
      "loss": 0.7892,
      "step": 1506
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2082076703189117,
      "learning_rate": 1.8075941858660737e-05,
      "loss": 0.8233,
      "step": 1507
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.484109594931218,
      "learning_rate": 1.8073090579359373e-05,
      "loss": 0.8189,
      "step": 1508
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.193240178982366,
      "learning_rate": 1.807023741418324e-05,
      "loss": 0.7947,
      "step": 1509
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.409234103150025,
      "learning_rate": 1.8067382363798845e-05,
      "loss": 0.8571,
      "step": 1510
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.318405481174632,
      "learning_rate": 1.8064525428873128e-05,
      "loss": 0.7996,
      "step": 1511
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1493524758560008,
      "learning_rate": 1.8061666610073465e-05,
      "loss": 0.7725,
      "step": 1512
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.430374107959671,
      "learning_rate": 1.805880590806768e-05,
      "loss": 0.8219,
      "step": 1513
    },
    {
      "epoch": 0.23,
      "grad_norm": 50.92229704806949,
      "learning_rate": 1.8055943323524033e-05,
      "loss": 0.7478,
      "step": 1514
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.45910115297558,
      "learning_rate": 1.8053078857111218e-05,
      "loss": 0.8028,
      "step": 1515
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.288375499555592,
      "learning_rate": 1.805021250949839e-05,
      "loss": 0.8366,
      "step": 1516
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0004170611050687,
      "learning_rate": 1.8047344281355112e-05,
      "loss": 0.7288,
      "step": 1517
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.3756872360963004,
      "learning_rate": 1.8044474173351403e-05,
      "loss": 0.8056,
      "step": 1518
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.6351663886597554,
      "learning_rate": 1.8041602186157732e-05,
      "loss": 0.8062,
      "step": 1519
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.5604209493710948,
      "learning_rate": 1.803872832044499e-05,
      "loss": 0.7211,
      "step": 1520
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.2964515943242203,
      "learning_rate": 1.8035852576884508e-05,
      "loss": 0.7862,
      "step": 1521
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.85271131276895,
      "learning_rate": 1.8032974956148064e-05,
      "loss": 0.8267,
      "step": 1522
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.7347467747814913,
      "learning_rate": 1.803009545890787e-05,
      "loss": 0.7356,
      "step": 1523
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0263734416201578,
      "learning_rate": 1.8027214085836578e-05,
      "loss": 0.8045,
      "step": 1524
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.473585902522421,
      "learning_rate": 1.8024330837607275e-05,
      "loss": 0.7836,
      "step": 1525
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.92089314139143,
      "learning_rate": 1.802144571489349e-05,
      "loss": 0.7948,
      "step": 1526
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.3909270198365347,
      "learning_rate": 1.8018558718369187e-05,
      "loss": 0.7852,
      "step": 1527
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.318872612563145,
      "learning_rate": 1.8015669848708768e-05,
      "loss": 0.7678,
      "step": 1528
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.2578070149913922,
      "learning_rate": 1.8012779106587073e-05,
      "loss": 0.7704,
      "step": 1529
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.744703068782961,
      "learning_rate": 1.800988649267938e-05,
      "loss": 0.8423,
      "step": 1530
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1663301740993877,
      "learning_rate": 1.8006992007661407e-05,
      "loss": 0.7895,
      "step": 1531
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0836221303265656,
      "learning_rate": 1.8004095652209304e-05,
      "loss": 0.9071,
      "step": 1532
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.678148516936913,
      "learning_rate": 1.8001197426999658e-05,
      "loss": 0.8099,
      "step": 1533
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.372846060731622,
      "learning_rate": 1.7998297332709492e-05,
      "loss": 0.7538,
      "step": 1534
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.358522653916801,
      "learning_rate": 1.7995395370016274e-05,
      "loss": 0.8473,
      "step": 1535
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.612671298935499,
      "learning_rate": 1.7992491539597904e-05,
      "loss": 0.8434,
      "step": 1536
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1884244438734015,
      "learning_rate": 1.7989585842132713e-05,
      "loss": 0.8815,
      "step": 1537
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.3176276400972595,
      "learning_rate": 1.7986678278299473e-05,
      "loss": 0.7424,
      "step": 1538
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.382084635347757,
      "learning_rate": 1.798376884877739e-05,
      "loss": 0.7798,
      "step": 1539
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.5704843227552594,
      "learning_rate": 1.798085755424611e-05,
      "loss": 0.8086,
      "step": 1540
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.7344793502465916,
      "learning_rate": 1.7977944395385713e-05,
      "loss": 0.7797,
      "step": 1541
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.746911480651641,
      "learning_rate": 1.7975029372876706e-05,
      "loss": 0.8175,
      "step": 1542
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.116204598092435,
      "learning_rate": 1.7972112487400047e-05,
      "loss": 0.7713,
      "step": 1543
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.2809928755950293,
      "learning_rate": 1.7969193739637113e-05,
      "loss": 0.7262,
      "step": 1544
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.287897710089007,
      "learning_rate": 1.7966273130269727e-05,
      "loss": 0.7177,
      "step": 1545
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.381590007986261,
      "learning_rate": 1.796335065998015e-05,
      "loss": 0.8975,
      "step": 1546
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.3704227266171256,
      "learning_rate": 1.7960426329451062e-05,
      "loss": 0.8208,
      "step": 1547
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.9541852283544645,
      "learning_rate": 1.795750013936559e-05,
      "loss": 0.7187,
      "step": 1548
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.343096313873161,
      "learning_rate": 1.7954572090407292e-05,
      "loss": 0.8553,
      "step": 1549
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.376802878291192,
      "learning_rate": 1.7951642183260163e-05,
      "loss": 0.8083,
      "step": 1550
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.026884363956213,
      "learning_rate": 1.7948710418608626e-05,
      "loss": 0.6816,
      "step": 1551
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.514917785952158,
      "learning_rate": 1.7945776797137544e-05,
      "loss": 0.766,
      "step": 1552
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1177231620933106,
      "learning_rate": 1.794284131953221e-05,
      "loss": 0.7716,
      "step": 1553
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1760162745600193,
      "learning_rate": 1.7939903986478354e-05,
      "loss": 0.804,
      "step": 1554
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.371417513110889,
      "learning_rate": 1.7936964798662134e-05,
      "loss": 0.8651,
      "step": 1555
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.2504216216250974,
      "learning_rate": 1.793402375677015e-05,
      "loss": 0.6486,
      "step": 1556
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.063041762155929,
      "learning_rate": 1.7931080861489425e-05,
      "loss": 0.7516,
      "step": 1557
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.930379219430278,
      "learning_rate": 1.7928136113507416e-05,
      "loss": 0.7345,
      "step": 1558
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7625195302022487,
      "learning_rate": 1.7925189513512026e-05,
      "loss": 0.7572,
      "step": 1559
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1032998953899917,
      "learning_rate": 1.7922241062191576e-05,
      "loss": 0.7631,
      "step": 1560
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.438532787712122,
      "learning_rate": 1.791929076023482e-05,
      "loss": 0.7208,
      "step": 1561
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0374972194304544,
      "learning_rate": 1.791633860833096e-05,
      "loss": 0.8308,
      "step": 1562
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.1045847321613556,
      "learning_rate": 1.7913384607169608e-05,
      "loss": 0.7762,
      "step": 1563
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.8405732616995873,
      "learning_rate": 1.7910428757440826e-05,
      "loss": 0.8109,
      "step": 1564
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.8316317060655125,
      "learning_rate": 1.7907471059835097e-05,
      "loss": 0.8373,
      "step": 1565
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.5334567119722164,
      "learning_rate": 1.7904511515043338e-05,
      "loss": 0.8115,
      "step": 1566
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0879143937297564,
      "learning_rate": 1.7901550123756906e-05,
      "loss": 0.7363,
      "step": 1567
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.442003383186451,
      "learning_rate": 1.7898586886667574e-05,
      "loss": 0.8411,
      "step": 1568
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.8737628485178854,
      "learning_rate": 1.7895621804467562e-05,
      "loss": 0.8119,
      "step": 1569
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0663379576976832,
      "learning_rate": 1.789265487784951e-05,
      "loss": 0.8584,
      "step": 1570
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.074029843806922,
      "learning_rate": 1.788968610750649e-05,
      "loss": 0.7597,
      "step": 1571
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.9563426827468235,
      "learning_rate": 1.7886715494132008e-05,
      "loss": 0.8874,
      "step": 1572
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.4760408688948443,
      "learning_rate": 1.7883743038420002e-05,
      "loss": 0.8927,
      "step": 1573
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.7302657212177306,
      "learning_rate": 1.788076874106484e-05,
      "loss": 0.7958,
      "step": 1574
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.1525873629532497,
      "learning_rate": 1.7877792602761312e-05,
      "loss": 0.8781,
      "step": 1575
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.2670649126336526,
      "learning_rate": 1.787481462420465e-05,
      "loss": 0.688,
      "step": 1576
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.432988025570852,
      "learning_rate": 1.7871834806090502e-05,
      "loss": 0.7446,
      "step": 1577
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.6137332193045832,
      "learning_rate": 1.7868853149114966e-05,
      "loss": 0.8194,
      "step": 1578
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.3894691833126296,
      "learning_rate": 1.7865869653974545e-05,
      "loss": 0.8771,
      "step": 1579
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.84540179589265,
      "learning_rate": 1.786288432136619e-05,
      "loss": 0.7909,
      "step": 1580
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.6867862116633785,
      "learning_rate": 1.7859897151987276e-05,
      "loss": 0.8381,
      "step": 1581
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.2461781730393993,
      "learning_rate": 1.7856908146535602e-05,
      "loss": 0.7752,
      "step": 1582
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.3123378746232395,
      "learning_rate": 1.7853917305709405e-05,
      "loss": 0.7882,
      "step": 1583
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.8985082487527107,
      "learning_rate": 1.785092463020734e-05,
      "loss": 0.7444,
      "step": 1584
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.8815811725779725,
      "learning_rate": 1.78479301207285e-05,
      "loss": 0.7339,
      "step": 1585
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.380744940105929,
      "learning_rate": 1.7844933777972406e-05,
      "loss": 0.8031,
      "step": 1586
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.5109485562382443,
      "learning_rate": 1.7841935602638997e-05,
      "loss": 0.8252,
      "step": 1587
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.6890689813783504,
      "learning_rate": 1.783893559542865e-05,
      "loss": 0.745,
      "step": 1588
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.7629761680747897,
      "learning_rate": 1.7835933757042165e-05,
      "loss": 0.7591,
      "step": 1589
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.113059226980762,
      "learning_rate": 1.7832930088180777e-05,
      "loss": 0.76,
      "step": 1590
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9257712695106324,
      "learning_rate": 1.782992458954614e-05,
      "loss": 0.6725,
      "step": 1591
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.704854963752202,
      "learning_rate": 1.7826917261840337e-05,
      "loss": 0.7441,
      "step": 1592
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.8361252754048207,
      "learning_rate": 1.7823908105765883e-05,
      "loss": 0.861,
      "step": 1593
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.1671726421009243,
      "learning_rate": 1.7820897122025717e-05,
      "loss": 0.7474,
      "step": 1594
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.8155589645739165,
      "learning_rate": 1.7817884311323203e-05,
      "loss": 0.7785,
      "step": 1595
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.780235879125176,
      "learning_rate": 1.7814869674362133e-05,
      "loss": 0.7774,
      "step": 1596
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0382332338348568,
      "learning_rate": 1.781185321184673e-05,
      "loss": 0.8371,
      "step": 1597
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.5878525237293992,
      "learning_rate": 1.780883492448164e-05,
      "loss": 0.737,
      "step": 1598
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.742794196684182,
      "learning_rate": 1.780581481297193e-05,
      "loss": 0.8155,
      "step": 1599
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.0148571823123884,
      "learning_rate": 1.7802792878023108e-05,
      "loss": 0.8914,
      "step": 1600
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.953627855812013,
      "learning_rate": 1.779976912034109e-05,
      "loss": 0.7941,
      "step": 1601
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9871439407642382,
      "learning_rate": 1.7796743540632226e-05,
      "loss": 0.7707,
      "step": 1602
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.2249510471362797,
      "learning_rate": 1.7793716139603297e-05,
      "loss": 0.7567,
      "step": 1603
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0489315282196063,
      "learning_rate": 1.7790686917961498e-05,
      "loss": 0.7752,
      "step": 1604
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.7736668797630704,
      "learning_rate": 1.7787655876414463e-05,
      "loss": 0.7929,
      "step": 1605
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.4174755310007447,
      "learning_rate": 1.7784623015670237e-05,
      "loss": 0.8028,
      "step": 1606
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.1562078366228112,
      "learning_rate": 1.77815883364373e-05,
      "loss": 0.7868,
      "step": 1607
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4800196328454738,
      "learning_rate": 1.777855183942455e-05,
      "loss": 0.77,
      "step": 1608
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.4300124376516523,
      "learning_rate": 1.7775513525341318e-05,
      "loss": 0.7147,
      "step": 1609
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9451909293031626,
      "learning_rate": 1.777247339489735e-05,
      "loss": 0.6987,
      "step": 1610
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9887373241896376,
      "learning_rate": 1.7769431448802824e-05,
      "loss": 0.7579,
      "step": 1611
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.367856470307376,
      "learning_rate": 1.7766387687768338e-05,
      "loss": 0.7484,
      "step": 1612
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0352641546820864,
      "learning_rate": 1.7763342112504913e-05,
      "loss": 0.7913,
      "step": 1613
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.5172525999762114,
      "learning_rate": 1.7760294723724e-05,
      "loss": 0.7272,
      "step": 1614
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.6767487384956707,
      "learning_rate": 1.775724552213746e-05,
      "loss": 0.752,
      "step": 1615
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0936761295250457,
      "learning_rate": 1.7754194508457602e-05,
      "loss": 0.7809,
      "step": 1616
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0830961606685543,
      "learning_rate": 1.7751141683397128e-05,
      "loss": 0.7422,
      "step": 1617
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9033634682536336,
      "learning_rate": 1.7748087047669186e-05,
      "loss": 0.7705,
      "step": 1618
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.293708549346164,
      "learning_rate": 1.7745030601987338e-05,
      "loss": 0.8251,
      "step": 1619
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.113114915840186,
      "learning_rate": 1.774197234706557e-05,
      "loss": 0.7333,
      "step": 1620
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.429128202652279,
      "learning_rate": 1.7738912283618293e-05,
      "loss": 0.7948,
      "step": 1621
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.392967565663353,
      "learning_rate": 1.7735850412360332e-05,
      "loss": 0.728,
      "step": 1622
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.2782462616039036,
      "learning_rate": 1.7732786734006947e-05,
      "loss": 0.7885,
      "step": 1623
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.098234766073976,
      "learning_rate": 1.772972124927381e-05,
      "loss": 0.8082,
      "step": 1624
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.2958566938511593,
      "learning_rate": 1.7726653958877016e-05,
      "loss": 0.7478,
      "step": 1625
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.2265471826722627,
      "learning_rate": 1.772358486353309e-05,
      "loss": 0.74,
      "step": 1626
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.3921624288803884,
      "learning_rate": 1.772051396395897e-05,
      "loss": 0.8642,
      "step": 1627
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.518265583546654,
      "learning_rate": 1.771744126087202e-05,
      "loss": 0.7882,
      "step": 1628
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.910827019103479,
      "learning_rate": 1.771436675499002e-05,
      "loss": 0.9012,
      "step": 1629
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.6837428294887253,
      "learning_rate": 1.771129044703118e-05,
      "loss": 0.78,
      "step": 1630
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.3257167132248155,
      "learning_rate": 1.770821233771412e-05,
      "loss": 0.7505,
      "step": 1631
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.6425140369374422,
      "learning_rate": 1.7705132427757895e-05,
      "loss": 0.8851,
      "step": 1632
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.746155347223214,
      "learning_rate": 1.7702050717881966e-05,
      "loss": 0.7106,
      "step": 1633
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.524530082186811,
      "learning_rate": 1.7698967208806216e-05,
      "loss": 0.7813,
      "step": 1634
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.4693068736419828,
      "learning_rate": 1.7695881901250966e-05,
      "loss": 0.757,
      "step": 1635
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0195465549049705,
      "learning_rate": 1.7692794795936933e-05,
      "loss": 0.7444,
      "step": 1636
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.14041073348848,
      "learning_rate": 1.7689705893585273e-05,
      "loss": 0.8339,
      "step": 1637
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.021062434552402,
      "learning_rate": 1.768661519491755e-05,
      "loss": 0.771,
      "step": 1638
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.44684815312435,
      "learning_rate": 1.7683522700655748e-05,
      "loss": 0.8652,
      "step": 1639
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4842228932494235,
      "learning_rate": 1.768042841152228e-05,
      "loss": 0.7541,
      "step": 1640
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.190080825223649,
      "learning_rate": 1.767733232823997e-05,
      "loss": 0.8063,
      "step": 1641
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3228736652441186,
      "learning_rate": 1.7674234451532065e-05,
      "loss": 0.7052,
      "step": 1642
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2350233715203145,
      "learning_rate": 1.7671134782122225e-05,
      "loss": 0.6795,
      "step": 1643
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.6312755575514957,
      "learning_rate": 1.7668033320734536e-05,
      "loss": 0.7978,
      "step": 1644
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.8258942056619407,
      "learning_rate": 1.76649300680935e-05,
      "loss": 0.8215,
      "step": 1645
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4368352925136656,
      "learning_rate": 1.7661825024924035e-05,
      "loss": 0.7748,
      "step": 1646
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.377184018257822,
      "learning_rate": 1.7658718191951483e-05,
      "loss": 0.8357,
      "step": 1647
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.792428007223805,
      "learning_rate": 1.76556095699016e-05,
      "loss": 0.7746,
      "step": 1648
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2560890096297577,
      "learning_rate": 1.7652499159500554e-05,
      "loss": 0.7536,
      "step": 1649
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.939177945119403,
      "learning_rate": 1.7649386961474944e-05,
      "loss": 0.7218,
      "step": 1650
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.821480781218327,
      "learning_rate": 1.764627297655178e-05,
      "loss": 0.8144,
      "step": 1651
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4156156196474963,
      "learning_rate": 1.7643157205458483e-05,
      "loss": 0.7863,
      "step": 1652
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.862745988428067,
      "learning_rate": 1.7640039648922905e-05,
      "loss": 0.7918,
      "step": 1653
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.9641597098090253,
      "learning_rate": 1.7636920307673305e-05,
      "loss": 0.8223,
      "step": 1654
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.257018412294587,
      "learning_rate": 1.7633799182438355e-05,
      "loss": 0.7532,
      "step": 1655
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6466193609616708,
      "learning_rate": 1.7630676273947157e-05,
      "loss": 0.7169,
      "step": 1656
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.5220651366977647,
      "learning_rate": 1.7627551582929223e-05,
      "loss": 0.7662,
      "step": 1657
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4126283147426033,
      "learning_rate": 1.762442511011448e-05,
      "loss": 0.7126,
      "step": 1658
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.3307300598921166,
      "learning_rate": 1.762129685623327e-05,
      "loss": 0.8068,
      "step": 1659
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4048800962235655,
      "learning_rate": 1.7618166822016358e-05,
      "loss": 0.7792,
      "step": 1660
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.605835609402159,
      "learning_rate": 1.7615035008194914e-05,
      "loss": 0.7241,
      "step": 1661
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.307922934827108,
      "learning_rate": 1.7611901415500536e-05,
      "loss": 0.7249,
      "step": 1662
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.935832503137784,
      "learning_rate": 1.7608766044665227e-05,
      "loss": 0.7125,
      "step": 1663
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.1164507817927447,
      "learning_rate": 1.7605628896421412e-05,
      "loss": 0.7463,
      "step": 1664
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2458094183961235,
      "learning_rate": 1.760248997150193e-05,
      "loss": 0.792,
      "step": 1665
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.7685398285137297,
      "learning_rate": 1.7599349270640034e-05,
      "loss": 0.8885,
      "step": 1666
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.974900821668172,
      "learning_rate": 1.759620679456939e-05,
      "loss": 0.7683,
      "step": 1667
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2732988514125956,
      "learning_rate": 1.7593062544024084e-05,
      "loss": 0.7325,
      "step": 1668
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.1678851531145824,
      "learning_rate": 1.758991651973861e-05,
      "loss": 0.7592,
      "step": 1669
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.8118658387376425,
      "learning_rate": 1.758676872244788e-05,
      "loss": 0.8095,
      "step": 1670
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.375463902789963,
      "learning_rate": 1.7583619152887222e-05,
      "loss": 0.7257,
      "step": 1671
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.246364948509861,
      "learning_rate": 1.7580467811792374e-05,
      "loss": 0.7598,
      "step": 1672
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.437002743602785,
      "learning_rate": 1.7577314699899486e-05,
      "loss": 0.9467,
      "step": 1673
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.1926858137114444,
      "learning_rate": 1.7574159817945134e-05,
      "loss": 0.7028,
      "step": 1674
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.5908655236372486,
      "learning_rate": 1.7571003166666295e-05,
      "loss": 0.8052,
      "step": 1675
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.9866760054760928,
      "learning_rate": 1.756784474680036e-05,
      "loss": 0.808,
      "step": 1676
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.194194667719596,
      "learning_rate": 1.7564684559085138e-05,
      "loss": 0.772,
      "step": 1677
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.491247472899417,
      "learning_rate": 1.756152260425885e-05,
      "loss": 0.7127,
      "step": 1678
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2697448287470765,
      "learning_rate": 1.7558358883060128e-05,
      "loss": 0.8848,
      "step": 1679
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2781871889291305,
      "learning_rate": 1.7555193396228015e-05,
      "loss": 0.7299,
      "step": 1680
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.434929784724387,
      "learning_rate": 1.7552026144501976e-05,
      "loss": 0.8501,
      "step": 1681
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.0367764714250893,
      "learning_rate": 1.7548857128621878e-05,
      "loss": 0.7369,
      "step": 1682
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4563648775188494,
      "learning_rate": 1.7545686349328e-05,
      "loss": 0.8988,
      "step": 1683
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.5656670648266617,
      "learning_rate": 1.754251380736104e-05,
      "loss": 0.8572,
      "step": 1684
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.512313428846962,
      "learning_rate": 1.7539339503462103e-05,
      "loss": 0.7743,
      "step": 1685
    },
    {
      "epoch": 0.25,
      "grad_norm": 5.990643484210859,
      "learning_rate": 1.753616343837271e-05,
      "loss": 0.7656,
      "step": 1686
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.05052341470787,
      "learning_rate": 1.753298561283478e-05,
      "loss": 0.7944,
      "step": 1687
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.229637775480751,
      "learning_rate": 1.7529806027590668e-05,
      "loss": 0.7318,
      "step": 1688
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.8162462829477812,
      "learning_rate": 1.7526624683383114e-05,
      "loss": 0.8731,
      "step": 1689
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.8577225285512828,
      "learning_rate": 1.752344158095528e-05,
      "loss": 0.716,
      "step": 1690
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.1496796250257257,
      "learning_rate": 1.752025672105075e-05,
      "loss": 0.8001,
      "step": 1691
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.852280212194116,
      "learning_rate": 1.7517070104413497e-05,
      "loss": 0.7794,
      "step": 1692
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.370163853084787,
      "learning_rate": 1.7513881731787924e-05,
      "loss": 0.7754,
      "step": 1693
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.455963997149819,
      "learning_rate": 1.7510691603918825e-05,
      "loss": 0.74,
      "step": 1694
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.174411970059732,
      "learning_rate": 1.750749972155142e-05,
      "loss": 0.7341,
      "step": 1695
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.966399287748262,
      "learning_rate": 1.7504306085431334e-05,
      "loss": 0.8171,
      "step": 1696
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.722120606835227,
      "learning_rate": 1.7501110696304598e-05,
      "loss": 0.7864,
      "step": 1697
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.1379976255629,
      "learning_rate": 1.7497913554917656e-05,
      "loss": 0.804,
      "step": 1698
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.326247425086043,
      "learning_rate": 1.749471466201736e-05,
      "loss": 0.7999,
      "step": 1699
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2488734376804342,
      "learning_rate": 1.7491514018350974e-05,
      "loss": 0.7449,
      "step": 1700
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.0796899011956396,
      "learning_rate": 1.7488311624666165e-05,
      "loss": 0.7318,
      "step": 1701
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.9151563684303674,
      "learning_rate": 1.7485107481711014e-05,
      "loss": 0.8552,
      "step": 1702
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.846044312711956,
      "learning_rate": 1.748190159023401e-05,
      "loss": 0.8204,
      "step": 1703
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.7165557125509334,
      "learning_rate": 1.747869395098405e-05,
      "loss": 0.8125,
      "step": 1704
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.543793266305931,
      "learning_rate": 1.7475484564710437e-05,
      "loss": 0.7885,
      "step": 1705
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.1086218403555885,
      "learning_rate": 1.7472273432162886e-05,
      "loss": 0.7185,
      "step": 1706
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.180293709048984,
      "learning_rate": 1.7469060554091518e-05,
      "loss": 0.7491,
      "step": 1707
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.952242999699737,
      "learning_rate": 1.7465845931246858e-05,
      "loss": 0.7319,
      "step": 1708
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4157728679029695,
      "learning_rate": 1.7462629564379846e-05,
      "loss": 0.7968,
      "step": 1709
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.923363586873403,
      "learning_rate": 1.7459411454241822e-05,
      "loss": 0.7676,
      "step": 1710
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.711717591470788,
      "learning_rate": 1.7456191601584544e-05,
      "loss": 0.7502,
      "step": 1711
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.5453849625989937,
      "learning_rate": 1.745297000716016e-05,
      "loss": 0.7823,
      "step": 1712
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1942742219253213,
      "learning_rate": 1.7449746671721243e-05,
      "loss": 0.7735,
      "step": 1713
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.0690800624404107,
      "learning_rate": 1.744652159602076e-05,
      "loss": 0.8072,
      "step": 1714
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.0766366411562855,
      "learning_rate": 1.744329478081209e-05,
      "loss": 0.8915,
      "step": 1715
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.6042516099222173,
      "learning_rate": 1.744006622684902e-05,
      "loss": 0.8123,
      "step": 1716
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.246126451434368,
      "learning_rate": 1.7436835934885735e-05,
      "loss": 0.7268,
      "step": 1717
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.4833427105948864,
      "learning_rate": 1.743360390567684e-05,
      "loss": 0.7945,
      "step": 1718
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.8106040294920738,
      "learning_rate": 1.7430370139977327e-05,
      "loss": 0.725,
      "step": 1719
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1848011970165135,
      "learning_rate": 1.7427134638542612e-05,
      "loss": 0.8665,
      "step": 1720
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.6325595232686854,
      "learning_rate": 1.7423897402128505e-05,
      "loss": 0.7455,
      "step": 1721
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.274106305711985,
      "learning_rate": 1.7420658431491224e-05,
      "loss": 0.8512,
      "step": 1722
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.00454858217843,
      "learning_rate": 1.7417417727387392e-05,
      "loss": 0.8361,
      "step": 1723
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.2537945601793576,
      "learning_rate": 1.7414175290574044e-05,
      "loss": 0.8299,
      "step": 1724
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9658556934744147,
      "learning_rate": 1.741093112180861e-05,
      "loss": 0.7835,
      "step": 1725
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.835053743785564,
      "learning_rate": 1.7407685221848925e-05,
      "loss": 0.7874,
      "step": 1726
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.218971415089132,
      "learning_rate": 1.7404437591453237e-05,
      "loss": 0.7571,
      "step": 1727
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.321860819782145,
      "learning_rate": 1.7401188231380185e-05,
      "loss": 0.808,
      "step": 1728
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9526683105418614,
      "learning_rate": 1.739793714238883e-05,
      "loss": 0.745,
      "step": 1729
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.2495154622219515,
      "learning_rate": 1.7394684325238616e-05,
      "loss": 0.6798,
      "step": 1730
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.4043716698381092,
      "learning_rate": 1.7391429780689414e-05,
      "loss": 0.8508,
      "step": 1731
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1216013559618614,
      "learning_rate": 1.7388173509501475e-05,
      "loss": 0.8347,
      "step": 1732
    },
    {
      "epoch": 0.26,
      "grad_norm": 7.576227136549146,
      "learning_rate": 1.7384915512435466e-05,
      "loss": 0.856,
      "step": 1733
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.3857724138673952,
      "learning_rate": 1.738165579025246e-05,
      "loss": 0.7583,
      "step": 1734
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.0360849951879447,
      "learning_rate": 1.737839434371393e-05,
      "loss": 0.7662,
      "step": 1735
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.7291743320141846,
      "learning_rate": 1.737513117358174e-05,
      "loss": 0.7934,
      "step": 1736
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6239101667326121,
      "learning_rate": 1.7371866280618176e-05,
      "loss": 0.7059,
      "step": 1737
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9619281103640758,
      "learning_rate": 1.7368599665585916e-05,
      "loss": 0.7596,
      "step": 1738
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.474067323872495,
      "learning_rate": 1.7365331329248035e-05,
      "loss": 0.7589,
      "step": 1739
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.405750834700786,
      "learning_rate": 1.7362061272368026e-05,
      "loss": 0.8738,
      "step": 1740
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.074235502367564,
      "learning_rate": 1.735878949570977e-05,
      "loss": 0.7018,
      "step": 1741
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9714964980964118,
      "learning_rate": 1.7355516000037555e-05,
      "loss": 0.7614,
      "step": 1742
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9758539846701684,
      "learning_rate": 1.7352240786116068e-05,
      "loss": 0.7612,
      "step": 1743
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.0053970588768317,
      "learning_rate": 1.73489638547104e-05,
      "loss": 0.7762,
      "step": 1744
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.118297388293848,
      "learning_rate": 1.7345685206586045e-05,
      "loss": 0.7335,
      "step": 1745
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.076189667957293,
      "learning_rate": 1.7342404842508896e-05,
      "loss": 0.7943,
      "step": 1746
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.7204814206958723,
      "learning_rate": 1.733912276324524e-05,
      "loss": 0.8127,
      "step": 1747
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1108723258192117,
      "learning_rate": 1.7335838969561777e-05,
      "loss": 0.8193,
      "step": 1748
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.7840619190366436,
      "learning_rate": 1.7332553462225604e-05,
      "loss": 0.7778,
      "step": 1749
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.5715560076151514,
      "learning_rate": 1.7329266242004205e-05,
      "loss": 0.6817,
      "step": 1750
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.5711541675954845,
      "learning_rate": 1.7325977309665485e-05,
      "loss": 0.8099,
      "step": 1751
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.6889557969834366,
      "learning_rate": 1.7322686665977738e-05,
      "loss": 0.7754,
      "step": 1752
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.3116052645907152,
      "learning_rate": 1.7319394311709655e-05,
      "loss": 0.6778,
      "step": 1753
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.351520261339649,
      "learning_rate": 1.731610024763033e-05,
      "loss": 0.8186,
      "step": 1754
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.275548552708649,
      "learning_rate": 1.731280447450926e-05,
      "loss": 0.7978,
      "step": 1755
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.002019824794572,
      "learning_rate": 1.7309506993116333e-05,
      "loss": 0.7372,
      "step": 1756
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.908776321238286,
      "learning_rate": 1.7306207804221845e-05,
      "loss": 0.8069,
      "step": 1757
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9227705769750556,
      "learning_rate": 1.7302906908596487e-05,
      "loss": 0.687,
      "step": 1758
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.7133398415103547,
      "learning_rate": 1.729960430701135e-05,
      "loss": 0.7552,
      "step": 1759
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.0997533141935842,
      "learning_rate": 1.7296300000237917e-05,
      "loss": 0.8619,
      "step": 1760
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1597875777728794,
      "learning_rate": 1.7292993989048076e-05,
      "loss": 0.7654,
      "step": 1761
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.434897773700286,
      "learning_rate": 1.7289686274214116e-05,
      "loss": 0.8513,
      "step": 1762
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.2684558803739363,
      "learning_rate": 1.7286376856508714e-05,
      "loss": 0.8628,
      "step": 1763
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.443615232050271,
      "learning_rate": 1.7283065736704956e-05,
      "loss": 0.8711,
      "step": 1764
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.4512071751941993,
      "learning_rate": 1.7279752915576312e-05,
      "loss": 0.7407,
      "step": 1765
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.599054672763288,
      "learning_rate": 1.7276438393896663e-05,
      "loss": 0.7778,
      "step": 1766
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.5116106729284975,
      "learning_rate": 1.727312217244028e-05,
      "loss": 0.7433,
      "step": 1767
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.3236058007319462,
      "learning_rate": 1.7269804251981835e-05,
      "loss": 0.8591,
      "step": 1768
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1643332631062804,
      "learning_rate": 1.726648463329639e-05,
      "loss": 0.8452,
      "step": 1769
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.954821120702006,
      "learning_rate": 1.726316331715941e-05,
      "loss": 0.8892,
      "step": 1770
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.379392214267067,
      "learning_rate": 1.7259840304346757e-05,
      "loss": 0.792,
      "step": 1771
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1351027651222676,
      "learning_rate": 1.7256515595634688e-05,
      "loss": 0.7997,
      "step": 1772
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9671705250334948,
      "learning_rate": 1.7253189191799853e-05,
      "loss": 0.8293,
      "step": 1773
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.992324611009933,
      "learning_rate": 1.7249861093619298e-05,
      "loss": 0.8677,
      "step": 1774
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.3842065167937405,
      "learning_rate": 1.7246531301870467e-05,
      "loss": 0.8736,
      "step": 1775
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.0633093634078588,
      "learning_rate": 1.7243199817331207e-05,
      "loss": 0.8314,
      "step": 1776
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0737107908572727,
      "learning_rate": 1.7239866640779745e-05,
      "loss": 0.7956,
      "step": 1777
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.470915509710299,
      "learning_rate": 1.7236531772994714e-05,
      "loss": 0.839,
      "step": 1778
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9927040022244842,
      "learning_rate": 1.723319521475514e-05,
      "loss": 0.7835,
      "step": 1779
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.353259677068731,
      "learning_rate": 1.7229856966840444e-05,
      "loss": 0.6747,
      "step": 1780
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.6447391316332887,
      "learning_rate": 1.7226517030030444e-05,
      "loss": 0.9109,
      "step": 1781
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.775786365074207,
      "learning_rate": 1.722317540510534e-05,
      "loss": 0.7853,
      "step": 1782
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.46336601153643,
      "learning_rate": 1.7219832092845746e-05,
      "loss": 0.8053,
      "step": 1783
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0122021501796166,
      "learning_rate": 1.7216487094032653e-05,
      "loss": 0.6989,
      "step": 1784
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.2742505235002475,
      "learning_rate": 1.7213140409447455e-05,
      "loss": 0.7063,
      "step": 1785
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.643260283396669,
      "learning_rate": 1.7209792039871942e-05,
      "loss": 0.7894,
      "step": 1786
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9765145164559665,
      "learning_rate": 1.720644198608829e-05,
      "loss": 0.7365,
      "step": 1787
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.1440943183346692,
      "learning_rate": 1.720309024887907e-05,
      "loss": 0.7716,
      "step": 1788
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.2473745680987736,
      "learning_rate": 1.7199736829027252e-05,
      "loss": 0.7732,
      "step": 1789
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.788288196350017,
      "learning_rate": 1.7196381727316192e-05,
      "loss": 0.7583,
      "step": 1790
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.401766556433752,
      "learning_rate": 1.7193024944529647e-05,
      "loss": 0.7806,
      "step": 1791
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.4631823456188275,
      "learning_rate": 1.7189666481451755e-05,
      "loss": 0.7547,
      "step": 1792
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.899339186424436,
      "learning_rate": 1.7186306338867055e-05,
      "loss": 0.834,
      "step": 1793
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8085534462527517,
      "learning_rate": 1.7182944517560483e-05,
      "loss": 0.6812,
      "step": 1794
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.652553413054008,
      "learning_rate": 1.7179581018317354e-05,
      "loss": 0.8022,
      "step": 1795
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.070223198255822,
      "learning_rate": 1.7176215841923385e-05,
      "loss": 0.7232,
      "step": 1796
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0866209948645444,
      "learning_rate": 1.717284898916468e-05,
      "loss": 0.7609,
      "step": 1797
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0521941617538464,
      "learning_rate": 1.7169480460827734e-05,
      "loss": 0.8534,
      "step": 1798
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.83656048812118,
      "learning_rate": 1.716611025769944e-05,
      "loss": 0.7816,
      "step": 1799
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.944476351531115,
      "learning_rate": 1.7162738380567077e-05,
      "loss": 0.7368,
      "step": 1800
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.0235612414974407,
      "learning_rate": 1.7159364830218312e-05,
      "loss": 0.7292,
      "step": 1801
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.869625826495214,
      "learning_rate": 1.715598960744121e-05,
      "loss": 0.6942,
      "step": 1802
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.821124573937953,
      "learning_rate": 1.7152612713024226e-05,
      "loss": 0.7855,
      "step": 1803
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.3065870858724664,
      "learning_rate": 1.71492341477562e-05,
      "loss": 0.8077,
      "step": 1804
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0900615697554885,
      "learning_rate": 1.714585391242636e-05,
      "loss": 0.7331,
      "step": 1805
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.448318038106375,
      "learning_rate": 1.714247200782434e-05,
      "loss": 0.7784,
      "step": 1806
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.5671740903616405,
      "learning_rate": 1.7139088434740142e-05,
      "loss": 0.744,
      "step": 1807
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7621821310797845,
      "learning_rate": 1.7135703193964176e-05,
      "loss": 0.807,
      "step": 1808
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.2265728313951016,
      "learning_rate": 1.7132316286287235e-05,
      "loss": 0.797,
      "step": 1809
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.1069923558529218,
      "learning_rate": 1.71289277125005e-05,
      "loss": 0.7029,
      "step": 1810
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.167442786487535,
      "learning_rate": 1.712553747339554e-05,
      "loss": 0.8176,
      "step": 1811
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.79242916372033,
      "learning_rate": 1.712214556976431e-05,
      "loss": 0.8976,
      "step": 1812
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.48909909823863,
      "learning_rate": 1.711875200239917e-05,
      "loss": 0.7577,
      "step": 1813
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9927725165653987,
      "learning_rate": 1.7115356772092858e-05,
      "loss": 0.7961,
      "step": 1814
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.803263966476778,
      "learning_rate": 1.711195987963849e-05,
      "loss": 0.7454,
      "step": 1815
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.2369122574230884,
      "learning_rate": 1.7108561325829584e-05,
      "loss": 0.7827,
      "step": 1816
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.710277821055594,
      "learning_rate": 1.7105161111460046e-05,
      "loss": 0.8119,
      "step": 1817
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9937898569900714,
      "learning_rate": 1.7101759237324165e-05,
      "loss": 0.7592,
      "step": 1818
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9306693901050662,
      "learning_rate": 1.7098355704216622e-05,
      "loss": 0.6855,
      "step": 1819
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0491798559288545,
      "learning_rate": 1.7094950512932475e-05,
      "loss": 0.7835,
      "step": 1820
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.357901689810973,
      "learning_rate": 1.7091543664267183e-05,
      "loss": 0.8497,
      "step": 1821
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.5209680523116407,
      "learning_rate": 1.7088135159016584e-05,
      "loss": 0.7917,
      "step": 1822
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.5092840884790752,
      "learning_rate": 1.7084724997976903e-05,
      "loss": 0.7867,
      "step": 1823
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.2758798434068113,
      "learning_rate": 1.708131318194476e-05,
      "loss": 0.7073,
      "step": 1824
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.392165307649404,
      "learning_rate": 1.7077899711717152e-05,
      "loss": 0.7701,
      "step": 1825
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.590641874875877,
      "learning_rate": 1.7074484588091465e-05,
      "loss": 0.787,
      "step": 1826
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.1669303333416132,
      "learning_rate": 1.7071067811865477e-05,
      "loss": 0.7663,
      "step": 1827
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.5347330274060633,
      "learning_rate": 1.706764938383734e-05,
      "loss": 0.8438,
      "step": 1828
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0982318662251225,
      "learning_rate": 1.7064229304805607e-05,
      "loss": 0.7171,
      "step": 1829
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.7105043033424607,
      "learning_rate": 1.70608075755692e-05,
      "loss": 0.7262,
      "step": 1830
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4608130227952631,
      "learning_rate": 1.705738419692744e-05,
      "loss": 0.7713,
      "step": 1831
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.7729065845267327,
      "learning_rate": 1.7053959169680033e-05,
      "loss": 0.8343,
      "step": 1832
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.1970084292543275,
      "learning_rate": 1.7050532494627058e-05,
      "loss": 0.7482,
      "step": 1833
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.3681792734559433,
      "learning_rate": 1.704710417256899e-05,
      "loss": 0.8247,
      "step": 1834
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.6156317796923916,
      "learning_rate": 1.7043674204306688e-05,
      "loss": 0.8125,
      "step": 1835
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0812814285266024,
      "learning_rate": 1.7040242590641385e-05,
      "loss": 0.7199,
      "step": 1836
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.290308148977492,
      "learning_rate": 1.7036809332374713e-05,
      "loss": 0.8902,
      "step": 1837
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8054329435961958,
      "learning_rate": 1.7033374430308683e-05,
      "loss": 0.7839,
      "step": 1838
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.1344732216078692,
      "learning_rate": 1.7029937885245682e-05,
      "loss": 0.7779,
      "step": 1839
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0248506859382265,
      "learning_rate": 1.7026499697988496e-05,
      "loss": 0.7122,
      "step": 1840
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.295099632655968,
      "learning_rate": 1.7023059869340276e-05,
      "loss": 0.8127,
      "step": 1841
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0180514399448772,
      "learning_rate": 1.7019618400104572e-05,
      "loss": 0.7131,
      "step": 1842
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.102432761517965,
      "learning_rate": 1.7016175291085308e-05,
      "loss": 0.7945,
      "step": 1843
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.8755030930113445,
      "learning_rate": 1.7012730543086798e-05,
      "loss": 0.8885,
      "step": 1844
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.9997294353590036,
      "learning_rate": 1.7009284156913737e-05,
      "loss": 0.7022,
      "step": 1845
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.218161083743062,
      "learning_rate": 1.70058361333712e-05,
      "loss": 0.7846,
      "step": 1846
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1300388786510016,
      "learning_rate": 1.700238647326464e-05,
      "loss": 0.7014,
      "step": 1847
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.264967883603883,
      "learning_rate": 1.6998935177399904e-05,
      "loss": 0.7464,
      "step": 1848
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.17926046273021,
      "learning_rate": 1.6995482246583215e-05,
      "loss": 0.7315,
      "step": 1849
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.7998659009215765,
      "learning_rate": 1.699202768162117e-05,
      "loss": 0.829,
      "step": 1850
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.938412886538156,
      "learning_rate": 1.6988571483320767e-05,
      "loss": 0.7597,
      "step": 1851
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.2689570382141917,
      "learning_rate": 1.6985113652489374e-05,
      "loss": 0.8002,
      "step": 1852
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.9799121957702266,
      "learning_rate": 1.698165418993473e-05,
      "loss": 0.6391,
      "step": 1853
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.108617674211724,
      "learning_rate": 1.697819309646497e-05,
      "loss": 0.7542,
      "step": 1854
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.685534914149892,
      "learning_rate": 1.697473037288861e-05,
      "loss": 0.7107,
      "step": 1855
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.5672872803623616,
      "learning_rate": 1.697126602001454e-05,
      "loss": 0.9171,
      "step": 1856
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8822104189187032,
      "learning_rate": 1.6967800038652035e-05,
      "loss": 0.7958,
      "step": 1857
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.613457543690483,
      "learning_rate": 1.6964332429610747e-05,
      "loss": 0.8957,
      "step": 1858
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.4660901146013376,
      "learning_rate": 1.696086319370071e-05,
      "loss": 0.808,
      "step": 1859
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.857636505645462,
      "learning_rate": 1.695739233173233e-05,
      "loss": 0.8136,
      "step": 1860
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1350918106017405,
      "learning_rate": 1.6953919844516415e-05,
      "loss": 0.8066,
      "step": 1861
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.976657573835363,
      "learning_rate": 1.695044573286413e-05,
      "loss": 0.7584,
      "step": 1862
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1413010734722544,
      "learning_rate": 1.694696999758703e-05,
      "loss": 0.775,
      "step": 1863
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0413421707709425,
      "learning_rate": 1.6943492639497044e-05,
      "loss": 0.6893,
      "step": 1864
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0534655540944406,
      "learning_rate": 1.6940013659406492e-05,
      "loss": 0.7283,
      "step": 1865
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.8939513545254663,
      "learning_rate": 1.693653305812805e-05,
      "loss": 0.699,
      "step": 1866
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8720191593263737,
      "learning_rate": 1.69330508364748e-05,
      "loss": 0.7547,
      "step": 1867
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.5683099448543154,
      "learning_rate": 1.6929566995260184e-05,
      "loss": 0.7311,
      "step": 1868
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.755936967941961,
      "learning_rate": 1.692608153529802e-05,
      "loss": 0.82,
      "step": 1869
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.054837350055334,
      "learning_rate": 1.6922594457402528e-05,
      "loss": 0.8307,
      "step": 1870
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.127463578812507,
      "learning_rate": 1.691910576238828e-05,
      "loss": 0.725,
      "step": 1871
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1055888008911174,
      "learning_rate": 1.6915615451070234e-05,
      "loss": 0.7813,
      "step": 1872
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.3261599285082264,
      "learning_rate": 1.691212352426373e-05,
      "loss": 0.7962,
      "step": 1873
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.260711096041331,
      "learning_rate": 1.690862998278448e-05,
      "loss": 0.7378,
      "step": 1874
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.3826993013205446,
      "learning_rate": 1.690513482744858e-05,
      "loss": 0.7757,
      "step": 1875
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.6157667679627137,
      "learning_rate": 1.69016380590725e-05,
      "loss": 0.756,
      "step": 1876
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.7427202043870613,
      "learning_rate": 1.689813967847308e-05,
      "loss": 0.7906,
      "step": 1877
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.381849143780603,
      "learning_rate": 1.689463968646754e-05,
      "loss": 0.8071,
      "step": 1878
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.4232617068717084,
      "learning_rate": 1.6891138083873486e-05,
      "loss": 0.7633,
      "step": 1879
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0883298586354297,
      "learning_rate": 1.688763487150889e-05,
      "loss": 0.7331,
      "step": 1880
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0623362721844236,
      "learning_rate": 1.6884130050192098e-05,
      "loss": 0.7915,
      "step": 1881
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.9484866774805294,
      "learning_rate": 1.6880623620741843e-05,
      "loss": 0.7958,
      "step": 1882
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.442973603994836,
      "learning_rate": 1.6877115583977225e-05,
      "loss": 0.8021,
      "step": 1883
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.5029517084431867,
      "learning_rate": 1.687360594071772e-05,
      "loss": 0.7766,
      "step": 1884
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.863766600733971,
      "learning_rate": 1.6870094691783182e-05,
      "loss": 0.7212,
      "step": 1885
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1712627398429287,
      "learning_rate": 1.6866581837993842e-05,
      "loss": 0.7961,
      "step": 1886
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0664303863137388,
      "learning_rate": 1.68630673801703e-05,
      "loss": 0.7276,
      "step": 1887
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.2116040555460565,
      "learning_rate": 1.6859551319133534e-05,
      "loss": 0.6987,
      "step": 1888
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.2613326590077674,
      "learning_rate": 1.6856033655704894e-05,
      "loss": 0.7764,
      "step": 1889
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.765398618735562,
      "learning_rate": 1.685251439070611e-05,
      "loss": 0.762,
      "step": 1890
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.461080028348038,
      "learning_rate": 1.6848993524959286e-05,
      "loss": 0.8652,
      "step": 1891
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.087919627481111,
      "learning_rate": 1.684547105928689e-05,
      "loss": 0.806,
      "step": 1892
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.60430139901406,
      "learning_rate": 1.684194699451177e-05,
      "loss": 0.7935,
      "step": 1893
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0759380645660364,
      "learning_rate": 1.6838421331457154e-05,
      "loss": 0.7944,
      "step": 1894
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1429605176951783,
      "learning_rate": 1.683489407094663e-05,
      "loss": 0.8028,
      "step": 1895
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8231256336092032,
      "learning_rate": 1.683136521380417e-05,
      "loss": 0.761,
      "step": 1896
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.5712172851108477,
      "learning_rate": 1.682783476085412e-05,
      "loss": 0.9104,
      "step": 1897
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.7731992592523693,
      "learning_rate": 1.6824302712921187e-05,
      "loss": 0.732,
      "step": 1898
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.329435317482562,
      "learning_rate": 1.682076907083046e-05,
      "loss": 0.7967,
      "step": 1899
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.7550563781788655,
      "learning_rate": 1.68172338354074e-05,
      "loss": 0.7572,
      "step": 1900
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.996110921177268,
      "learning_rate": 1.6813697007477837e-05,
      "loss": 0.7459,
      "step": 1901
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.2132809759957843,
      "learning_rate": 1.6810158587867973e-05,
      "loss": 0.7868,
      "step": 1902
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.3483952472170717,
      "learning_rate": 1.6806618577404385e-05,
      "loss": 0.8399,
      "step": 1903
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.0784533821981,
      "learning_rate": 1.6803076976914018e-05,
      "loss": 0.8002,
      "step": 1904
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.2481038502659834,
      "learning_rate": 1.6799533787224192e-05,
      "loss": 0.8495,
      "step": 1905
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.194418972368447,
      "learning_rate": 1.67959890091626e-05,
      "loss": 0.7982,
      "step": 1906
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1370673187083096,
      "learning_rate": 1.679244264355729e-05,
      "loss": 0.8071,
      "step": 1907
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.316784192745509,
      "learning_rate": 1.678889469123671e-05,
      "loss": 0.7465,
      "step": 1908
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4180485764876576,
      "learning_rate": 1.6785345153029648e-05,
      "loss": 0.6879,
      "step": 1909
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.2322279094425443,
      "learning_rate": 1.678179402976529e-05,
      "loss": 0.7686,
      "step": 1910
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4815305954796028,
      "learning_rate": 1.6778241322273163e-05,
      "loss": 0.773,
      "step": 1911
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.589368169017139,
      "learning_rate": 1.677468703138319e-05,
      "loss": 0.7243,
      "step": 1912
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.955361288760495,
      "learning_rate": 1.677113115792565e-05,
      "loss": 0.7834,
      "step": 1913
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.301949167954777,
      "learning_rate": 1.6767573702731203e-05,
      "loss": 0.7448,
      "step": 1914
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9835212867387266,
      "learning_rate": 1.676401466663086e-05,
      "loss": 0.7808,
      "step": 1915
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.2296170967790707,
      "learning_rate": 1.676045405045602e-05,
      "loss": 0.7604,
      "step": 1916
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.955936101102492,
      "learning_rate": 1.6756891855038436e-05,
      "loss": 0.8193,
      "step": 1917
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.052361090241555,
      "learning_rate": 1.6753328081210244e-05,
      "loss": 0.7793,
      "step": 1918
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.232307338690005,
      "learning_rate": 1.6749762729803943e-05,
      "loss": 0.7881,
      "step": 1919
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.8641782366268975,
      "learning_rate": 1.6746195801652393e-05,
      "loss": 0.7753,
      "step": 1920
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.2692300373456598,
      "learning_rate": 1.674262729758883e-05,
      "loss": 0.7994,
      "step": 1921
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9932420111291143,
      "learning_rate": 1.673905721844686e-05,
      "loss": 0.7741,
      "step": 1922
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.868009969398167,
      "learning_rate": 1.673548556506045e-05,
      "loss": 0.7966,
      "step": 1923
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.91892949697971,
      "learning_rate": 1.6731912338263943e-05,
      "loss": 0.7678,
      "step": 1924
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.1023253839346308,
      "learning_rate": 1.6728337538892043e-05,
      "loss": 0.7736,
      "step": 1925
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.0317857228209086,
      "learning_rate": 1.6724761167779825e-05,
      "loss": 0.8244,
      "step": 1926
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.81209997747093,
      "learning_rate": 1.6721183225762726e-05,
      "loss": 0.7284,
      "step": 1927
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.1733541527016005,
      "learning_rate": 1.6717603713676557e-05,
      "loss": 0.774,
      "step": 1928
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.2709753737874077,
      "learning_rate": 1.6714022632357495e-05,
      "loss": 0.7653,
      "step": 1929
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4842919510863086,
      "learning_rate": 1.671043998264207e-05,
      "loss": 0.8761,
      "step": 1930
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.2365084673344975,
      "learning_rate": 1.6706855765367202e-05,
      "loss": 0.8127,
      "step": 1931
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.5906112245032453,
      "learning_rate": 1.670326998137016e-05,
      "loss": 0.9559,
      "step": 1932
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.0064880733453885,
      "learning_rate": 1.6699682631488578e-05,
      "loss": 0.7504,
      "step": 1933
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9866469572662442,
      "learning_rate": 1.6696093716560466e-05,
      "loss": 0.7928,
      "step": 1934
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9960898271646776,
      "learning_rate": 1.6692503237424197e-05,
      "loss": 0.8473,
      "step": 1935
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.3403312397186813,
      "learning_rate": 1.6688911194918506e-05,
      "loss": 0.7119,
      "step": 1936
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.920575855176109,
      "learning_rate": 1.668531758988249e-05,
      "loss": 0.7993,
      "step": 1937
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.5896051820531016,
      "learning_rate": 1.668172242315562e-05,
      "loss": 0.8384,
      "step": 1938
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.704788959594465,
      "learning_rate": 1.667812569557773e-05,
      "loss": 0.7623,
      "step": 1939
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.130046750093796,
      "learning_rate": 1.667452740798901e-05,
      "loss": 0.7807,
      "step": 1940
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.8081190850202506,
      "learning_rate": 1.6670927561230018e-05,
      "loss": 0.7101,
      "step": 1941
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7826782282853508,
      "learning_rate": 1.666732615614169e-05,
      "loss": 0.8111,
      "step": 1942
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.6861381720792274,
      "learning_rate": 1.6663723193565308e-05,
      "loss": 0.7252,
      "step": 1943
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4952384539691503,
      "learning_rate": 1.666011867434252e-05,
      "loss": 0.8409,
      "step": 1944
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.364390469373592,
      "learning_rate": 1.6656512599315348e-05,
      "loss": 0.7024,
      "step": 1945
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.65155779495666,
      "learning_rate": 1.6652904969326167e-05,
      "loss": 0.7466,
      "step": 1946
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.5415920798823795,
      "learning_rate": 1.6649295785217722e-05,
      "loss": 0.7758,
      "step": 1947
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.008297552492302,
      "learning_rate": 1.6645685047833124e-05,
      "loss": 0.6726,
      "step": 1948
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.3920848201280855,
      "learning_rate": 1.6642072758015834e-05,
      "loss": 0.7761,
      "step": 1949
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.23721280946514,
      "learning_rate": 1.6638458916609685e-05,
      "loss": 0.852,
      "step": 1950
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.009908504434425,
      "learning_rate": 1.6634843524458874e-05,
      "loss": 0.8211,
      "step": 1951
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.2850342399409884,
      "learning_rate": 1.6631226582407954e-05,
      "loss": 0.8058,
      "step": 1952
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5535548685109761,
      "learning_rate": 1.6627608091301842e-05,
      "loss": 0.7483,
      "step": 1953
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.0942560700799384,
      "learning_rate": 1.6623988051985823e-05,
      "loss": 0.6946,
      "step": 1954
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9331603196803333,
      "learning_rate": 1.6620366465305533e-05,
      "loss": 0.7879,
      "step": 1955
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.9526931371910363,
      "learning_rate": 1.6616743332106976e-05,
      "loss": 0.7873,
      "step": 1956
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.30262782670736,
      "learning_rate": 1.661311865323652e-05,
      "loss": 0.7683,
      "step": 1957
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4361020290245845,
      "learning_rate": 1.660949242954089e-05,
      "loss": 0.7713,
      "step": 1958
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4244297105098407,
      "learning_rate": 1.6605864661867165e-05,
      "loss": 0.7548,
      "step": 1959
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.94842150230063,
      "learning_rate": 1.6602235351062797e-05,
      "loss": 0.8481,
      "step": 1960
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.058689360441778,
      "learning_rate": 1.6598604497975598e-05,
      "loss": 0.7461,
      "step": 1961
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.727753649991185,
      "learning_rate": 1.6594972103453727e-05,
      "loss": 0.7898,
      "step": 1962
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4538940187404576,
      "learning_rate": 1.6591338168345713e-05,
      "loss": 0.7731,
      "step": 1963
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.36211442855444,
      "learning_rate": 1.6587702693500452e-05,
      "loss": 0.8487,
      "step": 1964
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.856505294664191,
      "learning_rate": 1.6584065679767186e-05,
      "loss": 0.7315,
      "step": 1965
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.6253505721578874,
      "learning_rate": 1.6580427127995516e-05,
      "loss": 0.844,
      "step": 1966
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7616137785867956,
      "learning_rate": 1.6576787039035417e-05,
      "loss": 0.769,
      "step": 1967
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.6068579548339446,
      "learning_rate": 1.657314541373721e-05,
      "loss": 0.7488,
      "step": 1968
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4150660640129678,
      "learning_rate": 1.656950225295158e-05,
      "loss": 0.797,
      "step": 1969
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.6791282777610075,
      "learning_rate": 1.6565857557529567e-05,
      "loss": 0.8032,
      "step": 1970
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.687951486433695,
      "learning_rate": 1.6562211328322576e-05,
      "loss": 0.7805,
      "step": 1971
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.0160712306068183,
      "learning_rate": 1.6558563566182365e-05,
      "loss": 0.8289,
      "step": 1972
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.5707583681323882,
      "learning_rate": 1.6554914271961047e-05,
      "loss": 0.7719,
      "step": 1973
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.664700119857237,
      "learning_rate": 1.655126344651111e-05,
      "loss": 0.7707,
      "step": 1974
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9747312703750781,
      "learning_rate": 1.6547611090685378e-05,
      "loss": 0.8133,
      "step": 1975
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.376509710327702,
      "learning_rate": 1.6543957205337034e-05,
      "loss": 0.8529,
      "step": 1976
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.740845360947604,
      "learning_rate": 1.6540301791319647e-05,
      "loss": 0.7184,
      "step": 1977
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0911050602413566,
      "learning_rate": 1.6536644849487104e-05,
      "loss": 0.7999,
      "step": 1978
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.377195181127265,
      "learning_rate": 1.6532986380693673e-05,
      "loss": 0.7718,
      "step": 1979
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.9970499650874585,
      "learning_rate": 1.6529326385793972e-05,
      "loss": 0.8097,
      "step": 1980
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.4100468271555524,
      "learning_rate": 1.6525664865642978e-05,
      "loss": 0.7911,
      "step": 1981
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2827311837666793,
      "learning_rate": 1.652200182109602e-05,
      "loss": 0.7512,
      "step": 1982
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.224342868684555,
      "learning_rate": 1.651833725300879e-05,
      "loss": 0.815,
      "step": 1983
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.116575189478669,
      "learning_rate": 1.6514671162237327e-05,
      "loss": 0.827,
      "step": 1984
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.370777711119075,
      "learning_rate": 1.651100354963803e-05,
      "loss": 0.7991,
      "step": 1985
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0635343103433805,
      "learning_rate": 1.6507334416067656e-05,
      "loss": 0.7156,
      "step": 1986
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.3785917065614135,
      "learning_rate": 1.6503663762383312e-05,
      "loss": 0.7547,
      "step": 1987
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.1520852255268736,
      "learning_rate": 1.649999158944247e-05,
      "loss": 0.739,
      "step": 1988
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.3219751527918837,
      "learning_rate": 1.6496317898102942e-05,
      "loss": 0.7609,
      "step": 1989
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2592422671701757,
      "learning_rate": 1.649264268922291e-05,
      "loss": 0.8038,
      "step": 1990
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.212981611892979,
      "learning_rate": 1.6488965963660892e-05,
      "loss": 0.8057,
      "step": 1991
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.158787942421824,
      "learning_rate": 1.6485287722275783e-05,
      "loss": 0.7753,
      "step": 1992
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.079282520536549,
      "learning_rate": 1.6481607965926812e-05,
      "loss": 0.7782,
      "step": 1993
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.339989640351834,
      "learning_rate": 1.647792669547358e-05,
      "loss": 0.685,
      "step": 1994
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.041663849289787,
      "learning_rate": 1.6474243911776026e-05,
      "loss": 0.7527,
      "step": 1995
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0259016648318213,
      "learning_rate": 1.6470559615694445e-05,
      "loss": 0.7365,
      "step": 1996
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.510735037430624,
      "learning_rate": 1.6466873808089496e-05,
      "loss": 0.7805,
      "step": 1997
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.1128932320312317,
      "learning_rate": 1.646318648982218e-05,
      "loss": 0.7386,
      "step": 1998
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.3326196919057467,
      "learning_rate": 1.6459497661753857e-05,
      "loss": 0.8304,
      "step": 1999
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0020469526437217,
      "learning_rate": 1.6455807324746237e-05,
      "loss": 0.7873,
      "step": 2000
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.5088699755095023,
      "learning_rate": 1.645211547966138e-05,
      "loss": 0.8077,
      "step": 2001
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.514304398120565,
      "learning_rate": 1.6448422127361707e-05,
      "loss": 0.8336,
      "step": 2002
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0430158109227685,
      "learning_rate": 1.6444727268709984e-05,
      "loss": 0.8502,
      "step": 2003
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.5825349402602815,
      "learning_rate": 1.6441030904569327e-05,
      "loss": 0.7882,
      "step": 2004
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.411171848331864,
      "learning_rate": 1.6437333035803208e-05,
      "loss": 0.8083,
      "step": 2005
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.159649351693275,
      "learning_rate": 1.6433633663275453e-05,
      "loss": 0.8193,
      "step": 2006
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.524819664747626,
      "learning_rate": 1.642993278785023e-05,
      "loss": 0.7059,
      "step": 2007
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.322017528518287,
      "learning_rate": 1.642623041039207e-05,
      "loss": 0.7295,
      "step": 2008
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.1334521390869035,
      "learning_rate": 1.6422526531765846e-05,
      "loss": 0.7341,
      "step": 2009
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.156413200002338,
      "learning_rate": 1.6418821152836782e-05,
      "loss": 0.8787,
      "step": 2010
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.3783893838020185,
      "learning_rate": 1.641511427447046e-05,
      "loss": 0.7957,
      "step": 2011
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.993710213852064,
      "learning_rate": 1.64114058975328e-05,
      "loss": 0.783,
      "step": 2012
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.2079821194361706,
      "learning_rate": 1.640769602289009e-05,
      "loss": 0.8256,
      "step": 2013
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.514468920035006,
      "learning_rate": 1.6403984651408947e-05,
      "loss": 0.829,
      "step": 2014
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.5013730668145766,
      "learning_rate": 1.6400271783956352e-05,
      "loss": 0.8536,
      "step": 2015
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.7554141421032892,
      "learning_rate": 1.6396557421399634e-05,
      "loss": 0.7621,
      "step": 2016
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.7554058617163042,
      "learning_rate": 1.639284156460646e-05,
      "loss": 0.7626,
      "step": 2017
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.680654682219487,
      "learning_rate": 1.638912421444486e-05,
      "loss": 0.8092,
      "step": 2018
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.155495994528783,
      "learning_rate": 1.638540537178321e-05,
      "loss": 0.717,
      "step": 2019
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2456098827242212,
      "learning_rate": 1.6381685037490225e-05,
      "loss": 0.8043,
      "step": 2020
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.497482288558974,
      "learning_rate": 1.6377963212434982e-05,
      "loss": 0.7245,
      "step": 2021
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.8372222405168486,
      "learning_rate": 1.63742398974869e-05,
      "loss": 0.7245,
      "step": 2022
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2871933314269906,
      "learning_rate": 1.637051509351574e-05,
      "loss": 0.8385,
      "step": 2023
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.992112363482192,
      "learning_rate": 1.6366788801391618e-05,
      "loss": 0.7058,
      "step": 2024
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2133969751795934,
      "learning_rate": 1.6363061021984997e-05,
      "loss": 0.7336,
      "step": 2025
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.535653457329488,
      "learning_rate": 1.6359331756166694e-05,
      "loss": 0.7255,
      "step": 2026
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.735331221461871,
      "learning_rate": 1.6355601004807856e-05,
      "loss": 0.7727,
      "step": 2027
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.434717977607124,
      "learning_rate": 1.635186876877999e-05,
      "loss": 0.775,
      "step": 2028
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.113599527653717,
      "learning_rate": 1.6348135048954943e-05,
      "loss": 0.7388,
      "step": 2029
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0959226165138047,
      "learning_rate": 1.6344399846204918e-05,
      "loss": 0.6716,
      "step": 2030
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.8667777936289176,
      "learning_rate": 1.634066316140246e-05,
      "loss": 0.7557,
      "step": 2031
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.7388199106726603,
      "learning_rate": 1.6336924995420453e-05,
      "loss": 0.7266,
      "step": 2032
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.365833131672194,
      "learning_rate": 1.6333185349132138e-05,
      "loss": 0.7671,
      "step": 2033
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.6749676774494335,
      "learning_rate": 1.632944422341109e-05,
      "loss": 0.8461,
      "step": 2034
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.182122011748096,
      "learning_rate": 1.6325701619131246e-05,
      "loss": 0.8125,
      "step": 2035
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.9527814465605402,
      "learning_rate": 1.632195753716687e-05,
      "loss": 0.7024,
      "step": 2036
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.306180936852913,
      "learning_rate": 1.6318211978392588e-05,
      "loss": 0.9018,
      "step": 2037
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.9263455443540576,
      "learning_rate": 1.6314464943683353e-05,
      "loss": 0.7733,
      "step": 2038
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.2482800335964113,
      "learning_rate": 1.631071643391448e-05,
      "loss": 0.8046,
      "step": 2039
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.065009678808339,
      "learning_rate": 1.6306966449961623e-05,
      "loss": 0.7911,
      "step": 2040
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.9334353702731928,
      "learning_rate": 1.6303214992700773e-05,
      "loss": 0.7631,
      "step": 2041
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.3868066177934057,
      "learning_rate": 1.6299462063008272e-05,
      "loss": 0.7086,
      "step": 2042
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.8111932118419056,
      "learning_rate": 1.6295707661760804e-05,
      "loss": 0.7359,
      "step": 2043
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.5891633138244154,
      "learning_rate": 1.62919517898354e-05,
      "loss": 0.8021,
      "step": 2044
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6240646867096225,
      "learning_rate": 1.6288194448109433e-05,
      "loss": 0.7809,
      "step": 2045
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.3175405054999345,
      "learning_rate": 1.6284435637460613e-05,
      "loss": 0.7413,
      "step": 2046
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9650205864736068,
      "learning_rate": 1.6280675358767005e-05,
      "loss": 0.7814,
      "step": 2047
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.0081000888355236,
      "learning_rate": 1.6276913612907005e-05,
      "loss": 0.7518,
      "step": 2048
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.2583367996929287,
      "learning_rate": 1.6273150400759363e-05,
      "loss": 0.7994,
      "step": 2049
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.03864211845947,
      "learning_rate": 1.626938572320316e-05,
      "loss": 0.7855,
      "step": 2050
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.085777461513963,
      "learning_rate": 1.6265619581117827e-05,
      "loss": 0.7226,
      "step": 2051
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.0238617835108217,
      "learning_rate": 1.626185197538314e-05,
      "loss": 0.6714,
      "step": 2052
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.7918588529019526,
      "learning_rate": 1.6258082906879203e-05,
      "loss": 0.7656,
      "step": 2053
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.225282845758872,
      "learning_rate": 1.6254312376486478e-05,
      "loss": 0.7808,
      "step": 2054
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.8888013504813674,
      "learning_rate": 1.6250540385085754e-05,
      "loss": 0.7187,
      "step": 2055
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.5462945852285994,
      "learning_rate": 1.624676693355818e-05,
      "loss": 0.7698,
      "step": 2056
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.000491594798354,
      "learning_rate": 1.6242992022785225e-05,
      "loss": 0.7643,
      "step": 2057
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.7892713125246957,
      "learning_rate": 1.623921565364871e-05,
      "loss": 0.7437,
      "step": 2058
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.7015574969437477,
      "learning_rate": 1.62354378270308e-05,
      "loss": 0.7678,
      "step": 2059
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7926926662198008,
      "learning_rate": 1.6231658543813994e-05,
      "loss": 0.7539,
      "step": 2060
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.211517006330289,
      "learning_rate": 1.6227877804881126e-05,
      "loss": 0.723,
      "step": 2061
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.5446913804300717,
      "learning_rate": 1.6224095611115385e-05,
      "loss": 0.7169,
      "step": 2062
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4947189185675693,
      "learning_rate": 1.622031196340029e-05,
      "loss": 0.77,
      "step": 2063
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.3915265119326237,
      "learning_rate": 1.62165268626197e-05,
      "loss": 0.8478,
      "step": 2064
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.171579075222748,
      "learning_rate": 1.6212740309657814e-05,
      "loss": 0.7898,
      "step": 2065
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.022094176756012,
      "learning_rate": 1.6208952305399175e-05,
      "loss": 0.8047,
      "step": 2066
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.100983935244474,
      "learning_rate": 1.620516285072866e-05,
      "loss": 0.8776,
      "step": 2067
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.120680713372208,
      "learning_rate": 1.6201371946531483e-05,
      "loss": 0.7538,
      "step": 2068
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.5374514521922142,
      "learning_rate": 1.6197579593693197e-05,
      "loss": 0.7897,
      "step": 2069
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.2653316520735225,
      "learning_rate": 1.6193785793099706e-05,
      "loss": 0.8179,
      "step": 2070
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9126371161595086,
      "learning_rate": 1.6189990545637234e-05,
      "loss": 0.7535,
      "step": 2071
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.3522276429303846,
      "learning_rate": 1.6186193852192356e-05,
      "loss": 0.7499,
      "step": 2072
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.8905241252521685,
      "learning_rate": 1.618239571365198e-05,
      "loss": 0.7248,
      "step": 2073
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4391141773649756,
      "learning_rate": 1.6178596130903345e-05,
      "loss": 0.7617,
      "step": 2074
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.299968242601328,
      "learning_rate": 1.6174795104834042e-05,
      "loss": 0.744,
      "step": 2075
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.64800798809185,
      "learning_rate": 1.6170992636331983e-05,
      "loss": 0.7908,
      "step": 2076
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.0072696491966195,
      "learning_rate": 1.6167188726285433e-05,
      "loss": 0.7254,
      "step": 2077
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.2489767002105525,
      "learning_rate": 1.6163383375582983e-05,
      "loss": 0.6897,
      "step": 2078
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4293000188701175,
      "learning_rate": 1.6159576585113556e-05,
      "loss": 0.7728,
      "step": 2079
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.699384816675268,
      "learning_rate": 1.615576835576643e-05,
      "loss": 0.8233,
      "step": 2080
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.147351891827703,
      "learning_rate": 1.6151958688431204e-05,
      "loss": 0.7491,
      "step": 2081
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.034763586933656,
      "learning_rate": 1.6148147583997813e-05,
      "loss": 0.8903,
      "step": 2082
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.159139382502547,
      "learning_rate": 1.6144335043356533e-05,
      "loss": 0.777,
      "step": 2083
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.1300340397635344,
      "learning_rate": 1.6140521067397978e-05,
      "loss": 0.8269,
      "step": 2084
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4003061896242617,
      "learning_rate": 1.613670565701309e-05,
      "loss": 0.7924,
      "step": 2085
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9686885569297707,
      "learning_rate": 1.6132888813093147e-05,
      "loss": 0.7405,
      "step": 2086
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.899051350225279,
      "learning_rate": 1.6129070536529767e-05,
      "loss": 0.7155,
      "step": 2087
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.206881731399442,
      "learning_rate": 1.6125250828214897e-05,
      "loss": 0.8057,
      "step": 2088
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4458790496694784,
      "learning_rate": 1.6121429689040825e-05,
      "loss": 0.8344,
      "step": 2089
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.201019689556075,
      "learning_rate": 1.6117607119900172e-05,
      "loss": 0.757,
      "step": 2090
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.415295834488968,
      "learning_rate": 1.6113783121685883e-05,
      "loss": 0.7176,
      "step": 2091
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.0781396841915236,
      "learning_rate": 1.6109957695291246e-05,
      "loss": 0.7751,
      "step": 2092
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4642929645675946,
      "learning_rate": 1.6106130841609883e-05,
      "loss": 0.8529,
      "step": 2093
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.530719191188569,
      "learning_rate": 1.6102302561535748e-05,
      "loss": 0.7879,
      "step": 2094
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.072721119902243,
      "learning_rate": 1.6098472855963126e-05,
      "loss": 0.8283,
      "step": 2095
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.516665739677662,
      "learning_rate": 1.609464172578664e-05,
      "loss": 0.8096,
      "step": 2096
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.1107566054245512,
      "learning_rate": 1.6090809171901237e-05,
      "loss": 0.6672,
      "step": 2097
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.477463746599363,
      "learning_rate": 1.6086975195202207e-05,
      "loss": 0.7887,
      "step": 2098
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4102703712777047,
      "learning_rate": 1.608313979658516e-05,
      "loss": 0.7133,
      "step": 2099
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.827302200516657,
      "learning_rate": 1.6079302976946055e-05,
      "loss": 0.714,
      "step": 2100
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9569706535887512,
      "learning_rate": 1.607546473718117e-05,
      "loss": 0.6698,
      "step": 2101
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9499662576969352,
      "learning_rate": 1.6071625078187113e-05,
      "loss": 0.6902,
      "step": 2102
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.3934112980310434,
      "learning_rate": 1.6067784000860838e-05,
      "loss": 0.7541,
      "step": 2103
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9309820684212518,
      "learning_rate": 1.606394150609961e-05,
      "loss": 0.7133,
      "step": 2104
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4952399957956466,
      "learning_rate": 1.6060097594801044e-05,
      "loss": 0.7507,
      "step": 2105
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.8461964071963455,
      "learning_rate": 1.605625226786308e-05,
      "loss": 0.7877,
      "step": 2106
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.5843295887533384,
      "learning_rate": 1.605240552618398e-05,
      "loss": 0.7953,
      "step": 2107
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9733891203629776,
      "learning_rate": 1.6048557370662346e-05,
      "loss": 0.8059,
      "step": 2108
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.230373499471392,
      "learning_rate": 1.6044707802197106e-05,
      "loss": 0.8095,
      "step": 2109
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.6290627654631895,
      "learning_rate": 1.6040856821687523e-05,
      "loss": 0.7946,
      "step": 2110
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.800344235667282,
      "learning_rate": 1.6037004430033186e-05,
      "loss": 0.8252,
      "step": 2111
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.260920455797716,
      "learning_rate": 1.603315062813401e-05,
      "loss": 0.6836,
      "step": 2112
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.325132523330981,
      "learning_rate": 1.602929541689025e-05,
      "loss": 0.737,
      "step": 2113
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.285707650841011,
      "learning_rate": 1.6025438797202478e-05,
      "loss": 0.8043,
      "step": 2114
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.037776492463311,
      "learning_rate": 1.6021580769971602e-05,
      "loss": 0.7658,
      "step": 2115
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4757234449437127,
      "learning_rate": 1.601772133609886e-05,
      "loss": 0.7432,
      "step": 2116
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.101171030602807,
      "learning_rate": 1.601386049648581e-05,
      "loss": 0.6436,
      "step": 2117
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.320061211584514,
      "learning_rate": 1.6009998252034354e-05,
      "loss": 0.8252,
      "step": 2118
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.2343238298254384,
      "learning_rate": 1.6006134603646706e-05,
      "loss": 0.7632,
      "step": 2119
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.167779573587933,
      "learning_rate": 1.6002269552225413e-05,
      "loss": 0.8381,
      "step": 2120
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.864410338169067,
      "learning_rate": 1.599840309867336e-05,
      "loss": 0.756,
      "step": 2121
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.227379166515851,
      "learning_rate": 1.5994535243893742e-05,
      "loss": 0.8101,
      "step": 2122
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2092208800373565,
      "learning_rate": 1.5990665988790094e-05,
      "loss": 0.738,
      "step": 2123
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9202415552389687,
      "learning_rate": 1.5986795334266276e-05,
      "loss": 0.6842,
      "step": 2124
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.1493103755310177,
      "learning_rate": 1.598292328122647e-05,
      "loss": 0.724,
      "step": 2125
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9127251567594066,
      "learning_rate": 1.597904983057519e-05,
      "loss": 0.743,
      "step": 2126
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.981811272312657,
      "learning_rate": 1.5975174983217273e-05,
      "loss": 0.8162,
      "step": 2127
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.6818342811272657,
      "learning_rate": 1.5971298740057885e-05,
      "loss": 0.8524,
      "step": 2128
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.178768714752189,
      "learning_rate": 1.596742110200252e-05,
      "loss": 0.8079,
      "step": 2129
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.2438092786727224,
      "learning_rate": 1.596354206995699e-05,
      "loss": 0.7396,
      "step": 2130
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.723490310290046,
      "learning_rate": 1.5959661644827432e-05,
      "loss": 0.7607,
      "step": 2131
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.14517551525179,
      "learning_rate": 1.5955779827520327e-05,
      "loss": 0.8033,
      "step": 2132
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.3834377498484445,
      "learning_rate": 1.595189661894246e-05,
      "loss": 0.7947,
      "step": 2133
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7369889224622848,
      "learning_rate": 1.5948012020000948e-05,
      "loss": 0.7988,
      "step": 2134
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9331096009903332,
      "learning_rate": 1.5944126031603236e-05,
      "loss": 0.7269,
      "step": 2135
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.470373774401835,
      "learning_rate": 1.594023865465709e-05,
      "loss": 0.8274,
      "step": 2136
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7789299846995026,
      "learning_rate": 1.5936349890070602e-05,
      "loss": 0.8031,
      "step": 2137
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.184372492299657,
      "learning_rate": 1.5932459738752194e-05,
      "loss": 0.7763,
      "step": 2138
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.6842565504306406,
      "learning_rate": 1.5928568201610593e-05,
      "loss": 0.7085,
      "step": 2139
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.0877487793496026,
      "learning_rate": 1.5924675279554874e-05,
      "loss": 0.6831,
      "step": 2140
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.5338680222131442,
      "learning_rate": 1.5920780973494418e-05,
      "loss": 0.7363,
      "step": 2141
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.403885530562723,
      "learning_rate": 1.5916885284338937e-05,
      "loss": 0.7258,
      "step": 2142
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.118676375604809,
      "learning_rate": 1.591298821299846e-05,
      "loss": 0.7632,
      "step": 2143
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.164363476167979,
      "learning_rate": 1.5909089760383354e-05,
      "loss": 0.7688,
      "step": 2144
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.970629880874261,
      "learning_rate": 1.590518992740429e-05,
      "loss": 0.7202,
      "step": 2145
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.192386589787818,
      "learning_rate": 1.5901288714972268e-05,
      "loss": 0.8162,
      "step": 2146
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.1315294172980757,
      "learning_rate": 1.5897386123998613e-05,
      "loss": 0.7542,
      "step": 2147
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.1719563189891633,
      "learning_rate": 1.5893482155394978e-05,
      "loss": 0.7833,
      "step": 2148
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3104443747343444,
      "learning_rate": 1.588957681007332e-05,
      "loss": 0.6872,
      "step": 2149
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.2701276246623685,
      "learning_rate": 1.588567008894593e-05,
      "loss": 0.7994,
      "step": 2150
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.0634204831362033,
      "learning_rate": 1.5881761992925425e-05,
      "loss": 0.8393,
      "step": 2151
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.085052570498925,
      "learning_rate": 1.5877852522924733e-05,
      "loss": 0.8112,
      "step": 2152
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.2625609882574245,
      "learning_rate": 1.5873941679857107e-05,
      "loss": 0.7759,
      "step": 2153
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9618931467965433,
      "learning_rate": 1.5870029464636113e-05,
      "loss": 0.6605,
      "step": 2154
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.0634320620983466,
      "learning_rate": 1.586611587817566e-05,
      "loss": 0.7252,
      "step": 2155
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.507385959066086,
      "learning_rate": 1.5862200921389947e-05,
      "loss": 0.8142,
      "step": 2156
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.143083708920345,
      "learning_rate": 1.5858284595193514e-05,
      "loss": 0.8714,
      "step": 2157
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.3286428273759343,
      "learning_rate": 1.585436690050122e-05,
      "loss": 0.7809,
      "step": 2158
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3830458866570923,
      "learning_rate": 1.5850447838228235e-05,
      "loss": 0.7071,
      "step": 2159
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.276621219227121,
      "learning_rate": 1.584652740929005e-05,
      "loss": 0.8643,
      "step": 2160
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.032419354045922,
      "learning_rate": 1.5842605614602482e-05,
      "loss": 0.7761,
      "step": 2161
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.8758277462810682,
      "learning_rate": 1.5838682455081657e-05,
      "loss": 0.7649,
      "step": 2162
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.591820743889602,
      "learning_rate": 1.583475793164403e-05,
      "loss": 0.8611,
      "step": 2163
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.0397059572056517,
      "learning_rate": 1.583083204520637e-05,
      "loss": 0.6889,
      "step": 2164
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.8138897204433377,
      "learning_rate": 1.5826904796685763e-05,
      "loss": 0.7226,
      "step": 2165
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.823916015035105,
      "learning_rate": 1.582297618699961e-05,
      "loss": 0.7141,
      "step": 2166
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.113511608982469,
      "learning_rate": 1.581904621706565e-05,
      "loss": 0.7856,
      "step": 2167
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.0325962817813865,
      "learning_rate": 1.581511488780191e-05,
      "loss": 0.7214,
      "step": 2168
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.4374879894177592,
      "learning_rate": 1.581118220012675e-05,
      "loss": 0.7646,
      "step": 2169
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.1879263433415814,
      "learning_rate": 1.5807248154958848e-05,
      "loss": 0.7337,
      "step": 2170
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7339951037713568,
      "learning_rate": 1.5803312753217202e-05,
      "loss": 0.7502,
      "step": 2171
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.5538022737550783,
      "learning_rate": 1.5799375995821116e-05,
      "loss": 0.8441,
      "step": 2172
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.1129789569879454,
      "learning_rate": 1.5795437883690225e-05,
      "loss": 0.8246,
      "step": 2173
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.279624089014242,
      "learning_rate": 1.5791498417744463e-05,
      "loss": 0.8354,
      "step": 2174
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.0639371667297928,
      "learning_rate": 1.578755759890409e-05,
      "loss": 0.7957,
      "step": 2175
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.3969840142982575,
      "learning_rate": 1.5783615428089693e-05,
      "loss": 0.7619,
      "step": 2176
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.442223284915317,
      "learning_rate": 1.577967190622215e-05,
      "loss": 0.7898,
      "step": 2177
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9881995880355203,
      "learning_rate": 1.5775727034222675e-05,
      "loss": 0.7261,
      "step": 2178
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1239093224307912,
      "learning_rate": 1.5771780813012793e-05,
      "loss": 0.773,
      "step": 2179
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.502313272961037,
      "learning_rate": 1.5767833243514337e-05,
      "loss": 0.7427,
      "step": 2180
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.193615423618357,
      "learning_rate": 1.576388432664946e-05,
      "loss": 0.8792,
      "step": 2181
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.140436593794579,
      "learning_rate": 1.5759934063340627e-05,
      "loss": 0.7638,
      "step": 2182
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.1076036971838352,
      "learning_rate": 1.5755982454510626e-05,
      "loss": 0.7838,
      "step": 2183
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.8782547891296777,
      "learning_rate": 1.5752029501082547e-05,
      "loss": 0.8636,
      "step": 2184
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3670647314210824,
      "learning_rate": 1.574807520397981e-05,
      "loss": 0.7787,
      "step": 2185
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.054284166573717,
      "learning_rate": 1.5744119564126127e-05,
      "loss": 0.7875,
      "step": 2186
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3272348362807422,
      "learning_rate": 1.5740162582445545e-05,
      "loss": 0.7894,
      "step": 2187
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.42020570965629,
      "learning_rate": 1.573620425986241e-05,
      "loss": 0.7592,
      "step": 2188
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7337761147960808,
      "learning_rate": 1.573224459730139e-05,
      "loss": 0.7882,
      "step": 2189
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.0213468689371936,
      "learning_rate": 1.572828359568746e-05,
      "loss": 0.6982,
      "step": 2190
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.452815505700501,
      "learning_rate": 1.572432125594591e-05,
      "loss": 0.692,
      "step": 2191
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.0524104572296653,
      "learning_rate": 1.5720357579002346e-05,
      "loss": 0.7375,
      "step": 2192
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9896135102374073,
      "learning_rate": 1.5716392565782683e-05,
      "loss": 0.7223,
      "step": 2193
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.024411505139103,
      "learning_rate": 1.5712426217213143e-05,
      "loss": 0.7365,
      "step": 2194
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.6505765629916556,
      "learning_rate": 1.5708458534220274e-05,
      "loss": 0.7954,
      "step": 2195
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3474650319235617,
      "learning_rate": 1.570448951773092e-05,
      "loss": 0.7443,
      "step": 2196
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.8341728788937195,
      "learning_rate": 1.5700519168672248e-05,
      "loss": 0.8256,
      "step": 2197
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3776050009583005,
      "learning_rate": 1.5696547487971727e-05,
      "loss": 0.7786,
      "step": 2198
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1686458821673447,
      "learning_rate": 1.5692574476557147e-05,
      "loss": 0.7226,
      "step": 2199
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.468327910623462,
      "learning_rate": 1.5688600135356608e-05,
      "loss": 0.762,
      "step": 2200
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.373550218649354,
      "learning_rate": 1.5684624465298503e-05,
      "loss": 0.6805,
      "step": 2201
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.0379982069656792,
      "learning_rate": 1.568064746731156e-05,
      "loss": 0.8559,
      "step": 2202
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.535242748986459,
      "learning_rate": 1.5676669142324802e-05,
      "loss": 0.7545,
      "step": 2203
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9829057645799053,
      "learning_rate": 1.567268949126757e-05,
      "loss": 0.7504,
      "step": 2204
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7060845687713493,
      "learning_rate": 1.5668708515069503e-05,
      "loss": 0.7451,
      "step": 2205
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.92640951659574,
      "learning_rate": 1.5664726214660562e-05,
      "loss": 0.7094,
      "step": 2206
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.369912908651784,
      "learning_rate": 1.5660742590971014e-05,
      "loss": 0.8059,
      "step": 2207
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.2731695004195953,
      "learning_rate": 1.5656757644931433e-05,
      "loss": 0.8341,
      "step": 2208
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.8592632141591716,
      "learning_rate": 1.5652771377472702e-05,
      "loss": 0.7894,
      "step": 2209
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.699995208537256,
      "learning_rate": 1.5648783789526015e-05,
      "loss": 0.7677,
      "step": 2210
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1567662657061484,
      "learning_rate": 1.5644794882022875e-05,
      "loss": 0.7663,
      "step": 2211
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.069098081036088,
      "learning_rate": 1.5640804655895086e-05,
      "loss": 0.7906,
      "step": 2212
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.609043464918949,
      "learning_rate": 1.5636813112074766e-05,
      "loss": 0.7913,
      "step": 2213
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.463639084730585,
      "learning_rate": 1.5632820251494343e-05,
      "loss": 0.8077,
      "step": 2214
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.284308724099495,
      "learning_rate": 1.5628826075086546e-05,
      "loss": 0.7702,
      "step": 2215
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.4398582609392427,
      "learning_rate": 1.562483058378442e-05,
      "loss": 0.7406,
      "step": 2216
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.900206138966856,
      "learning_rate": 1.5620833778521306e-05,
      "loss": 0.805,
      "step": 2217
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.267526199528532,
      "learning_rate": 1.5616835660230864e-05,
      "loss": 0.71,
      "step": 2218
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.0584412686764426,
      "learning_rate": 1.561283622984705e-05,
      "loss": 0.8128,
      "step": 2219
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.053337015784878,
      "learning_rate": 1.5608835488304138e-05,
      "loss": 0.8275,
      "step": 2220
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9885535287220681,
      "learning_rate": 1.5604833436536692e-05,
      "loss": 0.8337,
      "step": 2221
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.206322876224405,
      "learning_rate": 1.5600830075479604e-05,
      "loss": 0.7642,
      "step": 2222
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1133870858321697,
      "learning_rate": 1.5596825406068043e-05,
      "loss": 0.8227,
      "step": 2223
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.2201586953683217,
      "learning_rate": 1.5592819429237517e-05,
      "loss": 0.8344,
      "step": 2224
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.407984801628404,
      "learning_rate": 1.5588812145923812e-05,
      "loss": 0.7195,
      "step": 2225
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.143917721512882,
      "learning_rate": 1.5584803557063034e-05,
      "loss": 0.8014,
      "step": 2226
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1121237542871114,
      "learning_rate": 1.5580793663591583e-05,
      "loss": 0.7722,
      "step": 2227
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3292755281020154,
      "learning_rate": 1.5576782466446184e-05,
      "loss": 0.807,
      "step": 2228
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.756375314307508,
      "learning_rate": 1.5572769966563844e-05,
      "loss": 0.6634,
      "step": 2229
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.262825319307011,
      "learning_rate": 1.556875616488188e-05,
      "loss": 0.8069,
      "step": 2230
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1297476381084226,
      "learning_rate": 1.5564741062337928e-05,
      "loss": 0.7776,
      "step": 2231
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.1902431643467115,
      "learning_rate": 1.5560724659869905e-05,
      "loss": 0.7435,
      "step": 2232
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9283210899846221,
      "learning_rate": 1.5556706958416044e-05,
      "loss": 0.8014,
      "step": 2233
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.182958789094021,
      "learning_rate": 1.5552687958914892e-05,
      "loss": 0.7742,
      "step": 2234
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.325829060779055,
      "learning_rate": 1.5548667662305275e-05,
      "loss": 0.7291,
      "step": 2235
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.8149369602573389,
      "learning_rate": 1.554464606952634e-05,
      "loss": 0.7576,
      "step": 2236
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9488468797588414,
      "learning_rate": 1.5540623181517532e-05,
      "loss": 0.7978,
      "step": 2237
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.269129201080324,
      "learning_rate": 1.5536598999218592e-05,
      "loss": 0.7349,
      "step": 2238
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.51339668115711,
      "learning_rate": 1.553257352356958e-05,
      "loss": 0.7323,
      "step": 2239
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9894509633414794,
      "learning_rate": 1.5528546755510842e-05,
      "loss": 0.7676,
      "step": 2240
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9964520179323675,
      "learning_rate": 1.5524518695983025e-05,
      "loss": 0.7,
      "step": 2241
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3294121179526757,
      "learning_rate": 1.5520489345927095e-05,
      "loss": 0.7622,
      "step": 2242
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.07246637249873,
      "learning_rate": 1.5516458706284306e-05,
      "loss": 0.8532,
      "step": 2243
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.852604459086662,
      "learning_rate": 1.5512426777996206e-05,
      "loss": 0.7555,
      "step": 2244
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.071472609789817,
      "learning_rate": 1.550839356200467e-05,
      "loss": 0.8086,
      "step": 2245
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.4217249564799945,
      "learning_rate": 1.5504359059251843e-05,
      "loss": 0.715,
      "step": 2246
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.965511537828507,
      "learning_rate": 1.5500323270680194e-05,
      "loss": 0.623,
      "step": 2247
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3725775997867995,
      "learning_rate": 1.5496286197232483e-05,
      "loss": 0.7574,
      "step": 2248
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.927662714190268,
      "learning_rate": 1.5492247839851767e-05,
      "loss": 0.7511,
      "step": 2249
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9588810348261907,
      "learning_rate": 1.5488208199481406e-05,
      "loss": 0.7826,
      "step": 2250
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.153499891474989,
      "learning_rate": 1.5484167277065066e-05,
      "loss": 0.6852,
      "step": 2251
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.025607375462287,
      "learning_rate": 1.5480125073546705e-05,
      "loss": 0.8187,
      "step": 2252
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.5770794183161305,
      "learning_rate": 1.5476081589870574e-05,
      "loss": 0.7851,
      "step": 2253
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.302777226117158,
      "learning_rate": 1.5472036826981243e-05,
      "loss": 0.7577,
      "step": 2254
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8733233479800853,
      "learning_rate": 1.5467990785823562e-05,
      "loss": 0.7351,
      "step": 2255
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6682302344781512,
      "learning_rate": 1.5463943467342694e-05,
      "loss": 0.7023,
      "step": 2256
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.7792094829247003,
      "learning_rate": 1.5459894872484083e-05,
      "loss": 0.9037,
      "step": 2257
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.0897716963182904,
      "learning_rate": 1.5455845002193485e-05,
      "loss": 0.7823,
      "step": 2258
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.1566015898433943,
      "learning_rate": 1.5451793857416955e-05,
      "loss": 0.8022,
      "step": 2259
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.326388608645548,
      "learning_rate": 1.5447741439100833e-05,
      "loss": 0.6994,
      "step": 2260
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9610718593834868,
      "learning_rate": 1.5443687748191772e-05,
      "loss": 0.7581,
      "step": 2261
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.0096295332551546,
      "learning_rate": 1.5439632785636707e-05,
      "loss": 0.8019,
      "step": 2262
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9374717471086955,
      "learning_rate": 1.5435576552382883e-05,
      "loss": 0.7269,
      "step": 2263
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.627516361486332,
      "learning_rate": 1.5431519049377835e-05,
      "loss": 0.7031,
      "step": 2264
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.120665711759357,
      "learning_rate": 1.54274602775694e-05,
      "loss": 0.793,
      "step": 2265
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.1635154966739942,
      "learning_rate": 1.5423400237905695e-05,
      "loss": 0.7079,
      "step": 2266
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.080797738231077,
      "learning_rate": 1.5419338931335155e-05,
      "loss": 0.7657,
      "step": 2267
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.2928323558666004,
      "learning_rate": 1.541527635880651e-05,
      "loss": 0.6837,
      "step": 2268
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.027512685602995,
      "learning_rate": 1.541121252126876e-05,
      "loss": 0.6995,
      "step": 2269
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.194373893531744,
      "learning_rate": 1.5407147419671227e-05,
      "loss": 0.7259,
      "step": 2270
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8961935600926385,
      "learning_rate": 1.5403081054963524e-05,
      "loss": 0.7393,
      "step": 2271
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.663393414741095,
      "learning_rate": 1.539901342809554e-05,
      "loss": 0.8238,
      "step": 2272
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.084934511859216,
      "learning_rate": 1.5394944540017484e-05,
      "loss": 0.756,
      "step": 2273
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.1898920966241966,
      "learning_rate": 1.539087439167985e-05,
      "loss": 0.7535,
      "step": 2274
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.2999593289571267,
      "learning_rate": 1.5386802984033417e-05,
      "loss": 0.7886,
      "step": 2275
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.6182176295720665,
      "learning_rate": 1.538273031802927e-05,
      "loss": 0.814,
      "step": 2276
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.7541995682145646,
      "learning_rate": 1.5378656394618788e-05,
      "loss": 0.7621,
      "step": 2277
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9962920993183373,
      "learning_rate": 1.537458121475363e-05,
      "loss": 0.7089,
      "step": 2278
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.4023050223529885,
      "learning_rate": 1.537050477938577e-05,
      "loss": 0.8216,
      "step": 2279
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.117708640406781,
      "learning_rate": 1.5366427089467458e-05,
      "loss": 0.7588,
      "step": 2280
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.378860911431295,
      "learning_rate": 1.5362348145951242e-05,
      "loss": 0.743,
      "step": 2281
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.0490108687017314,
      "learning_rate": 1.5358267949789968e-05,
      "loss": 0.8334,
      "step": 2282
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.6174613140324965,
      "learning_rate": 1.5354186501936764e-05,
      "loss": 0.7862,
      "step": 2283
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8338660784657148,
      "learning_rate": 1.535010380334506e-05,
      "loss": 0.6304,
      "step": 2284
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.942335153333625,
      "learning_rate": 1.5346019854968576e-05,
      "loss": 0.8085,
      "step": 2285
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.888732843526506,
      "learning_rate": 1.534193465776132e-05,
      "loss": 0.8229,
      "step": 2286
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.614574585602605,
      "learning_rate": 1.53378482126776e-05,
      "loss": 0.8491,
      "step": 2287
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.2430356516796226,
      "learning_rate": 1.5333760520672e-05,
      "loss": 0.8093,
      "step": 2288
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.2773706792354798,
      "learning_rate": 1.532967158269941e-05,
      "loss": 0.8048,
      "step": 2289
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.0445160551762793,
      "learning_rate": 1.5325581399715013e-05,
      "loss": 0.8013,
      "step": 2290
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.3358079787050676,
      "learning_rate": 1.5321489972674268e-05,
      "loss": 0.7198,
      "step": 2291
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.3603176761461575,
      "learning_rate": 1.5317397302532933e-05,
      "loss": 0.8936,
      "step": 2292
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.305324225571756,
      "learning_rate": 1.5313303390247062e-05,
      "loss": 0.7148,
      "step": 2293
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.093402160211843,
      "learning_rate": 1.5309208236772988e-05,
      "loss": 0.7126,
      "step": 2294
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.195362039338748,
      "learning_rate": 1.5305111843067343e-05,
      "loss": 0.7602,
      "step": 2295
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.6711085785774635,
      "learning_rate": 1.530101421008704e-05,
      "loss": 0.7202,
      "step": 2296
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9917646585290854,
      "learning_rate": 1.529691533878929e-05,
      "loss": 0.813,
      "step": 2297
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8095634174021193,
      "learning_rate": 1.5292815230131592e-05,
      "loss": 0.769,
      "step": 2298
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.1129982977381836,
      "learning_rate": 1.5288713885071723e-05,
      "loss": 0.7488,
      "step": 2299
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.495427453038879,
      "learning_rate": 1.5284611304567772e-05,
      "loss": 0.7775,
      "step": 2300
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.137411866398888,
      "learning_rate": 1.5280507489578087e-05,
      "loss": 0.721,
      "step": 2301
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.300920024406912,
      "learning_rate": 1.527640244106133e-05,
      "loss": 0.808,
      "step": 2302
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.4869432708952477,
      "learning_rate": 1.5272296159976438e-05,
      "loss": 0.8213,
      "step": 2303
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.095247380302488,
      "learning_rate": 1.5268188647282633e-05,
      "loss": 0.7546,
      "step": 2304
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.500870460389271,
      "learning_rate": 1.5264079903939437e-05,
      "loss": 0.8004,
      "step": 2305
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.3261210287263365,
      "learning_rate": 1.5259969930906653e-05,
      "loss": 0.7206,
      "step": 2306
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.8693544118414747,
      "learning_rate": 1.5255858729144368e-05,
      "loss": 0.8302,
      "step": 2307
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.3489823628617614,
      "learning_rate": 1.5251746299612959e-05,
      "loss": 0.7778,
      "step": 2308
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.270526916280416,
      "learning_rate": 1.5247632643273092e-05,
      "loss": 0.8017,
      "step": 2309
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9818746125364717,
      "learning_rate": 1.5243517761085717e-05,
      "loss": 0.7227,
      "step": 2310
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.4334058518542734,
      "learning_rate": 1.5239401654012072e-05,
      "loss": 0.6735,
      "step": 2311
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.2723259439842716,
      "learning_rate": 1.5235284323013674e-05,
      "loss": 0.7656,
      "step": 2312
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.112995759938327,
      "learning_rate": 1.5231165769052343e-05,
      "loss": 0.7407,
      "step": 2313
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.5768181062937994,
      "learning_rate": 1.5227045993090164e-05,
      "loss": 0.8433,
      "step": 2314
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.9556386962689218,
      "learning_rate": 1.5222924996089518e-05,
      "loss": 0.8261,
      "step": 2315
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.469777776303752,
      "learning_rate": 1.5218802779013077e-05,
      "loss": 0.8925,
      "step": 2316
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7878092464053252,
      "learning_rate": 1.5214679342823786e-05,
      "loss": 0.7684,
      "step": 2317
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.089841838846255,
      "learning_rate": 1.521055468848488e-05,
      "loss": 0.8527,
      "step": 2318
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1730754461829145,
      "learning_rate": 1.520642881695988e-05,
      "loss": 0.7501,
      "step": 2319
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.2654433936886123,
      "learning_rate": 1.520230172921259e-05,
      "loss": 0.6896,
      "step": 2320
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5709516798682601,
      "learning_rate": 1.5198173426207095e-05,
      "loss": 0.6752,
      "step": 2321
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.148340538325461,
      "learning_rate": 1.5194043908907774e-05,
      "loss": 0.7511,
      "step": 2322
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0802095160847363,
      "learning_rate": 1.5189913178279277e-05,
      "loss": 0.6719,
      "step": 2323
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.007324823415482,
      "learning_rate": 1.5185781235286543e-05,
      "loss": 0.797,
      "step": 2324
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8334247327505246,
      "learning_rate": 1.5181648080894796e-05,
      "loss": 0.7404,
      "step": 2325
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0408712697562814,
      "learning_rate": 1.5177513716069543e-05,
      "loss": 0.8285,
      "step": 2326
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.211457080425691,
      "learning_rate": 1.5173378141776569e-05,
      "loss": 0.8217,
      "step": 2327
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4862411480361006,
      "learning_rate": 1.5169241358981946e-05,
      "loss": 0.7608,
      "step": 2328
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6465609535459784,
      "learning_rate": 1.5165103368652028e-05,
      "loss": 0.7422,
      "step": 2329
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1579648078080336,
      "learning_rate": 1.5160964171753444e-05,
      "loss": 0.7324,
      "step": 2330
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.996695957269924,
      "learning_rate": 1.515682376925312e-05,
      "loss": 0.7676,
      "step": 2331
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.9556458492231306,
      "learning_rate": 1.515268216211825e-05,
      "loss": 0.7308,
      "step": 2332
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.9010298524452307,
      "learning_rate": 1.514853935131631e-05,
      "loss": 0.7422,
      "step": 2333
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1816427288605804,
      "learning_rate": 1.5144395337815066e-05,
      "loss": 0.7614,
      "step": 2334
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.5555064742458815,
      "learning_rate": 1.514025012258256e-05,
      "loss": 0.7468,
      "step": 2335
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.98873412816158,
      "learning_rate": 1.5136103706587111e-05,
      "loss": 0.8596,
      "step": 2336
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.9258641854953003,
      "learning_rate": 1.5131956090797326e-05,
      "loss": 0.7067,
      "step": 2337
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.9271966848505746,
      "learning_rate": 1.5127807276182084e-05,
      "loss": 0.7902,
      "step": 2338
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.31340026643608,
      "learning_rate": 1.5123657263710558e-05,
      "loss": 0.8576,
      "step": 2339
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.287343646832731,
      "learning_rate": 1.5119506054352178e-05,
      "loss": 0.7201,
      "step": 2340
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.086120067507914,
      "learning_rate": 1.5115353649076676e-05,
      "loss": 0.8219,
      "step": 2341
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1310959036100687,
      "learning_rate": 1.5111200048854055e-05,
      "loss": 0.7813,
      "step": 2342
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.2489299034250925,
      "learning_rate": 1.5107045254654588e-05,
      "loss": 0.7278,
      "step": 2343
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1111844161697486,
      "learning_rate": 1.5102889267448846e-05,
      "loss": 0.789,
      "step": 2344
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.275816227810895,
      "learning_rate": 1.5098732088207662e-05,
      "loss": 0.7852,
      "step": 2345
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0513046823793175,
      "learning_rate": 1.509457371790215e-05,
      "loss": 0.7119,
      "step": 2346
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6322230190934859,
      "learning_rate": 1.5090414157503715e-05,
      "loss": 0.7184,
      "step": 2347
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.087831220567137,
      "learning_rate": 1.5086253407984024e-05,
      "loss": 0.7962,
      "step": 2348
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.586393423868746,
      "learning_rate": 1.5082091470315028e-05,
      "loss": 0.7422,
      "step": 2349
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.149014814003366,
      "learning_rate": 1.5077928345468959e-05,
      "loss": 0.8078,
      "step": 2350
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.6594958034854406,
      "learning_rate": 1.5073764034418326e-05,
      "loss": 0.7797,
      "step": 2351
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0038676321241335,
      "learning_rate": 1.5069598538135905e-05,
      "loss": 0.6744,
      "step": 2352
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.458837384618061,
      "learning_rate": 1.5065431857594762e-05,
      "loss": 0.8145,
      "step": 2353
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0877260990029964,
      "learning_rate": 1.5061263993768234e-05,
      "loss": 0.8071,
      "step": 2354
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1551806363983115,
      "learning_rate": 1.5057094947629928e-05,
      "loss": 0.6834,
      "step": 2355
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1084027278976882,
      "learning_rate": 1.5052924720153743e-05,
      "loss": 0.7243,
      "step": 2356
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.091552230760442,
      "learning_rate": 1.504875331231384e-05,
      "loss": 0.7533,
      "step": 2357
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.589624735370904,
      "learning_rate": 1.5044580725084659e-05,
      "loss": 0.7121,
      "step": 2358
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7810882112306416,
      "learning_rate": 1.504040695944092e-05,
      "loss": 0.7912,
      "step": 2359
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.438574854210088,
      "learning_rate": 1.503623201635761e-05,
      "loss": 0.6634,
      "step": 2360
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5127040575387372,
      "learning_rate": 1.503205589681e-05,
      "loss": 0.7542,
      "step": 2361
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0526004706298413,
      "learning_rate": 1.5027878601773633e-05,
      "loss": 0.8273,
      "step": 2362
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.2799484520214777,
      "learning_rate": 1.5023700132224321e-05,
      "loss": 0.7728,
      "step": 2363
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.698005945816224,
      "learning_rate": 1.501952048913816e-05,
      "loss": 0.784,
      "step": 2364
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.081946368031466,
      "learning_rate": 1.5015339673491514e-05,
      "loss": 0.7747,
      "step": 2365
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.976166092495555,
      "learning_rate": 1.5011157686261015e-05,
      "loss": 0.8084,
      "step": 2366
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.264022204836607,
      "learning_rate": 1.5006974528423585e-05,
      "loss": 0.7244,
      "step": 2367
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.007834714677605,
      "learning_rate": 1.5002790200956408e-05,
      "loss": 0.7922,
      "step": 2368
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.5970568559455462,
      "learning_rate": 1.4998604704836939e-05,
      "loss": 0.7467,
      "step": 2369
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1997551485638085,
      "learning_rate": 1.4994418041042913e-05,
      "loss": 0.6423,
      "step": 2370
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.266529556528853,
      "learning_rate": 1.499023021055234e-05,
      "loss": 0.7466,
      "step": 2371
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8166945449290677,
      "learning_rate": 1.4986041214343487e-05,
      "loss": 0.7489,
      "step": 2372
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8014914839702016,
      "learning_rate": 1.498185105339491e-05,
      "loss": 0.748,
      "step": 2373
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7462650194436282,
      "learning_rate": 1.4977659728685435e-05,
      "loss": 0.7573,
      "step": 2374
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.4499803276107133,
      "learning_rate": 1.4973467241194146e-05,
      "loss": 0.7127,
      "step": 2375
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.1358145263673354,
      "learning_rate": 1.4969273591900415e-05,
      "loss": 0.7291,
      "step": 2376
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8320528314859554,
      "learning_rate": 1.4965078781783882e-05,
      "loss": 0.7641,
      "step": 2377
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.2585774858092127,
      "learning_rate": 1.4960882811824446e-05,
      "loss": 0.7426,
      "step": 2378
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.675909103968695,
      "learning_rate": 1.4956685683002292e-05,
      "loss": 0.8347,
      "step": 2379
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.139683698176485,
      "learning_rate": 1.4952487396297872e-05,
      "loss": 0.7483,
      "step": 2380
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0106662879951784,
      "learning_rate": 1.49482879526919e-05,
      "loss": 0.7705,
      "step": 2381
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.715245872563961,
      "learning_rate": 1.494408735316537e-05,
      "loss": 0.7962,
      "step": 2382
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.001259875273159,
      "learning_rate": 1.493988559869954e-05,
      "loss": 0.7043,
      "step": 2383
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.376915627939564,
      "learning_rate": 1.4935682690275945e-05,
      "loss": 0.7381,
      "step": 2384
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.368861752217695,
      "learning_rate": 1.4931478628876382e-05,
      "loss": 0.757,
      "step": 2385
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.7756327326450267,
      "learning_rate": 1.4927273415482916e-05,
      "loss": 0.6956,
      "step": 2386
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.7424458910111627,
      "learning_rate": 1.4923067051077893e-05,
      "loss": 0.6323,
      "step": 2387
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1744520113054073,
      "learning_rate": 1.4918859536643915e-05,
      "loss": 0.7535,
      "step": 2388
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1628083283922956,
      "learning_rate": 1.491465087316386e-05,
      "loss": 0.7885,
      "step": 2389
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.194362207716457,
      "learning_rate": 1.4910441061620872e-05,
      "loss": 0.7219,
      "step": 2390
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7476949654330496,
      "learning_rate": 1.490623010299836e-05,
      "loss": 0.7704,
      "step": 2391
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.875514845251839,
      "learning_rate": 1.490201799828001e-05,
      "loss": 0.7166,
      "step": 2392
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.2835207496047234,
      "learning_rate": 1.4897804748449767e-05,
      "loss": 0.6891,
      "step": 2393
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6545281131799205,
      "learning_rate": 1.4893590354491845e-05,
      "loss": 0.7447,
      "step": 2394
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7488825595291129,
      "learning_rate": 1.488937481739073e-05,
      "loss": 0.6518,
      "step": 2395
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.330154238236314,
      "learning_rate": 1.4885158138131171e-05,
      "loss": 0.7851,
      "step": 2396
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7716725916010754,
      "learning_rate": 1.4880940317698182e-05,
      "loss": 0.7008,
      "step": 2397
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.9398240394766288,
      "learning_rate": 1.4876721357077051e-05,
      "loss": 0.7908,
      "step": 2398
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0153392603889286,
      "learning_rate": 1.4872501257253325e-05,
      "loss": 0.7603,
      "step": 2399
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.4056627694757733,
      "learning_rate": 1.486828001921282e-05,
      "loss": 0.8527,
      "step": 2400
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.2573820064606096,
      "learning_rate": 1.4864057643941616e-05,
      "loss": 0.7682,
      "step": 2401
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.361699673311855,
      "learning_rate": 1.485983413242606e-05,
      "loss": 0.7773,
      "step": 2402
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0394901696026877,
      "learning_rate": 1.4855609485652771e-05,
      "loss": 0.735,
      "step": 2403
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1335932017193673,
      "learning_rate": 1.4851383704608621e-05,
      "loss": 0.8128,
      "step": 2404
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7831608869955249,
      "learning_rate": 1.4847156790280753e-05,
      "loss": 0.7819,
      "step": 2405
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.9454327512930703,
      "learning_rate": 1.4842928743656577e-05,
      "loss": 0.7666,
      "step": 2406
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.1462146415089003,
      "learning_rate": 1.4838699565723764e-05,
      "loss": 0.7093,
      "step": 2407
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.01758640679549,
      "learning_rate": 1.483446925747025e-05,
      "loss": 0.6894,
      "step": 2408
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.319547915573174,
      "learning_rate": 1.4830237819884237e-05,
      "loss": 0.7695,
      "step": 2409
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.2489647485016233,
      "learning_rate": 1.4826005253954185e-05,
      "loss": 0.7837,
      "step": 2410
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.131219033814667,
      "learning_rate": 1.4821771560668828e-05,
      "loss": 0.7549,
      "step": 2411
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.943611527656724,
      "learning_rate": 1.4817536741017153e-05,
      "loss": 0.6939,
      "step": 2412
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.205225663684301,
      "learning_rate": 1.4813300795988417e-05,
      "loss": 0.736,
      "step": 2413
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7881402843596035,
      "learning_rate": 1.4809063726572132e-05,
      "loss": 0.7849,
      "step": 2414
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.177417042389312,
      "learning_rate": 1.4804825533758082e-05,
      "loss": 0.7884,
      "step": 2415
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.116909850515029,
      "learning_rate": 1.4800586218536315e-05,
      "loss": 0.8313,
      "step": 2416
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0149826461653624,
      "learning_rate": 1.479634578189712e-05,
      "loss": 0.8035,
      "step": 2417
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1186300543515264,
      "learning_rate": 1.4792104224831079e-05,
      "loss": 0.879,
      "step": 2418
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.533044979191868,
      "learning_rate": 1.4787861548329012e-05,
      "loss": 0.8468,
      "step": 2419
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.17675253210135,
      "learning_rate": 1.478361775338201e-05,
      "loss": 0.8128,
      "step": 2420
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7642499442126718,
      "learning_rate": 1.4779372840981425e-05,
      "loss": 0.8116,
      "step": 2421
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.103391362832787,
      "learning_rate": 1.4775126812118865e-05,
      "loss": 0.7573,
      "step": 2422
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.524225307109737,
      "learning_rate": 1.477087966778621e-05,
      "loss": 0.8233,
      "step": 2423
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.351476673043623,
      "learning_rate": 1.4766631408975586e-05,
      "loss": 0.7505,
      "step": 2424
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0768685009691428,
      "learning_rate": 1.4762382036679393e-05,
      "loss": 0.7612,
      "step": 2425
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.922944003759938,
      "learning_rate": 1.475813155189028e-05,
      "loss": 0.8054,
      "step": 2426
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.316968111405052,
      "learning_rate": 1.4753879955601162e-05,
      "loss": 0.7855,
      "step": 2427
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1771793004743656,
      "learning_rate": 1.4749627248805214e-05,
      "loss": 0.7866,
      "step": 2428
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.280986970114978,
      "learning_rate": 1.4745373432495869e-05,
      "loss": 0.7783,
      "step": 2429
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.4465088747845956,
      "learning_rate": 1.4741118507666815e-05,
      "loss": 0.7991,
      "step": 2430
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.3089796281345927,
      "learning_rate": 1.4736862475312005e-05,
      "loss": 0.8194,
      "step": 2431
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0069709604369264,
      "learning_rate": 1.4732605336425651e-05,
      "loss": 0.8208,
      "step": 2432
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.9937006812221183,
      "learning_rate": 1.4728347092002218e-05,
      "loss": 0.7329,
      "step": 2433
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.5853307569535873,
      "learning_rate": 1.4724087743036432e-05,
      "loss": 0.7687,
      "step": 2434
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.9367591711612735,
      "learning_rate": 1.4719827290523281e-05,
      "loss": 0.7369,
      "step": 2435
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.292985708775971,
      "learning_rate": 1.4715565735458004e-05,
      "loss": 0.8508,
      "step": 2436
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.067491290994761,
      "learning_rate": 1.4711303078836098e-05,
      "loss": 0.7792,
      "step": 2437
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8288918851031502,
      "learning_rate": 1.470703932165333e-05,
      "loss": 0.7126,
      "step": 2438
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.3804746711280336,
      "learning_rate": 1.4702774464905703e-05,
      "loss": 0.7739,
      "step": 2439
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1390230745455274,
      "learning_rate": 1.469850850958949e-05,
      "loss": 0.7389,
      "step": 2440
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0759518582609604,
      "learning_rate": 1.4694241456701227e-05,
      "loss": 0.7905,
      "step": 2441
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8961932384880407,
      "learning_rate": 1.4689973307237687e-05,
      "loss": 0.672,
      "step": 2442
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.1913380837247503,
      "learning_rate": 1.468570406219592e-05,
      "loss": 0.757,
      "step": 2443
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8202731721873693,
      "learning_rate": 1.4681433722573212e-05,
      "loss": 0.7437,
      "step": 2444
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.111182097313832,
      "learning_rate": 1.4677162289367126e-05,
      "loss": 0.8093,
      "step": 2445
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3944277023531066,
      "learning_rate": 1.467288976357546e-05,
      "loss": 0.7802,
      "step": 2446
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.7361118380477527,
      "learning_rate": 1.466861614619628e-05,
      "loss": 0.7664,
      "step": 2447
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.056653468657062,
      "learning_rate": 1.4664341438227903e-05,
      "loss": 0.7171,
      "step": 2448
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.594101297750401,
      "learning_rate": 1.46600656406689e-05,
      "loss": 0.6529,
      "step": 2449
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.103269551735348,
      "learning_rate": 1.4655788754518101e-05,
      "loss": 0.6934,
      "step": 2450
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4148932719735885,
      "learning_rate": 1.4651510780774585e-05,
      "loss": 0.7171,
      "step": 2451
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.4924126726488804,
      "learning_rate": 1.4647231720437687e-05,
      "loss": 0.8889,
      "step": 2452
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.88392092314041,
      "learning_rate": 1.4642951574506996e-05,
      "loss": 0.7082,
      "step": 2453
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1730573240608766,
      "learning_rate": 1.4638670343982356e-05,
      "loss": 0.7283,
      "step": 2454
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.211674666836996,
      "learning_rate": 1.463438802986386e-05,
      "loss": 0.7441,
      "step": 2455
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.8286853846797309,
      "learning_rate": 1.4630104633151858e-05,
      "loss": 0.6891,
      "step": 2456
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4443428762787138,
      "learning_rate": 1.4625820154846953e-05,
      "loss": 0.7667,
      "step": 2457
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1546024783572912,
      "learning_rate": 1.462153459595e-05,
      "loss": 0.6884,
      "step": 2458
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.276749095171597,
      "learning_rate": 1.4617247957462105e-05,
      "loss": 0.6918,
      "step": 2459
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.2672418861420693,
      "learning_rate": 1.4612960240384624e-05,
      "loss": 0.7035,
      "step": 2460
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1584640507906254,
      "learning_rate": 1.4608671445719176e-05,
      "loss": 0.7265,
      "step": 2461
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.255576365142313,
      "learning_rate": 1.4604381574467616e-05,
      "loss": 0.7889,
      "step": 2462
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4768088264740353,
      "learning_rate": 1.4600090627632061e-05,
      "loss": 0.7677,
      "step": 2463
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.551261646870586,
      "learning_rate": 1.4595798606214882e-05,
      "loss": 0.7847,
      "step": 2464
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4218630777198042,
      "learning_rate": 1.4591505511218685e-05,
      "loss": 0.7524,
      "step": 2465
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.4642731525500947,
      "learning_rate": 1.4587211343646345e-05,
      "loss": 0.7569,
      "step": 2466
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.2330928231671843,
      "learning_rate": 1.4582916104500977e-05,
      "loss": 0.7413,
      "step": 2467
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.144415658403532,
      "learning_rate": 1.4578619794785956e-05,
      "loss": 0.8198,
      "step": 2468
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.2420894831174754,
      "learning_rate": 1.457432241550489e-05,
      "loss": 0.7255,
      "step": 2469
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.2133535385484513,
      "learning_rate": 1.4570023967661651e-05,
      "loss": 0.8132,
      "step": 2470
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.380759830281963,
      "learning_rate": 1.4565724452260361e-05,
      "loss": 0.8524,
      "step": 2471
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1441026421648868,
      "learning_rate": 1.4561423870305383e-05,
      "loss": 0.7471,
      "step": 2472
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.408789478606839,
      "learning_rate": 1.4557122222801332e-05,
      "loss": 0.7947,
      "step": 2473
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.3606434502006644,
      "learning_rate": 1.455281951075308e-05,
      "loss": 0.7842,
      "step": 2474
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0691914984062727,
      "learning_rate": 1.4548515735165735e-05,
      "loss": 0.7945,
      "step": 2475
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.117315129333264,
      "learning_rate": 1.4544210897044662e-05,
      "loss": 0.7229,
      "step": 2476
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9746471137292037,
      "learning_rate": 1.4539904997395468e-05,
      "loss": 0.7318,
      "step": 2477
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.5449744575468864,
      "learning_rate": 1.4535598037224016e-05,
      "loss": 0.7817,
      "step": 2478
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.206870138759082,
      "learning_rate": 1.453129001753641e-05,
      "loss": 0.7914,
      "step": 2479
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.214603320845068,
      "learning_rate": 1.4526980939339008e-05,
      "loss": 0.765,
      "step": 2480
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.01289893283003,
      "learning_rate": 1.4522670803638403e-05,
      "loss": 0.7668,
      "step": 2481
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.2927745314705317,
      "learning_rate": 1.4518359611441452e-05,
      "loss": 0.7388,
      "step": 2482
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0774421922274673,
      "learning_rate": 1.4514047363755244e-05,
      "loss": 0.7898,
      "step": 2483
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.2115467357830423,
      "learning_rate": 1.450973406158712e-05,
      "loss": 0.8434,
      "step": 2484
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9860268655256466,
      "learning_rate": 1.4505419705944672e-05,
      "loss": 0.7735,
      "step": 2485
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1358644416782955,
      "learning_rate": 1.450110429783573e-05,
      "loss": 0.7605,
      "step": 2486
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2969067862159283,
      "learning_rate": 1.4496787838268378e-05,
      "loss": 0.7165,
      "step": 2487
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1601804466925216,
      "learning_rate": 1.4492470328250937e-05,
      "loss": 0.7451,
      "step": 2488
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1497564462399303,
      "learning_rate": 1.4488151768791981e-05,
      "loss": 0.7336,
      "step": 2489
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7690185354934063,
      "learning_rate": 1.4483832160900326e-05,
      "loss": 0.7003,
      "step": 2490
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.3629312796129063,
      "learning_rate": 1.447951150558503e-05,
      "loss": 0.7308,
      "step": 2491
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6968625459196336,
      "learning_rate": 1.4475189803855399e-05,
      "loss": 0.7013,
      "step": 2492
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6061206642539572,
      "learning_rate": 1.4470867056720986e-05,
      "loss": 0.7484,
      "step": 2493
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.810023359962867,
      "learning_rate": 1.4466543265191581e-05,
      "loss": 0.7993,
      "step": 2494
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1901320902836097,
      "learning_rate": 1.4462218430277224e-05,
      "loss": 0.7666,
      "step": 2495
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.222770145805859,
      "learning_rate": 1.44578925529882e-05,
      "loss": 0.7965,
      "step": 2496
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0914974905183317,
      "learning_rate": 1.445356563433503e-05,
      "loss": 0.6717,
      "step": 2497
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9801944801237883,
      "learning_rate": 1.4449237675328483e-05,
      "loss": 0.7665,
      "step": 2498
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.813933261703786,
      "learning_rate": 1.4444908676979572e-05,
      "loss": 0.629,
      "step": 2499
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.21993935907382,
      "learning_rate": 1.4440578640299554e-05,
      "loss": 0.7822,
      "step": 2500
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.334326163301578,
      "learning_rate": 1.443624756629992e-05,
      "loss": 0.6645,
      "step": 2501
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3981312111169426,
      "learning_rate": 1.4431915455992416e-05,
      "loss": 0.7251,
      "step": 2502
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0869988355382474,
      "learning_rate": 1.442758231038902e-05,
      "loss": 0.7514,
      "step": 2503
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.925863977621145,
      "learning_rate": 1.442324813050195e-05,
      "loss": 0.754,
      "step": 2504
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6971584447875665,
      "learning_rate": 1.441891291734368e-05,
      "loss": 0.7424,
      "step": 2505
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2046665613602052,
      "learning_rate": 1.4414576671926912e-05,
      "loss": 0.6935,
      "step": 2506
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7917214947894096,
      "learning_rate": 1.4410239395264594e-05,
      "loss": 0.7973,
      "step": 2507
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9032393002178098,
      "learning_rate": 1.4405901088369912e-05,
      "loss": 0.6961,
      "step": 2508
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.6868723837592245,
      "learning_rate": 1.4401561752256299e-05,
      "loss": 0.7875,
      "step": 2509
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.597758942143697,
      "learning_rate": 1.4397221387937421e-05,
      "loss": 0.7863,
      "step": 2510
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.31677969967457,
      "learning_rate": 1.4392879996427187e-05,
      "loss": 0.7512,
      "step": 2511
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6928346810635002,
      "learning_rate": 1.438853757873975e-05,
      "loss": 0.6989,
      "step": 2512
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.951044995803467,
      "learning_rate": 1.43841941358895e-05,
      "loss": 0.805,
      "step": 2513
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.1282563153539895,
      "learning_rate": 1.437984966889106e-05,
      "loss": 0.8,
      "step": 2514
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7675066677553388,
      "learning_rate": 1.4375504178759301e-05,
      "loss": 0.6876,
      "step": 2515
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9725757076859356,
      "learning_rate": 1.437115766650933e-05,
      "loss": 0.8407,
      "step": 2516
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7834950916841819,
      "learning_rate": 1.4366810133156495e-05,
      "loss": 0.7269,
      "step": 2517
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7621155965794286,
      "learning_rate": 1.4362461579716373e-05,
      "loss": 0.7573,
      "step": 2518
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.370274181559598,
      "learning_rate": 1.4358112007204796e-05,
      "loss": 0.6525,
      "step": 2519
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0826608531604895,
      "learning_rate": 1.4353761416637819e-05,
      "loss": 0.7905,
      "step": 2520
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8087366978914827,
      "learning_rate": 1.434940980903174e-05,
      "loss": 0.743,
      "step": 2521
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9512704149119358,
      "learning_rate": 1.43450571854031e-05,
      "loss": 0.7731,
      "step": 2522
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.2236572717775624,
      "learning_rate": 1.4340703546768664e-05,
      "loss": 0.771,
      "step": 2523
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8749015774615627,
      "learning_rate": 1.4336348894145448e-05,
      "loss": 0.7601,
      "step": 2524
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0595490633335216,
      "learning_rate": 1.43319932285507e-05,
      "loss": 0.7805,
      "step": 2525
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9831841145822788,
      "learning_rate": 1.4327636551001902e-05,
      "loss": 0.8421,
      "step": 2526
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.6972161475476493,
      "learning_rate": 1.4323278862516774e-05,
      "loss": 0.8276,
      "step": 2527
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8932604367609411,
      "learning_rate": 1.431892016411327e-05,
      "loss": 0.6631,
      "step": 2528
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9036606774555338,
      "learning_rate": 1.4314560456809592e-05,
      "loss": 0.7228,
      "step": 2529
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.732187995272193,
      "learning_rate": 1.4310199741624157e-05,
      "loss": 0.816,
      "step": 2530
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.9884670772778867,
      "learning_rate": 1.4305838019575633e-05,
      "loss": 0.8175,
      "step": 2531
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.574906843222863,
      "learning_rate": 1.430147529168292e-05,
      "loss": 0.692,
      "step": 2532
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.1352082391742817,
      "learning_rate": 1.429711155896515e-05,
      "loss": 0.8017,
      "step": 2533
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.888733354095789,
      "learning_rate": 1.4292746822441692e-05,
      "loss": 0.7865,
      "step": 2534
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.2945308097589403,
      "learning_rate": 1.4288381083132149e-05,
      "loss": 0.7909,
      "step": 2535
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.642123734946041,
      "learning_rate": 1.4284014342056355e-05,
      "loss": 0.7393,
      "step": 2536
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.7803028337114695,
      "learning_rate": 1.4279646600234388e-05,
      "loss": 0.718,
      "step": 2537
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8199012643857442,
      "learning_rate": 1.4275277858686548e-05,
      "loss": 0.8148,
      "step": 2538
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.1257163788418603,
      "learning_rate": 1.4270908118433371e-05,
      "loss": 0.7832,
      "step": 2539
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.297394815439366,
      "learning_rate": 1.4266537380495634e-05,
      "loss": 0.7372,
      "step": 2540
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.7944775764059298,
      "learning_rate": 1.4262165645894342e-05,
      "loss": 0.7773,
      "step": 2541
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.2949956431241523,
      "learning_rate": 1.4257792915650728e-05,
      "loss": 0.8373,
      "step": 2542
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.3355362710723724,
      "learning_rate": 1.4253419190786264e-05,
      "loss": 0.7111,
      "step": 2543
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0285200117237787,
      "learning_rate": 1.4249044472322657e-05,
      "loss": 0.7897,
      "step": 2544
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.923511797586061,
      "learning_rate": 1.4244668761281834e-05,
      "loss": 0.8046,
      "step": 2545
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0789012330180623,
      "learning_rate": 1.424029205868597e-05,
      "loss": 0.7235,
      "step": 2546
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0364652357726873,
      "learning_rate": 1.4235914365557455e-05,
      "loss": 0.7981,
      "step": 2547
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9164085570770226,
      "learning_rate": 1.4231535682918923e-05,
      "loss": 0.6902,
      "step": 2548
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.4778900827777437,
      "learning_rate": 1.4227156011793234e-05,
      "loss": 0.8867,
      "step": 2549
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.951936635588585,
      "learning_rate": 1.422277535320348e-05,
      "loss": 0.7387,
      "step": 2550
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.7369988297947487,
      "learning_rate": 1.4218393708172982e-05,
      "loss": 0.8734,
      "step": 2551
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.3582195169589806,
      "learning_rate": 1.4214011077725293e-05,
      "loss": 0.7363,
      "step": 2552
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.6729130876322107,
      "learning_rate": 1.4209627462884198e-05,
      "loss": 0.7149,
      "step": 2553
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.8463049530946036,
      "learning_rate": 1.4205242864673707e-05,
      "loss": 0.7275,
      "step": 2554
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.1432046717426685,
      "learning_rate": 1.4200857284118067e-05,
      "loss": 0.7606,
      "step": 2555
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.822112262630896,
      "learning_rate": 1.4196470722241741e-05,
      "loss": 0.7328,
      "step": 2556
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.4959029055341984,
      "learning_rate": 1.4192083180069441e-05,
      "loss": 0.7073,
      "step": 2557
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.113191563162872,
      "learning_rate": 1.4187694658626092e-05,
      "loss": 0.7819,
      "step": 2558
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.2899010238300965,
      "learning_rate": 1.4183305158936851e-05,
      "loss": 0.7787,
      "step": 2559
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.1140412036990455,
      "learning_rate": 1.417891468202711e-05,
      "loss": 0.7372,
      "step": 2560
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8195761371477313,
      "learning_rate": 1.4174523228922486e-05,
      "loss": 0.7464,
      "step": 2561
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9188383371842472,
      "learning_rate": 1.4170130800648814e-05,
      "loss": 0.7967,
      "step": 2562
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.350885569976324,
      "learning_rate": 1.4165737398232173e-05,
      "loss": 0.7943,
      "step": 2563
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.3244603506231916,
      "learning_rate": 1.4161343022698864e-05,
      "loss": 0.8251,
      "step": 2564
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9507589756831827,
      "learning_rate": 1.4156947675075408e-05,
      "loss": 0.7979,
      "step": 2565
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.2173192549560845,
      "learning_rate": 1.415255135638856e-05,
      "loss": 0.6849,
      "step": 2566
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.6150407461931495,
      "learning_rate": 1.4148154067665305e-05,
      "loss": 0.797,
      "step": 2567
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.144482380840021,
      "learning_rate": 1.4143755809932843e-05,
      "loss": 0.7404,
      "step": 2568
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.4023429813932506,
      "learning_rate": 1.4139356584218614e-05,
      "loss": 0.8304,
      "step": 2569
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.611977070643315,
      "learning_rate": 1.4134956391550269e-05,
      "loss": 0.7676,
      "step": 2570
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.528973517882747,
      "learning_rate": 1.4130555232955706e-05,
      "loss": 0.6974,
      "step": 2571
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.5945901222982646,
      "learning_rate": 1.4126153109463025e-05,
      "loss": 0.7638,
      "step": 2572
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.579952910765111,
      "learning_rate": 1.4121750022100566e-05,
      "loss": 0.7098,
      "step": 2573
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.875246107870698,
      "learning_rate": 1.4117345971896894e-05,
      "loss": 0.7772,
      "step": 2574
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8840457514452655,
      "learning_rate": 1.4112940959880791e-05,
      "loss": 0.739,
      "step": 2575
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0441628135899017,
      "learning_rate": 1.4108534987081273e-05,
      "loss": 0.7992,
      "step": 2576
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.155666959915544,
      "learning_rate": 1.410412805452757e-05,
      "loss": 0.6577,
      "step": 2577
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.240911984908163,
      "learning_rate": 1.4099720163249144e-05,
      "loss": 0.8126,
      "step": 2578
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.8909510997263963,
      "learning_rate": 1.4095311314275678e-05,
      "loss": 0.8215,
      "step": 2579
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.435793392647254,
      "learning_rate": 1.4090901508637087e-05,
      "loss": 0.7247,
      "step": 2580
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.3875978988169293,
      "learning_rate": 1.4086490747363492e-05,
      "loss": 0.7461,
      "step": 2581
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.315064773809358,
      "learning_rate": 1.4082079031485253e-05,
      "loss": 0.6467,
      "step": 2582
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.735110026080892,
      "learning_rate": 1.4077666362032942e-05,
      "loss": 0.7831,
      "step": 2583
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.9215493611785548,
      "learning_rate": 1.4073252740037367e-05,
      "loss": 0.7192,
      "step": 2584
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.144929180830335,
      "learning_rate": 1.4068838166529544e-05,
      "loss": 0.7506,
      "step": 2585
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.9253045681419465,
      "learning_rate": 1.4064422642540719e-05,
      "loss": 0.8171,
      "step": 2586
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.0529690208656444,
      "learning_rate": 1.4060006169102363e-05,
      "loss": 0.669,
      "step": 2587
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.9232750742535254,
      "learning_rate": 1.4055588747246158e-05,
      "loss": 0.6463,
      "step": 2588
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1681806985176277,
      "learning_rate": 1.4051170378004018e-05,
      "loss": 0.7499,
      "step": 2589
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.8414973196303557,
      "learning_rate": 1.4046751062408076e-05,
      "loss": 0.7633,
      "step": 2590
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.425618474663075,
      "learning_rate": 1.4042330801490682e-05,
      "loss": 0.8333,
      "step": 2591
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.916611203521031,
      "learning_rate": 1.403790959628441e-05,
      "loss": 0.7709,
      "step": 2592
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.6702202006266065,
      "learning_rate": 1.4033487447822053e-05,
      "loss": 0.7376,
      "step": 2593
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1152012494086323,
      "learning_rate": 1.4029064357136628e-05,
      "loss": 0.717,
      "step": 2594
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.711536361069284,
      "learning_rate": 1.4024640325261367e-05,
      "loss": 0.6161,
      "step": 2595
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.064023058697638,
      "learning_rate": 1.4020215353229726e-05,
      "loss": 0.7594,
      "step": 2596
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1762216481376715,
      "learning_rate": 1.4015789442075376e-05,
      "loss": 0.7106,
      "step": 2597
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.097130825054505,
      "learning_rate": 1.4011362592832214e-05,
      "loss": 0.7437,
      "step": 2598
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.4440208706922495,
      "learning_rate": 1.400693480653435e-05,
      "loss": 0.8319,
      "step": 2599
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.9178376688713663,
      "learning_rate": 1.4002506084216117e-05,
      "loss": 0.7283,
      "step": 2600
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1041442317355514,
      "learning_rate": 1.3998076426912061e-05,
      "loss": 0.7777,
      "step": 2601
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1483613476518864,
      "learning_rate": 1.3993645835656955e-05,
      "loss": 0.663,
      "step": 2602
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1336537086701077,
      "learning_rate": 1.3989214311485787e-05,
      "loss": 0.8206,
      "step": 2603
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.195710729916656,
      "learning_rate": 1.3984781855433756e-05,
      "loss": 0.7632,
      "step": 2604
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1681580518302344,
      "learning_rate": 1.3980348468536287e-05,
      "loss": 0.7275,
      "step": 2605
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1364880868829834,
      "learning_rate": 1.3975914151829017e-05,
      "loss": 0.8286,
      "step": 2606
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.172690581462773,
      "learning_rate": 1.3971478906347806e-05,
      "loss": 0.7344,
      "step": 2607
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.728893929177524,
      "learning_rate": 1.396704273312873e-05,
      "loss": 0.7329,
      "step": 2608
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.3473799461488585,
      "learning_rate": 1.3962605633208073e-05,
      "loss": 0.7177,
      "step": 2609
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.3584053138940413,
      "learning_rate": 1.3958167607622347e-05,
      "loss": 0.7773,
      "step": 2610
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.4643700963935715,
      "learning_rate": 1.3953728657408272e-05,
      "loss": 0.7521,
      "step": 2611
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1415953074054364,
      "learning_rate": 1.394928878360279e-05,
      "loss": 0.671,
      "step": 2612
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.667209188053547,
      "learning_rate": 1.3944847987243056e-05,
      "loss": 0.7736,
      "step": 2613
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.385946677859922,
      "learning_rate": 1.3940406269366436e-05,
      "loss": 0.7536,
      "step": 2614
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.6564398649328904,
      "learning_rate": 1.393596363101052e-05,
      "loss": 0.6383,
      "step": 2615
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.9077162056498786,
      "learning_rate": 1.393152007321311e-05,
      "loss": 0.6535,
      "step": 2616
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7277967498095108,
      "learning_rate": 1.3927075597012215e-05,
      "loss": 0.6747,
      "step": 2617
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.359566686675684,
      "learning_rate": 1.3922630203446072e-05,
      "loss": 0.7343,
      "step": 2618
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.6144668120953227,
      "learning_rate": 1.3918183893553123e-05,
      "loss": 0.6684,
      "step": 2619
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.148618458354883,
      "learning_rate": 1.3913736668372027e-05,
      "loss": 0.8072,
      "step": 2620
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.9512089650179747,
      "learning_rate": 1.3909288528941653e-05,
      "loss": 0.7309,
      "step": 2621
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.489249947348136,
      "learning_rate": 1.3904839476301091e-05,
      "loss": 0.6973,
      "step": 2622
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.355292976011346,
      "learning_rate": 1.3900389511489639e-05,
      "loss": 0.7649,
      "step": 2623
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.2885562919937663,
      "learning_rate": 1.3895938635546804e-05,
      "loss": 0.7369,
      "step": 2624
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.2131734071647675,
      "learning_rate": 1.3891486849512322e-05,
      "loss": 0.7677,
      "step": 2625
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.9282057723583055,
      "learning_rate": 1.388703415442612e-05,
      "loss": 0.7797,
      "step": 2626
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.0639384990206566,
      "learning_rate": 1.388258055132835e-05,
      "loss": 0.7227,
      "step": 2627
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.8789914750032122,
      "learning_rate": 1.3878126041259381e-05,
      "loss": 0.7665,
      "step": 2628
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.259254019336444,
      "learning_rate": 1.3873670625259781e-05,
      "loss": 0.7751,
      "step": 2629
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.3103516569707128,
      "learning_rate": 1.3869214304370338e-05,
      "loss": 0.8894,
      "step": 2630
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.387992545194266,
      "learning_rate": 1.3864757079632045e-05,
      "loss": 0.7733,
      "step": 2631
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.6938780536188442,
      "learning_rate": 1.3860298952086118e-05,
      "loss": 0.7748,
      "step": 2632
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.7054552704365005,
      "learning_rate": 1.3855839922773968e-05,
      "loss": 0.7232,
      "step": 2633
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2621126955456665,
      "learning_rate": 1.3851379992737229e-05,
      "loss": 0.7611,
      "step": 2634
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.228793343319916,
      "learning_rate": 1.3846919163017738e-05,
      "loss": 0.753,
      "step": 2635
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.9804201683706277,
      "learning_rate": 1.3842457434657548e-05,
      "loss": 0.6643,
      "step": 2636
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.148159500394993,
      "learning_rate": 1.383799480869892e-05,
      "loss": 0.793,
      "step": 2637
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.1581762178103188,
      "learning_rate": 1.3833531286184324e-05,
      "loss": 0.7236,
      "step": 2638
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.0531452601463847,
      "learning_rate": 1.3829066868156433e-05,
      "loss": 0.841,
      "step": 2639
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.120879104015617,
      "learning_rate": 1.382460155565814e-05,
      "loss": 0.7934,
      "step": 2640
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.304859408749721,
      "learning_rate": 1.3820135349732546e-05,
      "loss": 0.7303,
      "step": 2641
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7562191777585925,
      "learning_rate": 1.3815668251422953e-05,
      "loss": 0.7487,
      "step": 2642
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.5827421194336146,
      "learning_rate": 1.3811200261772877e-05,
      "loss": 0.7182,
      "step": 2643
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.2714256180171115,
      "learning_rate": 1.380673138182604e-05,
      "loss": 0.7299,
      "step": 2644
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.9350009510830584,
      "learning_rate": 1.3802261612626372e-05,
      "loss": 0.69,
      "step": 2645
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.4442553867127046,
      "learning_rate": 1.3797790955218014e-05,
      "loss": 0.8003,
      "step": 2646
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.8967608444411257,
      "learning_rate": 1.3793319410645307e-05,
      "loss": 0.8046,
      "step": 2647
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.0292330444983735,
      "learning_rate": 1.378884697995281e-05,
      "loss": 0.782,
      "step": 2648
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.107785112710463,
      "learning_rate": 1.3784373664185282e-05,
      "loss": 0.7858,
      "step": 2649
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.130427550770551,
      "learning_rate": 1.3779899464387688e-05,
      "loss": 0.7343,
      "step": 2650
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.724491339870499,
      "learning_rate": 1.3775424381605205e-05,
      "loss": 0.8175,
      "step": 2651
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9551761692877412,
      "learning_rate": 1.3770948416883205e-05,
      "loss": 0.7733,
      "step": 2652
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.4756403623386833,
      "learning_rate": 1.3766471571267284e-05,
      "loss": 0.7238,
      "step": 2653
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.8462476778119856,
      "learning_rate": 1.3761993845803225e-05,
      "loss": 0.8282,
      "step": 2654
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7266980720433398,
      "learning_rate": 1.3757515241537031e-05,
      "loss": 0.7342,
      "step": 2655
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.5583608249929615,
      "learning_rate": 1.3753035759514904e-05,
      "loss": 0.8699,
      "step": 2656
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9233002581748562,
      "learning_rate": 1.3748555400783245e-05,
      "loss": 0.7686,
      "step": 2657
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.5623458931497316,
      "learning_rate": 1.3744074166388677e-05,
      "loss": 0.8666,
      "step": 2658
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9067941575825966,
      "learning_rate": 1.3739592057378005e-05,
      "loss": 0.6988,
      "step": 2659
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.3273351540270624,
      "learning_rate": 1.3735109074798259e-05,
      "loss": 0.6712,
      "step": 2660
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.0070990547673118,
      "learning_rate": 1.373062521969666e-05,
      "loss": 0.8126,
      "step": 2661
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.802918896326761,
      "learning_rate": 1.3726140493120639e-05,
      "loss": 0.7292,
      "step": 2662
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.6116217159322033,
      "learning_rate": 1.3721654896117826e-05,
      "loss": 0.7854,
      "step": 2663
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1879945275132617,
      "learning_rate": 1.3717168429736061e-05,
      "loss": 0.7641,
      "step": 2664
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.401866316497136,
      "learning_rate": 1.3712681095023376e-05,
      "loss": 0.8158,
      "step": 2665
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.0023683435593984,
      "learning_rate": 1.370819289302802e-05,
      "loss": 0.775,
      "step": 2666
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.2536353445596258,
      "learning_rate": 1.3703703824798438e-05,
      "loss": 0.6817,
      "step": 2667
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7973197718800271,
      "learning_rate": 1.369921389138327e-05,
      "loss": 0.7334,
      "step": 2668
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.276154202320442,
      "learning_rate": 1.369472309383137e-05,
      "loss": 0.8391,
      "step": 2669
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1507220600854304,
      "learning_rate": 1.3690231433191787e-05,
      "loss": 0.7421,
      "step": 2670
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.4699394852986725,
      "learning_rate": 1.3685738910513771e-05,
      "loss": 0.7141,
      "step": 2671
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.52523990748188,
      "learning_rate": 1.3681245526846782e-05,
      "loss": 0.7306,
      "step": 2672
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.2280670563369434,
      "learning_rate": 1.3676751283240469e-05,
      "loss": 0.7143,
      "step": 2673
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.863651236548805,
      "learning_rate": 1.367225618074469e-05,
      "loss": 0.7691,
      "step": 2674
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1004881972142693,
      "learning_rate": 1.3667760220409503e-05,
      "loss": 0.7576,
      "step": 2675
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8805834141789022,
      "learning_rate": 1.366326340328516e-05,
      "loss": 0.7627,
      "step": 2676
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7782800230320674,
      "learning_rate": 1.3658765730422126e-05,
      "loss": 0.6924,
      "step": 2677
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8474820686204092,
      "learning_rate": 1.3654267202871047e-05,
      "loss": 0.8317,
      "step": 2678
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.6434796411813157,
      "learning_rate": 1.3649767821682788e-05,
      "loss": 0.7759,
      "step": 2679
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.375504423058578,
      "learning_rate": 1.3645267587908404e-05,
      "loss": 0.8371,
      "step": 2680
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.171863465338931,
      "learning_rate": 1.3640766502599148e-05,
      "loss": 0.7603,
      "step": 2681
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8588262153183222,
      "learning_rate": 1.3636264566806473e-05,
      "loss": 0.7541,
      "step": 2682
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.30544623844521,
      "learning_rate": 1.3631761781582031e-05,
      "loss": 0.6783,
      "step": 2683
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.257377453725851,
      "learning_rate": 1.3627258147977678e-05,
      "loss": 0.7461,
      "step": 2684
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.859490299361259,
      "learning_rate": 1.3622753667045459e-05,
      "loss": 0.7362,
      "step": 2685
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.4962503106155074,
      "learning_rate": 1.361824833983762e-05,
      "loss": 0.7561,
      "step": 2686
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.039432049873541,
      "learning_rate": 1.3613742167406614e-05,
      "loss": 0.796,
      "step": 2687
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.29145716305962,
      "learning_rate": 1.3609235150805074e-05,
      "loss": 0.7723,
      "step": 2688
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.337840069916752,
      "learning_rate": 1.3604727291085845e-05,
      "loss": 0.7144,
      "step": 2689
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.247032629350737,
      "learning_rate": 1.3600218589301962e-05,
      "loss": 0.7747,
      "step": 2690
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7604217144283032,
      "learning_rate": 1.3595709046506656e-05,
      "loss": 0.8311,
      "step": 2691
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.529703838675785,
      "learning_rate": 1.3591198663753358e-05,
      "loss": 0.7069,
      "step": 2692
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3632247112047575,
      "learning_rate": 1.3586687442095697e-05,
      "loss": 0.7374,
      "step": 2693
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1536311121995797,
      "learning_rate": 1.3582175382587491e-05,
      "loss": 0.752,
      "step": 2694
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1960740833848194,
      "learning_rate": 1.3577662486282757e-05,
      "loss": 0.7139,
      "step": 2695
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.539548387556194,
      "learning_rate": 1.3573148754235712e-05,
      "loss": 0.7913,
      "step": 2696
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9730050382817859,
      "learning_rate": 1.3568634187500762e-05,
      "loss": 0.7596,
      "step": 2697
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8625458137401323,
      "learning_rate": 1.3564118787132507e-05,
      "loss": 0.7121,
      "step": 2698
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4948033841447914,
      "learning_rate": 1.3559602554185751e-05,
      "loss": 0.6966,
      "step": 2699
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7092491128595098,
      "learning_rate": 1.3555085489715487e-05,
      "loss": 0.6383,
      "step": 2700
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.0585803313556053,
      "learning_rate": 1.3550567594776893e-05,
      "loss": 0.7484,
      "step": 2701
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.982304925040694,
      "learning_rate": 1.3546048870425356e-05,
      "loss": 0.7316,
      "step": 2702
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.717944376676657,
      "learning_rate": 1.3541529317716453e-05,
      "loss": 0.7849,
      "step": 2703
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.238608663385539,
      "learning_rate": 1.3537008937705947e-05,
      "loss": 0.7174,
      "step": 2704
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6807382206763728,
      "learning_rate": 1.35324877314498e-05,
      "loss": 0.6887,
      "step": 2705
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6334068455732391,
      "learning_rate": 1.3527965700004168e-05,
      "loss": 0.7567,
      "step": 2706
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.214144586218816,
      "learning_rate": 1.3523442844425393e-05,
      "loss": 0.7628,
      "step": 2707
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.017651249117195,
      "learning_rate": 1.3518919165770023e-05,
      "loss": 0.816,
      "step": 2708
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1614497245812556,
      "learning_rate": 1.3514394665094786e-05,
      "loss": 0.7893,
      "step": 2709
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.4668114572195465,
      "learning_rate": 1.3509869343456603e-05,
      "loss": 0.7691,
      "step": 2710
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.749630912927447,
      "learning_rate": 1.350534320191259e-05,
      "loss": 0.7722,
      "step": 2711
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8941787234917147,
      "learning_rate": 1.3500816241520059e-05,
      "loss": 0.738,
      "step": 2712
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.885247672085947,
      "learning_rate": 1.3496288463336504e-05,
      "loss": 0.8008,
      "step": 2713
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8336785290305038,
      "learning_rate": 1.3491759868419616e-05,
      "loss": 0.7385,
      "step": 2714
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1856285826934734,
      "learning_rate": 1.3487230457827273e-05,
      "loss": 0.7043,
      "step": 2715
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.2414607740075447,
      "learning_rate": 1.3482700232617552e-05,
      "loss": 0.7705,
      "step": 2716
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1475086688824576,
      "learning_rate": 1.3478169193848705e-05,
      "loss": 0.6893,
      "step": 2717
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.2917214296907877,
      "learning_rate": 1.3473637342579191e-05,
      "loss": 0.6999,
      "step": 2718
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.2047171445389853,
      "learning_rate": 1.3469104679867646e-05,
      "loss": 0.7572,
      "step": 2719
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.972343056659057,
      "learning_rate": 1.3464571206772903e-05,
      "loss": 0.7424,
      "step": 2720
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.53771772887171,
      "learning_rate": 1.346003692435398e-05,
      "loss": 0.7189,
      "step": 2721
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.4159381103332938,
      "learning_rate": 1.3455501833670089e-05,
      "loss": 0.6594,
      "step": 2722
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9904276565925636,
      "learning_rate": 1.3450965935780622e-05,
      "loss": 0.7107,
      "step": 2723
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.7951204742485263,
      "learning_rate": 1.344642923174517e-05,
      "loss": 0.7418,
      "step": 2724
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.244689768604046,
      "learning_rate": 1.3441891722623507e-05,
      "loss": 0.7123,
      "step": 2725
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.026452389580854,
      "learning_rate": 1.3437353409475596e-05,
      "loss": 0.8085,
      "step": 2726
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.137206754382099,
      "learning_rate": 1.3432814293361585e-05,
      "loss": 0.6822,
      "step": 2727
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1041176263165373,
      "learning_rate": 1.3428274375341812e-05,
      "loss": 0.7042,
      "step": 2728
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.0959565739104686,
      "learning_rate": 1.3423733656476806e-05,
      "loss": 0.7743,
      "step": 2729
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.667863387001484,
      "learning_rate": 1.341919213782727e-05,
      "loss": 0.7647,
      "step": 2730
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.0618509584319145,
      "learning_rate": 1.3414649820454118e-05,
      "loss": 0.6717,
      "step": 2731
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8917202146416252,
      "learning_rate": 1.3410106705418424e-05,
      "loss": 0.7884,
      "step": 2732
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1567148424191522,
      "learning_rate": 1.3405562793781463e-05,
      "loss": 0.7066,
      "step": 2733
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3595948287462694,
      "learning_rate": 1.3401018086604698e-05,
      "loss": 0.7538,
      "step": 2734
    },
    {
      "epoch": 0.41,
      "grad_norm": 5.0122206683673465,
      "learning_rate": 1.3396472584949765e-05,
      "loss": 0.6922,
      "step": 2735
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0402931633368835,
      "learning_rate": 1.33919262898785e-05,
      "loss": 0.6921,
      "step": 2736
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.5384601096785393,
      "learning_rate": 1.3387379202452917e-05,
      "loss": 0.726,
      "step": 2737
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.743500388614794,
      "learning_rate": 1.3382831323735213e-05,
      "loss": 0.6929,
      "step": 2738
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8253787333127776,
      "learning_rate": 1.3378282654787774e-05,
      "loss": 0.7337,
      "step": 2739
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1416964800009786,
      "learning_rate": 1.337373319667317e-05,
      "loss": 0.7177,
      "step": 2740
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9933851679348689,
      "learning_rate": 1.3369182950454155e-05,
      "loss": 0.8801,
      "step": 2741
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.7045466868293464,
      "learning_rate": 1.3364631917193671e-05,
      "loss": 0.7081,
      "step": 2742
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.2401997720939337,
      "learning_rate": 1.3360080097954833e-05,
      "loss": 0.7422,
      "step": 2743
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3220740342789112,
      "learning_rate": 1.3355527493800948e-05,
      "loss": 0.7264,
      "step": 2744
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8020391750757323,
      "learning_rate": 1.3350974105795511e-05,
      "loss": 0.7314,
      "step": 2745
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.0071498591014394,
      "learning_rate": 1.3346419935002186e-05,
      "loss": 0.7378,
      "step": 2746
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.035417335902181,
      "learning_rate": 1.3341864982484828e-05,
      "loss": 0.6979,
      "step": 2747
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.091843132500701,
      "learning_rate": 1.3337309249307482e-05,
      "loss": 0.7667,
      "step": 2748
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8860243308799125,
      "learning_rate": 1.333275273653436e-05,
      "loss": 0.7445,
      "step": 2749
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.7947299349273158,
      "learning_rate": 1.3328195445229869e-05,
      "loss": 0.7742,
      "step": 2750
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.854816829413518,
      "learning_rate": 1.332363737645859e-05,
      "loss": 0.753,
      "step": 2751
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9205943276561048,
      "learning_rate": 1.3319078531285286e-05,
      "loss": 0.7478,
      "step": 2752
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.463407342933122,
      "learning_rate": 1.331451891077491e-05,
      "loss": 0.7828,
      "step": 2753
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.92357289930711,
      "learning_rate": 1.3309958515992585e-05,
      "loss": 0.5994,
      "step": 2754
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.770603977900256,
      "learning_rate": 1.3305397348003618e-05,
      "loss": 0.7813,
      "step": 2755
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.4490900921107004,
      "learning_rate": 1.3300835407873505e-05,
      "loss": 0.8322,
      "step": 2756
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.222594064279434,
      "learning_rate": 1.329627269666791e-05,
      "loss": 0.7387,
      "step": 2757
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.0262101745072147,
      "learning_rate": 1.3291709215452686e-05,
      "loss": 0.7817,
      "step": 2758
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.0165264488671606,
      "learning_rate": 1.3287144965293858e-05,
      "loss": 0.7298,
      "step": 2759
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.282427221537608,
      "learning_rate": 1.3282579947257643e-05,
      "loss": 0.8212,
      "step": 2760
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.92536374804609,
      "learning_rate": 1.3278014162410425e-05,
      "loss": 0.7265,
      "step": 2761
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.3306022710982317,
      "learning_rate": 1.3273447611818768e-05,
      "loss": 0.7339,
      "step": 2762
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1164525072927356,
      "learning_rate": 1.3268880296549424e-05,
      "loss": 0.7332,
      "step": 2763
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.0654072560844012,
      "learning_rate": 1.3264312217669321e-05,
      "loss": 0.8,
      "step": 2764
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.19979765674144,
      "learning_rate": 1.3259743376245556e-05,
      "loss": 0.746,
      "step": 2765
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.864811132220001,
      "learning_rate": 1.3255173773345413e-05,
      "loss": 0.8051,
      "step": 2766
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.4434312964542833,
      "learning_rate": 1.3250603410036356e-05,
      "loss": 0.7298,
      "step": 2767
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.7336392019008202,
      "learning_rate": 1.3246032287386015e-05,
      "loss": 0.8074,
      "step": 2768
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.8826269546792593,
      "learning_rate": 1.3241460406462208e-05,
      "loss": 0.672,
      "step": 2769
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.390594831585535,
      "learning_rate": 1.3236887768332927e-05,
      "loss": 0.7895,
      "step": 2770
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.9325099703578497,
      "learning_rate": 1.3232314374066343e-05,
      "loss": 0.764,
      "step": 2771
    },
    {
      "epoch": 0.41,
      "grad_norm": 122.00165581748593,
      "learning_rate": 1.3227740224730799e-05,
      "loss": 0.9613,
      "step": 2772
    },
    {
      "epoch": 0.41,
      "grad_norm": 250.4852410538477,
      "learning_rate": 1.3223165321394814e-05,
      "loss": 1.5824,
      "step": 2773
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.411129913885041,
      "learning_rate": 1.3218589665127093e-05,
      "loss": 0.7915,
      "step": 2774
    },
    {
      "epoch": 0.41,
      "grad_norm": 35.85709112137917,
      "learning_rate": 1.3214013256996503e-05,
      "loss": 1.0201,
      "step": 2775
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.761560703641172,
      "learning_rate": 1.3209436098072095e-05,
      "loss": 0.8165,
      "step": 2776
    },
    {
      "epoch": 0.41,
      "grad_norm": 5.858983749611957,
      "learning_rate": 1.3204858189423097e-05,
      "loss": 0.8676,
      "step": 2777
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.381395609707013,
      "learning_rate": 1.3200279532118907e-05,
      "loss": 0.7772,
      "step": 2778
    },
    {
      "epoch": 0.41,
      "grad_norm": 5.1499035421360695,
      "learning_rate": 1.3195700127229097e-05,
      "loss": 0.8871,
      "step": 2779
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.651334359057392,
      "learning_rate": 1.3191119975823421e-05,
      "loss": 0.768,
      "step": 2780
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.501051369115342,
      "learning_rate": 1.31865390789718e-05,
      "loss": 0.7705,
      "step": 2781
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.511452704767331,
      "learning_rate": 1.3181957437744333e-05,
      "loss": 0.8226,
      "step": 2782
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.582173927378572,
      "learning_rate": 1.3177375053211293e-05,
      "loss": 0.7711,
      "step": 2783
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.2518919031468645,
      "learning_rate": 1.3172791926443122e-05,
      "loss": 0.7444,
      "step": 2784
    },
    {
      "epoch": 0.42,
      "grad_norm": 7.381417761122297,
      "learning_rate": 1.3168208058510441e-05,
      "loss": 0.8533,
      "step": 2785
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.7682002590429806,
      "learning_rate": 1.316362345048404e-05,
      "loss": 0.7357,
      "step": 2786
    },
    {
      "epoch": 0.42,
      "grad_norm": 25.57601220029349,
      "learning_rate": 1.3159038103434889e-05,
      "loss": 0.9876,
      "step": 2787
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.814603848596506,
      "learning_rate": 1.3154452018434123e-05,
      "loss": 0.8564,
      "step": 2788
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.122973126785134,
      "learning_rate": 1.3149865196553049e-05,
      "loss": 0.8291,
      "step": 2789
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.8992841454034455,
      "learning_rate": 1.3145277638863152e-05,
      "loss": 0.8525,
      "step": 2790
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.7249917096644065,
      "learning_rate": 1.3140689346436083e-05,
      "loss": 0.7775,
      "step": 2791
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.0123109974580875,
      "learning_rate": 1.3136100320343674e-05,
      "loss": 0.7885,
      "step": 2792
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.428119374657577,
      "learning_rate": 1.3131510561657917e-05,
      "loss": 0.8721,
      "step": 2793
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.338671906509004,
      "learning_rate": 1.3126920071450977e-05,
      "loss": 0.7914,
      "step": 2794
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.5261111147747197,
      "learning_rate": 1.3122328850795203e-05,
      "loss": 0.806,
      "step": 2795
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.954789317687053,
      "learning_rate": 1.3117736900763091e-05,
      "loss": 0.7809,
      "step": 2796
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.390698235371125,
      "learning_rate": 1.3113144222427334e-05,
      "loss": 0.8011,
      "step": 2797
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.071507747570059,
      "learning_rate": 1.3108550816860777e-05,
      "loss": 0.8934,
      "step": 2798
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.759709713457268,
      "learning_rate": 1.3103956685136435e-05,
      "loss": 0.8953,
      "step": 2799
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.628212258532819,
      "learning_rate": 1.3099361828327506e-05,
      "loss": 0.8363,
      "step": 2800
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.3123115048716936,
      "learning_rate": 1.3094766247507343e-05,
      "loss": 0.7645,
      "step": 2801
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.5414537133165624,
      "learning_rate": 1.3090169943749475e-05,
      "loss": 0.7625,
      "step": 2802
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.176105003242062,
      "learning_rate": 1.3085572918127605e-05,
      "loss": 0.768,
      "step": 2803
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.033001680460852,
      "learning_rate": 1.3080975171715592e-05,
      "loss": 0.7727,
      "step": 2804
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.6947822461912874,
      "learning_rate": 1.3076376705587468e-05,
      "loss": 0.7077,
      "step": 2805
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.4584281121163714,
      "learning_rate": 1.3071777520817443e-05,
      "loss": 0.7602,
      "step": 2806
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.51157606732499,
      "learning_rate": 1.3067177618479883e-05,
      "loss": 0.7621,
      "step": 2807
    },
    {
      "epoch": 0.42,
      "grad_norm": 8.579605992927387,
      "learning_rate": 1.3062576999649323e-05,
      "loss": 0.8202,
      "step": 2808
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.5270540794220158,
      "learning_rate": 1.3057975665400475e-05,
      "loss": 0.6686,
      "step": 2809
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.9570784991791856,
      "learning_rate": 1.3053373616808202e-05,
      "loss": 0.7857,
      "step": 2810
    },
    {
      "epoch": 0.42,
      "grad_norm": 9.303588167961916,
      "learning_rate": 1.3048770854947553e-05,
      "loss": 0.7653,
      "step": 2811
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.7465697716360342,
      "learning_rate": 1.3044167380893726e-05,
      "loss": 0.6231,
      "step": 2812
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.022839221994937,
      "learning_rate": 1.3039563195722096e-05,
      "loss": 0.7646,
      "step": 2813
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.1830226015851553,
      "learning_rate": 1.3034958300508197e-05,
      "loss": 0.7016,
      "step": 2814
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.101042285454631,
      "learning_rate": 1.3030352696327741e-05,
      "loss": 0.6708,
      "step": 2815
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.3994582628157004,
      "learning_rate": 1.3025746384256595e-05,
      "loss": 0.8723,
      "step": 2816
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.221193864979965,
      "learning_rate": 1.3021139365370787e-05,
      "loss": 0.7359,
      "step": 2817
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.1314615227691727,
      "learning_rate": 1.3016531640746524e-05,
      "loss": 0.7117,
      "step": 2818
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.4888907463235723,
      "learning_rate": 1.301192321146017e-05,
      "loss": 0.8033,
      "step": 2819
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.7310077161809057,
      "learning_rate": 1.3007314078588255e-05,
      "loss": 0.7787,
      "step": 2820
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.829978815860664,
      "learning_rate": 1.3002704243207468e-05,
      "loss": 0.6305,
      "step": 2821
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.5038014454869293,
      "learning_rate": 1.2998093706394676e-05,
      "loss": 0.7348,
      "step": 2822
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.4892708910189687,
      "learning_rate": 1.2993482469226892e-05,
      "loss": 0.8136,
      "step": 2823
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.797764086415836,
      "learning_rate": 1.2988870532781306e-05,
      "loss": 0.7715,
      "step": 2824
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.645171557276739,
      "learning_rate": 1.2984257898135266e-05,
      "loss": 0.7181,
      "step": 2825
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.813746790220851,
      "learning_rate": 1.2979644566366284e-05,
      "loss": 0.761,
      "step": 2826
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.959027569698897,
      "learning_rate": 1.297503053855203e-05,
      "loss": 0.7062,
      "step": 2827
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.3194905477468493,
      "learning_rate": 1.297041581577035e-05,
      "loss": 0.7713,
      "step": 2828
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.435373895691234,
      "learning_rate": 1.296580039909924e-05,
      "loss": 0.7156,
      "step": 2829
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.0203817157698416,
      "learning_rate": 1.296118428961686e-05,
      "loss": 0.7573,
      "step": 2830
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.1736309714582784,
      "learning_rate": 1.2956567488401534e-05,
      "loss": 0.6832,
      "step": 2831
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.2740431166083,
      "learning_rate": 1.295194999653175e-05,
      "loss": 0.7194,
      "step": 2832
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.264334733262757,
      "learning_rate": 1.2947331815086153e-05,
      "loss": 0.6911,
      "step": 2833
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.15261102111148,
      "learning_rate": 1.2942712945143547e-05,
      "loss": 0.6717,
      "step": 2834
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.316653805984193,
      "learning_rate": 1.2938093387782908e-05,
      "loss": 0.7176,
      "step": 2835
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.407648316614592,
      "learning_rate": 1.2933473144083359e-05,
      "loss": 0.7475,
      "step": 2836
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.3315219537837413,
      "learning_rate": 1.292885221512419e-05,
      "loss": 0.6786,
      "step": 2837
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.511100996962529,
      "learning_rate": 1.2924230601984855e-05,
      "loss": 0.6866,
      "step": 2838
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4480863672135615,
      "learning_rate": 1.291960830574496e-05,
      "loss": 0.6904,
      "step": 2839
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.884717915742228,
      "learning_rate": 1.291498532748427e-05,
      "loss": 0.764,
      "step": 2840
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.8374094281583484,
      "learning_rate": 1.2910361668282718e-05,
      "loss": 0.7931,
      "step": 2841
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.123836253207729,
      "learning_rate": 1.2905737329220394e-05,
      "loss": 0.8342,
      "step": 2842
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.962552344194007,
      "learning_rate": 1.2901112311377536e-05,
      "loss": 0.7559,
      "step": 2843
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1452037827726451,
      "learning_rate": 1.2896486615834557e-05,
      "loss": 0.6951,
      "step": 2844
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.4216357810501363,
      "learning_rate": 1.2891860243672014e-05,
      "loss": 0.7584,
      "step": 2845
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.4068199539311457,
      "learning_rate": 1.288723319597063e-05,
      "loss": 0.6961,
      "step": 2846
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.4707734057711908,
      "learning_rate": 1.2882605473811282e-05,
      "loss": 0.7697,
      "step": 2847
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.367837210316376,
      "learning_rate": 1.2877977078275012e-05,
      "loss": 0.7791,
      "step": 2848
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.3430284553868197,
      "learning_rate": 1.2873348010443007e-05,
      "loss": 0.7442,
      "step": 2849
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.4476627136755034,
      "learning_rate": 1.2868718271396622e-05,
      "loss": 0.7262,
      "step": 2850
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.3185846658881255,
      "learning_rate": 1.2864087862217365e-05,
      "loss": 0.7706,
      "step": 2851
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.075808428299298,
      "learning_rate": 1.2859456783986892e-05,
      "loss": 0.7397,
      "step": 2852
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.2665730532580697,
      "learning_rate": 1.2854825037787034e-05,
      "loss": 0.775,
      "step": 2853
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.293485702957052,
      "learning_rate": 1.2850192624699762e-05,
      "loss": 0.8536,
      "step": 2854
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.8983581472868643,
      "learning_rate": 1.2845559545807208e-05,
      "loss": 0.7781,
      "step": 2855
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3594473286012152,
      "learning_rate": 1.2840925802191661e-05,
      "loss": 0.7442,
      "step": 2856
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.475919478843477,
      "learning_rate": 1.2836291394935568e-05,
      "loss": 0.7902,
      "step": 2857
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.3363528395683546,
      "learning_rate": 1.2831656325121516e-05,
      "loss": 0.7535,
      "step": 2858
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.2037761427213405,
      "learning_rate": 1.2827020593832269e-05,
      "loss": 0.7228,
      "step": 2859
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.2359956711921187,
      "learning_rate": 1.2822384202150726e-05,
      "loss": 0.7824,
      "step": 2860
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.7172736663228756,
      "learning_rate": 1.2817747151159954e-05,
      "loss": 0.751,
      "step": 2861
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.0006742728363975,
      "learning_rate": 1.2813109441943166e-05,
      "loss": 0.8008,
      "step": 2862
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.1888761716965774,
      "learning_rate": 1.2808471075583733e-05,
      "loss": 0.7954,
      "step": 2863
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.5637065748792787,
      "learning_rate": 1.2803832053165177e-05,
      "loss": 0.8561,
      "step": 2864
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.435611942803234,
      "learning_rate": 1.2799192375771172e-05,
      "loss": 0.7305,
      "step": 2865
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.9395596486880806,
      "learning_rate": 1.279455204448555e-05,
      "loss": 0.7023,
      "step": 2866
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.6009609549197155,
      "learning_rate": 1.2789911060392295e-05,
      "loss": 0.7532,
      "step": 2867
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.244343986233834,
      "learning_rate": 1.2785269424575537e-05,
      "loss": 0.6493,
      "step": 2868
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.042556019840087,
      "learning_rate": 1.278062713811956e-05,
      "loss": 0.5897,
      "step": 2869
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.148375718967257,
      "learning_rate": 1.2775984202108811e-05,
      "loss": 0.6275,
      "step": 2870
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.0200069854327323,
      "learning_rate": 1.2771340617627877e-05,
      "loss": 0.6733,
      "step": 2871
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.2587847636193246,
      "learning_rate": 1.2766696385761494e-05,
      "loss": 0.7475,
      "step": 2872
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.141732939993691,
      "learning_rate": 1.2762051507594562e-05,
      "loss": 0.7087,
      "step": 2873
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.8221874648665153,
      "learning_rate": 1.2757405984212123e-05,
      "loss": 0.7929,
      "step": 2874
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.842075970475953,
      "learning_rate": 1.275275981669937e-05,
      "loss": 0.6486,
      "step": 2875
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.382706153170832,
      "learning_rate": 1.274811300614165e-05,
      "loss": 0.6668,
      "step": 2876
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.1737817673282676,
      "learning_rate": 1.274346555362446e-05,
      "loss": 0.7693,
      "step": 2877
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.9451120262829988,
      "learning_rate": 1.2738817460233442e-05,
      "loss": 0.6269,
      "step": 2878
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.1031468904645965,
      "learning_rate": 1.273416872705439e-05,
      "loss": 0.7319,
      "step": 2879
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.923570031680809,
      "learning_rate": 1.2729519355173254e-05,
      "loss": 0.6946,
      "step": 2880
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.790795956658813,
      "learning_rate": 1.2724869345676125e-05,
      "loss": 0.7669,
      "step": 2881
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.963052856648603,
      "learning_rate": 1.2720218699649243e-05,
      "loss": 0.7135,
      "step": 2882
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.34521112071449,
      "learning_rate": 1.2715567418179004e-05,
      "loss": 0.7113,
      "step": 2883
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.7634180162611552,
      "learning_rate": 1.2710915502351944e-05,
      "loss": 0.7899,
      "step": 2884
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.578980500375504,
      "learning_rate": 1.2706262953254753e-05,
      "loss": 0.7136,
      "step": 2885
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.2138623224662464,
      "learning_rate": 1.2701609771974266e-05,
      "loss": 0.704,
      "step": 2886
    },
    {
      "epoch": 0.43,
      "grad_norm": 8.361458971432967,
      "learning_rate": 1.269695595959747e-05,
      "loss": 0.7027,
      "step": 2887
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.5763581704746676,
      "learning_rate": 1.2692301517211489e-05,
      "loss": 0.7438,
      "step": 2888
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.5808130965229896,
      "learning_rate": 1.2687646445903608e-05,
      "loss": 0.6546,
      "step": 2889
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.912429950334353,
      "learning_rate": 1.268299074676125e-05,
      "loss": 0.7208,
      "step": 2890
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.3449941271204673,
      "learning_rate": 1.2678334420871984e-05,
      "loss": 0.6791,
      "step": 2891
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.4755574329093974,
      "learning_rate": 1.2673677469323532e-05,
      "loss": 0.8037,
      "step": 2892
    },
    {
      "epoch": 0.43,
      "grad_norm": 10.27383242899271,
      "learning_rate": 1.2669019893203758e-05,
      "loss": 0.7481,
      "step": 2893
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.7726797828114034,
      "learning_rate": 1.266436169360067e-05,
      "loss": 0.7588,
      "step": 2894
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.672046908049074,
      "learning_rate": 1.2659702871602423e-05,
      "loss": 0.7027,
      "step": 2895
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.0034846299824296,
      "learning_rate": 1.2655043428297322e-05,
      "loss": 0.7182,
      "step": 2896
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.557103498471486,
      "learning_rate": 1.2650383364773812e-05,
      "loss": 0.8789,
      "step": 2897
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.6540587523765105,
      "learning_rate": 1.2645722682120483e-05,
      "loss": 0.8487,
      "step": 2898
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.91029584541319,
      "learning_rate": 1.2641061381426072e-05,
      "loss": 0.7974,
      "step": 2899
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.2421081102182585,
      "learning_rate": 1.2636399463779458e-05,
      "loss": 0.7261,
      "step": 2900
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.3569909103759326,
      "learning_rate": 1.2631736930269669e-05,
      "loss": 0.782,
      "step": 2901
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.5764134426293985,
      "learning_rate": 1.262707378198587e-05,
      "loss": 0.8507,
      "step": 2902
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.946271618871327,
      "learning_rate": 1.2622410020017374e-05,
      "loss": 0.7297,
      "step": 2903
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.607382851827655,
      "learning_rate": 1.2617745645453637e-05,
      "loss": 0.6981,
      "step": 2904
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.129925741817859,
      "learning_rate": 1.2613080659384253e-05,
      "loss": 0.6762,
      "step": 2905
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.414113289309949,
      "learning_rate": 1.2608415062898971e-05,
      "loss": 0.7339,
      "step": 2906
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.5481587176438416,
      "learning_rate": 1.2603748857087668e-05,
      "loss": 0.8057,
      "step": 2907
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.555712489849538,
      "learning_rate": 1.2599082043040372e-05,
      "loss": 0.7204,
      "step": 2908
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.6371651121521476,
      "learning_rate": 1.2594414621847255e-05,
      "loss": 0.8071,
      "step": 2909
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.110440848061423,
      "learning_rate": 1.258974659459862e-05,
      "loss": 0.8022,
      "step": 2910
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.1525644454101336,
      "learning_rate": 1.2585077962384924e-05,
      "loss": 0.805,
      "step": 2911
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.9283726104947296,
      "learning_rate": 1.258040872629676e-05,
      "loss": 0.7279,
      "step": 2912
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.818722984443852,
      "learning_rate": 1.2575738887424858e-05,
      "loss": 0.6905,
      "step": 2913
    },
    {
      "epoch": 0.43,
      "grad_norm": 7.929071231881728,
      "learning_rate": 1.2571068446860095e-05,
      "loss": 0.7734,
      "step": 2914
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.1086226268766155,
      "learning_rate": 1.2566397405693492e-05,
      "loss": 0.7182,
      "step": 2915
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.945641963906102,
      "learning_rate": 1.2561725765016192e-05,
      "loss": 0.7648,
      "step": 2916
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.8936035783254477,
      "learning_rate": 1.2557053525919503e-05,
      "loss": 0.7729,
      "step": 2917
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7826433652291613,
      "learning_rate": 1.2552380689494857e-05,
      "loss": 0.7167,
      "step": 2918
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.1944686082703035,
      "learning_rate": 1.2547707256833823e-05,
      "loss": 0.7755,
      "step": 2919
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.1568528545052486,
      "learning_rate": 1.254303322902812e-05,
      "loss": 0.673,
      "step": 2920
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.834215562454293,
      "learning_rate": 1.2538358607169605e-05,
      "loss": 0.7438,
      "step": 2921
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.060492717641799,
      "learning_rate": 1.2533683392350264e-05,
      "loss": 0.8266,
      "step": 2922
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.916535596102899,
      "learning_rate": 1.2529007585662235e-05,
      "loss": 0.707,
      "step": 2923
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.7635358285772624,
      "learning_rate": 1.2524331188197776e-05,
      "loss": 0.8047,
      "step": 2924
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.059740902034394,
      "learning_rate": 1.25196542010493e-05,
      "loss": 0.7159,
      "step": 2925
    },
    {
      "epoch": 0.44,
      "grad_norm": 5.348578653502267,
      "learning_rate": 1.2514976625309357e-05,
      "loss": 0.7011,
      "step": 2926
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.026565428191675,
      "learning_rate": 1.2510298462070619e-05,
      "loss": 0.7176,
      "step": 2927
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.1535959144115284,
      "learning_rate": 1.2505619712425912e-05,
      "loss": 0.6877,
      "step": 2928
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.532676619000995,
      "learning_rate": 1.2500940377468188e-05,
      "loss": 0.8099,
      "step": 2929
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.866075867458705,
      "learning_rate": 1.2496260458290545e-05,
      "loss": 0.7559,
      "step": 2930
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.1317966160432076,
      "learning_rate": 1.249157995598621e-05,
      "loss": 0.7876,
      "step": 2931
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.4808355115780336,
      "learning_rate": 1.2486898871648552e-05,
      "loss": 0.744,
      "step": 2932
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8335830428343558,
      "learning_rate": 1.2482217206371065e-05,
      "loss": 0.736,
      "step": 2933
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.007780447783432,
      "learning_rate": 1.2477534961247393e-05,
      "loss": 0.7037,
      "step": 2934
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0391905322657444,
      "learning_rate": 1.247285213737131e-05,
      "loss": 0.7833,
      "step": 2935
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.205608478835715,
      "learning_rate": 1.2468168735836716e-05,
      "loss": 0.677,
      "step": 2936
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.5353370854916752,
      "learning_rate": 1.2463484757737663e-05,
      "loss": 0.7712,
      "step": 2937
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.393347094887146,
      "learning_rate": 1.2458800204168324e-05,
      "loss": 0.7031,
      "step": 2938
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.2752034289517744,
      "learning_rate": 1.2454115076223012e-05,
      "loss": 0.7509,
      "step": 2939
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.993155554641105,
      "learning_rate": 1.2449429374996176e-05,
      "loss": 0.7983,
      "step": 2940
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.197447087264154,
      "learning_rate": 1.2444743101582392e-05,
      "loss": 0.8609,
      "step": 2941
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8979212221755888,
      "learning_rate": 1.2440056257076376e-05,
      "loss": 0.7519,
      "step": 2942
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.1264660711307277,
      "learning_rate": 1.2435368842572975e-05,
      "loss": 0.7778,
      "step": 2943
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7620812218113657,
      "learning_rate": 1.243068085916717e-05,
      "loss": 0.6636,
      "step": 2944
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.532242675036466,
      "learning_rate": 1.2425992307954075e-05,
      "loss": 0.6804,
      "step": 2945
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.929935630648188,
      "learning_rate": 1.2421303190028935e-05,
      "loss": 0.7588,
      "step": 2946
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.204342216792762,
      "learning_rate": 1.241661350648713e-05,
      "loss": 0.8007,
      "step": 2947
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.3621856728440607,
      "learning_rate": 1.2411923258424167e-05,
      "loss": 0.7996,
      "step": 2948
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.2729345052748573,
      "learning_rate": 1.240723244693569e-05,
      "loss": 0.769,
      "step": 2949
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.227133490466074,
      "learning_rate": 1.2402541073117475e-05,
      "loss": 0.7486,
      "step": 2950
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.2724682031104595,
      "learning_rate": 1.2397849138065428e-05,
      "loss": 0.7174,
      "step": 2951
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.791658843189484,
      "learning_rate": 1.2393156642875579e-05,
      "loss": 0.7476,
      "step": 2952
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9485917502866121,
      "learning_rate": 1.2388463588644102e-05,
      "loss": 0.697,
      "step": 2953
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0530297563332964,
      "learning_rate": 1.2383769976467295e-05,
      "loss": 0.7725,
      "step": 2954
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9594133327726,
      "learning_rate": 1.237907580744158e-05,
      "loss": 0.7831,
      "step": 2955
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.3017825655478927,
      "learning_rate": 1.237438108266352e-05,
      "loss": 0.7202,
      "step": 2956
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0063778926691396,
      "learning_rate": 1.2369685803229802e-05,
      "loss": 0.7589,
      "step": 2957
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7972296983849174,
      "learning_rate": 1.236498997023725e-05,
      "loss": 0.8289,
      "step": 2958
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.190413159917888,
      "learning_rate": 1.2360293584782799e-05,
      "loss": 0.8184,
      "step": 2959
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.2336268911747563,
      "learning_rate": 1.2355596647963533e-05,
      "loss": 0.7087,
      "step": 2960
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0838599092269954,
      "learning_rate": 1.2350899160876657e-05,
      "loss": 0.7094,
      "step": 2961
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.1394174957294414,
      "learning_rate": 1.2346201124619502e-05,
      "loss": 0.7174,
      "step": 2962
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.331595638782538,
      "learning_rate": 1.234150254028953e-05,
      "loss": 0.7309,
      "step": 2963
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7269784285912784,
      "learning_rate": 1.2336803408984333e-05,
      "loss": 0.6188,
      "step": 2964
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.003399423003524,
      "learning_rate": 1.2332103731801626e-05,
      "loss": 0.7581,
      "step": 2965
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.7522980887472257,
      "learning_rate": 1.2327403509839253e-05,
      "loss": 0.7187,
      "step": 2966
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9115995813060174,
      "learning_rate": 1.2322702744195192e-05,
      "loss": 0.6617,
      "step": 2967
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.258588932097043,
      "learning_rate": 1.2318001435967535e-05,
      "loss": 0.7222,
      "step": 2968
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.773933997180012,
      "learning_rate": 1.2313299586254512e-05,
      "loss": 0.7938,
      "step": 2969
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6305140144941732,
      "learning_rate": 1.230859719615448e-05,
      "loss": 0.7294,
      "step": 2970
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7019411282483385,
      "learning_rate": 1.2303894266765908e-05,
      "loss": 0.7103,
      "step": 2971
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.1565937298579674,
      "learning_rate": 1.2299190799187405e-05,
      "loss": 0.7618,
      "step": 2972
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0409469861168703,
      "learning_rate": 1.2294486794517703e-05,
      "loss": 0.677,
      "step": 2973
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.352501510291271,
      "learning_rate": 1.228978225385566e-05,
      "loss": 0.7729,
      "step": 2974
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9579281493152771,
      "learning_rate": 1.2285077178300253e-05,
      "loss": 0.7319,
      "step": 2975
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9007438338995957,
      "learning_rate": 1.2280371568950588e-05,
      "loss": 0.8205,
      "step": 2976
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6494076760206793,
      "learning_rate": 1.22756654269059e-05,
      "loss": 0.7371,
      "step": 2977
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7921522914016355,
      "learning_rate": 1.2270958753265541e-05,
      "loss": 0.6579,
      "step": 2978
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.261312844837673,
      "learning_rate": 1.2266251549128989e-05,
      "loss": 0.7483,
      "step": 2979
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.5304805024234516,
      "learning_rate": 1.2261543815595853e-05,
      "loss": 0.7583,
      "step": 2980
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9182798015770672,
      "learning_rate": 1.2256835553765853e-05,
      "loss": 0.7337,
      "step": 2981
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5292225822933327,
      "learning_rate": 1.2252126764738845e-05,
      "loss": 0.7713,
      "step": 2982
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.122901300217109,
      "learning_rate": 1.2247417449614801e-05,
      "loss": 0.7555,
      "step": 2983
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.4462326277327895,
      "learning_rate": 1.2242707609493814e-05,
      "loss": 0.7823,
      "step": 2984
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0883397035210876,
      "learning_rate": 1.2237997245476108e-05,
      "loss": 0.7408,
      "step": 2985
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9174276415445124,
      "learning_rate": 1.2233286358662019e-05,
      "loss": 0.7827,
      "step": 2986
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.233451513386338,
      "learning_rate": 1.222857495015202e-05,
      "loss": 0.6857,
      "step": 2987
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.4056111868528993,
      "learning_rate": 1.2223863021046687e-05,
      "loss": 0.7995,
      "step": 2988
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.702484557099816,
      "learning_rate": 1.2219150572446729e-05,
      "loss": 0.7574,
      "step": 2989
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.400439076513867,
      "learning_rate": 1.221443760545298e-05,
      "loss": 0.7991,
      "step": 2990
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7180350809147793,
      "learning_rate": 1.2209724121166384e-05,
      "loss": 0.7244,
      "step": 2991
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0530692933303776,
      "learning_rate": 1.2205010120688012e-05,
      "loss": 0.7491,
      "step": 2992
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8320359040674687,
      "learning_rate": 1.2200295605119059e-05,
      "loss": 0.7576,
      "step": 2993
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.399066184868178,
      "learning_rate": 1.2195580575560833e-05,
      "loss": 0.6839,
      "step": 2994
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.1860667198518047,
      "learning_rate": 1.2190865033114763e-05,
      "loss": 0.7423,
      "step": 2995
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.2656616758550854,
      "learning_rate": 1.2186148978882406e-05,
      "loss": 0.8976,
      "step": 2996
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.8635868511767324,
      "learning_rate": 1.2181432413965428e-05,
      "loss": 0.7115,
      "step": 2997
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7377513465611942,
      "learning_rate": 1.217671533946562e-05,
      "loss": 0.7676,
      "step": 2998
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.7892372116736475,
      "learning_rate": 1.2171997756484895e-05,
      "loss": 0.6921,
      "step": 2999
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5393333162294986,
      "learning_rate": 1.2167279666125275e-05,
      "loss": 0.6216,
      "step": 3000
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.154687560787118,
      "learning_rate": 1.216256106948891e-05,
      "loss": 0.7581,
      "step": 3001
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.017229500335299,
      "learning_rate": 1.2157841967678064e-05,
      "loss": 0.6488,
      "step": 3002
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.723768877686384,
      "learning_rate": 1.215312236179512e-05,
      "loss": 0.7553,
      "step": 3003
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.51848367154367,
      "learning_rate": 1.2148402252942575e-05,
      "loss": 0.7709,
      "step": 3004
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.2304513456222255,
      "learning_rate": 1.214368164222305e-05,
      "loss": 0.798,
      "step": 3005
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.7171367344635935,
      "learning_rate": 1.2138960530739283e-05,
      "loss": 0.748,
      "step": 3006
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.121670387175073,
      "learning_rate": 1.2134238919594122e-05,
      "loss": 0.7903,
      "step": 3007
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.374116471431545,
      "learning_rate": 1.2129516809890536e-05,
      "loss": 0.8043,
      "step": 3008
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8728646503885875,
      "learning_rate": 1.2124794202731611e-05,
      "loss": 0.6791,
      "step": 3009
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.2087367887617337,
      "learning_rate": 1.212007109922055e-05,
      "loss": 0.7653,
      "step": 3010
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.016069601358358,
      "learning_rate": 1.2115347500460666e-05,
      "loss": 0.7018,
      "step": 3011
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.2000829006767892,
      "learning_rate": 1.2110623407555398e-05,
      "loss": 0.743,
      "step": 3012
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9849312308524627,
      "learning_rate": 1.2105898821608291e-05,
      "loss": 0.7001,
      "step": 3013
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7936516952339316,
      "learning_rate": 1.2101173743723007e-05,
      "loss": 0.6857,
      "step": 3014
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9378833604873538,
      "learning_rate": 1.2096448175003329e-05,
      "loss": 0.683,
      "step": 3015
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.773667446115255,
      "learning_rate": 1.2091722116553148e-05,
      "loss": 0.7244,
      "step": 3016
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9861157933026894,
      "learning_rate": 1.2086995569476474e-05,
      "loss": 0.6747,
      "step": 3017
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8846605829657295,
      "learning_rate": 1.2082268534877425e-05,
      "loss": 0.7918,
      "step": 3018
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.729703167467949,
      "learning_rate": 1.207754101386024e-05,
      "loss": 0.7192,
      "step": 3019
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.2489792449333805,
      "learning_rate": 1.2072813007529267e-05,
      "loss": 0.7797,
      "step": 3020
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9686715020933896,
      "learning_rate": 1.206808451698897e-05,
      "loss": 0.7554,
      "step": 3021
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0792746898739063,
      "learning_rate": 1.2063355543343925e-05,
      "loss": 0.7923,
      "step": 3022
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9212466030959818,
      "learning_rate": 1.2058626087698814e-05,
      "loss": 0.6252,
      "step": 3023
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.13672553259628,
      "learning_rate": 1.2053896151158446e-05,
      "loss": 0.8062,
      "step": 3024
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.837741424870333,
      "learning_rate": 1.2049165734827737e-05,
      "loss": 0.7206,
      "step": 3025
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.157441717197378,
      "learning_rate": 1.2044434839811702e-05,
      "loss": 0.7174,
      "step": 3026
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9779304904485553,
      "learning_rate": 1.2039703467215489e-05,
      "loss": 0.7006,
      "step": 3027
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0415860133300057,
      "learning_rate": 1.203497161814434e-05,
      "loss": 0.71,
      "step": 3028
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.677965812634971,
      "learning_rate": 1.203023929370362e-05,
      "loss": 0.6475,
      "step": 3029
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7794041831317757,
      "learning_rate": 1.2025506494998797e-05,
      "loss": 0.7524,
      "step": 3030
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.441163859688547,
      "learning_rate": 1.2020773223135458e-05,
      "loss": 0.7294,
      "step": 3031
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.6084771246110274,
      "learning_rate": 1.2016039479219293e-05,
      "loss": 0.6332,
      "step": 3032
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.1916558073405894,
      "learning_rate": 1.2011305264356101e-05,
      "loss": 0.7766,
      "step": 3033
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0365126128484445,
      "learning_rate": 1.2006570579651799e-05,
      "loss": 0.7665,
      "step": 3034
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0103462938777645,
      "learning_rate": 1.2001835426212413e-05,
      "loss": 0.6716,
      "step": 3035
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.3261192157640664,
      "learning_rate": 1.1997099805144071e-05,
      "loss": 0.7528,
      "step": 3036
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9661936113907104,
      "learning_rate": 1.1992363717553015e-05,
      "loss": 0.7096,
      "step": 3037
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.295151862284763,
      "learning_rate": 1.1987627164545597e-05,
      "loss": 0.7079,
      "step": 3038
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8936424760263,
      "learning_rate": 1.1982890147228275e-05,
      "loss": 0.6983,
      "step": 3039
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9002159976555153,
      "learning_rate": 1.1978152666707614e-05,
      "loss": 0.7141,
      "step": 3040
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5022456308185945,
      "learning_rate": 1.1973414724090297e-05,
      "loss": 0.7082,
      "step": 3041
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.3594703788820737,
      "learning_rate": 1.1968676320483103e-05,
      "loss": 0.7818,
      "step": 3042
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8832609851084177,
      "learning_rate": 1.1963937456992922e-05,
      "loss": 0.7743,
      "step": 3043
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.296214673360451,
      "learning_rate": 1.195919813472676e-05,
      "loss": 0.7724,
      "step": 3044
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.309262722604827,
      "learning_rate": 1.1954458354791716e-05,
      "loss": 0.7586,
      "step": 3045
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.211382168954827,
      "learning_rate": 1.1949718118295006e-05,
      "loss": 0.6894,
      "step": 3046
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1758797223962898,
      "learning_rate": 1.194497742634395e-05,
      "loss": 0.7188,
      "step": 3047
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.999047347755711,
      "learning_rate": 1.1940236280045968e-05,
      "loss": 0.6962,
      "step": 3048
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.538258797336624,
      "learning_rate": 1.1935494680508606e-05,
      "loss": 0.8254,
      "step": 3049
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.476647573028059,
      "learning_rate": 1.1930752628839487e-05,
      "loss": 0.6959,
      "step": 3050
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1105453453735628,
      "learning_rate": 1.1926010126146368e-05,
      "loss": 0.7016,
      "step": 3051
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.5232224474901477,
      "learning_rate": 1.1921267173537085e-05,
      "loss": 0.7241,
      "step": 3052
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.9166651883271715,
      "learning_rate": 1.1916523772119603e-05,
      "loss": 0.6979,
      "step": 3053
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.245510143707913,
      "learning_rate": 1.1911779923001976e-05,
      "loss": 0.6575,
      "step": 3054
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8421480859923811,
      "learning_rate": 1.1907035627292367e-05,
      "loss": 0.6803,
      "step": 3055
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.2337383030265627,
      "learning_rate": 1.1902290886099048e-05,
      "loss": 0.7573,
      "step": 3056
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7908000084056404,
      "learning_rate": 1.1897545700530387e-05,
      "loss": 0.6825,
      "step": 3057
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0286141658772046,
      "learning_rate": 1.1892800071694862e-05,
      "loss": 0.7559,
      "step": 3058
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0712832310670968,
      "learning_rate": 1.188805400070105e-05,
      "loss": 0.7397,
      "step": 3059
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.217687854628845,
      "learning_rate": 1.1883307488657637e-05,
      "loss": 0.7154,
      "step": 3060
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7815878861009211,
      "learning_rate": 1.1878560536673407e-05,
      "loss": 0.6388,
      "step": 3061
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.208129813035152,
      "learning_rate": 1.187381314585725e-05,
      "loss": 0.7189,
      "step": 3062
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.5534583935994593,
      "learning_rate": 1.1869065317318151e-05,
      "loss": 0.6566,
      "step": 3063
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.9018838785373788,
      "learning_rate": 1.1864317052165213e-05,
      "loss": 0.7004,
      "step": 3064
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1126690927584835,
      "learning_rate": 1.1859568351507623e-05,
      "loss": 0.722,
      "step": 3065
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1037953849727695,
      "learning_rate": 1.1854819216454678e-05,
      "loss": 0.7017,
      "step": 3066
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8393572995222538,
      "learning_rate": 1.1850069648115785e-05,
      "loss": 0.7158,
      "step": 3067
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.899370561967508,
      "learning_rate": 1.1845319647600433e-05,
      "loss": 0.7048,
      "step": 3068
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.2828244131223463,
      "learning_rate": 1.184056921601823e-05,
      "loss": 0.6993,
      "step": 3069
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.9609835962284083,
      "learning_rate": 1.1835818354478876e-05,
      "loss": 0.741,
      "step": 3070
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.945824700544397,
      "learning_rate": 1.183106706409217e-05,
      "loss": 0.7765,
      "step": 3071
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.5150690535997318,
      "learning_rate": 1.1826315345968014e-05,
      "loss": 0.6957,
      "step": 3072
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7390099692310628,
      "learning_rate": 1.1821563201216413e-05,
      "loss": 0.7434,
      "step": 3073
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.301671175513085,
      "learning_rate": 1.1816810630947466e-05,
      "loss": 0.8045,
      "step": 3074
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.9508763829931266,
      "learning_rate": 1.1812057636271374e-05,
      "loss": 0.6776,
      "step": 3075
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0964089014280693,
      "learning_rate": 1.1807304218298438e-05,
      "loss": 0.7203,
      "step": 3076
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8868241278698235,
      "learning_rate": 1.180255037813906e-05,
      "loss": 0.7787,
      "step": 3077
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.140272455919587,
      "learning_rate": 1.179779611690373e-05,
      "loss": 0.6986,
      "step": 3078
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.95926621437351,
      "learning_rate": 1.1793041435703048e-05,
      "loss": 0.7626,
      "step": 3079
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7534798184901235,
      "learning_rate": 1.1788286335647712e-05,
      "loss": 0.6619,
      "step": 3080
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7282131398934197,
      "learning_rate": 1.1783530817848505e-05,
      "loss": 0.8248,
      "step": 3081
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8950036619891029,
      "learning_rate": 1.1778774883416325e-05,
      "loss": 0.6527,
      "step": 3082
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.937772192952226,
      "learning_rate": 1.1774018533462152e-05,
      "loss": 0.7433,
      "step": 3083
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6978153242112515,
      "learning_rate": 1.1769261769097076e-05,
      "loss": 0.6921,
      "step": 3084
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.2755297089024697,
      "learning_rate": 1.1764504591432271e-05,
      "loss": 0.7686,
      "step": 3085
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.3123088105394474,
      "learning_rate": 1.1759747001579019e-05,
      "loss": 0.732,
      "step": 3086
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.2612734043534233,
      "learning_rate": 1.1754989000648693e-05,
      "loss": 0.7607,
      "step": 3087
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1107297462074803,
      "learning_rate": 1.1750230589752763e-05,
      "loss": 0.7604,
      "step": 3088
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0476091062506727,
      "learning_rate": 1.174547177000279e-05,
      "loss": 0.7807,
      "step": 3089
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.7500079947465963,
      "learning_rate": 1.1740712542510439e-05,
      "loss": 0.7512,
      "step": 3090
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7643564386826205,
      "learning_rate": 1.1735952908387463e-05,
      "loss": 0.7054,
      "step": 3091
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.812026921275545,
      "learning_rate": 1.1731192868745716e-05,
      "loss": 0.7375,
      "step": 3092
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.737944864682367,
      "learning_rate": 1.1726432424697144e-05,
      "loss": 0.6378,
      "step": 3093
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8763545963250798,
      "learning_rate": 1.1721671577353783e-05,
      "loss": 0.7851,
      "step": 3094
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0360795471410147,
      "learning_rate": 1.171691032782777e-05,
      "loss": 0.6967,
      "step": 3095
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0697970014107097,
      "learning_rate": 1.1712148677231336e-05,
      "loss": 0.6865,
      "step": 3096
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6767989480289782,
      "learning_rate": 1.1707386626676798e-05,
      "loss": 0.6682,
      "step": 3097
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.92718215065572,
      "learning_rate": 1.1702624177276574e-05,
      "loss": 0.7068,
      "step": 3098
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.923882390346609,
      "learning_rate": 1.1697861330143174e-05,
      "loss": 0.7025,
      "step": 3099
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.201833009940476,
      "learning_rate": 1.1693098086389198e-05,
      "loss": 0.7241,
      "step": 3100
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8457762290671282,
      "learning_rate": 1.1688334447127338e-05,
      "loss": 0.6525,
      "step": 3101
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.858267862574034,
      "learning_rate": 1.1683570413470384e-05,
      "loss": 0.7572,
      "step": 3102
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.004081135142865,
      "learning_rate": 1.1678805986531216e-05,
      "loss": 0.6894,
      "step": 3103
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8469629716538631,
      "learning_rate": 1.16740411674228e-05,
      "loss": 0.706,
      "step": 3104
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0015982689754654,
      "learning_rate": 1.1669275957258204e-05,
      "loss": 0.7615,
      "step": 3105
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.371174810118176,
      "learning_rate": 1.1664510357150575e-05,
      "loss": 0.6967,
      "step": 3106
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.701380176394046,
      "learning_rate": 1.1659744368213159e-05,
      "loss": 0.7452,
      "step": 3107
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7709251763403613,
      "learning_rate": 1.1654977991559297e-05,
      "loss": 0.6435,
      "step": 3108
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1617290463852887,
      "learning_rate": 1.165021122830241e-05,
      "loss": 0.7073,
      "step": 3109
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.872143791417457,
      "learning_rate": 1.1645444079556017e-05,
      "loss": 0.7427,
      "step": 3110
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.550935911480932,
      "learning_rate": 1.164067654643372e-05,
      "loss": 0.7664,
      "step": 3111
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1029776198135637,
      "learning_rate": 1.163590863004922e-05,
      "loss": 0.8016,
      "step": 3112
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6338159365223557,
      "learning_rate": 1.1631140331516302e-05,
      "loss": 0.7495,
      "step": 3113
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.9272606419544345,
      "learning_rate": 1.1626371651948839e-05,
      "loss": 0.6752,
      "step": 3114
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.0598289892953763,
      "learning_rate": 1.1621602592460794e-05,
      "loss": 0.7042,
      "step": 3115
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.831163553889665,
      "learning_rate": 1.1616833154166224e-05,
      "loss": 0.662,
      "step": 3116
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.039174429034442,
      "learning_rate": 1.1612063338179269e-05,
      "loss": 0.777,
      "step": 3117
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8353287746280316,
      "learning_rate": 1.1607293145614156e-05,
      "loss": 0.5798,
      "step": 3118
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7101269575893072,
      "learning_rate": 1.1602522577585207e-05,
      "loss": 0.7146,
      "step": 3119
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.058734295201676,
      "learning_rate": 1.159775163520682e-05,
      "loss": 0.7802,
      "step": 3120
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.4038900962510574,
      "learning_rate": 1.1592980319593492e-05,
      "loss": 0.7747,
      "step": 3121
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8128401457392112,
      "learning_rate": 1.1588208631859808e-05,
      "loss": 0.6819,
      "step": 3122
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7209794282304858,
      "learning_rate": 1.1583436573120424e-05,
      "loss": 0.7681,
      "step": 3123
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1120467072636586,
      "learning_rate": 1.1578664144490099e-05,
      "loss": 0.6999,
      "step": 3124
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1654623592945508,
      "learning_rate": 1.1573891347083676e-05,
      "loss": 0.7486,
      "step": 3125
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7542814824301025,
      "learning_rate": 1.1569118182016074e-05,
      "loss": 0.6362,
      "step": 3126
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8961085493047702,
      "learning_rate": 1.156434465040231e-05,
      "loss": 0.7187,
      "step": 3127
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.2768596068046083,
      "learning_rate": 1.1559570753357481e-05,
      "loss": 0.7864,
      "step": 3128
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.500484371480962,
      "learning_rate": 1.1554796491996767e-05,
      "loss": 0.7326,
      "step": 3129
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7783933684522018,
      "learning_rate": 1.1550021867435437e-05,
      "loss": 0.7202,
      "step": 3130
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9262338566390953,
      "learning_rate": 1.1545246880788845e-05,
      "loss": 0.7656,
      "step": 3131
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.346304004431838,
      "learning_rate": 1.154047153317243e-05,
      "loss": 0.7847,
      "step": 3132
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.3696113781483974,
      "learning_rate": 1.153569582570171e-05,
      "loss": 0.7715,
      "step": 3133
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7075622880560708,
      "learning_rate": 1.1530919759492289e-05,
      "loss": 0.7789,
      "step": 3134
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.0320908832205538,
      "learning_rate": 1.1526143335659866e-05,
      "loss": 0.6356,
      "step": 3135
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.151894291167034,
      "learning_rate": 1.15213665553202e-05,
      "loss": 0.8286,
      "step": 3136
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7643448019928865,
      "learning_rate": 1.1516589419589159e-05,
      "loss": 0.7656,
      "step": 3137
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9872967680359395,
      "learning_rate": 1.1511811929582682e-05,
      "loss": 0.7567,
      "step": 3138
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6520369329929732,
      "learning_rate": 1.1507034086416781e-05,
      "loss": 0.7687,
      "step": 3139
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.40234878982951,
      "learning_rate": 1.1502255891207572e-05,
      "loss": 0.6902,
      "step": 3140
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.290229017475449,
      "learning_rate": 1.1497477345071238e-05,
      "loss": 0.7184,
      "step": 3141
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8799498524843836,
      "learning_rate": 1.1492698449124042e-05,
      "loss": 0.7743,
      "step": 3142
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8362563715275175,
      "learning_rate": 1.1487919204482343e-05,
      "loss": 0.7705,
      "step": 3143
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.881994250173407,
      "learning_rate": 1.1483139612262569e-05,
      "loss": 0.7864,
      "step": 3144
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.9576255787357764,
      "learning_rate": 1.1478359673581235e-05,
      "loss": 0.7339,
      "step": 3145
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.463098611519314,
      "learning_rate": 1.147357938955493e-05,
      "loss": 0.7211,
      "step": 3146
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.7845873028720676,
      "learning_rate": 1.1468798761300335e-05,
      "loss": 0.7337,
      "step": 3147
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.5966362455146115,
      "learning_rate": 1.1464017789934206e-05,
      "loss": 0.7699,
      "step": 3148
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1001396332911204,
      "learning_rate": 1.1459236476573373e-05,
      "loss": 0.6965,
      "step": 3149
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.948968294713098,
      "learning_rate": 1.1454454822334753e-05,
      "loss": 0.6954,
      "step": 3150
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8786669605254824,
      "learning_rate": 1.1449672828335344e-05,
      "loss": 0.7115,
      "step": 3151
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8256290846156715,
      "learning_rate": 1.1444890495692214e-05,
      "loss": 0.7886,
      "step": 3152
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9048109036330976,
      "learning_rate": 1.1440107825522522e-05,
      "loss": 0.7543,
      "step": 3153
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.885943316733015,
      "learning_rate": 1.1435324818943501e-05,
      "loss": 0.8073,
      "step": 3154
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9733105551719334,
      "learning_rate": 1.1430541477072457e-05,
      "loss": 0.7181,
      "step": 3155
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.047382036814164,
      "learning_rate": 1.142575780102678e-05,
      "loss": 0.7468,
      "step": 3156
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.997331144443559,
      "learning_rate": 1.1420973791923941e-05,
      "loss": 0.7471,
      "step": 3157
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.010042689949421,
      "learning_rate": 1.1416189450881483e-05,
      "loss": 0.8249,
      "step": 3158
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.984210974506211,
      "learning_rate": 1.1411404779017026e-05,
      "loss": 0.6126,
      "step": 3159
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8891338970258835,
      "learning_rate": 1.1406619777448271e-05,
      "loss": 0.6132,
      "step": 3160
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.0087292544785758,
      "learning_rate": 1.1401834447293001e-05,
      "loss": 0.7386,
      "step": 3161
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.3406090430979716,
      "learning_rate": 1.1397048789669061e-05,
      "loss": 0.7103,
      "step": 3162
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9342501316575678,
      "learning_rate": 1.1392262805694382e-05,
      "loss": 0.6591,
      "step": 3163
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1949355400966035,
      "learning_rate": 1.138747649648698e-05,
      "loss": 0.6325,
      "step": 3164
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.944904288747402,
      "learning_rate": 1.1382689863164924e-05,
      "loss": 0.7882,
      "step": 3165
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.3694508661251574,
      "learning_rate": 1.137790290684638e-05,
      "loss": 0.8504,
      "step": 3166
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.6819337132326955,
      "learning_rate": 1.1373115628649582e-05,
      "loss": 0.6719,
      "step": 3167
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.560124184643103,
      "learning_rate": 1.1368328029692834e-05,
      "loss": 0.7149,
      "step": 3168
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.952502964028704,
      "learning_rate": 1.1363540111094524e-05,
      "loss": 0.71,
      "step": 3169
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1841682051487292,
      "learning_rate": 1.1358751873973106e-05,
      "loss": 0.7988,
      "step": 3170
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.177104723906449,
      "learning_rate": 1.1353963319447114e-05,
      "loss": 0.7819,
      "step": 3171
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.2934912808657733,
      "learning_rate": 1.1349174448635158e-05,
      "loss": 0.6398,
      "step": 3172
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.3709458038029325,
      "learning_rate": 1.1344385262655915e-05,
      "loss": 0.7155,
      "step": 3173
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6474265468405895,
      "learning_rate": 1.1339595762628144e-05,
      "loss": 0.7147,
      "step": 3174
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.852843357962376,
      "learning_rate": 1.1334805949670666e-05,
      "loss": 0.7748,
      "step": 3175
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.0740325335381846,
      "learning_rate": 1.1330015824902385e-05,
      "loss": 0.7998,
      "step": 3176
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1005910751127774,
      "learning_rate": 1.1325225389442278e-05,
      "loss": 0.7731,
      "step": 3177
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.000917872753812,
      "learning_rate": 1.1320434644409384e-05,
      "loss": 0.7473,
      "step": 3178
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.8825767068035153,
      "learning_rate": 1.1315643590922827e-05,
      "loss": 0.767,
      "step": 3179
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.971073403361837,
      "learning_rate": 1.1310852230101797e-05,
      "loss": 0.7411,
      "step": 3180
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9158010509813355,
      "learning_rate": 1.1306060563065556e-05,
      "loss": 0.7633,
      "step": 3181
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.099363807979532,
      "learning_rate": 1.1301268590933434e-05,
      "loss": 0.7572,
      "step": 3182
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.0840039711768323,
      "learning_rate": 1.1296476314824842e-05,
      "loss": 0.763,
      "step": 3183
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.0796715687363663,
      "learning_rate": 1.1291683735859254e-05,
      "loss": 0.7049,
      "step": 3184
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7794678975677878,
      "learning_rate": 1.1286890855156215e-05,
      "loss": 0.7092,
      "step": 3185
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.669793660544858,
      "learning_rate": 1.1282097673835343e-05,
      "loss": 0.8629,
      "step": 3186
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.108134307835118,
      "learning_rate": 1.1277304193016332e-05,
      "loss": 0.7955,
      "step": 3187
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6558543982804528,
      "learning_rate": 1.1272510413818929e-05,
      "loss": 0.735,
      "step": 3188
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7346487345223118,
      "learning_rate": 1.1267716337362968e-05,
      "loss": 0.7044,
      "step": 3189
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9023537592614599,
      "learning_rate": 1.1262921964768348e-05,
      "loss": 0.7109,
      "step": 3190
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.1321963415655487,
      "learning_rate": 1.1258127297155027e-05,
      "loss": 0.8007,
      "step": 3191
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.892651753027606,
      "learning_rate": 1.1253332335643043e-05,
      "loss": 0.7443,
      "step": 3192
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9608374374386761,
      "learning_rate": 1.1248537081352504e-05,
      "loss": 0.7162,
      "step": 3193
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.670599410448071,
      "learning_rate": 1.1243741535403576e-05,
      "loss": 0.7444,
      "step": 3194
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.516299058483779,
      "learning_rate": 1.1238945698916504e-05,
      "loss": 0.7172,
      "step": 3195
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8674371965884844,
      "learning_rate": 1.1234149573011592e-05,
      "loss": 0.6667,
      "step": 3196
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.4803937866626335,
      "learning_rate": 1.1229353158809216e-05,
      "loss": 0.7594,
      "step": 3197
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.1263296117451134,
      "learning_rate": 1.1224556457429818e-05,
      "loss": 0.7948,
      "step": 3198
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.765470855205072,
      "learning_rate": 1.1219759469993914e-05,
      "loss": 0.6763,
      "step": 3199
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9092980786339966,
      "learning_rate": 1.1214962197622075e-05,
      "loss": 0.6982,
      "step": 3200
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.0458353918860586,
      "learning_rate": 1.1210164641434942e-05,
      "loss": 0.7395,
      "step": 3201
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5883756110471055,
      "learning_rate": 1.1205366802553231e-05,
      "loss": 0.6825,
      "step": 3202
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.629859949327539,
      "learning_rate": 1.1200568682097716e-05,
      "loss": 0.7621,
      "step": 3203
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6516923612351717,
      "learning_rate": 1.1195770281189236e-05,
      "loss": 0.7228,
      "step": 3204
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.5950491860329206,
      "learning_rate": 1.11909716009487e-05,
      "loss": 0.8015,
      "step": 3205
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8269339415156995,
      "learning_rate": 1.1186172642497077e-05,
      "loss": 0.7537,
      "step": 3206
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.3788066840496938,
      "learning_rate": 1.118137340695541e-05,
      "loss": 0.822,
      "step": 3207
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.682509221387353,
      "learning_rate": 1.1176573895444794e-05,
      "loss": 0.7703,
      "step": 3208
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.052017058804012,
      "learning_rate": 1.1171774109086401e-05,
      "loss": 0.7245,
      "step": 3209
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6751426941901864,
      "learning_rate": 1.1166974049001458e-05,
      "loss": 0.7307,
      "step": 3210
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.1292853459011103,
      "learning_rate": 1.116217371631126e-05,
      "loss": 0.7192,
      "step": 3211
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9259748110691874,
      "learning_rate": 1.1157373112137171e-05,
      "loss": 0.7345,
      "step": 3212
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6236679096892046,
      "learning_rate": 1.1152572237600603e-05,
      "loss": 0.6424,
      "step": 3213
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.2677225544393957,
      "learning_rate": 1.1147771093823045e-05,
      "loss": 0.7556,
      "step": 3214
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6230075735763383,
      "learning_rate": 1.1142969681926048e-05,
      "loss": 0.7424,
      "step": 3215
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7856366392574594,
      "learning_rate": 1.113816800303122e-05,
      "loss": 0.7255,
      "step": 3216
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7581873519702278,
      "learning_rate": 1.1133366058260232e-05,
      "loss": 0.6612,
      "step": 3217
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9539850035698128,
      "learning_rate": 1.1128563848734817e-05,
      "loss": 0.7909,
      "step": 3218
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.046727556919142,
      "learning_rate": 1.1123761375576779e-05,
      "loss": 0.739,
      "step": 3219
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.2134675315196874,
      "learning_rate": 1.1118958639907969e-05,
      "loss": 0.7449,
      "step": 3220
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8926792496011304,
      "learning_rate": 1.1114155642850308e-05,
      "loss": 0.6885,
      "step": 3221
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9410341137930958,
      "learning_rate": 1.1109352385525782e-05,
      "loss": 0.7198,
      "step": 3222
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8656547248442286,
      "learning_rate": 1.1104548869056424e-05,
      "loss": 0.7827,
      "step": 3223
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8262074309193495,
      "learning_rate": 1.1099745094564342e-05,
      "loss": 0.7485,
      "step": 3224
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9050627796680948,
      "learning_rate": 1.1094941063171699e-05,
      "loss": 0.6964,
      "step": 3225
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.1216639246924798,
      "learning_rate": 1.1090136776000711e-05,
      "loss": 0.695,
      "step": 3226
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.8589394930746996,
      "learning_rate": 1.1085332234173664e-05,
      "loss": 0.7244,
      "step": 3227
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.890759403148471,
      "learning_rate": 1.10805274388129e-05,
      "loss": 0.6836,
      "step": 3228
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.372556048745323,
      "learning_rate": 1.1075722391040817e-05,
      "loss": 0.7184,
      "step": 3229
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.4627687702290677,
      "learning_rate": 1.1070917091979878e-05,
      "loss": 0.7253,
      "step": 3230
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8113153892826237,
      "learning_rate": 1.10661115427526e-05,
      "loss": 0.6972,
      "step": 3231
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6180430263621317,
      "learning_rate": 1.106130574448156e-05,
      "loss": 0.6657,
      "step": 3232
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.341425812795556,
      "learning_rate": 1.1056499698289392e-05,
      "loss": 0.7971,
      "step": 3233
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7168611254408184,
      "learning_rate": 1.1051693405298788e-05,
      "loss": 0.7145,
      "step": 3234
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8895566683006253,
      "learning_rate": 1.1046886866632498e-05,
      "loss": 0.6633,
      "step": 3235
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3902824437999375,
      "learning_rate": 1.1042080083413336e-05,
      "loss": 0.7237,
      "step": 3236
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.193464485623405,
      "learning_rate": 1.1037273056764157e-05,
      "loss": 0.6695,
      "step": 3237
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.555636914506948,
      "learning_rate": 1.1032465787807893e-05,
      "loss": 0.755,
      "step": 3238
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.0310706121629667,
      "learning_rate": 1.1027658277667518e-05,
      "loss": 0.6894,
      "step": 3239
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.4901737499043324,
      "learning_rate": 1.1022850527466065e-05,
      "loss": 0.7764,
      "step": 3240
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.191077931637627,
      "learning_rate": 1.101804253832663e-05,
      "loss": 0.6539,
      "step": 3241
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.247730271864513,
      "learning_rate": 1.1013234311372353e-05,
      "loss": 0.709,
      "step": 3242
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7377964671884603,
      "learning_rate": 1.100842584772644e-05,
      "loss": 0.7335,
      "step": 3243
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.1002139963923225,
      "learning_rate": 1.1003617148512149e-05,
      "loss": 0.7305,
      "step": 3244
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.2854241194794205,
      "learning_rate": 1.0998808214852796e-05,
      "loss": 0.713,
      "step": 3245
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.674261457214102,
      "learning_rate": 1.099399904787174e-05,
      "loss": 0.7348,
      "step": 3246
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.1948406549952924,
      "learning_rate": 1.0989189648692408e-05,
      "loss": 0.7059,
      "step": 3247
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6109593941436509,
      "learning_rate": 1.0984380018438279e-05,
      "loss": 0.7288,
      "step": 3248
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.225135634480696,
      "learning_rate": 1.0979570158232875e-05,
      "loss": 0.6386,
      "step": 3249
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8418890339741845,
      "learning_rate": 1.0974760069199786e-05,
      "loss": 0.7434,
      "step": 3250
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6252386204241986,
      "learning_rate": 1.096994975246265e-05,
      "loss": 0.6759,
      "step": 3251
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.7946592378564703,
      "learning_rate": 1.0965139209145153e-05,
      "loss": 0.7288,
      "step": 3252
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.3351465188637186,
      "learning_rate": 1.0960328440371039e-05,
      "loss": 0.7749,
      "step": 3253
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0047395336518505,
      "learning_rate": 1.095551744726411e-05,
      "loss": 0.7251,
      "step": 3254
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.1714850377505504,
      "learning_rate": 1.0950706230948207e-05,
      "loss": 0.7367,
      "step": 3255
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7289366554499772,
      "learning_rate": 1.0945894792547234e-05,
      "loss": 0.6736,
      "step": 3256
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.8693349419579675,
      "learning_rate": 1.0941083133185146e-05,
      "loss": 0.6963,
      "step": 3257
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0744362381422667,
      "learning_rate": 1.0936271253985941e-05,
      "loss": 0.7031,
      "step": 3258
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.2023413723065075,
      "learning_rate": 1.0931459156073679e-05,
      "loss": 0.7547,
      "step": 3259
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.112065392017652,
      "learning_rate": 1.0926646840572463e-05,
      "loss": 0.6547,
      "step": 3260
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9392232115647583,
      "learning_rate": 1.0921834308606458e-05,
      "loss": 0.7508,
      "step": 3261
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.1606608420594915,
      "learning_rate": 1.0917021561299864e-05,
      "loss": 0.7657,
      "step": 3262
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.702604473077725,
      "learning_rate": 1.0912208599776939e-05,
      "loss": 0.6907,
      "step": 3263
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9865015415504659,
      "learning_rate": 1.0907395425161999e-05,
      "loss": 0.7656,
      "step": 3264
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7306887094720536,
      "learning_rate": 1.0902582038579395e-05,
      "loss": 0.6967,
      "step": 3265
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7148881482663612,
      "learning_rate": 1.0897768441153536e-05,
      "loss": 0.694,
      "step": 3266
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.169794065590774,
      "learning_rate": 1.089295463400888e-05,
      "loss": 0.696,
      "step": 3267
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7192406025938805,
      "learning_rate": 1.0888140618269934e-05,
      "loss": 0.6359,
      "step": 3268
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7030266015131843,
      "learning_rate": 1.088332639506125e-05,
      "loss": 0.7115,
      "step": 3269
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.190811589298269,
      "learning_rate": 1.0878511965507435e-05,
      "loss": 0.8317,
      "step": 3270
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7156150592949782,
      "learning_rate": 1.0873697330733132e-05,
      "loss": 0.7326,
      "step": 3271
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.1707298935818113,
      "learning_rate": 1.0868882491863048e-05,
      "loss": 0.7469,
      "step": 3272
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4232481787756883,
      "learning_rate": 1.0864067450021926e-05,
      "loss": 0.7029,
      "step": 3273
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7792549678559453,
      "learning_rate": 1.0859252206334568e-05,
      "loss": 0.7295,
      "step": 3274
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6471524809853424,
      "learning_rate": 1.0854436761925802e-05,
      "loss": 0.631,
      "step": 3275
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.250937891962818,
      "learning_rate": 1.0849621117920526e-05,
      "loss": 0.754,
      "step": 3276
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8563896890863134,
      "learning_rate": 1.0844805275443673e-05,
      "loss": 0.7163,
      "step": 3277
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.3560651794528162,
      "learning_rate": 1.083998923562022e-05,
      "loss": 0.6669,
      "step": 3278
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6558931589000485,
      "learning_rate": 1.0835172999575201e-05,
      "loss": 0.6727,
      "step": 3279
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.44204785098856,
      "learning_rate": 1.0830356568433686e-05,
      "loss": 0.7336,
      "step": 3280
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.949188386306327,
      "learning_rate": 1.0825539943320793e-05,
      "loss": 0.7638,
      "step": 3281
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8581778005423566,
      "learning_rate": 1.0820723125361685e-05,
      "loss": 0.7107,
      "step": 3282
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9132435749141135,
      "learning_rate": 1.0815906115681579e-05,
      "loss": 0.6995,
      "step": 3283
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.5491640859377624,
      "learning_rate": 1.0811088915405717e-05,
      "loss": 0.7431,
      "step": 3284
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8305526859169687,
      "learning_rate": 1.0806271525659403e-05,
      "loss": 0.6296,
      "step": 3285
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9715390080775461,
      "learning_rate": 1.0801453947567985e-05,
      "loss": 0.6284,
      "step": 3286
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.5719096832602686,
      "learning_rate": 1.0796636182256846e-05,
      "loss": 0.7919,
      "step": 3287
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.788738276659179,
      "learning_rate": 1.079181823085141e-05,
      "loss": 0.727,
      "step": 3288
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8712647793040684,
      "learning_rate": 1.0787000094477157e-05,
      "loss": 0.7607,
      "step": 3289
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9816888754184745,
      "learning_rate": 1.0782181774259608e-05,
      "loss": 0.6907,
      "step": 3290
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0795283270403724,
      "learning_rate": 1.0777363271324318e-05,
      "loss": 0.6716,
      "step": 3291
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7335519516910756,
      "learning_rate": 1.077254458679689e-05,
      "loss": 0.7072,
      "step": 3292
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.2118829344886373,
      "learning_rate": 1.0767725721802967e-05,
      "loss": 0.653,
      "step": 3293
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.4662532430849615,
      "learning_rate": 1.0762906677468238e-05,
      "loss": 0.768,
      "step": 3294
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.061472910966128,
      "learning_rate": 1.0758087454918437e-05,
      "loss": 0.7356,
      "step": 3295
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.230875708542728,
      "learning_rate": 1.0753268055279328e-05,
      "loss": 0.8187,
      "step": 3296
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0084359511689605,
      "learning_rate": 1.074844847967673e-05,
      "loss": 0.7504,
      "step": 3297
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.386665933788603,
      "learning_rate": 1.0743628729236488e-05,
      "loss": 0.7677,
      "step": 3298
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.19247505432113,
      "learning_rate": 1.0738808805084503e-05,
      "loss": 0.7359,
      "step": 3299
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0119863790531647,
      "learning_rate": 1.0733988708346708e-05,
      "loss": 0.8052,
      "step": 3300
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.091562194550377,
      "learning_rate": 1.0729168440149077e-05,
      "loss": 0.7173,
      "step": 3301
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.2314732891077367,
      "learning_rate": 1.0724348001617626e-05,
      "loss": 0.6729,
      "step": 3302
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.110169415011206,
      "learning_rate": 1.071952739387841e-05,
      "loss": 0.7414,
      "step": 3303
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.360380567614878,
      "learning_rate": 1.0714706618057521e-05,
      "loss": 0.7441,
      "step": 3304
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7902152236993571,
      "learning_rate": 1.0709885675281096e-05,
      "loss": 0.6827,
      "step": 3305
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.029861923956032,
      "learning_rate": 1.070506456667531e-05,
      "loss": 0.6622,
      "step": 3306
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.58199524080794,
      "learning_rate": 1.0700243293366365e-05,
      "loss": 0.6216,
      "step": 3307
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5531181055950791,
      "learning_rate": 1.0695421856480519e-05,
      "loss": 0.6742,
      "step": 3308
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.639946795043859,
      "learning_rate": 1.0690600257144062e-05,
      "loss": 0.7357,
      "step": 3309
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7643746446096287,
      "learning_rate": 1.0685778496483312e-05,
      "loss": 0.6646,
      "step": 3310
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.8209578030246296,
      "learning_rate": 1.0680956575624637e-05,
      "loss": 0.7166,
      "step": 3311
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.2767116111663417,
      "learning_rate": 1.0676134495694439e-05,
      "loss": 0.7348,
      "step": 3312
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.4224406582882776,
      "learning_rate": 1.0671312257819155e-05,
      "loss": 0.6771,
      "step": 3313
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.266495150063775,
      "learning_rate": 1.066648986312526e-05,
      "loss": 0.8168,
      "step": 3314
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9365181220230137,
      "learning_rate": 1.066166731273927e-05,
      "loss": 0.6999,
      "step": 3315
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0045767197539184,
      "learning_rate": 1.0656844607787727e-05,
      "loss": 0.7689,
      "step": 3316
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6308726070050479,
      "learning_rate": 1.0652021749397216e-05,
      "loss": 0.7018,
      "step": 3317
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.1851036703566673,
      "learning_rate": 1.0647198738694362e-05,
      "loss": 0.7718,
      "step": 3318
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6806631354900572,
      "learning_rate": 1.0642375576805822e-05,
      "loss": 0.7706,
      "step": 3319
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4104858168544998,
      "learning_rate": 1.0637552264858278e-05,
      "loss": 0.744,
      "step": 3320
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7051757923896473,
      "learning_rate": 1.063272880397846e-05,
      "loss": 0.6469,
      "step": 3321
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.190729669888944,
      "learning_rate": 1.0627905195293135e-05,
      "loss": 0.7312,
      "step": 3322
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8464913658689432,
      "learning_rate": 1.0623081439929092e-05,
      "loss": 0.712,
      "step": 3323
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.9180905306877851,
      "learning_rate": 1.0618257539013162e-05,
      "loss": 0.7254,
      "step": 3324
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.9018591204168134,
      "learning_rate": 1.0613433493672212e-05,
      "loss": 0.7916,
      "step": 3325
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.909300540391391,
      "learning_rate": 1.0608609305033132e-05,
      "loss": 0.6557,
      "step": 3326
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.983418028895105,
      "learning_rate": 1.0603784974222862e-05,
      "loss": 0.6574,
      "step": 3327
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8738738339092282,
      "learning_rate": 1.059896050236836e-05,
      "loss": 0.6755,
      "step": 3328
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.810482414913906,
      "learning_rate": 1.0594135890596626e-05,
      "loss": 0.7107,
      "step": 3329
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.821489355985039,
      "learning_rate": 1.0589311140034687e-05,
      "loss": 0.7298,
      "step": 3330
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.572779184446139,
      "learning_rate": 1.0584486251809607e-05,
      "loss": 0.7035,
      "step": 3331
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7906447221492918,
      "learning_rate": 1.0579661227048484e-05,
      "loss": 0.7806,
      "step": 3332
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0073318966665066,
      "learning_rate": 1.0574836066878436e-05,
      "loss": 0.6995,
      "step": 3333
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0660369802248435,
      "learning_rate": 1.0570010772426627e-05,
      "loss": 0.6776,
      "step": 3334
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.2425037834310118,
      "learning_rate": 1.0565185344820248e-05,
      "loss": 0.7067,
      "step": 3335
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.3112105869903687,
      "learning_rate": 1.056035978518651e-05,
      "loss": 0.6859,
      "step": 3336
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.1790815364604237,
      "learning_rate": 1.0555534094652675e-05,
      "loss": 0.732,
      "step": 3337
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.3719092684593504,
      "learning_rate": 1.055070827434602e-05,
      "loss": 0.8338,
      "step": 3338
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6541202540206221,
      "learning_rate": 1.0545882325393855e-05,
      "loss": 0.5724,
      "step": 3339
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6414112491550865,
      "learning_rate": 1.0541056248923525e-05,
      "loss": 0.695,
      "step": 3340
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2014084984177205,
      "learning_rate": 1.0536230046062403e-05,
      "loss": 0.7379,
      "step": 3341
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.032657827133417,
      "learning_rate": 1.0531403717937888e-05,
      "loss": 0.8272,
      "step": 3342
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0438412302789724,
      "learning_rate": 1.052657726567741e-05,
      "loss": 0.7606,
      "step": 3343
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.7687527027864323,
      "learning_rate": 1.0521750690408434e-05,
      "loss": 0.7986,
      "step": 3344
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.081544439975148,
      "learning_rate": 1.0516923993258441e-05,
      "loss": 0.712,
      "step": 3345
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.092646734003477,
      "learning_rate": 1.0512097175354952e-05,
      "loss": 0.7745,
      "step": 3346
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.9701397183844835,
      "learning_rate": 1.0507270237825513e-05,
      "loss": 0.7315,
      "step": 3347
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.3314036781069416,
      "learning_rate": 1.0502443181797696e-05,
      "loss": 0.7622,
      "step": 3348
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.1089701065189415,
      "learning_rate": 1.04976160083991e-05,
      "loss": 0.7682,
      "step": 3349
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0456587494828518,
      "learning_rate": 1.0492788718757356e-05,
      "loss": 0.6915,
      "step": 3350
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.9763863092994935,
      "learning_rate": 1.0487961314000121e-05,
      "loss": 0.7318,
      "step": 3351
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1830125677714824,
      "learning_rate": 1.0483133795255072e-05,
      "loss": 0.7248,
      "step": 3352
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.989682320155158,
      "learning_rate": 1.0478306163649919e-05,
      "loss": 0.7686,
      "step": 3353
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0802798318140443,
      "learning_rate": 1.0473478420312403e-05,
      "loss": 0.7012,
      "step": 3354
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.024810163003044,
      "learning_rate": 1.0468650566370276e-05,
      "loss": 0.7317,
      "step": 3355
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.1960524524501404,
      "learning_rate": 1.0463822602951332e-05,
      "loss": 0.731,
      "step": 3356
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0884424024747843,
      "learning_rate": 1.045899453118338e-05,
      "loss": 0.7467,
      "step": 3357
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.128483898324145,
      "learning_rate": 1.045416635219426e-05,
      "loss": 0.6238,
      "step": 3358
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.9105398687827346,
      "learning_rate": 1.0449338067111839e-05,
      "loss": 0.6924,
      "step": 3359
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0161146189294046,
      "learning_rate": 1.0444509677063997e-05,
      "loss": 0.7636,
      "step": 3360
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.352043334367283,
      "learning_rate": 1.043968118317865e-05,
      "loss": 0.7814,
      "step": 3361
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6444561087713132,
      "learning_rate": 1.0434852586583737e-05,
      "loss": 0.7213,
      "step": 3362
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5889214986853808,
      "learning_rate": 1.0430023888407215e-05,
      "loss": 0.6357,
      "step": 3363
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7090311072744682,
      "learning_rate": 1.0425195089777072e-05,
      "loss": 0.6545,
      "step": 3364
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6199200108528184,
      "learning_rate": 1.042036619182131e-05,
      "loss": 0.7292,
      "step": 3365
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.1527590679722146,
      "learning_rate": 1.0415537195667963e-05,
      "loss": 0.7156,
      "step": 3366
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.6727354260211538,
      "learning_rate": 1.0410708102445091e-05,
      "loss": 0.7464,
      "step": 3367
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7474970019200564,
      "learning_rate": 1.0405878913280762e-05,
      "loss": 0.7499,
      "step": 3368
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.294437384772573,
      "learning_rate": 1.0401049629303077e-05,
      "loss": 0.7432,
      "step": 3369
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0736981611089105,
      "learning_rate": 1.0396220251640163e-05,
      "loss": 0.7145,
      "step": 3370
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8211927865974056,
      "learning_rate": 1.0391390781420157e-05,
      "loss": 0.6881,
      "step": 3371
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8700869859038949,
      "learning_rate": 1.0386561219771222e-05,
      "loss": 0.7802,
      "step": 3372
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.1686466021308246,
      "learning_rate": 1.038173156782155e-05,
      "loss": 0.7468,
      "step": 3373
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.9807191581561865,
      "learning_rate": 1.0376901826699349e-05,
      "loss": 0.7202,
      "step": 3374
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8806364772715212,
      "learning_rate": 1.037207199753284e-05,
      "loss": 0.6806,
      "step": 3375
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.663110895966732,
      "learning_rate": 1.0367242081450274e-05,
      "loss": 0.6736,
      "step": 3376
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.431121385651179,
      "learning_rate": 1.0362412079579925e-05,
      "loss": 0.8289,
      "step": 3377
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6899626324831747,
      "learning_rate": 1.0357581993050076e-05,
      "loss": 0.6647,
      "step": 3378
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6519870357134936,
      "learning_rate": 1.0352751822989037e-05,
      "loss": 0.6922,
      "step": 3379
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.4638901026319666,
      "learning_rate": 1.0347921570525139e-05,
      "loss": 0.7424,
      "step": 3380
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.2547891593108327,
      "learning_rate": 1.0343091236786727e-05,
      "loss": 0.7316,
      "step": 3381
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.9463924096095198,
      "learning_rate": 1.0338260822902166e-05,
      "loss": 0.6903,
      "step": 3382
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0159257473043866,
      "learning_rate": 1.0333430329999847e-05,
      "loss": 0.6766,
      "step": 3383
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0927902115430674,
      "learning_rate": 1.0328599759208167e-05,
      "loss": 0.7837,
      "step": 3384
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.0227698988149765,
      "learning_rate": 1.0323769111655549e-05,
      "loss": 0.7687,
      "step": 3385
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6428191201806432,
      "learning_rate": 1.0318938388470439e-05,
      "loss": 0.6415,
      "step": 3386
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1487211452373305,
      "learning_rate": 1.0314107590781284e-05,
      "loss": 0.7001,
      "step": 3387
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9715441684870298,
      "learning_rate": 1.0309276719716567e-05,
      "loss": 0.7292,
      "step": 3388
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9517713267495684,
      "learning_rate": 1.0304445776404778e-05,
      "loss": 0.7361,
      "step": 3389
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5426338220209104,
      "learning_rate": 1.0299614761974426e-05,
      "loss": 0.7403,
      "step": 3390
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8696840007839766,
      "learning_rate": 1.0294783677554035e-05,
      "loss": 0.6555,
      "step": 3391
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.247668953159595,
      "learning_rate": 1.0289952524272147e-05,
      "loss": 0.7937,
      "step": 3392
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7666234086787178,
      "learning_rate": 1.0285121303257321e-05,
      "loss": 0.6943,
      "step": 3393
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.168319113104535,
      "learning_rate": 1.0280290015638129e-05,
      "loss": 0.7003,
      "step": 3394
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.653778625402144,
      "learning_rate": 1.0275458662543161e-05,
      "loss": 0.6922,
      "step": 3395
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6545365560034961,
      "learning_rate": 1.0270627245101026e-05,
      "loss": 0.669,
      "step": 3396
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8876516055635986,
      "learning_rate": 1.0265795764440335e-05,
      "loss": 0.6989,
      "step": 3397
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.4260077063928094,
      "learning_rate": 1.0260964221689729e-05,
      "loss": 0.8402,
      "step": 3398
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.796996373309214,
      "learning_rate": 1.0256132617977856e-05,
      "loss": 0.6645,
      "step": 3399
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.3235187020997263,
      "learning_rate": 1.0251300954433377e-05,
      "loss": 0.7638,
      "step": 3400
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9490885161791025,
      "learning_rate": 1.0246469232184968e-05,
      "loss": 0.7621,
      "step": 3401
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.955313651901166,
      "learning_rate": 1.0241637452361323e-05,
      "loss": 0.717,
      "step": 3402
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8752118279299952,
      "learning_rate": 1.0236805616091148e-05,
      "loss": 0.657,
      "step": 3403
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.124768923874946,
      "learning_rate": 1.0231973724503152e-05,
      "loss": 0.7375,
      "step": 3404
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.3569673420388564,
      "learning_rate": 1.0227141778726075e-05,
      "loss": 0.6678,
      "step": 3405
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.123506153374183,
      "learning_rate": 1.0222309779888656e-05,
      "loss": 0.7334,
      "step": 3406
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.716862366805717,
      "learning_rate": 1.0217477729119648e-05,
      "loss": 0.6987,
      "step": 3407
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.811379714347838,
      "learning_rate": 1.0212645627547821e-05,
      "loss": 0.7204,
      "step": 3408
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6660580829576872,
      "learning_rate": 1.0207813476301955e-05,
      "loss": 0.7243,
      "step": 3409
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.1104082504614468,
      "learning_rate": 1.0202981276510841e-05,
      "loss": 0.8221,
      "step": 3410
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.3542795376808376,
      "learning_rate": 1.019814902930328e-05,
      "loss": 0.7716,
      "step": 3411
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.1309301176633846,
      "learning_rate": 1.0193316735808085e-05,
      "loss": 0.7421,
      "step": 3412
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.35310304696173,
      "learning_rate": 1.0188484397154083e-05,
      "loss": 0.713,
      "step": 3413
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9106636711443883,
      "learning_rate": 1.0183652014470105e-05,
      "loss": 0.7658,
      "step": 3414
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8970913279794759,
      "learning_rate": 1.0178819588885001e-05,
      "loss": 0.7355,
      "step": 3415
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.159287626264055,
      "learning_rate": 1.0173987121527619e-05,
      "loss": 0.7296,
      "step": 3416
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.902125159510676,
      "learning_rate": 1.0169154613526831e-05,
      "loss": 0.7285,
      "step": 3417
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.161061702340735,
      "learning_rate": 1.0164322066011509e-05,
      "loss": 0.7732,
      "step": 3418
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5176586500397964,
      "learning_rate": 1.0159489480110536e-05,
      "loss": 0.705,
      "step": 3419
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.076741241704795,
      "learning_rate": 1.0154656856952805e-05,
      "loss": 0.7685,
      "step": 3420
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5216587444980625,
      "learning_rate": 1.0149824197667213e-05,
      "loss": 0.6,
      "step": 3421
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9083003020543723,
      "learning_rate": 1.0144991503382676e-05,
      "loss": 0.7153,
      "step": 3422
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.054552799875336,
      "learning_rate": 1.0140158775228111e-05,
      "loss": 0.6409,
      "step": 3423
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7925388005994727,
      "learning_rate": 1.013532601433244e-05,
      "loss": 0.6135,
      "step": 3424
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7320878740741983,
      "learning_rate": 1.0130493221824598e-05,
      "loss": 0.7203,
      "step": 3425
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.842749805154605,
      "learning_rate": 1.0125660398833528e-05,
      "loss": 0.6928,
      "step": 3426
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.0962891231116076,
      "learning_rate": 1.0120827546488175e-05,
      "loss": 0.7385,
      "step": 3427
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.1290967364924858,
      "learning_rate": 1.0115994665917497e-05,
      "loss": 0.7602,
      "step": 3428
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7154960504004342,
      "learning_rate": 1.0111161758250451e-05,
      "loss": 0.6704,
      "step": 3429
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.998497118775811,
      "learning_rate": 1.010632882461601e-05,
      "loss": 0.7548,
      "step": 3430
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8795852024101616,
      "learning_rate": 1.0101495866143143e-05,
      "loss": 0.6834,
      "step": 3431
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.063566671649396,
      "learning_rate": 1.0096662883960833e-05,
      "loss": 0.8306,
      "step": 3432
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7762325229803155,
      "learning_rate": 1.0091829879198061e-05,
      "loss": 0.7399,
      "step": 3433
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.22406960851112,
      "learning_rate": 1.0086996852983822e-05,
      "loss": 0.7615,
      "step": 3434
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3737503660410215,
      "learning_rate": 1.008216380644711e-05,
      "loss": 0.6945,
      "step": 3435
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7584079828768626,
      "learning_rate": 1.0077330740716922e-05,
      "loss": 0.6923,
      "step": 3436
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.987365623737372,
      "learning_rate": 1.0072497656922266e-05,
      "loss": 0.7283,
      "step": 3437
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.636222914959896,
      "learning_rate": 1.0067664556192154e-05,
      "loss": 0.7307,
      "step": 3438
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.140633154085601,
      "learning_rate": 1.0062831439655591e-05,
      "loss": 0.6799,
      "step": 3439
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.2407223927098237,
      "learning_rate": 1.0057998308441598e-05,
      "loss": 0.7605,
      "step": 3440
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9541659025039178,
      "learning_rate": 1.0053165163679196e-05,
      "loss": 0.7061,
      "step": 3441
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.989812820808418,
      "learning_rate": 1.0048332006497406e-05,
      "loss": 0.769,
      "step": 3442
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.221377108727699,
      "learning_rate": 1.0043498838025252e-05,
      "loss": 0.7024,
      "step": 3443
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8749970685318973,
      "learning_rate": 1.0038665659391768e-05,
      "loss": 0.6736,
      "step": 3444
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5584112391262084,
      "learning_rate": 1.0033832471725982e-05,
      "loss": 0.649,
      "step": 3445
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9832007751218717,
      "learning_rate": 1.0028999276156926e-05,
      "loss": 0.8152,
      "step": 3446
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4455001463106905,
      "learning_rate": 1.0024166073813634e-05,
      "loss": 0.6711,
      "step": 3447
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7377222581544083,
      "learning_rate": 1.0019332865825149e-05,
      "loss": 0.652,
      "step": 3448
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.238110342582191,
      "learning_rate": 1.0014499653320504e-05,
      "loss": 0.7699,
      "step": 3449
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.583331423864161,
      "learning_rate": 1.0009666437428736e-05,
      "loss": 0.7204,
      "step": 3450
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.714883563794302,
      "learning_rate": 1.000483321927889e-05,
      "loss": 0.5946,
      "step": 3451
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9083216833920278,
      "learning_rate": 1e-05,
      "loss": 0.7065,
      "step": 3452
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9227274293323036,
      "learning_rate": 9.995166780721112e-06,
      "loss": 0.7052,
      "step": 3453
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0284867538632416,
      "learning_rate": 9.990333562571266e-06,
      "loss": 0.6575,
      "step": 3454
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7271093390146528,
      "learning_rate": 9.985500346679497e-06,
      "loss": 0.6504,
      "step": 3455
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.2652274169780595,
      "learning_rate": 9.980667134174854e-06,
      "loss": 0.6677,
      "step": 3456
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.758256631016152,
      "learning_rate": 9.975833926186367e-06,
      "loss": 0.7844,
      "step": 3457
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0548007678764404,
      "learning_rate": 9.971000723843077e-06,
      "loss": 0.6683,
      "step": 3458
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9197060825263188,
      "learning_rate": 9.966167528274021e-06,
      "loss": 0.7234,
      "step": 3459
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.804856041553691,
      "learning_rate": 9.961334340608233e-06,
      "loss": 0.7341,
      "step": 3460
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5509664052786702,
      "learning_rate": 9.956501161974747e-06,
      "loss": 0.6984,
      "step": 3461
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7796414391055726,
      "learning_rate": 9.951667993502599e-06,
      "loss": 0.7052,
      "step": 3462
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.569179639368046,
      "learning_rate": 9.946834836320809e-06,
      "loss": 0.6296,
      "step": 3463
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8032129865457975,
      "learning_rate": 9.942001691558405e-06,
      "loss": 0.6807,
      "step": 3464
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.229595450390639,
      "learning_rate": 9.937168560344412e-06,
      "loss": 0.7508,
      "step": 3465
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9893071507719895,
      "learning_rate": 9.93233544380785e-06,
      "loss": 0.6834,
      "step": 3466
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.919381869354822,
      "learning_rate": 9.927502343077732e-06,
      "loss": 0.6834,
      "step": 3467
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.1691352485043325,
      "learning_rate": 9.922669259283078e-06,
      "loss": 0.734,
      "step": 3468
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0111835770691697,
      "learning_rate": 9.917836193552895e-06,
      "loss": 0.6786,
      "step": 3469
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.453240614655242,
      "learning_rate": 9.913003147016181e-06,
      "loss": 0.6425,
      "step": 3470
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.325646208825056,
      "learning_rate": 9.908170120801942e-06,
      "loss": 0.8465,
      "step": 3471
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.956067466287297,
      "learning_rate": 9.903337116039172e-06,
      "loss": 0.7314,
      "step": 3472
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7561263076428626,
      "learning_rate": 9.898504133856858e-06,
      "loss": 0.7021,
      "step": 3473
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.220358203455505,
      "learning_rate": 9.893671175383995e-06,
      "loss": 0.744,
      "step": 3474
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.3889654318183493,
      "learning_rate": 9.888838241749552e-06,
      "loss": 0.7953,
      "step": 3475
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.1103324914541317,
      "learning_rate": 9.884005334082508e-06,
      "loss": 0.7341,
      "step": 3476
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.2454643897672,
      "learning_rate": 9.879172453511827e-06,
      "loss": 0.7654,
      "step": 3477
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7853508026580516,
      "learning_rate": 9.874339601166474e-06,
      "loss": 0.6595,
      "step": 3478
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.1685172751052884,
      "learning_rate": 9.869506778175405e-06,
      "loss": 0.6977,
      "step": 3479
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8255580157640965,
      "learning_rate": 9.864673985667563e-06,
      "loss": 0.7256,
      "step": 3480
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2318259717697835,
      "learning_rate": 9.859841224771892e-06,
      "loss": 0.6723,
      "step": 3481
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.5848800061163137,
      "learning_rate": 9.855008496617326e-06,
      "loss": 0.7566,
      "step": 3482
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.061917673853906,
      "learning_rate": 9.850175802332788e-06,
      "loss": 0.7548,
      "step": 3483
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.4467549751646027,
      "learning_rate": 9.845343143047198e-06,
      "loss": 0.6798,
      "step": 3484
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.6247488479963046,
      "learning_rate": 9.840510519889467e-06,
      "loss": 0.7282,
      "step": 3485
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9390382859457733,
      "learning_rate": 9.835677933988493e-06,
      "loss": 0.6626,
      "step": 3486
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.4833058458864263,
      "learning_rate": 9.830845386473169e-06,
      "loss": 0.7773,
      "step": 3487
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0614039486409315,
      "learning_rate": 9.826012878472383e-06,
      "loss": 0.6597,
      "step": 3488
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.30564206190042,
      "learning_rate": 9.821180411115002e-06,
      "loss": 0.7103,
      "step": 3489
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6562864513615252,
      "learning_rate": 9.816347985529898e-06,
      "loss": 0.7231,
      "step": 3490
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9120927986103944,
      "learning_rate": 9.81151560284592e-06,
      "loss": 0.7956,
      "step": 3491
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7620104884825907,
      "learning_rate": 9.806683264191916e-06,
      "loss": 0.7567,
      "step": 3492
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9425257414964463,
      "learning_rate": 9.801850970696722e-06,
      "loss": 0.726,
      "step": 3493
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6171668612484742,
      "learning_rate": 9.797018723489162e-06,
      "loss": 0.6839,
      "step": 3494
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7253906822717504,
      "learning_rate": 9.792186523698048e-06,
      "loss": 0.6843,
      "step": 3495
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0580419990709107,
      "learning_rate": 9.787354372452182e-06,
      "loss": 0.7652,
      "step": 3496
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.385379141674886,
      "learning_rate": 9.782522270880354e-06,
      "loss": 0.7138,
      "step": 3497
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.0538695820387316,
      "learning_rate": 9.777690220111348e-06,
      "loss": 0.7283,
      "step": 3498
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8165690613204455,
      "learning_rate": 9.772858221273926e-06,
      "loss": 0.7237,
      "step": 3499
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.707703981196312,
      "learning_rate": 9.768026275496848e-06,
      "loss": 0.7583,
      "step": 3500
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.177796605884464,
      "learning_rate": 9.763194383908857e-06,
      "loss": 0.7924,
      "step": 3501
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9025652316252233,
      "learning_rate": 9.75836254763868e-06,
      "loss": 0.7959,
      "step": 3502
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6563561861198834,
      "learning_rate": 9.753530767815036e-06,
      "loss": 0.6525,
      "step": 3503
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9827773695615691,
      "learning_rate": 9.748699045566626e-06,
      "loss": 0.7174,
      "step": 3504
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.365315668627096,
      "learning_rate": 9.743867382022147e-06,
      "loss": 0.7027,
      "step": 3505
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9578699995704303,
      "learning_rate": 9.739035778310273e-06,
      "loss": 0.7411,
      "step": 3506
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.07339647067566,
      "learning_rate": 9.73420423555967e-06,
      "loss": 0.7378,
      "step": 3507
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.2126312233658063,
      "learning_rate": 9.729372754898979e-06,
      "loss": 0.7489,
      "step": 3508
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7129276905109745,
      "learning_rate": 9.72454133745684e-06,
      "loss": 0.6708,
      "step": 3509
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.4687404486394073,
      "learning_rate": 9.719709984361873e-06,
      "loss": 0.6683,
      "step": 3510
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.845928911644407,
      "learning_rate": 9.714878696742682e-06,
      "loss": 0.7185,
      "step": 3511
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.018512109833928,
      "learning_rate": 9.710047475727854e-06,
      "loss": 0.6764,
      "step": 3512
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.426368020746929,
      "learning_rate": 9.705216322445967e-06,
      "loss": 0.7124,
      "step": 3513
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.028843129204425,
      "learning_rate": 9.700385238025579e-06,
      "loss": 0.6808,
      "step": 3514
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.965807987435398,
      "learning_rate": 9.695554223595224e-06,
      "loss": 0.667,
      "step": 3515
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8082174350491274,
      "learning_rate": 9.690723280283436e-06,
      "loss": 0.6886,
      "step": 3516
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.761874509770921,
      "learning_rate": 9.685892409218718e-06,
      "loss": 0.7322,
      "step": 3517
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.892957837170818,
      "learning_rate": 9.681061611529566e-06,
      "loss": 0.6952,
      "step": 3518
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8371005493799188,
      "learning_rate": 9.676230888344451e-06,
      "loss": 0.6914,
      "step": 3519
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.0918165453217754,
      "learning_rate": 9.67140024079184e-06,
      "loss": 0.7032,
      "step": 3520
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.197774759407012,
      "learning_rate": 9.66656967000016e-06,
      "loss": 0.6565,
      "step": 3521
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.315462626380864,
      "learning_rate": 9.661739177097836e-06,
      "loss": 0.6839,
      "step": 3522
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.791234941754581,
      "learning_rate": 9.656908763213276e-06,
      "loss": 0.6648,
      "step": 3523
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4752876180243175,
      "learning_rate": 9.652078429474863e-06,
      "loss": 0.671,
      "step": 3524
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.011104726956523,
      "learning_rate": 9.647248177010964e-06,
      "loss": 0.6961,
      "step": 3525
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.265318629630178,
      "learning_rate": 9.642418006949926e-06,
      "loss": 0.7516,
      "step": 3526
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.5559304232539666,
      "learning_rate": 9.63758792042008e-06,
      "loss": 0.717,
      "step": 3527
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.243708147573312,
      "learning_rate": 9.632757918549729e-06,
      "loss": 0.7227,
      "step": 3528
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9780809806455306,
      "learning_rate": 9.627928002467164e-06,
      "loss": 0.7308,
      "step": 3529
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7964551128688666,
      "learning_rate": 9.623098173300655e-06,
      "loss": 0.6608,
      "step": 3530
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.233474217621717,
      "learning_rate": 9.618268432178451e-06,
      "loss": 0.8331,
      "step": 3531
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9550889174253636,
      "learning_rate": 9.613438780228777e-06,
      "loss": 0.7828,
      "step": 3532
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.4960043819382953,
      "learning_rate": 9.60860921857985e-06,
      "loss": 0.7226,
      "step": 3533
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.4727793001807186,
      "learning_rate": 9.603779748359842e-06,
      "loss": 0.718,
      "step": 3534
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8830506650232213,
      "learning_rate": 9.598950370696924e-06,
      "loss": 0.7842,
      "step": 3535
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.092956363465564,
      "learning_rate": 9.594121086719241e-06,
      "loss": 0.7763,
      "step": 3536
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.078385957720297,
      "learning_rate": 9.589291897554912e-06,
      "loss": 0.6834,
      "step": 3537
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.1405782749574938,
      "learning_rate": 9.584462804332038e-06,
      "loss": 0.7636,
      "step": 3538
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.1780321799280244,
      "learning_rate": 9.579633808178693e-06,
      "loss": 0.7524,
      "step": 3539
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.655283719929004,
      "learning_rate": 9.574804910222934e-06,
      "loss": 0.7321,
      "step": 3540
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.806514065669837,
      "learning_rate": 9.569976111592789e-06,
      "loss": 0.7869,
      "step": 3541
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.1833545152623652,
      "learning_rate": 9.565147413416266e-06,
      "loss": 0.7158,
      "step": 3542
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.867044045188954,
      "learning_rate": 9.560318816821354e-06,
      "loss": 0.7002,
      "step": 3543
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.1359173298964698,
      "learning_rate": 9.555490322936007e-06,
      "loss": 0.7318,
      "step": 3544
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.1467044939425644,
      "learning_rate": 9.550661932888164e-06,
      "loss": 0.8026,
      "step": 3545
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5587548188906803,
      "learning_rate": 9.545833647805743e-06,
      "loss": 0.7218,
      "step": 3546
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.708090486991822,
      "learning_rate": 9.541005468816622e-06,
      "loss": 0.7992,
      "step": 3547
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9404633150847515,
      "learning_rate": 9.53617739704867e-06,
      "loss": 0.7183,
      "step": 3548
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7463277208432941,
      "learning_rate": 9.531349433629729e-06,
      "loss": 0.7671,
      "step": 3549
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8347792350055134,
      "learning_rate": 9.526521579687603e-06,
      "loss": 0.791,
      "step": 3550
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6520556384432503,
      "learning_rate": 9.521693836350083e-06,
      "loss": 0.7057,
      "step": 3551
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9069321617449626,
      "learning_rate": 9.516866204744932e-06,
      "loss": 0.6985,
      "step": 3552
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.918521209386364,
      "learning_rate": 9.512038685999882e-06,
      "loss": 0.6513,
      "step": 3553
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.4252906844349535,
      "learning_rate": 9.507211281242646e-06,
      "loss": 0.6117,
      "step": 3554
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.0081924693254924,
      "learning_rate": 9.502383991600901e-06,
      "loss": 0.7059,
      "step": 3555
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.145937143587286,
      "learning_rate": 9.497556818202306e-06,
      "loss": 0.7344,
      "step": 3556
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7226360198350104,
      "learning_rate": 9.492729762174489e-06,
      "loss": 0.7525,
      "step": 3557
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.135140568522027,
      "learning_rate": 9.487902824645048e-06,
      "loss": 0.6804,
      "step": 3558
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9390957634329553,
      "learning_rate": 9.483076006741564e-06,
      "loss": 0.7832,
      "step": 3559
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.800888332699404,
      "learning_rate": 9.478249309591571e-06,
      "loss": 0.6763,
      "step": 3560
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.086628167695888,
      "learning_rate": 9.473422734322593e-06,
      "loss": 0.8263,
      "step": 3561
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5659735732655111,
      "learning_rate": 9.468596282062114e-06,
      "loss": 0.7489,
      "step": 3562
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6887289269650778,
      "learning_rate": 9.4637699539376e-06,
      "loss": 0.6265,
      "step": 3563
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8616061113787348,
      "learning_rate": 9.458943751076475e-06,
      "loss": 0.5881,
      "step": 3564
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.0364992284961527,
      "learning_rate": 9.45411767460615e-06,
      "loss": 0.7267,
      "step": 3565
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.304388182670798,
      "learning_rate": 9.449291725653985e-06,
      "loss": 0.753,
      "step": 3566
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8471914445617694,
      "learning_rate": 9.444465905347327e-06,
      "loss": 0.6942,
      "step": 3567
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.2583478576901332,
      "learning_rate": 9.439640214813491e-06,
      "loss": 0.7132,
      "step": 3568
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9986576212521072,
      "learning_rate": 9.434814655179756e-06,
      "loss": 0.6428,
      "step": 3569
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9916804168517344,
      "learning_rate": 9.429989227573373e-06,
      "loss": 0.7531,
      "step": 3570
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8099408520211753,
      "learning_rate": 9.425163933121564e-06,
      "loss": 0.7712,
      "step": 3571
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7113138275349384,
      "learning_rate": 9.420338772951521e-06,
      "loss": 0.6728,
      "step": 3572
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5798042452083092,
      "learning_rate": 9.415513748190396e-06,
      "loss": 0.6424,
      "step": 3573
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.6190589907374013,
      "learning_rate": 9.410688859965316e-06,
      "loss": 0.6379,
      "step": 3574
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.080792519552569,
      "learning_rate": 9.405864109403378e-06,
      "loss": 0.7229,
      "step": 3575
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7661409306753857,
      "learning_rate": 9.401039497631642e-06,
      "loss": 0.7341,
      "step": 3576
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7403929784498062,
      "learning_rate": 9.39621502577714e-06,
      "loss": 0.7136,
      "step": 3577
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.69599034159005,
      "learning_rate": 9.391390694966871e-06,
      "loss": 0.6792,
      "step": 3578
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.5966773416422853,
      "learning_rate": 9.386566506327793e-06,
      "loss": 0.7076,
      "step": 3579
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.938415339142136,
      "learning_rate": 9.38174246098684e-06,
      "loss": 0.6663,
      "step": 3580
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7722439344549512,
      "learning_rate": 9.37691856007091e-06,
      "loss": 0.6351,
      "step": 3581
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8782925743798753,
      "learning_rate": 9.372094804706867e-06,
      "loss": 0.6764,
      "step": 3582
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9592928345371774,
      "learning_rate": 9.367271196021539e-06,
      "loss": 0.6475,
      "step": 3583
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.971590774576312,
      "learning_rate": 9.362447735141723e-06,
      "loss": 0.634,
      "step": 3584
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.21195034061347,
      "learning_rate": 9.357624423194185e-06,
      "loss": 0.6948,
      "step": 3585
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8590246959472392,
      "learning_rate": 9.35280126130564e-06,
      "loss": 0.6707,
      "step": 3586
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.784626843114013,
      "learning_rate": 9.347978250602786e-06,
      "loss": 0.7147,
      "step": 3587
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4714157396669365,
      "learning_rate": 9.343155392212276e-06,
      "loss": 0.7473,
      "step": 3588
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.2529296507211747,
      "learning_rate": 9.338332687260733e-06,
      "loss": 0.7033,
      "step": 3589
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8279839521299344,
      "learning_rate": 9.333510136874741e-06,
      "loss": 0.717,
      "step": 3590
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9459532208848422,
      "learning_rate": 9.32868774218085e-06,
      "loss": 0.6444,
      "step": 3591
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.2080088598918475,
      "learning_rate": 9.323865504305566e-06,
      "loss": 0.7494,
      "step": 3592
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.6124993801316614,
      "learning_rate": 9.319043424375366e-06,
      "loss": 0.7247,
      "step": 3593
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8079226709304577,
      "learning_rate": 9.314221503516691e-06,
      "loss": 0.6805,
      "step": 3594
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.340819775220151,
      "learning_rate": 9.309399742855943e-06,
      "loss": 0.8243,
      "step": 3595
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7849828282581564,
      "learning_rate": 9.304578143519481e-06,
      "loss": 0.7651,
      "step": 3596
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7848667300668826,
      "learning_rate": 9.299756706633636e-06,
      "loss": 0.6265,
      "step": 3597
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.311294364406706,
      "learning_rate": 9.294935433324697e-06,
      "loss": 0.7016,
      "step": 3598
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9623820113604467,
      "learning_rate": 9.290114324718906e-06,
      "loss": 0.7448,
      "step": 3599
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9867087121762086,
      "learning_rate": 9.285293381942482e-06,
      "loss": 0.7261,
      "step": 3600
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7921781995079347,
      "learning_rate": 9.280472606121594e-06,
      "loss": 0.7424,
      "step": 3601
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9007014527332236,
      "learning_rate": 9.275651998382377e-06,
      "loss": 0.6808,
      "step": 3602
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.29229640906946,
      "learning_rate": 9.270831559850925e-06,
      "loss": 0.7813,
      "step": 3603
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8070918205662885,
      "learning_rate": 9.266011291653296e-06,
      "loss": 0.7778,
      "step": 3604
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.305788191672377,
      "learning_rate": 9.261191194915499e-06,
      "loss": 0.7093,
      "step": 3605
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7323107993633031,
      "learning_rate": 9.256371270763515e-06,
      "loss": 0.7107,
      "step": 3606
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.769881791318792,
      "learning_rate": 9.251551520323273e-06,
      "loss": 0.703,
      "step": 3607
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.746708572712808,
      "learning_rate": 9.246731944720675e-06,
      "loss": 0.7711,
      "step": 3608
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.3724700693199026,
      "learning_rate": 9.241912545081566e-06,
      "loss": 0.7806,
      "step": 3609
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.0976762553588517,
      "learning_rate": 9.237093322531765e-06,
      "loss": 0.7678,
      "step": 3610
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.5056284493886887,
      "learning_rate": 9.232274278197038e-06,
      "loss": 0.7564,
      "step": 3611
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7785243964436117,
      "learning_rate": 9.227455413203115e-06,
      "loss": 0.7734,
      "step": 3612
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6961411930933445,
      "learning_rate": 9.222636728675687e-06,
      "loss": 0.6867,
      "step": 3613
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9362253661668827,
      "learning_rate": 9.217818225740394e-06,
      "loss": 0.7108,
      "step": 3614
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.356589248200915,
      "learning_rate": 9.212999905522841e-06,
      "loss": 0.8342,
      "step": 3615
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.413780857853682,
      "learning_rate": 9.20818176914859e-06,
      "loss": 0.653,
      "step": 3616
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.4113746034449366,
      "learning_rate": 9.203363817743159e-06,
      "loss": 0.7274,
      "step": 3617
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.821278077454492,
      "learning_rate": 9.198546052432018e-06,
      "loss": 0.6414,
      "step": 3618
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8756174953696543,
      "learning_rate": 9.193728474340598e-06,
      "loss": 0.6575,
      "step": 3619
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.20270113095385,
      "learning_rate": 9.188911084594286e-06,
      "loss": 0.7471,
      "step": 3620
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6566227549795196,
      "learning_rate": 9.184093884318426e-06,
      "loss": 0.6643,
      "step": 3621
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.4749576384103134,
      "learning_rate": 9.179276874638315e-06,
      "loss": 0.7388,
      "step": 3622
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.2848972308691007,
      "learning_rate": 9.174460056679214e-06,
      "loss": 0.6868,
      "step": 3623
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.0268213482785695,
      "learning_rate": 9.16964343156632e-06,
      "loss": 0.7363,
      "step": 3624
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.2056875401542997,
      "learning_rate": 9.164827000424804e-06,
      "loss": 0.6467,
      "step": 3625
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6687637046240698,
      "learning_rate": 9.160010764379782e-06,
      "loss": 0.6855,
      "step": 3626
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.280630661364623,
      "learning_rate": 9.15519472455633e-06,
      "loss": 0.7475,
      "step": 3627
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.119319136386101,
      "learning_rate": 9.150378882079475e-06,
      "loss": 0.7087,
      "step": 3628
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.2310009674932045,
      "learning_rate": 9.145563238074198e-06,
      "loss": 0.7314,
      "step": 3629
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.0700202457694097,
      "learning_rate": 9.140747793665439e-06,
      "loss": 0.7187,
      "step": 3630
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6676904426769124,
      "learning_rate": 9.135932549978075e-06,
      "loss": 0.6764,
      "step": 3631
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4874175384100963,
      "learning_rate": 9.131117508136953e-06,
      "loss": 0.6433,
      "step": 3632
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7540193223547598,
      "learning_rate": 9.12630266926687e-06,
      "loss": 0.6861,
      "step": 3633
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6607136893219256,
      "learning_rate": 9.121488034492569e-06,
      "loss": 0.7537,
      "step": 3634
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7428655805894682,
      "learning_rate": 9.11667360493875e-06,
      "loss": 0.6621,
      "step": 3635
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.750060806172104,
      "learning_rate": 9.111859381730071e-06,
      "loss": 0.6028,
      "step": 3636
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.86798288545781,
      "learning_rate": 9.107045365991123e-06,
      "loss": 0.8482,
      "step": 3637
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.721162136119253,
      "learning_rate": 9.102231558846467e-06,
      "loss": 0.7098,
      "step": 3638
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6450383941264166,
      "learning_rate": 9.097417961420608e-06,
      "loss": 0.6526,
      "step": 3639
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.054327548585178,
      "learning_rate": 9.092604574838004e-06,
      "loss": 0.7258,
      "step": 3640
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.3494130461872498,
      "learning_rate": 9.08779140022306e-06,
      "loss": 0.6821,
      "step": 3641
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8354420183183853,
      "learning_rate": 9.082978438700138e-06,
      "loss": 0.715,
      "step": 3642
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.5829435389267443,
      "learning_rate": 9.078165691393548e-06,
      "loss": 0.6132,
      "step": 3643
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.0225394543949187,
      "learning_rate": 9.073353159427538e-06,
      "loss": 0.6906,
      "step": 3644
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.52343577356464,
      "learning_rate": 9.068540843926324e-06,
      "loss": 0.766,
      "step": 3645
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.5720573170308088,
      "learning_rate": 9.06372874601406e-06,
      "loss": 0.7127,
      "step": 3646
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5807599553389189,
      "learning_rate": 9.058916866814857e-06,
      "loss": 0.5995,
      "step": 3647
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.0654608824879426,
      "learning_rate": 9.054105207452766e-06,
      "loss": 0.6803,
      "step": 3648
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7670181578453321,
      "learning_rate": 9.049293769051797e-06,
      "loss": 0.6292,
      "step": 3649
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9154609187677054,
      "learning_rate": 9.044482552735895e-06,
      "loss": 0.6929,
      "step": 3650
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6479360852179192,
      "learning_rate": 9.039671559628963e-06,
      "loss": 0.6869,
      "step": 3651
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.4823774559558447,
      "learning_rate": 9.034860790854848e-06,
      "loss": 0.785,
      "step": 3652
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.1347618180288612,
      "learning_rate": 9.030050247537352e-06,
      "loss": 0.7374,
      "step": 3653
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9069796784713382,
      "learning_rate": 9.025239930800214e-06,
      "loss": 0.7005,
      "step": 3654
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.179031564049657,
      "learning_rate": 9.020429841767125e-06,
      "loss": 0.6967,
      "step": 3655
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.592901030136622,
      "learning_rate": 9.015619981561726e-06,
      "loss": 0.6846,
      "step": 3656
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.031972121311186,
      "learning_rate": 9.010810351307593e-06,
      "loss": 0.6929,
      "step": 3657
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.306764507621317,
      "learning_rate": 9.006000952128262e-06,
      "loss": 0.719,
      "step": 3658
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8126106132028224,
      "learning_rate": 9.001191785147207e-06,
      "loss": 0.6152,
      "step": 3659
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.086957379638113,
      "learning_rate": 8.996382851487851e-06,
      "loss": 0.6896,
      "step": 3660
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6973762909862518,
      "learning_rate": 8.991574152273562e-06,
      "loss": 0.6669,
      "step": 3661
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8403069840406738,
      "learning_rate": 8.986765688627652e-06,
      "loss": 0.7512,
      "step": 3662
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.002130035653337,
      "learning_rate": 8.981957461673375e-06,
      "loss": 0.7535,
      "step": 3663
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0286736049860528,
      "learning_rate": 8.977149472533938e-06,
      "loss": 0.7238,
      "step": 3664
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.241114348315085,
      "learning_rate": 8.972341722332485e-06,
      "loss": 0.6957,
      "step": 3665
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.759449671425682,
      "learning_rate": 8.96753421219211e-06,
      "loss": 0.7175,
      "step": 3666
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.1210921927852633,
      "learning_rate": 8.962726943235845e-06,
      "loss": 0.6314,
      "step": 3667
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9462650353759825,
      "learning_rate": 8.957919916586668e-06,
      "loss": 0.7447,
      "step": 3668
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0315995464765564,
      "learning_rate": 8.953113133367506e-06,
      "loss": 0.7198,
      "step": 3669
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.2061749191648112,
      "learning_rate": 8.948306594701216e-06,
      "loss": 0.7072,
      "step": 3670
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0584770784207542,
      "learning_rate": 8.943500301710612e-06,
      "loss": 0.6981,
      "step": 3671
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.033086172869666,
      "learning_rate": 8.938694255518444e-06,
      "loss": 0.7314,
      "step": 3672
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.157408097734006,
      "learning_rate": 8.933888457247402e-06,
      "loss": 0.787,
      "step": 3673
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9645980219142019,
      "learning_rate": 8.929082908020122e-06,
      "loss": 0.7421,
      "step": 3674
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0205252027162026,
      "learning_rate": 8.924277608959185e-06,
      "loss": 0.6763,
      "step": 3675
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7959134903347413,
      "learning_rate": 8.919472561187102e-06,
      "loss": 0.7227,
      "step": 3676
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8791175655865084,
      "learning_rate": 8.91466776582634e-06,
      "loss": 0.648,
      "step": 3677
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.2286480574936807,
      "learning_rate": 8.909863223999292e-06,
      "loss": 0.7595,
      "step": 3678
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0840921041213427,
      "learning_rate": 8.905058936828305e-06,
      "loss": 0.7998,
      "step": 3679
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.355859375787273,
      "learning_rate": 8.900254905435658e-06,
      "loss": 0.7432,
      "step": 3680
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.3189325999678907,
      "learning_rate": 8.895451130943578e-06,
      "loss": 0.6817,
      "step": 3681
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.4562331270814006,
      "learning_rate": 8.890647614474223e-06,
      "loss": 0.7568,
      "step": 3682
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1760946009868138,
      "learning_rate": 8.885844357149695e-06,
      "loss": 0.7117,
      "step": 3683
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3866199831757657,
      "learning_rate": 8.881041360092035e-06,
      "loss": 0.7276,
      "step": 3684
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8561062820902188,
      "learning_rate": 8.876238624423224e-06,
      "loss": 0.719,
      "step": 3685
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9629722043379785,
      "learning_rate": 8.871436151265183e-06,
      "loss": 0.7027,
      "step": 3686
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.2769064280355704,
      "learning_rate": 8.86663394173977e-06,
      "loss": 0.7273,
      "step": 3687
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7202192436146901,
      "learning_rate": 8.861831996968785e-06,
      "loss": 0.6901,
      "step": 3688
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8409409786511886,
      "learning_rate": 8.857030318073955e-06,
      "loss": 0.7319,
      "step": 3689
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.085657301928976,
      "learning_rate": 8.852228906176958e-06,
      "loss": 0.6916,
      "step": 3690
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9208975717105152,
      "learning_rate": 8.8474277623994e-06,
      "loss": 0.6559,
      "step": 3691
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9908942621473142,
      "learning_rate": 8.842626887862832e-06,
      "loss": 0.7468,
      "step": 3692
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.866022384381136,
      "learning_rate": 8.83782628368874e-06,
      "loss": 0.7456,
      "step": 3693
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7581137712469588,
      "learning_rate": 8.833025950998547e-06,
      "loss": 0.7612,
      "step": 3694
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.954620514697525,
      "learning_rate": 8.828225890913604e-06,
      "loss": 0.7613,
      "step": 3695
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4083470591605807,
      "learning_rate": 8.82342610455521e-06,
      "loss": 0.6809,
      "step": 3696
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7600229775938285,
      "learning_rate": 8.818626593044595e-06,
      "loss": 0.6714,
      "step": 3697
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.973098115171537,
      "learning_rate": 8.813827357502926e-06,
      "loss": 0.6359,
      "step": 3698
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.504603716581736,
      "learning_rate": 8.809028399051302e-06,
      "loss": 0.7028,
      "step": 3699
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.4223408608653196,
      "learning_rate": 8.804229718810765e-06,
      "loss": 0.858,
      "step": 3700
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.163734046231371,
      "learning_rate": 8.799431317902289e-06,
      "loss": 0.7229,
      "step": 3701
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.108543389315206,
      "learning_rate": 8.79463319744677e-06,
      "loss": 0.6417,
      "step": 3702
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9165219690246702,
      "learning_rate": 8.78983535856506e-06,
      "loss": 0.7287,
      "step": 3703
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6361852628141043,
      "learning_rate": 8.785037802377929e-06,
      "loss": 0.7229,
      "step": 3704
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8151138327818948,
      "learning_rate": 8.780240530006088e-06,
      "loss": 0.6637,
      "step": 3705
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9854210424672787,
      "learning_rate": 8.775443542570182e-06,
      "loss": 0.7001,
      "step": 3706
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.359144472104985,
      "learning_rate": 8.77064684119079e-06,
      "loss": 0.6901,
      "step": 3707
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.0628296557053183,
      "learning_rate": 8.765850426988414e-06,
      "loss": 0.6863,
      "step": 3708
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0396564217599473,
      "learning_rate": 8.7610543010835e-06,
      "loss": 0.7502,
      "step": 3709
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.312147407141775,
      "learning_rate": 8.756258464596426e-06,
      "loss": 0.708,
      "step": 3710
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.2103462107362652,
      "learning_rate": 8.7514629186475e-06,
      "loss": 0.707,
      "step": 3711
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6742601657710545,
      "learning_rate": 8.746667664356957e-06,
      "loss": 0.691,
      "step": 3712
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.103518701531495,
      "learning_rate": 8.741872702844975e-06,
      "loss": 0.6861,
      "step": 3713
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.1209789941138983,
      "learning_rate": 8.737078035231659e-06,
      "loss": 0.7058,
      "step": 3714
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.881640610634741,
      "learning_rate": 8.732283662637034e-06,
      "loss": 0.6848,
      "step": 3715
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.0059045334883776,
      "learning_rate": 8.727489586181073e-06,
      "loss": 0.7465,
      "step": 3716
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8436642078410113,
      "learning_rate": 8.722695806983673e-06,
      "loss": 0.7255,
      "step": 3717
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.1055638364844462,
      "learning_rate": 8.717902326164657e-06,
      "loss": 0.8027,
      "step": 3718
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.1738210429128317,
      "learning_rate": 8.713109144843785e-06,
      "loss": 0.7327,
      "step": 3719
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9882258737486238,
      "learning_rate": 8.708316264140751e-06,
      "loss": 0.7135,
      "step": 3720
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7077040617189883,
      "learning_rate": 8.703523685175161e-06,
      "loss": 0.6983,
      "step": 3721
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.108059854452046,
      "learning_rate": 8.69873140906657e-06,
      "loss": 0.7374,
      "step": 3722
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.137587090605612,
      "learning_rate": 8.69393943693445e-06,
      "loss": 0.7126,
      "step": 3723
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.6808675525761907,
      "learning_rate": 8.689147769898205e-06,
      "loss": 0.7397,
      "step": 3724
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.3827937125583007,
      "learning_rate": 8.684356409077177e-06,
      "loss": 0.7193,
      "step": 3725
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7833021473680188,
      "learning_rate": 8.67956535559062e-06,
      "loss": 0.7389,
      "step": 3726
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9285188507651234,
      "learning_rate": 8.674774610557728e-06,
      "loss": 0.6638,
      "step": 3727
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.594048155257954,
      "learning_rate": 8.669984175097617e-06,
      "loss": 0.6714,
      "step": 3728
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.3787747410980766,
      "learning_rate": 8.665194050329337e-06,
      "loss": 0.7314,
      "step": 3729
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.757004595683896,
      "learning_rate": 8.66040423737186e-06,
      "loss": 0.7054,
      "step": 3730
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.909765479847633,
      "learning_rate": 8.655614737344087e-06,
      "loss": 0.7214,
      "step": 3731
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.0670189633137857,
      "learning_rate": 8.650825551364844e-06,
      "loss": 0.7302,
      "step": 3732
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.148546073087214,
      "learning_rate": 8.646036680552889e-06,
      "loss": 0.7172,
      "step": 3733
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.655148807449377,
      "learning_rate": 8.641248126026897e-06,
      "loss": 0.7199,
      "step": 3734
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.846577682969152,
      "learning_rate": 8.63645988890548e-06,
      "loss": 0.7129,
      "step": 3735
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9003226588098665,
      "learning_rate": 8.63167197030717e-06,
      "loss": 0.7008,
      "step": 3736
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.7806194676159173,
      "learning_rate": 8.626884371350421e-06,
      "loss": 0.6708,
      "step": 3737
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.5295424419373718,
      "learning_rate": 8.62209709315362e-06,
      "loss": 0.7395,
      "step": 3738
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9337136419656518,
      "learning_rate": 8.617310136835078e-06,
      "loss": 0.6713,
      "step": 3739
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.938019940147394,
      "learning_rate": 8.612523503513024e-06,
      "loss": 0.6112,
      "step": 3740
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.3429676720700603,
      "learning_rate": 8.60773719430562e-06,
      "loss": 0.7975,
      "step": 3741
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.857304232393121,
      "learning_rate": 8.602951210330942e-06,
      "loss": 0.7076,
      "step": 3742
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.090706561042242,
      "learning_rate": 8.598165552707002e-06,
      "loss": 0.6701,
      "step": 3743
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.815661022922874,
      "learning_rate": 8.593380222551729e-06,
      "loss": 0.7463,
      "step": 3744
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5734356706460744,
      "learning_rate": 8.588595220982975e-06,
      "loss": 0.6277,
      "step": 3745
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5897542003047649,
      "learning_rate": 8.583810549118524e-06,
      "loss": 0.7229,
      "step": 3746
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9130892519677667,
      "learning_rate": 8.579026208076064e-06,
      "loss": 0.6957,
      "step": 3747
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.8151333189635814,
      "learning_rate": 8.574242198973223e-06,
      "loss": 0.6599,
      "step": 3748
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9827771356934847,
      "learning_rate": 8.569458522927547e-06,
      "loss": 0.7947,
      "step": 3749
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7255037534987072,
      "learning_rate": 8.564675181056502e-06,
      "loss": 0.7356,
      "step": 3750
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.8761083376269956,
      "learning_rate": 8.559892174477478e-06,
      "loss": 0.6797,
      "step": 3751
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.387699852979684,
      "learning_rate": 8.55510950430779e-06,
      "loss": 0.7544,
      "step": 3752
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.188037055565875,
      "learning_rate": 8.550327171664661e-06,
      "loss": 0.7471,
      "step": 3753
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.819614282284086,
      "learning_rate": 8.545545177665252e-06,
      "loss": 0.6409,
      "step": 3754
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.8663438769950405,
      "learning_rate": 8.54076352342663e-06,
      "loss": 0.6572,
      "step": 3755
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7287543798961351,
      "learning_rate": 8.535982210065797e-06,
      "loss": 0.8464,
      "step": 3756
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.547678970467291,
      "learning_rate": 8.531201238699665e-06,
      "loss": 0.6444,
      "step": 3757
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7398743471832039,
      "learning_rate": 8.52642061044507e-06,
      "loss": 0.7127,
      "step": 3758
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9813988788642565,
      "learning_rate": 8.52164032641877e-06,
      "loss": 0.7402,
      "step": 3759
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7844985718802644,
      "learning_rate": 8.516860387737436e-06,
      "loss": 0.6322,
      "step": 3760
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5839683647415734,
      "learning_rate": 8.512080795517662e-06,
      "loss": 0.68,
      "step": 3761
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.646404156905789,
      "learning_rate": 8.50730155087596e-06,
      "loss": 0.7197,
      "step": 3762
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.0644276356772884,
      "learning_rate": 8.502522654928767e-06,
      "loss": 0.7296,
      "step": 3763
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.771434818259585,
      "learning_rate": 8.49774410879243e-06,
      "loss": 0.7096,
      "step": 3764
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.155978278639123,
      "learning_rate": 8.492965913583222e-06,
      "loss": 0.6325,
      "step": 3765
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.055821097473404,
      "learning_rate": 8.488188070417323e-06,
      "loss": 0.6783,
      "step": 3766
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9236125144733798,
      "learning_rate": 8.483410580410843e-06,
      "loss": 0.7141,
      "step": 3767
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7937227352030138,
      "learning_rate": 8.478633444679801e-06,
      "loss": 0.6602,
      "step": 3768
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.0972241391893722,
      "learning_rate": 8.47385666434014e-06,
      "loss": 0.7339,
      "step": 3769
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.60036816132718,
      "learning_rate": 8.469080240507711e-06,
      "loss": 0.7582,
      "step": 3770
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.878189414892064,
      "learning_rate": 8.464304174298292e-06,
      "loss": 0.7178,
      "step": 3771
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.0991531618267754,
      "learning_rate": 8.459528466827576e-06,
      "loss": 0.6988,
      "step": 3772
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.65671013495171,
      "learning_rate": 8.454753119211158e-06,
      "loss": 0.7106,
      "step": 3773
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.8141072762491108,
      "learning_rate": 8.449978132564565e-06,
      "loss": 0.6091,
      "step": 3774
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5773120830270275,
      "learning_rate": 8.445203508003236e-06,
      "loss": 0.7298,
      "step": 3775
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.02551641056895,
      "learning_rate": 8.44042924664252e-06,
      "loss": 0.732,
      "step": 3776
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.001700635851341,
      "learning_rate": 8.43565534959769e-06,
      "loss": 0.7308,
      "step": 3777
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.8571063910484304,
      "learning_rate": 8.430881817983931e-06,
      "loss": 0.7165,
      "step": 3778
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9682057386134195,
      "learning_rate": 8.426108652916329e-06,
      "loss": 0.7183,
      "step": 3779
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9680094529988446,
      "learning_rate": 8.421335855509903e-06,
      "loss": 0.6516,
      "step": 3780
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6175220544867408,
      "learning_rate": 8.41656342687958e-06,
      "loss": 0.7036,
      "step": 3781
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9303827854494082,
      "learning_rate": 8.411791368140197e-06,
      "loss": 0.7337,
      "step": 3782
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6553036696873882,
      "learning_rate": 8.407019680406508e-06,
      "loss": 0.6491,
      "step": 3783
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9901837443315116,
      "learning_rate": 8.402248364793182e-06,
      "loss": 0.6365,
      "step": 3784
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.116314712284295,
      "learning_rate": 8.3974774224148e-06,
      "loss": 0.7697,
      "step": 3785
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.204021867440477,
      "learning_rate": 8.392706854385847e-06,
      "loss": 0.726,
      "step": 3786
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9245792781105304,
      "learning_rate": 8.387936661820733e-06,
      "loss": 0.68,
      "step": 3787
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.882813984166372,
      "learning_rate": 8.383166845833777e-06,
      "loss": 0.8163,
      "step": 3788
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7469366981813466,
      "learning_rate": 8.378397407539209e-06,
      "loss": 0.6663,
      "step": 3789
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.830610227956104,
      "learning_rate": 8.373628348051165e-06,
      "loss": 0.7161,
      "step": 3790
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.325004117635566,
      "learning_rate": 8.368859668483703e-06,
      "loss": 0.8085,
      "step": 3791
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6865973853644634,
      "learning_rate": 8.364091369950783e-06,
      "loss": 0.6962,
      "step": 3792
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.3119253668593585,
      "learning_rate": 8.359323453566283e-06,
      "loss": 0.6206,
      "step": 3793
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9942966138611642,
      "learning_rate": 8.354555920443987e-06,
      "loss": 0.665,
      "step": 3794
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5590416361381916,
      "learning_rate": 8.349788771697593e-06,
      "loss": 0.733,
      "step": 3795
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.2186813554264178,
      "learning_rate": 8.345022008440704e-06,
      "loss": 0.6713,
      "step": 3796
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.1469561231658187,
      "learning_rate": 8.340255631786843e-06,
      "loss": 0.6329,
      "step": 3797
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8629414681066243,
      "learning_rate": 8.335489642849428e-06,
      "loss": 0.6931,
      "step": 3798
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.86265815887291,
      "learning_rate": 8.3307240427418e-06,
      "loss": 0.6943,
      "step": 3799
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.739262314675053,
      "learning_rate": 8.325958832577201e-06,
      "loss": 0.6469,
      "step": 3800
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.670693876925076,
      "learning_rate": 8.321194013468786e-06,
      "loss": 0.6753,
      "step": 3801
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6561753146624003,
      "learning_rate": 8.316429586529616e-06,
      "loss": 0.6724,
      "step": 3802
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.205745735307505,
      "learning_rate": 8.311665552872662e-06,
      "loss": 0.7498,
      "step": 3803
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7050638467762427,
      "learning_rate": 8.306901913610805e-06,
      "loss": 0.6797,
      "step": 3804
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0795906359027496,
      "learning_rate": 8.30213866985683e-06,
      "loss": 0.64,
      "step": 3805
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.1299979357798295,
      "learning_rate": 8.297375822723428e-06,
      "loss": 0.6712,
      "step": 3806
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0045109489689583,
      "learning_rate": 8.292613373323203e-06,
      "loss": 0.7019,
      "step": 3807
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.081373718836876,
      "learning_rate": 8.287851322768666e-06,
      "loss": 0.6185,
      "step": 3808
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.158746409364869,
      "learning_rate": 8.283089672172232e-06,
      "loss": 0.7206,
      "step": 3809
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.1527457460092982,
      "learning_rate": 8.278328422646222e-06,
      "loss": 0.6876,
      "step": 3810
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.122250128964228,
      "learning_rate": 8.273567575302861e-06,
      "loss": 0.6965,
      "step": 3811
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.359028132487589,
      "learning_rate": 8.268807131254288e-06,
      "loss": 0.7172,
      "step": 3812
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0563937022947862,
      "learning_rate": 8.264047091612538e-06,
      "loss": 0.6788,
      "step": 3813
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8789998010718862,
      "learning_rate": 8.259287457489564e-06,
      "loss": 0.7114,
      "step": 3814
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9052400761880945,
      "learning_rate": 8.254528229997211e-06,
      "loss": 0.7402,
      "step": 3815
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8626268007099156,
      "learning_rate": 8.249769410247239e-06,
      "loss": 0.6288,
      "step": 3816
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.145587761462128,
      "learning_rate": 8.24501099935131e-06,
      "loss": 0.6966,
      "step": 3817
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.989867762754349,
      "learning_rate": 8.240252998420983e-06,
      "loss": 0.6906,
      "step": 3818
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.6997311714463064,
      "learning_rate": 8.235495408567732e-06,
      "loss": 0.6662,
      "step": 3819
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7170912363010242,
      "learning_rate": 8.230738230902928e-06,
      "loss": 0.688,
      "step": 3820
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.707828675469649,
      "learning_rate": 8.22598146653785e-06,
      "loss": 0.7078,
      "step": 3821
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7074777000857118,
      "learning_rate": 8.221225116583677e-06,
      "loss": 0.6596,
      "step": 3822
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.2958820368120136,
      "learning_rate": 8.216469182151498e-06,
      "loss": 0.6752,
      "step": 3823
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8475780495748038,
      "learning_rate": 8.211713664352293e-06,
      "loss": 0.6488,
      "step": 3824
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7859089152825247,
      "learning_rate": 8.206958564296954e-06,
      "loss": 0.7047,
      "step": 3825
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9587201460609474,
      "learning_rate": 8.202203883096272e-06,
      "loss": 0.6456,
      "step": 3826
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8229375136291266,
      "learning_rate": 8.197449621860944e-06,
      "loss": 0.7651,
      "step": 3827
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9285445375361547,
      "learning_rate": 8.192695781701562e-06,
      "loss": 0.6824,
      "step": 3828
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.870326411473708,
      "learning_rate": 8.187942363728626e-06,
      "loss": 0.6656,
      "step": 3829
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0937947671670223,
      "learning_rate": 8.183189369052538e-06,
      "loss": 0.6562,
      "step": 3830
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7998341856093363,
      "learning_rate": 8.17843679878359e-06,
      "loss": 0.6937,
      "step": 3831
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8913014002567226,
      "learning_rate": 8.17368465403199e-06,
      "loss": 0.652,
      "step": 3832
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.2410688452368124,
      "learning_rate": 8.168932935907833e-06,
      "loss": 0.6218,
      "step": 3833
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.116723456907644,
      "learning_rate": 8.164181645521126e-06,
      "loss": 0.7527,
      "step": 3834
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8242415970469652,
      "learning_rate": 8.15943078398177e-06,
      "loss": 0.6435,
      "step": 3835
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.113201864238533,
      "learning_rate": 8.15468035239957e-06,
      "loss": 0.6756,
      "step": 3836
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.081743796020072,
      "learning_rate": 8.14993035188422e-06,
      "loss": 0.8176,
      "step": 3837
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0214228805790184,
      "learning_rate": 8.145180783545324e-06,
      "loss": 0.678,
      "step": 3838
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0647501151300087,
      "learning_rate": 8.140431648492382e-06,
      "loss": 0.7412,
      "step": 3839
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.704071068327344,
      "learning_rate": 8.13568294783479e-06,
      "loss": 0.7449,
      "step": 3840
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.067510505363649,
      "learning_rate": 8.130934682681849e-06,
      "loss": 0.7021,
      "step": 3841
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9517766366889626,
      "learning_rate": 8.126186854142752e-06,
      "loss": 0.7107,
      "step": 3842
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.863442503322301,
      "learning_rate": 8.121439463326597e-06,
      "loss": 0.7538,
      "step": 3843
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3114217692506722,
      "learning_rate": 8.116692511342365e-06,
      "loss": 0.7533,
      "step": 3844
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0736955646090736,
      "learning_rate": 8.111945999298952e-06,
      "loss": 0.6752,
      "step": 3845
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6915937645663717,
      "learning_rate": 8.10719992830514e-06,
      "loss": 0.7116,
      "step": 3846
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0228910589184936,
      "learning_rate": 8.102454299469615e-06,
      "loss": 0.7066,
      "step": 3847
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7895214009911957,
      "learning_rate": 8.097709113900956e-06,
      "loss": 0.705,
      "step": 3848
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.896887843412727,
      "learning_rate": 8.092964372707636e-06,
      "loss": 0.7573,
      "step": 3849
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7894885503142082,
      "learning_rate": 8.088220076998029e-06,
      "loss": 0.7566,
      "step": 3850
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9374707592903564,
      "learning_rate": 8.0834762278804e-06,
      "loss": 0.6897,
      "step": 3851
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9493741742945514,
      "learning_rate": 8.078732826462917e-06,
      "loss": 0.7982,
      "step": 3852
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.0733191087289833,
      "learning_rate": 8.073989873853637e-06,
      "loss": 0.7364,
      "step": 3853
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.589746840717492,
      "learning_rate": 8.069247371160514e-06,
      "loss": 0.6488,
      "step": 3854
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9129273232603643,
      "learning_rate": 8.064505319491398e-06,
      "loss": 0.684,
      "step": 3855
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.053030367883433,
      "learning_rate": 8.059763719954033e-06,
      "loss": 0.7251,
      "step": 3856
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9588024659674281,
      "learning_rate": 8.055022573656055e-06,
      "loss": 0.7095,
      "step": 3857
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.233714295909259,
      "learning_rate": 8.050281881704997e-06,
      "loss": 0.7103,
      "step": 3858
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7651273614524932,
      "learning_rate": 8.045541645208288e-06,
      "loss": 0.6828,
      "step": 3859
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6665481546661862,
      "learning_rate": 8.040801865273243e-06,
      "loss": 0.6448,
      "step": 3860
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7116409422756313,
      "learning_rate": 8.036062543007076e-06,
      "loss": 0.6585,
      "step": 3861
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.583709058277875,
      "learning_rate": 8.0313236795169e-06,
      "loss": 0.7346,
      "step": 3862
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.1520232730680164,
      "learning_rate": 8.026585275909704e-06,
      "loss": 0.7129,
      "step": 3863
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7713053125565628,
      "learning_rate": 8.021847333292388e-06,
      "loss": 0.6243,
      "step": 3864
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8290436767835008,
      "learning_rate": 8.017109852771729e-06,
      "loss": 0.674,
      "step": 3865
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8714611831417336,
      "learning_rate": 8.012372835454406e-06,
      "loss": 0.7352,
      "step": 3866
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7242445822252497,
      "learning_rate": 8.007636282446986e-06,
      "loss": 0.6663,
      "step": 3867
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8354961133283578,
      "learning_rate": 8.00290019485593e-06,
      "loss": 0.6325,
      "step": 3868
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0562631443684194,
      "learning_rate": 7.998164573787592e-06,
      "loss": 0.6913,
      "step": 3869
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0629915120250994,
      "learning_rate": 7.993429420348203e-06,
      "loss": 0.644,
      "step": 3870
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9368662524301403,
      "learning_rate": 7.988694735643902e-06,
      "loss": 0.6366,
      "step": 3871
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.560333841988601,
      "learning_rate": 7.983960520780712e-06,
      "loss": 0.7094,
      "step": 3872
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7433679912207178,
      "learning_rate": 7.979226776864544e-06,
      "loss": 0.6427,
      "step": 3873
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8018877886098605,
      "learning_rate": 7.974493505001201e-06,
      "loss": 0.6598,
      "step": 3874
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7691319575843116,
      "learning_rate": 7.969760706296385e-06,
      "loss": 0.6796,
      "step": 3875
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.948491650570084,
      "learning_rate": 7.965028381855664e-06,
      "loss": 0.6662,
      "step": 3876
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7329859454602567,
      "learning_rate": 7.960296532784515e-06,
      "loss": 0.6839,
      "step": 3877
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9697479724318685,
      "learning_rate": 7.9555651601883e-06,
      "loss": 0.5858,
      "step": 3878
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3521009828347228,
      "learning_rate": 7.950834265172266e-06,
      "loss": 0.7092,
      "step": 3879
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7743737932202488,
      "learning_rate": 7.946103848841554e-06,
      "loss": 0.6945,
      "step": 3880
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7446610738890975,
      "learning_rate": 7.94137391230119e-06,
      "loss": 0.7051,
      "step": 3881
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.162740937597139,
      "learning_rate": 7.936644456656082e-06,
      "loss": 0.6812,
      "step": 3882
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4038178077885735,
      "learning_rate": 7.931915483011035e-06,
      "loss": 0.6931,
      "step": 3883
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.228772222363716,
      "learning_rate": 7.927186992470736e-06,
      "loss": 0.6618,
      "step": 3884
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0848769675855245,
      "learning_rate": 7.922458986139761e-06,
      "loss": 0.6165,
      "step": 3885
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8553312840684453,
      "learning_rate": 7.917731465122576e-06,
      "loss": 0.6001,
      "step": 3886
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9260007322303125,
      "learning_rate": 7.913004430523526e-06,
      "loss": 0.6261,
      "step": 3887
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6874058249560984,
      "learning_rate": 7.908277883446855e-06,
      "loss": 0.698,
      "step": 3888
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.101754393593136,
      "learning_rate": 7.903551824996675e-06,
      "loss": 0.6908,
      "step": 3889
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.575054361041487,
      "learning_rate": 7.898826256276995e-06,
      "loss": 0.6567,
      "step": 3890
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7292425941924738,
      "learning_rate": 7.894101178391714e-06,
      "loss": 0.6317,
      "step": 3891
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6575073681990062,
      "learning_rate": 7.889376592444605e-06,
      "loss": 0.6738,
      "step": 3892
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.373611225761079,
      "learning_rate": 7.884652499539335e-06,
      "loss": 0.6562,
      "step": 3893
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.957355768483908,
      "learning_rate": 7.879928900779457e-06,
      "loss": 0.7024,
      "step": 3894
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8986308715523252,
      "learning_rate": 7.875205797268394e-06,
      "loss": 0.6867,
      "step": 3895
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.7419744534287585,
      "learning_rate": 7.870483190109468e-06,
      "loss": 0.7747,
      "step": 3896
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.039747647693583,
      "learning_rate": 7.865761080405882e-06,
      "loss": 0.6588,
      "step": 3897
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9718797989162673,
      "learning_rate": 7.86103946926072e-06,
      "loss": 0.701,
      "step": 3898
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.052244176206179,
      "learning_rate": 7.85631835777695e-06,
      "loss": 0.6872,
      "step": 3899
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.057610326237345,
      "learning_rate": 7.851597747057426e-06,
      "loss": 0.7234,
      "step": 3900
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.3836328871873897,
      "learning_rate": 7.846877638204887e-06,
      "loss": 0.7158,
      "step": 3901
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8216788177333039,
      "learning_rate": 7.84215803232194e-06,
      "loss": 0.6432,
      "step": 3902
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.987865658550495,
      "learning_rate": 7.837438930511093e-06,
      "loss": 0.6881,
      "step": 3903
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.286929810166578,
      "learning_rate": 7.832720333874728e-06,
      "loss": 0.6741,
      "step": 3904
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.884219338546106,
      "learning_rate": 7.828002243515107e-06,
      "loss": 0.6974,
      "step": 3905
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7123435084371008,
      "learning_rate": 7.823284660534381e-06,
      "loss": 0.6825,
      "step": 3906
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8145446128534217,
      "learning_rate": 7.818567586034578e-06,
      "loss": 0.6864,
      "step": 3907
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6527080315688008,
      "learning_rate": 7.8138510211176e-06,
      "loss": 0.6951,
      "step": 3908
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8676581029592916,
      "learning_rate": 7.80913496688524e-06,
      "loss": 0.6489,
      "step": 3909
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.6002235826869406,
      "learning_rate": 7.804419424439172e-06,
      "loss": 0.6814,
      "step": 3910
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.9600500698426147,
      "learning_rate": 7.799704394880943e-06,
      "loss": 0.6917,
      "step": 3911
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8052143984606983,
      "learning_rate": 7.794989879311991e-06,
      "loss": 0.7037,
      "step": 3912
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.3315825848710094,
      "learning_rate": 7.790275878833619e-06,
      "loss": 0.7475,
      "step": 3913
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.1907410299737027,
      "learning_rate": 7.785562394547023e-06,
      "loss": 0.7414,
      "step": 3914
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.3637797799023006,
      "learning_rate": 7.780849427553273e-06,
      "loss": 0.7082,
      "step": 3915
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0381887291237306,
      "learning_rate": 7.776136978953316e-06,
      "loss": 0.7057,
      "step": 3916
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7833196637505278,
      "learning_rate": 7.771425049847984e-06,
      "loss": 0.6447,
      "step": 3917
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0000888434997206,
      "learning_rate": 7.766713641337983e-06,
      "loss": 0.6979,
      "step": 3918
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0022644656865154,
      "learning_rate": 7.762002754523897e-06,
      "loss": 0.6934,
      "step": 3919
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6460130586244666,
      "learning_rate": 7.757292390506191e-06,
      "loss": 0.6576,
      "step": 3920
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.89024486859089,
      "learning_rate": 7.752582550385204e-06,
      "loss": 0.7112,
      "step": 3921
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.4411067312683548,
      "learning_rate": 7.747873235261157e-06,
      "loss": 0.7464,
      "step": 3922
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.214298935873928,
      "learning_rate": 7.743164446234149e-06,
      "loss": 0.6105,
      "step": 3923
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.284069308249738,
      "learning_rate": 7.73845618440415e-06,
      "loss": 0.7408,
      "step": 3924
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9963532982720402,
      "learning_rate": 7.733748450871011e-06,
      "loss": 0.6797,
      "step": 3925
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9407917980170415,
      "learning_rate": 7.729041246734462e-06,
      "loss": 0.6732,
      "step": 3926
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8492033649616622,
      "learning_rate": 7.724334573094101e-06,
      "loss": 0.6675,
      "step": 3927
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.96922625155467,
      "learning_rate": 7.719628431049413e-06,
      "loss": 0.7034,
      "step": 3928
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.588173884116158,
      "learning_rate": 7.71492282169975e-06,
      "loss": 0.6939,
      "step": 3929
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.3191765245061067,
      "learning_rate": 7.710217746144341e-06,
      "loss": 0.644,
      "step": 3930
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8472442254827564,
      "learning_rate": 7.705513205482297e-06,
      "loss": 0.7071,
      "step": 3931
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.126137076333593,
      "learning_rate": 7.700809200812596e-06,
      "loss": 0.6686,
      "step": 3932
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.060810597778864,
      "learning_rate": 7.696105733234099e-06,
      "loss": 0.6707,
      "step": 3933
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.590768207003414,
      "learning_rate": 7.691402803845527e-06,
      "loss": 0.6356,
      "step": 3934
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.805963256479711,
      "learning_rate": 7.68670041374549e-06,
      "loss": 0.7292,
      "step": 3935
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.2214485795420473,
      "learning_rate": 7.681998564032467e-06,
      "loss": 0.6573,
      "step": 3936
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7883881845825569,
      "learning_rate": 7.677297255804811e-06,
      "loss": 0.6805,
      "step": 3937
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.446723672526506,
      "learning_rate": 7.672596490160747e-06,
      "loss": 0.6785,
      "step": 3938
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.984557447574862,
      "learning_rate": 7.667896268198379e-06,
      "loss": 0.7223,
      "step": 3939
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.750954983515332,
      "learning_rate": 7.66319659101567e-06,
      "loss": 0.6827,
      "step": 3940
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4332752030240916,
      "learning_rate": 7.658497459710472e-06,
      "loss": 0.7235,
      "step": 3941
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.1344781312797925,
      "learning_rate": 7.6537988753805e-06,
      "loss": 0.7351,
      "step": 3942
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8972193629619603,
      "learning_rate": 7.649100839123344e-06,
      "loss": 0.7013,
      "step": 3943
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.813977631802719,
      "learning_rate": 7.644403352036467e-06,
      "loss": 0.6704,
      "step": 3944
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7202301414300585,
      "learning_rate": 7.639706415217201e-06,
      "loss": 0.7217,
      "step": 3945
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.52992600283294,
      "learning_rate": 7.635010029762755e-06,
      "loss": 0.7339,
      "step": 3946
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8934096173569706,
      "learning_rate": 7.6303141967702e-06,
      "loss": 0.7223,
      "step": 3947
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7965012000386509,
      "learning_rate": 7.625618917336482e-06,
      "loss": 0.7079,
      "step": 3948
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.202425424608181,
      "learning_rate": 7.620924192558423e-06,
      "loss": 0.7348,
      "step": 3949
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.1100401642802322,
      "learning_rate": 7.616230023532709e-06,
      "loss": 0.7011,
      "step": 3950
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.0278322768876764,
      "learning_rate": 7.611536411355899e-06,
      "loss": 0.6561,
      "step": 3951
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9270886611535372,
      "learning_rate": 7.606843357124426e-06,
      "loss": 0.663,
      "step": 3952
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.1227468905720754,
      "learning_rate": 7.602150861934578e-06,
      "loss": 0.6436,
      "step": 3953
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.760305657185169,
      "learning_rate": 7.597458926882529e-06,
      "loss": 0.7291,
      "step": 3954
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8948090428454945,
      "learning_rate": 7.592767553064312e-06,
      "loss": 0.6384,
      "step": 3955
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.394415299653933,
      "learning_rate": 7.588076741575836e-06,
      "loss": 0.6975,
      "step": 3956
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7818827980674854,
      "learning_rate": 7.583386493512872e-06,
      "loss": 0.6393,
      "step": 3957
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.758808877312927,
      "learning_rate": 7.5786968099710645e-06,
      "loss": 0.7196,
      "step": 3958
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.61890717370712,
      "learning_rate": 7.574007692045928e-06,
      "loss": 0.6321,
      "step": 3959
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.4449376445307633,
      "learning_rate": 7.5693191408328325e-06,
      "loss": 0.7774,
      "step": 3960
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.012428138815201,
      "learning_rate": 7.564631157427027e-06,
      "loss": 0.7536,
      "step": 3961
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9440493551907108,
      "learning_rate": 7.559943742923626e-06,
      "loss": 0.8009,
      "step": 3962
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.131196251652991,
      "learning_rate": 7.55525689841761e-06,
      "loss": 0.6951,
      "step": 3963
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8163515627307296,
      "learning_rate": 7.550570625003826e-06,
      "loss": 0.7443,
      "step": 3964
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.05034913529182,
      "learning_rate": 7.5458849237769915e-06,
      "loss": 0.7126,
      "step": 3965
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7545916373256252,
      "learning_rate": 7.54119979583168e-06,
      "loss": 0.7076,
      "step": 3966
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.2750547170777558,
      "learning_rate": 7.536515242262341e-06,
      "loss": 0.6941,
      "step": 3967
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8665139525613128,
      "learning_rate": 7.531831264163286e-06,
      "loss": 0.7485,
      "step": 3968
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3781063677833252,
      "learning_rate": 7.527147862628695e-06,
      "loss": 0.6941,
      "step": 3969
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7683822903720625,
      "learning_rate": 7.522465038752609e-06,
      "loss": 0.745,
      "step": 3970
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.2658475245349337,
      "learning_rate": 7.517782793628938e-06,
      "loss": 0.6718,
      "step": 3971
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9813855245364564,
      "learning_rate": 7.513101128351454e-06,
      "loss": 0.7546,
      "step": 3972
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7509588896046215,
      "learning_rate": 7.508420044013793e-06,
      "loss": 0.6499,
      "step": 3973
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.3330544603814287,
      "learning_rate": 7.503739541709457e-06,
      "loss": 0.7258,
      "step": 3974
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.2226666293444715,
      "learning_rate": 7.499059622531812e-06,
      "loss": 0.6345,
      "step": 3975
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7612229209053174,
      "learning_rate": 7.49438028757409e-06,
      "loss": 0.8365,
      "step": 3976
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.295743292409184,
      "learning_rate": 7.489701537929384e-06,
      "loss": 0.7069,
      "step": 3977
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.1045030651591907,
      "learning_rate": 7.48502337469065e-06,
      "loss": 0.6927,
      "step": 3978
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7174493193515967,
      "learning_rate": 7.480345798950702e-06,
      "loss": 0.6921,
      "step": 3979
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8824344550798122,
      "learning_rate": 7.475668811802228e-06,
      "loss": 0.6507,
      "step": 3980
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7351623390923738,
      "learning_rate": 7.4709924143377696e-06,
      "loss": 0.6289,
      "step": 3981
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.920721412406583,
      "learning_rate": 7.4663166076497376e-06,
      "loss": 0.7309,
      "step": 3982
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8448223224159037,
      "learning_rate": 7.4616413928303964e-06,
      "loss": 0.6777,
      "step": 3983
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7673020888750282,
      "learning_rate": 7.456966770971882e-06,
      "loss": 0.7793,
      "step": 3984
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.033097003847372,
      "learning_rate": 7.4522927431661805e-06,
      "loss": 0.5913,
      "step": 3985
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8967116622442022,
      "learning_rate": 7.447619310505147e-06,
      "loss": 0.6819,
      "step": 3986
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9061445187789294,
      "learning_rate": 7.442946474080499e-06,
      "loss": 0.6689,
      "step": 3987
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.1843613258660155,
      "learning_rate": 7.438274234983809e-06,
      "loss": 0.6373,
      "step": 3988
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8412570500025485,
      "learning_rate": 7.433602594306512e-06,
      "loss": 0.7247,
      "step": 3989
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9174707104040183,
      "learning_rate": 7.428931553139904e-06,
      "loss": 0.6659,
      "step": 3990
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9240940114293175,
      "learning_rate": 7.4242611125751445e-06,
      "loss": 0.6988,
      "step": 3991
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9999892944384774,
      "learning_rate": 7.419591273703245e-06,
      "loss": 0.6235,
      "step": 3992
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9625993181204409,
      "learning_rate": 7.414922037615079e-06,
      "loss": 0.6795,
      "step": 3993
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5993817949578306,
      "learning_rate": 7.410253405401382e-06,
      "loss": 0.6009,
      "step": 3994
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2958608403712109,
      "learning_rate": 7.405585378152749e-06,
      "loss": 0.7127,
      "step": 3995
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9467892000937987,
      "learning_rate": 7.400917956959628e-06,
      "loss": 0.6792,
      "step": 3996
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.849755295347876,
      "learning_rate": 7.396251142912337e-06,
      "loss": 0.683,
      "step": 3997
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.1425432627953347,
      "learning_rate": 7.391584937101034e-06,
      "loss": 0.7349,
      "step": 3998
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.921053095611206,
      "learning_rate": 7.386919340615749e-06,
      "loss": 0.6691,
      "step": 3999
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9619659071146605,
      "learning_rate": 7.382254354546367e-06,
      "loss": 0.7017,
      "step": 4000
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.4061437356414728,
      "learning_rate": 7.377589979982628e-06,
      "loss": 0.7712,
      "step": 4001
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.710047757182685,
      "learning_rate": 7.372926218014131e-06,
      "loss": 0.654,
      "step": 4002
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.406639397553691,
      "learning_rate": 7.368263069730331e-06,
      "loss": 0.7439,
      "step": 4003
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8375957611102363,
      "learning_rate": 7.363600536220546e-06,
      "loss": 0.7339,
      "step": 4004
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8382417850853348,
      "learning_rate": 7.358938618573932e-06,
      "loss": 0.7573,
      "step": 4005
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9637733580091719,
      "learning_rate": 7.3542773178795216e-06,
      "loss": 0.7104,
      "step": 4006
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.152367916333717,
      "learning_rate": 7.349616635226191e-06,
      "loss": 0.5777,
      "step": 4007
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8293824839674235,
      "learning_rate": 7.344956571702679e-06,
      "loss": 0.6781,
      "step": 4008
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.0088822991330733,
      "learning_rate": 7.340297128397577e-06,
      "loss": 0.736,
      "step": 4009
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.0438500960936192,
      "learning_rate": 7.335638306399337e-06,
      "loss": 0.6789,
      "step": 4010
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7836798609758093,
      "learning_rate": 7.330980106796247e-06,
      "loss": 0.6864,
      "step": 4011
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.5547956058936654,
      "learning_rate": 7.326322530676471e-06,
      "loss": 0.7356,
      "step": 4012
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.255741890038012,
      "learning_rate": 7.3216655791280175e-06,
      "loss": 0.7187,
      "step": 4013
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6995740302036497,
      "learning_rate": 7.317009253238752e-06,
      "loss": 0.7412,
      "step": 4014
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.465717628831069,
      "learning_rate": 7.312353554096393e-06,
      "loss": 0.7449,
      "step": 4015
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8679519086486625,
      "learning_rate": 7.30769848278851e-06,
      "loss": 0.7348,
      "step": 4016
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8851912702594762,
      "learning_rate": 7.303044040402536e-06,
      "loss": 0.6906,
      "step": 4017
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.0906317002256825,
      "learning_rate": 7.298390228025737e-06,
      "loss": 0.6964,
      "step": 4018
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6647235262380773,
      "learning_rate": 7.293737046745249e-06,
      "loss": 0.6344,
      "step": 4019
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.719555280577738,
      "learning_rate": 7.289084497648058e-06,
      "loss": 0.6607,
      "step": 4020
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.752332473413673,
      "learning_rate": 7.284432581820998e-06,
      "loss": 0.6589,
      "step": 4021
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6550470933506762,
      "learning_rate": 7.279781300350758e-06,
      "loss": 0.709,
      "step": 4022
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.744847161450979,
      "learning_rate": 7.2751306543238805e-06,
      "loss": 0.7968,
      "step": 4023
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.1191682004546237,
      "learning_rate": 7.27048064482675e-06,
      "loss": 0.7622,
      "step": 4024
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.5078201692762825,
      "learning_rate": 7.265831272945612e-06,
      "loss": 0.6766,
      "step": 4025
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.022553131936241,
      "learning_rate": 7.261182539766563e-06,
      "loss": 0.7783,
      "step": 4026
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9354682904277412,
      "learning_rate": 7.256534446375543e-06,
      "loss": 0.7494,
      "step": 4027
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9198047300578083,
      "learning_rate": 7.25188699385835e-06,
      "loss": 0.7293,
      "step": 4028
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8635566061177256,
      "learning_rate": 7.24724018330063e-06,
      "loss": 0.6465,
      "step": 4029
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6166487729816739,
      "learning_rate": 7.242594015787883e-06,
      "loss": 0.6864,
      "step": 4030
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8007925139894816,
      "learning_rate": 7.237948492405442e-06,
      "loss": 0.6377,
      "step": 4031
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.093951859785945,
      "learning_rate": 7.23330361423851e-06,
      "loss": 0.7231,
      "step": 4032
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6807676159212281,
      "learning_rate": 7.228659382372127e-06,
      "loss": 0.7148,
      "step": 4033
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.585246727929444,
      "learning_rate": 7.224015797891191e-06,
      "loss": 0.739,
      "step": 4034
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6686192149998176,
      "learning_rate": 7.21937286188044e-06,
      "loss": 0.6593,
      "step": 4035
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.031792515108981,
      "learning_rate": 7.214730575424469e-06,
      "loss": 0.6389,
      "step": 4036
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9432300635670956,
      "learning_rate": 7.210088939607709e-06,
      "loss": 0.6706,
      "step": 4037
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.5614395760584663,
      "learning_rate": 7.205447955514451e-06,
      "loss": 0.6798,
      "step": 4038
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7028107930957583,
      "learning_rate": 7.20080762422883e-06,
      "loss": 0.7019,
      "step": 4039
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.0143834415323245,
      "learning_rate": 7.196167946834826e-06,
      "loss": 0.6724,
      "step": 4040
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8141096968317252,
      "learning_rate": 7.191528924416271e-06,
      "loss": 0.7142,
      "step": 4041
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.1423837768778924,
      "learning_rate": 7.186890558056836e-06,
      "loss": 0.6963,
      "step": 4042
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.354072529881351,
      "learning_rate": 7.18225284884005e-06,
      "loss": 0.7431,
      "step": 4043
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.306348603557482,
      "learning_rate": 7.177615797849278e-06,
      "loss": 0.6418,
      "step": 4044
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9792189267526121,
      "learning_rate": 7.172979406167735e-06,
      "loss": 0.6196,
      "step": 4045
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7720419682007753,
      "learning_rate": 7.168343674878487e-06,
      "loss": 0.6315,
      "step": 4046
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9151072104393643,
      "learning_rate": 7.163708605064437e-06,
      "loss": 0.6455,
      "step": 4047
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.1912288418626353,
      "learning_rate": 7.15907419780834e-06,
      "loss": 0.8041,
      "step": 4048
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.6229177925549907,
      "learning_rate": 7.154440454192793e-06,
      "loss": 0.7607,
      "step": 4049
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3535783583049823,
      "learning_rate": 7.149807375300239e-06,
      "loss": 0.6574,
      "step": 4050
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.458758945282635,
      "learning_rate": 7.145174962212969e-06,
      "loss": 0.698,
      "step": 4051
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.995743235354713,
      "learning_rate": 7.140543216013109e-06,
      "loss": 0.7716,
      "step": 4052
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2005862435174912,
      "learning_rate": 7.135912137782639e-06,
      "loss": 0.683,
      "step": 4053
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4357739036887809,
      "learning_rate": 7.1312817286033784e-06,
      "loss": 0.6605,
      "step": 4054
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6186499371763046,
      "learning_rate": 7.126651989556994e-06,
      "loss": 0.6352,
      "step": 4055
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.0256703680867982,
      "learning_rate": 7.122022921724993e-06,
      "loss": 0.7444,
      "step": 4056
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.4706444886115673,
      "learning_rate": 7.117394526188719e-06,
      "loss": 0.7777,
      "step": 4057
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.3393252998296528,
      "learning_rate": 7.112766804029373e-06,
      "loss": 0.7081,
      "step": 4058
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.4346496001761206,
      "learning_rate": 7.1081397563279885e-06,
      "loss": 0.7154,
      "step": 4059
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.4595821812897602,
      "learning_rate": 7.103513384165446e-06,
      "loss": 0.6964,
      "step": 4060
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9958245479651282,
      "learning_rate": 7.0988876886224635e-06,
      "loss": 0.6108,
      "step": 4061
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.2851640277831335,
      "learning_rate": 7.094262670779611e-06,
      "loss": 0.6021,
      "step": 4062
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6455971116876384,
      "learning_rate": 7.0896383317172845e-06,
      "loss": 0.6983,
      "step": 4063
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.0933136568354103,
      "learning_rate": 7.085014672515733e-06,
      "loss": 0.6567,
      "step": 4064
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.3344022800913473,
      "learning_rate": 7.080391694255045e-06,
      "loss": 0.7421,
      "step": 4065
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8113655159373219,
      "learning_rate": 7.075769398015147e-06,
      "loss": 0.7159,
      "step": 4066
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.023104961309604,
      "learning_rate": 7.071147784875809e-06,
      "loss": 0.7548,
      "step": 4067
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8754476190074523,
      "learning_rate": 7.066526855916647e-06,
      "loss": 0.7182,
      "step": 4068
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.001101399349738,
      "learning_rate": 7.061906612217096e-06,
      "loss": 0.62,
      "step": 4069
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.0910081007741073,
      "learning_rate": 7.057287054856455e-06,
      "loss": 0.6724,
      "step": 4070
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.086139175182907,
      "learning_rate": 7.052668184913851e-06,
      "loss": 0.6674,
      "step": 4071
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9184302772874178,
      "learning_rate": 7.048050003468252e-06,
      "loss": 0.6598,
      "step": 4072
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7826884556396776,
      "learning_rate": 7.043432511598467e-06,
      "loss": 0.7508,
      "step": 4073
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6684313462867117,
      "learning_rate": 7.038815710383141e-06,
      "loss": 0.6722,
      "step": 4074
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.1491671557650567,
      "learning_rate": 7.034199600900765e-06,
      "loss": 0.7729,
      "step": 4075
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8648420992394417,
      "learning_rate": 7.029584184229653e-06,
      "loss": 0.6476,
      "step": 4076
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0385532400193458,
      "learning_rate": 7.024969461447973e-06,
      "loss": 0.6058,
      "step": 4077
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9511057462498282,
      "learning_rate": 7.0203554336337206e-06,
      "loss": 0.6643,
      "step": 4078
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.599425270575888,
      "learning_rate": 7.015742101864737e-06,
      "loss": 0.6838,
      "step": 4079
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.693612273068096,
      "learning_rate": 7.011129467218696e-06,
      "loss": 0.6347,
      "step": 4080
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.615549442672885,
      "learning_rate": 7.006517530773113e-06,
      "loss": 0.6572,
      "step": 4081
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6914699710813652,
      "learning_rate": 7.001906293605329e-06,
      "loss": 0.6703,
      "step": 4082
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.1861531486930503,
      "learning_rate": 6.9972957567925325e-06,
      "loss": 0.6878,
      "step": 4083
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.918310981486007,
      "learning_rate": 6.992685921411748e-06,
      "loss": 0.6065,
      "step": 4084
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.126130950529481,
      "learning_rate": 6.98807678853983e-06,
      "loss": 0.7134,
      "step": 4085
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.3080249298411712,
      "learning_rate": 6.983468359253476e-06,
      "loss": 0.708,
      "step": 4086
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8027388453223194,
      "learning_rate": 6.978860634629213e-06,
      "loss": 0.7535,
      "step": 4087
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.155211530723304,
      "learning_rate": 6.9742536157434114e-06,
      "loss": 0.7005,
      "step": 4088
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.822944074740434,
      "learning_rate": 6.969647303672262e-06,
      "loss": 0.6684,
      "step": 4089
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2760146485603228,
      "learning_rate": 6.965041699491804e-06,
      "loss": 0.6185,
      "step": 4090
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3264823478247565,
      "learning_rate": 6.960436804277908e-06,
      "loss": 0.7,
      "step": 4091
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.772957992615375,
      "learning_rate": 6.9558326191062775e-06,
      "loss": 0.7294,
      "step": 4092
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.2579343129718246,
      "learning_rate": 6.95122914505245e-06,
      "loss": 0.6865,
      "step": 4093
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8711527469436242,
      "learning_rate": 6.9466263831918015e-06,
      "loss": 0.7409,
      "step": 4094
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.4034993571037884,
      "learning_rate": 6.942024334599531e-06,
      "loss": 0.6976,
      "step": 4095
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.3748845619823196,
      "learning_rate": 6.93742300035068e-06,
      "loss": 0.688,
      "step": 4096
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9674031272782715,
      "learning_rate": 6.932822381520121e-06,
      "loss": 0.7165,
      "step": 4097
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.2355075307522454,
      "learning_rate": 6.92822247918256e-06,
      "loss": 0.7034,
      "step": 4098
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.919120671156265,
      "learning_rate": 6.923623294412534e-06,
      "loss": 0.6818,
      "step": 4099
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7478431427494912,
      "learning_rate": 6.919024828284413e-06,
      "loss": 0.7096,
      "step": 4100
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.0702471163480265,
      "learning_rate": 6.914427081872401e-06,
      "loss": 0.7699,
      "step": 4101
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.424591123860689,
      "learning_rate": 6.909830056250527e-06,
      "loss": 0.7218,
      "step": 4102
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9971898366133474,
      "learning_rate": 6.90523375249266e-06,
      "loss": 0.6932,
      "step": 4103
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9058489516174497,
      "learning_rate": 6.900638171672497e-06,
      "loss": 0.6613,
      "step": 4104
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7194239054604212,
      "learning_rate": 6.896043314863568e-06,
      "loss": 0.7844,
      "step": 4105
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7439882663693307,
      "learning_rate": 6.891449183139227e-06,
      "loss": 0.6112,
      "step": 4106
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8549971139466006,
      "learning_rate": 6.88685577757267e-06,
      "loss": 0.7293,
      "step": 4107
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.9699454530304612,
      "learning_rate": 6.88226309923691e-06,
      "loss": 0.6506,
      "step": 4108
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8708917337169273,
      "learning_rate": 6.877671149204801e-06,
      "loss": 0.7413,
      "step": 4109
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6924103035514215,
      "learning_rate": 6.873079928549024e-06,
      "loss": 0.6655,
      "step": 4110
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3483590282787354,
      "learning_rate": 6.8684894383420865e-06,
      "loss": 0.7062,
      "step": 4111
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.455163493132093,
      "learning_rate": 6.8638996796563275e-06,
      "loss": 0.7018,
      "step": 4112
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7787193307852038,
      "learning_rate": 6.859310653563917e-06,
      "loss": 0.6621,
      "step": 4113
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.073687116781638,
      "learning_rate": 6.854722361136851e-06,
      "loss": 0.7198,
      "step": 4114
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.696831784500395,
      "learning_rate": 6.850134803446955e-06,
      "loss": 0.7259,
      "step": 4115
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7023274932480268,
      "learning_rate": 6.845547981565881e-06,
      "loss": 0.6663,
      "step": 4116
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3437539144105541,
      "learning_rate": 6.8409618965651125e-06,
      "loss": 0.7527,
      "step": 4117
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8034416270701745,
      "learning_rate": 6.83637654951596e-06,
      "loss": 0.6193,
      "step": 4118
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.137147581214504,
      "learning_rate": 6.83179194148956e-06,
      "loss": 0.7723,
      "step": 4119
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7196333829505455,
      "learning_rate": 6.827208073556884e-06,
      "loss": 0.7133,
      "step": 4120
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.676491423182604,
      "learning_rate": 6.8226249467887115e-06,
      "loss": 0.5912,
      "step": 4121
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.1626901651512958,
      "learning_rate": 6.81804256225567e-06,
      "loss": 0.7219,
      "step": 4122
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5482172096860287,
      "learning_rate": 6.813460921028202e-06,
      "loss": 0.7526,
      "step": 4123
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.708530344117511,
      "learning_rate": 6.808880024176581e-06,
      "loss": 0.6298,
      "step": 4124
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7929192753517103,
      "learning_rate": 6.804299872770903e-06,
      "loss": 0.7253,
      "step": 4125
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.1414007996660924,
      "learning_rate": 6.799720467881099e-06,
      "loss": 0.6885,
      "step": 4126
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.346153777906674,
      "learning_rate": 6.795141810576906e-06,
      "loss": 0.6955,
      "step": 4127
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.331248271781129,
      "learning_rate": 6.790563901927907e-06,
      "loss": 0.6567,
      "step": 4128
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8679898015980991,
      "learning_rate": 6.7859867430035006e-06,
      "loss": 0.6959,
      "step": 4129
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.810354430205776,
      "learning_rate": 6.781410334872911e-06,
      "loss": 0.668,
      "step": 4130
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.2915529770593035,
      "learning_rate": 6.776834678605186e-06,
      "loss": 0.6825,
      "step": 4131
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7734505545047579,
      "learning_rate": 6.772259775269203e-06,
      "loss": 0.6321,
      "step": 4132
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6722902814081284,
      "learning_rate": 6.767685625933662e-06,
      "loss": 0.6801,
      "step": 4133
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.732931434960713,
      "learning_rate": 6.763112231667076e-06,
      "loss": 0.7665,
      "step": 4134
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6428893948556749,
      "learning_rate": 6.758539593537796e-06,
      "loss": 0.5881,
      "step": 4135
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7133825236940534,
      "learning_rate": 6.7539677126139894e-06,
      "loss": 0.6675,
      "step": 4136
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.2557764348063096,
      "learning_rate": 6.7493965899636486e-06,
      "loss": 0.6555,
      "step": 4137
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.381805402056875,
      "learning_rate": 6.744826226654587e-06,
      "loss": 0.6838,
      "step": 4138
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.5036609529786893,
      "learning_rate": 6.740256623754448e-06,
      "loss": 0.6506,
      "step": 4139
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.1205598301628332,
      "learning_rate": 6.735687782330683e-06,
      "loss": 0.6854,
      "step": 4140
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9938090897583916,
      "learning_rate": 6.731119703450577e-06,
      "loss": 0.6175,
      "step": 4141
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5682205075699882,
      "learning_rate": 6.7265523881812335e-06,
      "loss": 0.6937,
      "step": 4142
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.0759636479571126,
      "learning_rate": 6.7219858375895785e-06,
      "loss": 0.58,
      "step": 4143
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8650107299857464,
      "learning_rate": 6.717420052742358e-06,
      "loss": 0.6156,
      "step": 4144
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.049136937846535,
      "learning_rate": 6.712855034706141e-06,
      "loss": 0.6909,
      "step": 4145
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7843224208206927,
      "learning_rate": 6.70829078454732e-06,
      "loss": 0.694,
      "step": 4146
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9949956035019136,
      "learning_rate": 6.703727303332094e-06,
      "loss": 0.7052,
      "step": 4147
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.854179635678539,
      "learning_rate": 6.699164592126499e-06,
      "loss": 0.6863,
      "step": 4148
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8305302442709552,
      "learning_rate": 6.694602651996385e-06,
      "loss": 0.6217,
      "step": 4149
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9132242613826842,
      "learning_rate": 6.690041484007419e-06,
      "loss": 0.6727,
      "step": 4150
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6875656464882687,
      "learning_rate": 6.685481089225092e-06,
      "loss": 0.6595,
      "step": 4151
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6509188971560198,
      "learning_rate": 6.680921468714718e-06,
      "loss": 0.6789,
      "step": 4152
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.0607140568020945,
      "learning_rate": 6.676362623541415e-06,
      "loss": 0.763,
      "step": 4153
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.2946984898997695,
      "learning_rate": 6.671804554770135e-06,
      "loss": 0.6945,
      "step": 4154
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4556467919342408,
      "learning_rate": 6.6672472634656414e-06,
      "loss": 0.6034,
      "step": 4155
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.148451071839845,
      "learning_rate": 6.66269075069252e-06,
      "loss": 0.6895,
      "step": 4156
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.943325375440479,
      "learning_rate": 6.6581350175151715e-06,
      "loss": 0.6396,
      "step": 4157
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.351940830606588,
      "learning_rate": 6.653580064997817e-06,
      "loss": 0.7007,
      "step": 4158
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.3202723670777763,
      "learning_rate": 6.649025894204495e-06,
      "loss": 0.7536,
      "step": 4159
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.076222644495357,
      "learning_rate": 6.644472506199053e-06,
      "loss": 0.772,
      "step": 4160
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6768153314680987,
      "learning_rate": 6.639919902045169e-06,
      "loss": 0.6632,
      "step": 4161
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6021962552048739,
      "learning_rate": 6.6353680828063306e-06,
      "loss": 0.6783,
      "step": 4162
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8546907608141652,
      "learning_rate": 6.630817049545844e-06,
      "loss": 0.7162,
      "step": 4163
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.3837097819482964,
      "learning_rate": 6.626266803326831e-06,
      "loss": 0.6824,
      "step": 4164
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9305336671130735,
      "learning_rate": 6.621717345212231e-06,
      "loss": 0.6829,
      "step": 4165
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.4016338980588383,
      "learning_rate": 6.617168676264791e-06,
      "loss": 0.7302,
      "step": 4166
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.159818752371453,
      "learning_rate": 6.612620797547087e-06,
      "loss": 0.7212,
      "step": 4167
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7728919279856725,
      "learning_rate": 6.608073710121501e-06,
      "loss": 0.6927,
      "step": 4168
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8270973821675682,
      "learning_rate": 6.603527415050237e-06,
      "loss": 0.6002,
      "step": 4169
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.2770991513796934,
      "learning_rate": 6.598981913395306e-06,
      "loss": 0.7253,
      "step": 4170
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4190920877437432,
      "learning_rate": 6.594437206218539e-06,
      "loss": 0.6316,
      "step": 4171
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8370207409730892,
      "learning_rate": 6.589893294581579e-06,
      "loss": 0.7175,
      "step": 4172
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.558272314073104,
      "learning_rate": 6.585350179545884e-06,
      "loss": 0.6326,
      "step": 4173
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7868898831273214,
      "learning_rate": 6.580807862172731e-06,
      "loss": 0.6993,
      "step": 4174
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5030134479035904,
      "learning_rate": 6.576266343523199e-06,
      "loss": 0.7146,
      "step": 4175
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.888176991590626,
      "learning_rate": 6.571725624658189e-06,
      "loss": 0.6216,
      "step": 4176
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.2152026084391347,
      "learning_rate": 6.567185706638417e-06,
      "loss": 0.7167,
      "step": 4177
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8554664436169102,
      "learning_rate": 6.562646590524406e-06,
      "loss": 0.6579,
      "step": 4178
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.1422185516657724,
      "learning_rate": 6.558108277376496e-06,
      "loss": 0.7695,
      "step": 4179
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.16116971386962,
      "learning_rate": 6.553570768254831e-06,
      "loss": 0.6873,
      "step": 4180
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.900926058536083,
      "learning_rate": 6.549034064219379e-06,
      "loss": 0.7027,
      "step": 4181
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.4809693642147557,
      "learning_rate": 6.5444981663299135e-06,
      "loss": 0.7004,
      "step": 4182
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8814321896248491,
      "learning_rate": 6.539963075646021e-06,
      "loss": 0.6871,
      "step": 4183
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7448500816533556,
      "learning_rate": 6.535428793227102e-06,
      "loss": 0.6834,
      "step": 4184
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.826539488515779,
      "learning_rate": 6.530895320132358e-06,
      "loss": 0.7121,
      "step": 4185
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.2224643366953605,
      "learning_rate": 6.526362657420813e-06,
      "loss": 0.7248,
      "step": 4186
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9926463574826168,
      "learning_rate": 6.521830806151297e-06,
      "loss": 0.6156,
      "step": 4187
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.0499269892836876,
      "learning_rate": 6.517299767382451e-06,
      "loss": 0.6328,
      "step": 4188
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7600739062402486,
      "learning_rate": 6.512769542172727e-06,
      "loss": 0.6511,
      "step": 4189
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.858062767033929,
      "learning_rate": 6.508240131580386e-06,
      "loss": 0.7216,
      "step": 4190
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.001572040790574,
      "learning_rate": 6.503711536663499e-06,
      "loss": 0.8305,
      "step": 4191
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3973075066163687,
      "learning_rate": 6.499183758479944e-06,
      "loss": 0.6737,
      "step": 4192
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.320174996687866,
      "learning_rate": 6.494656798087412e-06,
      "loss": 0.7611,
      "step": 4193
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.082979935676809,
      "learning_rate": 6.490130656543401e-06,
      "loss": 0.68,
      "step": 4194
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.508805592170618,
      "learning_rate": 6.485605334905216e-06,
      "loss": 0.5829,
      "step": 4195
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.9627211949075367,
      "learning_rate": 6.481080834229978e-06,
      "loss": 0.6612,
      "step": 4196
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.124420569255023,
      "learning_rate": 6.47655715557461e-06,
      "loss": 0.7825,
      "step": 4197
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.360176843613341,
      "learning_rate": 6.472034299995837e-06,
      "loss": 0.7535,
      "step": 4198
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7523618833012722,
      "learning_rate": 6.467512268550204e-06,
      "loss": 0.6978,
      "step": 4199
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.1298689646175815,
      "learning_rate": 6.462991062294057e-06,
      "loss": 0.7647,
      "step": 4200
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.529566913435462,
      "learning_rate": 6.45847068228355e-06,
      "loss": 0.6394,
      "step": 4201
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.048654320136184,
      "learning_rate": 6.453951129574644e-06,
      "loss": 0.6692,
      "step": 4202
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.168805283300974,
      "learning_rate": 6.449432405223107e-06,
      "loss": 0.7437,
      "step": 4203
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.9115542891751445,
      "learning_rate": 6.444914510284519e-06,
      "loss": 0.7043,
      "step": 4204
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.0011433105637555,
      "learning_rate": 6.44039744581425e-06,
      "loss": 0.6752,
      "step": 4205
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8372281791333531,
      "learning_rate": 6.435881212867494e-06,
      "loss": 0.7006,
      "step": 4206
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6673909244063208,
      "learning_rate": 6.431365812499242e-06,
      "loss": 0.5934,
      "step": 4207
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7533328937623875,
      "learning_rate": 6.426851245764289e-06,
      "loss": 0.72,
      "step": 4208
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.1165611504099338,
      "learning_rate": 6.422337513717244e-06,
      "loss": 0.633,
      "step": 4209
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6474018983948915,
      "learning_rate": 6.417824617412515e-06,
      "loss": 0.6311,
      "step": 4210
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7813362391873722,
      "learning_rate": 6.413312557904307e-06,
      "loss": 0.6282,
      "step": 4211
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8074189123250837,
      "learning_rate": 6.408801336246645e-06,
      "loss": 0.6196,
      "step": 4212
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6874026594425475,
      "learning_rate": 6.404290953493347e-06,
      "loss": 0.714,
      "step": 4213
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2430887970900155,
      "learning_rate": 6.399781410698042e-06,
      "loss": 0.6707,
      "step": 4214
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8858738333721763,
      "learning_rate": 6.395272708914156e-06,
      "loss": 0.6362,
      "step": 4215
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.8114567816853007,
      "learning_rate": 6.390764849194926e-06,
      "loss": 0.6851,
      "step": 4216
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2568857601239385,
      "learning_rate": 6.38625783259339e-06,
      "loss": 0.7076,
      "step": 4217
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.0454954094753184,
      "learning_rate": 6.3817516601623805e-06,
      "loss": 0.7231,
      "step": 4218
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6492941925749043,
      "learning_rate": 6.377246332954544e-06,
      "loss": 0.6761,
      "step": 4219
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.183647058708329,
      "learning_rate": 6.372741852022324e-06,
      "loss": 0.7675,
      "step": 4220
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.9865564065687387,
      "learning_rate": 6.36823821841797e-06,
      "loss": 0.7056,
      "step": 4221
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6692128342346721,
      "learning_rate": 6.36373543319353e-06,
      "loss": 0.6841,
      "step": 4222
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6350639937289622,
      "learning_rate": 6.359233497400858e-06,
      "loss": 0.6748,
      "step": 4223
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.579236804754573,
      "learning_rate": 6.3547324120916e-06,
      "loss": 0.6389,
      "step": 4224
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.049123371508496,
      "learning_rate": 6.350232178317214e-06,
      "loss": 0.6968,
      "step": 4225
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.9924753511231275,
      "learning_rate": 6.345732797128954e-06,
      "loss": 0.6863,
      "step": 4226
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7370788544199682,
      "learning_rate": 6.341234269577878e-06,
      "loss": 0.6939,
      "step": 4227
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.053944486387143,
      "learning_rate": 6.336736596714842e-06,
      "loss": 0.7127,
      "step": 4228
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2456797440623326,
      "learning_rate": 6.3322397795905e-06,
      "loss": 0.6421,
      "step": 4229
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2449020932961967,
      "learning_rate": 6.327743819255313e-06,
      "loss": 0.6793,
      "step": 4230
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4507317837565021,
      "learning_rate": 6.323248716759534e-06,
      "loss": 0.6554,
      "step": 4231
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.0395584222418583,
      "learning_rate": 6.318754473153221e-06,
      "loss": 0.6495,
      "step": 4232
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6823627561654928,
      "learning_rate": 6.314261089486231e-06,
      "loss": 0.6888,
      "step": 4233
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7844934360113502,
      "learning_rate": 6.309768566808217e-06,
      "loss": 0.6838,
      "step": 4234
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8292417449832994,
      "learning_rate": 6.305276906168633e-06,
      "loss": 0.6724,
      "step": 4235
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.0013578455275285,
      "learning_rate": 6.300786108616732e-06,
      "loss": 0.6496,
      "step": 4236
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.764590224473105,
      "learning_rate": 6.296296175201565e-06,
      "loss": 0.6715,
      "step": 4237
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.6235074781180674,
      "learning_rate": 6.291807106971981e-06,
      "loss": 0.6609,
      "step": 4238
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6007672052577138,
      "learning_rate": 6.287318904976625e-06,
      "loss": 0.6486,
      "step": 4239
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7521757038251342,
      "learning_rate": 6.282831570263943e-06,
      "loss": 0.6974,
      "step": 4240
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.9867165802289144,
      "learning_rate": 6.278345103882175e-06,
      "loss": 0.5975,
      "step": 4241
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2470728283671733,
      "learning_rate": 6.273859506879365e-06,
      "loss": 0.7588,
      "step": 4242
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.012541892989382,
      "learning_rate": 6.269374780303345e-06,
      "loss": 0.7172,
      "step": 4243
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6502111701335018,
      "learning_rate": 6.264890925201745e-06,
      "loss": 0.6657,
      "step": 4244
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8445140398488908,
      "learning_rate": 6.260407942621998e-06,
      "loss": 0.6571,
      "step": 4245
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2184045200074065,
      "learning_rate": 6.255925833611327e-06,
      "loss": 0.7224,
      "step": 4246
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8390640299335106,
      "learning_rate": 6.251444599216756e-06,
      "loss": 0.6023,
      "step": 4247
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2342258972813498,
      "learning_rate": 6.246964240485099e-06,
      "loss": 0.6497,
      "step": 4248
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.1781448122869955,
      "learning_rate": 6.242484758462972e-06,
      "loss": 0.6567,
      "step": 4249
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.8172726237789194,
      "learning_rate": 6.238006154196779e-06,
      "loss": 0.6868,
      "step": 4250
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7124790129713132,
      "learning_rate": 6.23352842873272e-06,
      "loss": 0.7076,
      "step": 4251
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7980074546685483,
      "learning_rate": 6.229051583116796e-06,
      "loss": 0.62,
      "step": 4252
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2364577890360433,
      "learning_rate": 6.2245756183947995e-06,
      "loss": 0.6664,
      "step": 4253
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.995531579264488,
      "learning_rate": 6.220100535612313e-06,
      "loss": 0.6415,
      "step": 4254
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7724155806883126,
      "learning_rate": 6.215626335814723e-06,
      "loss": 0.6915,
      "step": 4255
    },
    {
      "epoch": 0.64,
      "grad_norm": 5.234525326554964,
      "learning_rate": 6.2111530200471935e-06,
      "loss": 0.6811,
      "step": 4256
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7371073705528066,
      "learning_rate": 6.206680589354696e-06,
      "loss": 0.6746,
      "step": 4257
    },
    {
      "epoch": 0.64,
      "grad_norm": 6.1812620865241135,
      "learning_rate": 6.202209044781991e-06,
      "loss": 0.6645,
      "step": 4258
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8302590768806424,
      "learning_rate": 6.197738387373631e-06,
      "loss": 0.659,
      "step": 4259
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7847237993095613,
      "learning_rate": 6.193268618173962e-06,
      "loss": 0.6682,
      "step": 4260
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.428697193018801,
      "learning_rate": 6.188799738227124e-06,
      "loss": 0.8174,
      "step": 4261
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.8958047728240635,
      "learning_rate": 6.18433174857705e-06,
      "loss": 0.6928,
      "step": 4262
    },
    {
      "epoch": 0.64,
      "grad_norm": 9.463263405476384,
      "learning_rate": 6.179864650267457e-06,
      "loss": 0.6568,
      "step": 4263
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9934247049099767,
      "learning_rate": 6.17539844434186e-06,
      "loss": 0.768,
      "step": 4264
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.8976941065717896,
      "learning_rate": 6.170933131843569e-06,
      "loss": 0.6887,
      "step": 4265
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.2351126684140126,
      "learning_rate": 6.16646871381568e-06,
      "loss": 0.7372,
      "step": 4266
    },
    {
      "epoch": 0.64,
      "grad_norm": 9.40798086558477,
      "learning_rate": 6.162005191301082e-06,
      "loss": 0.7354,
      "step": 4267
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8042590850577043,
      "learning_rate": 6.1575425653424555e-06,
      "loss": 0.6927,
      "step": 4268
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.504788142817224,
      "learning_rate": 6.153080836982266e-06,
      "loss": 0.8391,
      "step": 4269
    },
    {
      "epoch": 0.64,
      "grad_norm": 37.67097651558636,
      "learning_rate": 6.148620007262775e-06,
      "loss": 0.7941,
      "step": 4270
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.5008511135102456,
      "learning_rate": 6.144160077226035e-06,
      "loss": 0.7437,
      "step": 4271
    },
    {
      "epoch": 0.64,
      "grad_norm": 15.713940878934423,
      "learning_rate": 6.139701047913885e-06,
      "loss": 0.6674,
      "step": 4272
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.4233488384635993,
      "learning_rate": 6.135242920367955e-06,
      "loss": 0.6895,
      "step": 4273
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.279889570532989,
      "learning_rate": 6.130785695629664e-06,
      "loss": 0.6935,
      "step": 4274
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.5181182224374807,
      "learning_rate": 6.126329374740223e-06,
      "loss": 0.697,
      "step": 4275
    },
    {
      "epoch": 0.64,
      "grad_norm": 11.888943741700498,
      "learning_rate": 6.121873958740623e-06,
      "loss": 0.6862,
      "step": 4276
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9857743379245603,
      "learning_rate": 6.117419448671651e-06,
      "loss": 0.7068,
      "step": 4277
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8431474412244384,
      "learning_rate": 6.112965845573884e-06,
      "loss": 0.7434,
      "step": 4278
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8516660593054128,
      "learning_rate": 6.108513150487682e-06,
      "loss": 0.6535,
      "step": 4279
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.1999894828312767,
      "learning_rate": 6.104061364453196e-06,
      "loss": 0.725,
      "step": 4280
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.1203630314479134,
      "learning_rate": 6.099610488510368e-06,
      "loss": 0.695,
      "step": 4281
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.8819386871582857,
      "learning_rate": 6.095160523698913e-06,
      "loss": 0.7054,
      "step": 4282
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.058694718420873,
      "learning_rate": 6.09071147105835e-06,
      "loss": 0.6774,
      "step": 4283
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.159556404367982,
      "learning_rate": 6.086263331627976e-06,
      "loss": 0.7149,
      "step": 4284
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7391412727943782,
      "learning_rate": 6.081816106446878e-06,
      "loss": 0.6666,
      "step": 4285
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7198089297610357,
      "learning_rate": 6.077369796553928e-06,
      "loss": 0.7151,
      "step": 4286
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.4610063744286497,
      "learning_rate": 6.072924402987785e-06,
      "loss": 0.7372,
      "step": 4287
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.85019360242983,
      "learning_rate": 6.068479926786894e-06,
      "loss": 0.6988,
      "step": 4288
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7611712161639386,
      "learning_rate": 6.064036368989482e-06,
      "loss": 0.5964,
      "step": 4289
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6848864653099966,
      "learning_rate": 6.0595937306335666e-06,
      "loss": 0.6952,
      "step": 4290
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7444915032234924,
      "learning_rate": 6.055152012756946e-06,
      "loss": 0.6811,
      "step": 4291
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.995471679428178,
      "learning_rate": 6.050711216397212e-06,
      "loss": 0.6932,
      "step": 4292
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6212044209451353,
      "learning_rate": 6.04627134259173e-06,
      "loss": 0.6553,
      "step": 4293
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.774845538837017,
      "learning_rate": 6.0418323923776565e-06,
      "loss": 0.6561,
      "step": 4294
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.0134607222952066,
      "learning_rate": 6.0373943667919285e-06,
      "loss": 0.6635,
      "step": 4295
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9086194478155905,
      "learning_rate": 6.032957266871274e-06,
      "loss": 0.7331,
      "step": 4296
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.721843404356061,
      "learning_rate": 6.028521093652195e-06,
      "loss": 0.6352,
      "step": 4297
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.0085282666643223,
      "learning_rate": 6.0240858481709854e-06,
      "loss": 0.6781,
      "step": 4298
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8660703387545032,
      "learning_rate": 6.0196515314637164e-06,
      "loss": 0.7197,
      "step": 4299
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.058876852005351,
      "learning_rate": 6.0152181445662485e-06,
      "loss": 0.7597,
      "step": 4300
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7851698578807362,
      "learning_rate": 6.010785688514216e-06,
      "loss": 0.7522,
      "step": 4301
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.661553134311588,
      "learning_rate": 6.006354164343047e-06,
      "loss": 0.7009,
      "step": 4302
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7648737517870074,
      "learning_rate": 6.0019235730879414e-06,
      "loss": 0.6916,
      "step": 4303
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8128500690935696,
      "learning_rate": 5.997493915783887e-06,
      "loss": 0.644,
      "step": 4304
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.721237520416921,
      "learning_rate": 5.993065193465653e-06,
      "loss": 0.6606,
      "step": 4305
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7047365810288226,
      "learning_rate": 5.9886374071677875e-06,
      "loss": 0.6731,
      "step": 4306
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.697710167351576,
      "learning_rate": 5.984210557924628e-06,
      "loss": 0.6594,
      "step": 4307
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8089252211704823,
      "learning_rate": 5.979784646770279e-06,
      "loss": 0.6456,
      "step": 4308
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.092257244600394,
      "learning_rate": 5.975359674738637e-06,
      "loss": 0.6145,
      "step": 4309
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8456755901913768,
      "learning_rate": 5.970935642863375e-06,
      "loss": 0.7762,
      "step": 4310
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6485509165161532,
      "learning_rate": 5.966512552177949e-06,
      "loss": 0.5622,
      "step": 4311
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6775117986447665,
      "learning_rate": 5.962090403715592e-06,
      "loss": 0.6799,
      "step": 4312
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7456063061062035,
      "learning_rate": 5.9576691985093235e-06,
      "loss": 0.6226,
      "step": 4313
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9910618387424677,
      "learning_rate": 5.953248937591929e-06,
      "loss": 0.6743,
      "step": 4314
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9434423950483963,
      "learning_rate": 5.948829621995984e-06,
      "loss": 0.6939,
      "step": 4315
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9238552441816046,
      "learning_rate": 5.944411252753846e-06,
      "loss": 0.7152,
      "step": 4316
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9926416571725383,
      "learning_rate": 5.939993830897641e-06,
      "loss": 0.6621,
      "step": 4317
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7693963065016733,
      "learning_rate": 5.935577357459282e-06,
      "loss": 0.6231,
      "step": 4318
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.701897462609672,
      "learning_rate": 5.931161833470458e-06,
      "loss": 0.6287,
      "step": 4319
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.803465683668769,
      "learning_rate": 5.926747259962638e-06,
      "loss": 0.6475,
      "step": 4320
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6890545920046633,
      "learning_rate": 5.92233363796706e-06,
      "loss": 0.681,
      "step": 4321
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.086585259743159,
      "learning_rate": 5.9179209685147525e-06,
      "loss": 0.626,
      "step": 4322
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5484238631146447,
      "learning_rate": 5.913509252636511e-06,
      "loss": 0.7083,
      "step": 4323
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9093335303815948,
      "learning_rate": 5.909098491362916e-06,
      "loss": 0.7026,
      "step": 4324
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.3008076761320018,
      "learning_rate": 5.90468868572432e-06,
      "loss": 0.6445,
      "step": 4325
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.677139171165079,
      "learning_rate": 5.900279836750859e-06,
      "loss": 0.6661,
      "step": 4326
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.007308094895796,
      "learning_rate": 5.895871945472434e-06,
      "loss": 0.7481,
      "step": 4327
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9777472679974266,
      "learning_rate": 5.891465012918731e-06,
      "loss": 0.6805,
      "step": 4328
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8824684462727748,
      "learning_rate": 5.887059040119209e-06,
      "loss": 0.6225,
      "step": 4329
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.0704613696603285,
      "learning_rate": 5.882654028103108e-06,
      "loss": 0.7312,
      "step": 4330
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.876126209525714,
      "learning_rate": 5.878249977899433e-06,
      "loss": 0.6711,
      "step": 4331
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9651901372534084,
      "learning_rate": 5.873846890536976e-06,
      "loss": 0.6371,
      "step": 4332
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.174996792431749,
      "learning_rate": 5.8694447670442985e-06,
      "loss": 0.7185,
      "step": 4333
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.926756901110532,
      "learning_rate": 5.865043608449732e-06,
      "loss": 0.7103,
      "step": 4334
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8832611217401907,
      "learning_rate": 5.86064341578139e-06,
      "loss": 0.7553,
      "step": 4335
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8447687834159194,
      "learning_rate": 5.85624419006716e-06,
      "loss": 0.6633,
      "step": 4336
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7068985024393604,
      "learning_rate": 5.851845932334698e-06,
      "loss": 0.7709,
      "step": 4337
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.082936644505596,
      "learning_rate": 5.84744864361144e-06,
      "loss": 0.7089,
      "step": 4338
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.784335432292017,
      "learning_rate": 5.843052324924596e-06,
      "loss": 0.6887,
      "step": 4339
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7520291164185313,
      "learning_rate": 5.83865697730114e-06,
      "loss": 0.6689,
      "step": 4340
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.953497169816051,
      "learning_rate": 5.834262601767828e-06,
      "loss": 0.6863,
      "step": 4341
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.821670115644946,
      "learning_rate": 5.829869199351188e-06,
      "loss": 0.5679,
      "step": 4342
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.812234659121734,
      "learning_rate": 5.825476771077518e-06,
      "loss": 0.6974,
      "step": 4343
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5776884014990094,
      "learning_rate": 5.821085317972891e-06,
      "loss": 0.6113,
      "step": 4344
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.931761643240651,
      "learning_rate": 5.816694841063149e-06,
      "loss": 0.6465,
      "step": 4345
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.0061214550083384,
      "learning_rate": 5.812305341373914e-06,
      "loss": 0.6669,
      "step": 4346
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8825556837121666,
      "learning_rate": 5.807916819930563e-06,
      "loss": 0.6622,
      "step": 4347
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.3003458528278573,
      "learning_rate": 5.803529277758261e-06,
      "loss": 0.7542,
      "step": 4348
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9509660134492288,
      "learning_rate": 5.799142715881938e-06,
      "loss": 0.5843,
      "step": 4349
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.3407081953490656,
      "learning_rate": 5.794757135326294e-06,
      "loss": 0.7587,
      "step": 4350
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.332217730041786,
      "learning_rate": 5.790372537115802e-06,
      "loss": 0.7593,
      "step": 4351
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.764081231752407,
      "learning_rate": 5.785988922274711e-06,
      "loss": 0.665,
      "step": 4352
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7510253892435075,
      "learning_rate": 5.7816062918270225e-06,
      "loss": 0.6934,
      "step": 4353
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8539907681821859,
      "learning_rate": 5.7772246467965246e-06,
      "loss": 0.6944,
      "step": 4354
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.309825465249868,
      "learning_rate": 5.772843988206769e-06,
      "loss": 0.8306,
      "step": 4355
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.587935671890106,
      "learning_rate": 5.76846431708108e-06,
      "loss": 0.635,
      "step": 4356
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.286942640620388,
      "learning_rate": 5.7640856344425465e-06,
      "loss": 0.646,
      "step": 4357
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.321600620662271,
      "learning_rate": 5.759707941314032e-06,
      "loss": 0.7566,
      "step": 4358
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8080100801054493,
      "learning_rate": 5.7553312387181685e-06,
      "loss": 0.7015,
      "step": 4359
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.931288108202942,
      "learning_rate": 5.750955527677347e-06,
      "loss": 0.7121,
      "step": 4360
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.0249152335430702,
      "learning_rate": 5.746580809213736e-06,
      "loss": 0.6302,
      "step": 4361
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8373975536271983,
      "learning_rate": 5.742207084349274e-06,
      "loss": 0.7013,
      "step": 4362
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7252251723644936,
      "learning_rate": 5.737834354105659e-06,
      "loss": 0.6702,
      "step": 4363
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9530091083862138,
      "learning_rate": 5.733462619504364e-06,
      "loss": 0.6514,
      "step": 4364
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7636264238234614,
      "learning_rate": 5.729091881566631e-06,
      "loss": 0.7053,
      "step": 4365
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9245227461147951,
      "learning_rate": 5.724722141313456e-06,
      "loss": 0.7221,
      "step": 4366
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6750615838067948,
      "learning_rate": 5.720353399765615e-06,
      "loss": 0.6968,
      "step": 4367
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.739487291151559,
      "learning_rate": 5.715985657943644e-06,
      "loss": 0.6818,
      "step": 4368
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2949001248588963,
      "learning_rate": 5.711618916867851e-06,
      "loss": 0.6512,
      "step": 4369
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.311138406250247,
      "learning_rate": 5.707253177558308e-06,
      "loss": 0.6748,
      "step": 4370
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9629463927091175,
      "learning_rate": 5.702888441034853e-06,
      "loss": 0.7327,
      "step": 4371
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.114286868877874,
      "learning_rate": 5.698524708317082e-06,
      "loss": 0.7122,
      "step": 4372
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9794024825933048,
      "learning_rate": 5.694161980424368e-06,
      "loss": 0.6728,
      "step": 4373
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.928189519517331,
      "learning_rate": 5.689800258375844e-06,
      "loss": 0.6906,
      "step": 4374
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5472486823573588,
      "learning_rate": 5.685439543190409e-06,
      "loss": 0.6535,
      "step": 4375
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7837979479913246,
      "learning_rate": 5.681079835886727e-06,
      "loss": 0.6329,
      "step": 4376
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.595421256534641,
      "learning_rate": 5.676721137483226e-06,
      "loss": 0.713,
      "step": 4377
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.91387793529878,
      "learning_rate": 5.672363448998102e-06,
      "loss": 0.678,
      "step": 4378
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.544415480231789,
      "learning_rate": 5.668006771449302e-06,
      "loss": 0.6896,
      "step": 4379
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.095789420453322,
      "learning_rate": 5.6636511058545525e-06,
      "loss": 0.7286,
      "step": 4380
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9026539022547704,
      "learning_rate": 5.6592964532313365e-06,
      "loss": 0.6773,
      "step": 4381
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.1220197533853913,
      "learning_rate": 5.654942814596902e-06,
      "loss": 0.6498,
      "step": 4382
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.2136742775425824,
      "learning_rate": 5.650590190968263e-06,
      "loss": 0.6139,
      "step": 4383
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8721931215822518,
      "learning_rate": 5.646238583362184e-06,
      "loss": 0.6419,
      "step": 4384
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.658452914608885,
      "learning_rate": 5.641887992795205e-06,
      "loss": 0.6743,
      "step": 4385
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9274529072386164,
      "learning_rate": 5.6375384202836254e-06,
      "loss": 0.6904,
      "step": 4386
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.607130838250706,
      "learning_rate": 5.633189866843507e-06,
      "loss": 0.5613,
      "step": 4387
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.662944679261928,
      "learning_rate": 5.628842333490674e-06,
      "loss": 0.6662,
      "step": 4388
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7324532925274683,
      "learning_rate": 5.624495821240703e-06,
      "loss": 0.6012,
      "step": 4389
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7580770560919168,
      "learning_rate": 5.620150331108943e-06,
      "loss": 0.6444,
      "step": 4390
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.3924045659023054,
      "learning_rate": 5.615805864110504e-06,
      "loss": 0.7061,
      "step": 4391
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.351047114751945,
      "learning_rate": 5.611462421260251e-06,
      "loss": 0.7305,
      "step": 4392
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.817025978021016,
      "learning_rate": 5.607120003572817e-06,
      "loss": 0.6444,
      "step": 4393
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7222706247516468,
      "learning_rate": 5.602778612062585e-06,
      "loss": 0.666,
      "step": 4394
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.827594239767565,
      "learning_rate": 5.598438247743706e-06,
      "loss": 0.6939,
      "step": 4395
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6247019203486075,
      "learning_rate": 5.594098911630091e-06,
      "loss": 0.6611,
      "step": 4396
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8163875196327635,
      "learning_rate": 5.58976060473541e-06,
      "loss": 0.6689,
      "step": 4397
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6497597679609362,
      "learning_rate": 5.585423328073094e-06,
      "loss": 0.6935,
      "step": 4398
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6908355143441307,
      "learning_rate": 5.581087082656325e-06,
      "loss": 0.6299,
      "step": 4399
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6132193408630444,
      "learning_rate": 5.576751869498054e-06,
      "loss": 0.6171,
      "step": 4400
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.255171448441807,
      "learning_rate": 5.572417689610987e-06,
      "loss": 0.6871,
      "step": 4401
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8951503165102535,
      "learning_rate": 5.5680845440075885e-06,
      "loss": 0.6445,
      "step": 4402
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.029882121620322,
      "learning_rate": 5.563752433700082e-06,
      "loss": 0.6883,
      "step": 4403
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9741110096348005,
      "learning_rate": 5.559421359700452e-06,
      "loss": 0.7231,
      "step": 4404
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8901501226102597,
      "learning_rate": 5.555091323020432e-06,
      "loss": 0.7854,
      "step": 4405
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.802514770062024,
      "learning_rate": 5.550762324671521e-06,
      "loss": 0.6534,
      "step": 4406
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.365779955505943,
      "learning_rate": 5.546434365664974e-06,
      "loss": 0.684,
      "step": 4407
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.690117450965847,
      "learning_rate": 5.5421074470118045e-06,
      "loss": 0.6527,
      "step": 4408
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1778279800379488,
      "learning_rate": 5.5377815697227776e-06,
      "loss": 0.6797,
      "step": 4409
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.862385570005294,
      "learning_rate": 5.5334567348084265e-06,
      "loss": 0.709,
      "step": 4410
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.592876989005911,
      "learning_rate": 5.529132943279021e-06,
      "loss": 0.6951,
      "step": 4411
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.3789205859922977,
      "learning_rate": 5.5248101961446065e-06,
      "loss": 0.6591,
      "step": 4412
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.923886290430259,
      "learning_rate": 5.520488494414975e-06,
      "loss": 0.6342,
      "step": 4413
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.937761395295626,
      "learning_rate": 5.516167839099679e-06,
      "loss": 0.7212,
      "step": 4414
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.350726631481241,
      "learning_rate": 5.511848231208022e-06,
      "loss": 0.781,
      "step": 4415
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6648748707817005,
      "learning_rate": 5.507529671749064e-06,
      "loss": 0.6538,
      "step": 4416
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6330670995060033,
      "learning_rate": 5.503212161731628e-06,
      "loss": 0.6633,
      "step": 4417
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5655368762560882,
      "learning_rate": 5.498895702164274e-06,
      "loss": 0.6329,
      "step": 4418
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.089928650425019,
      "learning_rate": 5.494580294055333e-06,
      "loss": 0.663,
      "step": 4419
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.9332116261303196,
      "learning_rate": 5.490265938412883e-06,
      "loss": 0.7518,
      "step": 4420
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7350629932258668,
      "learning_rate": 5.4859526362447605e-06,
      "loss": 0.7246,
      "step": 4421
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.723450813208814,
      "learning_rate": 5.481640388558551e-06,
      "loss": 0.7472,
      "step": 4422
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8181342754164536,
      "learning_rate": 5.4773291963616006e-06,
      "loss": 0.6833,
      "step": 4423
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9410895657001555,
      "learning_rate": 5.473019060660997e-06,
      "loss": 0.6933,
      "step": 4424
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8042773429941534,
      "learning_rate": 5.468709982463591e-06,
      "loss": 0.6106,
      "step": 4425
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9157328397294284,
      "learning_rate": 5.464401962775986e-06,
      "loss": 0.6254,
      "step": 4426
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8978026253889522,
      "learning_rate": 5.460095002604533e-06,
      "loss": 0.6528,
      "step": 4427
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8956862036018172,
      "learning_rate": 5.45578910295534e-06,
      "loss": 0.7022,
      "step": 4428
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6733920635808863,
      "learning_rate": 5.451484264834271e-06,
      "loss": 0.6051,
      "step": 4429
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.0886781141132147,
      "learning_rate": 5.447180489246924e-06,
      "loss": 0.6161,
      "step": 4430
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.796990859145314,
      "learning_rate": 5.442877777198669e-06,
      "loss": 0.6589,
      "step": 4431
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6757659825341602,
      "learning_rate": 5.43857612969462e-06,
      "loss": 0.7098,
      "step": 4432
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.74780836952232,
      "learning_rate": 5.434275547739641e-06,
      "loss": 0.6603,
      "step": 4433
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.554037002336743,
      "learning_rate": 5.42997603233835e-06,
      "loss": 0.6886,
      "step": 4434
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8509768987212138,
      "learning_rate": 5.425677584495112e-06,
      "loss": 0.6685,
      "step": 4435
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.0915592685739224,
      "learning_rate": 5.421380205214051e-06,
      "loss": 0.6432,
      "step": 4436
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6720989413525558,
      "learning_rate": 5.417083895499024e-06,
      "loss": 0.6385,
      "step": 4437
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7401729580271441,
      "learning_rate": 5.412788656353658e-06,
      "loss": 0.7076,
      "step": 4438
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.674646974716622,
      "learning_rate": 5.408494488781317e-06,
      "loss": 0.7093,
      "step": 4439
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6963878715338434,
      "learning_rate": 5.404201393785123e-06,
      "loss": 0.6688,
      "step": 4440
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9739088887888228,
      "learning_rate": 5.3999093723679395e-06,
      "loss": 0.6625,
      "step": 4441
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.1340982790314222,
      "learning_rate": 5.39561842553239e-06,
      "loss": 0.6129,
      "step": 4442
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8707295346872435,
      "learning_rate": 5.391328554280829e-06,
      "loss": 0.6177,
      "step": 4443
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7916877605257442,
      "learning_rate": 5.387039759615378e-06,
      "loss": 0.6332,
      "step": 4444
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.13574102641521,
      "learning_rate": 5.382752042537899e-06,
      "loss": 0.6038,
      "step": 4445
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9193581341827206,
      "learning_rate": 5.378465404050003e-06,
      "loss": 0.7034,
      "step": 4446
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.032061068369811,
      "learning_rate": 5.374179845153048e-06,
      "loss": 0.675,
      "step": 4447
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2792832719404963,
      "learning_rate": 5.369895366848144e-06,
      "loss": 0.7004,
      "step": 4448
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.238790903269215,
      "learning_rate": 5.365611970136145e-06,
      "loss": 0.7084,
      "step": 4449
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.645348614903688,
      "learning_rate": 5.361329656017649e-06,
      "loss": 0.6502,
      "step": 4450
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8919837767817878,
      "learning_rate": 5.357048425493007e-06,
      "loss": 0.5566,
      "step": 4451
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7948748616302845,
      "learning_rate": 5.352768279562315e-06,
      "loss": 0.6956,
      "step": 4452
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.635169336144671,
      "learning_rate": 5.348489219225417e-06,
      "loss": 0.6436,
      "step": 4453
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9691340308883092,
      "learning_rate": 5.3442112454819e-06,
      "loss": 0.6712,
      "step": 4454
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.0771680617501005,
      "learning_rate": 5.339934359331104e-06,
      "loss": 0.7059,
      "step": 4455
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6589937531428176,
      "learning_rate": 5.335658561772101e-06,
      "loss": 0.6507,
      "step": 4456
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7421646907644264,
      "learning_rate": 5.331383853803724e-06,
      "loss": 0.6397,
      "step": 4457
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8014955207961552,
      "learning_rate": 5.327110236424544e-06,
      "loss": 0.7374,
      "step": 4458
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.785684741273297,
      "learning_rate": 5.3228377106328775e-06,
      "loss": 0.653,
      "step": 4459
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.4571838002354593,
      "learning_rate": 5.3185662774267875e-06,
      "loss": 0.7628,
      "step": 4460
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.796471401004646,
      "learning_rate": 5.314295937804082e-06,
      "loss": 0.7286,
      "step": 4461
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0541775898104633,
      "learning_rate": 5.310026692762316e-06,
      "loss": 0.7841,
      "step": 4462
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7931855218805717,
      "learning_rate": 5.305758543298778e-06,
      "loss": 0.6425,
      "step": 4463
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.891835297445926,
      "learning_rate": 5.3014914904105105e-06,
      "loss": 0.6801,
      "step": 4464
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.629809675100533,
      "learning_rate": 5.297225535094302e-06,
      "loss": 0.7237,
      "step": 4465
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8934118820868178,
      "learning_rate": 5.292960678346674e-06,
      "loss": 0.5898,
      "step": 4466
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5738775549654436,
      "learning_rate": 5.288696921163902e-06,
      "loss": 0.6327,
      "step": 4467
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6939750022160314,
      "learning_rate": 5.284434264542002e-06,
      "loss": 0.615,
      "step": 4468
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.9091769748298426,
      "learning_rate": 5.280172709476723e-06,
      "loss": 0.6618,
      "step": 4469
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4598661205461705,
      "learning_rate": 5.275912256963571e-06,
      "loss": 0.6759,
      "step": 4470
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5287644439257861,
      "learning_rate": 5.2716529079977856e-06,
      "loss": 0.6599,
      "step": 4471
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8456275208540833,
      "learning_rate": 5.267394663574351e-06,
      "loss": 0.6506,
      "step": 4472
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6035979516540335,
      "learning_rate": 5.2631375246879955e-06,
      "loss": 0.6441,
      "step": 4473
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8031740744390372,
      "learning_rate": 5.2588814923331854e-06,
      "loss": 0.6286,
      "step": 4474
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.010343287160335,
      "learning_rate": 5.254626567504135e-06,
      "loss": 0.7228,
      "step": 4475
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.517590915626631,
      "learning_rate": 5.250372751194788e-06,
      "loss": 0.6679,
      "step": 4476
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.9263088008970572,
      "learning_rate": 5.246120044398839e-06,
      "loss": 0.7558,
      "step": 4477
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8090960119931265,
      "learning_rate": 5.241868448109722e-06,
      "loss": 0.6709,
      "step": 4478
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.947813657438864,
      "learning_rate": 5.237617963320608e-06,
      "loss": 0.6724,
      "step": 4479
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.2683103624298,
      "learning_rate": 5.233368591024412e-06,
      "loss": 0.6424,
      "step": 4480
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.045291890654629,
      "learning_rate": 5.229120332213794e-06,
      "loss": 0.6236,
      "step": 4481
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7058581116298732,
      "learning_rate": 5.224873187881136e-06,
      "loss": 0.6517,
      "step": 4482
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.954211864569242,
      "learning_rate": 5.220627159018578e-06,
      "loss": 0.7013,
      "step": 4483
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5537014712221309,
      "learning_rate": 5.216382246617993e-06,
      "loss": 0.7169,
      "step": 4484
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.2075217838456167,
      "learning_rate": 5.212138451670989e-06,
      "loss": 0.597,
      "step": 4485
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.683622853069268,
      "learning_rate": 5.2078957751689206e-06,
      "loss": 0.6528,
      "step": 4486
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8961109454791594,
      "learning_rate": 5.20365421810288e-06,
      "loss": 0.7324,
      "step": 4487
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.773378813012936,
      "learning_rate": 5.199413781463689e-06,
      "loss": 0.6526,
      "step": 4488
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7803335213169407,
      "learning_rate": 5.195174466241917e-06,
      "loss": 0.6521,
      "step": 4489
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7425399885670456,
      "learning_rate": 5.190936273427868e-06,
      "loss": 0.616,
      "step": 4490
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2935225354705595,
      "learning_rate": 5.186699204011585e-06,
      "loss": 0.6937,
      "step": 4491
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7106769273588105,
      "learning_rate": 5.1824632589828465e-06,
      "loss": 0.5751,
      "step": 4492
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6124905270093368,
      "learning_rate": 5.17822843933117e-06,
      "loss": 0.6073,
      "step": 4493
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.1824909162025294,
      "learning_rate": 5.173994746045816e-06,
      "loss": 0.737,
      "step": 4494
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.810640161760542,
      "learning_rate": 5.169762180115765e-06,
      "loss": 0.7638,
      "step": 4495
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.933754756984016,
      "learning_rate": 5.16553074252975e-06,
      "loss": 0.7637,
      "step": 4496
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.792052387801376,
      "learning_rate": 5.161300434276237e-06,
      "loss": 0.6303,
      "step": 4497
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.181749750563605,
      "learning_rate": 5.157071256343422e-06,
      "loss": 0.7159,
      "step": 4498
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.449261771117454,
      "learning_rate": 5.152843209719246e-06,
      "loss": 0.7082,
      "step": 4499
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0516198522722595,
      "learning_rate": 5.148616295391382e-06,
      "loss": 0.7427,
      "step": 4500
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.4964722906030428,
      "learning_rate": 5.1443905143472305e-06,
      "loss": 0.7213,
      "step": 4501
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.042670943971495,
      "learning_rate": 5.14016586757394e-06,
      "loss": 0.7264,
      "step": 4502
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4519871443147843,
      "learning_rate": 5.135942356058385e-06,
      "loss": 0.6031,
      "step": 4503
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.748757278137597,
      "learning_rate": 5.131719980787182e-06,
      "loss": 0.5449,
      "step": 4504
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7592934112776786,
      "learning_rate": 5.127498742746675e-06,
      "loss": 0.7528,
      "step": 4505
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.9189927294605418,
      "learning_rate": 5.123278642922952e-06,
      "loss": 0.7703,
      "step": 4506
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7597504159562505,
      "learning_rate": 5.119059682301819e-06,
      "loss": 0.7145,
      "step": 4507
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.2423674234931563,
      "learning_rate": 5.114841861868831e-06,
      "loss": 0.6589,
      "step": 4508
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5993204700880022,
      "learning_rate": 5.1106251826092716e-06,
      "loss": 0.6466,
      "step": 4509
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7563992644654816,
      "learning_rate": 5.106409645508155e-06,
      "loss": 0.6841,
      "step": 4510
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.721396724438128,
      "learning_rate": 5.102195251550237e-06,
      "loss": 0.669,
      "step": 4511
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0327476332582353,
      "learning_rate": 5.097982001719994e-06,
      "loss": 0.6761,
      "step": 4512
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.648888780285307,
      "learning_rate": 5.093769897001641e-06,
      "loss": 0.5967,
      "step": 4513
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8994179261296196,
      "learning_rate": 5.089558938379131e-06,
      "loss": 0.6911,
      "step": 4514
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0596482652982324,
      "learning_rate": 5.085349126836141e-06,
      "loss": 0.7933,
      "step": 4515
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0799930961251087,
      "learning_rate": 5.081140463356089e-06,
      "loss": 0.771,
      "step": 4516
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.0142271007163624,
      "learning_rate": 5.076932948922111e-06,
      "loss": 0.6753,
      "step": 4517
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7687016764810433,
      "learning_rate": 5.072726584517086e-06,
      "loss": 0.633,
      "step": 4518
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.749735773108893,
      "learning_rate": 5.068521371123622e-06,
      "loss": 0.6185,
      "step": 4519
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.9433245122462632,
      "learning_rate": 5.064317309724057e-06,
      "loss": 0.6504,
      "step": 4520
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4330235456833482,
      "learning_rate": 5.060114401300465e-06,
      "loss": 0.7365,
      "step": 4521
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.592636176050614,
      "learning_rate": 5.0559126468346354e-06,
      "loss": 0.6842,
      "step": 4522
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8444583475893361,
      "learning_rate": 5.051712047308104e-06,
      "loss": 0.6269,
      "step": 4523
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.0766724265306293,
      "learning_rate": 5.047512603702132e-06,
      "loss": 0.7047,
      "step": 4524
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7288232587896555,
      "learning_rate": 5.043314316997709e-06,
      "loss": 0.7036,
      "step": 4525
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.3248130618464242,
      "learning_rate": 5.039117188175556e-06,
      "loss": 0.6537,
      "step": 4526
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9195980065233051,
      "learning_rate": 5.034921218216126e-06,
      "loss": 0.7164,
      "step": 4527
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.202418057317473,
      "learning_rate": 5.030726408099589e-06,
      "loss": 0.7309,
      "step": 4528
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.2743181791404052,
      "learning_rate": 5.026532758805859e-06,
      "loss": 0.7306,
      "step": 4529
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.1745612048995113,
      "learning_rate": 5.022340271314572e-06,
      "loss": 0.7429,
      "step": 4530
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8497363869168995,
      "learning_rate": 5.018148946605092e-06,
      "loss": 0.7127,
      "step": 4531
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9430395478180602,
      "learning_rate": 5.013958785656516e-06,
      "loss": 0.7189,
      "step": 4532
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.902634015414454,
      "learning_rate": 5.009769789447668e-06,
      "loss": 0.6602,
      "step": 4533
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.081628631003921,
      "learning_rate": 5.0055819589570904e-06,
      "loss": 0.6392,
      "step": 4534
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6937413024081855,
      "learning_rate": 5.001395295163065e-06,
      "loss": 0.5801,
      "step": 4535
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5931378164401544,
      "learning_rate": 4.997209799043597e-06,
      "loss": 0.5636,
      "step": 4536
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.109248589357857,
      "learning_rate": 4.993025471576417e-06,
      "loss": 0.637,
      "step": 4537
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5834601137072783,
      "learning_rate": 4.988842313738986e-06,
      "loss": 0.6794,
      "step": 4538
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7138657537518576,
      "learning_rate": 4.9846603265084935e-06,
      "loss": 0.6802,
      "step": 4539
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3577826626574434,
      "learning_rate": 4.980479510861845e-06,
      "loss": 0.7319,
      "step": 4540
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.627204906737857,
      "learning_rate": 4.976299867775682e-06,
      "loss": 0.6546,
      "step": 4541
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6183755282356063,
      "learning_rate": 4.972121398226371e-06,
      "loss": 0.6171,
      "step": 4542
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.50030780009793,
      "learning_rate": 4.967944103190002e-06,
      "loss": 0.6323,
      "step": 4543
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.947032410814112,
      "learning_rate": 4.9637679836423926e-06,
      "loss": 0.7582,
      "step": 4544
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.687528843923166,
      "learning_rate": 4.959593040559083e-06,
      "loss": 0.6605,
      "step": 4545
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.957450170590613,
      "learning_rate": 4.955419274915345e-06,
      "loss": 0.7563,
      "step": 4546
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8895648467211366,
      "learning_rate": 4.951246687686164e-06,
      "loss": 0.665,
      "step": 4547
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8033130645510775,
      "learning_rate": 4.94707527984626e-06,
      "loss": 0.5946,
      "step": 4548
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.368930124957939,
      "learning_rate": 4.942905052370073e-06,
      "loss": 0.6689,
      "step": 4549
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8377381817075575,
      "learning_rate": 4.938736006231769e-06,
      "loss": 0.7107,
      "step": 4550
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.216547732870453,
      "learning_rate": 4.934568142405239e-06,
      "loss": 0.7543,
      "step": 4551
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.030697424924142,
      "learning_rate": 4.930401461864099e-06,
      "loss": 0.7342,
      "step": 4552
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8118559788884894,
      "learning_rate": 4.926235965581679e-06,
      "loss": 0.6603,
      "step": 4553
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.589771660412318,
      "learning_rate": 4.922071654531043e-06,
      "loss": 0.7052,
      "step": 4554
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8080894895498818,
      "learning_rate": 4.917908529684975e-06,
      "loss": 0.7891,
      "step": 4555
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7481390092650273,
      "learning_rate": 4.91374659201598e-06,
      "loss": 0.6567,
      "step": 4556
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.773590005862263,
      "learning_rate": 4.909585842496287e-06,
      "loss": 0.6716,
      "step": 4557
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.2603243530522965,
      "learning_rate": 4.905426282097853e-06,
      "loss": 0.7159,
      "step": 4558
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.665338243921481,
      "learning_rate": 4.9012679117923436e-06,
      "loss": 0.6802,
      "step": 4559
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7498913625740962,
      "learning_rate": 4.897110732551157e-06,
      "loss": 0.7696,
      "step": 4560
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.844339119426313,
      "learning_rate": 4.892954745345413e-06,
      "loss": 0.6902,
      "step": 4561
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.785595303158305,
      "learning_rate": 4.888799951145948e-06,
      "loss": 0.6569,
      "step": 4562
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.90449397262927,
      "learning_rate": 4.884646350923323e-06,
      "loss": 0.7189,
      "step": 4563
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9186310408384515,
      "learning_rate": 4.8804939456478215e-06,
      "loss": 0.6354,
      "step": 4564
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7120164363124144,
      "learning_rate": 4.8763427362894475e-06,
      "loss": 0.7002,
      "step": 4565
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.0065635618527935,
      "learning_rate": 4.872192723817917e-06,
      "loss": 0.7671,
      "step": 4566
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3299366691698487,
      "learning_rate": 4.868043909202678e-06,
      "loss": 0.7184,
      "step": 4567
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8567261287145718,
      "learning_rate": 4.863896293412892e-06,
      "loss": 0.663,
      "step": 4568
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.0132034559712206,
      "learning_rate": 4.859749877417443e-06,
      "loss": 0.6839,
      "step": 4569
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7447708610300157,
      "learning_rate": 4.855604662184935e-06,
      "loss": 0.5928,
      "step": 4570
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6286283439453622,
      "learning_rate": 4.851460648683695e-06,
      "loss": 0.6707,
      "step": 4571
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.1929507596064766,
      "learning_rate": 4.847317837881757e-06,
      "loss": 0.6204,
      "step": 4572
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.799612258986339,
      "learning_rate": 4.843176230746883e-06,
      "loss": 0.654,
      "step": 4573
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.471060413359549,
      "learning_rate": 4.8390358282465574e-06,
      "loss": 0.6635,
      "step": 4574
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9699828808901478,
      "learning_rate": 4.834896631347975e-06,
      "loss": 0.6895,
      "step": 4575
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.045308526583563,
      "learning_rate": 4.830758641018055e-06,
      "loss": 0.7033,
      "step": 4576
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6913822181493308,
      "learning_rate": 4.826621858223431e-06,
      "loss": 0.7617,
      "step": 4577
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7213294647756991,
      "learning_rate": 4.822486283930461e-06,
      "loss": 0.7244,
      "step": 4578
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.302863403080629,
      "learning_rate": 4.818351919105207e-06,
      "loss": 0.7011,
      "step": 4579
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6811025207065002,
      "learning_rate": 4.8142187647134595e-06,
      "loss": 0.6647,
      "step": 4580
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.389451860289934,
      "learning_rate": 4.810086821720726e-06,
      "loss": 0.694,
      "step": 4581
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9043549582352457,
      "learning_rate": 4.805956091092228e-06,
      "loss": 0.6386,
      "step": 4582
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7275042504240503,
      "learning_rate": 4.801826573792905e-06,
      "loss": 0.5572,
      "step": 4583
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.3547534417204843,
      "learning_rate": 4.797698270787415e-06,
      "loss": 0.7138,
      "step": 4584
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.703794657083719,
      "learning_rate": 4.793571183040124e-06,
      "loss": 0.7404,
      "step": 4585
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.2856121181044697,
      "learning_rate": 4.789445311515123e-06,
      "loss": 0.6244,
      "step": 4586
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7974545395514485,
      "learning_rate": 4.785320657176216e-06,
      "loss": 0.6544,
      "step": 4587
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.867998273332864,
      "learning_rate": 4.7811972209869235e-06,
      "loss": 0.6695,
      "step": 4588
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8230923923697324,
      "learning_rate": 4.77707500391048e-06,
      "loss": 0.6752,
      "step": 4589
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9455486520614476,
      "learning_rate": 4.772954006909837e-06,
      "loss": 0.7826,
      "step": 4590
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.377040795869159,
      "learning_rate": 4.768834230947661e-06,
      "loss": 0.7175,
      "step": 4591
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7397550962122554,
      "learning_rate": 4.764715676986327e-06,
      "loss": 0.6703,
      "step": 4592
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9141930062972337,
      "learning_rate": 4.760598345987931e-06,
      "loss": 0.6887,
      "step": 4593
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.372559861312804,
      "learning_rate": 4.756482238914285e-06,
      "loss": 0.7314,
      "step": 4594
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8649419227246202,
      "learning_rate": 4.7523673567269095e-06,
      "loss": 0.6613,
      "step": 4595
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5591509771637189,
      "learning_rate": 4.7482537003870425e-06,
      "loss": 0.6604,
      "step": 4596
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.061892538617707,
      "learning_rate": 4.744141270855638e-06,
      "loss": 0.6285,
      "step": 4597
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.309481817810503,
      "learning_rate": 4.740030069093351e-06,
      "loss": 0.6957,
      "step": 4598
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7291133591308425,
      "learning_rate": 4.735920096060565e-06,
      "loss": 0.7017,
      "step": 4599
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7312621599623008,
      "learning_rate": 4.731811352717369e-06,
      "loss": 0.693,
      "step": 4600
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1193367030177352,
      "learning_rate": 4.727703840023566e-06,
      "loss": 0.6711,
      "step": 4601
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6068768014394725,
      "learning_rate": 4.7235975589386715e-06,
      "loss": 0.7165,
      "step": 4602
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3250736421920744,
      "learning_rate": 4.719492510421913e-06,
      "loss": 0.7099,
      "step": 4603
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8381083722916078,
      "learning_rate": 4.715388695432232e-06,
      "loss": 0.6757,
      "step": 4604
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5716357573717497,
      "learning_rate": 4.711286114928277e-06,
      "loss": 0.5914,
      "step": 4605
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1093009716826137,
      "learning_rate": 4.707184769868412e-06,
      "loss": 0.6528,
      "step": 4606
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.108033122880172,
      "learning_rate": 4.7030846612107105e-06,
      "loss": 0.6921,
      "step": 4607
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6520667627930572,
      "learning_rate": 4.6989857899129595e-06,
      "loss": 0.6837,
      "step": 4608
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.731430089199073,
      "learning_rate": 4.694888156932657e-06,
      "loss": 0.6576,
      "step": 4609
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.0419404511467922,
      "learning_rate": 4.690791763227014e-06,
      "loss": 0.6939,
      "step": 4610
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.116252783714502,
      "learning_rate": 4.68669660975294e-06,
      "loss": 0.6791,
      "step": 4611
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6186565123406438,
      "learning_rate": 4.6826026974670665e-06,
      "loss": 0.7435,
      "step": 4612
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.863563406098296,
      "learning_rate": 4.6785100273257335e-06,
      "loss": 0.572,
      "step": 4613
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6865473209530213,
      "learning_rate": 4.674418600284988e-06,
      "loss": 0.6665,
      "step": 4614
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6118182964585477,
      "learning_rate": 4.670328417300588e-06,
      "loss": 0.6465,
      "step": 4615
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.151436604151524,
      "learning_rate": 4.666239479328004e-06,
      "loss": 0.7324,
      "step": 4616
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8380270902532994,
      "learning_rate": 4.662151787322405e-06,
      "loss": 0.6249,
      "step": 4617
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9131199530055667,
      "learning_rate": 4.658065342238681e-06,
      "loss": 0.7005,
      "step": 4618
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.01852816410535,
      "learning_rate": 4.653980145031425e-06,
      "loss": 0.6486,
      "step": 4619
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.482187124443386,
      "learning_rate": 4.64989619665494e-06,
      "loss": 0.6237,
      "step": 4620
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.866711778230166,
      "learning_rate": 4.645813498063235e-06,
      "loss": 0.6996,
      "step": 4621
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9801920112627616,
      "learning_rate": 4.641732050210032e-06,
      "loss": 0.7043,
      "step": 4622
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1175480107193865,
      "learning_rate": 4.637651854048759e-06,
      "loss": 0.5751,
      "step": 4623
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6965759308859172,
      "learning_rate": 4.633572910532543e-06,
      "loss": 0.6091,
      "step": 4624
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8468505211925008,
      "learning_rate": 4.62949522061423e-06,
      "loss": 0.6519,
      "step": 4625
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.0943808700605255,
      "learning_rate": 4.6254187852463685e-06,
      "loss": 0.7022,
      "step": 4626
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.65837498312716,
      "learning_rate": 4.621343605381215e-06,
      "loss": 0.7032,
      "step": 4627
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6935029068359477,
      "learning_rate": 4.61726968197073e-06,
      "loss": 0.7111,
      "step": 4628
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8747369756627432,
      "learning_rate": 4.613197015966587e-06,
      "loss": 0.7047,
      "step": 4629
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9192406275443643,
      "learning_rate": 4.609125608320154e-06,
      "loss": 0.672,
      "step": 4630
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8566932621831886,
      "learning_rate": 4.605055459982517e-06,
      "loss": 0.7552,
      "step": 4631
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1395546090298114,
      "learning_rate": 4.600986571904461e-06,
      "loss": 0.5951,
      "step": 4632
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1577849764562376,
      "learning_rate": 4.5969189450364804e-06,
      "loss": 0.6893,
      "step": 4633
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.632896879158652,
      "learning_rate": 4.592852580328775e-06,
      "loss": 0.6748,
      "step": 4634
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8169587783573533,
      "learning_rate": 4.588787478731242e-06,
      "loss": 0.634,
      "step": 4635
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8547774872778766,
      "learning_rate": 4.5847236411934945e-06,
      "loss": 0.6689,
      "step": 4636
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.056564587389614,
      "learning_rate": 4.580661068664844e-06,
      "loss": 0.7065,
      "step": 4637
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6260456405546406,
      "learning_rate": 4.576599762094306e-06,
      "loss": 0.7337,
      "step": 4638
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1285316663330396,
      "learning_rate": 4.5725397224306076e-06,
      "loss": 0.7271,
      "step": 4639
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7092269785890155,
      "learning_rate": 4.568480950622169e-06,
      "loss": 0.6361,
      "step": 4640
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9932806614899674,
      "learning_rate": 4.56442344761712e-06,
      "loss": 0.7192,
      "step": 4641
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9759131689997247,
      "learning_rate": 4.560367214363295e-06,
      "loss": 0.6379,
      "step": 4642
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.79067680216676,
      "learning_rate": 4.556312251808232e-06,
      "loss": 0.7359,
      "step": 4643
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7128315061745667,
      "learning_rate": 4.552258560899171e-06,
      "loss": 0.6259,
      "step": 4644
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.0175225251056066,
      "learning_rate": 4.5482061425830504e-06,
      "loss": 0.5958,
      "step": 4645
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8880419016600558,
      "learning_rate": 4.5441549978065166e-06,
      "loss": 0.6137,
      "step": 4646
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.785843776577663,
      "learning_rate": 4.540105127515921e-06,
      "loss": 0.6266,
      "step": 4647
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6577494535256965,
      "learning_rate": 4.53605653265731e-06,
      "loss": 0.6028,
      "step": 4648
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6508593581607711,
      "learning_rate": 4.532009214176438e-06,
      "loss": 0.5545,
      "step": 4649
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.3067400104819824,
      "learning_rate": 4.527963173018762e-06,
      "loss": 0.6416,
      "step": 4650
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.105963631952593,
      "learning_rate": 4.52391841012943e-06,
      "loss": 0.5649,
      "step": 4651
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9824184004571845,
      "learning_rate": 4.519874926453303e-06,
      "loss": 0.6744,
      "step": 4652
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.734425695654843,
      "learning_rate": 4.515832722934939e-06,
      "loss": 0.6362,
      "step": 4653
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9217603652116075,
      "learning_rate": 4.511791800518596e-06,
      "loss": 0.7085,
      "step": 4654
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.2167438088247016,
      "learning_rate": 4.507752160148241e-06,
      "loss": 0.6294,
      "step": 4655
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3551585712408387,
      "learning_rate": 4.503713802767523e-06,
      "loss": 0.73,
      "step": 4656
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7110243747865994,
      "learning_rate": 4.499676729319809e-06,
      "loss": 0.6348,
      "step": 4657
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.1778128714241527,
      "learning_rate": 4.495640940748159e-06,
      "loss": 0.7035,
      "step": 4658
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6733827959386813,
      "learning_rate": 4.491606437995335e-06,
      "loss": 0.5757,
      "step": 4659
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7061167551621033,
      "learning_rate": 4.4875732220037935e-06,
      "loss": 0.6103,
      "step": 4660
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8237274060410107,
      "learning_rate": 4.483541293715699e-06,
      "loss": 0.6906,
      "step": 4661
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8288613420384645,
      "learning_rate": 4.479510654072909e-06,
      "loss": 0.7097,
      "step": 4662
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8940675078694749,
      "learning_rate": 4.475481304016978e-06,
      "loss": 0.6565,
      "step": 4663
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8950484467329614,
      "learning_rate": 4.471453244489164e-06,
      "loss": 0.6643,
      "step": 4664
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8856061685865353,
      "learning_rate": 4.467426476430423e-06,
      "loss": 0.7248,
      "step": 4665
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8334107510133462,
      "learning_rate": 4.463401000781409e-06,
      "loss": 0.6668,
      "step": 4666
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6840640124453576,
      "learning_rate": 4.459376818482471e-06,
      "loss": 0.6897,
      "step": 4667
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6527134954930325,
      "learning_rate": 4.455353930473666e-06,
      "loss": 0.7061,
      "step": 4668
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.2711669633780076,
      "learning_rate": 4.4513323376947304e-06,
      "loss": 0.6636,
      "step": 4669
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.168289696529122,
      "learning_rate": 4.447312041085113e-06,
      "loss": 0.6742,
      "step": 4670
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8359870607024127,
      "learning_rate": 4.443293041583957e-06,
      "loss": 0.6449,
      "step": 4671
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.2934363565826112,
      "learning_rate": 4.439275340130099e-06,
      "loss": 0.6978,
      "step": 4672
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6868906956007856,
      "learning_rate": 4.435258937662076e-06,
      "loss": 0.602,
      "step": 4673
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8892087515117317,
      "learning_rate": 4.4312438351181246e-06,
      "loss": 0.6665,
      "step": 4674
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.1483639697594916,
      "learning_rate": 4.4272300334361616e-06,
      "loss": 0.644,
      "step": 4675
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7637958334885624,
      "learning_rate": 4.42321753355382e-06,
      "loss": 0.7032,
      "step": 4676
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.969495802966597,
      "learning_rate": 4.419206336408418e-06,
      "loss": 0.6945,
      "step": 4677
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6182909072014924,
      "learning_rate": 4.415196442936971e-06,
      "loss": 0.6625,
      "step": 4678
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5694201543416386,
      "learning_rate": 4.411187854076192e-06,
      "loss": 0.6283,
      "step": 4679
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6200008665039352,
      "learning_rate": 4.407180570762486e-06,
      "loss": 0.625,
      "step": 4680
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1865783831524281,
      "learning_rate": 4.40317459393196e-06,
      "loss": 0.6781,
      "step": 4681
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.0268153204938635,
      "learning_rate": 4.399169924520403e-06,
      "loss": 0.7435,
      "step": 4682
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7460751601220141,
      "learning_rate": 4.39516656346331e-06,
      "loss": 0.6798,
      "step": 4683
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.3304407258993214,
      "learning_rate": 4.391164511695866e-06,
      "loss": 0.6517,
      "step": 4684
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.610452483638164,
      "learning_rate": 4.38716377015295e-06,
      "loss": 0.7894,
      "step": 4685
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6313611088338136,
      "learning_rate": 4.383164339769137e-06,
      "loss": 0.5894,
      "step": 4686
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7874894746645456,
      "learning_rate": 4.379166221478697e-06,
      "loss": 0.7223,
      "step": 4687
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.309135976281136,
      "learning_rate": 4.375169416215584e-06,
      "loss": 0.6766,
      "step": 4688
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5436235879907056,
      "learning_rate": 4.371173924913457e-06,
      "loss": 0.6828,
      "step": 4689
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7397038177194732,
      "learning_rate": 4.36717974850566e-06,
      "loss": 0.6484,
      "step": 4690
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.5267078361689443,
      "learning_rate": 4.363186887925236e-06,
      "loss": 0.6713,
      "step": 4691
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5025239347817023,
      "learning_rate": 4.359195344104916e-06,
      "loss": 0.5778,
      "step": 4692
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9488538964043984,
      "learning_rate": 4.355205117977126e-06,
      "loss": 0.6613,
      "step": 4693
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6169415494787305,
      "learning_rate": 4.351216210473986e-06,
      "loss": 0.616,
      "step": 4694
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7686477097105122,
      "learning_rate": 4.3472286225272995e-06,
      "loss": 0.6863,
      "step": 4695
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.1128384815425107,
      "learning_rate": 4.343242355068569e-06,
      "loss": 0.6676,
      "step": 4696
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.3261299163811486,
      "learning_rate": 4.339257409028987e-06,
      "loss": 0.7047,
      "step": 4697
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.220731731831087,
      "learning_rate": 4.33527378533944e-06,
      "loss": 0.7082,
      "step": 4698
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6734856821346284,
      "learning_rate": 4.3312914849305e-06,
      "loss": 0.6572,
      "step": 4699
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9340003156449719,
      "learning_rate": 4.3273105087324375e-06,
      "loss": 0.6801,
      "step": 4700
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9249763812630853,
      "learning_rate": 4.323330857675202e-06,
      "loss": 0.6619,
      "step": 4701
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.87730252814536,
      "learning_rate": 4.319352532688444e-06,
      "loss": 0.6739,
      "step": 4702
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.0211850444185373,
      "learning_rate": 4.315375534701499e-06,
      "loss": 0.682,
      "step": 4703
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.200286382187737,
      "learning_rate": 4.311399864643396e-06,
      "loss": 0.6981,
      "step": 4704
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7819136074637205,
      "learning_rate": 4.307425523442852e-06,
      "loss": 0.6565,
      "step": 4705
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.76296053514279,
      "learning_rate": 4.303452512028272e-06,
      "loss": 0.5724,
      "step": 4706
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8192838511324876,
      "learning_rate": 4.2994808313277565e-06,
      "loss": 0.6681,
      "step": 4707
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.228093669782355,
      "learning_rate": 4.295510482269083e-06,
      "loss": 0.6976,
      "step": 4708
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8545742977789177,
      "learning_rate": 4.29154146577973e-06,
      "loss": 0.7177,
      "step": 4709
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.0944077072281093,
      "learning_rate": 4.287573782786858e-06,
      "loss": 0.6554,
      "step": 4710
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8485419813923434,
      "learning_rate": 4.2836074342173195e-06,
      "loss": 0.677,
      "step": 4711
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.048779833684002,
      "learning_rate": 4.279642420997655e-06,
      "loss": 0.6604,
      "step": 4712
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7531254882324574,
      "learning_rate": 4.275678744054094e-06,
      "loss": 0.6956,
      "step": 4713
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7746010518561215,
      "learning_rate": 4.271716404312545e-06,
      "loss": 0.6791,
      "step": 4714
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8348601809174694,
      "learning_rate": 4.267755402698613e-06,
      "loss": 0.6279,
      "step": 4715
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.791716792842364,
      "learning_rate": 4.263795740137592e-06,
      "loss": 0.6639,
      "step": 4716
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9325826885692687,
      "learning_rate": 4.259837417554457e-06,
      "loss": 0.7176,
      "step": 4717
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.0732962684877037,
      "learning_rate": 4.2558804358738725e-06,
      "loss": 0.5832,
      "step": 4718
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6857332664334643,
      "learning_rate": 4.251924796020191e-06,
      "loss": 0.6872,
      "step": 4719
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.6362223164940914,
      "learning_rate": 4.247970498917453e-06,
      "loss": 0.7339,
      "step": 4720
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7554076277762538,
      "learning_rate": 4.244017545489376e-06,
      "loss": 0.629,
      "step": 4721
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8989349621133436,
      "learning_rate": 4.240065936659374e-06,
      "loss": 0.5941,
      "step": 4722
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9918324892288035,
      "learning_rate": 4.236115673350544e-06,
      "loss": 0.6748,
      "step": 4723
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.327569820888003,
      "learning_rate": 4.232166756485665e-06,
      "loss": 0.7556,
      "step": 4724
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.9678190540867013,
      "learning_rate": 4.228219186987207e-06,
      "loss": 0.6209,
      "step": 4725
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8166098282824639,
      "learning_rate": 4.224272965777326e-06,
      "loss": 0.677,
      "step": 4726
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7663399265936863,
      "learning_rate": 4.220328093777851e-06,
      "loss": 0.7367,
      "step": 4727
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.823900552940505,
      "learning_rate": 4.2163845719103106e-06,
      "loss": 0.6612,
      "step": 4728
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6151727326741376,
      "learning_rate": 4.212442401095908e-06,
      "loss": 0.6677,
      "step": 4729
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.4935957778375553,
      "learning_rate": 4.20850158225554e-06,
      "loss": 0.694,
      "step": 4730
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0690075116212205,
      "learning_rate": 4.2045621163097775e-06,
      "loss": 0.7198,
      "step": 4731
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.491822408409924,
      "learning_rate": 4.200624004178883e-06,
      "loss": 0.7133,
      "step": 4732
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8509477098829346,
      "learning_rate": 4.196687246782801e-06,
      "loss": 0.6196,
      "step": 4733
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.486943327824544,
      "learning_rate": 4.192751845041153e-06,
      "loss": 0.7583,
      "step": 4734
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.189472001622247,
      "learning_rate": 4.188817799873254e-06,
      "loss": 0.6359,
      "step": 4735
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.2158985893832415,
      "learning_rate": 4.184885112198094e-06,
      "loss": 0.6718,
      "step": 4736
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8243939358005976,
      "learning_rate": 4.180953782934352e-06,
      "loss": 0.5664,
      "step": 4737
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.25193343270342,
      "learning_rate": 4.177023813000386e-06,
      "loss": 0.6291,
      "step": 4738
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7580855823524637,
      "learning_rate": 4.173095203314241e-06,
      "loss": 0.6607,
      "step": 4739
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7130153456823305,
      "learning_rate": 4.169167954793633e-06,
      "loss": 0.6275,
      "step": 4740
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3714712914595037,
      "learning_rate": 4.1652420683559725e-06,
      "loss": 0.7492,
      "step": 4741
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7065744130799414,
      "learning_rate": 4.161317544918345e-06,
      "loss": 0.7209,
      "step": 4742
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8552271758724614,
      "learning_rate": 4.157394385397521e-06,
      "loss": 0.6739,
      "step": 4743
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0297145131851826,
      "learning_rate": 4.153472590709951e-06,
      "loss": 0.7237,
      "step": 4744
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.055732645614321,
      "learning_rate": 4.1495521617717695e-06,
      "loss": 0.747,
      "step": 4745
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.1535491869597436,
      "learning_rate": 4.145633099498783e-06,
      "loss": 0.7535,
      "step": 4746
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0467753888043294,
      "learning_rate": 4.141715404806486e-06,
      "loss": 0.6162,
      "step": 4747
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.279157548817709,
      "learning_rate": 4.137799078610055e-06,
      "loss": 0.8046,
      "step": 4748
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.812648735429149,
      "learning_rate": 4.133884121824344e-06,
      "loss": 0.6695,
      "step": 4749
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.9744911176479192,
      "learning_rate": 4.129970535363885e-06,
      "loss": 0.6505,
      "step": 4750
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.9496345237797068,
      "learning_rate": 4.126058320142895e-06,
      "loss": 0.6996,
      "step": 4751
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8411263397328959,
      "learning_rate": 4.12214747707527e-06,
      "loss": 0.7169,
      "step": 4752
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.3191393787960717,
      "learning_rate": 4.1182380070745755e-06,
      "loss": 0.6665,
      "step": 4753
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0743605830406646,
      "learning_rate": 4.114329911054069e-06,
      "loss": 0.6474,
      "step": 4754
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.1814619432889333,
      "learning_rate": 4.110423189926682e-06,
      "loss": 0.6561,
      "step": 4755
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.1360974820051126,
      "learning_rate": 4.106517844605023e-06,
      "loss": 0.7033,
      "step": 4756
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.9759971758916084,
      "learning_rate": 4.1026138760013886e-06,
      "loss": 0.6889,
      "step": 4757
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8743867763717432,
      "learning_rate": 4.098711285027736e-06,
      "loss": 0.5974,
      "step": 4758
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0986948878649647,
      "learning_rate": 4.094810072595714e-06,
      "loss": 0.735,
      "step": 4759
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.9326578373322505,
      "learning_rate": 4.090910239616648e-06,
      "loss": 0.6535,
      "step": 4760
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5420393000259984,
      "learning_rate": 4.087011787001538e-06,
      "loss": 0.6603,
      "step": 4761
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8374975940961815,
      "learning_rate": 4.083114715661069e-06,
      "loss": 0.5943,
      "step": 4762
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6825423833786841,
      "learning_rate": 4.079219026505586e-06,
      "loss": 0.6802,
      "step": 4763
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.717841957817267,
      "learning_rate": 4.07532472044513e-06,
      "loss": 0.6248,
      "step": 4764
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6388028716029759,
      "learning_rate": 4.071431798389408e-06,
      "loss": 0.6456,
      "step": 4765
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8350884171151947,
      "learning_rate": 4.0675402612478095e-06,
      "loss": 0.6955,
      "step": 4766
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.771137374671531,
      "learning_rate": 4.0636501099294e-06,
      "loss": 0.637,
      "step": 4767
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7003377351940026,
      "learning_rate": 4.059761345342913e-06,
      "loss": 0.6953,
      "step": 4768
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.217391989651032,
      "learning_rate": 4.055873968396767e-06,
      "loss": 0.7336,
      "step": 4769
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6545210475932577,
      "learning_rate": 4.051987979999056e-06,
      "loss": 0.6303,
      "step": 4770
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.1345063768637713,
      "learning_rate": 4.048103381057543e-06,
      "loss": 0.6845,
      "step": 4771
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.721946218625245,
      "learning_rate": 4.044220172479675e-06,
      "loss": 0.6452,
      "step": 4772
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.045234192222996,
      "learning_rate": 4.040338355172571e-06,
      "loss": 0.6953,
      "step": 4773
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.04788965898656,
      "learning_rate": 4.0364579300430164e-06,
      "loss": 0.7134,
      "step": 4774
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7290688197584219,
      "learning_rate": 4.032578897997485e-06,
      "loss": 0.6151,
      "step": 4775
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.137606633999708,
      "learning_rate": 4.028701259942116e-06,
      "loss": 0.663,
      "step": 4776
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.207131487150204,
      "learning_rate": 4.024825016782727e-06,
      "loss": 0.6598,
      "step": 4777
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.3389419769288278,
      "learning_rate": 4.020950169424815e-06,
      "loss": 0.6932,
      "step": 4778
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.3320665253158417,
      "learning_rate": 4.017076718773535e-06,
      "loss": 0.7064,
      "step": 4779
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8634332081317695,
      "learning_rate": 4.013204665733729e-06,
      "loss": 0.6787,
      "step": 4780
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.1961883649532554,
      "learning_rate": 4.009334011209909e-06,
      "loss": 0.6425,
      "step": 4781
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.2671669104759076,
      "learning_rate": 4.0054647561062625e-06,
      "loss": 0.6334,
      "step": 4782
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7666393638548838,
      "learning_rate": 4.001596901326644e-06,
      "loss": 0.6046,
      "step": 4783
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.2913540534097194,
      "learning_rate": 3.997730447774591e-06,
      "loss": 0.812,
      "step": 4784
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0789943934325827,
      "learning_rate": 3.9938653963533e-06,
      "loss": 0.6854,
      "step": 4785
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0903108188983435,
      "learning_rate": 3.990001747965652e-06,
      "loss": 0.7107,
      "step": 4786
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5754173965688392,
      "learning_rate": 3.9861395035141936e-06,
      "loss": 0.6387,
      "step": 4787
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5804068595543623,
      "learning_rate": 3.982278663901146e-06,
      "loss": 0.6055,
      "step": 4788
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7373067242263025,
      "learning_rate": 3.978419230028402e-06,
      "loss": 0.7004,
      "step": 4789
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7603538237345042,
      "learning_rate": 3.974561202797525e-06,
      "loss": 0.6186,
      "step": 4790
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.4882462020942127,
      "learning_rate": 3.970704583109755e-06,
      "loss": 0.6837,
      "step": 4791
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6535961819525578,
      "learning_rate": 3.9668493718659924e-06,
      "loss": 0.6142,
      "step": 4792
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9995631115773098,
      "learning_rate": 3.962995569966817e-06,
      "loss": 0.6607,
      "step": 4793
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.048485031365986,
      "learning_rate": 3.9591431783124786e-06,
      "loss": 0.6533,
      "step": 4794
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.889429263557477,
      "learning_rate": 3.955292197802895e-06,
      "loss": 0.6481,
      "step": 4795
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.279904570725028,
      "learning_rate": 3.951442629337657e-06,
      "loss": 0.6171,
      "step": 4796
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8315492627419392,
      "learning_rate": 3.947594473816026e-06,
      "loss": 0.6856,
      "step": 4797
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9135741469199752,
      "learning_rate": 3.943747732136925e-06,
      "loss": 0.6332,
      "step": 4798
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9862078690954923,
      "learning_rate": 3.939902405198959e-06,
      "loss": 0.6729,
      "step": 4799
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7640312385428167,
      "learning_rate": 3.936058493900393e-06,
      "loss": 0.6957,
      "step": 4800
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.1528118086950556,
      "learning_rate": 3.932215999139167e-06,
      "loss": 0.6638,
      "step": 4801
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.142522155748044,
      "learning_rate": 3.9283749218128885e-06,
      "loss": 0.6906,
      "step": 4802
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9383400311210894,
      "learning_rate": 3.924535262818836e-06,
      "loss": 0.6578,
      "step": 4803
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.719571332028235,
      "learning_rate": 3.920697023053949e-06,
      "loss": 0.6282,
      "step": 4804
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6551868689501457,
      "learning_rate": 3.916860203414843e-06,
      "loss": 0.7249,
      "step": 4805
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.015254923074088,
      "learning_rate": 3.913024804797798e-06,
      "loss": 0.6692,
      "step": 4806
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7454951576005857,
      "learning_rate": 3.909190828098766e-06,
      "loss": 0.602,
      "step": 4807
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7220717887901797,
      "learning_rate": 3.905358274213363e-06,
      "loss": 0.6209,
      "step": 4808
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.38593725451422,
      "learning_rate": 3.901527144036875e-06,
      "loss": 0.7994,
      "step": 4809
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7435095105470058,
      "learning_rate": 3.897697438464256e-06,
      "loss": 0.6603,
      "step": 4810
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8898999022850012,
      "learning_rate": 3.893869158390121e-06,
      "loss": 0.651,
      "step": 4811
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6830987632085546,
      "learning_rate": 3.890042304708758e-06,
      "loss": 0.6288,
      "step": 4812
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8921952061909322,
      "learning_rate": 3.886216878314122e-06,
      "loss": 0.6539,
      "step": 4813
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8254860336457883,
      "learning_rate": 3.882392880099832e-06,
      "loss": 0.7236,
      "step": 4814
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.0617920449860665,
      "learning_rate": 3.878570310959175e-06,
      "loss": 0.665,
      "step": 4815
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7128609277348827,
      "learning_rate": 3.874749171785106e-06,
      "loss": 0.6336,
      "step": 4816
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6903904235074458,
      "learning_rate": 3.8709294634702374e-06,
      "loss": 0.6552,
      "step": 4817
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6076551446259262,
      "learning_rate": 3.867111186906857e-06,
      "loss": 0.5896,
      "step": 4818
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.811201315760634,
      "learning_rate": 3.8632943429869145e-06,
      "loss": 0.6155,
      "step": 4819
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.031666747127423,
      "learning_rate": 3.859478932602025e-06,
      "loss": 0.7072,
      "step": 4820
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.3110522474294317,
      "learning_rate": 3.855664956643467e-06,
      "loss": 0.6675,
      "step": 4821
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.7129972260359696,
      "learning_rate": 3.8518524160021876e-06,
      "loss": 0.717,
      "step": 4822
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.958769437097634,
      "learning_rate": 3.848041311568801e-06,
      "loss": 0.6842,
      "step": 4823
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3672224056067137,
      "learning_rate": 3.844231644233572e-06,
      "loss": 0.6692,
      "step": 4824
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6132363014694386,
      "learning_rate": 3.840423414886445e-06,
      "loss": 0.6566,
      "step": 4825
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9145696852938883,
      "learning_rate": 3.836616624417022e-06,
      "loss": 0.777,
      "step": 4826
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7761792855727008,
      "learning_rate": 3.832811273714569e-06,
      "loss": 0.7164,
      "step": 4827
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3627579754631607,
      "learning_rate": 3.829007363668018e-06,
      "loss": 0.6816,
      "step": 4828
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7044415828397061,
      "learning_rate": 3.825204895165964e-06,
      "loss": 0.6637,
      "step": 4829
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7770792091281062,
      "learning_rate": 3.821403869096658e-06,
      "loss": 0.6796,
      "step": 4830
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.5596516369945346,
      "learning_rate": 3.817604286348025e-06,
      "loss": 0.6782,
      "step": 4831
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9687602574493583,
      "learning_rate": 3.813806147807645e-06,
      "loss": 0.7687,
      "step": 4832
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.4498383865329028,
      "learning_rate": 3.8100094543627666e-06,
      "loss": 0.7311,
      "step": 4833
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.096781743498947,
      "learning_rate": 3.806214206900295e-06,
      "loss": 0.7191,
      "step": 4834
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.120136055456292,
      "learning_rate": 3.8024204063068024e-06,
      "loss": 0.6925,
      "step": 4835
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.2782594508516807,
      "learning_rate": 3.798628053468524e-06,
      "loss": 0.6188,
      "step": 4836
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7618265848485841,
      "learning_rate": 3.7948371492713454e-06,
      "loss": 0.7327,
      "step": 4837
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9948116359809213,
      "learning_rate": 3.791047694600828e-06,
      "loss": 0.6616,
      "step": 4838
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8646696513594183,
      "learning_rate": 3.7872596903421876e-06,
      "loss": 0.6919,
      "step": 4839
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3801651029963702,
      "learning_rate": 3.7834731373803023e-06,
      "loss": 0.7178,
      "step": 4840
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6502045574135287,
      "learning_rate": 3.7796880365997114e-06,
      "loss": 0.5563,
      "step": 4841
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.059870710532497,
      "learning_rate": 3.775904388884618e-06,
      "loss": 0.7356,
      "step": 4842
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.0148652434002603,
      "learning_rate": 3.772122195118877e-06,
      "loss": 0.6151,
      "step": 4843
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.913667054142094,
      "learning_rate": 3.7683414561860097e-06,
      "loss": 0.7485,
      "step": 4844
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.250740032047342,
      "learning_rate": 3.7645621729692004e-06,
      "loss": 0.6734,
      "step": 4845
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9793300645930607,
      "learning_rate": 3.7607843463512894e-06,
      "loss": 0.672,
      "step": 4846
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.5155652318895734,
      "learning_rate": 3.7570079772147748e-06,
      "loss": 0.6599,
      "step": 4847
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6193949002747787,
      "learning_rate": 3.7532330664418202e-06,
      "loss": 0.6663,
      "step": 4848
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5982071040566643,
      "learning_rate": 3.749459614914246e-06,
      "loss": 0.6372,
      "step": 4849
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6204520245256495,
      "learning_rate": 3.7456876235135252e-06,
      "loss": 0.5879,
      "step": 4850
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.584242288914117,
      "learning_rate": 3.7419170931207994e-06,
      "loss": 0.631,
      "step": 4851
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.274060617336214,
      "learning_rate": 3.738148024616863e-06,
      "loss": 0.6995,
      "step": 4852
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9292350566986074,
      "learning_rate": 3.7343804188821718e-06,
      "loss": 0.6457,
      "step": 4853
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9682687189412402,
      "learning_rate": 3.73061427679684e-06,
      "loss": 0.5862,
      "step": 4854
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.134920450172651,
      "learning_rate": 3.7268495992406404e-06,
      "loss": 0.7049,
      "step": 4855
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8198260508313688,
      "learning_rate": 3.723086387092997e-06,
      "loss": 0.6856,
      "step": 4856
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.1242681046152376,
      "learning_rate": 3.7193246412329976e-06,
      "loss": 0.7275,
      "step": 4857
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.1721263445787073,
      "learning_rate": 3.7155643625393878e-06,
      "loss": 0.7247,
      "step": 4858
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.289035404760362,
      "learning_rate": 3.7118055518905693e-06,
      "loss": 0.6107,
      "step": 4859
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6119684244767072,
      "learning_rate": 3.7080482101645998e-06,
      "loss": 0.6767,
      "step": 4860
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.896569051062763,
      "learning_rate": 3.7042923382391993e-06,
      "loss": 0.6241,
      "step": 4861
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8681164109705723,
      "learning_rate": 3.700537936991733e-06,
      "loss": 0.6659,
      "step": 4862
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.3141124319721444,
      "learning_rate": 3.6967850072992307e-06,
      "loss": 0.6586,
      "step": 4863
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8883271567262248,
      "learning_rate": 3.6930335500383795e-06,
      "loss": 0.642,
      "step": 4864
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6130652654166169,
      "learning_rate": 3.6892835660855184e-06,
      "loss": 0.7298,
      "step": 4865
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.935282039018314,
      "learning_rate": 3.6855350563166457e-06,
      "loss": 0.6943,
      "step": 4866
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.542924250338993,
      "learning_rate": 3.681788021607413e-06,
      "loss": 0.6815,
      "step": 4867
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.0501648517564175,
      "learning_rate": 3.6780424628331313e-06,
      "loss": 0.6378,
      "step": 4868
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.251148290387031,
      "learning_rate": 3.674298380868756e-06,
      "loss": 0.6276,
      "step": 4869
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7440520011405274,
      "learning_rate": 3.67055577658891e-06,
      "loss": 0.6618,
      "step": 4870
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.1660257998888652,
      "learning_rate": 3.6668146508678646e-06,
      "loss": 0.6659,
      "step": 4871
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6898142987195575,
      "learning_rate": 3.6630750045795472e-06,
      "loss": 0.62,
      "step": 4872
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.1629202898868094,
      "learning_rate": 3.65933683859754e-06,
      "loss": 0.6033,
      "step": 4873
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9742772443290884,
      "learning_rate": 3.655600153795084e-06,
      "loss": 0.7351,
      "step": 4874
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8505963670831294,
      "learning_rate": 3.6518649510450598e-06,
      "loss": 0.6538,
      "step": 4875
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5298413089462457,
      "learning_rate": 3.6481312312200144e-06,
      "loss": 0.6459,
      "step": 4876
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.2471986140725897,
      "learning_rate": 3.6443989951921478e-06,
      "loss": 0.6002,
      "step": 4877
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.733041186314082,
      "learning_rate": 3.6406682438333074e-06,
      "loss": 0.6611,
      "step": 4878
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9658794696341935,
      "learning_rate": 3.636938978015e-06,
      "loss": 0.6284,
      "step": 4879
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5981666161364967,
      "learning_rate": 3.633211198608384e-06,
      "loss": 0.6614,
      "step": 4880
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.562845898746634,
      "learning_rate": 3.6294849064842642e-06,
      "loss": 0.6312,
      "step": 4881
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9483183712508527,
      "learning_rate": 3.625760102513103e-06,
      "loss": 0.5797,
      "step": 4882
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6245436817970331,
      "learning_rate": 3.6220367875650175e-06,
      "loss": 0.6905,
      "step": 4883
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7353448080176805,
      "learning_rate": 3.6183149625097745e-06,
      "loss": 0.6326,
      "step": 4884
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9042869452585363,
      "learning_rate": 3.6145946282167944e-06,
      "loss": 0.6611,
      "step": 4885
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.863009328429636,
      "learning_rate": 3.6108757855551426e-06,
      "loss": 0.6748,
      "step": 4886
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2078823922267652,
      "learning_rate": 3.607158435393544e-06,
      "loss": 0.6956,
      "step": 4887
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3735735748311586,
      "learning_rate": 3.603442578600371e-06,
      "loss": 0.6805,
      "step": 4888
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5917450376303879,
      "learning_rate": 3.5997282160436488e-06,
      "loss": 0.7378,
      "step": 4889
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.3652746976853445,
      "learning_rate": 3.5960153485910564e-06,
      "loss": 0.7361,
      "step": 4890
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.1802784143382032,
      "learning_rate": 3.592303977109914e-06,
      "loss": 0.6931,
      "step": 4891
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7296924183008555,
      "learning_rate": 3.5885941024672e-06,
      "loss": 0.5947,
      "step": 4892
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.684479867564304,
      "learning_rate": 3.5848857255295434e-06,
      "loss": 0.635,
      "step": 4893
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.921388533438818,
      "learning_rate": 3.581178847163219e-06,
      "loss": 0.6173,
      "step": 4894
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9054713183051184,
      "learning_rate": 3.5774734682341563e-06,
      "loss": 0.687,
      "step": 4895
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7524145506889561,
      "learning_rate": 3.573769589607934e-06,
      "loss": 0.6896,
      "step": 4896
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.088118969536204,
      "learning_rate": 3.5700672121497728e-06,
      "loss": 0.6914,
      "step": 4897
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9960281846153385,
      "learning_rate": 3.5663663367245517e-06,
      "loss": 0.6831,
      "step": 4898
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.048153925831715,
      "learning_rate": 3.5626669641967948e-06,
      "loss": 0.6799,
      "step": 4899
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7368121532159801,
      "learning_rate": 3.5589690954306764e-06,
      "loss": 0.5681,
      "step": 4900
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8502794518348353,
      "learning_rate": 3.5552727312900228e-06,
      "loss": 0.6688,
      "step": 4901
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.533117411260582,
      "learning_rate": 3.5515778726382967e-06,
      "loss": 0.6444,
      "step": 4902
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8755056400048937,
      "learning_rate": 3.5478845203386227e-06,
      "loss": 0.7462,
      "step": 4903
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6394244201261219,
      "learning_rate": 3.544192675253767e-06,
      "loss": 0.6246,
      "step": 4904
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8061352633089607,
      "learning_rate": 3.5405023382461457e-06,
      "loss": 0.718,
      "step": 4905
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8130331307273075,
      "learning_rate": 3.536813510177822e-06,
      "loss": 0.6957,
      "step": 4906
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.903952751909476,
      "learning_rate": 3.53312619191051e-06,
      "loss": 0.6235,
      "step": 4907
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6336693863650966,
      "learning_rate": 3.5294403843055604e-06,
      "loss": 0.6883,
      "step": 4908
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.604738660280192,
      "learning_rate": 3.5257560882239806e-06,
      "loss": 0.6553,
      "step": 4909
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.932318531339835,
      "learning_rate": 3.5220733045264245e-06,
      "loss": 0.7651,
      "step": 4910
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.1423798559288123,
      "learning_rate": 3.5183920340731893e-06,
      "loss": 0.6904,
      "step": 4911
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.447181630668189,
      "learning_rate": 3.5147122777242203e-06,
      "loss": 0.6345,
      "step": 4912
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6397127438004249,
      "learning_rate": 3.5110340363391128e-06,
      "loss": 0.7107,
      "step": 4913
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9754612878424995,
      "learning_rate": 3.5073573107770977e-06,
      "loss": 0.6491,
      "step": 4914
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8011670982122618,
      "learning_rate": 3.5036821018970623e-06,
      "loss": 0.6427,
      "step": 4915
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6713591799255934,
      "learning_rate": 3.5000084105575338e-06,
      "loss": 0.6719,
      "step": 4916
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.198823778369566,
      "learning_rate": 3.4963362376166886e-06,
      "loss": 0.6491,
      "step": 4917
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9532596326867069,
      "learning_rate": 3.4926655839323463e-06,
      "loss": 0.6705,
      "step": 4918
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8970125083014477,
      "learning_rate": 3.4889964503619723e-06,
      "loss": 0.7298,
      "step": 4919
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7081213387989442,
      "learning_rate": 3.4853288377626793e-06,
      "loss": 0.6453,
      "step": 4920
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4597715686047754,
      "learning_rate": 3.4816627469912147e-06,
      "loss": 0.6339,
      "step": 4921
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.8089148002122564,
      "learning_rate": 3.477998178903982e-06,
      "loss": 0.6349,
      "step": 4922
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6519475430386752,
      "learning_rate": 3.4743351343570253e-06,
      "loss": 0.7071,
      "step": 4923
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7851809201691378,
      "learning_rate": 3.4706736142060305e-06,
      "loss": 0.6517,
      "step": 4924
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.736677271396999,
      "learning_rate": 3.46701361930633e-06,
      "loss": 0.6511,
      "step": 4925
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.042844621207073,
      "learning_rate": 3.4633551505129025e-06,
      "loss": 0.7701,
      "step": 4926
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9626144928465132,
      "learning_rate": 3.459698208680359e-06,
      "loss": 0.7142,
      "step": 4927
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7677807708720048,
      "learning_rate": 3.456042794662966e-06,
      "loss": 0.676,
      "step": 4928
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6536856181840773,
      "learning_rate": 3.452388909314628e-06,
      "loss": 0.6641,
      "step": 4929
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.966994180581009,
      "learning_rate": 3.4487365534888926e-06,
      "loss": 0.736,
      "step": 4930
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8070992980185963,
      "learning_rate": 3.4450857280389527e-06,
      "loss": 0.6712,
      "step": 4931
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6617794865342805,
      "learning_rate": 3.441436433817641e-06,
      "loss": 0.644,
      "step": 4932
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.927172883576748,
      "learning_rate": 3.437788671677429e-06,
      "loss": 0.5876,
      "step": 4933
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8258390303067173,
      "learning_rate": 3.4341424424704373e-06,
      "loss": 0.6691,
      "step": 4934
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8287601016070285,
      "learning_rate": 3.4304977470484257e-06,
      "loss": 0.6348,
      "step": 4935
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8638104472828778,
      "learning_rate": 3.4268545862627932e-06,
      "loss": 0.6943,
      "step": 4936
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5741862245732832,
      "learning_rate": 3.423212960964586e-06,
      "loss": 0.6646,
      "step": 4937
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8942182697447916,
      "learning_rate": 3.419572872004485e-06,
      "loss": 0.7478,
      "step": 4938
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9841713290313734,
      "learning_rate": 3.415934320232821e-06,
      "loss": 0.7172,
      "step": 4939
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7977360721982336,
      "learning_rate": 3.4122973064995513e-06,
      "loss": 0.6676,
      "step": 4940
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.0381496882570342,
      "learning_rate": 3.4086618316542874e-06,
      "loss": 0.7036,
      "step": 4941
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.3530575377092817,
      "learning_rate": 3.405027896546277e-06,
      "loss": 0.7598,
      "step": 4942
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.5018641496074037,
      "learning_rate": 3.401395502024406e-06,
      "loss": 0.7694,
      "step": 4943
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.547805093472908,
      "learning_rate": 3.3977646489372042e-06,
      "loss": 0.6817,
      "step": 4944
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.113180436496082,
      "learning_rate": 3.39413533813284e-06,
      "loss": 0.5697,
      "step": 4945
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.667535969976272,
      "learning_rate": 3.390507570459116e-06,
      "loss": 0.6916,
      "step": 4946
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9657441204894328,
      "learning_rate": 3.3868813467634833e-06,
      "loss": 0.6358,
      "step": 4947
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.703331086010666,
      "learning_rate": 3.3832566678930255e-06,
      "loss": 0.7057,
      "step": 4948
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.250133574514704,
      "learning_rate": 3.3796335346944697e-06,
      "loss": 0.6853,
      "step": 4949
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.867781999243031,
      "learning_rate": 3.3760119480141794e-06,
      "loss": 0.7233,
      "step": 4950
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.834004254376178,
      "learning_rate": 3.3723919086981584e-06,
      "loss": 0.6351,
      "step": 4951
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8223440078948219,
      "learning_rate": 3.3687734175920505e-06,
      "loss": 0.7029,
      "step": 4952
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.700720573994921,
      "learning_rate": 3.3651564755411293e-06,
      "loss": 0.6323,
      "step": 4953
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6498172697764788,
      "learning_rate": 3.3615410833903174e-06,
      "loss": 0.6144,
      "step": 4954
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.072854099866679,
      "learning_rate": 3.357927241984169e-06,
      "loss": 0.6276,
      "step": 4955
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9578837599734038,
      "learning_rate": 3.3543149521668784e-06,
      "loss": 0.8088,
      "step": 4956
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.015212823839771,
      "learning_rate": 3.350704214782278e-06,
      "loss": 0.7035,
      "step": 4957
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.281381104013587,
      "learning_rate": 3.347095030673838e-06,
      "loss": 0.755,
      "step": 4958
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5422516087427889,
      "learning_rate": 3.3434874006846583e-06,
      "loss": 0.7132,
      "step": 4959
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.718374521672267,
      "learning_rate": 3.3398813256574847e-06,
      "loss": 0.6682,
      "step": 4960
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6478515753834595,
      "learning_rate": 3.3362768064346974e-06,
      "loss": 0.6179,
      "step": 4961
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9820873481490702,
      "learning_rate": 3.3326738438583116e-06,
      "loss": 0.7598,
      "step": 4962
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.915593400998176,
      "learning_rate": 3.3290724387699803e-06,
      "loss": 0.66,
      "step": 4963
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7482480721640679,
      "learning_rate": 3.3254725920109922e-06,
      "loss": 0.6715,
      "step": 4964
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1359402576568625,
      "learning_rate": 3.3218743044222746e-06,
      "loss": 0.7304,
      "step": 4965
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9591610815164258,
      "learning_rate": 3.318277576844381e-06,
      "loss": 0.6819,
      "step": 4966
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.04118995554904,
      "learning_rate": 3.314682410117511e-06,
      "loss": 0.6332,
      "step": 4967
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7787890599628828,
      "learning_rate": 3.311088805081497e-06,
      "loss": 0.5945,
      "step": 4968
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.591136045171808,
      "learning_rate": 3.3074967625758037e-06,
      "loss": 0.6711,
      "step": 4969
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.159998171586188,
      "learning_rate": 3.303906283439534e-06,
      "loss": 0.6363,
      "step": 4970
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7138174395902968,
      "learning_rate": 3.3003173685114265e-06,
      "loss": 0.5943,
      "step": 4971
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7271118438397803,
      "learning_rate": 3.2967300186298456e-06,
      "loss": 0.6525,
      "step": 4972
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.66731875751107,
      "learning_rate": 3.2931442346328e-06,
      "loss": 0.6268,
      "step": 4973
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.647502778444981,
      "learning_rate": 3.2895600173579302e-06,
      "loss": 0.6884,
      "step": 4974
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8286729349741466,
      "learning_rate": 3.2859773676425077e-06,
      "loss": 0.6854,
      "step": 4975
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9559426983076407,
      "learning_rate": 3.2823962863234416e-06,
      "loss": 0.6902,
      "step": 4976
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4666728928088035,
      "learning_rate": 3.2788167742372725e-06,
      "loss": 0.6937,
      "step": 4977
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8048190775862212,
      "learning_rate": 3.275238832220178e-06,
      "loss": 0.6623,
      "step": 4978
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.3131476567710942,
      "learning_rate": 3.271662461107958e-06,
      "loss": 0.5891,
      "step": 4979
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6828331698512655,
      "learning_rate": 3.2680876617360578e-06,
      "loss": 0.6279,
      "step": 4980
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8506996984486876,
      "learning_rate": 3.264514434939551e-06,
      "loss": 0.6401,
      "step": 4981
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.7095073463033033,
      "learning_rate": 3.2609427815531426e-06,
      "loss": 0.6599,
      "step": 4982
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.712463597096332,
      "learning_rate": 3.257372702411171e-06,
      "loss": 0.6454,
      "step": 4983
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7595744630378016,
      "learning_rate": 3.253804198347612e-06,
      "loss": 0.6536,
      "step": 4984
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7339259546742851,
      "learning_rate": 3.2502372701960603e-06,
      "loss": 0.6043,
      "step": 4985
    },
    {
      "epoch": 0.74,
      "grad_norm": 18.65904894364693,
      "learning_rate": 3.2466719187897555e-06,
      "loss": 0.6201,
      "step": 4986
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.1857107708335533,
      "learning_rate": 3.243108144961563e-06,
      "loss": 0.6359,
      "step": 4987
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.2245893517766673,
      "learning_rate": 3.2395459495439817e-06,
      "loss": 0.6975,
      "step": 4988
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8025761611433637,
      "learning_rate": 3.235985333369139e-06,
      "loss": 0.6714,
      "step": 4989
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.149048963194893,
      "learning_rate": 3.2324262972688e-06,
      "loss": 0.6185,
      "step": 4990
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7302721472708935,
      "learning_rate": 3.2288688420743487e-06,
      "loss": 0.6587,
      "step": 4991
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8818671987208888,
      "learning_rate": 3.2253129686168105e-06,
      "loss": 0.6757,
      "step": 4992
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7003936950601701,
      "learning_rate": 3.2217586777268383e-06,
      "loss": 0.6635,
      "step": 4993
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.782575956837877,
      "learning_rate": 3.2182059702347135e-06,
      "loss": 0.7089,
      "step": 4994
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.025440354728012,
      "learning_rate": 3.2146548469703497e-06,
      "loss": 0.626,
      "step": 4995
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.037285574303872,
      "learning_rate": 3.2111053087632904e-06,
      "loss": 0.7424,
      "step": 4996
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7493913637349483,
      "learning_rate": 3.2075573564427097e-06,
      "loss": 0.6868,
      "step": 4997
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.0754599028199356,
      "learning_rate": 3.204010990837404e-06,
      "loss": 0.7844,
      "step": 4998
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.354058739908244,
      "learning_rate": 3.200466212775808e-06,
      "loss": 0.7585,
      "step": 4999
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7003737508981625,
      "learning_rate": 3.1969230230859815e-06,
      "loss": 0.6217,
      "step": 5000
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.085090045508962,
      "learning_rate": 3.193381422595616e-06,
      "loss": 0.6529,
      "step": 5001
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.9982361072468942,
      "learning_rate": 3.1898414121320277e-06,
      "loss": 0.622,
      "step": 5002
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.0795574885593617,
      "learning_rate": 3.1863029925221667e-06,
      "loss": 0.6383,
      "step": 5003
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.1208980732605553,
      "learning_rate": 3.1827661645926024e-06,
      "loss": 0.7522,
      "step": 5004
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.788587565606479,
      "learning_rate": 3.179230929169541e-06,
      "loss": 0.64,
      "step": 5005
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.2874546892971233,
      "learning_rate": 3.175697287078814e-06,
      "loss": 0.6937,
      "step": 5006
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7279978475582818,
      "learning_rate": 3.1721652391458804e-06,
      "loss": 0.634,
      "step": 5007
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7502905843135723,
      "learning_rate": 3.1686347861958313e-06,
      "loss": 0.6353,
      "step": 5008
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.044162265267052,
      "learning_rate": 3.1651059290533726e-06,
      "loss": 0.5885,
      "step": 5009
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.2268341403633967,
      "learning_rate": 3.1615786685428495e-06,
      "loss": 0.6456,
      "step": 5010
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8261212281025683,
      "learning_rate": 3.158053005488232e-06,
      "loss": 0.6577,
      "step": 5011
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.0089516564972834,
      "learning_rate": 3.1545289407131128e-06,
      "loss": 0.7161,
      "step": 5012
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8159440842281842,
      "learning_rate": 3.151006475040719e-06,
      "loss": 0.5755,
      "step": 5013
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.9351630848319195,
      "learning_rate": 3.147485609293891e-06,
      "loss": 0.6779,
      "step": 5014
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6645485962987308,
      "learning_rate": 3.1439663442951073e-06,
      "loss": 0.5925,
      "step": 5015
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8003828690766712,
      "learning_rate": 3.140448680866469e-06,
      "loss": 0.6998,
      "step": 5016
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.06373709206628,
      "learning_rate": 3.1369326198297025e-06,
      "loss": 0.6729,
      "step": 5017
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.134347060135183,
      "learning_rate": 3.13341816200616e-06,
      "loss": 0.6929,
      "step": 5018
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.9472671788213614,
      "learning_rate": 3.1299053082168206e-06,
      "loss": 0.6489,
      "step": 5019
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5559469856424988,
      "learning_rate": 3.126394059282284e-06,
      "loss": 0.5658,
      "step": 5020
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6528803462903083,
      "learning_rate": 3.122884416022779e-06,
      "loss": 0.6803,
      "step": 5021
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.0043850620563815,
      "learning_rate": 3.11937637925816e-06,
      "loss": 0.6077,
      "step": 5022
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.091327386172968,
      "learning_rate": 3.1158699498079037e-06,
      "loss": 0.7444,
      "step": 5023
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7689538260647295,
      "learning_rate": 3.1123651284911162e-06,
      "loss": 0.6625,
      "step": 5024
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.883302961727844,
      "learning_rate": 3.108861916126518e-06,
      "loss": 0.6843,
      "step": 5025
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8740480671711444,
      "learning_rate": 3.105360313532463e-06,
      "loss": 0.6948,
      "step": 5026
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.414505769567492,
      "learning_rate": 3.101860321526924e-06,
      "loss": 0.6841,
      "step": 5027
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7357469841087128,
      "learning_rate": 3.098361940927502e-06,
      "loss": 0.6261,
      "step": 5028
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.2195716608913973,
      "learning_rate": 3.0948651725514223e-06,
      "loss": 0.6771,
      "step": 5029
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.840511305444978,
      "learning_rate": 3.0913700172155226e-06,
      "loss": 0.5883,
      "step": 5030
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.3286423270840264,
      "learning_rate": 3.0878764757362745e-06,
      "loss": 0.7419,
      "step": 5031
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.1448385802745813,
      "learning_rate": 3.0843845489297698e-06,
      "loss": 0.6615,
      "step": 5032
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.738750302330063,
      "learning_rate": 3.0808942376117244e-06,
      "loss": 0.6602,
      "step": 5033
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.820996072547006,
      "learning_rate": 3.0774055425974737e-06,
      "loss": 0.7137,
      "step": 5034
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4624927792938611,
      "learning_rate": 3.073918464701978e-06,
      "loss": 0.697,
      "step": 5035
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.726448404154431,
      "learning_rate": 3.0704330047398233e-06,
      "loss": 0.674,
      "step": 5036
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7696467440909973,
      "learning_rate": 3.066949163525205e-06,
      "loss": 0.6526,
      "step": 5037
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.139134210929373,
      "learning_rate": 3.063466941871952e-06,
      "loss": 0.6167,
      "step": 5038
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.7426547564481845,
      "learning_rate": 3.059986340593514e-06,
      "loss": 0.7159,
      "step": 5039
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2420273015029402,
      "learning_rate": 3.056507360502957e-06,
      "loss": 0.6982,
      "step": 5040
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1805421191595793,
      "learning_rate": 3.053030002412972e-06,
      "loss": 0.6749,
      "step": 5041
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.878367630237545,
      "learning_rate": 3.0495542671358745e-06,
      "loss": 0.6527,
      "step": 5042
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.0311577774988843,
      "learning_rate": 3.0460801554835894e-06,
      "loss": 0.5826,
      "step": 5043
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8113283849873743,
      "learning_rate": 3.042607668267672e-06,
      "loss": 0.6102,
      "step": 5044
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.1468112687152296,
      "learning_rate": 3.0391368062992976e-06,
      "loss": 0.7501,
      "step": 5045
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.872006047740974,
      "learning_rate": 3.035667570389258e-06,
      "loss": 0.6919,
      "step": 5046
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.871254973338378,
      "learning_rate": 3.0321999613479668e-06,
      "loss": 0.6216,
      "step": 5047
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.058225017129118,
      "learning_rate": 3.028733979985463e-06,
      "loss": 0.6478,
      "step": 5048
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7076995324553084,
      "learning_rate": 3.0252696271113934e-06,
      "loss": 0.6809,
      "step": 5049
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.047932980559428,
      "learning_rate": 3.0218069035350328e-06,
      "loss": 0.795,
      "step": 5050
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.1034961151433507,
      "learning_rate": 3.0183458100652752e-06,
      "loss": 0.7281,
      "step": 5051
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.9412193442951073,
      "learning_rate": 3.0148863475106315e-06,
      "loss": 0.6056,
      "step": 5052
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8560587083022875,
      "learning_rate": 3.011428516679232e-06,
      "loss": 0.648,
      "step": 5053
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.737945192536942,
      "learning_rate": 3.007972318378829e-06,
      "loss": 0.6676,
      "step": 5054
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.07071180982751,
      "learning_rate": 3.004517753416791e-06,
      "loss": 0.6796,
      "step": 5055
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5206605453355486,
      "learning_rate": 3.0010648226001004e-06,
      "loss": 0.6192,
      "step": 5056
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8523270161930299,
      "learning_rate": 2.9976135267353636e-06,
      "loss": 0.6741,
      "step": 5057
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.638028320099534,
      "learning_rate": 2.994163866628805e-06,
      "loss": 0.6887,
      "step": 5058
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.589862310956397,
      "learning_rate": 2.990715843086265e-06,
      "loss": 0.6919,
      "step": 5059
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.998834742674012,
      "learning_rate": 2.9872694569132022e-06,
      "loss": 0.7045,
      "step": 5060
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.011140770013049,
      "learning_rate": 2.9838247089146956e-06,
      "loss": 0.7616,
      "step": 5061
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0326645860078214,
      "learning_rate": 2.9803815998954334e-06,
      "loss": 0.6573,
      "step": 5062
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.119088863025334,
      "learning_rate": 2.976940130659729e-06,
      "loss": 0.6127,
      "step": 5063
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.074856514915993,
      "learning_rate": 2.9735003020115095e-06,
      "loss": 0.6871,
      "step": 5064
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.829424315992035,
      "learning_rate": 2.9700621147543194e-06,
      "loss": 0.6453,
      "step": 5065
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8004658057446032,
      "learning_rate": 2.9666255696913195e-06,
      "loss": 0.6238,
      "step": 5066
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0760728810115197,
      "learning_rate": 2.9631906676252865e-06,
      "loss": 0.6441,
      "step": 5067
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.663848378951091,
      "learning_rate": 2.959757409358619e-06,
      "loss": 0.6694,
      "step": 5068
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7812269565269674,
      "learning_rate": 2.9563257956933177e-06,
      "loss": 0.6967,
      "step": 5069
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7656454528601078,
      "learning_rate": 2.9528958274310126e-06,
      "loss": 0.6984,
      "step": 5070
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.09607950782813,
      "learning_rate": 2.949467505372945e-06,
      "loss": 0.736,
      "step": 5071
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8564494253002604,
      "learning_rate": 2.9460408303199696e-06,
      "loss": 0.6292,
      "step": 5072
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.418296681741317,
      "learning_rate": 2.9426158030725592e-06,
      "loss": 0.7143,
      "step": 5073
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8787790446463155,
      "learning_rate": 2.9391924244308046e-06,
      "loss": 0.589,
      "step": 5074
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.1892331912856364,
      "learning_rate": 2.9357706951943987e-06,
      "loss": 0.6705,
      "step": 5075
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6863718959583003,
      "learning_rate": 2.9323506161626613e-06,
      "loss": 0.5786,
      "step": 5076
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0415326761049783,
      "learning_rate": 2.9289321881345257e-06,
      "loss": 0.7247,
      "step": 5077
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.713874257114653,
      "learning_rate": 2.925515411908535e-06,
      "loss": 0.6337,
      "step": 5078
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.9698826588821903,
      "learning_rate": 2.9221002882828486e-06,
      "loss": 0.6272,
      "step": 5079
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.846771950095986,
      "learning_rate": 2.9186868180552396e-06,
      "loss": 0.6602,
      "step": 5080
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.273983142141414,
      "learning_rate": 2.915275002023099e-06,
      "loss": 0.7311,
      "step": 5081
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7990315873036988,
      "learning_rate": 2.9118648409834205e-06,
      "loss": 0.6441,
      "step": 5082
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.767411452197508,
      "learning_rate": 2.908456335732821e-06,
      "loss": 0.6665,
      "step": 5083
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0579299134461793,
      "learning_rate": 2.905049487067528e-06,
      "loss": 0.6323,
      "step": 5084
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.798377959965074,
      "learning_rate": 2.901644295783381e-06,
      "loss": 0.6208,
      "step": 5085
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.11269651168642,
      "learning_rate": 2.8982407626758348e-06,
      "loss": 0.7521,
      "step": 5086
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4353458118973017,
      "learning_rate": 2.894838888539957e-06,
      "loss": 0.7052,
      "step": 5087
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7663010439407525,
      "learning_rate": 2.891438674170419e-06,
      "loss": 0.6767,
      "step": 5088
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.3205486572233363,
      "learning_rate": 2.888040120361515e-06,
      "loss": 0.7488,
      "step": 5089
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7077222709911055,
      "learning_rate": 2.884643227907147e-06,
      "loss": 0.6752,
      "step": 5090
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.077517654924745,
      "learning_rate": 2.88124799760083e-06,
      "loss": 0.7178,
      "step": 5091
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8486942482941613,
      "learning_rate": 2.8778544302356904e-06,
      "loss": 0.6819,
      "step": 5092
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.1634874683901293,
      "learning_rate": 2.8744625266044647e-06,
      "loss": 0.6658,
      "step": 5093
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.176835924019843,
      "learning_rate": 2.8710722874995066e-06,
      "loss": 0.5893,
      "step": 5094
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.895495628048517,
      "learning_rate": 2.8676837137127687e-06,
      "loss": 0.6724,
      "step": 5095
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7978898166314956,
      "learning_rate": 2.8642968060358256e-06,
      "loss": 0.6215,
      "step": 5096
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.193968504236876,
      "learning_rate": 2.8609115652598595e-06,
      "loss": 0.6272,
      "step": 5097
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.9415383356542977,
      "learning_rate": 2.8575279921756637e-06,
      "loss": 0.6788,
      "step": 5098
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.6488336193970135,
      "learning_rate": 2.8541460875736403e-06,
      "loss": 0.635,
      "step": 5099
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.413860392950599,
      "learning_rate": 2.8507658522438054e-06,
      "loss": 0.7483,
      "step": 5100
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7569931345700127,
      "learning_rate": 2.8473872869757768e-06,
      "loss": 0.6575,
      "step": 5101
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.680558562455458,
      "learning_rate": 2.8440103925587904e-06,
      "loss": 0.5885,
      "step": 5102
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.109189397674928,
      "learning_rate": 2.840635169781688e-06,
      "loss": 0.6353,
      "step": 5103
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6130432182997265,
      "learning_rate": 2.837261619432925e-06,
      "loss": 0.6005,
      "step": 5104
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.839352767990673,
      "learning_rate": 2.8338897423005607e-06,
      "loss": 0.6341,
      "step": 5105
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.391230534271332,
      "learning_rate": 2.8305195391722663e-06,
      "loss": 0.6977,
      "step": 5106
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7214075531153556,
      "learning_rate": 2.8271510108353237e-06,
      "loss": 0.705,
      "step": 5107
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6813295048991874,
      "learning_rate": 2.823784158076618e-06,
      "loss": 0.5604,
      "step": 5108
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.653027492653477,
      "learning_rate": 2.820418981682648e-06,
      "loss": 0.6506,
      "step": 5109
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6778787752669704,
      "learning_rate": 2.817055482439518e-06,
      "loss": 0.6557,
      "step": 5110
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0526836957000305,
      "learning_rate": 2.8136936611329436e-06,
      "loss": 0.5952,
      "step": 5111
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.784620835914256,
      "learning_rate": 2.810333518548246e-06,
      "loss": 0.7369,
      "step": 5112
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.1038024423890977,
      "learning_rate": 2.806975055470358e-06,
      "loss": 0.6626,
      "step": 5113
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.9671974816271696,
      "learning_rate": 2.803618272683809e-06,
      "loss": 0.639,
      "step": 5114
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.6135612423748045,
      "learning_rate": 2.80026317097275e-06,
      "loss": 0.6816,
      "step": 5115
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6851772460523355,
      "learning_rate": 2.796909751120931e-06,
      "loss": 0.6516,
      "step": 5116
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.322750537654523,
      "learning_rate": 2.7935580139117114e-06,
      "loss": 0.6593,
      "step": 5117
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0451794055225765,
      "learning_rate": 2.7902079601280583e-06,
      "loss": 0.7636,
      "step": 5118
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.0103223840540516,
      "learning_rate": 2.7868595905525464e-06,
      "loss": 0.6361,
      "step": 5119
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.05735491892668,
      "learning_rate": 2.7835129059673496e-06,
      "loss": 0.6696,
      "step": 5120
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7646438476461412,
      "learning_rate": 2.7801679071542576e-06,
      "loss": 0.6746,
      "step": 5121
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.9832693485833273,
      "learning_rate": 2.7768245948946615e-06,
      "loss": 0.7663,
      "step": 5122
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1623729784233692,
      "learning_rate": 2.7734829699695585e-06,
      "loss": 0.6644,
      "step": 5123
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.083101728410919,
      "learning_rate": 2.770143033159555e-06,
      "loss": 0.5844,
      "step": 5124
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8753851097444916,
      "learning_rate": 2.766804785244859e-06,
      "loss": 0.7043,
      "step": 5125
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.828362144419858,
      "learning_rate": 2.763468227005288e-06,
      "loss": 0.5625,
      "step": 5126
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.035434683997303,
      "learning_rate": 2.7601333592202583e-06,
      "loss": 0.5672,
      "step": 5127
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2618100122252836,
      "learning_rate": 2.756800182668796e-06,
      "loss": 0.6918,
      "step": 5128
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.366103781495734,
      "learning_rate": 2.7534686981295335e-06,
      "loss": 0.7943,
      "step": 5129
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.751576361250877,
      "learning_rate": 2.7501389063807037e-06,
      "loss": 0.5899,
      "step": 5130
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.827989398543052,
      "learning_rate": 2.746810808200152e-06,
      "loss": 0.5853,
      "step": 5131
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7553651979035099,
      "learning_rate": 2.743484404365314e-06,
      "loss": 0.6672,
      "step": 5132
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.141150987797349,
      "learning_rate": 2.740159695653243e-06,
      "loss": 0.6742,
      "step": 5133
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.807452105032644,
      "learning_rate": 2.7368366828405892e-06,
      "loss": 0.6314,
      "step": 5134
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8282798373577733,
      "learning_rate": 2.7335153667036106e-06,
      "loss": 0.6865,
      "step": 5135
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.095742602090318,
      "learning_rate": 2.7301957480181697e-06,
      "loss": 0.6945,
      "step": 5136
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9624769840006957,
      "learning_rate": 2.7268778275597217e-06,
      "loss": 0.691,
      "step": 5137
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.14792045761365,
      "learning_rate": 2.7235616061033388e-06,
      "loss": 0.5693,
      "step": 5138
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.520740268591112,
      "learning_rate": 2.7202470844236896e-06,
      "loss": 0.5947,
      "step": 5139
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9216874622519733,
      "learning_rate": 2.7169342632950466e-06,
      "loss": 0.6634,
      "step": 5140
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8988137473031863,
      "learning_rate": 2.7136231434912854e-06,
      "loss": 0.7674,
      "step": 5141
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9417565488069017,
      "learning_rate": 2.7103137257858867e-06,
      "loss": 0.6622,
      "step": 5142
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.814726816681683,
      "learning_rate": 2.707006010951925e-06,
      "loss": 0.6052,
      "step": 5143
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9158149431213087,
      "learning_rate": 2.703699999762085e-06,
      "loss": 0.676,
      "step": 5144
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8452361836378048,
      "learning_rate": 2.7003956929886523e-06,
      "loss": 0.6256,
      "step": 5145
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7796428145273357,
      "learning_rate": 2.6970930914035134e-06,
      "loss": 0.6932,
      "step": 5146
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9747090516947996,
      "learning_rate": 2.6937921957781587e-06,
      "loss": 0.7255,
      "step": 5147
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.755085015409939,
      "learning_rate": 2.690493006883671e-06,
      "loss": 0.6536,
      "step": 5148
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.3719799656079785,
      "learning_rate": 2.6871955254907455e-06,
      "loss": 0.6764,
      "step": 5149
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4904654606224739,
      "learning_rate": 2.683899752369674e-06,
      "loss": 0.736,
      "step": 5150
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3438029227845185,
      "learning_rate": 2.68060568829035e-06,
      "loss": 0.6458,
      "step": 5151
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7817983440896976,
      "learning_rate": 2.6773133340222677e-06,
      "loss": 0.7093,
      "step": 5152
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8546174831601931,
      "learning_rate": 2.674022690334518e-06,
      "loss": 0.6395,
      "step": 5153
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.128631550123485,
      "learning_rate": 2.6707337579957983e-06,
      "loss": 0.6364,
      "step": 5154
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9409318659425496,
      "learning_rate": 2.667446537774402e-06,
      "loss": 0.6728,
      "step": 5155
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7762525673058256,
      "learning_rate": 2.664161030438225e-06,
      "loss": 0.6441,
      "step": 5156
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7319602282739621,
      "learning_rate": 2.660877236754762e-06,
      "loss": 0.648,
      "step": 5157
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7311698164653602,
      "learning_rate": 2.657595157491111e-06,
      "loss": 0.6192,
      "step": 5158
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.5532658605199035,
      "learning_rate": 2.654314793413959e-06,
      "loss": 0.6728,
      "step": 5159
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7921814631935185,
      "learning_rate": 2.6510361452896038e-06,
      "loss": 0.6721,
      "step": 5160
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9415638871733112,
      "learning_rate": 2.6477592138839357e-06,
      "loss": 0.6653,
      "step": 5161
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9165577155002802,
      "learning_rate": 2.6444839999624496e-06,
      "loss": 0.6096,
      "step": 5162
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.407591087948538,
      "learning_rate": 2.6412105042902327e-06,
      "loss": 0.7722,
      "step": 5163
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.278892337877717,
      "learning_rate": 2.6379387276319757e-06,
      "loss": 0.6454,
      "step": 5164
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.1709526028469015,
      "learning_rate": 2.6346686707519675e-06,
      "loss": 0.6514,
      "step": 5165
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.2072395381280745,
      "learning_rate": 2.631400334414089e-06,
      "loss": 0.6449,
      "step": 5166
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.0326219819701343,
      "learning_rate": 2.6281337193818267e-06,
      "loss": 0.6168,
      "step": 5167
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.069396083504246,
      "learning_rate": 2.624868826418262e-06,
      "loss": 0.669,
      "step": 5168
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.0866666711032167,
      "learning_rate": 2.6216056562860746e-06,
      "loss": 0.6029,
      "step": 5169
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6414189288990737,
      "learning_rate": 2.6183442097475398e-06,
      "loss": 0.6015,
      "step": 5170
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.5089316320548396,
      "learning_rate": 2.6150844875645364e-06,
      "loss": 0.6345,
      "step": 5171
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.685860316557972,
      "learning_rate": 2.61182649049853e-06,
      "loss": 0.6375,
      "step": 5172
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7165855701373847,
      "learning_rate": 2.6085702193105913e-06,
      "loss": 0.659,
      "step": 5173
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.3252346886408,
      "learning_rate": 2.605315674761385e-06,
      "loss": 0.7242,
      "step": 5174
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5815822210857664,
      "learning_rate": 2.602062857611174e-06,
      "loss": 0.6168,
      "step": 5175
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8420173797832446,
      "learning_rate": 2.5988117686198167e-06,
      "loss": 0.6109,
      "step": 5176
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.077180547181343,
      "learning_rate": 2.59556240854677e-06,
      "loss": 0.6758,
      "step": 5177
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.0568171770857893,
      "learning_rate": 2.5923147781510795e-06,
      "loss": 0.5973,
      "step": 5178
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7646762419509576,
      "learning_rate": 2.5890688781913954e-06,
      "loss": 0.6165,
      "step": 5179
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.0527186740291965,
      "learning_rate": 2.585824709425958e-06,
      "loss": 0.8256,
      "step": 5180
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.719318392605409,
      "learning_rate": 2.5825822726126095e-06,
      "loss": 0.6186,
      "step": 5181
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6060030149439186,
      "learning_rate": 2.5793415685087797e-06,
      "loss": 0.6394,
      "step": 5182
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.954374715312311,
      "learning_rate": 2.576102597871498e-06,
      "loss": 0.5897,
      "step": 5183
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.1426556964260843,
      "learning_rate": 2.5728653614573927e-06,
      "loss": 0.5853,
      "step": 5184
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9241709437270027,
      "learning_rate": 2.5696298600226766e-06,
      "loss": 0.6926,
      "step": 5185
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6936553274710426,
      "learning_rate": 2.566396094323165e-06,
      "loss": 0.6832,
      "step": 5186
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7758238349360953,
      "learning_rate": 2.5631640651142654e-06,
      "loss": 0.5646,
      "step": 5187
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6113547784176665,
      "learning_rate": 2.559933773150982e-06,
      "loss": 0.6417,
      "step": 5188
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.915064014488487,
      "learning_rate": 2.5567052191879104e-06,
      "loss": 0.6073,
      "step": 5189
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.097952854473318,
      "learning_rate": 2.5534784039792437e-06,
      "loss": 0.5921,
      "step": 5190
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8371125029496467,
      "learning_rate": 2.550253328278761e-06,
      "loss": 0.6971,
      "step": 5191
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8832107062063028,
      "learning_rate": 2.5470299928398424e-06,
      "loss": 0.7052,
      "step": 5192
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.434532537114602,
      "learning_rate": 2.5438083984154606e-06,
      "loss": 0.6331,
      "step": 5193
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7831534606326702,
      "learning_rate": 2.5405885457581793e-06,
      "loss": 0.6559,
      "step": 5194
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5912068197753395,
      "learning_rate": 2.537370435620157e-06,
      "loss": 0.529,
      "step": 5195
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.0453566560921534,
      "learning_rate": 2.534154068753144e-06,
      "loss": 0.6517,
      "step": 5196
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9312485113686049,
      "learning_rate": 2.5309394459084878e-06,
      "loss": 0.6318,
      "step": 5197
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6533719601325192,
      "learning_rate": 2.527726567837118e-06,
      "loss": 0.6284,
      "step": 5198
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7187677312121399,
      "learning_rate": 2.524515435289566e-06,
      "loss": 0.6746,
      "step": 5199
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.862579475605977,
      "learning_rate": 2.5213060490159536e-06,
      "loss": 0.617,
      "step": 5200
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8466197320301485,
      "learning_rate": 2.5180984097659924e-06,
      "loss": 0.6695,
      "step": 5201
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1852405975772524,
      "learning_rate": 2.514892518288988e-06,
      "loss": 0.693,
      "step": 5202
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6482514038856053,
      "learning_rate": 2.511688375333842e-06,
      "loss": 0.6207,
      "step": 5203
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8869599606927485,
      "learning_rate": 2.5084859816490327e-06,
      "loss": 0.6801,
      "step": 5204
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7666899802175307,
      "learning_rate": 2.505285337982644e-06,
      "loss": 0.5963,
      "step": 5205
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7370014480298142,
      "learning_rate": 2.5020864450823477e-06,
      "loss": 0.6883,
      "step": 5206
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5138163857452425,
      "learning_rate": 2.4988893036954045e-06,
      "loss": 0.7261,
      "step": 5207
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7852442833533662,
      "learning_rate": 2.4956939145686677e-06,
      "loss": 0.6529,
      "step": 5208
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7352034483405185,
      "learning_rate": 2.4925002784485796e-06,
      "loss": 0.7168,
      "step": 5209
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.8166014656026572,
      "learning_rate": 2.489308396081178e-06,
      "loss": 0.6134,
      "step": 5210
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7217764325128,
      "learning_rate": 2.48611826821208e-06,
      "loss": 0.677,
      "step": 5211
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8956468025077577,
      "learning_rate": 2.4829298955865022e-06,
      "loss": 0.6584,
      "step": 5212
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5680885005208647,
      "learning_rate": 2.4797432789492506e-06,
      "loss": 0.6302,
      "step": 5213
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7264945902670772,
      "learning_rate": 2.476558419044718e-06,
      "loss": 0.6488,
      "step": 5214
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.3110210303637317,
      "learning_rate": 2.4733753166168883e-06,
      "loss": 0.6704,
      "step": 5215
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7663710462964708,
      "learning_rate": 2.470193972409337e-06,
      "loss": 0.6636,
      "step": 5216
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8634109794969895,
      "learning_rate": 2.467014387165222e-06,
      "loss": 0.5534,
      "step": 5217
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8897616291640096,
      "learning_rate": 2.4638365616272952e-06,
      "loss": 0.7018,
      "step": 5218
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.488443190662799,
      "learning_rate": 2.460660496537899e-06,
      "loss": 0.6596,
      "step": 5219
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8200788538609722,
      "learning_rate": 2.4574861926389615e-06,
      "loss": 0.6863,
      "step": 5220
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5621581570618015,
      "learning_rate": 2.454313650672001e-06,
      "loss": 0.6733,
      "step": 5221
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.070294857692091,
      "learning_rate": 2.451142871378124e-06,
      "loss": 0.6198,
      "step": 5222
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7399406398647073,
      "learning_rate": 2.447973855498027e-06,
      "loss": 0.6402,
      "step": 5223
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9053907480722185,
      "learning_rate": 2.4448066037719865e-06,
      "loss": 0.6487,
      "step": 5224
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.625212787156752,
      "learning_rate": 2.4416411169398755e-06,
      "loss": 0.6956,
      "step": 5225
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6513784853825848,
      "learning_rate": 2.4384773957411533e-06,
      "loss": 0.6421,
      "step": 5226
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5931231133000672,
      "learning_rate": 2.4353154409148637e-06,
      "loss": 0.6037,
      "step": 5227
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3617917037047753,
      "learning_rate": 2.432155253199642e-06,
      "loss": 0.6865,
      "step": 5228
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8849188916781845,
      "learning_rate": 2.42899683333371e-06,
      "loss": 0.6557,
      "step": 5229
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.128048200641422,
      "learning_rate": 2.4258401820548682e-06,
      "loss": 0.6387,
      "step": 5230
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7661723729445395,
      "learning_rate": 2.4226853001005146e-06,
      "loss": 0.7298,
      "step": 5231
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8969590100425329,
      "learning_rate": 2.4195321882076295e-06,
      "loss": 0.6665,
      "step": 5232
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9906883948409744,
      "learning_rate": 2.4163808471127815e-06,
      "loss": 0.5516,
      "step": 5233
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9046335500517864,
      "learning_rate": 2.413231277552122e-06,
      "loss": 0.6217,
      "step": 5234
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.659991762005188,
      "learning_rate": 2.410083480261395e-06,
      "loss": 0.531,
      "step": 5235
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.038997216238027,
      "learning_rate": 2.4069374559759207e-06,
      "loss": 0.5569,
      "step": 5236
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.873451696606263,
      "learning_rate": 2.4037932054306125e-06,
      "loss": 0.5998,
      "step": 5237
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.779089351800463,
      "learning_rate": 2.400650729359969e-06,
      "loss": 0.6239,
      "step": 5238
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.4788027360168408,
      "learning_rate": 2.3975100284980713e-06,
      "loss": 0.7122,
      "step": 5239
    },
    {
      "epoch": 0.78,
      "grad_norm": 5.044033664890241,
      "learning_rate": 2.394371103578589e-06,
      "loss": 0.6778,
      "step": 5240
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1879011246159765,
      "learning_rate": 2.3912339553347742e-06,
      "loss": 0.6553,
      "step": 5241
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6584208456164073,
      "learning_rate": 2.3880985844994674e-06,
      "loss": 0.6554,
      "step": 5242
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.1547028965728985,
      "learning_rate": 2.384964991805089e-06,
      "loss": 0.6555,
      "step": 5243
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7031439710389795,
      "learning_rate": 2.3818331779836447e-06,
      "loss": 0.59,
      "step": 5244
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.056743641964909,
      "learning_rate": 2.3787031437667307e-06,
      "loss": 0.7526,
      "step": 5245
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.870352359531645,
      "learning_rate": 2.37557488988552e-06,
      "loss": 0.7012,
      "step": 5246
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7241052217722892,
      "learning_rate": 2.372448417070776e-06,
      "loss": 0.6227,
      "step": 5247
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8004752254985452,
      "learning_rate": 2.3693237260528436e-06,
      "loss": 0.654,
      "step": 5248
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.037036972649232,
      "learning_rate": 2.366200817561647e-06,
      "loss": 0.6588,
      "step": 5249
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.8465300226956864,
      "learning_rate": 2.3630796923266997e-06,
      "loss": 0.6494,
      "step": 5250
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7562179528628856,
      "learning_rate": 2.3599603510770962e-06,
      "loss": 0.7327,
      "step": 5251
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7304551425233312,
      "learning_rate": 2.3568427945415163e-06,
      "loss": 0.5882,
      "step": 5252
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9910644482218043,
      "learning_rate": 2.3537270234482213e-06,
      "loss": 0.6949,
      "step": 5253
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9085805067170425,
      "learning_rate": 2.350613038525058e-06,
      "loss": 0.6357,
      "step": 5254
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.66671026871408,
      "learning_rate": 2.347500840499447e-06,
      "loss": 0.7047,
      "step": 5255
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9085830262971402,
      "learning_rate": 2.3443904300984034e-06,
      "loss": 0.6925,
      "step": 5256
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.508974253198825,
      "learning_rate": 2.3412818080485176e-06,
      "loss": 0.5798,
      "step": 5257
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.02756565439188,
      "learning_rate": 2.3381749750759643e-06,
      "loss": 0.5678,
      "step": 5258
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7828240566316667,
      "learning_rate": 2.335069931906503e-06,
      "loss": 0.6205,
      "step": 5259
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9532505302087946,
      "learning_rate": 2.331966679265467e-06,
      "loss": 0.6701,
      "step": 5260
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5627962353711096,
      "learning_rate": 2.3288652178777783e-06,
      "loss": 0.6585,
      "step": 5261
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8734706474105847,
      "learning_rate": 2.3257655484679376e-06,
      "loss": 0.655,
      "step": 5262
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6850919049320459,
      "learning_rate": 2.3226676717600303e-06,
      "loss": 0.6183,
      "step": 5263
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.923542292478365,
      "learning_rate": 2.3195715884777203e-06,
      "loss": 0.6953,
      "step": 5264
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.078439695160142,
      "learning_rate": 2.316477299344254e-06,
      "loss": 0.6433,
      "step": 5265
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.279436874315752,
      "learning_rate": 2.3133848050824536e-06,
      "loss": 0.6726,
      "step": 5266
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.8420783234194795,
      "learning_rate": 2.3102941064147287e-06,
      "loss": 0.6611,
      "step": 5267
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6518803370770607,
      "learning_rate": 2.3072052040630666e-06,
      "loss": 0.664,
      "step": 5268
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7719815846854696,
      "learning_rate": 2.3041180987490354e-06,
      "loss": 0.6286,
      "step": 5269
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8178940363144627,
      "learning_rate": 2.3010327911937856e-06,
      "loss": 0.6438,
      "step": 5270
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.284839354532978,
      "learning_rate": 2.2979492821180394e-06,
      "loss": 0.6482,
      "step": 5271
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9837569380618434,
      "learning_rate": 2.2948675722421086e-06,
      "loss": 0.6716,
      "step": 5272
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.1604124614178044,
      "learning_rate": 2.2917876622858814e-06,
      "loss": 0.5786,
      "step": 5273
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.0199460966097367,
      "learning_rate": 2.288709552968823e-06,
      "loss": 0.7112,
      "step": 5274
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.72451390350061,
      "learning_rate": 2.285633245009984e-06,
      "loss": 0.6651,
      "step": 5275
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9496746315677507,
      "learning_rate": 2.2825587391279857e-06,
      "loss": 0.6575,
      "step": 5276
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9464085594280174,
      "learning_rate": 2.279486036041034e-06,
      "loss": 0.7246,
      "step": 5277
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7845441597891405,
      "learning_rate": 2.276415136466913e-06,
      "loss": 0.6023,
      "step": 5278
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5078906647186245,
      "learning_rate": 2.273346041122987e-06,
      "loss": 0.5808,
      "step": 5279
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8510358877990198,
      "learning_rate": 2.270278750726194e-06,
      "loss": 0.6477,
      "step": 5280
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9307569667987412,
      "learning_rate": 2.267213265993058e-06,
      "loss": 0.7585,
      "step": 5281
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8967425938570128,
      "learning_rate": 2.2641495876396713e-06,
      "loss": 0.6683,
      "step": 5282
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.3735949450643785,
      "learning_rate": 2.2610877163817113e-06,
      "loss": 0.6498,
      "step": 5283
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8115050979596938,
      "learning_rate": 2.2580276529344312e-06,
      "loss": 0.6583,
      "step": 5284
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.6160376525215403,
      "learning_rate": 2.254969398012663e-06,
      "loss": 0.7805,
      "step": 5285
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5712945456510552,
      "learning_rate": 2.2519129523308146e-06,
      "loss": 0.6283,
      "step": 5286
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4778980688533379,
      "learning_rate": 2.2488583166028754e-06,
      "loss": 0.6001,
      "step": 5287
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7273202661585993,
      "learning_rate": 2.2458054915424033e-06,
      "loss": 0.6077,
      "step": 5288
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.079495473781511,
      "learning_rate": 2.242754477862541e-06,
      "loss": 0.7027,
      "step": 5289
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7645588344667484,
      "learning_rate": 2.239705276276004e-06,
      "loss": 0.5307,
      "step": 5290
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8677636597934768,
      "learning_rate": 2.2366578874950894e-06,
      "loss": 0.6373,
      "step": 5291
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.1363153784985913,
      "learning_rate": 2.2336123122316642e-06,
      "loss": 0.7061,
      "step": 5292
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.159080612851306,
      "learning_rate": 2.2305685511971777e-06,
      "loss": 0.6672,
      "step": 5293
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.732794228544157,
      "learning_rate": 2.2275266051026533e-06,
      "loss": 0.6784,
      "step": 5294
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.208183830959944,
      "learning_rate": 2.2244864746586858e-06,
      "loss": 0.6211,
      "step": 5295
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7778125681147885,
      "learning_rate": 2.2214481605754532e-06,
      "loss": 0.6305,
      "step": 5296
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.611556557058358,
      "learning_rate": 2.218411663562704e-06,
      "loss": 0.6066,
      "step": 5297
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7139621466437023,
      "learning_rate": 2.215376984329767e-06,
      "loss": 0.6085,
      "step": 5298
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7262995561396597,
      "learning_rate": 2.2123441235855404e-06,
      "loss": 0.6535,
      "step": 5299
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7858519684509995,
      "learning_rate": 2.2093130820385057e-06,
      "loss": 0.7269,
      "step": 5300
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7968567411124101,
      "learning_rate": 2.2062838603967086e-06,
      "loss": 0.6085,
      "step": 5301
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.728624165401311,
      "learning_rate": 2.2032564593677773e-06,
      "loss": 0.6177,
      "step": 5302
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.305870272811758,
      "learning_rate": 2.2002308796589146e-06,
      "loss": 0.7123,
      "step": 5303
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.220589649192046,
      "learning_rate": 2.197207121976895e-06,
      "loss": 0.6508,
      "step": 5304
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.941252402161658,
      "learning_rate": 2.1941851870280697e-06,
      "loss": 0.724,
      "step": 5305
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.1898594064628494,
      "learning_rate": 2.1911650755183646e-06,
      "loss": 0.6884,
      "step": 5306
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9363399708390034,
      "learning_rate": 2.1881467881532737e-06,
      "loss": 0.5704,
      "step": 5307
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8803868595649122,
      "learning_rate": 2.18513032563787e-06,
      "loss": 0.5806,
      "step": 5308
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9362968979761301,
      "learning_rate": 2.1821156886768013e-06,
      "loss": 0.6437,
      "step": 5309
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.246152013565417,
      "learning_rate": 2.179102877974287e-06,
      "loss": 0.6237,
      "step": 5310
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9179928321546176,
      "learning_rate": 2.1760918942341193e-06,
      "loss": 0.6868,
      "step": 5311
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.901806935562055,
      "learning_rate": 2.1730827381596643e-06,
      "loss": 0.6364,
      "step": 5312
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9179147280881739,
      "learning_rate": 2.1700754104538645e-06,
      "loss": 0.6943,
      "step": 5313
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7941386139113453,
      "learning_rate": 2.167069911819225e-06,
      "loss": 0.6514,
      "step": 5314
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8605726296157359,
      "learning_rate": 2.164066242957836e-06,
      "loss": 0.6602,
      "step": 5315
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.123923518649145,
      "learning_rate": 2.1610644045713525e-06,
      "loss": 0.6525,
      "step": 5316
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.1649354747003846,
      "learning_rate": 2.158064397361005e-06,
      "loss": 0.6745,
      "step": 5317
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1749191811315076,
      "learning_rate": 2.1550662220275955e-06,
      "loss": 0.7237,
      "step": 5318
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9832264408522786,
      "learning_rate": 2.152069879271501e-06,
      "loss": 0.7223,
      "step": 5319
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.889417243966005,
      "learning_rate": 2.1490753697926613e-06,
      "loss": 0.6632,
      "step": 5320
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.195520467197439,
      "learning_rate": 2.1460826942905977e-06,
      "loss": 0.7436,
      "step": 5321
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8493402027143864,
      "learning_rate": 2.1430918534643996e-06,
      "loss": 0.645,
      "step": 5322
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8328213772272635,
      "learning_rate": 2.140102848012726e-06,
      "loss": 0.6142,
      "step": 5323
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1825871004535646,
      "learning_rate": 2.1371156786338108e-06,
      "loss": 0.6688,
      "step": 5324
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8303775234803294,
      "learning_rate": 2.134130346025457e-06,
      "loss": 0.6953,
      "step": 5325
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5972138823006319,
      "learning_rate": 2.13114685088504e-06,
      "loss": 0.6841,
      "step": 5326
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6695810108638631,
      "learning_rate": 2.1281651939094996e-06,
      "loss": 0.584,
      "step": 5327
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.617972422638325,
      "learning_rate": 2.1251853757953546e-06,
      "loss": 0.6158,
      "step": 5328
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7210481289514257,
      "learning_rate": 2.1222073972386903e-06,
      "loss": 0.6147,
      "step": 5329
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3422183767370472,
      "learning_rate": 2.1192312589351626e-06,
      "loss": 0.7238,
      "step": 5330
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.123051396472908,
      "learning_rate": 2.1162569615799978e-06,
      "loss": 0.662,
      "step": 5331
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.3059420485874247,
      "learning_rate": 2.1132845058679942e-06,
      "loss": 0.7516,
      "step": 5332
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7527004400939499,
      "learning_rate": 2.110313892493514e-06,
      "loss": 0.5405,
      "step": 5333
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1659104149413755,
      "learning_rate": 2.107345122150495e-06,
      "loss": 0.6568,
      "step": 5334
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9928278252173757,
      "learning_rate": 2.1043781955324406e-06,
      "loss": 0.6038,
      "step": 5335
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9491439751727708,
      "learning_rate": 2.101413113332427e-06,
      "loss": 0.6588,
      "step": 5336
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7409394918317758,
      "learning_rate": 2.098449876243096e-06,
      "loss": 0.6521,
      "step": 5337
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.25423431058776,
      "learning_rate": 2.0954884849566613e-06,
      "loss": 0.742,
      "step": 5338
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5035456623633374,
      "learning_rate": 2.0925289401649074e-06,
      "loss": 0.6142,
      "step": 5339
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7779603412368157,
      "learning_rate": 2.0895712425591776e-06,
      "loss": 0.5857,
      "step": 5340
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.734598292555185,
      "learning_rate": 2.0866153928303947e-06,
      "loss": 0.7076,
      "step": 5341
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5941103424468537,
      "learning_rate": 2.083661391669043e-06,
      "loss": 0.7028,
      "step": 5342
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7815302271701325,
      "learning_rate": 2.0807092397651795e-06,
      "loss": 0.7522,
      "step": 5343
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9094814646198097,
      "learning_rate": 2.0777589378084263e-06,
      "loss": 0.6709,
      "step": 5344
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8624375931497053,
      "learning_rate": 2.074810486487977e-06,
      "loss": 0.6721,
      "step": 5345
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.36239487995508,
      "learning_rate": 2.0718638864925845e-06,
      "loss": 0.7405,
      "step": 5346
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8128401219132688,
      "learning_rate": 2.0689191385105787e-06,
      "loss": 0.5674,
      "step": 5347
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7956929258254286,
      "learning_rate": 2.0659762432298527e-06,
      "loss": 0.6862,
      "step": 5348
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9101853786862717,
      "learning_rate": 2.063035201337865e-06,
      "loss": 0.6501,
      "step": 5349
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9184660970681373,
      "learning_rate": 2.0600960135216463e-06,
      "loss": 0.6914,
      "step": 5350
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.192554823318224,
      "learning_rate": 2.057158680467789e-06,
      "loss": 0.6321,
      "step": 5351
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8757892944219596,
      "learning_rate": 2.0542232028624585e-06,
      "loss": 0.6741,
      "step": 5352
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7779155689691755,
      "learning_rate": 2.051289581391377e-06,
      "loss": 0.6297,
      "step": 5353
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9771871644827013,
      "learning_rate": 2.04835781673984e-06,
      "loss": 0.6249,
      "step": 5354
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9909582493362352,
      "learning_rate": 2.04542790959271e-06,
      "loss": 0.6238,
      "step": 5355
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7655478526472335,
      "learning_rate": 2.0424998606344127e-06,
      "loss": 0.702,
      "step": 5356
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.376031554446542,
      "learning_rate": 2.03957367054894e-06,
      "loss": 0.6498,
      "step": 5357
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.930104480572578,
      "learning_rate": 2.036649340019854e-06,
      "loss": 0.6733,
      "step": 5358
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8928875141579522,
      "learning_rate": 2.0337268697302738e-06,
      "loss": 0.5989,
      "step": 5359
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6551546265155492,
      "learning_rate": 2.0308062603628888e-06,
      "loss": 0.6929,
      "step": 5360
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.1901833452816946,
      "learning_rate": 2.0278875125999565e-06,
      "loss": 0.5831,
      "step": 5361
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.208585909249507,
      "learning_rate": 2.024970627123295e-06,
      "loss": 0.7094,
      "step": 5362
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7738292338414117,
      "learning_rate": 2.022055604614289e-06,
      "loss": 0.6234,
      "step": 5363
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7332228594649037,
      "learning_rate": 2.0191424457538923e-06,
      "loss": 0.7019,
      "step": 5364
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.140861819056373,
      "learning_rate": 2.016231151222612e-06,
      "loss": 0.6728,
      "step": 5365
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.357712448455549,
      "learning_rate": 2.0133217217005295e-06,
      "loss": 0.646,
      "step": 5366
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.951890077403969,
      "learning_rate": 2.0104141578672887e-06,
      "loss": 0.6501,
      "step": 5367
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9191859361459231,
      "learning_rate": 2.0075084604020967e-06,
      "loss": 0.6242,
      "step": 5368
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.0083664621261033,
      "learning_rate": 2.004604629983725e-06,
      "loss": 0.6747,
      "step": 5369
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.144193624360533,
      "learning_rate": 2.001702667290508e-06,
      "loss": 0.6303,
      "step": 5370
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.20753046804809,
      "learning_rate": 1.998802573000348e-06,
      "loss": 0.596,
      "step": 5371
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.1295528110545643,
      "learning_rate": 1.9959043477907e-06,
      "loss": 0.7412,
      "step": 5372
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.471487782446582,
      "learning_rate": 1.9930079923385946e-06,
      "loss": 0.631,
      "step": 5373
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.699120451335995,
      "learning_rate": 1.99011350732062e-06,
      "loss": 0.657,
      "step": 5374
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.0066879263526003,
      "learning_rate": 1.987220893412928e-06,
      "loss": 0.7028,
      "step": 5375
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7925797252447953,
      "learning_rate": 1.984330151291233e-06,
      "loss": 0.6808,
      "step": 5376
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8446502208571292,
      "learning_rate": 1.981441281630816e-06,
      "loss": 0.5673,
      "step": 5377
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8811913448329984,
      "learning_rate": 1.978554285106512e-06,
      "loss": 0.6968,
      "step": 5378
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7411056693252664,
      "learning_rate": 1.975669162392726e-06,
      "loss": 0.6671,
      "step": 5379
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7853683059046739,
      "learning_rate": 1.972785914163423e-06,
      "loss": 0.6312,
      "step": 5380
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.835933931993083,
      "learning_rate": 1.9699045410921303e-06,
      "loss": 0.6122,
      "step": 5381
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9843303133369286,
      "learning_rate": 1.967025043851939e-06,
      "loss": 0.6659,
      "step": 5382
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.839928241525766,
      "learning_rate": 1.9641474231154956e-06,
      "loss": 0.6022,
      "step": 5383
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7171746992886032,
      "learning_rate": 1.9612716795550146e-06,
      "loss": 0.55,
      "step": 5384
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.792374782645753,
      "learning_rate": 1.95839781384227e-06,
      "loss": 0.7766,
      "step": 5385
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8836077790666144,
      "learning_rate": 1.9555258266485965e-06,
      "loss": 0.7304,
      "step": 5386
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.898631504933524,
      "learning_rate": 1.9526557186448924e-06,
      "loss": 0.6596,
      "step": 5387
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.614076404924179,
      "learning_rate": 1.9497874905016156e-06,
      "loss": 0.6147,
      "step": 5388
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9430185610553452,
      "learning_rate": 1.9469211428887813e-06,
      "loss": 0.5989,
      "step": 5389
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.085891800840279,
      "learning_rate": 1.9440566764759704e-06,
      "loss": 0.6871,
      "step": 5390
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9652145194689858,
      "learning_rate": 1.9411940919323215e-06,
      "loss": 0.6589,
      "step": 5391
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7773740227990287,
      "learning_rate": 1.9383333899265368e-06,
      "loss": 0.6021,
      "step": 5392
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7646734004104725,
      "learning_rate": 1.9354745711268763e-06,
      "loss": 0.6598,
      "step": 5393
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.024004405218686,
      "learning_rate": 1.9326176362011584e-06,
      "loss": 0.6882,
      "step": 5394
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8438205711407032,
      "learning_rate": 1.9297625858167636e-06,
      "loss": 0.6964,
      "step": 5395
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6063462314357764,
      "learning_rate": 1.9269094206406326e-06,
      "loss": 0.6736,
      "step": 5396
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.980162214801298,
      "learning_rate": 1.9240581413392647e-06,
      "loss": 0.679,
      "step": 5397
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8291180454963794,
      "learning_rate": 1.9212087485787233e-06,
      "loss": 0.5829,
      "step": 5398
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8983629620241302,
      "learning_rate": 1.918361243024619e-06,
      "loss": 0.6399,
      "step": 5399
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.019263468253731,
      "learning_rate": 1.9155156253421348e-06,
      "loss": 0.6252,
      "step": 5400
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8995734248581164,
      "learning_rate": 1.9126718961960056e-06,
      "loss": 0.6042,
      "step": 5401
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.499211459443228,
      "learning_rate": 1.9098300562505266e-06,
      "loss": 0.6311,
      "step": 5402
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.3327209000534066,
      "learning_rate": 1.906990106169555e-06,
      "loss": 0.6599,
      "step": 5403
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.394332850516102,
      "learning_rate": 1.9041520466164988e-06,
      "loss": 0.6598,
      "step": 5404
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6088303110847897,
      "learning_rate": 1.9013158782543307e-06,
      "loss": 0.6029,
      "step": 5405
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5816589396916647,
      "learning_rate": 1.8984816017455798e-06,
      "loss": 0.7004,
      "step": 5406
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.715528597138337,
      "learning_rate": 1.8956492177523345e-06,
      "loss": 0.6589,
      "step": 5407
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.962415188871196,
      "learning_rate": 1.8928187269362398e-06,
      "loss": 0.6226,
      "step": 5408
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7532022285702304,
      "learning_rate": 1.8899901299584965e-06,
      "loss": 0.6498,
      "step": 5409
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.849603709245613,
      "learning_rate": 1.8871634274798701e-06,
      "loss": 0.6875,
      "step": 5410
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.9125156355995427,
      "learning_rate": 1.8843386201606729e-06,
      "loss": 0.6584,
      "step": 5411
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.516576900421832,
      "learning_rate": 1.8815157086607826e-06,
      "loss": 0.6199,
      "step": 5412
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.58098175297653,
      "learning_rate": 1.878694693639631e-06,
      "loss": 0.6359,
      "step": 5413
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8431331540662022,
      "learning_rate": 1.8758755757562087e-06,
      "loss": 0.6231,
      "step": 5414
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6841204096587754,
      "learning_rate": 1.8730583556690607e-06,
      "loss": 0.5853,
      "step": 5415
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7596473505267491,
      "learning_rate": 1.8702430340362932e-06,
      "loss": 0.6779,
      "step": 5416
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.1184369335022675,
      "learning_rate": 1.86742961151556e-06,
      "loss": 0.6021,
      "step": 5417
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5696792577687435,
      "learning_rate": 1.8646180887640808e-06,
      "loss": 0.6371,
      "step": 5418
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.217932225202771,
      "learning_rate": 1.861808466438625e-06,
      "loss": 0.7426,
      "step": 5419
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5005604419265237,
      "learning_rate": 1.8590007451955227e-06,
      "loss": 0.6615,
      "step": 5420
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6999645245595596,
      "learning_rate": 1.8561949256906576e-06,
      "loss": 0.6315,
      "step": 5421
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8446958374167906,
      "learning_rate": 1.8533910085794714e-06,
      "loss": 0.5506,
      "step": 5422
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8378409904390411,
      "learning_rate": 1.8505889945169552e-06,
      "loss": 0.6092,
      "step": 5423
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.14663475418508,
      "learning_rate": 1.8477888841576619e-06,
      "loss": 0.6385,
      "step": 5424
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.1464848105975918,
      "learning_rate": 1.8449906781556959e-06,
      "loss": 0.6621,
      "step": 5425
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7323548909818234,
      "learning_rate": 1.842194377164721e-06,
      "loss": 0.667,
      "step": 5426
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7226801004051862,
      "learning_rate": 1.8393999818379527e-06,
      "loss": 0.6423,
      "step": 5427
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7484777418842046,
      "learning_rate": 1.8366074928281608e-06,
      "loss": 0.7009,
      "step": 5428
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.216058419157136,
      "learning_rate": 1.8338169107876746e-06,
      "loss": 0.7044,
      "step": 5429
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.124263515687754,
      "learning_rate": 1.8310282363683686e-06,
      "loss": 0.656,
      "step": 5430
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7447681806803503,
      "learning_rate": 1.828241470221681e-06,
      "loss": 0.6219,
      "step": 5431
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8884900839453638,
      "learning_rate": 1.8254566129985996e-06,
      "loss": 0.6576,
      "step": 5432
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.9856498768559203,
      "learning_rate": 1.822673665349668e-06,
      "loss": 0.7304,
      "step": 5433
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.260131160046341,
      "learning_rate": 1.8198926279249828e-06,
      "loss": 0.6453,
      "step": 5434
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.932852287997874,
      "learning_rate": 1.817113501374197e-06,
      "loss": 0.6882,
      "step": 5435
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.9525738149155427,
      "learning_rate": 1.8143362863465098e-06,
      "loss": 0.5708,
      "step": 5436
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.123038664581547,
      "learning_rate": 1.8115609834906821e-06,
      "loss": 0.6686,
      "step": 5437
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.197025314409185,
      "learning_rate": 1.8087875934550237e-06,
      "loss": 0.6718,
      "step": 5438
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.4986349957529392,
      "learning_rate": 1.8060161168874002e-06,
      "loss": 0.7228,
      "step": 5439
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.9381386303676928,
      "learning_rate": 1.8032465544352274e-06,
      "loss": 0.6118,
      "step": 5440
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7038470050728174,
      "learning_rate": 1.8004789067454763e-06,
      "loss": 0.5901,
      "step": 5441
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.629320579818468,
      "learning_rate": 1.7977131744646724e-06,
      "loss": 0.622,
      "step": 5442
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.447939870320754,
      "learning_rate": 1.7949493582388856e-06,
      "loss": 0.663,
      "step": 5443
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.873504079195244,
      "learning_rate": 1.7921874587137455e-06,
      "loss": 0.6713,
      "step": 5444
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8453384651632403,
      "learning_rate": 1.7894274765344322e-06,
      "loss": 0.6367,
      "step": 5445
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.2190552115044926,
      "learning_rate": 1.7866694123456796e-06,
      "loss": 0.7049,
      "step": 5446
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6638967229812254,
      "learning_rate": 1.7839132667917692e-06,
      "loss": 0.6101,
      "step": 5447
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.781645233431327,
      "learning_rate": 1.7811590405165413e-06,
      "loss": 0.6096,
      "step": 5448
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.1637496993107517,
      "learning_rate": 1.7784067341633781e-06,
      "loss": 0.6276,
      "step": 5449
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2003930349660896,
      "learning_rate": 1.775656348375221e-06,
      "loss": 0.6737,
      "step": 5450
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.0101347820698257,
      "learning_rate": 1.7729078837945602e-06,
      "loss": 0.5989,
      "step": 5451
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0396198353199204,
      "learning_rate": 1.7701613410634367e-06,
      "loss": 0.6595,
      "step": 5452
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1085757241311014,
      "learning_rate": 1.7674167208234438e-06,
      "loss": 0.7036,
      "step": 5453
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8514905899204004,
      "learning_rate": 1.7646740237157256e-06,
      "loss": 0.6901,
      "step": 5454
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.3222490072944115,
      "learning_rate": 1.7619332503809771e-06,
      "loss": 0.6948,
      "step": 5455
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7849453254927479,
      "learning_rate": 1.7591944014594408e-06,
      "loss": 0.7045,
      "step": 5456
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.9556037428744428,
      "learning_rate": 1.7564574775909127e-06,
      "loss": 0.635,
      "step": 5457
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.860802558673686,
      "learning_rate": 1.75372247941474e-06,
      "loss": 0.5976,
      "step": 5458
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6384315053844913,
      "learning_rate": 1.7509894075698165e-06,
      "loss": 0.6125,
      "step": 5459
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7488644013228085,
      "learning_rate": 1.74825826269459e-06,
      "loss": 0.6014,
      "step": 5460
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3140550089630951,
      "learning_rate": 1.7455290454270567e-06,
      "loss": 0.6951,
      "step": 5461
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.006455905599645,
      "learning_rate": 1.7428017564047594e-06,
      "loss": 0.701,
      "step": 5462
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.0278138394735943,
      "learning_rate": 1.7400763962647937e-06,
      "loss": 0.6238,
      "step": 5463
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7293444197888679,
      "learning_rate": 1.7373529656438048e-06,
      "loss": 0.6475,
      "step": 5464
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8769734580676358,
      "learning_rate": 1.7346314651779872e-06,
      "loss": 0.6259,
      "step": 5465
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.2102284360548023,
      "learning_rate": 1.7319118955030812e-06,
      "loss": 0.6254,
      "step": 5466
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8037382942346385,
      "learning_rate": 1.7291942572543806e-06,
      "loss": 0.5486,
      "step": 5467
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.204992433796319,
      "learning_rate": 1.7264785510667281e-06,
      "loss": 0.6203,
      "step": 5468
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8209228273117066,
      "learning_rate": 1.723764777574508e-06,
      "loss": 0.6527,
      "step": 5469
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.9133388151412163,
      "learning_rate": 1.7210529374116603e-06,
      "loss": 0.6004,
      "step": 5470
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7342291413595714,
      "learning_rate": 1.718343031211671e-06,
      "loss": 0.5619,
      "step": 5471
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.91084210952527,
      "learning_rate": 1.7156350596075743e-06,
      "loss": 0.6111,
      "step": 5472
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6202330235596556,
      "learning_rate": 1.712929023231954e-06,
      "loss": 0.7289,
      "step": 5473
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.199466264539941,
      "learning_rate": 1.710224922716941e-06,
      "loss": 0.5723,
      "step": 5474
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.50165923408411,
      "learning_rate": 1.7075227586942101e-06,
      "loss": 0.6481,
      "step": 5475
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.0853681682910317,
      "learning_rate": 1.7048225317949873e-06,
      "loss": 0.6677,
      "step": 5476
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8968247970964565,
      "learning_rate": 1.7021242426500495e-06,
      "loss": 0.6625,
      "step": 5477
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.180076834529805,
      "learning_rate": 1.6994278918897146e-06,
      "loss": 0.6215,
      "step": 5478
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8835977220138111,
      "learning_rate": 1.6967334801438507e-06,
      "loss": 0.6988,
      "step": 5479
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8143807963267424,
      "learning_rate": 1.6940410080418723e-06,
      "loss": 0.5977,
      "step": 5480
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.2519139727496595,
      "learning_rate": 1.6913504762127452e-06,
      "loss": 0.6867,
      "step": 5481
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.911392376841382,
      "learning_rate": 1.6886618852849723e-06,
      "loss": 0.668,
      "step": 5482
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.299794679428097,
      "learning_rate": 1.685975235886611e-06,
      "loss": 0.673,
      "step": 5483
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.918431043148717,
      "learning_rate": 1.6832905286452616e-06,
      "loss": 0.7301,
      "step": 5484
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7665164846477706,
      "learning_rate": 1.6806077641880746e-06,
      "loss": 0.6025,
      "step": 5485
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.5600074771436105,
      "learning_rate": 1.6779269431417421e-06,
      "loss": 0.7154,
      "step": 5486
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.849278107520604,
      "learning_rate": 1.6752480661325077e-06,
      "loss": 0.6257,
      "step": 5487
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6576328556228928,
      "learning_rate": 1.6725711337861517e-06,
      "loss": 0.6241,
      "step": 5488
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8286463662665928,
      "learning_rate": 1.6698961467280073e-06,
      "loss": 0.5996,
      "step": 5489
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8569441162367817,
      "learning_rate": 1.6672231055829547e-06,
      "loss": 0.668,
      "step": 5490
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8341165622396762,
      "learning_rate": 1.6645520109754132e-06,
      "loss": 0.6554,
      "step": 5491
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.032918811251531,
      "learning_rate": 1.6618828635293538e-06,
      "loss": 0.684,
      "step": 5492
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8010868531844713,
      "learning_rate": 1.6592156638682887e-06,
      "loss": 0.6536,
      "step": 5493
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0957216509283914,
      "learning_rate": 1.6565504126152742e-06,
      "loss": 0.654,
      "step": 5494
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7149564619635935,
      "learning_rate": 1.6538871103929144e-06,
      "loss": 0.5543,
      "step": 5495
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7742219567840085,
      "learning_rate": 1.651225757823357e-06,
      "loss": 0.604,
      "step": 5496
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.841721269164819,
      "learning_rate": 1.6485663555282949e-06,
      "loss": 0.6649,
      "step": 5497
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8143144517240575,
      "learning_rate": 1.6459089041289634e-06,
      "loss": 0.7366,
      "step": 5498
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7951810862308906,
      "learning_rate": 1.6432534042461446e-06,
      "loss": 0.6989,
      "step": 5499
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.2307433116824567,
      "learning_rate": 1.6405998565001646e-06,
      "loss": 0.7247,
      "step": 5500
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.679704731399372,
      "learning_rate": 1.6379482615108888e-06,
      "loss": 0.6605,
      "step": 5501
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7072827335316874,
      "learning_rate": 1.6352986198977327e-06,
      "loss": 0.6459,
      "step": 5502
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.87946788293985,
      "learning_rate": 1.6326509322796513e-06,
      "loss": 0.6223,
      "step": 5503
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6237746956128498,
      "learning_rate": 1.6300051992751463e-06,
      "loss": 0.6515,
      "step": 5504
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.5451255908530976,
      "learning_rate": 1.6273614215022636e-06,
      "loss": 0.6466,
      "step": 5505
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.717962474340987,
      "learning_rate": 1.6247195995785836e-06,
      "loss": 0.7127,
      "step": 5506
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7198347071555966,
      "learning_rate": 1.6220797341212401e-06,
      "loss": 0.5464,
      "step": 5507
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7229889425233982,
      "learning_rate": 1.6194418257469047e-06,
      "loss": 0.7144,
      "step": 5508
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.919304054548992,
      "learning_rate": 1.616805875071794e-06,
      "loss": 0.7273,
      "step": 5509
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7613028670439705,
      "learning_rate": 1.6141718827116659e-06,
      "loss": 0.6462,
      "step": 5510
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.082198225958894,
      "learning_rate": 1.6115398492818235e-06,
      "loss": 0.5915,
      "step": 5511
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.3496739297326483,
      "learning_rate": 1.6089097753971061e-06,
      "loss": 0.6991,
      "step": 5512
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.881445976063444,
      "learning_rate": 1.6062816616719013e-06,
      "loss": 0.6211,
      "step": 5513
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.302398734585057,
      "learning_rate": 1.6036555087201366e-06,
      "loss": 0.6815,
      "step": 5514
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.5195203550068026,
      "learning_rate": 1.6010313171552804e-06,
      "loss": 0.7477,
      "step": 5515
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.100484430486463,
      "learning_rate": 1.598409087590349e-06,
      "loss": 0.6138,
      "step": 5516
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7801455004864257,
      "learning_rate": 1.595788820637888e-06,
      "loss": 0.6708,
      "step": 5517
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2944197946208433,
      "learning_rate": 1.5931705169099965e-06,
      "loss": 0.7104,
      "step": 5518
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.285231001821544,
      "learning_rate": 1.5905541770183096e-06,
      "loss": 0.6528,
      "step": 5519
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7789156619421054,
      "learning_rate": 1.5879398015740043e-06,
      "loss": 0.5869,
      "step": 5520
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2394833628268582,
      "learning_rate": 1.5853273911878031e-06,
      "loss": 0.6991,
      "step": 5521
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6908924583854812,
      "learning_rate": 1.5827169464699576e-06,
      "loss": 0.621,
      "step": 5522
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.9584446676667606,
      "learning_rate": 1.5801084680302725e-06,
      "loss": 0.6279,
      "step": 5523
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.773082128643591,
      "learning_rate": 1.577501956478088e-06,
      "loss": 0.7183,
      "step": 5524
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.9175946929094274,
      "learning_rate": 1.574897412422286e-06,
      "loss": 0.5943,
      "step": 5525
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7992920487428334,
      "learning_rate": 1.5722948364712898e-06,
      "loss": 0.6377,
      "step": 5526
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.0013905893728308,
      "learning_rate": 1.5696942292330574e-06,
      "loss": 0.7119,
      "step": 5527
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.8835852543334317,
      "learning_rate": 1.567095591315092e-06,
      "loss": 0.7098,
      "step": 5528
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.0372182328171116,
      "learning_rate": 1.5644989233244367e-06,
      "loss": 0.7095,
      "step": 5529
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7536924317365084,
      "learning_rate": 1.5619042258676743e-06,
      "loss": 0.6015,
      "step": 5530
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6015219571311359,
      "learning_rate": 1.559311499550924e-06,
      "loss": 0.6317,
      "step": 5531
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9451766435815865,
      "learning_rate": 1.5567207449798517e-06,
      "loss": 0.7,
      "step": 5532
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8210101367558993,
      "learning_rate": 1.5541319627596517e-06,
      "loss": 0.605,
      "step": 5533
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1465950355453502,
      "learning_rate": 1.5515451534950665e-06,
      "loss": 0.6541,
      "step": 5534
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6974406723578075,
      "learning_rate": 1.5489603177903756e-06,
      "loss": 0.6196,
      "step": 5535
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.786984352636169,
      "learning_rate": 1.546377456249396e-06,
      "loss": 0.6136,
      "step": 5536
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7097815344171976,
      "learning_rate": 1.5437965694754842e-06,
      "loss": 0.6468,
      "step": 5537
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.813829876167294,
      "learning_rate": 1.5412176580715367e-06,
      "loss": 0.6688,
      "step": 5538
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.4510553137075948,
      "learning_rate": 1.5386407226399892e-06,
      "loss": 0.7341,
      "step": 5539
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9071577541682876,
      "learning_rate": 1.5360657637828103e-06,
      "loss": 0.6999,
      "step": 5540
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9654704142080277,
      "learning_rate": 1.533492782101511e-06,
      "loss": 0.6299,
      "step": 5541
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5382707601734487,
      "learning_rate": 1.5309217781971419e-06,
      "loss": 0.6844,
      "step": 5542
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.124716135794504,
      "learning_rate": 1.5283527526702891e-06,
      "loss": 0.5833,
      "step": 5543
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8353847380946129,
      "learning_rate": 1.525785706121077e-06,
      "loss": 0.6064,
      "step": 5544
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7379691390070497,
      "learning_rate": 1.52322063914917e-06,
      "loss": 0.7509,
      "step": 5545
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.914661299028741,
      "learning_rate": 1.5206575523537649e-06,
      "loss": 0.6742,
      "step": 5546
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1902949962044067,
      "learning_rate": 1.518096446333599e-06,
      "loss": 0.5931,
      "step": 5547
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.902245422264401,
      "learning_rate": 1.5155373216869485e-06,
      "loss": 0.6039,
      "step": 5548
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8041254097795576,
      "learning_rate": 1.5129801790116261e-06,
      "loss": 0.6677,
      "step": 5549
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.063193255591896,
      "learning_rate": 1.5104250189049786e-06,
      "loss": 0.7101,
      "step": 5550
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.711856212270813,
      "learning_rate": 1.5078718419638939e-06,
      "loss": 0.6507,
      "step": 5551
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.111855065149919,
      "learning_rate": 1.5053206487847916e-06,
      "loss": 0.6462,
      "step": 5552
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.648970144478307,
      "learning_rate": 1.5027714399636318e-06,
      "loss": 0.6,
      "step": 5553
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.816639564732814,
      "learning_rate": 1.5002242160959102e-06,
      "loss": 0.7642,
      "step": 5554
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8880434767205925,
      "learning_rate": 1.4976789777766576e-06,
      "loss": 0.6923,
      "step": 5555
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6955265859291742,
      "learning_rate": 1.4951357256004439e-06,
      "loss": 0.6626,
      "step": 5556
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8775039603612147,
      "learning_rate": 1.4925944601613718e-06,
      "loss": 0.7128,
      "step": 5557
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8380415934463517,
      "learning_rate": 1.490055182053083e-06,
      "loss": 0.5655,
      "step": 5558
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1847884843659604,
      "learning_rate": 1.4875178918687493e-06,
      "loss": 0.6329,
      "step": 5559
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.0109949565458827,
      "learning_rate": 1.4849825902010851e-06,
      "loss": 0.6729,
      "step": 5560
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1163049348956096,
      "learning_rate": 1.4824492776423349e-06,
      "loss": 0.6504,
      "step": 5561
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9717178798760495,
      "learning_rate": 1.4799179547842823e-06,
      "loss": 0.6458,
      "step": 5562
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9844776314610202,
      "learning_rate": 1.4773886222182442e-06,
      "loss": 0.7497,
      "step": 5563
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.346470103511079,
      "learning_rate": 1.474861280535076e-06,
      "loss": 0.7807,
      "step": 5564
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5754783914647308,
      "learning_rate": 1.4723359303251594e-06,
      "loss": 0.5906,
      "step": 5565
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.5521409856142343,
      "learning_rate": 1.4698125721784183e-06,
      "loss": 0.6554,
      "step": 5566
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1462964229548436,
      "learning_rate": 1.4672912066843103e-06,
      "loss": 0.6538,
      "step": 5567
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5276535433857699,
      "learning_rate": 1.4647718344318263e-06,
      "loss": 0.5716,
      "step": 5568
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6124227562809952,
      "learning_rate": 1.462254456009493e-06,
      "loss": 0.6018,
      "step": 5569
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7466130482294941,
      "learning_rate": 1.4597390720053683e-06,
      "loss": 0.6468,
      "step": 5570
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9423993658104308,
      "learning_rate": 1.4572256830070497e-06,
      "loss": 0.6546,
      "step": 5571
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9139430829397446,
      "learning_rate": 1.454714289601661e-06,
      "loss": 0.6541,
      "step": 5572
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6382701296826898,
      "learning_rate": 1.4522048923758647e-06,
      "loss": 0.6153,
      "step": 5573
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8232637325846992,
      "learning_rate": 1.4496974919158569e-06,
      "loss": 0.6294,
      "step": 5574
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1442908652560315,
      "learning_rate": 1.4471920888073676e-06,
      "loss": 0.7012,
      "step": 5575
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9550878588337255,
      "learning_rate": 1.4446886836356578e-06,
      "loss": 0.7005,
      "step": 5576
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7917333235588706,
      "learning_rate": 1.4421872769855262e-06,
      "loss": 0.6392,
      "step": 5577
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1288750557276557,
      "learning_rate": 1.4396878694412975e-06,
      "loss": 0.6987,
      "step": 5578
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9042394743396276,
      "learning_rate": 1.4371904615868348e-06,
      "loss": 0.6492,
      "step": 5579
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8805640059357402,
      "learning_rate": 1.4346950540055327e-06,
      "loss": 0.6529,
      "step": 5580
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7371575681725018,
      "learning_rate": 1.4322016472803202e-06,
      "loss": 0.6841,
      "step": 5581
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.0718303421033495,
      "learning_rate": 1.4297102419936559e-06,
      "loss": 0.6458,
      "step": 5582
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9721787034805212,
      "learning_rate": 1.4272208387275332e-06,
      "loss": 0.6235,
      "step": 5583
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.658575005786279,
      "learning_rate": 1.4247334380634792e-06,
      "loss": 0.6083,
      "step": 5584
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.3617535705258317,
      "learning_rate": 1.4222480405825455e-06,
      "loss": 0.6679,
      "step": 5585
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.0693932773417445,
      "learning_rate": 1.4197646468653236e-06,
      "loss": 0.746,
      "step": 5586
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.722858151204304,
      "learning_rate": 1.4172832574919359e-06,
      "loss": 0.6099,
      "step": 5587
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.718639238559242,
      "learning_rate": 1.4148038730420333e-06,
      "loss": 0.6379,
      "step": 5588
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1418740391001916,
      "learning_rate": 1.4123264940948022e-06,
      "loss": 0.7708,
      "step": 5589
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.1550758593696253,
      "learning_rate": 1.409851121228959e-06,
      "loss": 0.715,
      "step": 5590
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.799713082192165,
      "learning_rate": 1.4073777550227485e-06,
      "loss": 0.6503,
      "step": 5591
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.0923341572418326,
      "learning_rate": 1.4049063960539488e-06,
      "loss": 0.7418,
      "step": 5592
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.7418319874379233,
      "learning_rate": 1.4024370448998726e-06,
      "loss": 0.6825,
      "step": 5593
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5707457003845098,
      "learning_rate": 1.3999697021373582e-06,
      "loss": 0.5535,
      "step": 5594
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7827798685876575,
      "learning_rate": 1.3975043683427791e-06,
      "loss": 0.666,
      "step": 5595
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7707815569397174,
      "learning_rate": 1.3950410440920359e-06,
      "loss": 0.6728,
      "step": 5596
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6808501709064168,
      "learning_rate": 1.3925797299605649e-06,
      "loss": 0.6447,
      "step": 5597
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9463534043042163,
      "learning_rate": 1.3901204265233237e-06,
      "loss": 0.5913,
      "step": 5598
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9629565590392637,
      "learning_rate": 1.3876631343548085e-06,
      "loss": 0.6971,
      "step": 5599
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.304185499111254,
      "learning_rate": 1.3852078540290437e-06,
      "loss": 0.6848,
      "step": 5600
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9154926199841553,
      "learning_rate": 1.3827545861195813e-06,
      "loss": 0.6375,
      "step": 5601
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.049105452923126,
      "learning_rate": 1.3803033311995072e-06,
      "loss": 0.5886,
      "step": 5602
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8365287758612374,
      "learning_rate": 1.3778540898414349e-06,
      "loss": 0.5764,
      "step": 5603
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.2684477611268092,
      "learning_rate": 1.3754068626175043e-06,
      "loss": 0.6604,
      "step": 5604
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9802504890167105,
      "learning_rate": 1.3729616500993902e-06,
      "loss": 0.6182,
      "step": 5605
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7936411814521351,
      "learning_rate": 1.3705184528582937e-06,
      "loss": 0.6566,
      "step": 5606
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.4344891809320073,
      "learning_rate": 1.368077271464946e-06,
      "loss": 0.6467,
      "step": 5607
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0598042086043598,
      "learning_rate": 1.3656381064896084e-06,
      "loss": 0.668,
      "step": 5608
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.718912071275903,
      "learning_rate": 1.3632009585020712e-06,
      "loss": 0.5845,
      "step": 5609
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.432052252281344,
      "learning_rate": 1.3607658280716474e-06,
      "loss": 0.6174,
      "step": 5610
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8589064372321586,
      "learning_rate": 1.3583327157671878e-06,
      "loss": 0.7088,
      "step": 5611
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7945702104626586,
      "learning_rate": 1.3559016221570663e-06,
      "loss": 0.6373,
      "step": 5612
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6499708093831038,
      "learning_rate": 1.353472547809187e-06,
      "loss": 0.6655,
      "step": 5613
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7049534896693666,
      "learning_rate": 1.3510454932909823e-06,
      "loss": 0.5995,
      "step": 5614
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.797250105411004,
      "learning_rate": 1.3486204591694118e-06,
      "loss": 0.6779,
      "step": 5615
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7369496817651673,
      "learning_rate": 1.346197446010965e-06,
      "loss": 0.614,
      "step": 5616
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.140382855380102,
      "learning_rate": 1.3437764543816556e-06,
      "loss": 0.7082,
      "step": 5617
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.26707024276432,
      "learning_rate": 1.341357484847029e-06,
      "loss": 0.6676,
      "step": 5618
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.1910600523168684,
      "learning_rate": 1.3389405379721564e-06,
      "loss": 0.6172,
      "step": 5619
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.659278348836876,
      "learning_rate": 1.3365256143216377e-06,
      "loss": 0.6319,
      "step": 5620
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6852503656769766,
      "learning_rate": 1.3341127144595978e-06,
      "loss": 0.6496,
      "step": 5621
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.2844176392917017,
      "learning_rate": 1.3317018389496927e-06,
      "loss": 0.6617,
      "step": 5622
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.1162510516485478,
      "learning_rate": 1.3292929883550998e-06,
      "loss": 0.7832,
      "step": 5623
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0297771503419337,
      "learning_rate": 1.3268861632385288e-06,
      "loss": 0.7639,
      "step": 5624
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.4694182935097833,
      "learning_rate": 1.3244813641622146e-06,
      "loss": 0.6282,
      "step": 5625
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8326207255753515,
      "learning_rate": 1.3220785916879165e-06,
      "loss": 0.579,
      "step": 5626
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8469462674653574,
      "learning_rate": 1.3196778463769256e-06,
      "loss": 0.6568,
      "step": 5627
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.1369495925129334,
      "learning_rate": 1.3172791287900555e-06,
      "loss": 0.6244,
      "step": 5628
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6865064605256,
      "learning_rate": 1.3148824394876437e-06,
      "loss": 0.5812,
      "step": 5629
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.740464761479738,
      "learning_rate": 1.3124877790295597e-06,
      "loss": 0.5832,
      "step": 5630
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.17642249613248,
      "learning_rate": 1.3100951479751967e-06,
      "loss": 0.6252,
      "step": 5631
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.798216450200415,
      "learning_rate": 1.3077045468834714e-06,
      "loss": 0.6566,
      "step": 5632
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.89051647606748,
      "learning_rate": 1.3053159763128308e-06,
      "loss": 0.6494,
      "step": 5633
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.94633952326617,
      "learning_rate": 1.3029294368212464e-06,
      "loss": 0.6389,
      "step": 5634
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8730510678635093,
      "learning_rate": 1.3005449289662099e-06,
      "loss": 0.6264,
      "step": 5635
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7625393844744532,
      "learning_rate": 1.2981624533047432e-06,
      "loss": 0.6142,
      "step": 5636
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8460105054135159,
      "learning_rate": 1.295782010393396e-06,
      "loss": 0.6364,
      "step": 5637
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8008107477670412,
      "learning_rate": 1.2934036007882378e-06,
      "loss": 0.6367,
      "step": 5638
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7449248369480717,
      "learning_rate": 1.2910272250448675e-06,
      "loss": 0.5831,
      "step": 5639
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.844739197204032,
      "learning_rate": 1.288652883718403e-06,
      "loss": 0.6742,
      "step": 5640
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0210687896897905,
      "learning_rate": 1.2862805773634934e-06,
      "loss": 0.71,
      "step": 5641
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7117874191673659,
      "learning_rate": 1.2839103065343084e-06,
      "loss": 0.695,
      "step": 5642
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.857756208184875,
      "learning_rate": 1.281542071784544e-06,
      "loss": 0.6247,
      "step": 5643
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7089202585713184,
      "learning_rate": 1.2791758736674232e-06,
      "loss": 0.7104,
      "step": 5644
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8616287814484853,
      "learning_rate": 1.2768117127356838e-06,
      "loss": 0.6481,
      "step": 5645
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.2387012730049745,
      "learning_rate": 1.2744495895415975e-06,
      "loss": 0.6841,
      "step": 5646
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0317322996741627,
      "learning_rate": 1.2720895046369564e-06,
      "loss": 0.6341,
      "step": 5647
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5625911150285752,
      "learning_rate": 1.269731458573077e-06,
      "loss": 0.66,
      "step": 5648
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9159342420101213,
      "learning_rate": 1.2673754519008008e-06,
      "loss": 0.6467,
      "step": 5649
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9246152417041502,
      "learning_rate": 1.2650214851704866e-06,
      "loss": 0.6611,
      "step": 5650
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0243703159025936,
      "learning_rate": 1.2626695589320226e-06,
      "loss": 0.6372,
      "step": 5651
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.3321254314720075,
      "learning_rate": 1.2603196737348211e-06,
      "loss": 0.6483,
      "step": 5652
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6348555586138973,
      "learning_rate": 1.2579718301278143e-06,
      "loss": 0.559,
      "step": 5653
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.377309502602845,
      "learning_rate": 1.255626028659459e-06,
      "loss": 0.637,
      "step": 5654
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8089164587907398,
      "learning_rate": 1.253282269877737e-06,
      "loss": 0.6829,
      "step": 5655
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.2637261537831805,
      "learning_rate": 1.2509405543301456e-06,
      "loss": 0.6888,
      "step": 5656
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7733123022932478,
      "learning_rate": 1.2486008825637119e-06,
      "loss": 0.6526,
      "step": 5657
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.620262246559348,
      "learning_rate": 1.2462632551249842e-06,
      "loss": 0.5632,
      "step": 5658
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7773210464913538,
      "learning_rate": 1.2439276725600324e-06,
      "loss": 0.6178,
      "step": 5659
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.861577301952758,
      "learning_rate": 1.2415941354144478e-06,
      "loss": 0.6823,
      "step": 5660
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6840928869086824,
      "learning_rate": 1.2392626442333488e-06,
      "loss": 0.5437,
      "step": 5661
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6887665749390137,
      "learning_rate": 1.2369331995613664e-06,
      "loss": 0.6409,
      "step": 5662
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8298980783458365,
      "learning_rate": 1.234605801942661e-06,
      "loss": 0.6338,
      "step": 5663
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8165783344422686,
      "learning_rate": 1.232280451920914e-06,
      "loss": 0.6907,
      "step": 5664
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9235159311159176,
      "learning_rate": 1.229957150039327e-06,
      "loss": 0.6393,
      "step": 5665
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.4817838101680607,
      "learning_rate": 1.2276358968406233e-06,
      "loss": 0.7099,
      "step": 5666
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6089731371537266,
      "learning_rate": 1.2253166928670478e-06,
      "loss": 0.6059,
      "step": 5667
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.107044848099487,
      "learning_rate": 1.222999538660369e-06,
      "loss": 0.6055,
      "step": 5668
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.877990451425716,
      "learning_rate": 1.2206844347618707e-06,
      "loss": 0.6864,
      "step": 5669
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7984311435825944,
      "learning_rate": 1.2183713817123622e-06,
      "loss": 0.6343,
      "step": 5670
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7317893803987787,
      "learning_rate": 1.2160603800521742e-06,
      "loss": 0.6227,
      "step": 5671
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0691675658609037,
      "learning_rate": 1.213751430321156e-06,
      "loss": 0.6848,
      "step": 5672
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.2753453167655366,
      "learning_rate": 1.21144453305868e-06,
      "loss": 0.7124,
      "step": 5673
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4997546936000767,
      "learning_rate": 1.2091396888036388e-06,
      "loss": 0.6862,
      "step": 5674
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9054163092611915,
      "learning_rate": 1.206836898094439e-06,
      "loss": 0.6736,
      "step": 5675
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.1256650377611375,
      "learning_rate": 1.2045361614690166e-06,
      "loss": 0.6817,
      "step": 5676
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9221910164657114,
      "learning_rate": 1.2022374794648229e-06,
      "loss": 0.7009,
      "step": 5677
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8298722521603177,
      "learning_rate": 1.1999408526188295e-06,
      "loss": 0.6075,
      "step": 5678
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.149770750771173,
      "learning_rate": 1.1976462814675305e-06,
      "loss": 0.6211,
      "step": 5679
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7269303162980487,
      "learning_rate": 1.1953537665469383e-06,
      "loss": 0.6235,
      "step": 5680
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.233420437396321,
      "learning_rate": 1.1930633083925824e-06,
      "loss": 0.6819,
      "step": 5681
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9389611586468973,
      "learning_rate": 1.1907749075395147e-06,
      "loss": 0.6746,
      "step": 5682
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0117129956411484,
      "learning_rate": 1.1884885645223055e-06,
      "loss": 0.6428,
      "step": 5683
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.2210180985962444,
      "learning_rate": 1.1862042798750462e-06,
      "loss": 0.7561,
      "step": 5684
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5626785700101091,
      "learning_rate": 1.1839220541313445e-06,
      "loss": 0.6297,
      "step": 5685
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8968093790830813,
      "learning_rate": 1.1816418878243296e-06,
      "loss": 0.644,
      "step": 5686
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0648180007626515,
      "learning_rate": 1.179363781486651e-06,
      "loss": 0.6346,
      "step": 5687
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0105322356651167,
      "learning_rate": 1.1770877356504684e-06,
      "loss": 0.5915,
      "step": 5688
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9977634433980447,
      "learning_rate": 1.1748137508474699e-06,
      "loss": 0.6856,
      "step": 5689
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8470449986096495,
      "learning_rate": 1.1725418276088596e-06,
      "loss": 0.599,
      "step": 5690
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.161943906461014,
      "learning_rate": 1.170271966465356e-06,
      "loss": 0.588,
      "step": 5691
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9131773046001337,
      "learning_rate": 1.168004167947202e-06,
      "loss": 0.6609,
      "step": 5692
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.836890801494246,
      "learning_rate": 1.1657384325841558e-06,
      "loss": 0.6695,
      "step": 5693
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7695148329165657,
      "learning_rate": 1.1634747609054897e-06,
      "loss": 0.6345,
      "step": 5694
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6235231493215798,
      "learning_rate": 1.1612131534399995e-06,
      "loss": 0.6485,
      "step": 5695
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7330264263990656,
      "learning_rate": 1.1589536107159981e-06,
      "loss": 0.5771,
      "step": 5696
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8844631812738466,
      "learning_rate": 1.1566961332613136e-06,
      "loss": 0.5958,
      "step": 5697
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6797926062425002,
      "learning_rate": 1.1544407216032928e-06,
      "loss": 0.5477,
      "step": 5698
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.952770591529733,
      "learning_rate": 1.1521873762688007e-06,
      "loss": 0.7691,
      "step": 5699
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8814640666723608,
      "learning_rate": 1.1499360977842212e-06,
      "loss": 0.557,
      "step": 5700
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9275515986858278,
      "learning_rate": 1.1476868866754488e-06,
      "loss": 0.6526,
      "step": 5701
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.83728112971211,
      "learning_rate": 1.1454397434679022e-06,
      "loss": 0.6567,
      "step": 5702
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.813431633797848,
      "learning_rate": 1.1431946686865124e-06,
      "loss": 0.6654,
      "step": 5703
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.939472130885047,
      "learning_rate": 1.1409516628557315e-06,
      "loss": 0.5752,
      "step": 5704
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8098941547597538,
      "learning_rate": 1.1387107264995234e-06,
      "loss": 0.7013,
      "step": 5705
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7572220924451436,
      "learning_rate": 1.136471860141376e-06,
      "loss": 0.6494,
      "step": 5706
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.789604727115363,
      "learning_rate": 1.1342350643042822e-06,
      "loss": 0.6646,
      "step": 5707
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.2617553293320034,
      "learning_rate": 1.1320003395107604e-06,
      "loss": 0.6008,
      "step": 5708
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0123090645958857,
      "learning_rate": 1.1297676862828421e-06,
      "loss": 0.6399,
      "step": 5709
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.044821098334121,
      "learning_rate": 1.1275371051420769e-06,
      "loss": 0.648,
      "step": 5710
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.680502990572693,
      "learning_rate": 1.1253085966095278e-06,
      "loss": 0.6148,
      "step": 5711
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7991499315028645,
      "learning_rate": 1.123082161205775e-06,
      "loss": 0.7013,
      "step": 5712
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0064894409888048,
      "learning_rate": 1.120857799450915e-06,
      "loss": 0.687,
      "step": 5713
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7963653603040894,
      "learning_rate": 1.1186355118645552e-06,
      "loss": 0.6737,
      "step": 5714
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6585406450926607,
      "learning_rate": 1.1164152989658251e-06,
      "loss": 0.6274,
      "step": 5715
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7364818937042017,
      "learning_rate": 1.114197161273367e-06,
      "loss": 0.618,
      "step": 5716
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7871330934482408,
      "learning_rate": 1.111981099305336e-06,
      "loss": 0.6489,
      "step": 5717
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.06005382788061,
      "learning_rate": 1.1097671135794063e-06,
      "loss": 0.6089,
      "step": 5718
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7980853658546998,
      "learning_rate": 1.1075552046127658e-06,
      "loss": 0.6477,
      "step": 5719
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9443950923140623,
      "learning_rate": 1.1053453729221142e-06,
      "loss": 0.5555,
      "step": 5720
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.061156469253678,
      "learning_rate": 1.1031376190236687e-06,
      "loss": 0.6446,
      "step": 5721
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.937521876592338,
      "learning_rate": 1.1009319434331623e-06,
      "loss": 0.6454,
      "step": 5722
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.1266364315077064,
      "learning_rate": 1.0987283466658404e-06,
      "loss": 0.6804,
      "step": 5723
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.889815924643468,
      "learning_rate": 1.0965268292364639e-06,
      "loss": 0.5796,
      "step": 5724
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.133152599858365,
      "learning_rate": 1.0943273916593067e-06,
      "loss": 0.6962,
      "step": 5725
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7255937860428068,
      "learning_rate": 1.092130034448159e-06,
      "loss": 0.6276,
      "step": 5726
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6351086210112433,
      "learning_rate": 1.0899347581163222e-06,
      "loss": 0.6321,
      "step": 5727
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6658285647493987,
      "learning_rate": 1.087741563176613e-06,
      "loss": 0.737,
      "step": 5728
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9514443049778323,
      "learning_rate": 1.0855504501413616e-06,
      "loss": 0.6665,
      "step": 5729
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9370350979143645,
      "learning_rate": 1.0833614195224141e-06,
      "loss": 0.6896,
      "step": 5730
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9554206611795695,
      "learning_rate": 1.0811744718311267e-06,
      "loss": 0.6447,
      "step": 5731
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.077683495473946,
      "learning_rate": 1.0789896075783734e-06,
      "loss": 0.6652,
      "step": 5732
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7941245040256317,
      "learning_rate": 1.0768068272745347e-06,
      "loss": 0.668,
      "step": 5733
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8769767138101952,
      "learning_rate": 1.0746261314295104e-06,
      "loss": 0.7078,
      "step": 5734
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.038181070913071,
      "learning_rate": 1.0724475205527107e-06,
      "loss": 0.6707,
      "step": 5735
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9803805673706454,
      "learning_rate": 1.0702709951530587e-06,
      "loss": 0.6371,
      "step": 5736
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7361478844762988,
      "learning_rate": 1.0680965557389934e-06,
      "loss": 0.6488,
      "step": 5737
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8984693437720908,
      "learning_rate": 1.0659242028184635e-06,
      "loss": 0.5422,
      "step": 5738
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8746463523792452,
      "learning_rate": 1.063753936898928e-06,
      "loss": 0.7177,
      "step": 5739
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7655312227547297,
      "learning_rate": 1.0615857584873624e-06,
      "loss": 0.6402,
      "step": 5740
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.318195852494184,
      "learning_rate": 1.0594196680902547e-06,
      "loss": 0.6051,
      "step": 5741
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.718829086498657,
      "learning_rate": 1.0572556662136036e-06,
      "loss": 0.6097,
      "step": 5742
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7509568180896802,
      "learning_rate": 1.055093753362919e-06,
      "loss": 0.6187,
      "step": 5743
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.307537474590433,
      "learning_rate": 1.052933930043225e-06,
      "loss": 0.6195,
      "step": 5744
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7910484237637685,
      "learning_rate": 1.050776196759058e-06,
      "loss": 0.6243,
      "step": 5745
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8716589115531157,
      "learning_rate": 1.0486205540144612e-06,
      "loss": 0.6875,
      "step": 5746
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8854913912275042,
      "learning_rate": 1.0464670023129952e-06,
      "loss": 0.6299,
      "step": 5747
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1861914262031112,
      "learning_rate": 1.044315542157729e-06,
      "loss": 0.644,
      "step": 5748
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.3151127171541273,
      "learning_rate": 1.0421661740512445e-06,
      "loss": 0.5874,
      "step": 5749
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8085708823081212,
      "learning_rate": 1.0400188984956339e-06,
      "loss": 0.6398,
      "step": 5750
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7742057587488655,
      "learning_rate": 1.0378737159925023e-06,
      "loss": 0.6847,
      "step": 5751
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7591511937621425,
      "learning_rate": 1.0357306270429623e-06,
      "loss": 0.6773,
      "step": 5752
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.1365012889323247,
      "learning_rate": 1.0335896321476413e-06,
      "loss": 0.65,
      "step": 5753
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6258968642255038,
      "learning_rate": 1.0314507318066757e-06,
      "loss": 0.6254,
      "step": 5754
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.106334372827465,
      "learning_rate": 1.0293139265197116e-06,
      "loss": 0.5636,
      "step": 5755
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9173880134643166,
      "learning_rate": 1.0271792167859084e-06,
      "loss": 0.6342,
      "step": 5756
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.07029210088906,
      "learning_rate": 1.0250466031039353e-06,
      "loss": 0.629,
      "step": 5757
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.786527062725906,
      "learning_rate": 1.0229160859719688e-06,
      "loss": 0.5961,
      "step": 5758
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.02625824806319,
      "learning_rate": 1.020787665887699e-06,
      "loss": 0.6683,
      "step": 5759
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9634770887097597,
      "learning_rate": 1.0186613433483238e-06,
      "loss": 0.6695,
      "step": 5760
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7272137711931432,
      "learning_rate": 1.0165371188505546e-06,
      "loss": 0.7336,
      "step": 5761
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7012720679798026,
      "learning_rate": 1.014414992890611e-06,
      "loss": 0.7354,
      "step": 5762
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5344503421606475,
      "learning_rate": 1.012294965964218e-06,
      "loss": 0.6014,
      "step": 5763
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.1919194706930143,
      "learning_rate": 1.0101770385666166e-06,
      "loss": 0.601,
      "step": 5764
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.78478700393277,
      "learning_rate": 1.0080612111925547e-06,
      "loss": 0.6096,
      "step": 5765
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7889711544108733,
      "learning_rate": 1.0059474843362893e-06,
      "loss": 0.7102,
      "step": 5766
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.73443624987764,
      "learning_rate": 1.0038358584915896e-06,
      "loss": 0.6244,
      "step": 5767
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8536825409011914,
      "learning_rate": 1.001726334151728e-06,
      "loss": 0.6356,
      "step": 5768
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7614659278677607,
      "learning_rate": 9.996189118094901e-07,
      "loss": 0.5597,
      "step": 5769
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8875861743271274,
      "learning_rate": 9.97513591957172e-07,
      "loss": 0.7009,
      "step": 5770
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.732535064812514,
      "learning_rate": 9.954103750865762e-07,
      "loss": 0.649,
      "step": 5771
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.006106730912903,
      "learning_rate": 9.93309261689015e-07,
      "loss": 0.6941,
      "step": 5772
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.937232646135206,
      "learning_rate": 9.912102522553047e-07,
      "loss": 0.6407,
      "step": 5773
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7533468562260048,
      "learning_rate": 9.891133472757774e-07,
      "loss": 0.639,
      "step": 5774
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6459890916528928,
      "learning_rate": 9.870185472402705e-07,
      "loss": 0.589,
      "step": 5775
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7592589794922493,
      "learning_rate": 9.849258526381288e-07,
      "loss": 0.6472,
      "step": 5776
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7311949319496887,
      "learning_rate": 9.828352639582073e-07,
      "loss": 0.6477,
      "step": 5777
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.2758163723456173,
      "learning_rate": 9.80746781688865e-07,
      "loss": 0.699,
      "step": 5778
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3096349961185307,
      "learning_rate": 9.786604063179728e-07,
      "loss": 0.7084,
      "step": 5779
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.111120833931715,
      "learning_rate": 9.765761383329087e-07,
      "loss": 0.6859,
      "step": 5780
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.172355249389066,
      "learning_rate": 9.744939782205575e-07,
      "loss": 0.631,
      "step": 5781
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.380062604557018,
      "learning_rate": 9.724139264673116e-07,
      "loss": 0.6806,
      "step": 5782
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1385008183349654,
      "learning_rate": 9.703359835590731e-07,
      "loss": 0.6486,
      "step": 5783
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.3200975681173324,
      "learning_rate": 9.682601499812494e-07,
      "loss": 0.7112,
      "step": 5784
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7778291607745742,
      "learning_rate": 9.661864262187527e-07,
      "loss": 0.6619,
      "step": 5785
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9556049890749485,
      "learning_rate": 9.641148127560063e-07,
      "loss": 0.6761,
      "step": 5786
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.0850129710764103,
      "learning_rate": 9.6204531007694e-07,
      "loss": 0.7387,
      "step": 5787
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9611859293817122,
      "learning_rate": 9.599779186649893e-07,
      "loss": 0.6784,
      "step": 5788
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.935731582531777,
      "learning_rate": 9.57912639003098e-07,
      "loss": 0.6418,
      "step": 5789
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9708030983251645,
      "learning_rate": 9.558494715737166e-07,
      "loss": 0.6851,
      "step": 5790
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8620388045296767,
      "learning_rate": 9.537884168587974e-07,
      "loss": 0.5764,
      "step": 5791
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.002589656633796,
      "learning_rate": 9.517294753398066e-07,
      "loss": 0.619,
      "step": 5792
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.1930939059142474,
      "learning_rate": 9.496726474977103e-07,
      "loss": 0.589,
      "step": 5793
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.628210844211498,
      "learning_rate": 9.476179338129854e-07,
      "loss": 0.6563,
      "step": 5794
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9139061657511798,
      "learning_rate": 9.455653347656135e-07,
      "loss": 0.6781,
      "step": 5795
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.0427908193640016,
      "learning_rate": 9.435148508350822e-07,
      "loss": 0.6454,
      "step": 5796
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6460245983263548,
      "learning_rate": 9.414664825003838e-07,
      "loss": 0.6067,
      "step": 5797
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.939771234992032,
      "learning_rate": 9.394202302400158e-07,
      "loss": 0.5607,
      "step": 5798
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.077173356515813,
      "learning_rate": 9.373760945319854e-07,
      "loss": 0.676,
      "step": 5799
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1929066290309998,
      "learning_rate": 9.353340758538021e-07,
      "loss": 0.6363,
      "step": 5800
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.830485855595177,
      "learning_rate": 9.332941746824819e-07,
      "loss": 0.7143,
      "step": 5801
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8353160961337829,
      "learning_rate": 9.312563914945461e-07,
      "loss": 0.5602,
      "step": 5802
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.35266653735043,
      "learning_rate": 9.292207267660214e-07,
      "loss": 0.6844,
      "step": 5803
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1132505518242308,
      "learning_rate": 9.271871809724375e-07,
      "loss": 0.576,
      "step": 5804
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7211051129794603,
      "learning_rate": 9.251557545888312e-07,
      "loss": 0.6295,
      "step": 5805
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9643578351722322,
      "learning_rate": 9.231264480897461e-07,
      "loss": 0.6733,
      "step": 5806
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9104710053711973,
      "learning_rate": 9.210992619492254e-07,
      "loss": 0.6344,
      "step": 5807
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8068513270278006,
      "learning_rate": 9.190741966408224e-07,
      "loss": 0.6825,
      "step": 5808
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.200540374544626,
      "learning_rate": 9.17051252637593e-07,
      "loss": 0.6752,
      "step": 5809
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7598514908055714,
      "learning_rate": 9.15030430412095e-07,
      "loss": 0.7255,
      "step": 5810
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9164867221897828,
      "learning_rate": 9.130117304363928e-07,
      "loss": 0.6234,
      "step": 5811
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.1108552799671827,
      "learning_rate": 9.10995153182056e-07,
      "loss": 0.6168,
      "step": 5812
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.965001711490188,
      "learning_rate": 9.089806991201567e-07,
      "loss": 0.6659,
      "step": 5813
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7983951906038858,
      "learning_rate": 9.069683687212716e-07,
      "loss": 0.6417,
      "step": 5814
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6443599329839254,
      "learning_rate": 9.049581624554816e-07,
      "loss": 0.5896,
      "step": 5815
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7382907342286944,
      "learning_rate": 9.029500807923719e-07,
      "loss": 0.627,
      "step": 5816
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6852741006189338,
      "learning_rate": 9.009441242010287e-07,
      "loss": 0.6112,
      "step": 5817
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7831911562173954,
      "learning_rate": 8.989402931500434e-07,
      "loss": 0.6305,
      "step": 5818
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9079368829823182,
      "learning_rate": 8.969385881075132e-07,
      "loss": 0.6687,
      "step": 5819
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.930183730579865,
      "learning_rate": 8.94939009541036e-07,
      "loss": 0.7244,
      "step": 5820
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.864174215991068,
      "learning_rate": 8.929415579177125e-07,
      "loss": 0.6792,
      "step": 5821
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7645017462814385,
      "learning_rate": 8.909462337041508e-07,
      "loss": 0.655,
      "step": 5822
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.3439859318749914,
      "learning_rate": 8.889530373664546e-07,
      "loss": 0.6285,
      "step": 5823
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.876975209668416,
      "learning_rate": 8.869619693702358e-07,
      "loss": 0.6093,
      "step": 5824
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8371583822361064,
      "learning_rate": 8.849730301806092e-07,
      "loss": 0.6569,
      "step": 5825
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6880955424118915,
      "learning_rate": 8.829862202621908e-07,
      "loss": 0.6777,
      "step": 5826
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6220060093032427,
      "learning_rate": 8.810015400790994e-07,
      "loss": 0.561,
      "step": 5827
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5909746781362186,
      "learning_rate": 8.790189900949563e-07,
      "loss": 0.5735,
      "step": 5828
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4695477633934912,
      "learning_rate": 8.770385707728879e-07,
      "loss": 0.5358,
      "step": 5829
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5726621726090189,
      "learning_rate": 8.750602825755172e-07,
      "loss": 0.6375,
      "step": 5830
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8300443263610686,
      "learning_rate": 8.730841259649725e-07,
      "loss": 0.6097,
      "step": 5831
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9534450814522129,
      "learning_rate": 8.711101014028855e-07,
      "loss": 0.6898,
      "step": 5832
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9571036033454805,
      "learning_rate": 8.691382093503886e-07,
      "loss": 0.5464,
      "step": 5833
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6582651972288354,
      "learning_rate": 8.671684502681155e-07,
      "loss": 0.6375,
      "step": 5834
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7989424399839942,
      "learning_rate": 8.652008246162036e-07,
      "loss": 0.6204,
      "step": 5835
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.349511061009208,
      "learning_rate": 8.632353328542875e-07,
      "loss": 0.7211,
      "step": 5836
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5516199501179122,
      "learning_rate": 8.612719754415078e-07,
      "loss": 0.6186,
      "step": 5837
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.0156218216661843,
      "learning_rate": 8.593107528365052e-07,
      "loss": 0.6527,
      "step": 5838
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8660600211981386,
      "learning_rate": 8.573516654974212e-07,
      "loss": 0.6725,
      "step": 5839
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.750985074770442,
      "learning_rate": 8.553947138818985e-07,
      "loss": 0.6768,
      "step": 5840
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9928575646498157,
      "learning_rate": 8.534398984470827e-07,
      "loss": 0.6026,
      "step": 5841
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1816746554344002,
      "learning_rate": 8.514872196496182e-07,
      "loss": 0.6751,
      "step": 5842
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9735242336455094,
      "learning_rate": 8.495366779456493e-07,
      "loss": 0.6281,
      "step": 5843
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.1177710599056536,
      "learning_rate": 8.475882737908248e-07,
      "loss": 0.6761,
      "step": 5844
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.000188337176573,
      "learning_rate": 8.456420076402904e-07,
      "loss": 0.5927,
      "step": 5845
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8859810125206375,
      "learning_rate": 8.436978799486962e-07,
      "loss": 0.572,
      "step": 5846
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.808782293500761,
      "learning_rate": 8.417558911701884e-07,
      "loss": 0.6013,
      "step": 5847
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.724053512354432,
      "learning_rate": 8.398160417584178e-07,
      "loss": 0.635,
      "step": 5848
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9544840668063461,
      "learning_rate": 8.378783321665318e-07,
      "loss": 0.6568,
      "step": 5849
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7187878611811014,
      "learning_rate": 8.359427628471806e-07,
      "loss": 0.5563,
      "step": 5850
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.37081661653403,
      "learning_rate": 8.340093342525113e-07,
      "loss": 0.7064,
      "step": 5851
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2399453054083782,
      "learning_rate": 8.320780468341761e-07,
      "loss": 0.667,
      "step": 5852
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9587481507941837,
      "learning_rate": 8.301489010433216e-07,
      "loss": 0.6831,
      "step": 5853
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6876613270648986,
      "learning_rate": 8.282218973305978e-07,
      "loss": 0.6676,
      "step": 5854
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7580153976547863,
      "learning_rate": 8.262970361461542e-07,
      "loss": 0.6314,
      "step": 5855
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.472882119735458,
      "learning_rate": 8.243743179396346e-07,
      "loss": 0.6462,
      "step": 5856
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.889363167608269,
      "learning_rate": 8.224537431601886e-07,
      "loss": 0.6388,
      "step": 5857
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.098175278217873,
      "learning_rate": 8.205353122564629e-07,
      "loss": 0.5976,
      "step": 5858
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7006866525552218,
      "learning_rate": 8.186190256766025e-07,
      "loss": 0.5881,
      "step": 5859
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.5723735535670893,
      "learning_rate": 8.167048838682523e-07,
      "loss": 0.7092,
      "step": 5860
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.2330687011924173,
      "learning_rate": 8.147928872785571e-07,
      "loss": 0.6498,
      "step": 5861
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9058837794205845,
      "learning_rate": 8.128830363541574e-07,
      "loss": 0.6598,
      "step": 5862
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.069883658238785,
      "learning_rate": 8.109753315411962e-07,
      "loss": 0.652,
      "step": 5863
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9384307564363856,
      "learning_rate": 8.090697732853125e-07,
      "loss": 0.6507,
      "step": 5864
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5813483913398045,
      "learning_rate": 8.07166362031645e-07,
      "loss": 0.5862,
      "step": 5865
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8596126592559286,
      "learning_rate": 8.052650982248311e-07,
      "loss": 0.7154,
      "step": 5866
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8912616430620275,
      "learning_rate": 8.03365982309009e-07,
      "loss": 0.6556,
      "step": 5867
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.670029928293031,
      "learning_rate": 8.01469014727807e-07,
      "loss": 0.6507,
      "step": 5868
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6258092059624076,
      "learning_rate": 7.995741959243597e-07,
      "loss": 0.64,
      "step": 5869
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.919615499940637,
      "learning_rate": 7.976815263412963e-07,
      "loss": 0.6819,
      "step": 5870
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.191841593719087,
      "learning_rate": 7.957910064207453e-07,
      "loss": 0.6394,
      "step": 5871
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7684120765378935,
      "learning_rate": 7.939026366043323e-07,
      "loss": 0.6316,
      "step": 5872
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7110781065320013,
      "learning_rate": 7.920164173331812e-07,
      "loss": 0.6544,
      "step": 5873
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9584688632110592,
      "learning_rate": 7.901323490479129e-07,
      "loss": 0.6384,
      "step": 5874
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6094976495704063,
      "learning_rate": 7.882504321886442e-07,
      "loss": 0.6472,
      "step": 5875
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7377773897280444,
      "learning_rate": 7.863706671949922e-07,
      "loss": 0.6082,
      "step": 5876
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.899713027357994,
      "learning_rate": 7.844930545060703e-07,
      "loss": 0.5855,
      "step": 5877
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.2944378510702337,
      "learning_rate": 7.826175945604886e-07,
      "loss": 0.7081,
      "step": 5878
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9272306941716006,
      "learning_rate": 7.807442877963556e-07,
      "loss": 0.6608,
      "step": 5879
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9130810586552771,
      "learning_rate": 7.788731346512768e-07,
      "loss": 0.5453,
      "step": 5880
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.099144421768619,
      "learning_rate": 7.770041355623504e-07,
      "loss": 0.7112,
      "step": 5881
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6217921973152456,
      "learning_rate": 7.75137290966177e-07,
      "loss": 0.6569,
      "step": 5882
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.383354959847084,
      "learning_rate": 7.732726012988512e-07,
      "loss": 0.6579,
      "step": 5883
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9235961063807736,
      "learning_rate": 7.714100669959656e-07,
      "loss": 0.6556,
      "step": 5884
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8760586508201496,
      "learning_rate": 7.695496884926079e-07,
      "loss": 0.6937,
      "step": 5885
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.0561667693478927,
      "learning_rate": 7.676914662233625e-07,
      "loss": 0.6386,
      "step": 5886
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.3625725977218446,
      "learning_rate": 7.65835400622309e-07,
      "loss": 0.6002,
      "step": 5887
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7356363662211156,
      "learning_rate": 7.639814921230271e-07,
      "loss": 0.6374,
      "step": 5888
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.158172083141424,
      "learning_rate": 7.621297411585881e-07,
      "loss": 0.5776,
      "step": 5889
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8204430225260024,
      "learning_rate": 7.602801481615629e-07,
      "loss": 0.6638,
      "step": 5890
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.063965621797652,
      "learning_rate": 7.584327135640146e-07,
      "loss": 0.6264,
      "step": 5891
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6936930733006843,
      "learning_rate": 7.565874377975046e-07,
      "loss": 0.6782,
      "step": 5892
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.736027000965928,
      "learning_rate": 7.547443212930906e-07,
      "loss": 0.5844,
      "step": 5893
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.144711536416625,
      "learning_rate": 7.529033644813232e-07,
      "loss": 0.6354,
      "step": 5894
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8092331567542905,
      "learning_rate": 7.510645677922534e-07,
      "loss": 0.6562,
      "step": 5895
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.3993925971430214,
      "learning_rate": 7.492279316554207e-07,
      "loss": 0.6756,
      "step": 5896
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.634209038543831,
      "learning_rate": 7.473934564998641e-07,
      "loss": 0.6447,
      "step": 5897
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7053993758269006,
      "learning_rate": 7.455611427541176e-07,
      "loss": 0.5613,
      "step": 5898
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1810739639254897,
      "learning_rate": 7.43730990846211e-07,
      "loss": 0.6621,
      "step": 5899
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.1167382328193036,
      "learning_rate": 7.419030012036676e-07,
      "loss": 0.6321,
      "step": 5900
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7382904401658588,
      "learning_rate": 7.400771742535051e-07,
      "loss": 0.6478,
      "step": 5901
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8480873250121141,
      "learning_rate": 7.382535104222366e-07,
      "loss": 0.5961,
      "step": 5902
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4935965705048226,
      "learning_rate": 7.364320101358701e-07,
      "loss": 0.5064,
      "step": 5903
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8404162846943048,
      "learning_rate": 7.346126738199089e-07,
      "loss": 0.5946,
      "step": 5904
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7293025320231448,
      "learning_rate": 7.327955018993504e-07,
      "loss": 0.7208,
      "step": 5905
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.824498369778184,
      "learning_rate": 7.309804947986876e-07,
      "loss": 0.6553,
      "step": 5906
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.887965764044848,
      "learning_rate": 7.291676529419034e-07,
      "loss": 0.6235,
      "step": 5907
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2140659751680805,
      "learning_rate": 7.273569767524791e-07,
      "loss": 0.6706,
      "step": 5908
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9717229678204786,
      "learning_rate": 7.255484666533874e-07,
      "loss": 0.6738,
      "step": 5909
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.2901542974513753,
      "learning_rate": 7.237421230670994e-07,
      "loss": 0.6685,
      "step": 5910
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8830893844881813,
      "learning_rate": 7.21937946415574e-07,
      "loss": 0.6608,
      "step": 5911
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9082139674391996,
      "learning_rate": 7.201359371202698e-07,
      "loss": 0.6244,
      "step": 5912
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.1712382578695513,
      "learning_rate": 7.183360956021368e-07,
      "loss": 0.7103,
      "step": 5913
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.863998784277113,
      "learning_rate": 7.165384222816141e-07,
      "loss": 0.6933,
      "step": 5914
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.832259382470668,
      "learning_rate": 7.147429175786413e-07,
      "loss": 0.6776,
      "step": 5915
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7777465776025032,
      "learning_rate": 7.129495819126476e-07,
      "loss": 0.6295,
      "step": 5916
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.3176985124806535,
      "learning_rate": 7.111584157025575e-07,
      "loss": 0.7147,
      "step": 5917
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8280401006163638,
      "learning_rate": 7.093694193667866e-07,
      "loss": 0.6208,
      "step": 5918
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.033557252406479,
      "learning_rate": 7.075825933232461e-07,
      "loss": 0.7574,
      "step": 5919
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.0492787184718377,
      "learning_rate": 7.057979379893353e-07,
      "loss": 0.7167,
      "step": 5920
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8144147722038855,
      "learning_rate": 7.040154537819533e-07,
      "loss": 0.7066,
      "step": 5921
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.271200935455782,
      "learning_rate": 7.022351411174866e-07,
      "loss": 0.5991,
      "step": 5922
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.892013935271015,
      "learning_rate": 7.004570004118172e-07,
      "loss": 0.6861,
      "step": 5923
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.05411212893973,
      "learning_rate": 6.986810320803195e-07,
      "loss": 0.6148,
      "step": 5924
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.011064432654821,
      "learning_rate": 6.969072365378605e-07,
      "loss": 0.6766,
      "step": 5925
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9023020726518876,
      "learning_rate": 6.951356141987963e-07,
      "loss": 0.5571,
      "step": 5926
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.0157787312463635,
      "learning_rate": 6.933661654769797e-07,
      "loss": 0.6865,
      "step": 5927
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.2554561086018854,
      "learning_rate": 6.91598890785754e-07,
      "loss": 0.6512,
      "step": 5928
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8794078211853804,
      "learning_rate": 6.898337905379549e-07,
      "loss": 0.7066,
      "step": 5929
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.1368994206990175,
      "learning_rate": 6.88070865145909e-07,
      "loss": 0.6561,
      "step": 5930
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2864861355740007,
      "learning_rate": 6.863101150214369e-07,
      "loss": 0.6712,
      "step": 5931
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.0235740732379996,
      "learning_rate": 6.845515405758518e-07,
      "loss": 0.6142,
      "step": 5932
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6327750258076863,
      "learning_rate": 6.827951422199531e-07,
      "loss": 0.5983,
      "step": 5933
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9050163995170966,
      "learning_rate": 6.810409203640378e-07,
      "loss": 0.63,
      "step": 5934
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7233825272203218,
      "learning_rate": 6.792888754178906e-07,
      "loss": 0.6256,
      "step": 5935
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6227906757715775,
      "learning_rate": 6.775390077907918e-07,
      "loss": 0.5951,
      "step": 5936
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.551853346244153,
      "learning_rate": 6.757913178915087e-07,
      "loss": 0.5677,
      "step": 5937
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3941725583981086,
      "learning_rate": 6.74045806128305e-07,
      "loss": 0.6515,
      "step": 5938
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.264767731544858,
      "learning_rate": 6.723024729089278e-07,
      "loss": 0.6286,
      "step": 5939
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6180983461527814,
      "learning_rate": 6.705613186406223e-07,
      "loss": 0.6246,
      "step": 5940
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.174401949673288,
      "learning_rate": 6.688223437301222e-07,
      "loss": 0.6072,
      "step": 5941
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8529082298337474,
      "learning_rate": 6.670855485836525e-07,
      "loss": 0.6919,
      "step": 5942
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6136729994106078,
      "learning_rate": 6.653509336069285e-07,
      "loss": 0.6873,
      "step": 5943
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.0733958615975605,
      "learning_rate": 6.636184992051553e-07,
      "loss": 0.6804,
      "step": 5944
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9945805030149681,
      "learning_rate": 6.618882457830334e-07,
      "loss": 0.615,
      "step": 5945
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.004720425524304,
      "learning_rate": 6.601601737447461e-07,
      "loss": 0.6321,
      "step": 5946
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9425548145118738,
      "learning_rate": 6.584342834939717e-07,
      "loss": 0.6233,
      "step": 5947
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5808776736942347,
      "learning_rate": 6.567105754338798e-07,
      "loss": 0.5927,
      "step": 5948
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6280894948787352,
      "learning_rate": 6.549890499671285e-07,
      "loss": 0.5916,
      "step": 5949
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9088723954867435,
      "learning_rate": 6.532697074958661e-07,
      "loss": 0.6443,
      "step": 5950
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6415478093120504,
      "learning_rate": 6.515525484217323e-07,
      "loss": 0.6656,
      "step": 5951
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7667390937710747,
      "learning_rate": 6.498375731458529e-07,
      "loss": 0.6219,
      "step": 5952
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.1205777479237238,
      "learning_rate": 6.481247820688475e-07,
      "loss": 0.6035,
      "step": 5953
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.839469429859296,
      "learning_rate": 6.46414175590826e-07,
      "loss": 0.6172,
      "step": 5954
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9022844896364426,
      "learning_rate": 6.447057541113832e-07,
      "loss": 0.6905,
      "step": 5955
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.4817833073488056,
      "learning_rate": 6.42999518029609e-07,
      "loss": 0.6651,
      "step": 5956
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.0081770964343217,
      "learning_rate": 6.412954677440797e-07,
      "loss": 0.5905,
      "step": 5957
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8083403695176405,
      "learning_rate": 6.395936036528627e-07,
      "loss": 0.6377,
      "step": 5958
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6359163105300103,
      "learning_rate": 6.378939261535111e-07,
      "loss": 0.6929,
      "step": 5959
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.1524812987258426,
      "learning_rate": 6.361964356430717e-07,
      "loss": 0.7384,
      "step": 5960
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7526081228063994,
      "learning_rate": 6.345011325180772e-07,
      "loss": 0.643,
      "step": 5961
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8001014014984174,
      "learning_rate": 6.32808017174551e-07,
      "loss": 0.6325,
      "step": 5962
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8795473000769995,
      "learning_rate": 6.311170900080044e-07,
      "loss": 0.5904,
      "step": 5963
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6980363860296932,
      "learning_rate": 6.294283514134414e-07,
      "loss": 0.6565,
      "step": 5964
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.62501984744358,
      "learning_rate": 6.277418017853476e-07,
      "loss": 0.5686,
      "step": 5965
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7170308396667866,
      "learning_rate": 6.260574415177012e-07,
      "loss": 0.6219,
      "step": 5966
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.0426930505315517,
      "learning_rate": 6.243752710039719e-07,
      "loss": 0.6092,
      "step": 5967
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.1027370904838953,
      "learning_rate": 6.226952906371131e-07,
      "loss": 0.7414,
      "step": 5968
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7532592436288166,
      "learning_rate": 6.210175008095675e-07,
      "loss": 0.6516,
      "step": 5969
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9930426957393443,
      "learning_rate": 6.193419019132685e-07,
      "loss": 0.7108,
      "step": 5970
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6239207016654662,
      "learning_rate": 6.176684943396383e-07,
      "loss": 0.6306,
      "step": 5971
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7113492304868574,
      "learning_rate": 6.159972784795798e-07,
      "loss": 0.6135,
      "step": 5972
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7333550601719925,
      "learning_rate": 6.143282547234919e-07,
      "loss": 0.5783,
      "step": 5973
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.998294726862608,
      "learning_rate": 6.126614234612593e-07,
      "loss": 0.6193,
      "step": 5974
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7478197958613375,
      "learning_rate": 6.109967850822529e-07,
      "loss": 0.6908,
      "step": 5975
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6048593011449983,
      "learning_rate": 6.093343399753327e-07,
      "loss": 0.6219,
      "step": 5976
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7953666001444206,
      "learning_rate": 6.076740885288479e-07,
      "loss": 0.634,
      "step": 5977
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3493392577543994,
      "learning_rate": 6.060160311306307e-07,
      "loss": 0.7054,
      "step": 5978
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7719762824617227,
      "learning_rate": 6.043601681680045e-07,
      "loss": 0.6429,
      "step": 5979
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9514290941313719,
      "learning_rate": 6.027065000277776e-07,
      "loss": 0.6801,
      "step": 5980
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6904295173236643,
      "learning_rate": 6.010550270962501e-07,
      "loss": 0.635,
      "step": 5981
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.795461751941971,
      "learning_rate": 5.994057497592032e-07,
      "loss": 0.6298,
      "step": 5982
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.774363297065749,
      "learning_rate": 5.97758668401911e-07,
      "loss": 0.6439,
      "step": 5983
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.250572934177675,
      "learning_rate": 5.961137834091313e-07,
      "loss": 0.5901,
      "step": 5984
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2740196119268319,
      "learning_rate": 5.944710951651067e-07,
      "loss": 0.6902,
      "step": 5985
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.901322480983501,
      "learning_rate": 5.928306040535725e-07,
      "loss": 0.6488,
      "step": 5986
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8957013417334154,
      "learning_rate": 5.911923104577455e-07,
      "loss": 0.6577,
      "step": 5987
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8182768098005035,
      "learning_rate": 5.895562147603317e-07,
      "loss": 0.6744,
      "step": 5988
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.1024020444954967,
      "learning_rate": 5.879223173435245e-07,
      "loss": 0.6596,
      "step": 5989
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9852624665879348,
      "learning_rate": 5.862906185890027e-07,
      "loss": 0.6523,
      "step": 5990
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.715242432106199,
      "learning_rate": 5.846611188779283e-07,
      "loss": 0.6858,
      "step": 5991
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.616225593881141,
      "learning_rate": 5.830338185909545e-07,
      "loss": 0.574,
      "step": 5992
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.061699244525931,
      "learning_rate": 5.814087181082195e-07,
      "loss": 0.6852,
      "step": 5993
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7491045016164346,
      "learning_rate": 5.797858178093463e-07,
      "loss": 0.6497,
      "step": 5994
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9082494712736835,
      "learning_rate": 5.781651180734438e-07,
      "loss": 0.6461,
      "step": 5995
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6269793044837189,
      "learning_rate": 5.765466192791103e-07,
      "loss": 0.6499,
      "step": 5996
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.032079813625927,
      "learning_rate": 5.749303218044234e-07,
      "loss": 0.7064,
      "step": 5997
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.481314109495715,
      "learning_rate": 5.73316226026952e-07,
      "loss": 0.6444,
      "step": 5998
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8576498993022188,
      "learning_rate": 5.717043323237503e-07,
      "loss": 0.6604,
      "step": 5999
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.43307462807219,
      "learning_rate": 5.700946410713548e-07,
      "loss": 0.7713,
      "step": 6000
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.2234575579906255,
      "learning_rate": 5.684871526457914e-07,
      "loss": 0.6337,
      "step": 6001
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.1014356551865143,
      "learning_rate": 5.668818674225684e-07,
      "loss": 0.6731,
      "step": 6002
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.503478116324284,
      "learning_rate": 5.652787857766817e-07,
      "loss": 0.6762,
      "step": 6003
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7765770840624162,
      "learning_rate": 5.636779080826105e-07,
      "loss": 0.7116,
      "step": 6004
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7018776047286437,
      "learning_rate": 5.620792347143189e-07,
      "loss": 0.5702,
      "step": 6005
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8821916732920243,
      "learning_rate": 5.604827660452583e-07,
      "loss": 0.6139,
      "step": 6006
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9861358887908995,
      "learning_rate": 5.588885024483648e-07,
      "loss": 0.6803,
      "step": 6007
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.6014749246403537,
      "learning_rate": 5.572964442960582e-07,
      "loss": 0.6691,
      "step": 6008
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.3703586095822344,
      "learning_rate": 5.557065919602411e-07,
      "loss": 0.6559,
      "step": 6009
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.4713532325250105,
      "learning_rate": 5.541189458123064e-07,
      "loss": 0.5863,
      "step": 6010
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8854354469325836,
      "learning_rate": 5.525335062231263e-07,
      "loss": 0.5628,
      "step": 6011
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6269923788445726,
      "learning_rate": 5.509502735630601e-07,
      "loss": 0.6338,
      "step": 6012
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5001659414544208,
      "learning_rate": 5.49369248201953e-07,
      "loss": 0.6063,
      "step": 6013
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9368473997872289,
      "learning_rate": 5.477904305091286e-07,
      "loss": 0.6811,
      "step": 6014
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.869363475723876,
      "learning_rate": 5.46213820853403e-07,
      "loss": 0.7261,
      "step": 6015
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8205509196028158,
      "learning_rate": 5.446394196030691e-07,
      "loss": 0.6657,
      "step": 6016
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9160095406227555,
      "learning_rate": 5.430672271259096e-07,
      "loss": 0.7095,
      "step": 6017
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7951515318843996,
      "learning_rate": 5.414972437891885e-07,
      "loss": 0.5858,
      "step": 6018
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.1659609232914256,
      "learning_rate": 5.399294699596536e-07,
      "loss": 0.7412,
      "step": 6019
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8311302078637028,
      "learning_rate": 5.38363906003535e-07,
      "loss": 0.5971,
      "step": 6020
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5770711939389466,
      "learning_rate": 5.368005522865515e-07,
      "loss": 0.5659,
      "step": 6021
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.0264329903435545,
      "learning_rate": 5.352394091739022e-07,
      "loss": 0.6512,
      "step": 6022
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6877927784518725,
      "learning_rate": 5.336804770302706e-07,
      "loss": 0.6423,
      "step": 6023
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7895499240097472,
      "learning_rate": 5.321237562198212e-07,
      "loss": 0.5514,
      "step": 6024
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9495196192205055,
      "learning_rate": 5.305692471062063e-07,
      "loss": 0.5947,
      "step": 6025
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.996076754376602,
      "learning_rate": 5.290169500525577e-07,
      "loss": 0.6747,
      "step": 6026
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.0500951227152244,
      "learning_rate": 5.274668654214931e-07,
      "loss": 0.6479,
      "step": 6027
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.0306548748060123,
      "learning_rate": 5.25918993575113e-07,
      "loss": 0.6852,
      "step": 6028
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8913213917305913,
      "learning_rate": 5.243733348750013e-07,
      "loss": 0.619,
      "step": 6029
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.323319637613898,
      "learning_rate": 5.228298896822203e-07,
      "loss": 0.6392,
      "step": 6030
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.049930323758862,
      "learning_rate": 5.212886583573218e-07,
      "loss": 0.6593,
      "step": 6031
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2036728541315607,
      "learning_rate": 5.197496412603365e-07,
      "loss": 0.6603,
      "step": 6032
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.665065535935058,
      "learning_rate": 5.182128387507801e-07,
      "loss": 0.5685,
      "step": 6033
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8314081149669263,
      "learning_rate": 5.166782511876489e-07,
      "loss": 0.5689,
      "step": 6034
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8483997588078007,
      "learning_rate": 5.151458789294239e-07,
      "loss": 0.6506,
      "step": 6035
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8230543130449137,
      "learning_rate": 5.136157223340655e-07,
      "loss": 0.7104,
      "step": 6036
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.832782706233037,
      "learning_rate": 5.120877817590197e-07,
      "loss": 0.5551,
      "step": 6037
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.060358369128168,
      "learning_rate": 5.105620575612125e-07,
      "loss": 0.6832,
      "step": 6038
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.8646088306917052,
      "learning_rate": 5.090385500970551e-07,
      "loss": 0.7104,
      "step": 6039
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9218080371365136,
      "learning_rate": 5.075172597224365e-07,
      "loss": 0.6435,
      "step": 6040
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.735266383661004,
      "learning_rate": 5.059981867927322e-07,
      "loss": 0.6299,
      "step": 6041
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.76745112762763,
      "learning_rate": 5.044813316627994e-07,
      "loss": 0.6998,
      "step": 6042
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2208283997052607,
      "learning_rate": 5.029666946869715e-07,
      "loss": 0.6651,
      "step": 6043
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.040975900063202,
      "learning_rate": 5.0145427621907e-07,
      "loss": 0.5588,
      "step": 6044
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9923065472768442,
      "learning_rate": 4.999440766123953e-07,
      "loss": 0.6083,
      "step": 6045
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.228897043888816,
      "learning_rate": 4.98436096219731e-07,
      "loss": 0.6156,
      "step": 6046
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.957245685215851,
      "learning_rate": 4.969303353933408e-07,
      "loss": 0.6949,
      "step": 6047
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.672117633030453,
      "learning_rate": 4.954267944849733e-07,
      "loss": 0.6099,
      "step": 6048
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7701530233899296,
      "learning_rate": 4.93925473845851e-07,
      "loss": 0.6137,
      "step": 6049
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.126131471101495,
      "learning_rate": 4.924263738266854e-07,
      "loss": 0.6401,
      "step": 6050
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8581661249874566,
      "learning_rate": 4.909294947776666e-07,
      "loss": 0.6046,
      "step": 6051
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6021342049810805,
      "learning_rate": 4.894348370484648e-07,
      "loss": 0.6185,
      "step": 6052
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9106941617495725,
      "learning_rate": 4.879424009882328e-07,
      "loss": 0.5799,
      "step": 6053
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.723363171587913,
      "learning_rate": 4.864521869456041e-07,
      "loss": 0.6156,
      "step": 6054
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8460119623661393,
      "learning_rate": 4.849641952686912e-07,
      "loss": 0.6654,
      "step": 6055
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9335037684168295,
      "learning_rate": 4.834784263050907e-07,
      "loss": 0.6759,
      "step": 6056
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.6956014354745403,
      "learning_rate": 4.819948804018771e-07,
      "loss": 0.6261,
      "step": 6057
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.302696991024411,
      "learning_rate": 4.805135579056075e-07,
      "loss": 0.632,
      "step": 6058
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.0174627657796407,
      "learning_rate": 4.790344591623197e-07,
      "loss": 0.6135,
      "step": 6059
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.66188076915678,
      "learning_rate": 4.775575845175306e-07,
      "loss": 0.7035,
      "step": 6060
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.838004260807687,
      "learning_rate": 4.7608293431623987e-07,
      "loss": 0.7512,
      "step": 6061
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6612011372230335,
      "learning_rate": 4.746105089029229e-07,
      "loss": 0.6254,
      "step": 6062
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.980029804394339,
      "learning_rate": 4.7314030862154025e-07,
      "loss": 0.6942,
      "step": 6063
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.085117728037926,
      "learning_rate": 4.7167233381553045e-07,
      "loss": 0.6554,
      "step": 6064
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7880831046954178,
      "learning_rate": 4.702065848278126e-07,
      "loss": 0.6068,
      "step": 6065
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7384890083327553,
      "learning_rate": 4.6874306200078487e-07,
      "loss": 0.6616,
      "step": 6066
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8736694687428042,
      "learning_rate": 4.6728176567633065e-07,
      "loss": 0.5835,
      "step": 6067
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8537998664412854,
      "learning_rate": 4.658226961958023e-07,
      "loss": 0.6846,
      "step": 6068
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.871820778475613,
      "learning_rate": 4.6436585390004394e-07,
      "loss": 0.6359,
      "step": 6069
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.0379884653860065,
      "learning_rate": 4.629112391293711e-07,
      "loss": 0.6558,
      "step": 6070
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.077859205580786,
      "learning_rate": 4.614588522235819e-07,
      "loss": 0.6327,
      "step": 6071
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.2219684080173643,
      "learning_rate": 4.6000869352195607e-07,
      "loss": 0.586,
      "step": 6072
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9914194306206578,
      "learning_rate": 4.585607633632505e-07,
      "loss": 0.6328,
      "step": 6073
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8266331782814669,
      "learning_rate": 4.5711506208570125e-07,
      "loss": 0.7086,
      "step": 6074
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.163834252569603,
      "learning_rate": 4.5567159002702363e-07,
      "loss": 0.7432,
      "step": 6075
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.159444224287815,
      "learning_rate": 4.5423034752441255e-07,
      "loss": 0.6595,
      "step": 6076
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3067602261635742,
      "learning_rate": 4.5279133491454406e-07,
      "loss": 0.6746,
      "step": 6077
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7606790876134613,
      "learning_rate": 4.5135455253357053e-07,
      "loss": 0.6581,
      "step": 6078
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.19723063584122,
      "learning_rate": 4.499200007171245e-07,
      "loss": 0.646,
      "step": 6079
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6677625842195016,
      "learning_rate": 4.4848767980031904e-07,
      "loss": 0.6131,
      "step": 6080
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.0674923641210317,
      "learning_rate": 4.4705759011774205e-07,
      "loss": 0.653,
      "step": 6081
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.080547380996032,
      "learning_rate": 4.4562973200346413e-07,
      "loss": 0.6187,
      "step": 6082
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.361796693480521,
      "learning_rate": 4.4420410579103177e-07,
      "loss": 0.7254,
      "step": 6083
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.0778114364468094,
      "learning_rate": 4.4278071181347306e-07,
      "loss": 0.614,
      "step": 6084
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7274663180742902,
      "learning_rate": 4.413595504032919e-07,
      "loss": 0.6482,
      "step": 6085
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7245019005396882,
      "learning_rate": 4.399406218924718e-07,
      "loss": 0.6009,
      "step": 6086
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.920587345591768,
      "learning_rate": 4.385239266124752e-07,
      "loss": 0.5948,
      "step": 6087
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.259873547982758,
      "learning_rate": 4.37109464894242e-07,
      "loss": 0.7047,
      "step": 6088
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6720574163977189,
      "learning_rate": 4.3569723706819e-07,
      "loss": 0.6043,
      "step": 6089
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9121993004194697,
      "learning_rate": 4.3428724346421647e-07,
      "loss": 0.5999,
      "step": 6090
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9201592798298495,
      "learning_rate": 4.3287948441169457e-07,
      "loss": 0.5423,
      "step": 6091
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6920964275553463,
      "learning_rate": 4.314739602394791e-07,
      "loss": 0.6663,
      "step": 6092
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9158026132290744,
      "learning_rate": 4.3007067127590175e-07,
      "loss": 0.6118,
      "step": 6093
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.2094360363902137,
      "learning_rate": 4.2866961784876706e-07,
      "loss": 0.715,
      "step": 6094
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.666416570561989,
      "learning_rate": 4.2727080028536315e-07,
      "loss": 0.5202,
      "step": 6095
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9164131880949138,
      "learning_rate": 4.2587421891245316e-07,
      "loss": 0.5875,
      "step": 6096
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8733075970377941,
      "learning_rate": 4.2447987405628054e-07,
      "loss": 0.6618,
      "step": 6097
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9027710513297706,
      "learning_rate": 4.230877660425625e-07,
      "loss": 0.5796,
      "step": 6098
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.885240136035242,
      "learning_rate": 4.216978951964967e-07,
      "loss": 0.6703,
      "step": 6099
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9433395566074327,
      "learning_rate": 4.203102618427579e-07,
      "loss": 0.6965,
      "step": 6100
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7363034498675252,
      "learning_rate": 4.189248663054957e-07,
      "loss": 0.5572,
      "step": 6101
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.718568848360928,
      "learning_rate": 4.1754170890833777e-07,
      "loss": 0.6974,
      "step": 6102
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5494563441387563,
      "learning_rate": 4.1616078997439244e-07,
      "loss": 0.6266,
      "step": 6103
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6763740445302742,
      "learning_rate": 4.1478210982624055e-07,
      "loss": 0.6365,
      "step": 6104
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9702758050964102,
      "learning_rate": 4.1340566878594335e-07,
      "loss": 0.705,
      "step": 6105
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9431767272585387,
      "learning_rate": 4.120314671750381e-07,
      "loss": 0.6152,
      "step": 6106
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8718910980214827,
      "learning_rate": 4.106595053145357e-07,
      "loss": 0.5984,
      "step": 6107
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.0747214831911633,
      "learning_rate": 4.0928978352492875e-07,
      "loss": 0.6166,
      "step": 6108
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.772652489696274,
      "learning_rate": 4.0792230212618245e-07,
      "loss": 0.7076,
      "step": 6109
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.129383897304896,
      "learning_rate": 4.0655706143774344e-07,
      "loss": 0.6904,
      "step": 6110
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.974499382805082,
      "learning_rate": 4.0519406177852996e-07,
      "loss": 0.5956,
      "step": 6111
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5727821834119755,
      "learning_rate": 4.038333034669406e-07,
      "loss": 0.586,
      "step": 6112
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.2008244554418,
      "learning_rate": 4.0247478682084674e-07,
      "loss": 0.6863,
      "step": 6113
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.1895950532245116,
      "learning_rate": 4.0111851215759777e-07,
      "loss": 0.633,
      "step": 6114
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8745187754327144,
      "learning_rate": 3.9976447979402147e-07,
      "loss": 0.6377,
      "step": 6115
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.1580802358524833,
      "learning_rate": 3.9841269004641915e-07,
      "loss": 0.5654,
      "step": 6116
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4246968406363774,
      "learning_rate": 3.9706314323056936e-07,
      "loss": 0.6314,
      "step": 6117
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.807455505080213,
      "learning_rate": 3.957158396617244e-07,
      "loss": 0.5852,
      "step": 6118
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7455145142937485,
      "learning_rate": 3.943707796546192e-07,
      "loss": 0.6791,
      "step": 6119
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8457553442265937,
      "learning_rate": 3.9302796352345354e-07,
      "loss": 0.6252,
      "step": 6120
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6902972131560599,
      "learning_rate": 3.9168739158191417e-07,
      "loss": 0.6707,
      "step": 6121
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8099146712896657,
      "learning_rate": 3.903490641431573e-07,
      "loss": 0.5672,
      "step": 6122
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7871825253332532,
      "learning_rate": 3.8901298151981515e-07,
      "loss": 0.6238,
      "step": 6123
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.843826633606944,
      "learning_rate": 3.876791440239991e-07,
      "loss": 0.5986,
      "step": 6124
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.793095191784397,
      "learning_rate": 3.8634755196729323e-07,
      "loss": 0.6018,
      "step": 6125
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7047954728060206,
      "learning_rate": 3.850182056607565e-07,
      "loss": 0.6733,
      "step": 6126
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.4553979463233864,
      "learning_rate": 3.8369110541492396e-07,
      "loss": 0.6665,
      "step": 6127
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.747593733417535,
      "learning_rate": 3.8236625153980743e-07,
      "loss": 0.5298,
      "step": 6128
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6508016572993196,
      "learning_rate": 3.810436443448928e-07,
      "loss": 0.5856,
      "step": 6129
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.698369724867183,
      "learning_rate": 3.7972328413914074e-07,
      "loss": 0.6177,
      "step": 6130
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8971012874758362,
      "learning_rate": 3.7840517123098887e-07,
      "loss": 0.647,
      "step": 6131
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6797088882818354,
      "learning_rate": 3.770893059283465e-07,
      "loss": 0.5719,
      "step": 6132
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1175067813320236,
      "learning_rate": 3.75775688538601e-07,
      "loss": 0.6905,
      "step": 6133
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1572376338912775,
      "learning_rate": 3.7446431936861373e-07,
      "loss": 0.6811,
      "step": 6134
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6860793031681618,
      "learning_rate": 3.7315519872472063e-07,
      "loss": 0.6034,
      "step": 6135
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8744984498809032,
      "learning_rate": 3.7184832691273263e-07,
      "loss": 0.667,
      "step": 6136
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7414604864317276,
      "learning_rate": 3.705437042379334e-07,
      "loss": 0.607,
      "step": 6137
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9227639638716283,
      "learning_rate": 3.6924133100508463e-07,
      "loss": 0.5972,
      "step": 6138
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.625177105201775,
      "learning_rate": 3.679412075184208e-07,
      "loss": 0.6718,
      "step": 6139
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8027529472234438,
      "learning_rate": 3.6664333408164887e-07,
      "loss": 0.7215,
      "step": 6140
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9280553027665768,
      "learning_rate": 3.653477109979564e-07,
      "loss": 0.6782,
      "step": 6141
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9076585096783627,
      "learning_rate": 3.6405433856999684e-07,
      "loss": 0.6643,
      "step": 6142
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8883250085054484,
      "learning_rate": 3.627632170999029e-07,
      "loss": 0.6448,
      "step": 6143
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6736285042783527,
      "learning_rate": 3.6147434688928227e-07,
      "loss": 0.6326,
      "step": 6144
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9732035120064593,
      "learning_rate": 3.601877282392152e-07,
      "loss": 0.579,
      "step": 6145
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.267727169010163,
      "learning_rate": 3.5890336145025464e-07,
      "loss": 0.7677,
      "step": 6146
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8876350517382177,
      "learning_rate": 3.5762124682242936e-07,
      "loss": 0.6263,
      "step": 6147
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7377557220465487,
      "learning_rate": 3.5634138465524104e-07,
      "loss": 0.6713,
      "step": 6148
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8881855746818883,
      "learning_rate": 3.55063775247666e-07,
      "loss": 0.6931,
      "step": 6149
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.111498460285232,
      "learning_rate": 3.537884188981533e-07,
      "loss": 0.6979,
      "step": 6150
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.945278107245713,
      "learning_rate": 3.5251531590462794e-07,
      "loss": 0.7041,
      "step": 6151
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8438309318723505,
      "learning_rate": 3.5124446656448654e-07,
      "loss": 0.5934,
      "step": 6152
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.1867296105126335,
      "learning_rate": 3.499758711745982e-07,
      "loss": 0.6225,
      "step": 6153
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.2333168447687832,
      "learning_rate": 3.48709530031307e-07,
      "loss": 0.6959,
      "step": 6154
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.760409136267179,
      "learning_rate": 3.4744544343043085e-07,
      "loss": 0.6012,
      "step": 6155
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8680602852566908,
      "learning_rate": 3.4618361166726123e-07,
      "loss": 0.6719,
      "step": 6156
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.781423129689172,
      "learning_rate": 3.4492403503656236e-07,
      "loss": 0.6631,
      "step": 6157
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6505513888926988,
      "learning_rate": 3.436667138325711e-07,
      "loss": 0.6756,
      "step": 6158
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.651242687727219,
      "learning_rate": 3.424116483489959e-07,
      "loss": 0.6155,
      "step": 6159
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5997308503336833,
      "learning_rate": 3.4115883887902214e-07,
      "loss": 0.669,
      "step": 6160
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.092040080051733,
      "learning_rate": 3.399082857153058e-07,
      "loss": 0.6985,
      "step": 6161
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.739781414757542,
      "learning_rate": 3.3865998914997645e-07,
      "loss": 0.678,
      "step": 6162
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7751965052119492,
      "learning_rate": 3.374139494746365e-07,
      "loss": 0.5286,
      "step": 6163
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9662515787474422,
      "learning_rate": 3.3617016698036074e-07,
      "loss": 0.6268,
      "step": 6164
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7082188816505115,
      "learning_rate": 3.3492864195769583e-07,
      "loss": 0.6457,
      "step": 6165
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.425828676155072,
      "learning_rate": 3.3368937469666297e-07,
      "loss": 0.6757,
      "step": 6166
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7500537855911324,
      "learning_rate": 3.324523654867551e-07,
      "loss": 0.6685,
      "step": 6167
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8891711352990106,
      "learning_rate": 3.312176146169388e-07,
      "loss": 0.5726,
      "step": 6168
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8249820182421734,
      "learning_rate": 3.2998512237565005e-07,
      "loss": 0.6582,
      "step": 6169
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7042784726002485,
      "learning_rate": 3.2875488905079967e-07,
      "loss": 0.5996,
      "step": 6170
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8176600804192025,
      "learning_rate": 3.275269149297722e-07,
      "loss": 0.5848,
      "step": 6171
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6322918845016996,
      "learning_rate": 3.2630120029942034e-07,
      "loss": 0.6478,
      "step": 6172
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8747675695457382,
      "learning_rate": 3.2507774544607076e-07,
      "loss": 0.6421,
      "step": 6173
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.666709369258507,
      "learning_rate": 3.238565506555247e-07,
      "loss": 0.6787,
      "step": 6174
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8613737643233246,
      "learning_rate": 3.226376162130518e-07,
      "loss": 0.6525,
      "step": 6175
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.154946137992725,
      "learning_rate": 3.2142094240339537e-07,
      "loss": 0.7325,
      "step": 6176
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9646065950119012,
      "learning_rate": 3.2020652951077256e-07,
      "loss": 0.6755,
      "step": 6177
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9604060271348358,
      "learning_rate": 3.1899437781886754e-07,
      "loss": 0.6334,
      "step": 6178
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9274308851056396,
      "learning_rate": 3.1778448761084046e-07,
      "loss": 0.6338,
      "step": 6179
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7460231668462118,
      "learning_rate": 3.165768591693219e-07,
      "loss": 0.6021,
      "step": 6180
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.856774695170303,
      "learning_rate": 3.1537149277641286e-07,
      "loss": 0.6057,
      "step": 6181
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7411321955158665,
      "learning_rate": 3.1416838871368925e-07,
      "loss": 0.6251,
      "step": 6182
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9540757390244248,
      "learning_rate": 3.1296754726219516e-07,
      "loss": 0.6617,
      "step": 6183
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.3592982268357616,
      "learning_rate": 3.117689687024461e-07,
      "loss": 0.6156,
      "step": 6184
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8856194961529509,
      "learning_rate": 3.1057265331443043e-07,
      "loss": 0.6618,
      "step": 6185
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8209934330107327,
      "learning_rate": 3.09378601377609e-07,
      "loss": 0.6212,
      "step": 6186
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5706998992581611,
      "learning_rate": 3.081868131709109e-07,
      "loss": 0.586,
      "step": 6187
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8336786275408727,
      "learning_rate": 3.0699728897274015e-07,
      "loss": 0.6548,
      "step": 6188
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.803641977300554,
      "learning_rate": 3.058100290609667e-07,
      "loss": 0.6672,
      "step": 6189
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8492459534842522,
      "learning_rate": 3.046250337129386e-07,
      "loss": 0.6873,
      "step": 6190
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9881711197800775,
      "learning_rate": 3.0344230320546675e-07,
      "loss": 0.6381,
      "step": 6191
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8981374660879782,
      "learning_rate": 3.0226183781483897e-07,
      "loss": 0.5812,
      "step": 6192
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.757973229646667,
      "learning_rate": 3.010836378168125e-07,
      "loss": 0.6595,
      "step": 6193
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.921678245204613,
      "learning_rate": 2.999077034866138e-07,
      "loss": 0.6695,
      "step": 6194
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9498953901742642,
      "learning_rate": 2.987340350989421e-07,
      "loss": 0.6078,
      "step": 6195
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.440063422246494,
      "learning_rate": 2.9756263292796683e-07,
      "loss": 0.6323,
      "step": 6196
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6660970006231957,
      "learning_rate": 2.963934972473259e-07,
      "loss": 0.6621,
      "step": 6197
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.0167687670176746,
      "learning_rate": 2.952266283301319e-07,
      "loss": 0.6723,
      "step": 6198
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.851495525864826,
      "learning_rate": 2.9406202644896353e-07,
      "loss": 0.701,
      "step": 6199
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.026298290286118,
      "learning_rate": 2.9289969187587196e-07,
      "loss": 0.7468,
      "step": 6200
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.1312414502584454,
      "learning_rate": 2.9173962488238006e-07,
      "loss": 0.6618,
      "step": 6201
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.938330799543603,
      "learning_rate": 2.905818257394799e-07,
      "loss": 0.6775,
      "step": 6202
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.699141835875462,
      "learning_rate": 2.8942629471763185e-07,
      "loss": 0.5971,
      "step": 6203
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8853901143509957,
      "learning_rate": 2.882730320867688e-07,
      "loss": 0.7006,
      "step": 6204
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9449228275659478,
      "learning_rate": 2.8712203811629315e-07,
      "loss": 0.6227,
      "step": 6205
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.26317718655147,
      "learning_rate": 2.8597331307507635e-07,
      "loss": 0.7504,
      "step": 6206
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.2968690235229503,
      "learning_rate": 2.848268572314616e-07,
      "loss": 0.6513,
      "step": 6207
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.046227726325034,
      "learning_rate": 2.836826708532603e-07,
      "loss": 0.6906,
      "step": 6208
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7400673904394783,
      "learning_rate": 2.825407542077563e-07,
      "loss": 0.6811,
      "step": 6209
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6954844608286912,
      "learning_rate": 2.814011075616996e-07,
      "loss": 0.6437,
      "step": 6210
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.775506303008814,
      "learning_rate": 2.8026373118131167e-07,
      "loss": 0.6879,
      "step": 6211
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8400191738243765,
      "learning_rate": 2.791286253322856e-07,
      "loss": 0.6326,
      "step": 6212
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2468872090324123,
      "learning_rate": 2.779957902797803e-07,
      "loss": 0.675,
      "step": 6213
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.295433170114132,
      "learning_rate": 2.768652262884264e-07,
      "loss": 0.6428,
      "step": 6214
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9511251601256567,
      "learning_rate": 2.757369336223248e-07,
      "loss": 0.6064,
      "step": 6215
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8678626236812772,
      "learning_rate": 2.746109125450458e-07,
      "loss": 0.6859,
      "step": 6216
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8572621931440831,
      "learning_rate": 2.734871633196246e-07,
      "loss": 0.6322,
      "step": 6217
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8364970100731521,
      "learning_rate": 2.723656862085711e-07,
      "loss": 0.6472,
      "step": 6218
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8343571092075721,
      "learning_rate": 2.7124648147386246e-07,
      "loss": 0.577,
      "step": 6219
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5452095823584227,
      "learning_rate": 2.701295493769451e-07,
      "loss": 0.5701,
      "step": 6220
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8699417292898233,
      "learning_rate": 2.6901489017873375e-07,
      "loss": 0.6137,
      "step": 6221
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9668406880730858,
      "learning_rate": 2.679025041396155e-07,
      "loss": 0.6795,
      "step": 6222
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.2212329865397273,
      "learning_rate": 2.667923915194404e-07,
      "loss": 0.6765,
      "step": 6223
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.74152400339501,
      "learning_rate": 2.6568455257753203e-07,
      "loss": 0.5967,
      "step": 6224
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.209630985785414,
      "learning_rate": 2.645789875726812e-07,
      "loss": 0.6845,
      "step": 6225
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8594905069649943,
      "learning_rate": 2.634756967631502e-07,
      "loss": 0.6796,
      "step": 6226
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.2782704908895806,
      "learning_rate": 2.6237468040666515e-07,
      "loss": 0.6549,
      "step": 6227
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9344862493624448,
      "learning_rate": 2.612759387604258e-07,
      "loss": 0.6606,
      "step": 6228
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7172882812961425,
      "learning_rate": 2.6017947208109793e-07,
      "loss": 0.6329,
      "step": 6229
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.0706914972335864,
      "learning_rate": 2.5908528062481455e-07,
      "loss": 0.6417,
      "step": 6230
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7191652728252664,
      "learning_rate": 2.5799336464717994e-07,
      "loss": 0.6468,
      "step": 6231
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.8760167129906398,
      "learning_rate": 2.569037244032657e-07,
      "loss": 0.5663,
      "step": 6232
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2426454371418494,
      "learning_rate": 2.558163601476127e-07,
      "loss": 0.6357,
      "step": 6233
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5679448576619819,
      "learning_rate": 2.547312721342277e-07,
      "loss": 0.6255,
      "step": 6234
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6544751398623878,
      "learning_rate": 2.536484606165901e-07,
      "loss": 0.6767,
      "step": 6235
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.940844685225012,
      "learning_rate": 2.525679258476421e-07,
      "loss": 0.6227,
      "step": 6236
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.737448036865583,
      "learning_rate": 2.5148966807979733e-07,
      "loss": 0.6545,
      "step": 6237
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7544942975064604,
      "learning_rate": 2.504136875649377e-07,
      "loss": 0.5683,
      "step": 6238
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.245078310887095,
      "learning_rate": 2.49339984554412e-07,
      "loss": 0.6134,
      "step": 6239
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6700610421277984,
      "learning_rate": 2.4826855929903635e-07,
      "loss": 0.6036,
      "step": 6240
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9496289343413826,
      "learning_rate": 2.4719941204909835e-07,
      "loss": 0.6265,
      "step": 6241
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.025395937430722,
      "learning_rate": 2.461325430543482e-07,
      "loss": 0.6746,
      "step": 6242
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9465716980537768,
      "learning_rate": 2.4506795256400763e-07,
      "loss": 0.6204,
      "step": 6243
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.719198309398815,
      "learning_rate": 2.440056408267655e-07,
      "loss": 0.5813,
      "step": 6244
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9918792846804392,
      "learning_rate": 2.429456080907766e-07,
      "loss": 0.6586,
      "step": 6245
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8274523549214636,
      "learning_rate": 2.4188785460366625e-07,
      "loss": 0.5868,
      "step": 6246
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9680352035611575,
      "learning_rate": 2.4083238061252565e-07,
      "loss": 0.6903,
      "step": 6247
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8090832535398584,
      "learning_rate": 2.3977918636391315e-07,
      "loss": 0.6709,
      "step": 6248
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.0271677639579124,
      "learning_rate": 2.387282721038553e-07,
      "loss": 0.6491,
      "step": 6249
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1650036159416943,
      "learning_rate": 2.3767963807784456e-07,
      "loss": 0.6625,
      "step": 6250
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.1651873497969243,
      "learning_rate": 2.3663328453084277e-07,
      "loss": 0.6922,
      "step": 6251
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.646185974919692,
      "learning_rate": 2.355892117072789e-07,
      "loss": 0.663,
      "step": 6252
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5894293521987208,
      "learning_rate": 2.3454741985104778e-07,
      "loss": 0.5858,
      "step": 6253
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.664126227983552,
      "learning_rate": 2.3350790920551258e-07,
      "loss": 0.6345,
      "step": 6254
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7912637355338863,
      "learning_rate": 2.3247068001350236e-07,
      "loss": 0.596,
      "step": 6255
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7910634389965538,
      "learning_rate": 2.3143573251731443e-07,
      "loss": 0.6022,
      "step": 6256
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7051599470640897,
      "learning_rate": 2.3040306695871319e-07,
      "loss": 0.5793,
      "step": 6257
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.313591891547194,
      "learning_rate": 2.2937268357892784e-07,
      "loss": 0.6587,
      "step": 6258
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7211397336285748,
      "learning_rate": 2.283445826186581e-07,
      "loss": 0.6147,
      "step": 6259
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7930257238932434,
      "learning_rate": 2.273187643180652e-07,
      "loss": 0.627,
      "step": 6260
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6669303693513584,
      "learning_rate": 2.2629522891678413e-07,
      "loss": 0.5941,
      "step": 6261
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7853361477637857,
      "learning_rate": 2.2527397665391026e-07,
      "loss": 0.6063,
      "step": 6262
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8446346329931,
      "learning_rate": 2.2425500776801056e-07,
      "loss": 0.6773,
      "step": 6263
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.043382310507136,
      "learning_rate": 2.2323832249711464e-07,
      "loss": 0.6214,
      "step": 6264
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8561724659917007,
      "learning_rate": 2.2222392107872027e-07,
      "loss": 0.6612,
      "step": 6265
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.2798020815874542,
      "learning_rate": 2.2121180374979124e-07,
      "loss": 0.6292,
      "step": 6266
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7212476940389954,
      "learning_rate": 2.2020197074675952e-07,
      "loss": 0.5475,
      "step": 6267
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7175548795642508,
      "learning_rate": 2.191944223055209e-07,
      "loss": 0.591,
      "step": 6268
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.619262398696494,
      "learning_rate": 2.1818915866144153e-07,
      "loss": 0.6222,
      "step": 6269
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.228050012058829,
      "learning_rate": 2.17186180049348e-07,
      "loss": 0.6767,
      "step": 6270
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8730451726624069,
      "learning_rate": 2.1618548670353735e-07,
      "loss": 0.5679,
      "step": 6271
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.1753209067519914,
      "learning_rate": 2.1518707885777147e-07,
      "loss": 0.6873,
      "step": 6272
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.816381049199741,
      "learning_rate": 2.1419095674527934e-07,
      "loss": 0.6065,
      "step": 6273
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.0438210176785865,
      "learning_rate": 2.1319712059875376e-07,
      "loss": 0.6339,
      "step": 6274
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.1772775568862466,
      "learning_rate": 2.1220557065035784e-07,
      "loss": 0.6103,
      "step": 6275
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8286431006109118,
      "learning_rate": 2.1121630713171305e-07,
      "loss": 0.6444,
      "step": 6276
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.051646849999384,
      "learning_rate": 2.1022933027391555e-07,
      "loss": 0.6664,
      "step": 6277
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6168318975765907,
      "learning_rate": 2.09244640307521e-07,
      "loss": 0.5569,
      "step": 6278
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6058569754204894,
      "learning_rate": 2.0826223746255424e-07,
      "loss": 0.655,
      "step": 6279
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.461234071436949,
      "learning_rate": 2.0728212196850505e-07,
      "loss": 0.6872,
      "step": 6280
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7785306425239353,
      "learning_rate": 2.0630429405432695e-07,
      "loss": 0.6968,
      "step": 6281
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.0627942273213145,
      "learning_rate": 2.0532875394844053e-07,
      "loss": 0.6349,
      "step": 6282
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.753221846830142,
      "learning_rate": 2.0435550187873466e-07,
      "loss": 0.6951,
      "step": 6283
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6694814161767106,
      "learning_rate": 2.0338453807255743e-07,
      "loss": 0.5697,
      "step": 6284
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.3311489085898085,
      "learning_rate": 2.0241586275672963e-07,
      "loss": 0.6049,
      "step": 6285
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.2010458277155815,
      "learning_rate": 2.014494761575314e-07,
      "loss": 0.62,
      "step": 6286
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.984070832178976,
      "learning_rate": 2.0048537850071326e-07,
      "loss": 0.6271,
      "step": 6287
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.698927911250494,
      "learning_rate": 1.9952357001148503e-07,
      "loss": 0.5578,
      "step": 6288
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7441571265477132,
      "learning_rate": 1.9856405091452813e-07,
      "loss": 0.6227,
      "step": 6289
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.180119754103438,
      "learning_rate": 1.9760682143398547e-07,
      "loss": 0.5876,
      "step": 6290
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1953458941195287,
      "learning_rate": 1.9665188179346483e-07,
      "loss": 0.6894,
      "step": 6291
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.0972331716855996,
      "learning_rate": 1.9569923221604224e-07,
      "loss": 0.6231,
      "step": 6292
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.670252921879175,
      "learning_rate": 1.9474887292425525e-07,
      "loss": 0.6435,
      "step": 6293
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.1574240042841244,
      "learning_rate": 1.938008041401085e-07,
      "loss": 0.7024,
      "step": 6294
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8773215462857975,
      "learning_rate": 1.9285502608507144e-07,
      "loss": 0.6595,
      "step": 6295
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.167418356719119,
      "learning_rate": 1.919115389800763e-07,
      "loss": 0.6622,
      "step": 6296
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1357613133678568,
      "learning_rate": 1.909703430455223e-07,
      "loss": 0.6736,
      "step": 6297
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6917454102557092,
      "learning_rate": 1.900314385012747e-07,
      "loss": 0.6407,
      "step": 6298
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.265209093793601,
      "learning_rate": 1.8909482556666026e-07,
      "loss": 0.647,
      "step": 6299
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.755866210240359,
      "learning_rate": 1.8816050446047063e-07,
      "loss": 0.6752,
      "step": 6300
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8379067695411413,
      "learning_rate": 1.8722847540096567e-07,
      "loss": 0.7306,
      "step": 6301
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7561693446602125,
      "learning_rate": 1.8629873860586567e-07,
      "loss": 0.6098,
      "step": 6302
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8058524659930006,
      "learning_rate": 1.8537129429235912e-07,
      "loss": 0.6713,
      "step": 6303
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.338333084646521,
      "learning_rate": 1.8444614267709492e-07,
      "loss": 0.7392,
      "step": 6304
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.4975892216636866,
      "learning_rate": 1.8352328397618913e-07,
      "loss": 0.6477,
      "step": 6305
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.281299814440667,
      "learning_rate": 1.826027184052237e-07,
      "loss": 0.6721,
      "step": 6306
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8104517731928769,
      "learning_rate": 1.8168444617924107e-07,
      "loss": 0.6699,
      "step": 6307
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.8370177414749467,
      "learning_rate": 1.8076846751274856e-07,
      "loss": 0.6612,
      "step": 6308
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.671200393792128,
      "learning_rate": 1.7985478261972167e-07,
      "loss": 0.652,
      "step": 6309
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.9605083382270958,
      "learning_rate": 1.789433917135952e-07,
      "loss": 0.7204,
      "step": 6310
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.9222710985773173,
      "learning_rate": 1.7803429500726998e-07,
      "loss": 0.5623,
      "step": 6311
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7011515608153762,
      "learning_rate": 1.7712749271311392e-07,
      "loss": 0.6189,
      "step": 6312
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.4252274984101994,
      "learning_rate": 1.762229850429531e-07,
      "loss": 0.6636,
      "step": 6313
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.3529964107370818,
      "learning_rate": 1.7532077220808074e-07,
      "loss": 0.7131,
      "step": 6314
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6991703947853347,
      "learning_rate": 1.7442085441925605e-07,
      "loss": 0.6584,
      "step": 6315
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7685633654724606,
      "learning_rate": 1.7352323188669752e-07,
      "loss": 0.6933,
      "step": 6316
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.218263886453894,
      "learning_rate": 1.7262790482009184e-07,
      "loss": 0.6741,
      "step": 6317
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.0004315825449575,
      "learning_rate": 1.717348734285862e-07,
      "loss": 0.6184,
      "step": 6318
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.1114498540655102,
      "learning_rate": 1.7084413792079367e-07,
      "loss": 0.6482,
      "step": 6319
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8655211730207741,
      "learning_rate": 1.69955698504789e-07,
      "loss": 0.5961,
      "step": 6320
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7620003726382316,
      "learning_rate": 1.6906955538811276e-07,
      "loss": 0.6256,
      "step": 6321
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.782565378075796,
      "learning_rate": 1.681857087777672e-07,
      "loss": 0.6432,
      "step": 6322
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6053377968862703,
      "learning_rate": 1.6730415888022046e-07,
      "loss": 0.5365,
      "step": 6323
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.0071063740365607,
      "learning_rate": 1.6642490590140114e-07,
      "loss": 0.6244,
      "step": 6324
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6801384556504257,
      "learning_rate": 1.6554795004670389e-07,
      "loss": 0.5701,
      "step": 6325
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.802995404681072,
      "learning_rate": 1.6467329152098477e-07,
      "loss": 0.6626,
      "step": 6326
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7743801677104531,
      "learning_rate": 1.6380093052856482e-07,
      "loss": 0.7181,
      "step": 6327
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4430906937689048,
      "learning_rate": 1.629308672732266e-07,
      "loss": 0.5439,
      "step": 6328
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.0109840798686323,
      "learning_rate": 1.620631019582186e-07,
      "loss": 0.6514,
      "step": 6329
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.9061944103508823,
      "learning_rate": 1.6119763478624984e-07,
      "loss": 0.6118,
      "step": 6330
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7913831916152385,
      "learning_rate": 1.6033446595949299e-07,
      "loss": 0.6235,
      "step": 6331
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.803762623984743,
      "learning_rate": 1.5947359567958677e-07,
      "loss": 0.668,
      "step": 6332
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.357429616042193,
      "learning_rate": 1.5861502414762808e-07,
      "loss": 0.6568,
      "step": 6333
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6733904973968539,
      "learning_rate": 1.5775875156417985e-07,
      "loss": 0.5929,
      "step": 6334
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.008601713677179,
      "learning_rate": 1.5690477812926763e-07,
      "loss": 0.6374,
      "step": 6335
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.014756182077376,
      "learning_rate": 1.5605310404238072e-07,
      "loss": 0.628,
      "step": 6336
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0165625531952895,
      "learning_rate": 1.5520372950246888e-07,
      "loss": 0.7299,
      "step": 6337
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.768881557374606,
      "learning_rate": 1.543566547079467e-07,
      "loss": 0.6093,
      "step": 6338
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8622801026552995,
      "learning_rate": 1.5351187985669036e-07,
      "loss": 0.6242,
      "step": 6339
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8147972813747655,
      "learning_rate": 1.5266940514603977e-07,
      "loss": 0.6606,
      "step": 6340
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5385466817407185,
      "learning_rate": 1.5182923077279754e-07,
      "loss": 0.5895,
      "step": 6341
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8196814957622378,
      "learning_rate": 1.5099135693322776e-07,
      "loss": 0.615,
      "step": 6342
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.688881776702803,
      "learning_rate": 1.5015578382305828e-07,
      "loss": 0.5344,
      "step": 6343
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7416159850805395,
      "learning_rate": 1.4932251163747858e-07,
      "loss": 0.6169,
      "step": 6344
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6782420444802222,
      "learning_rate": 1.484915405711429e-07,
      "loss": 0.6242,
      "step": 6345
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.921691959691085,
      "learning_rate": 1.4766287081816378e-07,
      "loss": 0.5614,
      "step": 6346
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.78301881961373,
      "learning_rate": 1.4683650257211967e-07,
      "loss": 0.5616,
      "step": 6347
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7279607476703627,
      "learning_rate": 1.4601243602604954e-07,
      "loss": 0.6841,
      "step": 6348
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.238634134042803,
      "learning_rate": 1.4519067137245602e-07,
      "loss": 0.7278,
      "step": 6349
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.743133319745731,
      "learning_rate": 1.4437120880330445e-07,
      "loss": 0.6525,
      "step": 6350
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8194893855712893,
      "learning_rate": 1.4355404851001953e-07,
      "loss": 0.6404,
      "step": 6351
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.23791486327552,
      "learning_rate": 1.4273919068349184e-07,
      "loss": 0.6991,
      "step": 6352
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.589628936983356,
      "learning_rate": 1.4192663551407027e-07,
      "loss": 0.6985,
      "step": 6353
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.2158337853960264,
      "learning_rate": 1.411163831915685e-07,
      "loss": 0.5777,
      "step": 6354
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6569950093017325,
      "learning_rate": 1.4030843390526183e-07,
      "loss": 0.6342,
      "step": 6355
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9306004096238802,
      "learning_rate": 1.3950278784388704e-07,
      "loss": 0.636,
      "step": 6356
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6582797043508262,
      "learning_rate": 1.386994451956436e-07,
      "loss": 0.666,
      "step": 6357
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.2310285782885693,
      "learning_rate": 1.378984061481925e-07,
      "loss": 0.5981,
      "step": 6358
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8420559370041374,
      "learning_rate": 1.3709967088865628e-07,
      "loss": 0.6576,
      "step": 6359
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.5903932549496957,
      "learning_rate": 1.3630323960361902e-07,
      "loss": 0.6393,
      "step": 6360
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.348001816512249,
      "learning_rate": 1.3550911247912745e-07,
      "loss": 0.6558,
      "step": 6361
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8829584101085866,
      "learning_rate": 1.3471728970068986e-07,
      "loss": 0.5971,
      "step": 6362
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.149405711167541,
      "learning_rate": 1.3392777145327718e-07,
      "loss": 0.6044,
      "step": 6363
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8745513676970689,
      "learning_rate": 1.3314055792131964e-07,
      "loss": 0.6351,
      "step": 6364
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9450919405848763,
      "learning_rate": 1.3235564928871014e-07,
      "loss": 0.6538,
      "step": 6365
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.1766803688800196,
      "learning_rate": 1.3157304573880425e-07,
      "loss": 0.6286,
      "step": 6366
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.000384498084039,
      "learning_rate": 1.3079274745441794e-07,
      "loss": 0.6206,
      "step": 6367
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9525467034487862,
      "learning_rate": 1.3001475461782874e-07,
      "loss": 0.6751,
      "step": 6368
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8818322293914804,
      "learning_rate": 1.2923906741077574e-07,
      "loss": 0.6397,
      "step": 6369
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6950305568535597,
      "learning_rate": 1.2846568601446174e-07,
      "loss": 0.6167,
      "step": 6370
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0030065473337753,
      "learning_rate": 1.2769461060954558e-07,
      "loss": 0.6705,
      "step": 6371
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0947500801746517,
      "learning_rate": 1.2692584137615205e-07,
      "loss": 0.6174,
      "step": 6372
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7191191845921667,
      "learning_rate": 1.261593784938653e-07,
      "loss": 0.6305,
      "step": 6373
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6875947137564418,
      "learning_rate": 1.2539522214173096e-07,
      "loss": 0.5978,
      "step": 6374
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9405248540862188,
      "learning_rate": 1.2463337249825737e-07,
      "loss": 0.629,
      "step": 6375
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.920972551681312,
      "learning_rate": 1.2387382974141104e-07,
      "loss": 0.668,
      "step": 6376
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9770959417151313,
      "learning_rate": 1.231165940486234e-07,
      "loss": 0.7047,
      "step": 6377
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6077544448800083,
      "learning_rate": 1.2236166559678188e-07,
      "loss": 0.6369,
      "step": 6378
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0751756560557137,
      "learning_rate": 1.2160904456223976e-07,
      "loss": 0.6379,
      "step": 6379
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8961179921422004,
      "learning_rate": 1.208587311208087e-07,
      "loss": 0.6262,
      "step": 6380
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.92232408704652,
      "learning_rate": 1.201107254477618e-07,
      "loss": 0.7001,
      "step": 6381
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8076956289533914,
      "learning_rate": 1.1936502771783488e-07,
      "loss": 0.6613,
      "step": 6382
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0807856870506125,
      "learning_rate": 1.1862163810522076e-07,
      "loss": 0.6595,
      "step": 6383
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5079292549745344,
      "learning_rate": 1.1788055678357724e-07,
      "loss": 0.6187,
      "step": 6384
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7228740253820138,
      "learning_rate": 1.1714178392601916e-07,
      "loss": 0.7182,
      "step": 6385
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5606528282209249,
      "learning_rate": 1.1640531970512515e-07,
      "loss": 0.6803,
      "step": 6386
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5873309677378271,
      "learning_rate": 1.1567116429293424e-07,
      "loss": 0.5301,
      "step": 6387
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6157522001357154,
      "learning_rate": 1.1493931786094258e-07,
      "loss": 0.6037,
      "step": 6388
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7173837843350979,
      "learning_rate": 1.1420978058011122e-07,
      "loss": 0.6207,
      "step": 6389
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.874607000075543,
      "learning_rate": 1.134825526208605e-07,
      "loss": 0.6357,
      "step": 6390
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8673392830793634,
      "learning_rate": 1.1275763415306896e-07,
      "loss": 0.6553,
      "step": 6391
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.067272040143566,
      "learning_rate": 1.1203502534608113e-07,
      "loss": 0.6523,
      "step": 6392
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.949864709060606,
      "learning_rate": 1.1131472636869534e-07,
      "loss": 0.6845,
      "step": 6393
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7042437984408323,
      "learning_rate": 1.1059673738917476e-07,
      "loss": 0.6054,
      "step": 6394
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0386768608223527,
      "learning_rate": 1.098810585752419e-07,
      "loss": 0.651,
      "step": 6395
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7236098107929523,
      "learning_rate": 1.0916769009407746e-07,
      "loss": 0.6316,
      "step": 6396
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5612031968090323,
      "learning_rate": 1.0845663211232704e-07,
      "loss": 0.6876,
      "step": 6397
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.3171552921650735,
      "learning_rate": 1.0774788479609332e-07,
      "loss": 0.5957,
      "step": 6398
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.2350134387750127,
      "learning_rate": 1.0704144831093944e-07,
      "loss": 0.6832,
      "step": 6399
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.966549921794423,
      "learning_rate": 1.063373228218878e-07,
      "loss": 0.6893,
      "step": 6400
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9959286642293494,
      "learning_rate": 1.0563550849342242e-07,
      "loss": 0.6018,
      "step": 6401
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.1667144006151715,
      "learning_rate": 1.0493600548948879e-07,
      "loss": 0.6814,
      "step": 6402
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.292548779644874,
      "learning_rate": 1.0423881397349067e-07,
      "loss": 0.745,
      "step": 6403
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1464062159897177,
      "learning_rate": 1.0354393410829111e-07,
      "loss": 0.6552,
      "step": 6404
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.2688560859060374,
      "learning_rate": 1.028513660562136e-07,
      "loss": 0.5829,
      "step": 6405
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.481678286643734,
      "learning_rate": 1.0216110997904427e-07,
      "loss": 0.587,
      "step": 6406
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8392042632532095,
      "learning_rate": 1.0147316603802415e-07,
      "loss": 0.6386,
      "step": 6407
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.988540805530094,
      "learning_rate": 1.0078753439385913e-07,
      "loss": 0.7257,
      "step": 6408
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8277640394052381,
      "learning_rate": 1.0010421520671332e-07,
      "loss": 0.6704,
      "step": 6409
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.426696775098166,
      "learning_rate": 9.942320863620792e-08,
      "loss": 0.6362,
      "step": 6410
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.3912829150264865,
      "learning_rate": 9.874451484142789e-08,
      "loss": 0.6347,
      "step": 6411
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3717700050483588,
      "learning_rate": 9.806813398091419e-08,
      "loss": 0.6883,
      "step": 6412
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7751696925325675,
      "learning_rate": 9.739406621267156e-08,
      "loss": 0.5934,
      "step": 6413
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6731711533625484,
      "learning_rate": 9.672231169416179e-08,
      "loss": 0.616,
      "step": 6414
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8854658844045291,
      "learning_rate": 9.605287058230717e-08,
      "loss": 0.6465,
      "step": 6415
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6675242772555126,
      "learning_rate": 9.538574303348813e-08,
      "loss": 0.565,
      "step": 6416
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7936808409467893,
      "learning_rate": 9.47209292035467e-08,
      "loss": 0.575,
      "step": 6417
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7048313836239555,
      "learning_rate": 9.405842924778197e-08,
      "loss": 0.6346,
      "step": 6418
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.3857228215957322,
      "learning_rate": 9.339824332095571e-08,
      "loss": 0.5978,
      "step": 6419
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7913255143536941,
      "learning_rate": 9.274037157728566e-08,
      "loss": 0.6365,
      "step": 6420
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8777218584632744,
      "learning_rate": 9.208481417045223e-08,
      "loss": 0.7632,
      "step": 6421
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8523480566165778,
      "learning_rate": 9.143157125359514e-08,
      "loss": 0.6323,
      "step": 6422
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.816141344277567,
      "learning_rate": 9.078064297930788e-08,
      "loss": 0.62,
      "step": 6423
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8277539409635308,
      "learning_rate": 9.013202949964994e-08,
      "loss": 0.6246,
      "step": 6424
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7991405320488405,
      "learning_rate": 8.948573096613789e-08,
      "loss": 0.5806,
      "step": 6425
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6845346424597112,
      "learning_rate": 8.88417475297454e-08,
      "loss": 0.5789,
      "step": 6426
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6085651013820543,
      "learning_rate": 8.82000793409088e-08,
      "loss": 0.6202,
      "step": 6427
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8724778527092936,
      "learning_rate": 8.756072654952153e-08,
      "loss": 0.757,
      "step": 6428
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.832307887413644,
      "learning_rate": 8.692368930493522e-08,
      "loss": 0.7401,
      "step": 6429
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.5565585888924227,
      "learning_rate": 8.628896775596196e-08,
      "loss": 0.6981,
      "step": 6430
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.17867457505098,
      "learning_rate": 8.565656205087425e-08,
      "loss": 0.6961,
      "step": 6431
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9734910597950748,
      "learning_rate": 8.502647233740169e-08,
      "loss": 0.6476,
      "step": 6432
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.4593613476230756,
      "learning_rate": 8.43986987627321e-08,
      "loss": 0.6184,
      "step": 6433
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.733472486485201,
      "learning_rate": 8.377324147351485e-08,
      "loss": 0.6288,
      "step": 6434
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.734921844873974,
      "learning_rate": 8.315010061585638e-08,
      "loss": 0.6801,
      "step": 6435
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7344208523535949,
      "learning_rate": 8.252927633532137e-08,
      "loss": 0.6336,
      "step": 6436
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.0553940514748223,
      "learning_rate": 8.191076877693605e-08,
      "loss": 0.6565,
      "step": 6437
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3295552660423078,
      "learning_rate": 8.12945780851837e-08,
      "loss": 0.6332,
      "step": 6438
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.341963323999189,
      "learning_rate": 8.068070440400477e-08,
      "loss": 0.6842,
      "step": 6439
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.771606788459311,
      "learning_rate": 8.006914787680231e-08,
      "loss": 0.5682,
      "step": 6440
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7604185501634761,
      "learning_rate": 7.945990864643538e-08,
      "loss": 0.6572,
      "step": 6441
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.119607960818594,
      "learning_rate": 7.885298685522235e-08,
      "loss": 0.6134,
      "step": 6442
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8171045157037677,
      "learning_rate": 7.824838264493873e-08,
      "loss": 0.6568,
      "step": 6443
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.5381205366313218,
      "learning_rate": 7.76460961568215e-08,
      "loss": 0.6636,
      "step": 6444
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8923272529492297,
      "learning_rate": 7.704612753156593e-08,
      "loss": 0.6458,
      "step": 6445
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.241125482012928,
      "learning_rate": 7.644847690932211e-08,
      "loss": 0.6733,
      "step": 6446
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8814913522779775,
      "learning_rate": 7.585314442970282e-08,
      "loss": 0.6276,
      "step": 6447
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7600021967524644,
      "learning_rate": 7.526013023177903e-08,
      "loss": 0.7013,
      "step": 6448
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.347380409133324,
      "learning_rate": 7.466943445407659e-08,
      "loss": 0.6567,
      "step": 6449
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9778953669540482,
      "learning_rate": 7.408105723458292e-08,
      "loss": 0.6629,
      "step": 6450
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.862916174603355,
      "learning_rate": 7.34949987107425e-08,
      "loss": 0.6898,
      "step": 6451
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.060789771106316,
      "learning_rate": 7.291125901946027e-08,
      "loss": 0.6851,
      "step": 6452
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.800826142281641,
      "learning_rate": 7.232983829709606e-08,
      "loss": 0.6162,
      "step": 6453
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.1487635224742307,
      "learning_rate": 7.175073667947118e-08,
      "loss": 0.7046,
      "step": 6454
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.156291709797618,
      "learning_rate": 7.117395430186414e-08,
      "loss": 0.6848,
      "step": 6455
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.65694726636988,
      "learning_rate": 7.059949129900934e-08,
      "loss": 0.5981,
      "step": 6456
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.790560425106049,
      "learning_rate": 7.002734780510279e-08,
      "loss": 0.6435,
      "step": 6457
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7909968553927054,
      "learning_rate": 6.945752395379646e-08,
      "loss": 0.6302,
      "step": 6458
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6411582541324712,
      "learning_rate": 6.889001987820165e-08,
      "loss": 0.7152,
      "step": 6459
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7352748928960968,
      "learning_rate": 6.832483571088899e-08,
      "loss": 0.6098,
      "step": 6460
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9105472728335333,
      "learning_rate": 6.776197158388287e-08,
      "loss": 0.6188,
      "step": 6461
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9185115278550513,
      "learning_rate": 6.720142762867032e-08,
      "loss": 0.6322,
      "step": 6462
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8519730126464142,
      "learning_rate": 6.664320397619329e-08,
      "loss": 0.5604,
      "step": 6463
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.2327068192103092,
      "learning_rate": 6.60873007568541e-08,
      "loss": 0.6215,
      "step": 6464
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1460833720435954,
      "learning_rate": 6.553371810051001e-08,
      "loss": 0.688,
      "step": 6465
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7546092822373243,
      "learning_rate": 6.49824561364798e-08,
      "loss": 0.6322,
      "step": 6466
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5400817328387866,
      "learning_rate": 6.443351499353823e-08,
      "loss": 0.5289,
      "step": 6467
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9789911680887262,
      "learning_rate": 6.388689479991606e-08,
      "loss": 0.671,
      "step": 6468
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.639872302633037,
      "learning_rate": 6.334259568330558e-08,
      "loss": 0.6364,
      "step": 6469
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.947958439623033,
      "learning_rate": 6.2800617770854e-08,
      "loss": 0.5709,
      "step": 6470
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9793719638542582,
      "learning_rate": 6.226096118916891e-08,
      "loss": 0.6647,
      "step": 6471
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9233850783544484,
      "learning_rate": 6.172362606431281e-08,
      "loss": 0.6101,
      "step": 6472
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.215417114300504,
      "learning_rate": 6.118861252180863e-08,
      "loss": 0.6953,
      "step": 6473
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6120084131443893,
      "learning_rate": 6.065592068663417e-08,
      "loss": 0.5611,
      "step": 6474
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1575480194435421,
      "learning_rate": 6.012555068322657e-08,
      "loss": 0.6693,
      "step": 6475
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6650885300606568,
      "learning_rate": 5.959750263548003e-08,
      "loss": 0.573,
      "step": 6476
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8030600974387792,
      "learning_rate": 5.907177666674813e-08,
      "loss": 0.6817,
      "step": 6477
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8871696467029748,
      "learning_rate": 5.854837289983928e-08,
      "loss": 0.6209,
      "step": 6478
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9114146641712646,
      "learning_rate": 5.802729145702013e-08,
      "loss": 0.6483,
      "step": 6479
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.0676295947937877,
      "learning_rate": 5.750853246001775e-08,
      "loss": 0.5895,
      "step": 6480
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7511837857319126,
      "learning_rate": 5.699209603001077e-08,
      "loss": 0.6243,
      "step": 6481
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.02071146728082,
      "learning_rate": 5.647798228764156e-08,
      "loss": 0.6603,
      "step": 6482
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8632238909468655,
      "learning_rate": 5.596619135300629e-08,
      "loss": 0.5808,
      "step": 6483
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9161830099218085,
      "learning_rate": 5.545672334565932e-08,
      "loss": 0.6325,
      "step": 6484
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.5571372029191592,
      "learning_rate": 5.494957838461212e-08,
      "loss": 0.7416,
      "step": 6485
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9902265698428054,
      "learning_rate": 5.444475658833548e-08,
      "loss": 0.6048,
      "step": 6486
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8303129505025475,
      "learning_rate": 5.394225807475284e-08,
      "loss": 0.672,
      "step": 6487
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.5405014590426602,
      "learning_rate": 5.344208296125031e-08,
      "loss": 0.5945,
      "step": 6488
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7937802260373492,
      "learning_rate": 5.294423136466775e-08,
      "loss": 0.6181,
      "step": 6489
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.1116301405906523,
      "learning_rate": 5.244870340130437e-08,
      "loss": 0.6415,
      "step": 6490
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8885695165305592,
      "learning_rate": 5.1955499186914226e-08,
      "loss": 0.6012,
      "step": 6491
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.2653035401139117,
      "learning_rate": 5.146461883671072e-08,
      "loss": 0.7477,
      "step": 6492
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8781568474941808,
      "learning_rate": 5.097606246536324e-08,
      "loss": 0.7262,
      "step": 6493
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7736040326922111,
      "learning_rate": 5.048983018699827e-08,
      "loss": 0.648,
      "step": 6494
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8484367741778043,
      "learning_rate": 5.00059221152005e-08,
      "loss": 0.5836,
      "step": 6495
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9404488326404388,
      "learning_rate": 4.952433836301063e-08,
      "loss": 0.6388,
      "step": 6496
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.0350961712492652,
      "learning_rate": 4.9045079042926434e-08,
      "loss": 0.6439,
      "step": 6497
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.0533373023890307,
      "learning_rate": 4.8568144266902816e-08,
      "loss": 0.6799,
      "step": 6498
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.075150727991676,
      "learning_rate": 4.809353414635287e-08,
      "loss": 0.6124,
      "step": 6499
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.1617850027775027,
      "learning_rate": 4.7621248792144583e-08,
      "loss": 0.6464,
      "step": 6500
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7535688033855918,
      "learning_rate": 4.715128831460414e-08,
      "loss": 0.6108,
      "step": 6501
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8496245341376119,
      "learning_rate": 4.6683652823513725e-08,
      "loss": 0.5802,
      "step": 6502
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.75145516453467,
      "learning_rate": 4.621834242811374e-08,
      "loss": 0.6408,
      "step": 6503
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.35182809304479,
      "learning_rate": 4.575535723710056e-08,
      "loss": 0.5838,
      "step": 6504
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7480241755459796,
      "learning_rate": 4.5294697358627684e-08,
      "loss": 0.6722,
      "step": 6505
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8732126899413366,
      "learning_rate": 4.483636290030568e-08,
      "loss": 0.6172,
      "step": 6506
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7115001236916507,
      "learning_rate": 4.438035396920004e-08,
      "loss": 0.6369,
      "step": 6507
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7295848447770803,
      "learning_rate": 4.392667067183554e-08,
      "loss": 0.6526,
      "step": 6508
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.750734380498672,
      "learning_rate": 4.347531311419295e-08,
      "loss": 0.6661,
      "step": 6509
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6547832309022097,
      "learning_rate": 4.302628140171017e-08,
      "loss": 0.6293,
      "step": 6510
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.0251817923772806,
      "learning_rate": 4.2579575639278835e-08,
      "loss": 0.5975,
      "step": 6511
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9448500931843646,
      "learning_rate": 4.2135195931249925e-08,
      "loss": 0.6335,
      "step": 6512
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9966978787026053,
      "learning_rate": 4.169314238143263e-08,
      "loss": 0.7143,
      "step": 6513
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6091803306206933,
      "learning_rate": 4.1253415093087666e-08,
      "loss": 0.5902,
      "step": 6514
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5987323717445459,
      "learning_rate": 4.0816014168938436e-08,
      "loss": 0.5414,
      "step": 6515
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.322412551301236,
      "learning_rate": 4.0380939711160974e-08,
      "loss": 0.6117,
      "step": 6516
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.819664596190859,
      "learning_rate": 3.9948191821386205e-08,
      "loss": 0.6105,
      "step": 6517
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7101937461393164,
      "learning_rate": 3.9517770600707716e-08,
      "loss": 0.5561,
      "step": 6518
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7036137033227925,
      "learning_rate": 3.908967614966952e-08,
      "loss": 0.6553,
      "step": 6519
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8121775878345394,
      "learning_rate": 3.866390856827495e-08,
      "loss": 0.6148,
      "step": 6520
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.872140849839498,
      "learning_rate": 3.824046795598446e-08,
      "loss": 0.6897,
      "step": 6521
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8331957256091425,
      "learning_rate": 3.7819354411713364e-08,
      "loss": 0.7014,
      "step": 6522
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6842635154850445,
      "learning_rate": 3.7400568033832964e-08,
      "loss": 0.5666,
      "step": 6523
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.828264974626189,
      "learning_rate": 3.698410892017168e-08,
      "loss": 0.6753,
      "step": 6524
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7878135300348021,
      "learning_rate": 3.656997716801614e-08,
      "loss": 0.6735,
      "step": 6525
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.835828829244685,
      "learning_rate": 3.615817287410561e-08,
      "loss": 0.6678,
      "step": 6526
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8415789765972725,
      "learning_rate": 3.5748696134639825e-08,
      "loss": 0.6687,
      "step": 6527
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4374247037793393,
      "learning_rate": 3.5341547045270044e-08,
      "loss": 0.683,
      "step": 6528
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7164173482177472,
      "learning_rate": 3.4936725701107956e-08,
      "loss": 0.5939,
      "step": 6529
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.825033619358303,
      "learning_rate": 3.453423219671903e-08,
      "loss": 0.6583,
      "step": 6530
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.748233852076569,
      "learning_rate": 3.413406662612695e-08,
      "loss": 0.6157,
      "step": 6531
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.8090013937579126,
      "learning_rate": 3.373622908280916e-08,
      "loss": 0.5549,
      "step": 6532
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.773241816883338,
      "learning_rate": 3.3340719659701315e-08,
      "loss": 0.5969,
      "step": 6533
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.3560303953145265,
      "learning_rate": 3.294753844919396e-08,
      "loss": 0.6349,
      "step": 6534
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7985400306369668,
      "learning_rate": 3.255668554313474e-08,
      "loss": 0.6199,
      "step": 6535
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.09814112291123,
      "learning_rate": 3.2168161032827274e-08,
      "loss": 0.6445,
      "step": 6536
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7777100359848683,
      "learning_rate": 3.178196500903008e-08,
      "loss": 0.6806,
      "step": 6537
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.306939856995403,
      "learning_rate": 3.1398097561958777e-08,
      "loss": 0.6836,
      "step": 6538
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.2901221009191564,
      "learning_rate": 3.1016558781284957e-08,
      "loss": 0.6826,
      "step": 6539
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.011954142932363,
      "learning_rate": 3.063734875613622e-08,
      "loss": 0.6091,
      "step": 6540
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.206586174992818,
      "learning_rate": 3.0260467575095045e-08,
      "loss": 0.6425,
      "step": 6541
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4034276733614541,
      "learning_rate": 2.988591532620322e-08,
      "loss": 0.5416,
      "step": 6542
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.0266484646128364,
      "learning_rate": 2.9513692096954094e-08,
      "loss": 0.6129,
      "step": 6543
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.798684775675386,
      "learning_rate": 2.9143797974299225e-08,
      "loss": 0.6421,
      "step": 6544
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.697189115694106,
      "learning_rate": 2.8776233044647273e-08,
      "loss": 0.5687,
      "step": 6545
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4839127817147177,
      "learning_rate": 2.8410997393860663e-08,
      "loss": 0.6883,
      "step": 6546
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.983577739651895,
      "learning_rate": 2.8048091107258925e-08,
      "loss": 0.5872,
      "step": 6547
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7287996441766744,
      "learning_rate": 2.7687514269615355e-08,
      "loss": 0.5962,
      "step": 6548
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.45558587707371,
      "learning_rate": 2.7329266965162582e-08,
      "loss": 0.7115,
      "step": 6549
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.131297635377265,
      "learning_rate": 2.697334927758588e-08,
      "loss": 0.6046,
      "step": 6550
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8710489259142444,
      "learning_rate": 2.6619761290028746e-08,
      "loss": 0.5847,
      "step": 6551
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.0146684170713516,
      "learning_rate": 2.6268503085089547e-08,
      "loss": 0.7082,
      "step": 6552
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.0856596926177264,
      "learning_rate": 2.591957474482043e-08,
      "loss": 0.6997,
      "step": 6553
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8540750072479464,
      "learning_rate": 2.5572976350732857e-08,
      "loss": 0.6628,
      "step": 6554
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.299301442074614,
      "learning_rate": 2.5228707983790956e-08,
      "loss": 0.6912,
      "step": 6555
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6071938630817266,
      "learning_rate": 2.488676972441817e-08,
      "loss": 0.5875,
      "step": 6556
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.984550704492804,
      "learning_rate": 2.4547161652488382e-08,
      "loss": 0.5779,
      "step": 6557
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.488401152343284,
      "learning_rate": 2.4209883847335913e-08,
      "loss": 0.7095,
      "step": 6558
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6030181899400537,
      "learning_rate": 2.3874936387747738e-08,
      "loss": 0.5696,
      "step": 6559
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7996802445639901,
      "learning_rate": 2.3542319351969046e-08,
      "loss": 0.6508,
      "step": 6560
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9985878570012638,
      "learning_rate": 2.321203281769768e-08,
      "loss": 0.7052,
      "step": 6561
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.0415630089845056,
      "learning_rate": 2.2884076862089712e-08,
      "loss": 0.6722,
      "step": 6562
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.6702305662890002,
      "learning_rate": 2.2558451561756066e-08,
      "loss": 0.7341,
      "step": 6563
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.0145799746071096,
      "learning_rate": 2.2235156992761466e-08,
      "loss": 0.6172,
      "step": 6564
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.1593599478051297,
      "learning_rate": 2.191419323062771e-08,
      "loss": 0.6378,
      "step": 6565
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3298853085218671,
      "learning_rate": 2.159556035033261e-08,
      "loss": 0.6546,
      "step": 6566
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.808468652590395,
      "learning_rate": 2.1279258426308848e-08,
      "loss": 0.6887,
      "step": 6567
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5365987897817412,
      "learning_rate": 2.0965287532445088e-08,
      "loss": 0.5674,
      "step": 6568
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9151059058377824,
      "learning_rate": 2.065364774208267e-08,
      "loss": 0.5964,
      "step": 6569
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.39553016482619,
      "learning_rate": 2.034433912802336e-08,
      "loss": 0.6269,
      "step": 6570
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7518263777088963,
      "learning_rate": 2.003736176252047e-08,
      "loss": 0.6403,
      "step": 6571
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8960893448961054,
      "learning_rate": 1.973271571728441e-08,
      "loss": 0.5799,
      "step": 6572
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.6226990144530684,
      "learning_rate": 1.9430401063480485e-08,
      "loss": 0.6094,
      "step": 6573
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6552556391240858,
      "learning_rate": 1.9130417871727757e-08,
      "loss": 0.6146,
      "step": 6574
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6409135056806117,
      "learning_rate": 1.8832766212104613e-08,
      "loss": 0.5738,
      "step": 6575
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7227837463556297,
      "learning_rate": 1.8537446154140993e-08,
      "loss": 0.5649,
      "step": 6576
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.168879040026233,
      "learning_rate": 1.824445776682504e-08,
      "loss": 0.6383,
      "step": 6577
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.846550099010092,
      "learning_rate": 1.795380111859868e-08,
      "loss": 0.5853,
      "step": 6578
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9567765390738672,
      "learning_rate": 1.7665476277357596e-08,
      "loss": 0.6407,
      "step": 6579
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6744245849222934,
      "learning_rate": 1.7379483310455692e-08,
      "loss": 0.6597,
      "step": 6580
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.218428956799496,
      "learning_rate": 1.7095822284701746e-08,
      "loss": 0.7205,
      "step": 6581
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.696031932193949,
      "learning_rate": 1.6814493266357202e-08,
      "loss": 0.5748,
      "step": 6582
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.612677855761289,
      "learning_rate": 1.653549632114282e-08,
      "loss": 0.7108,
      "step": 6583
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.490956422573294,
      "learning_rate": 1.625883151423091e-08,
      "loss": 0.6748,
      "step": 6584
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.662768329871414,
      "learning_rate": 1.5984498910249778e-08,
      "loss": 0.6858,
      "step": 6585
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3393968095032396,
      "learning_rate": 1.5712498573284828e-08,
      "loss": 0.677,
      "step": 6586
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7371055854019857,
      "learning_rate": 1.5442830566874123e-08,
      "loss": 0.6426,
      "step": 6587
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.2475387043495014,
      "learning_rate": 1.5175494954013937e-08,
      "loss": 0.6178,
      "step": 6588
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7776874817316983,
      "learning_rate": 1.4910491797152094e-08,
      "loss": 0.6015,
      "step": 6589
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8570222166861414,
      "learning_rate": 1.464782115819352e-08,
      "loss": 0.6461,
      "step": 6590
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8543330526513888,
      "learning_rate": 1.4387483098500244e-08,
      "loss": 0.6415,
      "step": 6591
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8422052257611914,
      "learning_rate": 1.4129477678884728e-08,
      "loss": 0.5974,
      "step": 6592
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7891929583464166,
      "learning_rate": 1.3873804959617654e-08,
      "loss": 0.6407,
      "step": 6593
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7417470446475045,
      "learning_rate": 1.3620465000424577e-08,
      "loss": 0.717,
      "step": 6594
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.723272739017577,
      "learning_rate": 1.3369457860487045e-08,
      "loss": 0.6124,
      "step": 6595
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.942401845265475,
      "learning_rate": 1.3120783598438158e-08,
      "loss": 0.672,
      "step": 6596
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2201551111581184,
      "learning_rate": 1.2874442272369225e-08,
      "loss": 0.6559,
      "step": 6597
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.896153927718958,
      "learning_rate": 1.2630433939825326e-08,
      "loss": 0.6027,
      "step": 6598
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.086479655349482,
      "learning_rate": 1.238875865780642e-08,
      "loss": 0.6913,
      "step": 6599
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.807425357330351,
      "learning_rate": 1.2149416482769572e-08,
      "loss": 0.6495,
      "step": 6600
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9942160373504427,
      "learning_rate": 1.1912407470623389e-08,
      "loss": 0.6219,
      "step": 6601
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.2784964078322374,
      "learning_rate": 1.1677731676733584e-08,
      "loss": 0.6602,
      "step": 6602
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.660214028746484,
      "learning_rate": 1.144538915592186e-08,
      "loss": 0.559,
      "step": 6603
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8192318495078157,
      "learning_rate": 1.121537996246147e-08,
      "loss": 0.5933,
      "step": 6604
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7298283469660705,
      "learning_rate": 1.0987704150083877e-08,
      "loss": 0.6436,
      "step": 6605
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8816065902850532,
      "learning_rate": 1.0762361771973207e-08,
      "loss": 0.7029,
      "step": 6606
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7483001772743365,
      "learning_rate": 1.053935288076957e-08,
      "loss": 0.6256,
      "step": 6607
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.356485772004993,
      "learning_rate": 1.0318677528569077e-08,
      "loss": 0.6791,
      "step": 6608
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.2702995690786483,
      "learning_rate": 1.0100335766920489e-08,
      "loss": 0.6396,
      "step": 6609
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.261879502774888,
      "learning_rate": 9.884327646828562e-09,
      "loss": 0.6432,
      "step": 6610
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7691113109009036,
      "learning_rate": 9.670653218752935e-09,
      "loss": 0.6193,
      "step": 6611
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8881415267607224,
      "learning_rate": 9.459312532608122e-09,
      "loss": 0.5329,
      "step": 6612
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.49222040018534,
      "learning_rate": 9.250305637762413e-09,
      "loss": 0.6738,
      "step": 6613
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1746466692198654,
      "learning_rate": 9.043632583041194e-09,
      "loss": 0.6882,
      "step": 6614
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9583005705129588,
      "learning_rate": 8.839293416722516e-09,
      "loss": 0.63,
      "step": 6615
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7636011081837433,
      "learning_rate": 8.637288186540416e-09,
      "loss": 0.6307,
      "step": 6616
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.695380457800107,
      "learning_rate": 8.437616939683812e-09,
      "loss": 0.6447,
      "step": 6617
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.5689545769216138,
      "learning_rate": 8.240279722794286e-09,
      "loss": 0.6437,
      "step": 6618
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9447325564516293,
      "learning_rate": 8.045276581970517e-09,
      "loss": 0.6358,
      "step": 6619
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7352837401618972,
      "learning_rate": 7.852607562766068e-09,
      "loss": 0.6323,
      "step": 6620
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8786980669286755,
      "learning_rate": 7.662272710188268e-09,
      "loss": 0.6413,
      "step": 6621
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.134584061215201,
      "learning_rate": 7.474272068698219e-09,
      "loss": 0.6963,
      "step": 6622
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1938431408184331,
      "learning_rate": 7.288605682214123e-09,
      "loss": 0.6717,
      "step": 6623
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.865915283627582,
      "learning_rate": 7.105273594107953e-09,
      "loss": 0.656,
      "step": 6624
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.0368443212077163,
      "learning_rate": 6.924275847204343e-09,
      "loss": 0.652,
      "step": 6625
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6822142123262322,
      "learning_rate": 6.745612483785024e-09,
      "loss": 0.6098,
      "step": 6626
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.211723075728711,
      "learning_rate": 6.569283545587724e-09,
      "loss": 0.6446,
      "step": 6627
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5956148423460526,
      "learning_rate": 6.395289073800603e-09,
      "loss": 0.6412,
      "step": 6628
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7305365779509538,
      "learning_rate": 6.2236291090689295e-09,
      "loss": 0.579,
      "step": 6629
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.5244679556346967,
      "learning_rate": 6.054303691492847e-09,
      "loss": 0.6705,
      "step": 6630
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.2714021459394975,
      "learning_rate": 5.887312860628491e-09,
      "loss": 0.6506,
      "step": 6631
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6153676056530561,
      "learning_rate": 5.722656655482439e-09,
      "loss": 0.6342,
      "step": 6632
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.88933111429373,
      "learning_rate": 5.560335114519477e-09,
      "loss": 0.6739,
      "step": 6633
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9326115880180792,
      "learning_rate": 5.400348275658163e-09,
      "loss": 0.6517,
      "step": 6634
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6837855393713974,
      "learning_rate": 5.242696176270823e-09,
      "loss": 0.6797,
      "step": 6635
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9722226454680138,
      "learning_rate": 5.087378853185776e-09,
      "loss": 0.5967,
      "step": 6636
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7961942419656172,
      "learning_rate": 4.9343963426840006e-09,
      "loss": 0.6257,
      "step": 6637
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.4919854759416324,
      "learning_rate": 4.783748680503575e-09,
      "loss": 0.5642,
      "step": 6638
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9303054148673275,
      "learning_rate": 4.635435901835239e-09,
      "loss": 0.6431,
      "step": 6639
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9291888401477892,
      "learning_rate": 4.4894580413246126e-09,
      "loss": 0.6266,
      "step": 6640
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.98905193471435,
      "learning_rate": 4.345815133072196e-09,
      "loss": 0.6103,
      "step": 6641
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.1191039805559506,
      "learning_rate": 4.204507210633368e-09,
      "loss": 0.6241,
      "step": 6642
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.078043341225654,
      "learning_rate": 4.065534307017283e-09,
      "loss": 0.6155,
      "step": 6643
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.1165209207658418,
      "learning_rate": 3.928896454689079e-09,
      "loss": 0.6622,
      "step": 6644
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8444637859064918,
      "learning_rate": 3.794593685565451e-09,
      "loss": 0.6601,
      "step": 6645
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.2269913116373137,
      "learning_rate": 3.662626031020189e-09,
      "loss": 0.6197,
      "step": 6646
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9749213093241305,
      "learning_rate": 3.5329935218819668e-09,
      "loss": 0.6974,
      "step": 6647
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.713923386542781,
      "learning_rate": 3.4056961884332274e-09,
      "loss": 0.6248,
      "step": 6648
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.775162519651063,
      "learning_rate": 3.2807340604079642e-09,
      "loss": 0.6166,
      "step": 6649
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8161275084941109,
      "learning_rate": 3.1581071670006013e-09,
      "loss": 0.6208,
      "step": 6650
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.781820238498944,
      "learning_rate": 3.037815536853783e-09,
      "loss": 0.6495,
      "step": 6651
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8972584462895277,
      "learning_rate": 2.9198591980705847e-09,
      "loss": 0.6296,
      "step": 6652
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.0840116058853217,
      "learning_rate": 2.8042381782034113e-09,
      "loss": 0.6586,
      "step": 6653
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6998348919583066,
      "learning_rate": 2.6909525042628783e-09,
      "loss": 0.567,
      "step": 6654
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2348436946876156,
      "learning_rate": 2.5800022027111515e-09,
      "loss": 0.6461,
      "step": 6655
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.994705266574036,
      "learning_rate": 2.471387299466388e-09,
      "loss": 0.7029,
      "step": 6656
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.3907440094921752,
      "learning_rate": 2.3651078199016244e-09,
      "loss": 0.7362,
      "step": 6657
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.073058741638499,
      "learning_rate": 2.261163788844778e-09,
      "loss": 0.6477,
      "step": 6658
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8989843051897393,
      "learning_rate": 2.1595552305753165e-09,
      "loss": 0.6075,
      "step": 6659
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.787316831053297,
      "learning_rate": 2.060282168829808e-09,
      "loss": 0.6144,
      "step": 6660
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.0930112560023533,
      "learning_rate": 1.963344626797481e-09,
      "loss": 0.6419,
      "step": 6661
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8521403509107897,
      "learning_rate": 1.8687426271246646e-09,
      "loss": 0.6082,
      "step": 6662
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.585681073883428,
      "learning_rate": 1.776476191910348e-09,
      "loss": 0.6443,
      "step": 6663
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.0553362920026226,
      "learning_rate": 1.6865453427061806e-09,
      "loss": 0.6788,
      "step": 6664
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.347740006546745,
      "learning_rate": 1.5989501005209128e-09,
      "loss": 0.6242,
      "step": 6665
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6842506706976297,
      "learning_rate": 1.5136904858181755e-09,
      "loss": 0.5841,
      "step": 6666
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.10370587642613,
      "learning_rate": 1.430766518512039e-09,
      "loss": 0.6176,
      "step": 6667
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.338110163341337,
      "learning_rate": 1.350178217975895e-09,
      "loss": 0.6994,
      "step": 6668
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.9642900188770867,
      "learning_rate": 1.2719256030335747e-09,
      "loss": 0.6428,
      "step": 6669
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.9460224523158371,
      "learning_rate": 1.1960086919660109e-09,
      "loss": 0.7452,
      "step": 6670
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7714729777846754,
      "learning_rate": 1.1224275025056852e-09,
      "loss": 0.631,
      "step": 6671
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.9421886499520626,
      "learning_rate": 1.0511820518432915e-09,
      "loss": 0.6985,
      "step": 6672
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8703281275127688,
      "learning_rate": 9.822723566210724e-10,
      "loss": 0.642,
      "step": 6673
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.765713581989671,
      "learning_rate": 9.156984329361518e-10,
      "loss": 0.6675,
      "step": 6674
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.0584840116883916,
      "learning_rate": 8.514602963405338e-10,
      "loss": 0.6361,
      "step": 6675
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.549444918022383,
      "learning_rate": 7.895579618388827e-10,
      "loss": 0.6438,
      "step": 6676
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.9424232540852668,
      "learning_rate": 7.299914438929634e-10,
      "loss": 0.7125,
      "step": 6677
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.1688553884029886,
      "learning_rate": 6.727607564172012e-10,
      "loss": 0.6711,
      "step": 6678
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7999222858439823,
      "learning_rate": 6.178659127809016e-10,
      "loss": 0.6239,
      "step": 6679
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8256650644987398,
      "learning_rate": 5.653069258071409e-10,
      "loss": 0.5922,
      "step": 6680
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.2857281387132184,
      "learning_rate": 5.150838077738752e-10,
      "loss": 0.6105,
      "step": 6681
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.78442719788397,
      "learning_rate": 4.671965704128312e-10,
      "loss": 0.6779,
      "step": 6682
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.9725950213467396,
      "learning_rate": 4.2164522491172645e-10,
      "loss": 0.6709,
      "step": 6683
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1152030056632882,
      "learning_rate": 3.7842978190982816e-10,
      "loss": 0.6854,
      "step": 6684
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.892349329739008,
      "learning_rate": 3.375502515023943e-10,
      "loss": 0.638,
      "step": 6685
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.9993717257508308,
      "learning_rate": 2.990066432395633e-10,
      "loss": 0.6183,
      "step": 6686
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.659200728847854,
      "learning_rate": 2.6279896612524393e-10,
      "loss": 0.6087,
      "step": 6687
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7327062956344303,
      "learning_rate": 2.2892722861822536e-10,
      "loss": 0.6165,
      "step": 6688
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8464905027633138,
      "learning_rate": 1.9739143862884668e-10,
      "loss": 0.673,
      "step": 6689
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8540077481554356,
      "learning_rate": 1.681916035256581e-10,
      "loss": 0.619,
      "step": 6690
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7387070882678572,
      "learning_rate": 1.4132773012764944e-10,
      "loss": 0.5854,
      "step": 6691
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.1998448156106667,
      "learning_rate": 1.167998247131319e-10,
      "loss": 0.7619,
      "step": 6692
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7345061122419865,
      "learning_rate": 9.460789300974604e-11,
      "loss": 0.5496,
      "step": 6693
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6906063963778255,
      "learning_rate": 7.475194020223342e-11,
      "loss": 0.679,
      "step": 6694
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.0283724214025782,
      "learning_rate": 5.723197092910582e-11,
      "loss": 0.6122,
      "step": 6695
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6845310169991556,
      "learning_rate": 4.204798928264531e-11,
      "loss": 0.6564,
      "step": 6696
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8379336225604992,
      "learning_rate": 2.919999881001445e-11,
      "loss": 0.6651,
      "step": 6697
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.0721225265938155,
      "learning_rate": 1.868800251325631e-11,
      "loss": 0.6927,
      "step": 6698
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8624005917845792,
      "learning_rate": 1.0512002845963765e-11,
      "loss": 0.5846,
      "step": 6699
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.193454501197674,
      "learning_rate": 4.672001719940866e-12,
      "loss": 0.6374,
      "step": 6700
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.244094693699587,
      "learning_rate": 1.1680004985414883e-12,
      "loss": 0.7031,
      "step": 6701
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1400498954193048,
      "learning_rate": 0.0,
      "loss": 0.6405,
      "step": 6702
    },
    {
      "epoch": 1.0,
      "step": 6702,
      "total_flos": 1.1248206025719808e+16,
      "train_loss": 0.7334290438892236,
      "train_runtime": 191079.3199,
      "train_samples_per_second": 4.489,
      "train_steps_per_second": 0.035
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 6702,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "total_flos": 1.1248206025719808e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}