{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.8512057465366856,
  "eval_steps": 100,
  "global_step": 1900,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 18.125,
      "learning_rate": 2e-05,
      "loss": 4.6425,
      "step": 1
    },
    {
      "epoch": 0.0,
      "eval_loss": 4.437226295471191,
      "eval_runtime": 10.3982,
      "eval_samples_per_second": 1.635,
      "eval_steps_per_second": 0.866,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 16.5,
      "learning_rate": 4e-05,
      "loss": 4.428,
      "step": 2
    },
    {
      "epoch": 0.01,
      "grad_norm": 19.0,
      "learning_rate": 6e-05,
      "loss": 4.3591,
      "step": 3
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.75,
      "learning_rate": 8e-05,
      "loss": 4.1399,
      "step": 4
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.25,
      "learning_rate": 0.0001,
      "loss": 4.2114,
      "step": 5
    },
    {
      "epoch": 0.01,
      "grad_norm": 14.0,
      "learning_rate": 0.00012,
      "loss": 4.1812,
      "step": 6
    },
    {
      "epoch": 0.01,
      "grad_norm": 16.125,
      "learning_rate": 0.00014,
      "loss": 3.5602,
      "step": 7
    },
    {
      "epoch": 0.02,
      "grad_norm": 118.0,
      "learning_rate": 0.00016,
      "loss": 3.0117,
      "step": 8
    },
    {
      "epoch": 0.02,
      "grad_norm": 33.0,
      "learning_rate": 0.00018,
      "loss": 2.6222,
      "step": 9
    },
    {
      "epoch": 0.02,
      "grad_norm": 9.1875,
      "learning_rate": 0.0002,
      "loss": 2.5161,
      "step": 10
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.8125,
      "learning_rate": 0.00019999986861006156,
      "loss": 2.404,
      "step": 11
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.984375,
      "learning_rate": 0.0001999994744405915,
      "loss": 2.219,
      "step": 12
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.75,
      "learning_rate": 0.00019999881749262555,
      "loss": 2.2485,
      "step": 13
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.96875,
      "learning_rate": 0.0001999978977678901,
      "loss": 2.1542,
      "step": 14
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.8125,
      "learning_rate": 0.00019999671526880203,
      "loss": 2.1376,
      "step": 15
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.21875,
      "learning_rate": 0.00019999526999846864,
      "loss": 2.0227,
      "step": 16
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.921875,
      "learning_rate": 0.00019999356196068787,
      "loss": 2.0261,
      "step": 17
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.359375,
      "learning_rate": 0.00019999159115994804,
      "loss": 2.0547,
      "step": 18
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.84375,
      "learning_rate": 0.00019998935760142804,
      "loss": 2.1127,
      "step": 19
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.140625,
      "learning_rate": 0.00019998686129099724,
      "loss": 2.097,
      "step": 20
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019998410223521544,
      "loss": 2.0588,
      "step": 21
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.625,
      "learning_rate": 0.00019998108044133283,
      "loss": 2.0248,
      "step": 22
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.703125,
      "learning_rate": 0.00019997779591729014,
      "loss": 2.0553,
      "step": 23
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.609375,
      "learning_rate": 0.0001999742486717184,
      "loss": 1.9498,
      "step": 24
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.390625,
      "learning_rate": 0.00019997043871393906,
      "loss": 1.9788,
      "step": 25
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.484375,
      "learning_rate": 0.00019996636605396396,
      "loss": 2.034,
      "step": 26
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.46875,
      "learning_rate": 0.00019996203070249516,
      "loss": 1.8855,
      "step": 27
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00019995743267092514,
      "loss": 1.9879,
      "step": 28
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0001999525719713366,
      "loss": 1.9709,
      "step": 29
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00019994744861650247,
      "loss": 1.9544,
      "step": 30
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0001999420626198859,
      "loss": 1.9672,
      "step": 31
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.21875,
      "learning_rate": 0.0001999364139956402,
      "loss": 1.9696,
      "step": 32
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019993050275860882,
      "loss": 1.8815,
      "step": 33
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019992432892432534,
      "loss": 2.0133,
      "step": 34
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00019991789250901329,
      "loss": 1.9538,
      "step": 35
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0001999111935295863,
      "loss": 1.9409,
      "step": 36
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019990423200364794,
      "loss": 1.9629,
      "step": 37
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00019989700794949172,
      "loss": 1.9506,
      "step": 38
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0625,
      "learning_rate": 0.00019988952138610098,
      "loss": 1.8641,
      "step": 39
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019988177233314888,
      "loss": 1.9602,
      "step": 40
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001998737608109984,
      "loss": 1.9332,
      "step": 41
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00019986548684070224,
      "loss": 1.8084,
      "step": 42
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019985695044400265,
      "loss": 1.9217,
      "step": 43
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00019984815164333163,
      "loss": 1.9572,
      "step": 44
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019983909046181065,
      "loss": 1.8268,
      "step": 45
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001998297669232506,
      "loss": 1.8286,
      "step": 46
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.03125,
      "learning_rate": 0.00019982018105215197,
      "loss": 1.9026,
      "step": 47
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019981033287370443,
      "loss": 1.8908,
      "step": 48
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019980022241378702,
      "loss": 1.9357,
      "step": 49
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000199789849698968,
      "loss": 1.9109,
      "step": 50
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001997792147565048,
      "loss": 1.9463,
      "step": 51
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019976831761434389,
      "loss": 1.8941,
      "step": 52
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00019975715830112075,
      "loss": 1.8949,
      "step": 53
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019974573684615983,
      "loss": 1.9243,
      "step": 54
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019973405327947444,
      "loss": 1.9315,
      "step": 55
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001997221076317666,
      "loss": 1.8718,
      "step": 56
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019970989993442704,
      "loss": 1.879,
      "step": 57
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.453125,
      "learning_rate": 0.0001996974302195352,
      "loss": 1.9512,
      "step": 58
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019968469851985895,
      "loss": 1.9168,
      "step": 59
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.21875,
      "learning_rate": 0.00019967170486885464,
      "loss": 1.8838,
      "step": 60
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.140625,
      "learning_rate": 0.000199658449300667,
      "loss": 1.9792,
      "step": 61
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019964493185012895,
      "loss": 1.9329,
      "step": 62
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0001996311525527616,
      "loss": 1.8205,
      "step": 63
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019961711144477428,
      "loss": 1.8505,
      "step": 64
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.984375,
      "learning_rate": 0.00019960280856306414,
      "loss": 1.836,
      "step": 65
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.046875,
      "learning_rate": 0.00019958824394521621,
      "loss": 1.9267,
      "step": 66
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.03125,
      "learning_rate": 0.00019957341762950344,
      "loss": 1.8815,
      "step": 67
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.203125,
      "learning_rate": 0.00019955832965488644,
      "loss": 1.832,
      "step": 68
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001995429800610133,
      "loss": 1.9571,
      "step": 69
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.046875,
      "learning_rate": 0.0001995273688882197,
      "loss": 1.7775,
      "step": 70
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.03125,
      "learning_rate": 0.00019951149617752865,
      "loss": 1.8635,
      "step": 71
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019949536197065042,
      "loss": 1.911,
      "step": 72
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00019947896630998253,
      "loss": 1.9264,
      "step": 73
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00019946230923860938,
      "loss": 1.8443,
      "step": 74
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019944539080030246,
      "loss": 1.8494,
      "step": 75
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00019942821103952004,
      "loss": 1.833,
      "step": 76
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.109375,
      "learning_rate": 0.000199410770001407,
      "loss": 1.9518,
      "step": 77
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019939306773179497,
      "loss": 1.9881,
      "step": 78
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0625,
      "learning_rate": 0.00019937510427720187,
      "loss": 1.8933,
      "step": 79
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001993568796848321,
      "loss": 1.8634,
      "step": 80
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0001993383940025762,
      "loss": 1.877,
      "step": 81
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0001993196472790108,
      "loss": 1.774,
      "step": 82
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00019930063956339854,
      "loss": 1.8319,
      "step": 83
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001992813709056879,
      "loss": 1.8664,
      "step": 84
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000199261841356513,
      "loss": 1.836,
      "step": 85
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001992420509671936,
      "loss": 1.838,
      "step": 86
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.265625,
      "learning_rate": 0.0001992219997897348,
      "loss": 1.8646,
      "step": 87
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001992016878768271,
      "loss": 1.8897,
      "step": 88
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001991811152818461,
      "loss": 1.8082,
      "step": 89
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.25,
      "learning_rate": 0.00019916028205885247,
      "loss": 1.8531,
      "step": 90
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001991391882625917,
      "loss": 1.8647,
      "step": 91
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001991178339484941,
      "loss": 1.774,
      "step": 92
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.921875,
      "learning_rate": 0.0001990962191726744,
      "loss": 1.8476,
      "step": 93
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00019907434399193196,
      "loss": 1.8421,
      "step": 94
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00019905220846375032,
      "loss": 1.7726,
      "step": 95
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00019902981264629724,
      "loss": 1.827,
      "step": 96
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001990071565984244,
      "loss": 1.8114,
      "step": 97
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.90625,
      "learning_rate": 0.0001989842403796673,
      "loss": 1.9053,
      "step": 98
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0,
      "learning_rate": 0.0001989610640502452,
      "loss": 1.8722,
      "step": 99
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001989376276710608,
      "loss": 1.9054,
      "step": 100
    },
    {
      "epoch": 0.21,
      "eval_loss": 1.6499474048614502,
      "eval_runtime": 10.5645,
      "eval_samples_per_second": 1.609,
      "eval_steps_per_second": 0.852,
      "step": 100
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.140625,
      "learning_rate": 0.0001989139313037002,
      "loss": 1.9018,
      "step": 101
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00019888997501043266,
      "loss": 1.742,
      "step": 102
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019886575885421054,
      "loss": 1.8286,
      "step": 103
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.078125,
      "learning_rate": 0.000198841282898669,
      "loss": 1.7467,
      "step": 104
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00019881654720812594,
      "loss": 1.8124,
      "step": 105
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00019879155184758177,
      "loss": 1.9375,
      "step": 106
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019876629688271927,
      "loss": 1.776,
      "step": 107
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.984375,
      "learning_rate": 0.00019874078237990336,
      "loss": 1.8864,
      "step": 108
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001987150084061811,
      "loss": 1.9278,
      "step": 109
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.046875,
      "learning_rate": 0.00019868897502928125,
      "loss": 1.8497,
      "step": 110
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001986626823176143,
      "loss": 1.8414,
      "step": 111
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019863613034027224,
      "loss": 1.8924,
      "step": 112
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00019860931916702826,
      "loss": 1.841,
      "step": 113
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.984375,
      "learning_rate": 0.0001985822488683368,
      "loss": 1.7919,
      "step": 114
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.125,
      "learning_rate": 0.00019855491951533308,
      "loss": 1.9441,
      "step": 115
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00019852733117983317,
      "loss": 1.7858,
      "step": 116
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.15625,
      "learning_rate": 0.0001984994839343337,
      "loss": 1.8978,
      "step": 117
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019847137785201157,
      "loss": 1.7895,
      "step": 118
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00019844301300672395,
      "loss": 1.7715,
      "step": 119
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.359375,
      "learning_rate": 0.00019841438947300794,
      "loss": 1.7863,
      "step": 120
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0001983855073260804,
      "loss": 1.819,
      "step": 121
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.015625,
      "learning_rate": 0.00019835636664183786,
      "loss": 1.8609,
      "step": 122
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001983269674968561,
      "loss": 1.7077,
      "step": 123
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0001982973099683902,
      "loss": 1.8447,
      "step": 124
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019826739413437414,
      "loss": 1.8813,
      "step": 125
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00019823722007342078,
      "loss": 1.956,
      "step": 126
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001982067878648214,
      "loss": 1.7933,
      "step": 127
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001981760975885458,
      "loss": 1.765,
      "step": 128
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0001981451493252418,
      "loss": 1.8113,
      "step": 129
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0,
      "learning_rate": 0.00019811394315623522,
      "loss": 1.8123,
      "step": 130
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00019808247916352958,
      "loss": 1.838,
      "step": 131
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00019805075742980593,
      "loss": 1.7361,
      "step": 132
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019801877803842262,
      "loss": 1.8416,
      "step": 133
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000197986541073415,
      "loss": 1.8506,
      "step": 134
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019795404661949542,
      "loss": 1.8612,
      "step": 135
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.921875,
      "learning_rate": 0.0001979212947620527,
      "loss": 1.7523,
      "step": 136
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.984375,
      "learning_rate": 0.00019788828558715214,
      "loss": 1.8138,
      "step": 137
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001978550191815352,
      "loss": 1.791,
      "step": 138
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.984375,
      "learning_rate": 0.00019782149563261933,
      "loss": 1.7594,
      "step": 139
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.046875,
      "learning_rate": 0.00019778771502849764,
      "loss": 1.7154,
      "step": 140
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.125,
      "learning_rate": 0.00019775367745793876,
      "loss": 1.8301,
      "step": 141
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.34375,
      "learning_rate": 0.00019771938301038663,
      "loss": 1.7808,
      "step": 142
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0001976848317759601,
      "loss": 1.8856,
      "step": 143
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00019765002384545283,
      "loss": 1.9165,
      "step": 144
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0001976149593103332,
      "loss": 1.8133,
      "step": 145
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.921875,
      "learning_rate": 0.00019757963826274357,
      "loss": 1.8155,
      "step": 146
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00019754406079550068,
      "loss": 1.792,
      "step": 147
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.89453125,
      "learning_rate": 0.00019750822700209488,
      "loss": 1.82,
      "step": 148
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0001974721369766902,
      "loss": 1.8178,
      "step": 149
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00019743579081412397,
      "loss": 1.7943,
      "step": 150
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0001973991886099066,
      "loss": 1.8734,
      "step": 151
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00019736233046022125,
      "loss": 1.8863,
      "step": 152
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019732521646192378,
      "loss": 1.9136,
      "step": 153
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.015625,
      "learning_rate": 0.00019728784671254235,
      "loss": 1.816,
      "step": 154
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8984375,
      "learning_rate": 0.000197250221310277,
      "loss": 1.7274,
      "step": 155
    },
    {
      "epoch": 0.32,
      "grad_norm": 5.53125,
      "learning_rate": 0.00019721234035399986,
      "loss": 1.9156,
      "step": 156
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00019717420394325442,
      "loss": 1.7993,
      "step": 157
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00019713581217825548,
      "loss": 1.8566,
      "step": 158
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.140625,
      "learning_rate": 0.00019709716515988883,
      "loss": 1.8801,
      "step": 159
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00019705826298971113,
      "loss": 1.7293,
      "step": 160
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0001970191057699494,
      "loss": 1.8788,
      "step": 161
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.15625,
      "learning_rate": 0.00019697969360350098,
      "loss": 1.8099,
      "step": 162
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1875,
      "learning_rate": 0.00019694002659393305,
      "loss": 1.8404,
      "step": 163
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001969001048454826,
      "loss": 1.8305,
      "step": 164
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0001968599284630559,
      "loss": 1.7935,
      "step": 165
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9375,
      "learning_rate": 0.00019681949755222844,
      "loss": 1.8061,
      "step": 166
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0001967788122192445,
      "loss": 1.7828,
      "step": 167
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001967378725710169,
      "loss": 1.7537,
      "step": 168
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019669667871512688,
      "loss": 1.769,
      "step": 169
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.921875,
      "learning_rate": 0.00019665523075982356,
      "loss": 1.8126,
      "step": 170
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00019661352881402382,
      "loss": 1.7305,
      "step": 171
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00019657157298731202,
      "loss": 1.7131,
      "step": 172
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00019652936338993956,
      "loss": 1.7557,
      "step": 173
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00019648690013282486,
      "loss": 1.7964,
      "step": 174
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001964441833275527,
      "loss": 1.8606,
      "step": 175
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00019640121308637436,
      "loss": 1.7353,
      "step": 176
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.890625,
      "learning_rate": 0.0001963579895222069,
      "loss": 1.7585,
      "step": 177
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00019631451274863324,
      "loss": 1.8295,
      "step": 178
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.109375,
      "learning_rate": 0.00019627078287990152,
      "loss": 1.854,
      "step": 179
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0,
      "learning_rate": 0.00019622680003092503,
      "loss": 1.8796,
      "step": 180
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0625,
      "learning_rate": 0.00019618256431728194,
      "loss": 1.8374,
      "step": 181
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00019613807585521466,
      "loss": 1.7904,
      "step": 182
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.890625,
      "learning_rate": 0.00019609333476163003,
      "loss": 1.6841,
      "step": 183
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00019604834115409861,
      "loss": 1.7731,
      "step": 184
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3125,
      "learning_rate": 0.00019600309515085452,
      "loss": 1.7837,
      "step": 185
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0001959575968707952,
      "loss": 1.7976,
      "step": 186
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0001959118464334809,
      "loss": 1.8074,
      "step": 187
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.93359375,
      "learning_rate": 0.00019586584395913463,
      "loss": 1.7212,
      "step": 188
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.82421875,
      "learning_rate": 0.00019581958956864162,
      "loss": 1.7596,
      "step": 189
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00019577308338354906,
      "loss": 1.6824,
      "step": 190
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.875,
      "learning_rate": 0.00019572632552606594,
      "loss": 1.6819,
      "step": 191
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.109375,
      "learning_rate": 0.0001956793161190624,
      "loss": 1.8401,
      "step": 192
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00019563205528606975,
      "loss": 1.8254,
      "step": 193
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.87890625,
      "learning_rate": 0.00019558454315127995,
      "loss": 1.8891,
      "step": 194
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00019553677983954532,
      "loss": 1.7411,
      "step": 195
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00019548876547637823,
      "loss": 1.7583,
      "step": 196
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00019544050018795075,
      "loss": 1.7498,
      "step": 197
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.09375,
      "learning_rate": 0.00019539198410109437,
      "loss": 1.8704,
      "step": 198
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00019534321734329958,
      "loss": 1.833,
      "step": 199
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00019529420004271567,
      "loss": 1.6536,
      "step": 200
    },
    {
      "epoch": 0.41,
      "eval_loss": 1.6101255416870117,
      "eval_runtime": 10.7254,
      "eval_samples_per_second": 1.585,
      "eval_steps_per_second": 0.839,
      "step": 200
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00019524493232815016,
      "loss": 1.8815,
      "step": 201
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00019519541432906873,
      "loss": 1.7518,
      "step": 202
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001951456461755947,
      "loss": 1.8226,
      "step": 203
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00019509562799850877,
      "loss": 1.8036,
      "step": 204
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.046875,
      "learning_rate": 0.00019504535992924868,
      "loss": 1.7494,
      "step": 205
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00019499484209990872,
      "loss": 1.8019,
      "step": 206
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00019494407464323965,
      "loss": 1.7147,
      "step": 207
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00019489305769264812,
      "loss": 1.8538,
      "step": 208
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.015625,
      "learning_rate": 0.00019484179138219641,
      "loss": 1.7219,
      "step": 209
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.88671875,
      "learning_rate": 0.000194790275846602,
      "loss": 1.7719,
      "step": 210
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00019473851122123743,
      "loss": 1.8565,
      "step": 211
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00019468649764212972,
      "loss": 1.91,
      "step": 212
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00019463423524596003,
      "loss": 1.71,
      "step": 213
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00019458172417006347,
      "loss": 1.6644,
      "step": 214
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019452896455242856,
      "loss": 1.8908,
      "step": 215
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.03125,
      "learning_rate": 0.00019447595653169697,
      "loss": 1.6657,
      "step": 216
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.953125,
      "learning_rate": 0.00019442270024716313,
      "loss": 1.8202,
      "step": 217
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00019436919583877375,
      "loss": 1.6852,
      "step": 218
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00019431544344712776,
      "loss": 1.7655,
      "step": 219
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.921875,
      "learning_rate": 0.00019426144321347554,
      "loss": 1.8294,
      "step": 220
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.859375,
      "learning_rate": 0.00019420719527971891,
      "loss": 1.7877,
      "step": 221
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.92578125,
      "learning_rate": 0.00019415269978841052,
      "loss": 1.7767,
      "step": 222
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.046875,
      "learning_rate": 0.00019409795688275346,
      "loss": 1.671,
      "step": 223
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.92578125,
      "learning_rate": 0.00019404296670660117,
      "loss": 1.7349,
      "step": 224
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00019398772940445674,
      "loss": 1.8216,
      "step": 225
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00019393224512147267,
      "loss": 1.6854,
      "step": 226
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001938765140034505,
      "loss": 1.8948,
      "step": 227
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0001938205361968404,
      "loss": 1.7001,
      "step": 228
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00019376431184874078,
      "loss": 1.7335,
      "step": 229
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00019370784110689788,
      "loss": 1.861,
      "step": 230
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0001936511241197055,
      "loss": 1.7886,
      "step": 231
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.015625,
      "learning_rate": 0.00019359416103620442,
      "loss": 1.8244,
      "step": 232
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.859375,
      "learning_rate": 0.00019353695200608216,
      "loss": 1.7981,
      "step": 233
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.953125,
      "learning_rate": 0.00019347949717967263,
      "loss": 1.7769,
      "step": 234
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0001934217967079554,
      "loss": 1.8739,
      "step": 235
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00019336385074255586,
      "loss": 1.8748,
      "step": 236
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00019330565943574422,
      "loss": 1.5686,
      "step": 237
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00019324722294043558,
      "loss": 1.7364,
      "step": 238
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.921875,
      "learning_rate": 0.0001931885414101893,
      "loss": 1.8484,
      "step": 239
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.82421875,
      "learning_rate": 0.0001931296149992086,
      "loss": 1.8525,
      "step": 240
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.87109375,
      "learning_rate": 0.00019307044386234027,
      "loss": 1.879,
      "step": 241
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001930110281550741,
      "loss": 1.9225,
      "step": 242
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.828125,
      "learning_rate": 0.00019295136803354262,
      "loss": 1.8564,
      "step": 243
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8203125,
      "learning_rate": 0.0001928914636545207,
      "loss": 1.7971,
      "step": 244
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001928313151754249,
      "loss": 1.7728,
      "step": 245
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.86328125,
      "learning_rate": 0.00019277092275431337,
      "loss": 1.8708,
      "step": 246
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001927102865498852,
      "loss": 1.8499,
      "step": 247
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.859375,
      "learning_rate": 0.00019264940672148018,
      "loss": 1.8366,
      "step": 248
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8359375,
      "learning_rate": 0.00019258828342907824,
      "loss": 1.7301,
      "step": 249
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8984375,
      "learning_rate": 0.00019252691683329905,
      "loss": 1.846,
      "step": 250
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.93359375,
      "learning_rate": 0.00019246530709540171,
      "loss": 1.8128,
      "step": 251
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.84765625,
      "learning_rate": 0.00019240345437728423,
      "loss": 1.8156,
      "step": 252
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8984375,
      "learning_rate": 0.00019234135884148307,
      "loss": 1.7508,
      "step": 253
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.82421875,
      "learning_rate": 0.00019227902065117284,
      "loss": 1.8523,
      "step": 254
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8359375,
      "learning_rate": 0.0001922164399701657,
      "loss": 1.838,
      "step": 255
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00019215361696291115,
      "loss": 1.7618,
      "step": 256
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001920905517944954,
      "loss": 1.6406,
      "step": 257
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00019202724463064094,
      "loss": 1.7574,
      "step": 258
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.80078125,
      "learning_rate": 0.00019196369563770637,
      "loss": 1.663,
      "step": 259
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00019189990498268562,
      "loss": 1.878,
      "step": 260
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.85546875,
      "learning_rate": 0.00019183587283320766,
      "loss": 1.6906,
      "step": 261
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.83984375,
      "learning_rate": 0.00019177159935753613,
      "loss": 1.7564,
      "step": 262
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.859375,
      "learning_rate": 0.00019170708472456878,
      "loss": 1.7845,
      "step": 263
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.90625,
      "learning_rate": 0.00019164232910383707,
      "loss": 1.768,
      "step": 264
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.94140625,
      "learning_rate": 0.00019157733266550575,
      "loss": 1.7834,
      "step": 265
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00019151209558037238,
      "loss": 1.8225,
      "step": 266
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001914466180198669,
      "loss": 1.8046,
      "step": 267
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019138090015605118,
      "loss": 1.6449,
      "step": 268
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.85546875,
      "learning_rate": 0.0001913149421616185,
      "loss": 1.7639,
      "step": 269
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8046875,
      "learning_rate": 0.0001912487442098932,
      "loss": 1.792,
      "step": 270
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.87890625,
      "learning_rate": 0.0001911823064748302,
      "loss": 1.8352,
      "step": 271
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0001911156291310145,
      "loss": 1.8625,
      "step": 272
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001910487123536607,
      "loss": 1.806,
      "step": 273
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0001909815563186127,
      "loss": 1.7112,
      "step": 274
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.94140625,
      "learning_rate": 0.000190914161202343,
      "loss": 1.8512,
      "step": 275
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00019084652718195238,
      "loss": 1.8118,
      "step": 276
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8125,
      "learning_rate": 0.00019077865443516948,
      "loss": 1.7403,
      "step": 277
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.84375,
      "learning_rate": 0.00019071054314035018,
      "loss": 1.8488,
      "step": 278
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8671875,
      "learning_rate": 0.0001906421934764773,
      "loss": 1.8058,
      "step": 279
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.87109375,
      "learning_rate": 0.00019057360562315997,
      "loss": 1.8626,
      "step": 280
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.921875,
      "learning_rate": 0.0001905047797606333,
      "loss": 1.6414,
      "step": 281
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8359375,
      "learning_rate": 0.00019043571606975777,
      "loss": 1.7347,
      "step": 282
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00019036641473201886,
      "loss": 1.8314,
      "step": 283
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.87890625,
      "learning_rate": 0.0001902968759295266,
      "loss": 1.7389,
      "step": 284
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.078125,
      "learning_rate": 0.00019022709984501489,
      "loss": 1.6966,
      "step": 285
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8671875,
      "learning_rate": 0.00019015708666184127,
      "loss": 1.7061,
      "step": 286
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.796875,
      "learning_rate": 0.0001900868365639863,
      "loss": 1.7713,
      "step": 287
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8125,
      "learning_rate": 0.00019001634973605312,
      "loss": 1.7558,
      "step": 288
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.89453125,
      "learning_rate": 0.00018994562636326693,
      "loss": 1.8086,
      "step": 289
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.87109375,
      "learning_rate": 0.00018987466663147447,
      "loss": 1.7589,
      "step": 290
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.84765625,
      "learning_rate": 0.0001898034707271437,
      "loss": 1.721,
      "step": 291
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8671875,
      "learning_rate": 0.00018973203883736309,
      "loss": 1.6005,
      "step": 292
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.796875,
      "learning_rate": 0.00018966037114984127,
      "loss": 1.9286,
      "step": 293
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.796875,
      "learning_rate": 0.0001895884678529065,
      "loss": 1.6279,
      "step": 294
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8046875,
      "learning_rate": 0.00018951632913550626,
      "loss": 1.8319,
      "step": 295
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00018944395518720643,
      "loss": 1.8139,
      "step": 296
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.875,
      "learning_rate": 0.00018937134619819132,
      "loss": 1.7453,
      "step": 297
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00018929850235926266,
      "loss": 1.8681,
      "step": 298
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8203125,
      "learning_rate": 0.0001892254238618394,
      "loss": 1.7137,
      "step": 299
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.78125,
      "learning_rate": 0.00018915211089795718,
      "loss": 1.7332,
      "step": 300
    },
    {
      "epoch": 0.62,
      "eval_loss": 1.5972609519958496,
      "eval_runtime": 10.6768,
      "eval_samples_per_second": 1.592,
      "eval_steps_per_second": 0.843,
      "step": 300
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001890785636602677,
      "loss": 1.7586,
      "step": 301
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.82421875,
      "learning_rate": 0.00018900478234203826,
      "loss": 1.765,
      "step": 302
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00018893076713715138,
      "loss": 1.7116,
      "step": 303
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8359375,
      "learning_rate": 0.00018885651824010404,
      "loss": 1.7958,
      "step": 304
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00018878203584600747,
      "loss": 1.6782,
      "step": 305
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00018870732015058641,
      "loss": 1.7002,
      "step": 306
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.828125,
      "learning_rate": 0.00018863237135017865,
      "loss": 1.7224,
      "step": 307
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.83203125,
      "learning_rate": 0.00018855718964173456,
      "loss": 1.7747,
      "step": 308
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00018848177522281652,
      "loss": 1.8298,
      "step": 309
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001884061282915985,
      "loss": 1.6422,
      "step": 310
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.765625,
      "learning_rate": 0.00018833024904686536,
      "loss": 1.6913,
      "step": 311
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00018825413768801253,
      "loss": 1.7562,
      "step": 312
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.828125,
      "learning_rate": 0.00018817779441504531,
      "loss": 1.7696,
      "step": 313
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00018810121942857845,
      "loss": 1.6751,
      "step": 314
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8984375,
      "learning_rate": 0.00018802441292983566,
      "loss": 1.8667,
      "step": 315
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.88671875,
      "learning_rate": 0.0001879473751206489,
      "loss": 1.7589,
      "step": 316
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0001878701062034581,
      "loss": 1.7967,
      "step": 317
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.71875,
      "learning_rate": 0.00018779260638131036,
      "loss": 1.7519,
      "step": 318
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00018771487585785964,
      "loss": 1.8065,
      "step": 319
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.92578125,
      "learning_rate": 0.00018763691483736613,
      "loss": 1.7913,
      "step": 320
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0001875587235246957,
      "loss": 1.6843,
      "step": 321
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00018748030212531935,
      "loss": 1.7224,
      "step": 322
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00018740165084531275,
      "loss": 1.7711,
      "step": 323
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.84765625,
      "learning_rate": 0.00018732276989135568,
      "loss": 1.7839,
      "step": 324
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00018724365947073138,
      "loss": 1.6427,
      "step": 325
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.796875,
      "learning_rate": 0.0001871643197913261,
      "loss": 1.7482,
      "step": 326
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00018708475106162857,
      "loss": 1.8756,
      "step": 327
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.78125,
      "learning_rate": 0.0001870049534907294,
      "loss": 1.788,
      "step": 328
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8125,
      "learning_rate": 0.00018692492728832058,
      "loss": 1.7759,
      "step": 329
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0001868446726646948,
      "loss": 1.7267,
      "step": 330
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00018676418983074513,
      "loss": 1.7533,
      "step": 331
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.796875,
      "learning_rate": 0.00018668347899796422,
      "loss": 1.8827,
      "step": 332
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00018660254037844388,
      "loss": 1.4865,
      "step": 333
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00018652137418487453,
      "loss": 1.8099,
      "step": 334
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.80859375,
      "learning_rate": 0.00018643998063054464,
      "loss": 1.7823,
      "step": 335
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.80078125,
      "learning_rate": 0.00018635835992934004,
      "loss": 1.7629,
      "step": 336
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00018627651229574354,
      "loss": 1.7016,
      "step": 337
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00018619443794483422,
      "loss": 1.8037,
      "step": 338
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.734375,
      "learning_rate": 0.00018611213709228695,
      "loss": 1.6988,
      "step": 339
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00018602960995437186,
      "loss": 1.855,
      "step": 340
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.84375,
      "learning_rate": 0.00018594685674795365,
      "loss": 1.7812,
      "step": 341
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00018586387769049104,
      "loss": 1.7217,
      "step": 342
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00018578067300003634,
      "loss": 1.7209,
      "step": 343
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.80859375,
      "learning_rate": 0.00018569724289523474,
      "loss": 1.8253,
      "step": 344
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.703125,
      "learning_rate": 0.00018561358759532377,
      "loss": 1.6723,
      "step": 345
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.671875,
      "learning_rate": 0.00018552970732013267,
      "loss": 1.7395,
      "step": 346
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.80078125,
      "learning_rate": 0.00018544560229008197,
      "loss": 1.7579,
      "step": 347
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.75,
      "learning_rate": 0.00018536127272618275,
      "loss": 1.6441,
      "step": 348
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.734375,
      "learning_rate": 0.00018527671885003614,
      "loss": 1.6587,
      "step": 349
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00018519194088383273,
      "loss": 1.7023,
      "step": 350
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6875,
      "learning_rate": 0.00018510693905035192,
      "loss": 1.8239,
      "step": 351
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00018502171357296144,
      "loss": 1.7361,
      "step": 352
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00018493626467561668,
      "loss": 1.7741,
      "step": 353
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00018485059258286016,
      "loss": 1.7214,
      "step": 354
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.796875,
      "learning_rate": 0.00018476469751982092,
      "loss": 1.7151,
      "step": 355
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.765625,
      "learning_rate": 0.00018467857971221388,
      "loss": 1.831,
      "step": 356
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0001845922393863393,
      "loss": 1.6343,
      "step": 357
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00018450567676908222,
      "loss": 1.8268,
      "step": 358
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.76171875,
      "learning_rate": 0.0001844188920879117,
      "loss": 1.8693,
      "step": 359
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0001843318855708805,
      "loss": 1.6823,
      "step": 360
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.71875,
      "learning_rate": 0.0001842446574466242,
      "loss": 1.779,
      "step": 361
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.71875,
      "learning_rate": 0.0001841572079443608,
      "loss": 1.7687,
      "step": 362
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0001840695372938899,
      "loss": 1.7616,
      "step": 363
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00018398164572559243,
      "loss": 1.7937,
      "step": 364
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001838935334704297,
      "loss": 1.6476,
      "step": 365
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.671875,
      "learning_rate": 0.00018380520075994298,
      "loss": 1.7638,
      "step": 366
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00018371664782625287,
      "loss": 1.8345,
      "step": 367
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00018362787490205866,
      "loss": 1.8158,
      "step": 368
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001835388822206377,
      "loss": 1.7465,
      "step": 369
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0001834496700158449,
      "loss": 1.7363,
      "step": 370
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8046875,
      "learning_rate": 0.00018336023852211195,
      "loss": 1.7627,
      "step": 371
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00018327058797444683,
      "loss": 1.6662,
      "step": 372
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00018318071860843317,
      "loss": 1.8075,
      "step": 373
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.703125,
      "learning_rate": 0.00018309063066022948,
      "loss": 1.7733,
      "step": 374
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6875,
      "learning_rate": 0.00018300032436656887,
      "loss": 1.6733,
      "step": 375
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.765625,
      "learning_rate": 0.00018290979996475804,
      "loss": 1.7511,
      "step": 376
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.734375,
      "learning_rate": 0.00018281905769267694,
      "loss": 1.8675,
      "step": 377
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00018272809778877797,
      "loss": 1.6253,
      "step": 378
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.703125,
      "learning_rate": 0.00018263692049208549,
      "loss": 1.8011,
      "step": 379
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00018254552604219501,
      "loss": 1.7811,
      "step": 380
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00018245391467927284,
      "loss": 1.7019,
      "step": 381
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001823620866440552,
      "loss": 1.6736,
      "step": 382
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.671875,
      "learning_rate": 0.00018227004217784764,
      "loss": 1.6696,
      "step": 383
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001821777815225245,
      "loss": 1.8235,
      "step": 384
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0001820853049205283,
      "loss": 1.7007,
      "step": 385
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00018199261261486882,
      "loss": 1.7291,
      "step": 386
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00018189970484912285,
      "loss": 1.7221,
      "step": 387
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00018180658186743332,
      "loss": 1.7534,
      "step": 388
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001817132439145086,
      "loss": 1.7393,
      "step": 389
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0001816196912356222,
      "loss": 1.6736,
      "step": 390
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00018152592407661157,
      "loss": 1.6454,
      "step": 391
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.796875,
      "learning_rate": 0.00018143194268387805,
      "loss": 1.7515,
      "step": 392
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00018133774730438575,
      "loss": 1.7726,
      "step": 393
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00018124333818566124,
      "loss": 1.7389,
      "step": 394
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00018114871557579264,
      "loss": 1.7747,
      "step": 395
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00018105387972342914,
      "loss": 1.7824,
      "step": 396
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.703125,
      "learning_rate": 0.00018095883087778029,
      "loss": 1.8065,
      "step": 397
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00018086356928861532,
      "loss": 1.7986,
      "step": 398
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0001807680952062625,
      "loss": 1.7634,
      "step": 399
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.84375,
      "learning_rate": 0.00018067240888160855,
      "loss": 1.7975,
      "step": 400
    },
    {
      "epoch": 0.82,
      "eval_loss": 1.6079111099243164,
      "eval_runtime": 10.6338,
      "eval_samples_per_second": 1.599,
      "eval_steps_per_second": 0.846,
      "step": 400
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00018057651056609784,
      "loss": 1.6608,
      "step": 401
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00018048040051173183,
      "loss": 1.7617,
      "step": 402
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8125,
      "learning_rate": 0.00018038407897106844,
      "loss": 1.6361,
      "step": 403
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00018028754619722127,
      "loss": 1.7411,
      "step": 404
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00018019080244385905,
      "loss": 1.838,
      "step": 405
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8671875,
      "learning_rate": 0.00018009384796520487,
      "loss": 1.8283,
      "step": 406
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0001799966830160356,
      "loss": 1.7863,
      "step": 407
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.671875,
      "learning_rate": 0.0001798993078516812,
      "loss": 1.7407,
      "step": 408
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.74609375,
      "learning_rate": 0.000179801722728024,
      "loss": 1.7225,
      "step": 409
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00017970392790149796,
      "loss": 1.801,
      "step": 410
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00017960592362908836,
      "loss": 1.8035,
      "step": 411
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00017950771016833064,
      "loss": 1.7855,
      "step": 412
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00017940928777731001,
      "loss": 1.6696,
      "step": 413
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001793106567146607,
      "loss": 1.6936,
      "step": 414
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001792118172395653,
      "loss": 1.7948,
      "step": 415
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0001791127696117541,
      "loss": 1.8131,
      "step": 416
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.78125,
      "learning_rate": 0.00017901351409150426,
      "loss": 1.7241,
      "step": 417
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00017891405093963938,
      "loss": 1.7981,
      "step": 418
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00017881438041752857,
      "loss": 1.6722,
      "step": 419
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00017871450278708593,
      "loss": 1.65,
      "step": 420
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00017861441831076974,
      "loss": 1.7997,
      "step": 421
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.65625,
      "learning_rate": 0.00017851412725158192,
      "loss": 1.6767,
      "step": 422
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8046875,
      "learning_rate": 0.0001784136298730671,
      "loss": 1.7859,
      "step": 423
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00017831292643931228,
      "loss": 1.6663,
      "step": 424
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00017821201721494577,
      "loss": 1.7635,
      "step": 425
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00017811090246513665,
      "loss": 1.7572,
      "step": 426
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00017800958245559425,
      "loss": 1.6147,
      "step": 427
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00017790805745256704,
      "loss": 1.7366,
      "step": 428
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001778063277228424,
      "loss": 1.7894,
      "step": 429
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00017770439353374554,
      "loss": 1.7028,
      "step": 430
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000177602255153139,
      "loss": 1.6812,
      "step": 431
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00017749991284942188,
      "loss": 1.8029,
      "step": 432
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.625,
      "learning_rate": 0.00017739736689152918,
      "loss": 1.7936,
      "step": 433
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001772946175489311,
      "loss": 1.746,
      "step": 434
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.734375,
      "learning_rate": 0.0001771916650916321,
      "loss": 1.7208,
      "step": 435
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017708850979017063,
      "loss": 1.7449,
      "step": 436
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.75390625,
      "learning_rate": 0.000176985151915618,
      "loss": 1.8063,
      "step": 437
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.65625,
      "learning_rate": 0.00017688159173957795,
      "loss": 1.7553,
      "step": 438
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00017677782953418576,
      "loss": 1.6898,
      "step": 439
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00017667386557210764,
      "loss": 1.6887,
      "step": 440
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00017656970012653998,
      "loss": 1.8186,
      "step": 441
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017646533347120852,
      "loss": 1.7605,
      "step": 442
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017636076588036797,
      "loss": 1.6945,
      "step": 443
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00017625599762880078,
      "loss": 1.7429,
      "step": 444
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001761510289918169,
      "loss": 1.7078,
      "step": 445
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.65625,
      "learning_rate": 0.00017604586024525277,
      "loss": 1.725,
      "step": 446
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00017594049166547073,
      "loss": 1.7244,
      "step": 447
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017583492352935814,
      "loss": 1.7431,
      "step": 448
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00017572915611432688,
      "loss": 1.7416,
      "step": 449
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001756231896983124,
      "loss": 1.7506,
      "step": 450
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001755170245597731,
      "loss": 1.7395,
      "step": 451
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00017541066097768963,
      "loss": 1.7484,
      "step": 452
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001753040992315641,
      "loss": 1.7262,
      "step": 453
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00017519733960141926,
      "loss": 1.8178,
      "step": 454
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00017509038236779802,
      "loss": 1.8549,
      "step": 455
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00017498322781176243,
      "loss": 1.7078,
      "step": 456
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00017487587621489308,
      "loss": 1.7109,
      "step": 457
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0001747683278592884,
      "loss": 1.6593,
      "step": 458
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001746605830275638,
      "loss": 1.8393,
      "step": 459
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00017455264200285102,
      "loss": 1.8129,
      "step": 460
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017444450506879736,
      "loss": 1.7869,
      "step": 461
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001743361725095649,
      "loss": 1.712,
      "step": 462
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00017422764460982987,
      "loss": 1.8197,
      "step": 463
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00017411892165478167,
      "loss": 1.7322,
      "step": 464
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00017401000393012242,
      "loss": 1.7958,
      "step": 465
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00017390089172206592,
      "loss": 1.8303,
      "step": 466
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00017379158531733712,
      "loss": 1.7966,
      "step": 467
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00017368208500317129,
      "loss": 1.7428,
      "step": 468
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00017357239106731317,
      "loss": 1.67,
      "step": 469
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001734625037980164,
      "loss": 1.6965,
      "step": 470
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00017335242348404253,
      "loss": 1.755,
      "step": 471
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.609375,
      "learning_rate": 0.00017324215041466054,
      "loss": 1.6717,
      "step": 472
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00017313168487964587,
      "loss": 1.8504,
      "step": 473
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001730210271692797,
      "loss": 1.8243,
      "step": 474
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001729101775743482,
      "loss": 1.6704,
      "step": 475
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.65625,
      "learning_rate": 0.0001727991363861418,
      "loss": 1.7316,
      "step": 476
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001726879038964545,
      "loss": 1.7126,
      "step": 477
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00017257648039758274,
      "loss": 1.7651,
      "step": 478
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00017246486618232516,
      "loss": 1.6781,
      "step": 479
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00017235306154398143,
      "loss": 1.7152,
      "step": 480
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00017224106677635163,
      "loss": 1.7146,
      "step": 481
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0001721288821737355,
      "loss": 1.776,
      "step": 482
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001720165080309316,
      "loss": 1.6358,
      "step": 483
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001719039446432365,
      "loss": 1.7518,
      "step": 484
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0001717911923064442,
      "loss": 1.7969,
      "step": 485
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00017167825131684513,
      "loss": 1.7136,
      "step": 486
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0001715651219712255,
      "loss": 1.7848,
      "step": 487
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8125,
      "learning_rate": 0.00017145180456686643,
      "loss": 1.6221,
      "step": 488
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001713382994015433,
      "loss": 1.68,
      "step": 489
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.71875,
      "learning_rate": 0.00017122460677352478,
      "loss": 1.7046,
      "step": 490
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00017111072698157228,
      "loss": 1.8771,
      "step": 491
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00017099666032493896,
      "loss": 1.7272,
      "step": 492
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.671875,
      "learning_rate": 0.00017088240710336902,
      "loss": 1.7576,
      "step": 493
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00017076796761709696,
      "loss": 1.7585,
      "step": 494
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.93359375,
      "learning_rate": 0.00017065334216684672,
      "loss": 1.7184,
      "step": 495
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00017053853105383087,
      "loss": 1.7653,
      "step": 496
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00017042353457974996,
      "loss": 1.8429,
      "step": 497
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.640625,
      "learning_rate": 0.0001703083530467916,
      "loss": 1.6263,
      "step": 498
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00017019298675762965,
      "loss": 1.6445,
      "step": 499
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00017007743601542348,
      "loss": 1.669,
      "step": 500
    },
    {
      "epoch": 1.01,
      "eval_loss": 1.5991671085357666,
      "eval_runtime": 10.6356,
      "eval_samples_per_second": 1.598,
      "eval_steps_per_second": 0.846,
      "step": 500
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00016996170112381723,
      "loss": 1.5678,
      "step": 501
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00016984578238693886,
      "loss": 1.6391,
      "step": 502
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.8125,
      "learning_rate": 0.00016972968010939954,
      "loss": 1.5506,
      "step": 503
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001696133945962927,
      "loss": 1.532,
      "step": 504
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00016949692615319316,
      "loss": 1.6657,
      "step": 505
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00016938027508615666,
      "loss": 1.4422,
      "step": 506
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.71875,
      "learning_rate": 0.0001692634417017187,
      "loss": 1.5871,
      "step": 507
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.6875,
      "learning_rate": 0.00016914642630689388,
      "loss": 1.7106,
      "step": 508
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00016902922920917514,
      "loss": 1.6283,
      "step": 509
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.71875,
      "learning_rate": 0.00016891185071653286,
      "loss": 1.5865,
      "step": 510
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001687942911374141,
      "loss": 1.3962,
      "step": 511
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00016867655078074177,
      "loss": 1.4765,
      "step": 512
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.8359375,
      "learning_rate": 0.00016855862995591382,
      "loss": 1.6692,
      "step": 513
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.671875,
      "learning_rate": 0.00016844052897280247,
      "loss": 1.3995,
      "step": 514
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00016832224814175337,
      "loss": 1.6845,
      "step": 515
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001682037877735847,
      "loss": 1.6401,
      "step": 516
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0001680851481795864,
      "loss": 1.5585,
      "step": 517
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.82421875,
      "learning_rate": 0.00016796632967151963,
      "loss": 1.6043,
      "step": 518
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.71875,
      "learning_rate": 0.00016784733256161537,
      "loss": 1.717,
      "step": 519
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00016772815716257412,
      "loss": 1.7164,
      "step": 520
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00016760880378756485,
      "loss": 1.5573,
      "step": 521
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00016748927275022423,
      "loss": 1.6236,
      "step": 522
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00016736956436465573,
      "loss": 1.583,
      "step": 523
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.671875,
      "learning_rate": 0.00016724967894542894,
      "loss": 1.6513,
      "step": 524
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00016712961680757858,
      "loss": 1.4783,
      "step": 525
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.671875,
      "learning_rate": 0.00016700937826660383,
      "loss": 1.5349,
      "step": 526
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016688896363846735,
      "loss": 1.6449,
      "step": 527
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00016676837323959456,
      "loss": 1.5665,
      "step": 528
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001666476073868728,
      "loss": 1.5974,
      "step": 529
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.734375,
      "learning_rate": 0.00016652666639765034,
      "loss": 1.7062,
      "step": 530
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00016640555058973584,
      "loss": 1.5996,
      "step": 531
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001662842602813972,
      "loss": 1.6853,
      "step": 532
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00016616279579136106,
      "loss": 1.5426,
      "step": 533
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00016604115743881152,
      "loss": 1.66,
      "step": 534
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0001659193455433898,
      "loss": 1.5642,
      "step": 535
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000165797360425193,
      "loss": 1.5441,
      "step": 536
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016567520240477344,
      "loss": 1.6135,
      "step": 537
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.734375,
      "learning_rate": 0.0001655528718031379,
      "loss": 1.6374,
      "step": 538
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00016543036894174645,
      "loss": 1.6225,
      "step": 539
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00016530769414251211,
      "loss": 1.531,
      "step": 540
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016518484772779947,
      "loss": 1.5874,
      "step": 541
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.83984375,
      "learning_rate": 0.0001650618300204242,
      "loss": 1.6232,
      "step": 542
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00016493864134365212,
      "loss": 1.6345,
      "step": 543
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00016481528202119824,
      "loss": 1.4985,
      "step": 544
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00016469175237722607,
      "loss": 1.567,
      "step": 545
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016456805273634662,
      "loss": 1.6051,
      "step": 546
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.78125,
      "learning_rate": 0.00016444418342361766,
      "loss": 1.5618,
      "step": 547
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00016432014476454285,
      "loss": 1.6522,
      "step": 548
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.734375,
      "learning_rate": 0.0001641959370850708,
      "loss": 1.5777,
      "step": 549
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001640715607115943,
      "loss": 1.6278,
      "step": 550
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00016394701597094942,
      "loss": 1.6251,
      "step": 551
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00016382230319041471,
      "loss": 1.6309,
      "step": 552
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.75,
      "learning_rate": 0.00016369742269771025,
      "loss": 1.5794,
      "step": 553
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00016357237482099684,
      "loss": 1.6367,
      "step": 554
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00016344715988887506,
      "loss": 1.6537,
      "step": 555
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.80859375,
      "learning_rate": 0.0001633217782303847,
      "loss": 1.578,
      "step": 556
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.734375,
      "learning_rate": 0.00016319623017500343,
      "loss": 1.6013,
      "step": 557
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001630705160526463,
      "loss": 1.5947,
      "step": 558
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00016294463619366472,
      "loss": 1.4716,
      "step": 559
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00016281859092884564,
      "loss": 1.6563,
      "step": 560
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0001626923805894107,
      "loss": 1.646,
      "step": 561
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00016256600550701512,
      "loss": 1.7122,
      "step": 562
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.671875,
      "learning_rate": 0.00016243946601374732,
      "loss": 1.7167,
      "step": 563
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.671875,
      "learning_rate": 0.00016231276244212762,
      "loss": 1.6255,
      "step": 564
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001621858951251075,
      "loss": 1.6758,
      "step": 565
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00016205886439606867,
      "loss": 1.6467,
      "step": 566
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00016193167058882238,
      "loss": 1.608,
      "step": 567
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00016180431403760837,
      "loss": 1.543,
      "step": 568
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00016167679507709398,
      "loss": 1.5467,
      "step": 569
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00016154911404237345,
      "loss": 1.7056,
      "step": 570
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.734375,
      "learning_rate": 0.0001614212712689668,
      "loss": 1.5386,
      "step": 571
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.8046875,
      "learning_rate": 0.00016129326709281912,
      "loss": 1.7099,
      "step": 572
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00016116510185029958,
      "loss": 1.4869,
      "step": 573
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00016103677587820075,
      "loss": 1.6968,
      "step": 574
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00016090828951373736,
      "loss": 1.5917,
      "step": 575
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00016077964309454577,
      "loss": 1.6353,
      "step": 576
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00016065083695868292,
      "loss": 1.5073,
      "step": 577
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0001605218714446253,
      "loss": 1.5825,
      "step": 578
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016039274689126843,
      "loss": 1.5789,
      "step": 579
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.734375,
      "learning_rate": 0.00016026346363792567,
      "loss": 1.5847,
      "step": 580
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.82421875,
      "learning_rate": 0.0001601340220243273,
      "loss": 1.589,
      "step": 581
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00016000442239061984,
      "loss": 1.7327,
      "step": 582
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00015987466507736512,
      "loss": 1.643,
      "step": 583
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00015974475042553925,
      "loss": 1.6291,
      "step": 584
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0001596146787765317,
      "loss": 1.6917,
      "step": 585
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.703125,
      "learning_rate": 0.00015948445047214471,
      "loss": 1.5732,
      "step": 586
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.71875,
      "learning_rate": 0.00015935406585459197,
      "loss": 1.6457,
      "step": 587
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00015922352526649803,
      "loss": 1.5417,
      "step": 588
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0001590928290508973,
      "loss": 1.6313,
      "step": 589
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.71875,
      "learning_rate": 0.00015896197755123313,
      "loss": 1.7392,
      "step": 590
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.75,
      "learning_rate": 0.0001588309711113569,
      "loss": 1.6253,
      "step": 591
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.78125,
      "learning_rate": 0.00015869981007552727,
      "loss": 1.6611,
      "step": 592
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0001585684947884089,
      "loss": 1.6042,
      "step": 593
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0001584370255950721,
      "loss": 1.6468,
      "step": 594
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.703125,
      "learning_rate": 0.00015830540284099133,
      "loss": 1.6581,
      "step": 595
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.671875,
      "learning_rate": 0.00015817362687204478,
      "loss": 1.6644,
      "step": 596
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00015804169803451315,
      "loss": 1.6306,
      "step": 597
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001579096166750788,
      "loss": 1.4978,
      "step": 598
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00015777738314082514,
      "loss": 1.621,
      "step": 599
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00015764499777923513,
      "loss": 1.5612,
      "step": 600
    },
    {
      "epoch": 1.21,
      "eval_loss": 1.592647671699524,
      "eval_runtime": 10.6632,
      "eval_samples_per_second": 1.594,
      "eval_steps_per_second": 0.844,
      "step": 600
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0001575124609381909,
      "loss": 1.5291,
      "step": 601
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.765625,
      "learning_rate": 0.00015737977296597264,
      "loss": 1.5691,
      "step": 602
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0001572469342112576,
      "loss": 1.6558,
      "step": 603
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00015711394502311934,
      "loss": 1.6273,
      "step": 604
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.703125,
      "learning_rate": 0.00015698080575102661,
      "loss": 1.6937,
      "step": 605
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00015684751674484271,
      "loss": 1.6436,
      "step": 606
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00015671407835482425,
      "loss": 1.685,
      "step": 607
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00015658049093162055,
      "loss": 1.5969,
      "step": 608
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.796875,
      "learning_rate": 0.0001564467548262724,
      "loss": 1.6757,
      "step": 609
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.71875,
      "learning_rate": 0.0001563128703902114,
      "loss": 1.6994,
      "step": 610
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00015617883797525893,
      "loss": 1.618,
      "step": 611
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00015604465793362518,
      "loss": 1.7247,
      "step": 612
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00015591033061790828,
      "loss": 1.5231,
      "step": 613
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00015577585638109343,
      "loss": 1.6306,
      "step": 614
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.6875,
      "learning_rate": 0.00015564123557655182,
      "loss": 1.5868,
      "step": 615
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.65625,
      "learning_rate": 0.00015550646855803986,
      "loss": 1.7044,
      "step": 616
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00015537155567969815,
      "loss": 1.6117,
      "step": 617
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001552364972960506,
      "loss": 1.7186,
      "step": 618
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00015510129376200343,
      "loss": 1.6482,
      "step": 619
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00015496594543284436,
      "loss": 1.5259,
      "step": 620
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00015483045266424155,
      "loss": 1.6846,
      "step": 621
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00015469481581224272,
      "loss": 1.6551,
      "step": 622
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0001545590352332742,
      "loss": 1.5654,
      "step": 623
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00015442311128414007,
      "loss": 1.6182,
      "step": 624
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0001542870443220211,
      "loss": 1.6529,
      "step": 625
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00015415083470447392,
      "loss": 1.6022,
      "step": 626
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00015401448278942991,
      "loss": 1.6273,
      "step": 627
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.82421875,
      "learning_rate": 0.00015387798893519455,
      "loss": 1.4931,
      "step": 628
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0001537413535004462,
      "loss": 1.6108,
      "step": 629
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.734375,
      "learning_rate": 0.00015360457684423525,
      "loss": 1.6128,
      "step": 630
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00015346765932598325,
      "loss": 1.6096,
      "step": 631
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0001533306013054819,
      "loss": 1.4779,
      "step": 632
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0001531934031428921,
      "loss": 1.5052,
      "step": 633
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000153056065198743,
      "loss": 1.5851,
      "step": 634
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00015291858783393107,
      "loss": 1.6956,
      "step": 635
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001527809714097192,
      "loss": 1.6566,
      "step": 636
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.671875,
      "learning_rate": 0.0001526432162877356,
      "loss": 1.6213,
      "step": 637
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.8671875,
      "learning_rate": 0.00015250532282997306,
      "loss": 1.5621,
      "step": 638
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00015236729139878782,
      "loss": 1.5404,
      "step": 639
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.734375,
      "learning_rate": 0.00015222912235689868,
      "loss": 1.5799,
      "step": 640
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001520908160673861,
      "loss": 1.5576,
      "step": 641
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00015195237289369122,
      "loss": 1.6435,
      "step": 642
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001518137931996148,
      "loss": 1.5521,
      "step": 643
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00015167507734931636,
      "loss": 1.6066,
      "step": 644
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00015153622570731332,
      "loss": 1.5285,
      "step": 645
    },
    {
      "epoch": 1.31,
      "grad_norm": 1.015625,
      "learning_rate": 0.00015139723863847977,
      "loss": 1.58,
      "step": 646
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00015125811650804579,
      "loss": 1.5518,
      "step": 647
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00015111885968159636,
      "loss": 1.6665,
      "step": 648
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00015097946852507042,
      "loss": 1.567,
      "step": 649
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00015083994340475977,
      "loss": 1.5254,
      "step": 650
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.8203125,
      "learning_rate": 0.00015070028468730845,
      "loss": 1.5605,
      "step": 651
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001505604927397115,
      "loss": 1.6219,
      "step": 652
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001504205679293139,
      "loss": 1.6567,
      "step": 653
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00015028051062380998,
      "loss": 1.6309,
      "step": 654
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00015014032119124214,
      "loss": 1.6137,
      "step": 655
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.75,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.5716,
      "step": 656
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0001498595474188194,
      "loss": 1.6862,
      "step": 657
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00014971896381678153,
      "loss": 1.6539,
      "step": 658
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.671875,
      "learning_rate": 0.00014957824956331165,
      "loss": 1.5979,
      "step": 659
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.81640625,
      "learning_rate": 0.00014943740502817865,
      "loss": 1.5896,
      "step": 660
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00014929643058149357,
      "loss": 1.6127,
      "step": 661
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00014915532659370888,
      "loss": 1.634,
      "step": 662
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001490140934356175,
      "loss": 1.5495,
      "step": 663
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001488727314783517,
      "loss": 1.5656,
      "step": 664
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00014873124109338227,
      "loss": 1.5056,
      "step": 665
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00014858962265251751,
      "loss": 1.5035,
      "step": 666
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00014844787652790216,
      "loss": 1.3846,
      "step": 667
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00014830600309201648,
      "loss": 1.6773,
      "step": 668
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.77734375,
      "learning_rate": 0.00014816400271767534,
      "loss": 1.6087,
      "step": 669
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0001480218757780272,
      "loss": 1.7005,
      "step": 670
    },
    {
      "epoch": 1.36,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00014787962264655295,
      "loss": 1.3802,
      "step": 671
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00014773724369706527,
      "loss": 1.6231,
      "step": 672
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00014759473930370736,
      "loss": 1.7237,
      "step": 673
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001474521098409521,
      "loss": 1.6763,
      "step": 674
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00014730935568360102,
      "loss": 1.7003,
      "step": 675
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0001471664772067833,
      "loss": 1.5775,
      "step": 676
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00014702347478595483,
      "loss": 1.5182,
      "step": 677
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00014688034879689724,
      "loss": 1.5945,
      "step": 678
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00014673709961571677,
      "loss": 1.6168,
      "step": 679
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.734375,
      "learning_rate": 0.00014659372761884344,
      "loss": 1.6376,
      "step": 680
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.6875,
      "learning_rate": 0.00014645023318303005,
      "loss": 1.5025,
      "step": 681
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00014630661668535105,
      "loss": 1.6442,
      "step": 682
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00014616287850320177,
      "loss": 1.5462,
      "step": 683
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0001460190190142972,
      "loss": 1.4978,
      "step": 684
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.640625,
      "learning_rate": 0.00014587503859667106,
      "loss": 1.5909,
      "step": 685
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.6875,
      "learning_rate": 0.000145730937628675,
      "loss": 1.6794,
      "step": 686
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00014558671648897732,
      "loss": 1.641,
      "step": 687
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.625,
      "learning_rate": 0.00014544237555656216,
      "loss": 1.6202,
      "step": 688
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00014529791521072845,
      "loss": 1.5488,
      "step": 689
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00014515333583108896,
      "loss": 1.6325,
      "step": 690
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0001450086377975691,
      "loss": 1.627,
      "step": 691
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00014486382149040628,
      "loss": 1.5602,
      "step": 692
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00014471888729014856,
      "loss": 1.6651,
      "step": 693
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00014457383557765386,
      "loss": 1.5954,
      "step": 694
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00014442866673408888,
      "loss": 1.5686,
      "step": 695
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00014428338114092813,
      "loss": 1.5479,
      "step": 696
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.7109375,
      "learning_rate": 0.000144137979179953,
      "loss": 1.5592,
      "step": 697
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.671875,
      "learning_rate": 0.00014399246123325047,
      "loss": 1.6018,
      "step": 698
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00014384682768321249,
      "loss": 1.5776,
      "step": 699
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.625,
      "learning_rate": 0.00014370107891253467,
      "loss": 1.6936,
      "step": 700
    },
    {
      "epoch": 1.42,
      "eval_loss": 1.586763620376587,
      "eval_runtime": 10.6616,
      "eval_samples_per_second": 1.595,
      "eval_steps_per_second": 0.844,
      "step": 700
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001435552153042155,
      "loss": 1.6266,
      "step": 701
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00014340923724155517,
      "loss": 1.6546,
      "step": 702
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00014326314510815463,
      "loss": 1.6316,
      "step": 703
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00014311693928791466,
      "loss": 1.6122,
      "step": 704
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001429706201650347,
      "loss": 1.6573,
      "step": 705
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00014282418812401197,
      "loss": 1.5769,
      "step": 706
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00014267764354964038,
      "loss": 1.6172,
      "step": 707
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.703125,
      "learning_rate": 0.00014253098682700963,
      "loss": 1.4543,
      "step": 708
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.83984375,
      "learning_rate": 0.000142384218341504,
      "loss": 1.6725,
      "step": 709
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00014223733847880166,
      "loss": 1.5059,
      "step": 710
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001420903476248732,
      "loss": 1.6304,
      "step": 711
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00014194324616598108,
      "loss": 1.5587,
      "step": 712
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.671875,
      "learning_rate": 0.00014179603448867835,
      "loss": 1.5204,
      "step": 713
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00014164871297980762,
      "loss": 1.5141,
      "step": 714
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001415012820265002,
      "loss": 1.5915,
      "step": 715
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00014135374201617492,
      "loss": 1.6383,
      "step": 716
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00014120609333653731,
      "loss": 1.6078,
      "step": 717
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00014105833637557836,
      "loss": 1.5916,
      "step": 718
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0001409104715215736,
      "loss": 1.5421,
      "step": 719
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.734375,
      "learning_rate": 0.00014076249916308216,
      "loss": 1.6383,
      "step": 720
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00014061441968894558,
      "loss": 1.585,
      "step": 721
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00014046623348828693,
      "loss": 1.6102,
      "step": 722
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00014031794095050975,
      "loss": 1.6259,
      "step": 723
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00014016954246529696,
      "loss": 1.6081,
      "step": 724
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00014002103842260995,
      "loss": 1.6173,
      "step": 725
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00013987242921268742,
      "loss": 1.5418,
      "step": 726
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00013972371522604448,
      "loss": 1.6481,
      "step": 727
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.625,
      "learning_rate": 0.00013957489685347156,
      "loss": 1.6307,
      "step": 728
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00013942597448603344,
      "loss": 1.6048,
      "step": 729
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00013927694851506806,
      "loss": 1.6176,
      "step": 730
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00013912781933218574,
      "loss": 1.4791,
      "step": 731
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00013897858732926793,
      "loss": 1.6771,
      "step": 732
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00013882925289846636,
      "loss": 1.5613,
      "step": 733
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001386798164322018,
      "loss": 1.6843,
      "step": 734
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001385302783231632,
      "loss": 1.6008,
      "step": 735
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0001383806389643067,
      "loss": 1.5596,
      "step": 736
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00013823089874885435,
      "loss": 1.579,
      "step": 737
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.671875,
      "learning_rate": 0.00013808105807029333,
      "loss": 1.6879,
      "step": 738
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00013793111732237482,
      "loss": 1.6447,
      "step": 739
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00013778107689911288,
      "loss": 1.6061,
      "step": 740
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00013763093719478358,
      "loss": 1.5819,
      "step": 741
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001374806986039238,
      "loss": 1.6077,
      "step": 742
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.75,
      "learning_rate": 0.0001373303615213304,
      "loss": 1.5956,
      "step": 743
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00013717992634205894,
      "loss": 1.5972,
      "step": 744
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.6875,
      "learning_rate": 0.00013702939346142286,
      "loss": 1.6044,
      "step": 745
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00013687876327499217,
      "loss": 1.5323,
      "step": 746
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00013672803617859275,
      "loss": 1.6812,
      "step": 747
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00013657721256830506,
      "loss": 1.6504,
      "step": 748
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00013642629284046323,
      "loss": 1.6456,
      "step": 749
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.671875,
      "learning_rate": 0.00013627527739165388,
      "loss": 1.5559,
      "step": 750
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00013612416661871533,
      "loss": 1.4793,
      "step": 751
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00013597296091873612,
      "loss": 1.5853,
      "step": 752
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.765625,
      "learning_rate": 0.00013582166068905452,
      "loss": 1.5748,
      "step": 753
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001356702663272571,
      "loss": 1.6993,
      "step": 754
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0001355187782311777,
      "loss": 1.6555,
      "step": 755
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00013536719679889658,
      "loss": 1.5322,
      "step": 756
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00013521552242873924,
      "loss": 1.5081,
      "step": 757
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00013506375551927547,
      "loss": 1.717,
      "step": 758
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00013491189646931803,
      "loss": 1.5718,
      "step": 759
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00013475994567792207,
      "loss": 1.573,
      "step": 760
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00013460790354438367,
      "loss": 1.5503,
      "step": 761
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001344557704682389,
      "loss": 1.5545,
      "step": 762
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0001343035468492629,
      "loss": 1.4549,
      "step": 763
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.703125,
      "learning_rate": 0.0001341512330874687,
      "loss": 1.6333,
      "step": 764
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001339988295831063,
      "loss": 1.5995,
      "step": 765
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0001338463367366613,
      "loss": 1.6125,
      "step": 766
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00013369375494885438,
      "loss": 1.6547,
      "step": 767
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.81640625,
      "learning_rate": 0.0001335410846206396,
      "loss": 1.5937,
      "step": 768
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000133388326153204,
      "loss": 1.6475,
      "step": 769
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00013323547994796597,
      "loss": 1.6355,
      "step": 770
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00013308254640657466,
      "loss": 1.5216,
      "step": 771
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001329295259309087,
      "loss": 1.539,
      "step": 772
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00013277641892307494,
      "loss": 1.5359,
      "step": 773
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00013262322578540796,
      "loss": 1.4776,
      "step": 774
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.859375,
      "learning_rate": 0.00013246994692046836,
      "loss": 1.5522,
      "step": 775
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.703125,
      "learning_rate": 0.00013231658273104224,
      "loss": 1.6716,
      "step": 776
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0001321631336201398,
      "loss": 1.5724,
      "step": 777
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.75,
      "learning_rate": 0.0001320095999909944,
      "loss": 1.6139,
      "step": 778
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00013185598224706158,
      "loss": 1.6081,
      "step": 779
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00013170228079201782,
      "loss": 1.6061,
      "step": 780
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001315484960297596,
      "loss": 1.6476,
      "step": 781
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00013139462836440238,
      "loss": 1.6279,
      "step": 782
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00013124067820027935,
      "loss": 1.5869,
      "step": 783
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00013108664594194063,
      "loss": 1.538,
      "step": 784
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00013093253199415196,
      "loss": 1.5786,
      "step": 785
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0001307783367618938,
      "loss": 1.6464,
      "step": 786
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0001306240606503602,
      "loss": 1.6641,
      "step": 787
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0001304697040649577,
      "loss": 1.6636,
      "step": 788
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.703125,
      "learning_rate": 0.00013031526741130435,
      "loss": 1.613,
      "step": 789
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.71875,
      "learning_rate": 0.00013016075109522864,
      "loss": 1.5041,
      "step": 790
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001300061555227683,
      "loss": 1.6553,
      "step": 791
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00012985148110016947,
      "loss": 1.4754,
      "step": 792
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00012969672823388533,
      "loss": 1.5808,
      "step": 793
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00012954189733057527,
      "loss": 1.6754,
      "step": 794
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.890625,
      "learning_rate": 0.0001293869887971038,
      "loss": 1.4897,
      "step": 795
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0001292320030405393,
      "loss": 1.7074,
      "step": 796
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.734375,
      "learning_rate": 0.00012907694046815322,
      "loss": 1.4789,
      "step": 797
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.75,
      "learning_rate": 0.00012892180148741877,
      "loss": 1.6521,
      "step": 798
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.65625,
      "learning_rate": 0.00012876658650600998,
      "loss": 1.4674,
      "step": 799
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00012861129593180057,
      "loss": 1.6197,
      "step": 800
    },
    {
      "epoch": 1.62,
      "eval_loss": 1.5707058906555176,
      "eval_runtime": 10.6264,
      "eval_samples_per_second": 1.6,
      "eval_steps_per_second": 0.847,
      "step": 800
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.6875,
      "learning_rate": 0.00012845593017286294,
      "loss": 1.5773,
      "step": 801
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00012830048963746705,
      "loss": 1.6142,
      "step": 802
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.76171875,
      "learning_rate": 0.0001281449747340793,
      "loss": 1.6811,
      "step": 803
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00012798938587136157,
      "loss": 1.5424,
      "step": 804
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00012783372345817013,
      "loss": 1.6413,
      "step": 805
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00012767798790355448,
      "loss": 1.6518,
      "step": 806
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00012752217961675623,
      "loss": 1.7069,
      "step": 807
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0001273662990072083,
      "loss": 1.5735,
      "step": 808
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00012721034648453353,
      "loss": 1.6309,
      "step": 809
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00012705432245854373,
      "loss": 1.5736,
      "step": 810
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00012689822733923868,
      "loss": 1.6088,
      "step": 811
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00012674206153680495,
      "loss": 1.6489,
      "step": 812
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00012658582546161486,
      "loss": 1.49,
      "step": 813
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00012642951952422532,
      "loss": 1.5559,
      "step": 814
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.703125,
      "learning_rate": 0.0001262731441353769,
      "loss": 1.6358,
      "step": 815
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001261166997059927,
      "loss": 1.6753,
      "step": 816
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00012596018664717712,
      "loss": 1.5802,
      "step": 817
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.796875,
      "learning_rate": 0.00012580360537021504,
      "loss": 1.5927,
      "step": 818
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.625,
      "learning_rate": 0.00012564695628657053,
      "loss": 1.6641,
      "step": 819
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001254902398078859,
      "loss": 1.5945,
      "step": 820
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00012533345634598041,
      "loss": 1.5533,
      "step": 821
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.640625,
      "learning_rate": 0.00012517660631284957,
      "loss": 1.6613,
      "step": 822
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00012501969012066366,
      "loss": 1.5943,
      "step": 823
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001248627081817668,
      "loss": 1.7355,
      "step": 824
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.765625,
      "learning_rate": 0.000124705660908676,
      "loss": 1.5893,
      "step": 825
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.80859375,
      "learning_rate": 0.00012454854871407994,
      "loss": 1.6019,
      "step": 826
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00012439137201083773,
      "loss": 1.6624,
      "step": 827
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001242341312119782,
      "loss": 1.6724,
      "step": 828
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00012407682673069848,
      "loss": 1.6783,
      "step": 829
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.625,
      "learning_rate": 0.00012391945898036313,
      "loss": 1.5764,
      "step": 830
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001237620283745029,
      "loss": 1.7079,
      "step": 831
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00012360453532681375,
      "loss": 1.5861,
      "step": 832
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00012344698025115576,
      "loss": 1.6004,
      "step": 833
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0001232893635615519,
      "loss": 1.5832,
      "step": 834
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.71875,
      "learning_rate": 0.00012313168567218717,
      "loss": 1.6401,
      "step": 835
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00012297394699740727,
      "loss": 1.5996,
      "step": 836
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00012281614795171776,
      "loss": 1.6021,
      "step": 837
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00012265828894978274,
      "loss": 1.6513,
      "step": 838
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00012250037040642387,
      "loss": 1.5348,
      "step": 839
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0001223423927366194,
      "loss": 1.5674,
      "step": 840
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00012218435635550279,
      "loss": 1.4985,
      "step": 841
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.046875,
      "learning_rate": 0.00012202626167836187,
      "loss": 1.6485,
      "step": 842
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0001218681091206376,
      "loss": 1.5729,
      "step": 843
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00012170989909792312,
      "loss": 1.6008,
      "step": 844
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00012155163202596247,
      "loss": 1.7197,
      "step": 845
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00012139330832064974,
      "loss": 1.6498,
      "step": 846
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00012123492839802777,
      "loss": 1.6687,
      "step": 847
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.640625,
      "learning_rate": 0.00012107649267428705,
      "loss": 1.7175,
      "step": 848
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.59375,
      "learning_rate": 0.00012091800156576485,
      "loss": 1.63,
      "step": 849
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.80078125,
      "learning_rate": 0.00012075945548894387,
      "loss": 1.6164,
      "step": 850
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00012060085486045137,
      "loss": 1.6516,
      "step": 851
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00012044220009705773,
      "loss": 1.657,
      "step": 852
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.671875,
      "learning_rate": 0.00012028349161567588,
      "loss": 1.6761,
      "step": 853
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00012012472983335977,
      "loss": 1.6263,
      "step": 854
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00011996591516730333,
      "loss": 1.627,
      "step": 855
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.82421875,
      "learning_rate": 0.00011980704803483961,
      "loss": 1.6433,
      "step": 856
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00011964812885343944,
      "loss": 1.5874,
      "step": 857
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.6875,
      "learning_rate": 0.00011948915804071048,
      "loss": 1.6588,
      "step": 858
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00011933013601439595,
      "loss": 1.6999,
      "step": 859
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.75,
      "learning_rate": 0.00011917106319237386,
      "loss": 1.5051,
      "step": 860
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00011901193999265548,
      "loss": 1.5353,
      "step": 861
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001188527668333846,
      "loss": 1.5491,
      "step": 862
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.71875,
      "learning_rate": 0.00011869354413283624,
      "loss": 1.5654,
      "step": 863
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00011853427230941563,
      "loss": 1.5687,
      "step": 864
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00011837495178165706,
      "loss": 1.5673,
      "step": 865
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00011821558296822277,
      "loss": 1.6481,
      "step": 866
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.65625,
      "learning_rate": 0.00011805616628790204,
      "loss": 1.6198,
      "step": 867
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00011789670215960975,
      "loss": 1.5306,
      "step": 868
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00011773719100238557,
      "loss": 1.5545,
      "step": 869
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00011757763323539266,
      "loss": 1.5758,
      "step": 870
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00011741802927791681,
      "loss": 1.6061,
      "step": 871
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.765625,
      "learning_rate": 0.00011725837954936505,
      "loss": 1.6554,
      "step": 872
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00011709868446926472,
      "loss": 1.5883,
      "step": 873
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00011693894445726246,
      "loss": 1.5789,
      "step": 874
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00011677915993312276,
      "loss": 1.6848,
      "step": 875
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.78515625,
      "learning_rate": 0.00011661933131672728,
      "loss": 1.5388,
      "step": 876
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.671875,
      "learning_rate": 0.00011645945902807341,
      "loss": 1.6548,
      "step": 877
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.640625,
      "learning_rate": 0.00011629954348727334,
      "loss": 1.5156,
      "step": 878
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.65625,
      "learning_rate": 0.00011613958511455301,
      "loss": 1.609,
      "step": 879
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00011597958433025071,
      "loss": 1.6669,
      "step": 880
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.640625,
      "learning_rate": 0.00011581954155481645,
      "loss": 1.4998,
      "step": 881
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00011565945720881033,
      "loss": 1.6867,
      "step": 882
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00011549933171290184,
      "loss": 1.6311,
      "step": 883
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00011533916548786857,
      "loss": 1.5105,
      "step": 884
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0001151789589545951,
      "loss": 1.6831,
      "step": 885
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00011501871253407195,
      "loss": 1.567,
      "step": 886
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00011485842664739447,
      "loss": 1.6374,
      "step": 887
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.703125,
      "learning_rate": 0.00011469810171576181,
      "loss": 1.7361,
      "step": 888
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00011453773816047552,
      "loss": 1.5185,
      "step": 889
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001143773364029388,
      "loss": 1.6109,
      "step": 890
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00011421689686465518,
      "loss": 1.5058,
      "step": 891
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00011405641996722746,
      "loss": 1.6026,
      "step": 892
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.6875,
      "learning_rate": 0.00011389590613235665,
      "loss": 1.605,
      "step": 893
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00011373535578184082,
      "loss": 1.5968,
      "step": 894
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00011357476933757399,
      "loss": 1.5654,
      "step": 895
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00011341414722154498,
      "loss": 1.6354,
      "step": 896
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00011325348985583643,
      "loss": 1.4096,
      "step": 897
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.89453125,
      "learning_rate": 0.00011309279766262356,
      "loss": 1.6106,
      "step": 898
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001129320710641731,
      "loss": 1.5926,
      "step": 899
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00011277131048284222,
      "loss": 1.6831,
      "step": 900
    },
    {
      "epoch": 1.83,
      "eval_loss": 1.5689810514450073,
      "eval_runtime": 10.6756,
      "eval_samples_per_second": 1.592,
      "eval_steps_per_second": 0.843,
      "step": 900
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00011261051634107735,
      "loss": 1.6722,
      "step": 901
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.625,
      "learning_rate": 0.00011244968906141317,
      "loss": 1.5017,
      "step": 902
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.734375,
      "learning_rate": 0.00011228882906647142,
      "loss": 1.5934,
      "step": 903
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00011212793677895976,
      "loss": 1.6019,
      "step": 904
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00011196701262167078,
      "loss": 1.5295,
      "step": 905
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00011180605701748076,
      "loss": 1.5888,
      "step": 906
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.625,
      "learning_rate": 0.00011164507038934864,
      "loss": 1.562,
      "step": 907
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.65625,
      "learning_rate": 0.00011148405316031487,
      "loss": 1.6593,
      "step": 908
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.6875,
      "learning_rate": 0.00011132300575350034,
      "loss": 1.6942,
      "step": 909
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.6875,
      "learning_rate": 0.00011116192859210526,
      "loss": 1.5582,
      "step": 910
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00011100082209940795,
      "loss": 1.6059,
      "step": 911
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.703125,
      "learning_rate": 0.00011083968669876385,
      "loss": 1.4756,
      "step": 912
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00011067852281360442,
      "loss": 1.3848,
      "step": 913
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00011051733086743588,
      "loss": 1.7421,
      "step": 914
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00011035611128383821,
      "loss": 1.6415,
      "step": 915
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00011019486448646406,
      "loss": 1.5896,
      "step": 916
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00011003359089903758,
      "loss": 1.5174,
      "step": 917
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00010987229094535327,
      "loss": 1.555,
      "step": 918
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.671875,
      "learning_rate": 0.00010971096504927498,
      "loss": 1.5997,
      "step": 919
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00010954961363473468,
      "loss": 1.5302,
      "step": 920
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00010938823712573143,
      "loss": 1.6777,
      "step": 921
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.703125,
      "learning_rate": 0.00010922683594633021,
      "loss": 1.5967,
      "step": 922
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00010906541052066084,
      "loss": 1.7114,
      "step": 923
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00010890396127291688,
      "loss": 1.5201,
      "step": 924
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00010874248862735445,
      "loss": 1.6842,
      "step": 925
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00010858099300829119,
      "loss": 1.6033,
      "step": 926
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00010841947484010501,
      "loss": 1.6196,
      "step": 927
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.640625,
      "learning_rate": 0.00010825793454723325,
      "loss": 1.563,
      "step": 928
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00010809637255417122,
      "loss": 1.6521,
      "step": 929
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00010793478928547139,
      "loss": 1.6282,
      "step": 930
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00010777318516574205,
      "loss": 1.5194,
      "step": 931
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00010761156061964626,
      "loss": 1.6318,
      "step": 932
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00010744991607190089,
      "loss": 1.5891,
      "step": 933
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00010728825194727518,
      "loss": 1.6051,
      "step": 934
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00010712656867059,
      "loss": 1.5838,
      "step": 935
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00010696486666671646,
      "loss": 1.5355,
      "step": 936
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.65625,
      "learning_rate": 0.00010680314636057485,
      "loss": 1.6149,
      "step": 937
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00010664140817713361,
      "loss": 1.6553,
      "step": 938
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00010647965254140815,
      "loss": 1.5383,
      "step": 939
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00010631787987845972,
      "loss": 1.579,
      "step": 940
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.65625,
      "learning_rate": 0.00010615609061339432,
      "loss": 1.5418,
      "step": 941
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.703125,
      "learning_rate": 0.00010599428517136154,
      "loss": 1.6896,
      "step": 942
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.71875,
      "learning_rate": 0.0001058324639775536,
      "loss": 1.6551,
      "step": 943
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00010567062745720402,
      "loss": 1.6021,
      "step": 944
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00010550877603558655,
      "loss": 1.6634,
      "step": 945
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0001053469101380142,
      "loss": 1.5788,
      "step": 946
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.671875,
      "learning_rate": 0.000105185030189838,
      "loss": 1.6237,
      "step": 947
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00010502313661644584,
      "loss": 1.5746,
      "step": 948
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00010486122984326146,
      "loss": 1.6312,
      "step": 949
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00010469931029574326,
      "loss": 1.6943,
      "step": 950
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.640625,
      "learning_rate": 0.00010453737839938328,
      "loss": 1.5491,
      "step": 951
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00010437543457970591,
      "loss": 1.6533,
      "step": 952
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00010421347926226697,
      "loss": 1.5833,
      "step": 953
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00010405151287265238,
      "loss": 1.5526,
      "step": 954
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.9375,
      "learning_rate": 0.00010388953583647725,
      "loss": 1.6253,
      "step": 955
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00010372754857938463,
      "loss": 1.3498,
      "step": 956
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00010356555152704444,
      "loss": 1.5808,
      "step": 957
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.640625,
      "learning_rate": 0.00010340354510515235,
      "loss": 1.6786,
      "step": 958
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00010324152973942862,
      "loss": 1.5846,
      "step": 959
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00010307950585561706,
      "loss": 1.6058,
      "step": 960
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00010291747387948377,
      "loss": 1.4804,
      "step": 961
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00010275543423681621,
      "loss": 1.5908,
      "step": 962
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00010259338735342196,
      "loss": 1.56,
      "step": 963
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001024313336551276,
      "loss": 1.5936,
      "step": 964
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00010226927356777769,
      "loss": 1.5916,
      "step": 965
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00010210720751723346,
      "loss": 1.4965,
      "step": 966
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00010194513592937197,
      "loss": 1.5061,
      "step": 967
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001017830592300846,
      "loss": 1.5871,
      "step": 968
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00010162097784527642,
      "loss": 1.6618,
      "step": 969
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00010145889220086464,
      "loss": 1.6725,
      "step": 970
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00010129680272277773,
      "loss": 1.6204,
      "step": 971
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.640625,
      "learning_rate": 0.00010113470983695423,
      "loss": 1.5529,
      "step": 972
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00010097261396934162,
      "loss": 1.6183,
      "step": 973
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00010081051554589522,
      "loss": 1.5556,
      "step": 974
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00010064841499257706,
      "loss": 1.6589,
      "step": 975
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00010048631273535476,
      "loss": 1.6989,
      "step": 976
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00010032420920020047,
      "loss": 1.6247,
      "step": 977
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00010016210481308968,
      "loss": 1.565,
      "step": 978
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0001,
      "loss": 1.6947,
      "step": 979
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.70703125,
      "learning_rate": 9.983789518691038e-05,
      "loss": 1.6692,
      "step": 980
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.703125,
      "learning_rate": 9.967579079979951e-05,
      "loss": 1.5191,
      "step": 981
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.66796875,
      "learning_rate": 9.951368726464525e-05,
      "loss": 1.6474,
      "step": 982
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6328125,
      "learning_rate": 9.935158500742296e-05,
      "loss": 1.6418,
      "step": 983
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.64453125,
      "learning_rate": 9.918948445410482e-05,
      "loss": 1.5215,
      "step": 984
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6640625,
      "learning_rate": 9.902738603065839e-05,
      "loss": 1.6425,
      "step": 985
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.60546875,
      "learning_rate": 9.886529016304578e-05,
      "loss": 1.4965,
      "step": 986
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6640625,
      "learning_rate": 9.87031972772223e-05,
      "loss": 1.7184,
      "step": 987
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6875,
      "learning_rate": 9.854110779913537e-05,
      "loss": 1.6803,
      "step": 988
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.640625,
      "learning_rate": 9.837902215472361e-05,
      "loss": 1.5599,
      "step": 989
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6640625,
      "learning_rate": 9.821694076991542e-05,
      "loss": 1.6366,
      "step": 990
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.66015625,
      "learning_rate": 9.80548640706281e-05,
      "loss": 1.5518,
      "step": 991
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.453125,
      "learning_rate": 9.789279248276652e-05,
      "loss": 1.4115,
      "step": 992
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.62890625,
      "learning_rate": 9.773072643222233e-05,
      "loss": 1.565,
      "step": 993
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.62890625,
      "learning_rate": 9.756866634487241e-05,
      "loss": 1.6032,
      "step": 994
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.73046875,
      "learning_rate": 9.740661264657806e-05,
      "loss": 1.5358,
      "step": 995
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.73046875,
      "learning_rate": 9.724456576318381e-05,
      "loss": 1.4215,
      "step": 996
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.60546875,
      "learning_rate": 9.708252612051624e-05,
      "loss": 1.47,
      "step": 997
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6796875,
      "learning_rate": 9.692049414438299e-05,
      "loss": 1.5191,
      "step": 998
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.71484375,
      "learning_rate": 9.675847026057137e-05,
      "loss": 1.4232,
      "step": 999
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6875,
      "learning_rate": 9.659645489484766e-05,
      "loss": 1.4055,
      "step": 1000
    },
    {
      "epoch": 2.02,
      "eval_loss": 1.5902438163757324,
      "eval_runtime": 10.6543,
      "eval_samples_per_second": 1.596,
      "eval_steps_per_second": 0.845,
      "step": 1000
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.65234375,
      "learning_rate": 9.643444847295558e-05,
      "loss": 1.442,
      "step": 1001
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6796875,
      "learning_rate": 9.62724514206154e-05,
      "loss": 1.3969,
      "step": 1002
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.7109375,
      "learning_rate": 9.611046416352279e-05,
      "loss": 1.5111,
      "step": 1003
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.69921875,
      "learning_rate": 9.594848712734765e-05,
      "loss": 1.4722,
      "step": 1004
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.69140625,
      "learning_rate": 9.578652073773309e-05,
      "loss": 1.5286,
      "step": 1005
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.828125,
      "learning_rate": 9.562456542029409e-05,
      "loss": 1.466,
      "step": 1006
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.65234375,
      "learning_rate": 9.546262160061674e-05,
      "loss": 1.4738,
      "step": 1007
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.625,
      "learning_rate": 9.530068970425676e-05,
      "loss": 1.4859,
      "step": 1008
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.73046875,
      "learning_rate": 9.513877015673858e-05,
      "loss": 1.3829,
      "step": 1009
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.69921875,
      "learning_rate": 9.497686338355418e-05,
      "loss": 1.556,
      "step": 1010
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.7421875,
      "learning_rate": 9.481496981016202e-05,
      "loss": 1.5563,
      "step": 1011
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6328125,
      "learning_rate": 9.465308986198582e-05,
      "loss": 1.52,
      "step": 1012
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.7109375,
      "learning_rate": 9.449122396441345e-05,
      "loss": 1.4907,
      "step": 1013
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6328125,
      "learning_rate": 9.432937254279601e-05,
      "loss": 1.558,
      "step": 1014
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.66015625,
      "learning_rate": 9.416753602244642e-05,
      "loss": 1.4773,
      "step": 1015
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6640625,
      "learning_rate": 9.400571482863847e-05,
      "loss": 1.5232,
      "step": 1016
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.7109375,
      "learning_rate": 9.384390938660572e-05,
      "loss": 1.4127,
      "step": 1017
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.83203125,
      "learning_rate": 9.368212012154031e-05,
      "loss": 1.4122,
      "step": 1018
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.69921875,
      "learning_rate": 9.352034745859189e-05,
      "loss": 1.4249,
      "step": 1019
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6640625,
      "learning_rate": 9.335859182286643e-05,
      "loss": 1.5519,
      "step": 1020
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.70703125,
      "learning_rate": 9.319685363942516e-05,
      "loss": 1.3626,
      "step": 1021
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.75,
      "learning_rate": 9.303513333328356e-05,
      "loss": 1.4599,
      "step": 1022
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.71484375,
      "learning_rate": 9.287343132941e-05,
      "loss": 1.4668,
      "step": 1023
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.7734375,
      "learning_rate": 9.271174805272483e-05,
      "loss": 1.4917,
      "step": 1024
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.79296875,
      "learning_rate": 9.255008392809914e-05,
      "loss": 1.4717,
      "step": 1025
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6796875,
      "learning_rate": 9.238843938035377e-05,
      "loss": 1.5235,
      "step": 1026
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6875,
      "learning_rate": 9.222681483425802e-05,
      "loss": 1.4673,
      "step": 1027
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.7109375,
      "learning_rate": 9.206521071452862e-05,
      "loss": 1.4267,
      "step": 1028
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.64453125,
      "learning_rate": 9.190362744582879e-05,
      "loss": 1.5689,
      "step": 1029
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.7265625,
      "learning_rate": 9.174206545276677e-05,
      "loss": 1.4099,
      "step": 1030
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.69921875,
      "learning_rate": 9.1580525159895e-05,
      "loss": 1.3878,
      "step": 1031
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.73046875,
      "learning_rate": 9.141900699170885e-05,
      "loss": 1.4439,
      "step": 1032
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.71875,
      "learning_rate": 9.125751137264556e-05,
      "loss": 1.4941,
      "step": 1033
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.7265625,
      "learning_rate": 9.109603872708314e-05,
      "loss": 1.5525,
      "step": 1034
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.66796875,
      "learning_rate": 9.093458947933916e-05,
      "loss": 1.4445,
      "step": 1035
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.73046875,
      "learning_rate": 9.077316405366981e-05,
      "loss": 1.3866,
      "step": 1036
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.71875,
      "learning_rate": 9.061176287426859e-05,
      "loss": 1.419,
      "step": 1037
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.796875,
      "learning_rate": 9.045038636526533e-05,
      "loss": 1.4525,
      "step": 1038
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.71484375,
      "learning_rate": 9.028903495072503e-05,
      "loss": 1.5033,
      "step": 1039
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.7109375,
      "learning_rate": 9.012770905464674e-05,
      "loss": 1.4978,
      "step": 1040
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.73046875,
      "learning_rate": 8.996640910096247e-05,
      "loss": 1.4803,
      "step": 1041
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.7890625,
      "learning_rate": 8.980513551353594e-05,
      "loss": 1.473,
      "step": 1042
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.76171875,
      "learning_rate": 8.964388871616181e-05,
      "loss": 1.504,
      "step": 1043
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.73828125,
      "learning_rate": 8.948266913256416e-05,
      "loss": 1.4142,
      "step": 1044
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.72265625,
      "learning_rate": 8.932147718639562e-05,
      "loss": 1.5296,
      "step": 1045
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6875,
      "learning_rate": 8.916031330123614e-05,
      "loss": 1.5854,
      "step": 1046
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.69921875,
      "learning_rate": 8.899917790059208e-05,
      "loss": 1.4477,
      "step": 1047
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.7109375,
      "learning_rate": 8.883807140789478e-05,
      "loss": 1.3984,
      "step": 1048
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.765625,
      "learning_rate": 8.867699424649965e-05,
      "loss": 1.5053,
      "step": 1049
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.734375,
      "learning_rate": 8.851594683968516e-05,
      "loss": 1.4638,
      "step": 1050
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.640625,
      "learning_rate": 8.83549296106514e-05,
      "loss": 1.444,
      "step": 1051
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.71484375,
      "learning_rate": 8.819394298251929e-05,
      "loss": 1.4674,
      "step": 1052
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.69921875,
      "learning_rate": 8.803298737832922e-05,
      "loss": 1.4508,
      "step": 1053
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.71484375,
      "learning_rate": 8.787206322104025e-05,
      "loss": 1.4201,
      "step": 1054
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.71484375,
      "learning_rate": 8.77111709335286e-05,
      "loss": 1.6071,
      "step": 1055
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.74609375,
      "learning_rate": 8.755031093858682e-05,
      "loss": 1.4038,
      "step": 1056
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.7265625,
      "learning_rate": 8.738948365892267e-05,
      "loss": 1.6252,
      "step": 1057
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6796875,
      "learning_rate": 8.722868951715782e-05,
      "loss": 1.4839,
      "step": 1058
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.71875,
      "learning_rate": 8.706792893582694e-05,
      "loss": 1.3654,
      "step": 1059
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.68359375,
      "learning_rate": 8.690720233737645e-05,
      "loss": 1.5524,
      "step": 1060
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.7109375,
      "learning_rate": 8.674651014416358e-05,
      "loss": 1.4605,
      "step": 1061
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6640625,
      "learning_rate": 8.658585277845504e-05,
      "loss": 1.4593,
      "step": 1062
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.75390625,
      "learning_rate": 8.642523066242606e-05,
      "loss": 1.4249,
      "step": 1063
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.73828125,
      "learning_rate": 8.626464421815919e-05,
      "loss": 1.3413,
      "step": 1064
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6796875,
      "learning_rate": 8.610409386764335e-05,
      "loss": 1.6019,
      "step": 1065
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.671875,
      "learning_rate": 8.594358003277257e-05,
      "loss": 1.4823,
      "step": 1066
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.67578125,
      "learning_rate": 8.578310313534483e-05,
      "loss": 1.4719,
      "step": 1067
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.77734375,
      "learning_rate": 8.562266359706121e-05,
      "loss": 1.4,
      "step": 1068
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.7109375,
      "learning_rate": 8.54622618395245e-05,
      "loss": 1.5905,
      "step": 1069
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.67578125,
      "learning_rate": 8.530189828423824e-05,
      "loss": 1.5106,
      "step": 1070
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.8046875,
      "learning_rate": 8.514157335260551e-05,
      "loss": 1.4618,
      "step": 1071
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.79296875,
      "learning_rate": 8.498128746592806e-05,
      "loss": 1.5496,
      "step": 1072
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.8203125,
      "learning_rate": 8.482104104540496e-05,
      "loss": 1.4925,
      "step": 1073
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.76171875,
      "learning_rate": 8.466083451213144e-05,
      "loss": 1.4589,
      "step": 1074
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.8203125,
      "learning_rate": 8.450066828709817e-05,
      "loss": 1.4782,
      "step": 1075
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.7421875,
      "learning_rate": 8.43405427911897e-05,
      "loss": 1.5078,
      "step": 1076
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.73828125,
      "learning_rate": 8.418045844518361e-05,
      "loss": 1.3501,
      "step": 1077
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.7734375,
      "learning_rate": 8.402041566974928e-05,
      "loss": 1.4786,
      "step": 1078
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.8203125,
      "learning_rate": 8.386041488544703e-05,
      "loss": 1.4799,
      "step": 1079
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.70703125,
      "learning_rate": 8.370045651272667e-05,
      "loss": 1.4299,
      "step": 1080
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.76171875,
      "learning_rate": 8.35405409719266e-05,
      "loss": 1.4729,
      "step": 1081
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.75,
      "learning_rate": 8.338066868327274e-05,
      "loss": 1.4991,
      "step": 1082
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.68359375,
      "learning_rate": 8.322084006687725e-05,
      "loss": 1.4517,
      "step": 1083
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.70703125,
      "learning_rate": 8.306105554273757e-05,
      "loss": 1.4859,
      "step": 1084
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.7265625,
      "learning_rate": 8.290131553073526e-05,
      "loss": 1.4061,
      "step": 1085
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.73828125,
      "learning_rate": 8.274162045063496e-05,
      "loss": 1.504,
      "step": 1086
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.734375,
      "learning_rate": 8.258197072208323e-05,
      "loss": 1.4177,
      "step": 1087
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.671875,
      "learning_rate": 8.242236676460738e-05,
      "loss": 1.6312,
      "step": 1088
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6953125,
      "learning_rate": 8.226280899761447e-05,
      "loss": 1.5389,
      "step": 1089
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.72265625,
      "learning_rate": 8.210329784039029e-05,
      "loss": 1.467,
      "step": 1090
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.75,
      "learning_rate": 8.1943833712098e-05,
      "loss": 1.5536,
      "step": 1091
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.66796875,
      "learning_rate": 8.178441703177722e-05,
      "loss": 1.3619,
      "step": 1092
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.74609375,
      "learning_rate": 8.162504821834295e-05,
      "loss": 1.4387,
      "step": 1093
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.68359375,
      "learning_rate": 8.14657276905844e-05,
      "loss": 1.3767,
      "step": 1094
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6796875,
      "learning_rate": 8.13064558671638e-05,
      "loss": 1.4731,
      "step": 1095
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.71875,
      "learning_rate": 8.114723316661541e-05,
      "loss": 1.4855,
      "step": 1096
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.75390625,
      "learning_rate": 8.098806000734454e-05,
      "loss": 1.5203,
      "step": 1097
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.734375,
      "learning_rate": 8.082893680762619e-05,
      "loss": 1.3343,
      "step": 1098
    },
    {
      "epoch": 2.22,
      "grad_norm": 2.0,
      "learning_rate": 8.066986398560404e-05,
      "loss": 1.4541,
      "step": 1099
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.734375,
      "learning_rate": 8.051084195928955e-05,
      "loss": 1.4736,
      "step": 1100
    },
    {
      "epoch": 2.22,
      "eval_loss": 1.598726749420166,
      "eval_runtime": 10.6267,
      "eval_samples_per_second": 1.6,
      "eval_steps_per_second": 0.847,
      "step": 1100
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.8046875,
      "learning_rate": 8.035187114656057e-05,
      "loss": 1.4116,
      "step": 1101
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.64453125,
      "learning_rate": 8.019295196516044e-05,
      "loss": 1.5592,
      "step": 1102
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6953125,
      "learning_rate": 8.003408483269668e-05,
      "loss": 1.5177,
      "step": 1103
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.75390625,
      "learning_rate": 7.987527016664027e-05,
      "loss": 1.4921,
      "step": 1104
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.72265625,
      "learning_rate": 7.971650838432413e-05,
      "loss": 1.4804,
      "step": 1105
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.71875,
      "learning_rate": 7.955779990294227e-05,
      "loss": 1.3914,
      "step": 1106
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.71875,
      "learning_rate": 7.939914513954867e-05,
      "loss": 1.5074,
      "step": 1107
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6484375,
      "learning_rate": 7.924054451105614e-05,
      "loss": 1.5084,
      "step": 1108
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.7265625,
      "learning_rate": 7.908199843423519e-05,
      "loss": 1.4153,
      "step": 1109
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.671875,
      "learning_rate": 7.892350732571294e-05,
      "loss": 1.5857,
      "step": 1110
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.796875,
      "learning_rate": 7.876507160197226e-05,
      "loss": 1.5704,
      "step": 1111
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6953125,
      "learning_rate": 7.860669167935028e-05,
      "loss": 1.5305,
      "step": 1112
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.71484375,
      "learning_rate": 7.844836797403756e-05,
      "loss": 1.4829,
      "step": 1113
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.7109375,
      "learning_rate": 7.82901009020769e-05,
      "loss": 1.4654,
      "step": 1114
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.65234375,
      "learning_rate": 7.813189087936243e-05,
      "loss": 1.5558,
      "step": 1115
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.72265625,
      "learning_rate": 7.797373832163818e-05,
      "loss": 1.4716,
      "step": 1116
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.71484375,
      "learning_rate": 7.781564364449721e-05,
      "loss": 1.4898,
      "step": 1117
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.71875,
      "learning_rate": 7.76576072633806e-05,
      "loss": 1.3742,
      "step": 1118
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.70703125,
      "learning_rate": 7.749962959357612e-05,
      "loss": 1.5023,
      "step": 1119
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6953125,
      "learning_rate": 7.734171105021729e-05,
      "loss": 1.4172,
      "step": 1120
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.71875,
      "learning_rate": 7.718385204828224e-05,
      "loss": 1.5939,
      "step": 1121
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.66015625,
      "learning_rate": 7.702605300259273e-05,
      "loss": 1.5102,
      "step": 1122
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.703125,
      "learning_rate": 7.686831432781288e-05,
      "loss": 1.4424,
      "step": 1123
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.765625,
      "learning_rate": 7.67106364384481e-05,
      "loss": 1.5808,
      "step": 1124
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.73046875,
      "learning_rate": 7.655301974884427e-05,
      "loss": 1.551,
      "step": 1125
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.68359375,
      "learning_rate": 7.639546467318628e-05,
      "loss": 1.4049,
      "step": 1126
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.71484375,
      "learning_rate": 7.623797162549712e-05,
      "loss": 1.5204,
      "step": 1127
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.72265625,
      "learning_rate": 7.608054101963689e-05,
      "loss": 1.5243,
      "step": 1128
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.7578125,
      "learning_rate": 7.592317326930153e-05,
      "loss": 1.4487,
      "step": 1129
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.75,
      "learning_rate": 7.576586878802186e-05,
      "loss": 1.4677,
      "step": 1130
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6875,
      "learning_rate": 7.560862798916228e-05,
      "loss": 1.5064,
      "step": 1131
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.67578125,
      "learning_rate": 7.54514512859201e-05,
      "loss": 1.5945,
      "step": 1132
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.75390625,
      "learning_rate": 7.529433909132399e-05,
      "loss": 1.5074,
      "step": 1133
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.7890625,
      "learning_rate": 7.513729181823322e-05,
      "loss": 1.476,
      "step": 1134
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.66015625,
      "learning_rate": 7.498030987933635e-05,
      "loss": 1.5823,
      "step": 1135
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.72265625,
      "learning_rate": 7.482339368715044e-05,
      "loss": 1.4623,
      "step": 1136
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.66015625,
      "learning_rate": 7.46665436540196e-05,
      "loss": 1.5451,
      "step": 1137
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.66015625,
      "learning_rate": 7.450976019211415e-05,
      "loss": 1.483,
      "step": 1138
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.87109375,
      "learning_rate": 7.435304371342947e-05,
      "loss": 1.4087,
      "step": 1139
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.68359375,
      "learning_rate": 7.419639462978498e-05,
      "loss": 1.5677,
      "step": 1140
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.71484375,
      "learning_rate": 7.403981335282289e-05,
      "loss": 1.4729,
      "step": 1141
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.71484375,
      "learning_rate": 7.388330029400731e-05,
      "loss": 1.5925,
      "step": 1142
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.70703125,
      "learning_rate": 7.37268558646231e-05,
      "loss": 1.4637,
      "step": 1143
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.76171875,
      "learning_rate": 7.35704804757747e-05,
      "loss": 1.4816,
      "step": 1144
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.94921875,
      "learning_rate": 7.34141745383852e-05,
      "loss": 1.3117,
      "step": 1145
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.66796875,
      "learning_rate": 7.325793846319505e-05,
      "loss": 1.4794,
      "step": 1146
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.70703125,
      "learning_rate": 7.310177266076133e-05,
      "loss": 1.5431,
      "step": 1147
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.76953125,
      "learning_rate": 7.294567754145629e-05,
      "loss": 1.4848,
      "step": 1148
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.796875,
      "learning_rate": 7.278965351546648e-05,
      "loss": 1.2745,
      "step": 1149
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6796875,
      "learning_rate": 7.263370099279172e-05,
      "loss": 1.5108,
      "step": 1150
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.71484375,
      "learning_rate": 7.247782038324379e-05,
      "loss": 1.4064,
      "step": 1151
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.7109375,
      "learning_rate": 7.232201209644558e-05,
      "loss": 1.5458,
      "step": 1152
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.7109375,
      "learning_rate": 7.216627654182985e-05,
      "loss": 1.621,
      "step": 1153
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.71875,
      "learning_rate": 7.201061412863843e-05,
      "loss": 1.5101,
      "step": 1154
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.7265625,
      "learning_rate": 7.185502526592073e-05,
      "loss": 1.5034,
      "step": 1155
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.7421875,
      "learning_rate": 7.169951036253295e-05,
      "loss": 1.3429,
      "step": 1156
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.80859375,
      "learning_rate": 7.154406982713707e-05,
      "loss": 1.4928,
      "step": 1157
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.734375,
      "learning_rate": 7.138870406819944e-05,
      "loss": 1.4277,
      "step": 1158
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.7109375,
      "learning_rate": 7.123341349399005e-05,
      "loss": 1.5404,
      "step": 1159
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.734375,
      "learning_rate": 7.107819851258122e-05,
      "loss": 1.3667,
      "step": 1160
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.62890625,
      "learning_rate": 7.092305953184679e-05,
      "loss": 1.6214,
      "step": 1161
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.7109375,
      "learning_rate": 7.076799695946071e-05,
      "loss": 1.6021,
      "step": 1162
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.71875,
      "learning_rate": 7.061301120289625e-05,
      "loss": 1.372,
      "step": 1163
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.73046875,
      "learning_rate": 7.045810266942474e-05,
      "loss": 1.396,
      "step": 1164
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.73828125,
      "learning_rate": 7.03032717661147e-05,
      "loss": 1.4758,
      "step": 1165
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.75390625,
      "learning_rate": 7.014851889983057e-05,
      "loss": 1.4263,
      "step": 1166
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.72265625,
      "learning_rate": 6.999384447723168e-05,
      "loss": 1.4186,
      "step": 1167
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.70703125,
      "learning_rate": 6.983924890477138e-05,
      "loss": 1.5287,
      "step": 1168
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.703125,
      "learning_rate": 6.968473258869566e-05,
      "loss": 1.4847,
      "step": 1169
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.75,
      "learning_rate": 6.953029593504235e-05,
      "loss": 1.538,
      "step": 1170
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.73828125,
      "learning_rate": 6.937593934963981e-05,
      "loss": 1.4528,
      "step": 1171
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.73828125,
      "learning_rate": 6.922166323810622e-05,
      "loss": 1.5121,
      "step": 1172
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.703125,
      "learning_rate": 6.906746800584807e-05,
      "loss": 1.4972,
      "step": 1173
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.69921875,
      "learning_rate": 6.891335405805938e-05,
      "loss": 1.4653,
      "step": 1174
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.77734375,
      "learning_rate": 6.875932179972067e-05,
      "loss": 1.4683,
      "step": 1175
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.74609375,
      "learning_rate": 6.860537163559766e-05,
      "loss": 1.495,
      "step": 1176
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.796875,
      "learning_rate": 6.845150397024043e-05,
      "loss": 1.5038,
      "step": 1177
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6875,
      "learning_rate": 6.82977192079822e-05,
      "loss": 1.4579,
      "step": 1178
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.78515625,
      "learning_rate": 6.814401775293843e-05,
      "loss": 1.3833,
      "step": 1179
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.7421875,
      "learning_rate": 6.799040000900563e-05,
      "loss": 1.45,
      "step": 1180
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.7578125,
      "learning_rate": 6.783686637986025e-05,
      "loss": 1.2976,
      "step": 1181
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.71875,
      "learning_rate": 6.76834172689578e-05,
      "loss": 1.4701,
      "step": 1182
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.70703125,
      "learning_rate": 6.753005307953167e-05,
      "loss": 1.4231,
      "step": 1183
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.76953125,
      "learning_rate": 6.73767742145921e-05,
      "loss": 1.4564,
      "step": 1184
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.7109375,
      "learning_rate": 6.722358107692505e-05,
      "loss": 1.5229,
      "step": 1185
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.69921875,
      "learning_rate": 6.707047406909135e-05,
      "loss": 1.4956,
      "step": 1186
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.7265625,
      "learning_rate": 6.691745359342534e-05,
      "loss": 1.4907,
      "step": 1187
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.8359375,
      "learning_rate": 6.676452005203406e-05,
      "loss": 1.3034,
      "step": 1188
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.7734375,
      "learning_rate": 6.661167384679605e-05,
      "loss": 1.4041,
      "step": 1189
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.76171875,
      "learning_rate": 6.645891537936043e-05,
      "loss": 1.3136,
      "step": 1190
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.78125,
      "learning_rate": 6.630624505114566e-05,
      "loss": 1.2719,
      "step": 1191
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.75,
      "learning_rate": 6.615366326333868e-05,
      "loss": 1.5446,
      "step": 1192
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.73046875,
      "learning_rate": 6.600117041689373e-05,
      "loss": 1.5681,
      "step": 1193
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.734375,
      "learning_rate": 6.584876691253131e-05,
      "loss": 1.5507,
      "step": 1194
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.67578125,
      "learning_rate": 6.569645315073712e-05,
      "loss": 1.4878,
      "step": 1195
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.74609375,
      "learning_rate": 6.554422953176113e-05,
      "loss": 1.4849,
      "step": 1196
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.7421875,
      "learning_rate": 6.539209645561638e-05,
      "loss": 1.4357,
      "step": 1197
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6953125,
      "learning_rate": 6.524005432207794e-05,
      "loss": 1.4757,
      "step": 1198
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.74609375,
      "learning_rate": 6.508810353068195e-05,
      "loss": 1.4317,
      "step": 1199
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.74609375,
      "learning_rate": 6.493624448072457e-05,
      "loss": 1.4137,
      "step": 1200
    },
    {
      "epoch": 2.43,
      "eval_loss": 1.589872121810913,
      "eval_runtime": 10.6536,
      "eval_samples_per_second": 1.596,
      "eval_steps_per_second": 0.845,
      "step": 1200
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.75,
      "learning_rate": 6.478447757126077e-05,
      "loss": 1.3977,
      "step": 1201
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.74609375,
      "learning_rate": 6.463280320110345e-05,
      "loss": 1.5185,
      "step": 1202
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.7265625,
      "learning_rate": 6.448122176882232e-05,
      "loss": 1.4673,
      "step": 1203
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6953125,
      "learning_rate": 6.432973367274292e-05,
      "loss": 1.5664,
      "step": 1204
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.70703125,
      "learning_rate": 6.417833931094548e-05,
      "loss": 1.4814,
      "step": 1205
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.76953125,
      "learning_rate": 6.40270390812639e-05,
      "loss": 1.3866,
      "step": 1206
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6640625,
      "learning_rate": 6.387583338128471e-05,
      "loss": 1.4052,
      "step": 1207
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.67578125,
      "learning_rate": 6.372472260834613e-05,
      "loss": 1.393,
      "step": 1208
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7734375,
      "learning_rate": 6.35737071595368e-05,
      "loss": 1.4862,
      "step": 1209
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.70703125,
      "learning_rate": 6.342278743169495e-05,
      "loss": 1.4756,
      "step": 1210
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7421875,
      "learning_rate": 6.327196382140727e-05,
      "loss": 1.4427,
      "step": 1211
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.703125,
      "learning_rate": 6.312123672500788e-05,
      "loss": 1.4712,
      "step": 1212
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.74609375,
      "learning_rate": 6.29706065385772e-05,
      "loss": 1.4045,
      "step": 1213
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.69140625,
      "learning_rate": 6.282007365794105e-05,
      "loss": 1.4525,
      "step": 1214
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7421875,
      "learning_rate": 6.266963847866963e-05,
      "loss": 1.5153,
      "step": 1215
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7734375,
      "learning_rate": 6.251930139607622e-05,
      "loss": 1.5593,
      "step": 1216
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.72265625,
      "learning_rate": 6.236906280521646e-05,
      "loss": 1.5071,
      "step": 1217
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.69140625,
      "learning_rate": 6.221892310088714e-05,
      "loss": 1.6006,
      "step": 1218
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.70703125,
      "learning_rate": 6.206888267762522e-05,
      "loss": 1.3699,
      "step": 1219
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.74609375,
      "learning_rate": 6.19189419297067e-05,
      "loss": 1.469,
      "step": 1220
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.65234375,
      "learning_rate": 6.176910125114565e-05,
      "loss": 1.432,
      "step": 1221
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.7109375,
      "learning_rate": 6.161936103569332e-05,
      "loss": 1.4366,
      "step": 1222
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.83984375,
      "learning_rate": 6.14697216768368e-05,
      "loss": 1.3754,
      "step": 1223
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.68359375,
      "learning_rate": 6.132018356779823e-05,
      "loss": 1.4664,
      "step": 1224
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7265625,
      "learning_rate": 6.117074710153366e-05,
      "loss": 1.4532,
      "step": 1225
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.66015625,
      "learning_rate": 6.102141267073207e-05,
      "loss": 1.447,
      "step": 1226
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.79296875,
      "learning_rate": 6.0872180667814296e-05,
      "loss": 1.5224,
      "step": 1227
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.671875,
      "learning_rate": 6.072305148493195e-05,
      "loss": 1.4403,
      "step": 1228
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7265625,
      "learning_rate": 6.0574025513966604e-05,
      "loss": 1.4997,
      "step": 1229
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6953125,
      "learning_rate": 6.042510314652845e-05,
      "loss": 1.4348,
      "step": 1230
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.69140625,
      "learning_rate": 6.027628477395557e-05,
      "loss": 1.4163,
      "step": 1231
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.74609375,
      "learning_rate": 6.012757078731261e-05,
      "loss": 1.448,
      "step": 1232
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6171875,
      "learning_rate": 5.9978961577390094e-05,
      "loss": 1.4457,
      "step": 1233
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.66796875,
      "learning_rate": 5.983045753470308e-05,
      "loss": 1.4406,
      "step": 1234
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.734375,
      "learning_rate": 5.968205904949027e-05,
      "loss": 1.4716,
      "step": 1235
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.77734375,
      "learning_rate": 5.95337665117131e-05,
      "loss": 1.3947,
      "step": 1236
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7109375,
      "learning_rate": 5.9385580311054454e-05,
      "loss": 1.3919,
      "step": 1237
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.703125,
      "learning_rate": 5.923750083691788e-05,
      "loss": 1.491,
      "step": 1238
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.7109375,
      "learning_rate": 5.90895284784264e-05,
      "loss": 1.4653,
      "step": 1239
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.73046875,
      "learning_rate": 5.8941663624421675e-05,
      "loss": 1.3742,
      "step": 1240
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.71484375,
      "learning_rate": 5.8793906663462716e-05,
      "loss": 1.5787,
      "step": 1241
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6796875,
      "learning_rate": 5.864625798382508e-05,
      "loss": 1.4667,
      "step": 1242
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7734375,
      "learning_rate": 5.849871797349984e-05,
      "loss": 1.5422,
      "step": 1243
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.75390625,
      "learning_rate": 5.8351287020192394e-05,
      "loss": 1.2772,
      "step": 1244
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.71484375,
      "learning_rate": 5.82039655113217e-05,
      "loss": 1.4518,
      "step": 1245
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7265625,
      "learning_rate": 5.80567538340189e-05,
      "loss": 1.4136,
      "step": 1246
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.69140625,
      "learning_rate": 5.7909652375126824e-05,
      "loss": 1.4681,
      "step": 1247
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6953125,
      "learning_rate": 5.776266152119838e-05,
      "loss": 1.4234,
      "step": 1248
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.69921875,
      "learning_rate": 5.761578165849596e-05,
      "loss": 1.4647,
      "step": 1249
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.71484375,
      "learning_rate": 5.74690131729904e-05,
      "loss": 1.5388,
      "step": 1250
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6953125,
      "learning_rate": 5.732235645035964e-05,
      "loss": 1.4771,
      "step": 1251
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.75390625,
      "learning_rate": 5.71758118759881e-05,
      "loss": 1.49,
      "step": 1252
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.74609375,
      "learning_rate": 5.7029379834965305e-05,
      "loss": 1.4302,
      "step": 1253
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.734375,
      "learning_rate": 5.688306071208538e-05,
      "loss": 1.4341,
      "step": 1254
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6953125,
      "learning_rate": 5.673685489184539e-05,
      "loss": 1.404,
      "step": 1255
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7265625,
      "learning_rate": 5.659076275844486e-05,
      "loss": 1.3934,
      "step": 1256
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.74609375,
      "learning_rate": 5.6444784695784516e-05,
      "loss": 1.4702,
      "step": 1257
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.70703125,
      "learning_rate": 5.629892108746533e-05,
      "loss": 1.4218,
      "step": 1258
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.65234375,
      "learning_rate": 5.6153172316787564e-05,
      "loss": 1.5097,
      "step": 1259
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6796875,
      "learning_rate": 5.6007538766749524e-05,
      "loss": 1.4772,
      "step": 1260
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.796875,
      "learning_rate": 5.5862020820047036e-05,
      "loss": 1.5528,
      "step": 1261
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7265625,
      "learning_rate": 5.5716618859071864e-05,
      "loss": 1.4399,
      "step": 1262
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.70703125,
      "learning_rate": 5.557133326591115e-05,
      "loss": 1.4252,
      "step": 1263
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6640625,
      "learning_rate": 5.542616442234618e-05,
      "loss": 1.4342,
      "step": 1264
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.734375,
      "learning_rate": 5.528111270985148e-05,
      "loss": 1.4789,
      "step": 1265
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7109375,
      "learning_rate": 5.513617850959378e-05,
      "loss": 1.3755,
      "step": 1266
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6953125,
      "learning_rate": 5.49913622024309e-05,
      "loss": 1.5132,
      "step": 1267
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.734375,
      "learning_rate": 5.484666416891109e-05,
      "loss": 1.5115,
      "step": 1268
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7265625,
      "learning_rate": 5.470208478927156e-05,
      "loss": 1.4612,
      "step": 1269
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.77734375,
      "learning_rate": 5.455762444343785e-05,
      "loss": 1.5408,
      "step": 1270
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.76953125,
      "learning_rate": 5.441328351102269e-05,
      "loss": 1.4743,
      "step": 1271
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7421875,
      "learning_rate": 5.426906237132501e-05,
      "loss": 1.5154,
      "step": 1272
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.75,
      "learning_rate": 5.4124961403328976e-05,
      "loss": 1.449,
      "step": 1273
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.69140625,
      "learning_rate": 5.3980980985702814e-05,
      "loss": 1.4277,
      "step": 1274
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.72265625,
      "learning_rate": 5.383712149679825e-05,
      "loss": 1.4766,
      "step": 1275
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.69921875,
      "learning_rate": 5.3693383314648945e-05,
      "loss": 1.4415,
      "step": 1276
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.79296875,
      "learning_rate": 5.354976681696997e-05,
      "loss": 1.5128,
      "step": 1277
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.68359375,
      "learning_rate": 5.3406272381156573e-05,
      "loss": 1.3938,
      "step": 1278
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7109375,
      "learning_rate": 5.326290038428326e-05,
      "loss": 1.5073,
      "step": 1279
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.68359375,
      "learning_rate": 5.311965120310282e-05,
      "loss": 1.4862,
      "step": 1280
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.66015625,
      "learning_rate": 5.297652521404519e-05,
      "loss": 1.5112,
      "step": 1281
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7578125,
      "learning_rate": 5.2833522793216724e-05,
      "loss": 1.371,
      "step": 1282
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.74609375,
      "learning_rate": 5.269064431639901e-05,
      "loss": 1.5294,
      "step": 1283
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.71484375,
      "learning_rate": 5.254789015904791e-05,
      "loss": 1.5234,
      "step": 1284
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7578125,
      "learning_rate": 5.240526069629265e-05,
      "loss": 1.5528,
      "step": 1285
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.72265625,
      "learning_rate": 5.226275630293474e-05,
      "loss": 1.4806,
      "step": 1286
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6875,
      "learning_rate": 5.212037735344708e-05,
      "loss": 1.5358,
      "step": 1287
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.703125,
      "learning_rate": 5.197812422197286e-05,
      "loss": 1.4643,
      "step": 1288
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.78125,
      "learning_rate": 5.183599728232467e-05,
      "loss": 1.4995,
      "step": 1289
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.70703125,
      "learning_rate": 5.169399690798353e-05,
      "loss": 1.4879,
      "step": 1290
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7734375,
      "learning_rate": 5.155212347209788e-05,
      "loss": 1.4312,
      "step": 1291
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.66015625,
      "learning_rate": 5.141037734748251e-05,
      "loss": 1.5856,
      "step": 1292
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.765625,
      "learning_rate": 5.126875890661773e-05,
      "loss": 1.3895,
      "step": 1293
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6640625,
      "learning_rate": 5.112726852164835e-05,
      "loss": 1.4709,
      "step": 1294
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.69140625,
      "learning_rate": 5.098590656438256e-05,
      "loss": 1.5149,
      "step": 1295
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.76171875,
      "learning_rate": 5.0844673406291155e-05,
      "loss": 1.4471,
      "step": 1296
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7265625,
      "learning_rate": 5.070356941850646e-05,
      "loss": 1.5165,
      "step": 1297
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6875,
      "learning_rate": 5.0562594971821364e-05,
      "loss": 1.4471,
      "step": 1298
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7109375,
      "learning_rate": 5.04217504366884e-05,
      "loss": 1.6085,
      "step": 1299
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.67578125,
      "learning_rate": 5.028103618321851e-05,
      "loss": 1.4527,
      "step": 1300
    },
    {
      "epoch": 2.63,
      "eval_loss": 1.5853931903839111,
      "eval_runtime": 10.6424,
      "eval_samples_per_second": 1.597,
      "eval_steps_per_second": 0.846,
      "step": 1300
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.73828125,
      "learning_rate": 5.014045258118062e-05,
      "loss": 1.5082,
      "step": 1301
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.67578125,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.4563,
      "step": 1302
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.74609375,
      "learning_rate": 4.985967880875787e-05,
      "loss": 1.4391,
      "step": 1303
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.64453125,
      "learning_rate": 4.971948937619003e-05,
      "loss": 1.5469,
      "step": 1304
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.72265625,
      "learning_rate": 4.9579432070686115e-05,
      "loss": 1.3412,
      "step": 1305
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.84765625,
      "learning_rate": 4.943950726028856e-05,
      "loss": 1.412,
      "step": 1306
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.74609375,
      "learning_rate": 4.929971531269153e-05,
      "loss": 1.5459,
      "step": 1307
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.76171875,
      "learning_rate": 4.916005659524026e-05,
      "loss": 1.5775,
      "step": 1308
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.734375,
      "learning_rate": 4.902053147492964e-05,
      "loss": 1.4554,
      "step": 1309
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.74609375,
      "learning_rate": 4.888114031840366e-05,
      "loss": 1.4984,
      "step": 1310
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.68359375,
      "learning_rate": 4.874188349195423e-05,
      "loss": 1.5039,
      "step": 1311
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.69921875,
      "learning_rate": 4.860276136152026e-05,
      "loss": 1.497,
      "step": 1312
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7265625,
      "learning_rate": 4.846377429268675e-05,
      "loss": 1.3792,
      "step": 1313
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.71875,
      "learning_rate": 4.832492265068364e-05,
      "loss": 1.4882,
      "step": 1314
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7578125,
      "learning_rate": 4.818620680038525e-05,
      "loss": 1.391,
      "step": 1315
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7109375,
      "learning_rate": 4.804762710630881e-05,
      "loss": 1.4732,
      "step": 1316
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.796875,
      "learning_rate": 4.790918393261391e-05,
      "loss": 1.3233,
      "step": 1317
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.78125,
      "learning_rate": 4.777087764310134e-05,
      "loss": 1.482,
      "step": 1318
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.69921875,
      "learning_rate": 4.763270860121222e-05,
      "loss": 1.3822,
      "step": 1319
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7578125,
      "learning_rate": 4.7494677170027005e-05,
      "loss": 1.5221,
      "step": 1320
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.73046875,
      "learning_rate": 4.735678371226441e-05,
      "loss": 1.4937,
      "step": 1321
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.73046875,
      "learning_rate": 4.7219028590280855e-05,
      "loss": 1.5296,
      "step": 1322
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.65234375,
      "learning_rate": 4.708141216606896e-05,
      "loss": 1.5474,
      "step": 1323
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.71875,
      "learning_rate": 4.6943934801257026e-05,
      "loss": 1.4578,
      "step": 1324
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.77734375,
      "learning_rate": 4.680659685710792e-05,
      "loss": 1.3383,
      "step": 1325
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7421875,
      "learning_rate": 4.6669398694518104e-05,
      "loss": 1.4977,
      "step": 1326
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.71484375,
      "learning_rate": 4.6532340674016796e-05,
      "loss": 1.4088,
      "step": 1327
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6796875,
      "learning_rate": 4.639542315576476e-05,
      "loss": 1.5181,
      "step": 1328
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6796875,
      "learning_rate": 4.6258646499553846e-05,
      "loss": 1.4988,
      "step": 1329
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7265625,
      "learning_rate": 4.612201106480548e-05,
      "loss": 1.486,
      "step": 1330
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.71875,
      "learning_rate": 4.598551721057011e-05,
      "loss": 1.4916,
      "step": 1331
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.73046875,
      "learning_rate": 4.584916529552612e-05,
      "loss": 1.4608,
      "step": 1332
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.703125,
      "learning_rate": 4.571295567797891e-05,
      "loss": 1.4989,
      "step": 1333
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.71484375,
      "learning_rate": 4.557688871585997e-05,
      "loss": 1.3894,
      "step": 1334
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.75390625,
      "learning_rate": 4.54409647667258e-05,
      "loss": 1.468,
      "step": 1335
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.72265625,
      "learning_rate": 4.530518418775733e-05,
      "loss": 1.5117,
      "step": 1336
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6484375,
      "learning_rate": 4.516954733575849e-05,
      "loss": 1.4439,
      "step": 1337
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.80859375,
      "learning_rate": 4.503405456715566e-05,
      "loss": 1.384,
      "step": 1338
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7265625,
      "learning_rate": 4.489870623799658e-05,
      "loss": 1.4357,
      "step": 1339
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.78515625,
      "learning_rate": 4.476350270394942e-05,
      "loss": 1.5064,
      "step": 1340
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.69140625,
      "learning_rate": 4.4628444320301885e-05,
      "loss": 1.4557,
      "step": 1341
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.71484375,
      "learning_rate": 4.449353144196014e-05,
      "loss": 1.5421,
      "step": 1342
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.73046875,
      "learning_rate": 4.435876442344822e-05,
      "loss": 1.5603,
      "step": 1343
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.70703125,
      "learning_rate": 4.422414361890661e-05,
      "loss": 1.4475,
      "step": 1344
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.69140625,
      "learning_rate": 4.4089669382091746e-05,
      "loss": 1.465,
      "step": 1345
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6796875,
      "learning_rate": 4.395534206637485e-05,
      "loss": 1.5422,
      "step": 1346
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.70703125,
      "learning_rate": 4.382116202474109e-05,
      "loss": 1.4469,
      "step": 1347
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.796875,
      "learning_rate": 4.368712960978864e-05,
      "loss": 1.423,
      "step": 1348
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.73046875,
      "learning_rate": 4.355324517372763e-05,
      "loss": 1.4949,
      "step": 1349
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6953125,
      "learning_rate": 4.3419509068379484e-05,
      "loss": 1.4986,
      "step": 1350
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.76171875,
      "learning_rate": 4.3285921645175756e-05,
      "loss": 1.4597,
      "step": 1351
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.77734375,
      "learning_rate": 4.31524832551573e-05,
      "loss": 1.5081,
      "step": 1352
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.68359375,
      "learning_rate": 4.301919424897338e-05,
      "loss": 1.4985,
      "step": 1353
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.70703125,
      "learning_rate": 4.2886054976880676e-05,
      "loss": 1.4523,
      "step": 1354
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.703125,
      "learning_rate": 4.2753065788742417e-05,
      "loss": 1.4455,
      "step": 1355
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.72265625,
      "learning_rate": 4.262022703402738e-05,
      "loss": 1.4915,
      "step": 1356
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.8125,
      "learning_rate": 4.248753906180912e-05,
      "loss": 1.5567,
      "step": 1357
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.66015625,
      "learning_rate": 4.23550022207649e-05,
      "loss": 1.5584,
      "step": 1358
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.8515625,
      "learning_rate": 4.222261685917489e-05,
      "loss": 1.4933,
      "step": 1359
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6875,
      "learning_rate": 4.209038332492118e-05,
      "loss": 1.4254,
      "step": 1360
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.734375,
      "learning_rate": 4.195830196548688e-05,
      "loss": 1.5231,
      "step": 1361
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.71484375,
      "learning_rate": 4.1826373127955266e-05,
      "loss": 1.4047,
      "step": 1362
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.84375,
      "learning_rate": 4.169459715900869e-05,
      "loss": 1.3257,
      "step": 1363
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.73828125,
      "learning_rate": 4.156297440492793e-05,
      "loss": 1.4558,
      "step": 1364
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.65625,
      "learning_rate": 4.143150521159109e-05,
      "loss": 1.4559,
      "step": 1365
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.76171875,
      "learning_rate": 4.130018992447276e-05,
      "loss": 1.5001,
      "step": 1366
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7421875,
      "learning_rate": 4.1169028888643104e-05,
      "loss": 1.4922,
      "step": 1367
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6796875,
      "learning_rate": 4.10380224487669e-05,
      "loss": 1.463,
      "step": 1368
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.703125,
      "learning_rate": 4.090717094910276e-05,
      "loss": 1.4731,
      "step": 1369
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.78515625,
      "learning_rate": 4.077647473350201e-05,
      "loss": 1.374,
      "step": 1370
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7734375,
      "learning_rate": 4.064593414540807e-05,
      "loss": 1.4979,
      "step": 1371
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.75,
      "learning_rate": 4.051554952785531e-05,
      "loss": 1.6018,
      "step": 1372
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.69140625,
      "learning_rate": 4.038532122346829e-05,
      "loss": 1.5293,
      "step": 1373
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7265625,
      "learning_rate": 4.0255249574460795e-05,
      "loss": 1.4861,
      "step": 1374
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.703125,
      "learning_rate": 4.012533492263485e-05,
      "loss": 1.4395,
      "step": 1375
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.77734375,
      "learning_rate": 3.999557760938017e-05,
      "loss": 1.532,
      "step": 1376
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7109375,
      "learning_rate": 3.9865977975672754e-05,
      "loss": 1.5549,
      "step": 1377
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7109375,
      "learning_rate": 3.973653636207437e-05,
      "loss": 1.4169,
      "step": 1378
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7109375,
      "learning_rate": 3.960725310873157e-05,
      "loss": 1.4939,
      "step": 1379
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.703125,
      "learning_rate": 3.9478128555374696e-05,
      "loss": 1.3333,
      "step": 1380
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7109375,
      "learning_rate": 3.934916304131714e-05,
      "loss": 1.3421,
      "step": 1381
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6875,
      "learning_rate": 3.9220356905454213e-05,
      "loss": 1.4963,
      "step": 1382
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.71875,
      "learning_rate": 3.9091710486262666e-05,
      "loss": 1.4854,
      "step": 1383
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.73828125,
      "learning_rate": 3.896322412179929e-05,
      "loss": 1.5019,
      "step": 1384
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.66015625,
      "learning_rate": 3.8834898149700427e-05,
      "loss": 1.4674,
      "step": 1385
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.671875,
      "learning_rate": 3.870673290718092e-05,
      "loss": 1.54,
      "step": 1386
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7890625,
      "learning_rate": 3.857872873103322e-05,
      "loss": 1.5296,
      "step": 1387
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.74609375,
      "learning_rate": 3.845088595762659e-05,
      "loss": 1.5532,
      "step": 1388
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.73046875,
      "learning_rate": 3.832320492290601e-05,
      "loss": 1.4578,
      "step": 1389
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7890625,
      "learning_rate": 3.819568596239167e-05,
      "loss": 1.4843,
      "step": 1390
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.65234375,
      "learning_rate": 3.806832941117765e-05,
      "loss": 1.4985,
      "step": 1391
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.69921875,
      "learning_rate": 3.7941135603931365e-05,
      "loss": 1.405,
      "step": 1392
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.73828125,
      "learning_rate": 3.7814104874892544e-05,
      "loss": 1.4772,
      "step": 1393
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.78515625,
      "learning_rate": 3.768723755787239e-05,
      "loss": 1.5143,
      "step": 1394
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.703125,
      "learning_rate": 3.7560533986252696e-05,
      "loss": 1.5655,
      "step": 1395
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.70703125,
      "learning_rate": 3.743399449298488e-05,
      "loss": 1.4588,
      "step": 1396
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.73046875,
      "learning_rate": 3.7307619410589376e-05,
      "loss": 1.4872,
      "step": 1397
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.62890625,
      "learning_rate": 3.718140907115437e-05,
      "loss": 1.4713,
      "step": 1398
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7421875,
      "learning_rate": 3.705536380633529e-05,
      "loss": 1.4697,
      "step": 1399
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6484375,
      "learning_rate": 3.692948394735371e-05,
      "loss": 1.507,
      "step": 1400
    },
    {
      "epoch": 2.84,
      "eval_loss": 1.5813634395599365,
      "eval_runtime": 10.643,
      "eval_samples_per_second": 1.597,
      "eval_steps_per_second": 0.846,
      "step": 1400
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7265625,
      "learning_rate": 3.680376982499658e-05,
      "loss": 1.5467,
      "step": 1401
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.76171875,
      "learning_rate": 3.667822176961534e-05,
      "loss": 1.4169,
      "step": 1402
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.71875,
      "learning_rate": 3.655284011112492e-05,
      "loss": 1.4604,
      "step": 1403
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.73046875,
      "learning_rate": 3.642762517900322e-05,
      "loss": 1.416,
      "step": 1404
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7265625,
      "learning_rate": 3.6302577302289786e-05,
      "loss": 1.3409,
      "step": 1405
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.75,
      "learning_rate": 3.61776968095853e-05,
      "loss": 1.4988,
      "step": 1406
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.66796875,
      "learning_rate": 3.605298402905057e-05,
      "loss": 1.505,
      "step": 1407
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.65234375,
      "learning_rate": 3.59284392884057e-05,
      "loss": 1.4874,
      "step": 1408
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7109375,
      "learning_rate": 3.580406291492924e-05,
      "loss": 1.4394,
      "step": 1409
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.74609375,
      "learning_rate": 3.5679855235457135e-05,
      "loss": 1.4573,
      "step": 1410
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.734375,
      "learning_rate": 3.555581657638235e-05,
      "loss": 1.4188,
      "step": 1411
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.71484375,
      "learning_rate": 3.543194726365341e-05,
      "loss": 1.5015,
      "step": 1412
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6484375,
      "learning_rate": 3.530824762277395e-05,
      "loss": 1.5199,
      "step": 1413
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.8046875,
      "learning_rate": 3.5184717978801765e-05,
      "loss": 1.4544,
      "step": 1414
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.87109375,
      "learning_rate": 3.5061358656347875e-05,
      "loss": 1.2591,
      "step": 1415
    },
    {
      "epoch": 2.87,
      "grad_norm": 1.046875,
      "learning_rate": 3.493816997957582e-05,
      "loss": 1.5224,
      "step": 1416
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.73046875,
      "learning_rate": 3.481515227220056e-05,
      "loss": 1.4134,
      "step": 1417
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7109375,
      "learning_rate": 3.4692305857487916e-05,
      "loss": 1.4677,
      "step": 1418
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6953125,
      "learning_rate": 3.4569631058253546e-05,
      "loss": 1.5015,
      "step": 1419
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.69140625,
      "learning_rate": 3.444712819686213e-05,
      "loss": 1.5132,
      "step": 1420
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.74609375,
      "learning_rate": 3.4324797595226565e-05,
      "loss": 1.5695,
      "step": 1421
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.703125,
      "learning_rate": 3.420263957480702e-05,
      "loss": 1.5283,
      "step": 1422
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.765625,
      "learning_rate": 3.408065445661024e-05,
      "loss": 1.4298,
      "step": 1423
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6953125,
      "learning_rate": 3.39588425611885e-05,
      "loss": 1.5068,
      "step": 1424
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.93359375,
      "learning_rate": 3.383720420863899e-05,
      "loss": 1.4825,
      "step": 1425
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.703125,
      "learning_rate": 3.37157397186028e-05,
      "loss": 1.3901,
      "step": 1426
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.84765625,
      "learning_rate": 3.359444941026418e-05,
      "loss": 1.5322,
      "step": 1427
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.73046875,
      "learning_rate": 3.347333360234968e-05,
      "loss": 1.5047,
      "step": 1428
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7109375,
      "learning_rate": 3.3352392613127226e-05,
      "loss": 1.481,
      "step": 1429
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.77734375,
      "learning_rate": 3.323162676040545e-05,
      "loss": 1.5544,
      "step": 1430
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.73046875,
      "learning_rate": 3.311103636153266e-05,
      "loss": 1.5514,
      "step": 1431
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.73046875,
      "learning_rate": 3.2990621733396186e-05,
      "loss": 1.5517,
      "step": 1432
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7109375,
      "learning_rate": 3.2870383192421426e-05,
      "loss": 1.4463,
      "step": 1433
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.71875,
      "learning_rate": 3.2750321054571075e-05,
      "loss": 1.5225,
      "step": 1434
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6953125,
      "learning_rate": 3.263043563534428e-05,
      "loss": 1.4221,
      "step": 1435
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.68359375,
      "learning_rate": 3.251072724977579e-05,
      "loss": 1.4096,
      "step": 1436
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.734375,
      "learning_rate": 3.2391196212435184e-05,
      "loss": 1.5087,
      "step": 1437
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.71484375,
      "learning_rate": 3.227184283742591e-05,
      "loss": 1.5096,
      "step": 1438
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.65625,
      "learning_rate": 3.215266743838465e-05,
      "loss": 1.56,
      "step": 1439
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.67578125,
      "learning_rate": 3.203367032848039e-05,
      "loss": 1.3595,
      "step": 1440
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7265625,
      "learning_rate": 3.191485182041357e-05,
      "loss": 1.4789,
      "step": 1441
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7421875,
      "learning_rate": 3.179621222641537e-05,
      "loss": 1.3607,
      "step": 1442
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.65625,
      "learning_rate": 3.167775185824664e-05,
      "loss": 1.4968,
      "step": 1443
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7421875,
      "learning_rate": 3.155947102719754e-05,
      "loss": 1.4114,
      "step": 1444
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.74609375,
      "learning_rate": 3.1441370044086206e-05,
      "loss": 1.5205,
      "step": 1445
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.68359375,
      "learning_rate": 3.132344921925826e-05,
      "loss": 1.5094,
      "step": 1446
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.76953125,
      "learning_rate": 3.120570886258592e-05,
      "loss": 1.5229,
      "step": 1447
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.76953125,
      "learning_rate": 3.108814928346715e-05,
      "loss": 1.3803,
      "step": 1448
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6640625,
      "learning_rate": 3.09707707908249e-05,
      "loss": 1.5267,
      "step": 1449
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.796875,
      "learning_rate": 3.085357369310612e-05,
      "loss": 1.3939,
      "step": 1450
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.67578125,
      "learning_rate": 3.0736558298281336e-05,
      "loss": 1.5141,
      "step": 1451
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6796875,
      "learning_rate": 3.061972491384336e-05,
      "loss": 1.5199,
      "step": 1452
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7265625,
      "learning_rate": 3.0503073846806853e-05,
      "loss": 1.4294,
      "step": 1453
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6953125,
      "learning_rate": 3.0386605403707346e-05,
      "loss": 1.4357,
      "step": 1454
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.703125,
      "learning_rate": 3.0270319890600462e-05,
      "loss": 1.5595,
      "step": 1455
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.65625,
      "learning_rate": 3.0154217613061163e-05,
      "loss": 1.4541,
      "step": 1456
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.734375,
      "learning_rate": 3.003829887618278e-05,
      "loss": 1.477,
      "step": 1457
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.68359375,
      "learning_rate": 2.9922563984576545e-05,
      "loss": 1.452,
      "step": 1458
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.74609375,
      "learning_rate": 2.9807013242370384e-05,
      "loss": 1.4942,
      "step": 1459
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.70703125,
      "learning_rate": 2.969164695320842e-05,
      "loss": 1.4379,
      "step": 1460
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.75,
      "learning_rate": 2.957646542025003e-05,
      "loss": 1.5091,
      "step": 1461
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6796875,
      "learning_rate": 2.9461468946169136e-05,
      "loss": 1.4145,
      "step": 1462
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.79296875,
      "learning_rate": 2.9346657833153334e-05,
      "loss": 1.6355,
      "step": 1463
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7265625,
      "learning_rate": 2.923203238290304e-05,
      "loss": 1.5089,
      "step": 1464
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.71484375,
      "learning_rate": 2.9117592896631008e-05,
      "loss": 1.5739,
      "step": 1465
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.640625,
      "learning_rate": 2.900333967506107e-05,
      "loss": 1.5308,
      "step": 1466
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6875,
      "learning_rate": 2.888927301842773e-05,
      "loss": 1.3757,
      "step": 1467
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.73046875,
      "learning_rate": 2.8775393226475224e-05,
      "loss": 1.43,
      "step": 1468
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7578125,
      "learning_rate": 2.866170059845672e-05,
      "loss": 1.4712,
      "step": 1469
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.72265625,
      "learning_rate": 2.8548195433133606e-05,
      "loss": 1.5007,
      "step": 1470
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.75390625,
      "learning_rate": 2.8434878028774503e-05,
      "loss": 1.4416,
      "step": 1471
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.71484375,
      "learning_rate": 2.8321748683154893e-05,
      "loss": 1.4332,
      "step": 1472
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7421875,
      "learning_rate": 2.8208807693555818e-05,
      "loss": 1.4553,
      "step": 1473
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6953125,
      "learning_rate": 2.809605535676352e-05,
      "loss": 1.4829,
      "step": 1474
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.70703125,
      "learning_rate": 2.7983491969068432e-05,
      "loss": 1.4139,
      "step": 1475
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.68359375,
      "learning_rate": 2.7871117826264504e-05,
      "loss": 1.5729,
      "step": 1476
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.640625,
      "learning_rate": 2.7758933223648397e-05,
      "loss": 1.5642,
      "step": 1477
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.70703125,
      "learning_rate": 2.7646938456018566e-05,
      "loss": 1.4499,
      "step": 1478
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.67578125,
      "learning_rate": 2.7535133817674864e-05,
      "loss": 1.4838,
      "step": 1479
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.70703125,
      "learning_rate": 2.742351960241728e-05,
      "loss": 1.456,
      "step": 1480
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.77734375,
      "learning_rate": 2.7312096103545547e-05,
      "loss": 1.4663,
      "step": 1481
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.65625,
      "learning_rate": 2.7200863613858185e-05,
      "loss": 1.4865,
      "step": 1482
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.72265625,
      "learning_rate": 2.7089822425651813e-05,
      "loss": 1.4802,
      "step": 1483
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.81640625,
      "learning_rate": 2.697897283072035e-05,
      "loss": 1.4548,
      "step": 1484
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.734375,
      "learning_rate": 2.6868315120354125e-05,
      "loss": 1.2453,
      "step": 1485
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.58203125,
      "learning_rate": 2.675784958533948e-05,
      "loss": 1.4161,
      "step": 1486
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6640625,
      "learning_rate": 2.6647576515957485e-05,
      "loss": 1.4444,
      "step": 1487
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.6875,
      "learning_rate": 2.6537496201983636e-05,
      "loss": 1.4691,
      "step": 1488
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.64453125,
      "learning_rate": 2.6427608932686843e-05,
      "loss": 1.3384,
      "step": 1489
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.7421875,
      "learning_rate": 2.6317914996828717e-05,
      "loss": 1.3408,
      "step": 1490
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.69921875,
      "learning_rate": 2.6208414682662897e-05,
      "loss": 1.4441,
      "step": 1491
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.71875,
      "learning_rate": 2.6099108277934103e-05,
      "loss": 1.4755,
      "step": 1492
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.6875,
      "learning_rate": 2.598999606987761e-05,
      "loss": 1.523,
      "step": 1493
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.75,
      "learning_rate": 2.5881078345218335e-05,
      "loss": 1.3487,
      "step": 1494
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.8515625,
      "learning_rate": 2.5772355390170156e-05,
      "loss": 1.4068,
      "step": 1495
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.7109375,
      "learning_rate": 2.56638274904351e-05,
      "loss": 1.4271,
      "step": 1496
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.6796875,
      "learning_rate": 2.5555494931202662e-05,
      "loss": 1.3959,
      "step": 1497
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.65234375,
      "learning_rate": 2.5447357997149024e-05,
      "loss": 1.395,
      "step": 1498
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.71875,
      "learning_rate": 2.5339416972436247e-05,
      "loss": 1.4169,
      "step": 1499
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.6484375,
      "learning_rate": 2.523167214071165e-05,
      "loss": 1.4538,
      "step": 1500
    },
    {
      "epoch": 3.03,
      "eval_loss": 1.5900027751922607,
      "eval_runtime": 10.6451,
      "eval_samples_per_second": 1.597,
      "eval_steps_per_second": 0.845,
      "step": 1500
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.69921875,
      "learning_rate": 2.5124123785106946e-05,
      "loss": 1.4455,
      "step": 1501
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.73828125,
      "learning_rate": 2.5016772188237603e-05,
      "loss": 1.3742,
      "step": 1502
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.70703125,
      "learning_rate": 2.4909617632201986e-05,
      "loss": 1.5029,
      "step": 1503
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.68359375,
      "learning_rate": 2.4802660398580735e-05,
      "loss": 1.3237,
      "step": 1504
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.73046875,
      "learning_rate": 2.4695900768435942e-05,
      "loss": 1.3754,
      "step": 1505
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.70703125,
      "learning_rate": 2.4589339022310386e-05,
      "loss": 1.4245,
      "step": 1506
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.69921875,
      "learning_rate": 2.448297544022692e-05,
      "loss": 1.44,
      "step": 1507
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.75390625,
      "learning_rate": 2.4376810301687624e-05,
      "loss": 1.3546,
      "step": 1508
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.76171875,
      "learning_rate": 2.4270843885673132e-05,
      "loss": 1.4331,
      "step": 1509
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.71875,
      "learning_rate": 2.4165076470641858e-05,
      "loss": 1.4499,
      "step": 1510
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.75,
      "learning_rate": 2.405950833452928e-05,
      "loss": 1.3317,
      "step": 1511
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.75390625,
      "learning_rate": 2.3954139754747252e-05,
      "loss": 1.4087,
      "step": 1512
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.7265625,
      "learning_rate": 2.384897100818313e-05,
      "loss": 1.3741,
      "step": 1513
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.71875,
      "learning_rate": 2.3744002371199247e-05,
      "loss": 1.2228,
      "step": 1514
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.6796875,
      "learning_rate": 2.363923411963207e-05,
      "loss": 1.4837,
      "step": 1515
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.71875,
      "learning_rate": 2.3534666528791472e-05,
      "loss": 1.2943,
      "step": 1516
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.734375,
      "learning_rate": 2.3430299873460083e-05,
      "loss": 1.4152,
      "step": 1517
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.7890625,
      "learning_rate": 2.3326134427892354e-05,
      "loss": 1.4365,
      "step": 1518
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.7421875,
      "learning_rate": 2.3222170465814264e-05,
      "loss": 1.4416,
      "step": 1519
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.66015625,
      "learning_rate": 2.3118408260422076e-05,
      "loss": 1.552,
      "step": 1520
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.7265625,
      "learning_rate": 2.301484808438201e-05,
      "loss": 1.4665,
      "step": 1521
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.75,
      "learning_rate": 2.29114902098294e-05,
      "loss": 1.4226,
      "step": 1522
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.7265625,
      "learning_rate": 2.2808334908367914e-05,
      "loss": 1.4493,
      "step": 1523
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.69140625,
      "learning_rate": 2.2705382451068956e-05,
      "loss": 1.3883,
      "step": 1524
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.734375,
      "learning_rate": 2.2602633108470795e-05,
      "loss": 1.5019,
      "step": 1525
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.72265625,
      "learning_rate": 2.250008715057813e-05,
      "loss": 1.506,
      "step": 1526
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.671875,
      "learning_rate": 2.2397744846861024e-05,
      "loss": 1.4265,
      "step": 1527
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.80078125,
      "learning_rate": 2.229560646625448e-05,
      "loss": 1.2889,
      "step": 1528
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.72265625,
      "learning_rate": 2.2193672277157607e-05,
      "loss": 1.439,
      "step": 1529
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.71875,
      "learning_rate": 2.2091942547432955e-05,
      "loss": 1.4295,
      "step": 1530
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.68359375,
      "learning_rate": 2.1990417544405794e-05,
      "loss": 1.4778,
      "step": 1531
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.69921875,
      "learning_rate": 2.1889097534863334e-05,
      "loss": 1.3353,
      "step": 1532
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.7265625,
      "learning_rate": 2.1787982785054262e-05,
      "loss": 1.4299,
      "step": 1533
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.65625,
      "learning_rate": 2.168707356068773e-05,
      "loss": 1.4757,
      "step": 1534
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.6953125,
      "learning_rate": 2.1586370126932886e-05,
      "loss": 1.4456,
      "step": 1535
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.75390625,
      "learning_rate": 2.1485872748418113e-05,
      "loss": 1.4747,
      "step": 1536
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.6953125,
      "learning_rate": 2.138558168923026e-05,
      "loss": 1.3879,
      "step": 1537
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.6875,
      "learning_rate": 2.1285497212914118e-05,
      "loss": 1.4144,
      "step": 1538
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.71484375,
      "learning_rate": 2.118561958247144e-05,
      "loss": 1.3085,
      "step": 1539
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.7734375,
      "learning_rate": 2.1085949060360654e-05,
      "loss": 1.4147,
      "step": 1540
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.640625,
      "learning_rate": 2.0986485908495757e-05,
      "loss": 1.4963,
      "step": 1541
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.72265625,
      "learning_rate": 2.0887230388245938e-05,
      "loss": 1.4502,
      "step": 1542
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.65625,
      "learning_rate": 2.0788182760434704e-05,
      "loss": 1.4206,
      "step": 1543
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.68359375,
      "learning_rate": 2.0689343285339314e-05,
      "loss": 1.3829,
      "step": 1544
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.765625,
      "learning_rate": 2.0590712222690033e-05,
      "loss": 1.3525,
      "step": 1545
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.6640625,
      "learning_rate": 2.0492289831669366e-05,
      "loss": 1.4632,
      "step": 1546
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.7578125,
      "learning_rate": 2.039407637091165e-05,
      "loss": 1.498,
      "step": 1547
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.66796875,
      "learning_rate": 2.0296072098502038e-05,
      "loss": 1.4955,
      "step": 1548
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.69921875,
      "learning_rate": 2.0198277271976052e-05,
      "loss": 1.4903,
      "step": 1549
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.6875,
      "learning_rate": 2.010069214831881e-05,
      "loss": 1.4116,
      "step": 1550
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.73046875,
      "learning_rate": 2.0003316983964394e-05,
      "loss": 1.4159,
      "step": 1551
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.69921875,
      "learning_rate": 1.9906152034795156e-05,
      "loss": 1.4053,
      "step": 1552
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.80859375,
      "learning_rate": 1.9809197556140947e-05,
      "loss": 1.5441,
      "step": 1553
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.7265625,
      "learning_rate": 1.971245380277875e-05,
      "loss": 1.5442,
      "step": 1554
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.75390625,
      "learning_rate": 1.9615921028931583e-05,
      "loss": 1.4198,
      "step": 1555
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.76171875,
      "learning_rate": 1.951959948826818e-05,
      "loss": 1.3891,
      "step": 1556
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.69921875,
      "learning_rate": 1.9423489433902186e-05,
      "loss": 1.3382,
      "step": 1557
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.7421875,
      "learning_rate": 1.9327591118391465e-05,
      "loss": 1.5085,
      "step": 1558
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.66015625,
      "learning_rate": 1.923190479373751e-05,
      "loss": 1.4148,
      "step": 1559
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.6015625,
      "learning_rate": 1.91364307113847e-05,
      "loss": 1.4884,
      "step": 1560
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.66015625,
      "learning_rate": 1.9041169122219727e-05,
      "loss": 1.3894,
      "step": 1561
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.71484375,
      "learning_rate": 1.8946120276570866e-05,
      "loss": 1.4353,
      "step": 1562
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.70703125,
      "learning_rate": 1.885128442420737e-05,
      "loss": 1.4148,
      "step": 1563
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.67578125,
      "learning_rate": 1.8756661814338773e-05,
      "loss": 1.4038,
      "step": 1564
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.81640625,
      "learning_rate": 1.8662252695614245e-05,
      "loss": 1.1945,
      "step": 1565
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.97265625,
      "learning_rate": 1.8568057316121988e-05,
      "loss": 1.4845,
      "step": 1566
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.6953125,
      "learning_rate": 1.8474075923388446e-05,
      "loss": 1.2986,
      "step": 1567
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.6484375,
      "learning_rate": 1.8380308764377842e-05,
      "loss": 1.4479,
      "step": 1568
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.65625,
      "learning_rate": 1.8286756085491386e-05,
      "loss": 1.4803,
      "step": 1569
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.78125,
      "learning_rate": 1.8193418132566708e-05,
      "loss": 1.4124,
      "step": 1570
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.66015625,
      "learning_rate": 1.8100295150877154e-05,
      "loss": 1.5049,
      "step": 1571
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.71484375,
      "learning_rate": 1.800738738513118e-05,
      "loss": 1.4117,
      "step": 1572
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.76953125,
      "learning_rate": 1.7914695079471744e-05,
      "loss": 1.4101,
      "step": 1573
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.7421875,
      "learning_rate": 1.7822218477475494e-05,
      "loss": 1.2112,
      "step": 1574
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.6796875,
      "learning_rate": 1.7729957822152378e-05,
      "loss": 1.3307,
      "step": 1575
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.71875,
      "learning_rate": 1.763791335594481e-05,
      "loss": 1.3597,
      "step": 1576
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.66796875,
      "learning_rate": 1.7546085320727155e-05,
      "loss": 1.3987,
      "step": 1577
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.80859375,
      "learning_rate": 1.7454473957804985e-05,
      "loss": 1.4072,
      "step": 1578
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.671875,
      "learning_rate": 1.7363079507914537e-05,
      "loss": 1.3779,
      "step": 1579
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.76171875,
      "learning_rate": 1.7271902211222067e-05,
      "loss": 1.4644,
      "step": 1580
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.703125,
      "learning_rate": 1.7180942307323088e-05,
      "loss": 1.4702,
      "step": 1581
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.7421875,
      "learning_rate": 1.7090200035241976e-05,
      "loss": 1.3801,
      "step": 1582
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.734375,
      "learning_rate": 1.6999675633431154e-05,
      "loss": 1.3466,
      "step": 1583
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.74609375,
      "learning_rate": 1.690936933977052e-05,
      "loss": 1.362,
      "step": 1584
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.71875,
      "learning_rate": 1.6819281391566887e-05,
      "loss": 1.4305,
      "step": 1585
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.76171875,
      "learning_rate": 1.672941202555316e-05,
      "loss": 1.4046,
      "step": 1586
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.75,
      "learning_rate": 1.663976147788806e-05,
      "loss": 1.42,
      "step": 1587
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.78125,
      "learning_rate": 1.6550329984155112e-05,
      "loss": 1.3286,
      "step": 1588
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.6640625,
      "learning_rate": 1.64611177793623e-05,
      "loss": 1.4613,
      "step": 1589
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.76171875,
      "learning_rate": 1.637212509794136e-05,
      "loss": 1.5015,
      "step": 1590
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.671875,
      "learning_rate": 1.6283352173747145e-05,
      "loss": 1.3991,
      "step": 1591
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.6640625,
      "learning_rate": 1.6194799240057045e-05,
      "loss": 1.3604,
      "step": 1592
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.75390625,
      "learning_rate": 1.6106466529570297e-05,
      "loss": 1.5416,
      "step": 1593
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.7578125,
      "learning_rate": 1.601835427440759e-05,
      "loss": 1.3314,
      "step": 1594
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.68359375,
      "learning_rate": 1.5930462706110106e-05,
      "loss": 1.4263,
      "step": 1595
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.7109375,
      "learning_rate": 1.5842792055639234e-05,
      "loss": 1.405,
      "step": 1596
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.6953125,
      "learning_rate": 1.5755342553375796e-05,
      "loss": 1.3976,
      "step": 1597
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.69921875,
      "learning_rate": 1.5668114429119497e-05,
      "loss": 1.2267,
      "step": 1598
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.64453125,
      "learning_rate": 1.558110791208832e-05,
      "loss": 1.3711,
      "step": 1599
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.70703125,
      "learning_rate": 1.5494323230917805e-05,
      "loss": 1.4501,
      "step": 1600
    },
    {
      "epoch": 3.24,
      "eval_loss": 1.5938000679016113,
      "eval_runtime": 10.6205,
      "eval_samples_per_second": 1.601,
      "eval_steps_per_second": 0.847,
      "step": 1600
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.71875,
      "learning_rate": 1.5407760613660716e-05,
      "loss": 1.4101,
      "step": 1601
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.75390625,
      "learning_rate": 1.5321420287786135e-05,
      "loss": 1.4863,
      "step": 1602
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.68359375,
      "learning_rate": 1.5235302480179092e-05,
      "loss": 1.3675,
      "step": 1603
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.70703125,
      "learning_rate": 1.5149407417139839e-05,
      "loss": 1.4297,
      "step": 1604
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.68359375,
      "learning_rate": 1.5063735324383332e-05,
      "loss": 1.3563,
      "step": 1605
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.71484375,
      "learning_rate": 1.4978286427038601e-05,
      "loss": 1.4985,
      "step": 1606
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.69921875,
      "learning_rate": 1.4893060949648097e-05,
      "loss": 1.3911,
      "step": 1607
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.71484375,
      "learning_rate": 1.4808059116167305e-05,
      "loss": 1.4505,
      "step": 1608
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.72265625,
      "learning_rate": 1.4723281149963875e-05,
      "loss": 1.4046,
      "step": 1609
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.734375,
      "learning_rate": 1.4638727273817266e-05,
      "loss": 1.4163,
      "step": 1610
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.66796875,
      "learning_rate": 1.4554397709918045e-05,
      "loss": 1.4814,
      "step": 1611
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.7265625,
      "learning_rate": 1.4470292679867347e-05,
      "loss": 1.429,
      "step": 1612
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.76171875,
      "learning_rate": 1.4386412404676275e-05,
      "loss": 1.459,
      "step": 1613
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.65234375,
      "learning_rate": 1.4302757104765252e-05,
      "loss": 1.4655,
      "step": 1614
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.70703125,
      "learning_rate": 1.4219326999963667e-05,
      "loss": 1.4363,
      "step": 1615
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.80078125,
      "learning_rate": 1.413612230950897e-05,
      "loss": 1.3541,
      "step": 1616
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.6953125,
      "learning_rate": 1.4053143252046363e-05,
      "loss": 1.3672,
      "step": 1617
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.7109375,
      "learning_rate": 1.3970390045628134e-05,
      "loss": 1.3794,
      "step": 1618
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.6875,
      "learning_rate": 1.3887862907713035e-05,
      "loss": 1.4603,
      "step": 1619
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.6953125,
      "learning_rate": 1.380556205516581e-05,
      "loss": 1.3482,
      "step": 1620
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.69140625,
      "learning_rate": 1.3723487704256467e-05,
      "loss": 1.3934,
      "step": 1621
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.69140625,
      "learning_rate": 1.3641640070659967e-05,
      "loss": 1.4158,
      "step": 1622
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.69921875,
      "learning_rate": 1.3560019369455367e-05,
      "loss": 1.4658,
      "step": 1623
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.7109375,
      "learning_rate": 1.3478625815125467e-05,
      "loss": 1.349,
      "step": 1624
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.7109375,
      "learning_rate": 1.339745962155613e-05,
      "loss": 1.4546,
      "step": 1625
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.76171875,
      "learning_rate": 1.331652100203581e-05,
      "loss": 1.3336,
      "step": 1626
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.72265625,
      "learning_rate": 1.3235810169254903e-05,
      "loss": 1.424,
      "step": 1627
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.625,
      "learning_rate": 1.315532733530519e-05,
      "loss": 1.433,
      "step": 1628
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.76953125,
      "learning_rate": 1.3075072711679437e-05,
      "loss": 1.4933,
      "step": 1629
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.68359375,
      "learning_rate": 1.2995046509270592e-05,
      "loss": 1.4513,
      "step": 1630
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.73828125,
      "learning_rate": 1.2915248938371438e-05,
      "loss": 1.4217,
      "step": 1631
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.7265625,
      "learning_rate": 1.2835680208673905e-05,
      "loss": 1.5105,
      "step": 1632
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.76171875,
      "learning_rate": 1.275634052926864e-05,
      "loss": 1.3877,
      "step": 1633
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.7421875,
      "learning_rate": 1.2677230108644344e-05,
      "loss": 1.4545,
      "step": 1634
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.78125,
      "learning_rate": 1.2598349154687261e-05,
      "loss": 1.3336,
      "step": 1635
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.76953125,
      "learning_rate": 1.251969787468068e-05,
      "loss": 1.3193,
      "step": 1636
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.67578125,
      "learning_rate": 1.244127647530433e-05,
      "loss": 1.342,
      "step": 1637
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.69140625,
      "learning_rate": 1.2363085162633881e-05,
      "loss": 1.3288,
      "step": 1638
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.65625,
      "learning_rate": 1.2285124142140358e-05,
      "loss": 1.4007,
      "step": 1639
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.73046875,
      "learning_rate": 1.2207393618689645e-05,
      "loss": 1.3908,
      "step": 1640
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.7109375,
      "learning_rate": 1.2129893796541925e-05,
      "loss": 1.4016,
      "step": 1641
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.6875,
      "learning_rate": 1.2052624879351104e-05,
      "loss": 1.4472,
      "step": 1642
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.66796875,
      "learning_rate": 1.197558707016435e-05,
      "loss": 1.3275,
      "step": 1643
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.703125,
      "learning_rate": 1.1898780571421552e-05,
      "loss": 1.4352,
      "step": 1644
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.7265625,
      "learning_rate": 1.1822205584954715e-05,
      "loss": 1.4773,
      "step": 1645
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.65234375,
      "learning_rate": 1.1745862311987488e-05,
      "loss": 1.4594,
      "step": 1646
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.73046875,
      "learning_rate": 1.166975095313464e-05,
      "loss": 1.4505,
      "step": 1647
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.703125,
      "learning_rate": 1.1593871708401526e-05,
      "loss": 1.4293,
      "step": 1648
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.71484375,
      "learning_rate": 1.1518224777183495e-05,
      "loss": 1.3676,
      "step": 1649
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.66796875,
      "learning_rate": 1.1442810358265466e-05,
      "loss": 1.508,
      "step": 1650
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.7421875,
      "learning_rate": 1.136762864982137e-05,
      "loss": 1.4694,
      "step": 1651
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.7265625,
      "learning_rate": 1.1292679849413601e-05,
      "loss": 1.4215,
      "step": 1652
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.7265625,
      "learning_rate": 1.1217964153992545e-05,
      "loss": 1.3787,
      "step": 1653
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.6796875,
      "learning_rate": 1.1143481759895958e-05,
      "loss": 1.4017,
      "step": 1654
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.72265625,
      "learning_rate": 1.1069232862848667e-05,
      "loss": 1.4415,
      "step": 1655
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.6796875,
      "learning_rate": 1.0995217657961754e-05,
      "loss": 1.4677,
      "step": 1656
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.73046875,
      "learning_rate": 1.0921436339732327e-05,
      "loss": 1.4263,
      "step": 1657
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.69921875,
      "learning_rate": 1.0847889102042818e-05,
      "loss": 1.4559,
      "step": 1658
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.64453125,
      "learning_rate": 1.0774576138160597e-05,
      "loss": 1.449,
      "step": 1659
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.8046875,
      "learning_rate": 1.070149764073738e-05,
      "loss": 1.4556,
      "step": 1660
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.7265625,
      "learning_rate": 1.0628653801808696e-05,
      "loss": 1.4595,
      "step": 1661
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.6796875,
      "learning_rate": 1.0556044812793576e-05,
      "loss": 1.4367,
      "step": 1662
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.765625,
      "learning_rate": 1.0483670864493778e-05,
      "loss": 1.2717,
      "step": 1663
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.7109375,
      "learning_rate": 1.0411532147093483e-05,
      "loss": 1.3953,
      "step": 1664
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.70703125,
      "learning_rate": 1.0339628850158734e-05,
      "loss": 1.486,
      "step": 1665
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.69921875,
      "learning_rate": 1.0267961162636918e-05,
      "loss": 1.5293,
      "step": 1666
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.70703125,
      "learning_rate": 1.0196529272856315e-05,
      "loss": 1.3834,
      "step": 1667
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.83984375,
      "learning_rate": 1.0125333368525514e-05,
      "loss": 1.3968,
      "step": 1668
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.73046875,
      "learning_rate": 1.0054373636733084e-05,
      "loss": 1.3107,
      "step": 1669
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.77734375,
      "learning_rate": 9.983650263946875e-06,
      "loss": 1.2369,
      "step": 1670
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.70703125,
      "learning_rate": 9.913163436013695e-06,
      "loss": 1.3091,
      "step": 1671
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.67578125,
      "learning_rate": 9.842913338158732e-06,
      "loss": 1.402,
      "step": 1672
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.71484375,
      "learning_rate": 9.772900154985131e-06,
      "loss": 1.4518,
      "step": 1673
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.6640625,
      "learning_rate": 9.703124070473445e-06,
      "loss": 1.4963,
      "step": 1674
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.78125,
      "learning_rate": 9.633585267981137e-06,
      "loss": 1.3358,
      "step": 1675
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.671875,
      "learning_rate": 9.564283930242257e-06,
      "loss": 1.3979,
      "step": 1676
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.65625,
      "learning_rate": 9.49522023936672e-06,
      "loss": 1.4457,
      "step": 1677
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.68359375,
      "learning_rate": 9.426394376840053e-06,
      "loss": 1.4046,
      "step": 1678
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.70703125,
      "learning_rate": 9.357806523522705e-06,
      "loss": 1.3419,
      "step": 1679
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.75,
      "learning_rate": 9.289456859649826e-06,
      "loss": 1.4837,
      "step": 1680
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.6484375,
      "learning_rate": 9.221345564830552e-06,
      "loss": 1.463,
      "step": 1681
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.765625,
      "learning_rate": 9.153472818047625e-06,
      "loss": 1.478,
      "step": 1682
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.65234375,
      "learning_rate": 9.085838797657031e-06,
      "loss": 1.406,
      "step": 1683
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.7890625,
      "learning_rate": 9.018443681387312e-06,
      "loss": 1.3888,
      "step": 1684
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.69921875,
      "learning_rate": 8.951287646339302e-06,
      "loss": 1.4226,
      "step": 1685
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.71484375,
      "learning_rate": 8.884370868985514e-06,
      "loss": 1.3676,
      "step": 1686
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.65234375,
      "learning_rate": 8.817693525169802e-06,
      "loss": 1.3776,
      "step": 1687
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.671875,
      "learning_rate": 8.751255790106816e-06,
      "loss": 1.406,
      "step": 1688
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.72265625,
      "learning_rate": 8.685057838381517e-06,
      "loss": 1.4396,
      "step": 1689
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.8359375,
      "learning_rate": 8.619099843948842e-06,
      "loss": 1.3219,
      "step": 1690
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.68359375,
      "learning_rate": 8.553381980133102e-06,
      "loss": 1.4626,
      "step": 1691
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.6484375,
      "learning_rate": 8.487904419627635e-06,
      "loss": 1.5003,
      "step": 1692
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.63671875,
      "learning_rate": 8.422667334494249e-06,
      "loss": 1.2434,
      "step": 1693
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.68359375,
      "learning_rate": 8.35767089616294e-06,
      "loss": 1.4544,
      "step": 1694
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.66796875,
      "learning_rate": 8.292915275431246e-06,
      "loss": 1.4664,
      "step": 1695
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.67578125,
      "learning_rate": 8.228400642463874e-06,
      "loss": 1.4786,
      "step": 1696
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.765625,
      "learning_rate": 8.164127166792357e-06,
      "loss": 1.3612,
      "step": 1697
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.65625,
      "learning_rate": 8.100095017314402e-06,
      "loss": 1.4139,
      "step": 1698
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.69140625,
      "learning_rate": 8.036304362293646e-06,
      "loss": 1.4595,
      "step": 1699
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.73046875,
      "learning_rate": 7.972755369359053e-06,
      "loss": 1.3612,
      "step": 1700
    },
    {
      "epoch": 3.44,
      "eval_loss": 1.5927927494049072,
      "eval_runtime": 10.6621,
      "eval_samples_per_second": 1.594,
      "eval_steps_per_second": 0.844,
      "step": 1700
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.76953125,
      "learning_rate": 7.909448205504632e-06,
      "loss": 1.4408,
      "step": 1701
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.703125,
      "learning_rate": 7.846383037088867e-06,
      "loss": 1.4284,
      "step": 1702
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.7421875,
      "learning_rate": 7.783560029834313e-06,
      "loss": 1.3523,
      "step": 1703
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.7109375,
      "learning_rate": 7.720979348827184e-06,
      "loss": 1.3784,
      "step": 1704
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.6796875,
      "learning_rate": 7.658641158516933e-06,
      "loss": 1.403,
      "step": 1705
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.6796875,
      "learning_rate": 7.596545622715789e-06,
      "loss": 1.4573,
      "step": 1706
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.6875,
      "learning_rate": 7.534692904598284e-06,
      "loss": 1.4214,
      "step": 1707
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.70703125,
      "learning_rate": 7.473083166700945e-06,
      "loss": 1.4405,
      "step": 1708
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.76171875,
      "learning_rate": 7.41171657092179e-06,
      "loss": 1.4268,
      "step": 1709
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.69921875,
      "learning_rate": 7.350593278519824e-06,
      "loss": 1.4392,
      "step": 1710
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.8125,
      "learning_rate": 7.28971345011481e-06,
      "loss": 1.4854,
      "step": 1711
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.671875,
      "learning_rate": 7.229077245686655e-06,
      "loss": 1.4889,
      "step": 1712
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.66796875,
      "learning_rate": 7.168684824575133e-06,
      "loss": 1.3187,
      "step": 1713
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.69921875,
      "learning_rate": 7.108536345479322e-06,
      "loss": 1.4516,
      "step": 1714
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.8046875,
      "learning_rate": 7.048631966457364e-06,
      "loss": 1.4086,
      "step": 1715
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.7109375,
      "learning_rate": 6.988971844925929e-06,
      "loss": 1.4672,
      "step": 1716
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.71875,
      "learning_rate": 6.929556137659765e-06,
      "loss": 1.2969,
      "step": 1717
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.671875,
      "learning_rate": 6.870385000791413e-06,
      "loss": 1.2995,
      "step": 1718
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.63671875,
      "learning_rate": 6.811458589810715e-06,
      "loss": 1.377,
      "step": 1719
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.703125,
      "learning_rate": 6.75277705956443e-06,
      "loss": 1.4239,
      "step": 1720
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.70703125,
      "learning_rate": 6.694340564255785e-06,
      "loss": 1.3723,
      "step": 1721
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.61328125,
      "learning_rate": 6.636149257444157e-06,
      "loss": 1.4707,
      "step": 1722
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.74609375,
      "learning_rate": 6.578203292044593e-06,
      "loss": 1.4062,
      "step": 1723
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.7265625,
      "learning_rate": 6.520502820327401e-06,
      "loss": 1.4379,
      "step": 1724
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.75390625,
      "learning_rate": 6.463047993917826e-06,
      "loss": 1.3859,
      "step": 1725
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.78125,
      "learning_rate": 6.405838963795597e-06,
      "loss": 1.4191,
      "step": 1726
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.671875,
      "learning_rate": 6.3488758802945354e-06,
      "loss": 1.3743,
      "step": 1727
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.69921875,
      "learning_rate": 6.29215889310214e-06,
      "loss": 1.4251,
      "step": 1728
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.734375,
      "learning_rate": 6.235688151259234e-06,
      "loss": 1.3879,
      "step": 1729
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.703125,
      "learning_rate": 6.179463803159613e-06,
      "loss": 1.5027,
      "step": 1730
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.734375,
      "learning_rate": 6.123485996549505e-06,
      "loss": 1.4446,
      "step": 1731
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.859375,
      "learning_rate": 6.067754878527332e-06,
      "loss": 1.3922,
      "step": 1732
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.6875,
      "learning_rate": 6.012270595543257e-06,
      "loss": 1.5195,
      "step": 1733
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.65625,
      "learning_rate": 5.957033293398839e-06,
      "loss": 1.4803,
      "step": 1734
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.73828125,
      "learning_rate": 5.902043117246548e-06,
      "loss": 1.3441,
      "step": 1735
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.6640625,
      "learning_rate": 5.847300211589502e-06,
      "loss": 1.4348,
      "step": 1736
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.67578125,
      "learning_rate": 5.792804720281086e-06,
      "loss": 1.433,
      "step": 1737
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.9453125,
      "learning_rate": 5.738556786524452e-06,
      "loss": 1.2867,
      "step": 1738
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.6953125,
      "learning_rate": 5.684556552872256e-06,
      "loss": 1.3726,
      "step": 1739
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.74609375,
      "learning_rate": 5.630804161226244e-06,
      "loss": 1.51,
      "step": 1740
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.80078125,
      "learning_rate": 5.5772997528369176e-06,
      "loss": 1.4185,
      "step": 1741
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.6640625,
      "learning_rate": 5.524043468303042e-06,
      "loss": 1.4398,
      "step": 1742
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.75390625,
      "learning_rate": 5.471035447571437e-06,
      "loss": 1.2666,
      "step": 1743
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.703125,
      "learning_rate": 5.418275829936537e-06,
      "loss": 1.3383,
      "step": 1744
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.7109375,
      "learning_rate": 5.36576475403997e-06,
      "loss": 1.4837,
      "step": 1745
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.73046875,
      "learning_rate": 5.3135023578702925e-06,
      "loss": 1.354,
      "step": 1746
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.765625,
      "learning_rate": 5.261488778762569e-06,
      "loss": 1.3689,
      "step": 1747
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.6640625,
      "learning_rate": 5.20972415339801e-06,
      "loss": 1.3627,
      "step": 1748
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.7421875,
      "learning_rate": 5.158208617803628e-06,
      "loss": 1.5172,
      "step": 1749
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.70703125,
      "learning_rate": 5.106942307351881e-06,
      "loss": 1.4235,
      "step": 1750
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.66796875,
      "learning_rate": 5.0559253567603495e-06,
      "loss": 1.4263,
      "step": 1751
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.76953125,
      "learning_rate": 5.005157900091284e-06,
      "loss": 1.4388,
      "step": 1752
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.69140625,
      "learning_rate": 4.9546400707513596e-06,
      "loss": 1.4678,
      "step": 1753
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.7265625,
      "learning_rate": 4.904372001491231e-06,
      "loss": 1.3747,
      "step": 1754
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.7421875,
      "learning_rate": 4.854353824405322e-06,
      "loss": 1.387,
      "step": 1755
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.73828125,
      "learning_rate": 4.8045856709312945e-06,
      "loss": 1.4905,
      "step": 1756
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.75390625,
      "learning_rate": 4.755067671849844e-06,
      "loss": 1.4136,
      "step": 1757
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.74609375,
      "learning_rate": 4.705799957284351e-06,
      "loss": 1.4392,
      "step": 1758
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.7265625,
      "learning_rate": 4.656782656700409e-06,
      "loss": 1.5225,
      "step": 1759
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.73828125,
      "learning_rate": 4.608015898905649e-06,
      "loss": 1.4276,
      "step": 1760
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.63671875,
      "learning_rate": 4.559499812049251e-06,
      "loss": 1.4664,
      "step": 1761
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.69140625,
      "learning_rate": 4.511234523621799e-06,
      "loss": 1.3155,
      "step": 1762
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.79296875,
      "learning_rate": 4.463220160454706e-06,
      "loss": 1.3886,
      "step": 1763
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.77734375,
      "learning_rate": 4.415456848720045e-06,
      "loss": 1.4569,
      "step": 1764
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.69140625,
      "learning_rate": 4.36794471393025e-06,
      "loss": 1.4185,
      "step": 1765
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.69921875,
      "learning_rate": 4.320683880937604e-06,
      "loss": 1.4049,
      "step": 1766
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.72265625,
      "learning_rate": 4.273674473934086e-06,
      "loss": 1.4648,
      "step": 1767
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.69140625,
      "learning_rate": 4.226916616450916e-06,
      "loss": 1.4391,
      "step": 1768
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.71875,
      "learning_rate": 4.180410431358395e-06,
      "loss": 1.4637,
      "step": 1769
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.73046875,
      "learning_rate": 4.134156040865378e-06,
      "loss": 1.3559,
      "step": 1770
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.6875,
      "learning_rate": 4.088153566519115e-06,
      "loss": 1.5266,
      "step": 1771
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.71484375,
      "learning_rate": 4.042403129204831e-06,
      "loss": 1.4422,
      "step": 1772
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.7109375,
      "learning_rate": 3.996904849145489e-06,
      "loss": 1.2925,
      "step": 1773
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.6796875,
      "learning_rate": 3.951658845901418e-06,
      "loss": 1.3206,
      "step": 1774
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.69921875,
      "learning_rate": 3.906665238369978e-06,
      "loss": 1.4543,
      "step": 1775
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.72265625,
      "learning_rate": 3.861924144785345e-06,
      "loss": 1.371,
      "step": 1776
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.734375,
      "learning_rate": 3.817435682718096e-06,
      "loss": 1.5689,
      "step": 1777
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.76953125,
      "learning_rate": 3.7731999690749585e-06,
      "loss": 1.47,
      "step": 1778
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.74609375,
      "learning_rate": 3.729217120098494e-06,
      "loss": 1.4013,
      "step": 1779
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.65625,
      "learning_rate": 3.6854872513667705e-06,
      "loss": 1.5318,
      "step": 1780
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.66015625,
      "learning_rate": 3.642010477793101e-06,
      "loss": 1.4362,
      "step": 1781
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.73828125,
      "learning_rate": 3.598786913625651e-06,
      "loss": 1.346,
      "step": 1782
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.7109375,
      "learning_rate": 3.5558166724473094e-06,
      "loss": 1.3808,
      "step": 1783
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.765625,
      "learning_rate": 3.5130998671751845e-06,
      "loss": 1.4514,
      "step": 1784
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.7734375,
      "learning_rate": 3.4706366100604514e-06,
      "loss": 1.3249,
      "step": 1785
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.7109375,
      "learning_rate": 3.428427012688007e-06,
      "loss": 1.4795,
      "step": 1786
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.65234375,
      "learning_rate": 3.386471185976192e-06,
      "loss": 1.4222,
      "step": 1787
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.6796875,
      "learning_rate": 3.3447692401764598e-06,
      "loss": 1.345,
      "step": 1788
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.65625,
      "learning_rate": 3.3033212848731287e-06,
      "loss": 1.4878,
      "step": 1789
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.72265625,
      "learning_rate": 3.2621274289831084e-06,
      "loss": 1.5642,
      "step": 1790
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.71484375,
      "learning_rate": 3.22118778075553e-06,
      "loss": 1.4918,
      "step": 1791
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.70703125,
      "learning_rate": 3.1805024477715716e-06,
      "loss": 1.458,
      "step": 1792
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.76171875,
      "learning_rate": 3.1400715369441003e-06,
      "loss": 1.3387,
      "step": 1793
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.82421875,
      "learning_rate": 3.0998951545174183e-06,
      "loss": 1.3392,
      "step": 1794
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.7578125,
      "learning_rate": 3.059973406066963e-06,
      "loss": 1.5069,
      "step": 1795
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.73046875,
      "learning_rate": 3.0203063964990617e-06,
      "loss": 1.5479,
      "step": 1796
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.73046875,
      "learning_rate": 2.980894230050624e-06,
      "loss": 1.5376,
      "step": 1797
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.72265625,
      "learning_rate": 2.941737010288903e-06,
      "loss": 1.3311,
      "step": 1798
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.83984375,
      "learning_rate": 2.902834840111179e-06,
      "loss": 1.4307,
      "step": 1799
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.6875,
      "learning_rate": 2.864187821744546e-06,
      "loss": 1.4801,
      "step": 1800
    },
    {
      "epoch": 3.65,
      "eval_loss": 1.5921988487243652,
      "eval_runtime": 10.6138,
      "eval_samples_per_second": 1.602,
      "eval_steps_per_second": 0.848,
      "step": 1800
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.7578125,
      "learning_rate": 2.8257960567455887e-06,
      "loss": 1.3395,
      "step": 1801
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.66796875,
      "learning_rate": 2.787659646000129e-06,
      "loss": 1.4374,
      "step": 1802
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.73828125,
      "learning_rate": 2.7497786897229816e-06,
      "loss": 1.3961,
      "step": 1803
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.68359375,
      "learning_rate": 2.712153287457686e-06,
      "loss": 1.4329,
      "step": 1804
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.75,
      "learning_rate": 2.674783538076209e-06,
      "loss": 1.3525,
      "step": 1805
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.7421875,
      "learning_rate": 2.637669539778753e-06,
      "loss": 1.4454,
      "step": 1806
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.71484375,
      "learning_rate": 2.600811390093427e-06,
      "loss": 1.5073,
      "step": 1807
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.8046875,
      "learning_rate": 2.564209185876032e-06,
      "loss": 1.4756,
      "step": 1808
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.7109375,
      "learning_rate": 2.5278630233098067e-06,
      "loss": 1.4886,
      "step": 1809
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.6796875,
      "learning_rate": 2.4917729979051396e-06,
      "loss": 1.4908,
      "step": 1810
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.71875,
      "learning_rate": 2.4559392044993467e-06,
      "loss": 1.5207,
      "step": 1811
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.67578125,
      "learning_rate": 2.420361737256438e-06,
      "loss": 1.4582,
      "step": 1812
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.72265625,
      "learning_rate": 2.38504068966684e-06,
      "loss": 1.379,
      "step": 1813
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.7734375,
      "learning_rate": 2.349976154547162e-06,
      "loss": 1.4856,
      "step": 1814
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.671875,
      "learning_rate": 2.315168224039932e-06,
      "loss": 1.4327,
      "step": 1815
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.71484375,
      "learning_rate": 2.2806169896134042e-06,
      "loss": 1.4146,
      "step": 1816
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.6640625,
      "learning_rate": 2.246322542061241e-06,
      "loss": 1.4414,
      "step": 1817
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.703125,
      "learning_rate": 2.2122849715023873e-06,
      "loss": 1.5514,
      "step": 1818
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.76953125,
      "learning_rate": 2.178504367380696e-06,
      "loss": 1.2877,
      "step": 1819
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.75,
      "learning_rate": 2.1449808184648147e-06,
      "loss": 1.4191,
      "step": 1820
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.80078125,
      "learning_rate": 2.111714412847887e-06,
      "loss": 1.3152,
      "step": 1821
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.765625,
      "learning_rate": 2.0787052379473203e-06,
      "loss": 1.3882,
      "step": 1822
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.69921875,
      "learning_rate": 2.045953380504595e-06,
      "loss": 1.49,
      "step": 1823
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.69921875,
      "learning_rate": 2.013458926584988e-06,
      "loss": 1.4548,
      "step": 1824
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.6875,
      "learning_rate": 1.9812219615774064e-06,
      "loss": 1.4889,
      "step": 1825
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.71484375,
      "learning_rate": 1.9492425701940764e-06,
      "loss": 1.4726,
      "step": 1826
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.68359375,
      "learning_rate": 1.9175208364704324e-06,
      "loss": 1.5086,
      "step": 1827
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.68359375,
      "learning_rate": 1.8860568437648052e-06,
      "loss": 1.4373,
      "step": 1828
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.7265625,
      "learning_rate": 1.8548506747582129e-06,
      "loss": 1.4042,
      "step": 1829
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.7265625,
      "learning_rate": 1.8239024114542146e-06,
      "loss": 1.4281,
      "step": 1830
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.69921875,
      "learning_rate": 1.7932121351785902e-06,
      "loss": 1.3863,
      "step": 1831
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.68359375,
      "learning_rate": 1.762779926579239e-06,
      "loss": 1.42,
      "step": 1832
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.67578125,
      "learning_rate": 1.7326058656258582e-06,
      "loss": 1.4246,
      "step": 1833
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.7109375,
      "learning_rate": 1.7026900316098215e-06,
      "loss": 1.3758,
      "step": 1834
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.7109375,
      "learning_rate": 1.6730325031439231e-06,
      "loss": 1.4603,
      "step": 1835
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.7265625,
      "learning_rate": 1.6436333581621665e-06,
      "loss": 1.4942,
      "step": 1836
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.6875,
      "learning_rate": 1.6144926739195986e-06,
      "loss": 1.4504,
      "step": 1837
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.7421875,
      "learning_rate": 1.5856105269920763e-06,
      "loss": 1.4229,
      "step": 1838
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.6640625,
      "learning_rate": 1.556986993276055e-06,
      "loss": 1.4018,
      "step": 1839
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.74609375,
      "learning_rate": 1.5286221479884343e-06,
      "loss": 1.4333,
      "step": 1840
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.68359375,
      "learning_rate": 1.5005160656663242e-06,
      "loss": 1.3079,
      "step": 1841
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.7890625,
      "learning_rate": 1.4726688201668448e-06,
      "loss": 1.398,
      "step": 1842
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.76953125,
      "learning_rate": 1.4450804846669386e-06,
      "loss": 1.4007,
      "step": 1843
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.71875,
      "learning_rate": 1.4177511316632252e-06,
      "loss": 1.4214,
      "step": 1844
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.66796875,
      "learning_rate": 1.3906808329717357e-06,
      "loss": 1.485,
      "step": 1845
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.72265625,
      "learning_rate": 1.3638696597277679e-06,
      "loss": 1.4331,
      "step": 1846
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.7265625,
      "learning_rate": 1.337317682385686e-06,
      "loss": 1.3989,
      "step": 1847
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.7578125,
      "learning_rate": 1.3110249707187439e-06,
      "loss": 1.4235,
      "step": 1848
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.7890625,
      "learning_rate": 1.2849915938189073e-06,
      "loss": 1.3124,
      "step": 1849
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.67578125,
      "learning_rate": 1.2592176200966311e-06,
      "loss": 1.3257,
      "step": 1850
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.80078125,
      "learning_rate": 1.233703117280749e-06,
      "loss": 1.3911,
      "step": 1851
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.75,
      "learning_rate": 1.20844815241824e-06,
      "loss": 1.4159,
      "step": 1852
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.70703125,
      "learning_rate": 1.1834527918740623e-06,
      "loss": 1.4402,
      "step": 1853
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.71875,
      "learning_rate": 1.1587171013309973e-06,
      "loss": 1.4323,
      "step": 1854
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.75390625,
      "learning_rate": 1.134241145789461e-06,
      "loss": 1.3724,
      "step": 1855
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.6953125,
      "learning_rate": 1.1100249895673377e-06,
      "loss": 1.3091,
      "step": 1856
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.73828125,
      "learning_rate": 1.0860686962998135e-06,
      "loss": 1.4947,
      "step": 1857
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.71875,
      "learning_rate": 1.0623723289392096e-06,
      "loss": 1.4382,
      "step": 1858
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.671875,
      "learning_rate": 1.0389359497548156e-06,
      "loss": 1.217,
      "step": 1859
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.6640625,
      "learning_rate": 1.0157596203327013e-06,
      "loss": 1.4238,
      "step": 1860
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.7109375,
      "learning_rate": 9.928434015756161e-07,
      "loss": 1.4464,
      "step": 1861
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.72265625,
      "learning_rate": 9.701873537027561e-07,
      "loss": 1.441,
      "step": 1862
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.7578125,
      "learning_rate": 9.477915362496758e-07,
      "loss": 1.3854,
      "step": 1863
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.66796875,
      "learning_rate": 9.256560080680543e-07,
      "loss": 1.4811,
      "step": 1864
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.7734375,
      "learning_rate": 9.037808273256287e-07,
      "loss": 1.4658,
      "step": 1865
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.671875,
      "learning_rate": 8.821660515059504e-07,
      "loss": 1.3464,
      "step": 1866
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.71875,
      "learning_rate": 8.608117374083069e-07,
      "loss": 1.3257,
      "step": 1867
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.69140625,
      "learning_rate": 8.397179411475442e-07,
      "loss": 1.4124,
      "step": 1868
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.75390625,
      "learning_rate": 8.188847181539005e-07,
      "loss": 1.3886,
      "step": 1869
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.734375,
      "learning_rate": 7.983121231729174e-07,
      "loss": 1.3325,
      "step": 1870
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.78125,
      "learning_rate": 7.780002102652173e-07,
      "loss": 1.3103,
      "step": 1871
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.70703125,
      "learning_rate": 7.579490328064265e-07,
      "loss": 1.401,
      "step": 1872
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.68359375,
      "learning_rate": 7.381586434869969e-07,
      "loss": 1.5253,
      "step": 1873
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.75390625,
      "learning_rate": 7.186290943120955e-07,
      "loss": 1.4894,
      "step": 1874
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.765625,
      "learning_rate": 6.993604366014483e-07,
      "loss": 1.4649,
      "step": 1875
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.7265625,
      "learning_rate": 6.80352720989208e-07,
      "loss": 1.4606,
      "step": 1876
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.73046875,
      "learning_rate": 6.616059974238309e-07,
      "loss": 1.3543,
      "step": 1877
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.734375,
      "learning_rate": 6.431203151679222e-07,
      "loss": 1.335,
      "step": 1878
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.76953125,
      "learning_rate": 6.248957227981466e-07,
      "loss": 1.3192,
      "step": 1879
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.72265625,
      "learning_rate": 6.069322682050516e-07,
      "loss": 1.4341,
      "step": 1880
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.6875,
      "learning_rate": 5.892299985929994e-07,
      "loss": 1.3383,
      "step": 1881
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.65234375,
      "learning_rate": 5.717889604799797e-07,
      "loss": 1.5075,
      "step": 1882
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.70703125,
      "learning_rate": 5.546091996975422e-07,
      "loss": 1.4764,
      "step": 1883
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.7265625,
      "learning_rate": 5.376907613906301e-07,
      "loss": 1.445,
      "step": 1884
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.703125,
      "learning_rate": 5.210336900175028e-07,
      "loss": 1.4897,
      "step": 1885
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.6640625,
      "learning_rate": 5.0463802934958e-07,
      "loss": 1.4493,
      "step": 1886
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.69140625,
      "learning_rate": 4.885038224713645e-07,
      "loss": 1.4583,
      "step": 1887
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.76171875,
      "learning_rate": 4.726311117803084e-07,
      "loss": 1.443,
      "step": 1888
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.69921875,
      "learning_rate": 4.570199389867136e-07,
      "loss": 1.4525,
      "step": 1889
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.71875,
      "learning_rate": 4.416703451135762e-07,
      "loss": 1.3095,
      "step": 1890
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.6875,
      "learning_rate": 4.2658237049655323e-07,
      "loss": 1.415,
      "step": 1891
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.703125,
      "learning_rate": 4.117560547837962e-07,
      "loss": 1.2421,
      "step": 1892
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.6796875,
      "learning_rate": 3.971914369358953e-07,
      "loss": 1.4474,
      "step": 1893
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.703125,
      "learning_rate": 3.8288855522572444e-07,
      "loss": 1.4216,
      "step": 1894
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.7265625,
      "learning_rate": 3.6884744723838517e-07,
      "loss": 1.4622,
      "step": 1895
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.6875,
      "learning_rate": 3.5506814987107394e-07,
      "loss": 1.4867,
      "step": 1896
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.703125,
      "learning_rate": 3.415506993330153e-07,
      "loss": 1.4045,
      "step": 1897
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.80078125,
      "learning_rate": 3.282951311453508e-07,
      "loss": 1.3108,
      "step": 1898
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.74609375,
      "learning_rate": 3.153014801410503e-07,
      "loss": 1.4405,
      "step": 1899
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.68359375,
      "learning_rate": 3.02569780464812e-07,
      "loss": 1.3502,
      "step": 1900
    },
    {
      "epoch": 3.85,
      "eval_loss": 1.5945689678192139,
      "eval_runtime": 10.6371,
      "eval_samples_per_second": 1.598,
      "eval_steps_per_second": 0.846,
      "step": 1900
    }
  ],
  "logging_steps": 1,
  "max_steps": 1948,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 100,
  "total_flos": 6.061777269163033e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}