{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.025573961057832027,
  "eval_steps": 1,
  "global_step": 352,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 7.265329845975008e-05,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 1
    },
    {
      "epoch": 7.265329845975008e-05,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 267.5371,
      "eval_samples_per_second": 126.214,
      "eval_steps_per_second": 2.631,
      "step": 1
    },
    {
      "epoch": 0.00014530659691950015,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 2
    },
    {
      "epoch": 0.00014530659691950015,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 267.9301,
      "eval_samples_per_second": 126.029,
      "eval_steps_per_second": 2.628,
      "step": 2
    },
    {
      "epoch": 0.00021795989537925023,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 3
    },
    {
      "epoch": 0.00021795989537925023,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 267.74,
      "eval_samples_per_second": 126.119,
      "eval_steps_per_second": 2.629,
      "step": 3
    },
    {
      "epoch": 0.0002906131938390003,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 4
    },
    {
      "epoch": 0.0002906131938390003,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 267.3271,
      "eval_samples_per_second": 126.313,
      "eval_steps_per_second": 2.633,
      "step": 4
    },
    {
      "epoch": 0.0003632664922987504,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 5
    },
    {
      "epoch": 0.0003632664922987504,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 267.207,
      "eval_samples_per_second": 126.37,
      "eval_steps_per_second": 2.635,
      "step": 5
    },
    {
      "epoch": 0.00043591979075850045,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 6
    },
    {
      "epoch": 0.00043591979075850045,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 268.9045,
      "eval_samples_per_second": 125.572,
      "eval_steps_per_second": 2.618,
      "step": 6
    },
    {
      "epoch": 0.0005085730892182505,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 7
    },
    {
      "epoch": 0.0005085730892182505,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 269.4441,
      "eval_samples_per_second": 125.321,
      "eval_steps_per_second": 2.613,
      "step": 7
    },
    {
      "epoch": 0.0005812263876780006,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 8
    },
    {
      "epoch": 0.0005812263876780006,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.7225,
      "eval_samples_per_second": 127.076,
      "eval_steps_per_second": 2.649,
      "step": 8
    },
    {
      "epoch": 0.0006538796861377507,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 9
    },
    {
      "epoch": 0.0006538796861377507,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.6793,
      "eval_samples_per_second": 127.097,
      "eval_steps_per_second": 2.65,
      "step": 9
    },
    {
      "epoch": 0.0007265329845975008,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 10
    },
    {
      "epoch": 0.0007265329845975008,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 266.2481,
      "eval_samples_per_second": 126.825,
      "eval_steps_per_second": 2.644,
      "step": 10
    },
    {
      "epoch": 0.0007991862830572508,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 11
    },
    {
      "epoch": 0.0007991862830572508,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.3262,
      "eval_samples_per_second": 127.266,
      "eval_steps_per_second": 2.653,
      "step": 11
    },
    {
      "epoch": 0.0008718395815170009,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 12
    },
    {
      "epoch": 0.0008718395815170009,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.9213,
      "eval_samples_per_second": 126.981,
      "eval_steps_per_second": 2.647,
      "step": 12
    },
    {
      "epoch": 0.000944492879976751,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 13
    },
    {
      "epoch": 0.000944492879976751,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 266.6935,
      "eval_samples_per_second": 126.614,
      "eval_steps_per_second": 2.64,
      "step": 13
    },
    {
      "epoch": 0.001017146178436501,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 14
    },
    {
      "epoch": 0.001017146178436501,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.5702,
      "eval_samples_per_second": 127.149,
      "eval_steps_per_second": 2.651,
      "step": 14
    },
    {
      "epoch": 0.001089799476896251,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 15
    },
    {
      "epoch": 0.001089799476896251,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 266.1801,
      "eval_samples_per_second": 126.858,
      "eval_steps_per_second": 2.645,
      "step": 15
    },
    {
      "epoch": 0.0011624527753560012,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8438,
      "step": 16
    },
    {
      "epoch": 0.0011624527753560012,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.2069,
      "eval_samples_per_second": 127.323,
      "eval_steps_per_second": 2.655,
      "step": 16
    },
    {
      "epoch": 0.0012351060738157512,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8359,
      "step": 17
    },
    {
      "epoch": 0.0012351060738157512,
      "eval_accuracy": 0.010348185357762373,
      "eval_loss": 10.84375,
      "eval_runtime": 265.4707,
      "eval_samples_per_second": 127.197,
      "eval_steps_per_second": 2.652,
      "step": 17
    },
    {
      "epoch": 0.0013077593722755014,
      "grad_norm": 2.8743269443511963,
      "learning_rate": 9.999992734670155e-06,
      "loss": 10.8438,
      "step": 18
    },
    {
      "epoch": 0.0013077593722755014,
      "eval_accuracy": 0.011272349663430095,
      "eval_loss": 10.828125,
      "eval_runtime": 265.1122,
      "eval_samples_per_second": 127.369,
      "eval_steps_per_second": 2.655,
      "step": 18
    },
    {
      "epoch": 0.0013804126707352513,
      "grad_norm": 2.8402953147888184,
      "learning_rate": 9.999985469340309e-06,
      "loss": 10.8203,
      "step": 19
    },
    {
      "epoch": 0.0013804126707352513,
      "eval_accuracy": 0.011634905538764718,
      "eval_loss": 10.8125,
      "eval_runtime": 265.8546,
      "eval_samples_per_second": 127.013,
      "eval_steps_per_second": 2.648,
      "step": 19
    },
    {
      "epoch": 0.0014530659691950015,
      "grad_norm": 2.8661510944366455,
      "learning_rate": 9.999978204010463e-06,
      "loss": 10.8203,
      "step": 20
    },
    {
      "epoch": 0.0014530659691950015,
      "eval_accuracy": 0.01173857150727105,
      "eval_loss": 10.8046875,
      "eval_runtime": 265.3217,
      "eval_samples_per_second": 127.268,
      "eval_steps_per_second": 2.653,
      "step": 20
    },
    {
      "epoch": 0.0015257192676547515,
      "grad_norm": 2.8541078567504883,
      "learning_rate": 9.999970938680617e-06,
      "loss": 10.8047,
      "step": 21
    },
    {
      "epoch": 0.0015257192676547515,
      "eval_accuracy": 0.011759009422313067,
      "eval_loss": 10.7890625,
      "eval_runtime": 265.864,
      "eval_samples_per_second": 127.009,
      "eval_steps_per_second": 2.648,
      "step": 21
    },
    {
      "epoch": 0.0015983725661145017,
      "grad_norm": 2.8900887966156006,
      "learning_rate": 9.99996367335077e-06,
      "loss": 10.7969,
      "step": 22
    },
    {
      "epoch": 0.0015983725661145017,
      "eval_accuracy": 0.011769199430945915,
      "eval_loss": 10.7734375,
      "eval_runtime": 266.281,
      "eval_samples_per_second": 126.81,
      "eval_steps_per_second": 2.644,
      "step": 22
    },
    {
      "epoch": 0.0016710258645742516,
      "grad_norm": 2.884963035583496,
      "learning_rate": 9.999956408020926e-06,
      "loss": 10.7812,
      "step": 23
    },
    {
      "epoch": 0.0016710258645742516,
      "eval_accuracy": 0.01179959576351549,
      "eval_loss": 10.765625,
      "eval_runtime": 266.3138,
      "eval_samples_per_second": 126.794,
      "eval_steps_per_second": 2.643,
      "step": 23
    },
    {
      "epoch": 0.0017436791630340018,
      "grad_norm": 2.8954319953918457,
      "learning_rate": 9.999949142691078e-06,
      "loss": 10.7656,
      "step": 24
    },
    {
      "epoch": 0.0017436791630340018,
      "eval_accuracy": 0.011878857819301676,
      "eval_loss": 10.75,
      "eval_runtime": 265.8429,
      "eval_samples_per_second": 127.019,
      "eval_steps_per_second": 2.648,
      "step": 24
    },
    {
      "epoch": 0.0018163324614937518,
      "grad_norm": 2.713453769683838,
      "learning_rate": 9.999941877361234e-06,
      "loss": 10.7578,
      "step": 25
    },
    {
      "epoch": 0.0018163324614937518,
      "eval_accuracy": 0.012068501985647663,
      "eval_loss": 10.734375,
      "eval_runtime": 266.534,
      "eval_samples_per_second": 126.689,
      "eval_steps_per_second": 2.641,
      "step": 25
    },
    {
      "epoch": 0.001888985759953502,
      "grad_norm": 2.663592576980591,
      "learning_rate": 9.999934612031386e-06,
      "loss": 10.75,
      "step": 26
    },
    {
      "epoch": 0.001888985759953502,
      "eval_accuracy": 0.012414296454736778,
      "eval_loss": 10.7265625,
      "eval_runtime": 265.503,
      "eval_samples_per_second": 127.181,
      "eval_steps_per_second": 2.652,
      "step": 26
    },
    {
      "epoch": 0.001961639058413252,
      "grad_norm": 2.4643020629882812,
      "learning_rate": 9.999927346701542e-06,
      "loss": 10.7344,
      "step": 27
    },
    {
      "epoch": 0.001961639058413252,
      "eval_accuracy": 0.013084492164563661,
      "eval_loss": 10.71875,
      "eval_runtime": 264.7117,
      "eval_samples_per_second": 127.561,
      "eval_steps_per_second": 2.659,
      "step": 27
    },
    {
      "epoch": 0.002034292356873002,
      "grad_norm": 2.2399826049804688,
      "learning_rate": 9.999920081371694e-06,
      "loss": 10.7266,
      "step": 28
    },
    {
      "epoch": 0.002034292356873002,
      "eval_accuracy": 0.014443063485982847,
      "eval_loss": 10.703125,
      "eval_runtime": 264.8704,
      "eval_samples_per_second": 127.485,
      "eval_steps_per_second": 2.658,
      "step": 28
    },
    {
      "epoch": 0.0021069456553327523,
      "grad_norm": 2.138185977935791,
      "learning_rate": 9.99991281604185e-06,
      "loss": 10.7109,
      "step": 29
    },
    {
      "epoch": 0.0021069456553327523,
      "eval_accuracy": 0.016544752766507735,
      "eval_loss": 10.6953125,
      "eval_runtime": 264.0295,
      "eval_samples_per_second": 127.891,
      "eval_steps_per_second": 2.666,
      "step": 29
    },
    {
      "epoch": 0.002179598953792502,
      "grad_norm": 1.8671512603759766,
      "learning_rate": 9.999905550712004e-06,
      "loss": 10.7031,
      "step": 30
    },
    {
      "epoch": 0.002179598953792502,
      "eval_accuracy": 0.01964894204406536,
      "eval_loss": 10.6875,
      "eval_runtime": 264.1126,
      "eval_samples_per_second": 127.851,
      "eval_steps_per_second": 2.666,
      "step": 30
    },
    {
      "epoch": 0.0022522522522522522,
      "grad_norm": 1.72816002368927,
      "learning_rate": 9.999898285382156e-06,
      "loss": 10.7031,
      "step": 31
    },
    {
      "epoch": 0.0022522522522522522,
      "eval_accuracy": 0.023590159473924593,
      "eval_loss": 10.6796875,
      "eval_runtime": 265.2939,
      "eval_samples_per_second": 127.281,
      "eval_steps_per_second": 2.654,
      "step": 31
    },
    {
      "epoch": 0.0023249055507120024,
      "grad_norm": 1.6541900634765625,
      "learning_rate": 9.999891020052312e-06,
      "loss": 10.6875,
      "step": 32
    },
    {
      "epoch": 0.0023249055507120024,
      "eval_accuracy": 0.028234313806121365,
      "eval_loss": 10.671875,
      "eval_runtime": 264.9943,
      "eval_samples_per_second": 127.425,
      "eval_steps_per_second": 2.657,
      "step": 32
    },
    {
      "epoch": 0.0023975588491717526,
      "grad_norm": 1.4378719329833984,
      "learning_rate": 9.999883754722464e-06,
      "loss": 10.6797,
      "step": 33
    },
    {
      "epoch": 0.0023975588491717526,
      "eval_accuracy": 0.03299875076862917,
      "eval_loss": 10.6640625,
      "eval_runtime": 264.4617,
      "eval_samples_per_second": 127.682,
      "eval_steps_per_second": 2.662,
      "step": 33
    },
    {
      "epoch": 0.0024702121476315024,
      "grad_norm": 1.3948858976364136,
      "learning_rate": 9.99987648939262e-06,
      "loss": 10.6719,
      "step": 34
    },
    {
      "epoch": 0.0024702121476315024,
      "eval_accuracy": 0.03746090344095459,
      "eval_loss": 10.6640625,
      "eval_runtime": 263.8541,
      "eval_samples_per_second": 127.976,
      "eval_steps_per_second": 2.668,
      "step": 34
    },
    {
      "epoch": 0.0025428654460912525,
      "grad_norm": 1.2194068431854248,
      "learning_rate": 9.999869224062774e-06,
      "loss": 10.6719,
      "step": 35
    },
    {
      "epoch": 0.0025428654460912525,
      "eval_accuracy": 0.04094886812886922,
      "eval_loss": 10.65625,
      "eval_runtime": 263.4632,
      "eval_samples_per_second": 128.166,
      "eval_steps_per_second": 2.672,
      "step": 35
    },
    {
      "epoch": 0.0026155187445510027,
      "grad_norm": 1.2569856643676758,
      "learning_rate": 9.999861958732927e-06,
      "loss": 10.6719,
      "step": 36
    },
    {
      "epoch": 0.0026155187445510027,
      "eval_accuracy": 0.04373679080326246,
      "eval_loss": 10.6484375,
      "eval_runtime": 265.8278,
      "eval_samples_per_second": 127.026,
      "eval_steps_per_second": 2.648,
      "step": 36
    },
    {
      "epoch": 0.002688172043010753,
      "grad_norm": 1.16013503074646,
      "learning_rate": 9.999854693403081e-06,
      "loss": 10.6484,
      "step": 37
    },
    {
      "epoch": 0.002688172043010753,
      "eval_accuracy": 0.046063847178124624,
      "eval_loss": 10.6484375,
      "eval_runtime": 266.8235,
      "eval_samples_per_second": 126.552,
      "eval_steps_per_second": 2.638,
      "step": 37
    },
    {
      "epoch": 0.0027608253414705027,
      "grad_norm": 1.1432477235794067,
      "learning_rate": 9.999847428073235e-06,
      "loss": 10.6562,
      "step": 38
    },
    {
      "epoch": 0.0027608253414705027,
      "eval_accuracy": 0.04811105465112957,
      "eval_loss": 10.640625,
      "eval_runtime": 266.3014,
      "eval_samples_per_second": 126.8,
      "eval_steps_per_second": 2.644,
      "step": 38
    },
    {
      "epoch": 0.002833478639930253,
      "grad_norm": 1.071315050125122,
      "learning_rate": 9.99984016274339e-06,
      "loss": 10.6484,
      "step": 39
    },
    {
      "epoch": 0.002833478639930253,
      "eval_accuracy": 0.04980491199523524,
      "eval_loss": 10.640625,
      "eval_runtime": 266.126,
      "eval_samples_per_second": 126.883,
      "eval_steps_per_second": 2.645,
      "step": 39
    },
    {
      "epoch": 0.002906131938390003,
      "grad_norm": 1.0130771398544312,
      "learning_rate": 9.999832897413543e-06,
      "loss": 10.6484,
      "step": 40
    },
    {
      "epoch": 0.002906131938390003,
      "eval_accuracy": 0.05107903940988734,
      "eval_loss": 10.6328125,
      "eval_runtime": 265.8854,
      "eval_samples_per_second": 126.998,
      "eval_steps_per_second": 2.648,
      "step": 40
    },
    {
      "epoch": 0.0029787852368497528,
      "grad_norm": 1.014347791671753,
      "learning_rate": 9.999825632083697e-06,
      "loss": 10.6406,
      "step": 41
    },
    {
      "epoch": 0.0029787852368497528,
      "eval_accuracy": 0.052067614991714396,
      "eval_loss": 10.6328125,
      "eval_runtime": 266.8406,
      "eval_samples_per_second": 126.544,
      "eval_steps_per_second": 2.638,
      "step": 41
    },
    {
      "epoch": 0.003051438535309503,
      "grad_norm": 1.0095568895339966,
      "learning_rate": 9.999818366753851e-06,
      "loss": 10.6406,
      "step": 42
    },
    {
      "epoch": 0.003051438535309503,
      "eval_accuracy": 0.05287193090039351,
      "eval_loss": 10.625,
      "eval_runtime": 266.7685,
      "eval_samples_per_second": 126.578,
      "eval_steps_per_second": 2.639,
      "step": 42
    },
    {
      "epoch": 0.003124091833769253,
      "grad_norm": 0.9412463307380676,
      "learning_rate": 9.999811101424005e-06,
      "loss": 10.6406,
      "step": 43
    },
    {
      "epoch": 0.003124091833769253,
      "eval_accuracy": 0.053470536009796996,
      "eval_loss": 10.625,
      "eval_runtime": 267.0069,
      "eval_samples_per_second": 126.465,
      "eval_steps_per_second": 2.637,
      "step": 43
    },
    {
      "epoch": 0.0031967451322290033,
      "grad_norm": 0.952081561088562,
      "learning_rate": 9.999803836094159e-06,
      "loss": 10.625,
      "step": 44
    },
    {
      "epoch": 0.0031967451322290033,
      "eval_accuracy": 0.05392726261832098,
      "eval_loss": 10.6171875,
      "eval_runtime": 269.2581,
      "eval_samples_per_second": 125.408,
      "eval_steps_per_second": 2.615,
      "step": 44
    },
    {
      "epoch": 0.003269398430688753,
      "grad_norm": 0.9194355607032776,
      "learning_rate": 9.999796570764313e-06,
      "loss": 10.625,
      "step": 45
    },
    {
      "epoch": 0.003269398430688753,
      "eval_accuracy": 0.05422120962871285,
      "eval_loss": 10.6171875,
      "eval_runtime": 269.3844,
      "eval_samples_per_second": 125.349,
      "eval_steps_per_second": 2.613,
      "step": 45
    },
    {
      "epoch": 0.0033420517291485033,
      "grad_norm": 0.9257526993751526,
      "learning_rate": 9.999789305434467e-06,
      "loss": 10.625,
      "step": 46
    },
    {
      "epoch": 0.0033420517291485033,
      "eval_accuracy": 0.054314019764158616,
      "eval_loss": 10.6171875,
      "eval_runtime": 269.7126,
      "eval_samples_per_second": 125.196,
      "eval_steps_per_second": 2.61,
      "step": 46
    },
    {
      "epoch": 0.0034147050276082534,
      "grad_norm": 0.9701704382896423,
      "learning_rate": 9.999782040104623e-06,
      "loss": 10.6172,
      "step": 47
    },
    {
      "epoch": 0.0034147050276082534,
      "eval_accuracy": 0.05444489768753676,
      "eval_loss": 10.609375,
      "eval_runtime": 269.4275,
      "eval_samples_per_second": 125.329,
      "eval_steps_per_second": 2.613,
      "step": 47
    },
    {
      "epoch": 0.0034873583260680036,
      "grad_norm": 0.8972945809364319,
      "learning_rate": 9.999774774774775e-06,
      "loss": 10.625,
      "step": 48
    },
    {
      "epoch": 0.0034873583260680036,
      "eval_accuracy": 0.05449599247514181,
      "eval_loss": 10.609375,
      "eval_runtime": 268.4057,
      "eval_samples_per_second": 125.806,
      "eval_steps_per_second": 2.623,
      "step": 48
    },
    {
      "epoch": 0.0035600116245277534,
      "grad_norm": 0.9347382187843323,
      "learning_rate": 9.99976750944493e-06,
      "loss": 10.6172,
      "step": 49
    },
    {
      "epoch": 0.0035600116245277534,
      "eval_accuracy": 0.05453342338753463,
      "eval_loss": 10.6015625,
      "eval_runtime": 269.5777,
      "eval_samples_per_second": 125.259,
      "eval_steps_per_second": 2.611,
      "step": 49
    },
    {
      "epoch": 0.0036326649229875036,
      "grad_norm": 0.9273884892463684,
      "learning_rate": 9.999760244115083e-06,
      "loss": 10.6016,
      "step": 50
    },
    {
      "epoch": 0.0036326649229875036,
      "eval_accuracy": 0.05452213332115164,
      "eval_loss": 10.6015625,
      "eval_runtime": 268.6914,
      "eval_samples_per_second": 125.672,
      "eval_steps_per_second": 2.62,
      "step": 50
    },
    {
      "epoch": 0.0037053182214472537,
      "grad_norm": 0.9508588910102844,
      "learning_rate": 9.999752978785238e-06,
      "loss": 10.6016,
      "step": 51
    },
    {
      "epoch": 0.0037053182214472537,
      "eval_accuracy": 0.054549547918240585,
      "eval_loss": 10.6015625,
      "eval_runtime": 269.6867,
      "eval_samples_per_second": 125.208,
      "eval_steps_per_second": 2.61,
      "step": 51
    },
    {
      "epoch": 0.003777971519907004,
      "grad_norm": 0.97487872838974,
      "learning_rate": 9.999745713455392e-06,
      "loss": 10.6016,
      "step": 52
    },
    {
      "epoch": 0.003777971519907004,
      "eval_accuracy": 0.05455154539152372,
      "eval_loss": 10.59375,
      "eval_runtime": 269.8783,
      "eval_samples_per_second": 125.119,
      "eval_steps_per_second": 2.609,
      "step": 52
    },
    {
      "epoch": 0.0038506248183667537,
      "grad_norm": 1.050345540046692,
      "learning_rate": 9.999738448125546e-06,
      "loss": 10.6016,
      "step": 53
    },
    {
      "epoch": 0.0038506248183667537,
      "eval_accuracy": 0.054549403173799776,
      "eval_loss": 10.59375,
      "eval_runtime": 269.476,
      "eval_samples_per_second": 125.306,
      "eval_steps_per_second": 2.612,
      "step": 53
    },
    {
      "epoch": 0.003923278116826504,
      "grad_norm": 0.9317484498023987,
      "learning_rate": 9.9997311827957e-06,
      "loss": 10.5938,
      "step": 54
    },
    {
      "epoch": 0.003923278116826504,
      "eval_accuracy": 0.05454671092720075,
      "eval_loss": 10.59375,
      "eval_runtime": 268.2865,
      "eval_samples_per_second": 125.862,
      "eval_steps_per_second": 2.624,
      "step": 54
    },
    {
      "epoch": 0.003995931415286254,
      "grad_norm": 0.9053019285202026,
      "learning_rate": 9.999723917465854e-06,
      "loss": 10.6016,
      "step": 55
    },
    {
      "epoch": 0.003995931415286254,
      "eval_accuracy": 0.054510206379229105,
      "eval_loss": 10.5859375,
      "eval_runtime": 268.6755,
      "eval_samples_per_second": 125.68,
      "eval_steps_per_second": 2.62,
      "step": 55
    },
    {
      "epoch": 0.004068584713746004,
      "grad_norm": 1.051640272140503,
      "learning_rate": 9.999716652136008e-06,
      "loss": 10.5859,
      "step": 56
    },
    {
      "epoch": 0.004068584713746004,
      "eval_accuracy": 0.05450499557936003,
      "eval_loss": 10.5859375,
      "eval_runtime": 268.9754,
      "eval_samples_per_second": 125.539,
      "eval_steps_per_second": 2.617,
      "step": 56
    },
    {
      "epoch": 0.004141238012205754,
      "grad_norm": 0.8980646729469299,
      "learning_rate": 9.999709386806162e-06,
      "loss": 10.6016,
      "step": 57
    },
    {
      "epoch": 0.004141238012205754,
      "eval_accuracy": 0.05452688093881013,
      "eval_loss": 10.5859375,
      "eval_runtime": 269.557,
      "eval_samples_per_second": 125.269,
      "eval_steps_per_second": 2.612,
      "step": 57
    },
    {
      "epoch": 0.004213891310665505,
      "grad_norm": 0.9363867044448853,
      "learning_rate": 9.999702121476316e-06,
      "loss": 10.5859,
      "step": 58
    },
    {
      "epoch": 0.004213891310665505,
      "eval_accuracy": 0.054599542648095495,
      "eval_loss": 10.5859375,
      "eval_runtime": 268.413,
      "eval_samples_per_second": 125.802,
      "eval_steps_per_second": 2.623,
      "step": 58
    },
    {
      "epoch": 0.004286544609125254,
      "grad_norm": 0.9355424642562866,
      "learning_rate": 9.99969485614647e-06,
      "loss": 10.5859,
      "step": 59
    },
    {
      "epoch": 0.004286544609125254,
      "eval_accuracy": 0.05472584664714412,
      "eval_loss": 10.578125,
      "eval_runtime": 267.1942,
      "eval_samples_per_second": 126.376,
      "eval_steps_per_second": 2.635,
      "step": 59
    },
    {
      "epoch": 0.004359197907585004,
      "grad_norm": 0.9955667853355408,
      "learning_rate": 9.999687590816624e-06,
      "loss": 10.5781,
      "step": 60
    },
    {
      "epoch": 0.004359197907585004,
      "eval_accuracy": 0.05484039739759917,
      "eval_loss": 10.578125,
      "eval_runtime": 268.4725,
      "eval_samples_per_second": 125.774,
      "eval_steps_per_second": 2.622,
      "step": 60
    },
    {
      "epoch": 0.004431851206044755,
      "grad_norm": 0.9198755025863647,
      "learning_rate": 9.999680325486778e-06,
      "loss": 10.5781,
      "step": 61
    },
    {
      "epoch": 0.004431851206044755,
      "eval_accuracy": 0.054993913351519604,
      "eval_loss": 10.578125,
      "eval_runtime": 268.5476,
      "eval_samples_per_second": 125.739,
      "eval_steps_per_second": 2.622,
      "step": 61
    },
    {
      "epoch": 0.0045045045045045045,
      "grad_norm": 0.9875515699386597,
      "learning_rate": 9.999673060156932e-06,
      "loss": 10.5781,
      "step": 62
    },
    {
      "epoch": 0.0045045045045045045,
      "eval_accuracy": 0.055311424756874936,
      "eval_loss": 10.5703125,
      "eval_runtime": 267.2035,
      "eval_samples_per_second": 126.372,
      "eval_steps_per_second": 2.635,
      "step": 62
    },
    {
      "epoch": 0.004577157802964254,
      "grad_norm": 0.9037775993347168,
      "learning_rate": 9.999665794827086e-06,
      "loss": 10.5781,
      "step": 63
    },
    {
      "epoch": 0.004577157802964254,
      "eval_accuracy": 0.05571670919113593,
      "eval_loss": 10.5703125,
      "eval_runtime": 267.7809,
      "eval_samples_per_second": 126.099,
      "eval_steps_per_second": 2.629,
      "step": 63
    },
    {
      "epoch": 0.004649811101424005,
      "grad_norm": 0.9087035655975342,
      "learning_rate": 9.99965852949724e-06,
      "loss": 10.5703,
      "step": 64
    },
    {
      "epoch": 0.004649811101424005,
      "eval_accuracy": 0.056142518387103435,
      "eval_loss": 10.5703125,
      "eval_runtime": 267.3757,
      "eval_samples_per_second": 126.29,
      "eval_steps_per_second": 2.633,
      "step": 64
    },
    {
      "epoch": 0.004722464399883755,
      "grad_norm": 0.8892097473144531,
      "learning_rate": 9.999651264167394e-06,
      "loss": 10.5781,
      "step": 65
    },
    {
      "epoch": 0.004722464399883755,
      "eval_accuracy": 0.05656430368761649,
      "eval_loss": 10.5625,
      "eval_runtime": 266.879,
      "eval_samples_per_second": 126.525,
      "eval_steps_per_second": 2.638,
      "step": 65
    },
    {
      "epoch": 0.004795117698343505,
      "grad_norm": 0.9172134399414062,
      "learning_rate": 9.999643998837548e-06,
      "loss": 10.5625,
      "step": 66
    },
    {
      "epoch": 0.004795117698343505,
      "eval_accuracy": 0.0569930367212883,
      "eval_loss": 10.5625,
      "eval_runtime": 266.0917,
      "eval_samples_per_second": 126.9,
      "eval_steps_per_second": 2.646,
      "step": 66
    },
    {
      "epoch": 0.004867770996803255,
      "grad_norm": 0.9037718176841736,
      "learning_rate": 9.999636733507701e-06,
      "loss": 10.5781,
      "step": 67
    },
    {
      "epoch": 0.004867770996803255,
      "eval_accuracy": 0.05732160660192132,
      "eval_loss": 10.5625,
      "eval_runtime": 267.3756,
      "eval_samples_per_second": 126.291,
      "eval_steps_per_second": 2.633,
      "step": 67
    },
    {
      "epoch": 0.004940424295263005,
      "grad_norm": 0.8923665881156921,
      "learning_rate": 9.999629468177855e-06,
      "loss": 10.5703,
      "step": 68
    },
    {
      "epoch": 0.004940424295263005,
      "eval_accuracy": 0.05754022860531697,
      "eval_loss": 10.5546875,
      "eval_runtime": 267.5062,
      "eval_samples_per_second": 126.229,
      "eval_steps_per_second": 2.632,
      "step": 68
    },
    {
      "epoch": 0.005013077593722755,
      "grad_norm": 0.9167753458023071,
      "learning_rate": 9.999622202848011e-06,
      "loss": 10.5625,
      "step": 69
    },
    {
      "epoch": 0.005013077593722755,
      "eval_accuracy": 0.0576851756883416,
      "eval_loss": 10.5546875,
      "eval_runtime": 269.0923,
      "eval_samples_per_second": 125.485,
      "eval_steps_per_second": 2.616,
      "step": 69
    },
    {
      "epoch": 0.005085730892182505,
      "grad_norm": 0.9031029343605042,
      "learning_rate": 9.999614937518163e-06,
      "loss": 10.5625,
      "step": 70
    },
    {
      "epoch": 0.005085730892182505,
      "eval_accuracy": 0.05778192287257733,
      "eval_loss": 10.5546875,
      "eval_runtime": 269.1242,
      "eval_samples_per_second": 125.47,
      "eval_steps_per_second": 2.616,
      "step": 70
    },
    {
      "epoch": 0.005158384190642255,
      "grad_norm": 0.8912838101387024,
      "learning_rate": 9.999607672188319e-06,
      "loss": 10.5625,
      "step": 71
    },
    {
      "epoch": 0.005158384190642255,
      "eval_accuracy": 0.05789719734523642,
      "eval_loss": 10.5546875,
      "eval_runtime": 269.7373,
      "eval_samples_per_second": 125.185,
      "eval_steps_per_second": 2.61,
      "step": 71
    },
    {
      "epoch": 0.0052310374891020054,
      "grad_norm": 0.8998405933380127,
      "learning_rate": 9.999600406858471e-06,
      "loss": 10.5547,
      "step": 72
    },
    {
      "epoch": 0.0052310374891020054,
      "eval_accuracy": 0.057985607249681645,
      "eval_loss": 10.546875,
      "eval_runtime": 269.5868,
      "eval_samples_per_second": 125.255,
      "eval_steps_per_second": 2.611,
      "step": 72
    },
    {
      "epoch": 0.005303690787561755,
      "grad_norm": 0.9078417420387268,
      "learning_rate": 9.999593141528627e-06,
      "loss": 10.5469,
      "step": 73
    },
    {
      "epoch": 0.005303690787561755,
      "eval_accuracy": 0.05800511880030249,
      "eval_loss": 10.546875,
      "eval_runtime": 271.0227,
      "eval_samples_per_second": 124.591,
      "eval_steps_per_second": 2.598,
      "step": 73
    },
    {
      "epoch": 0.005376344086021506,
      "grad_norm": 0.8995553851127625,
      "learning_rate": 9.99958587619878e-06,
      "loss": 10.5469,
      "step": 74
    },
    {
      "epoch": 0.005376344086021506,
      "eval_accuracy": 0.05802399347538379,
      "eval_loss": 10.546875,
      "eval_runtime": 270.6941,
      "eval_samples_per_second": 124.742,
      "eval_steps_per_second": 2.601,
      "step": 74
    },
    {
      "epoch": 0.0054489973844812556,
      "grad_norm": 0.8786413073539734,
      "learning_rate": 9.999578610868935e-06,
      "loss": 10.5547,
      "step": 75
    },
    {
      "epoch": 0.0054489973844812556,
      "eval_accuracy": 0.05797920954539795,
      "eval_loss": 10.5390625,
      "eval_runtime": 268.937,
      "eval_samples_per_second": 125.557,
      "eval_steps_per_second": 2.618,
      "step": 75
    },
    {
      "epoch": 0.005521650682941005,
      "grad_norm": 0.9166957139968872,
      "learning_rate": 9.999571345539089e-06,
      "loss": 10.5547,
      "step": 76
    },
    {
      "epoch": 0.005521650682941005,
      "eval_accuracy": 0.05800387399811155,
      "eval_loss": 10.5390625,
      "eval_runtime": 270.6425,
      "eval_samples_per_second": 124.766,
      "eval_steps_per_second": 2.601,
      "step": 76
    },
    {
      "epoch": 0.005594303981400756,
      "grad_norm": 0.9106067419052124,
      "learning_rate": 9.999564080209243e-06,
      "loss": 10.5469,
      "step": 77
    },
    {
      "epoch": 0.005594303981400756,
      "eval_accuracy": 0.058152873925478785,
      "eval_loss": 10.5390625,
      "eval_runtime": 268.7053,
      "eval_samples_per_second": 125.666,
      "eval_steps_per_second": 2.62,
      "step": 77
    },
    {
      "epoch": 0.005666957279860506,
      "grad_norm": 0.9021939039230347,
      "learning_rate": 9.999556814879397e-06,
      "loss": 10.5469,
      "step": 78
    },
    {
      "epoch": 0.005666957279860506,
      "eval_accuracy": 0.05821331920396,
      "eval_loss": 10.5390625,
      "eval_runtime": 268.8573,
      "eval_samples_per_second": 125.594,
      "eval_steps_per_second": 2.618,
      "step": 78
    },
    {
      "epoch": 0.005739610578320255,
      "grad_norm": 0.935400664806366,
      "learning_rate": 9.99954954954955e-06,
      "loss": 10.5312,
      "step": 79
    },
    {
      "epoch": 0.005739610578320255,
      "eval_accuracy": 0.05838906790398846,
      "eval_loss": 10.53125,
      "eval_runtime": 270.5471,
      "eval_samples_per_second": 124.81,
      "eval_steps_per_second": 2.602,
      "step": 79
    },
    {
      "epoch": 0.005812263876780006,
      "grad_norm": 0.9361926317214966,
      "learning_rate": 9.999542284219704e-06,
      "loss": 10.5312,
      "step": 80
    },
    {
      "epoch": 0.005812263876780006,
      "eval_accuracy": 0.05863825993328266,
      "eval_loss": 10.53125,
      "eval_runtime": 270.2854,
      "eval_samples_per_second": 124.931,
      "eval_steps_per_second": 2.605,
      "step": 80
    },
    {
      "epoch": 0.005884917175239756,
      "grad_norm": 0.9991462826728821,
      "learning_rate": 9.999535018889858e-06,
      "loss": 10.5312,
      "step": 81
    },
    {
      "epoch": 0.005884917175239756,
      "eval_accuracy": 0.058984343891253385,
      "eval_loss": 10.53125,
      "eval_runtime": 269.5128,
      "eval_samples_per_second": 125.289,
      "eval_steps_per_second": 2.612,
      "step": 81
    },
    {
      "epoch": 0.0059575704736995055,
      "grad_norm": 0.8942323327064514,
      "learning_rate": 9.999527753560012e-06,
      "loss": 10.5312,
      "step": 82
    },
    {
      "epoch": 0.0059575704736995055,
      "eval_accuracy": 0.05927577234837521,
      "eval_loss": 10.53125,
      "eval_runtime": 267.9968,
      "eval_samples_per_second": 125.998,
      "eval_steps_per_second": 2.627,
      "step": 82
    },
    {
      "epoch": 0.006030223772159256,
      "grad_norm": 0.9410443902015686,
      "learning_rate": 9.999520488230166e-06,
      "loss": 10.5312,
      "step": 83
    },
    {
      "epoch": 0.006030223772159256,
      "eval_accuracy": 0.05966313742086423,
      "eval_loss": 10.5234375,
      "eval_runtime": 269.3505,
      "eval_samples_per_second": 125.365,
      "eval_steps_per_second": 2.614,
      "step": 83
    },
    {
      "epoch": 0.006102877070619006,
      "grad_norm": 0.9418770670890808,
      "learning_rate": 9.99951322290032e-06,
      "loss": 10.5234,
      "step": 84
    },
    {
      "epoch": 0.006102877070619006,
      "eval_accuracy": 0.06000398163007773,
      "eval_loss": 10.5234375,
      "eval_runtime": 268.3417,
      "eval_samples_per_second": 125.836,
      "eval_steps_per_second": 2.624,
      "step": 84
    },
    {
      "epoch": 0.0061755303690787565,
      "grad_norm": 0.8822703957557678,
      "learning_rate": 9.999505957570474e-06,
      "loss": 10.5312,
      "step": 85
    },
    {
      "epoch": 0.0061755303690787565,
      "eval_accuracy": 0.060200255091812704,
      "eval_loss": 10.5234375,
      "eval_runtime": 269.365,
      "eval_samples_per_second": 125.358,
      "eval_steps_per_second": 2.614,
      "step": 85
    },
    {
      "epoch": 0.006248183667538506,
      "grad_norm": 0.8689332604408264,
      "learning_rate": 9.999498692240628e-06,
      "loss": 10.5312,
      "step": 86
    },
    {
      "epoch": 0.006248183667538506,
      "eval_accuracy": 0.06028594380077074,
      "eval_loss": 10.5234375,
      "eval_runtime": 267.6304,
      "eval_samples_per_second": 126.17,
      "eval_steps_per_second": 2.63,
      "step": 86
    },
    {
      "epoch": 0.006320836965998256,
      "grad_norm": 0.8931795954704285,
      "learning_rate": 9.999491426910782e-06,
      "loss": 10.5234,
      "step": 87
    },
    {
      "epoch": 0.006320836965998256,
      "eval_accuracy": 0.060404489497792084,
      "eval_loss": 10.515625,
      "eval_runtime": 267.5381,
      "eval_samples_per_second": 126.214,
      "eval_steps_per_second": 2.631,
      "step": 87
    },
    {
      "epoch": 0.006393490264458007,
      "grad_norm": 0.8975218534469604,
      "learning_rate": 9.999484161580936e-06,
      "loss": 10.5156,
      "step": 88
    },
    {
      "epoch": 0.006393490264458007,
      "eval_accuracy": 0.06048001714700543,
      "eval_loss": 10.515625,
      "eval_runtime": 266.4763,
      "eval_samples_per_second": 126.717,
      "eval_steps_per_second": 2.642,
      "step": 88
    },
    {
      "epoch": 0.006466143562917756,
      "grad_norm": 0.8878839015960693,
      "learning_rate": 9.99947689625109e-06,
      "loss": 10.5234,
      "step": 89
    },
    {
      "epoch": 0.006466143562917756,
      "eval_accuracy": 0.060569556058088954,
      "eval_loss": 10.515625,
      "eval_runtime": 265.4792,
      "eval_samples_per_second": 127.193,
      "eval_steps_per_second": 2.652,
      "step": 89
    },
    {
      "epoch": 0.006538796861377506,
      "grad_norm": 0.8937884569168091,
      "learning_rate": 9.999469630921244e-06,
      "loss": 10.5156,
      "step": 90
    },
    {
      "epoch": 0.006538796861377506,
      "eval_accuracy": 0.06063920708300553,
      "eval_loss": 10.515625,
      "eval_runtime": 264.9514,
      "eval_samples_per_second": 127.446,
      "eval_steps_per_second": 2.657,
      "step": 90
    },
    {
      "epoch": 0.006611450159837257,
      "grad_norm": 0.9820625185966492,
      "learning_rate": 9.9994623655914e-06,
      "loss": 10.5156,
      "step": 91
    },
    {
      "epoch": 0.006611450159837257,
      "eval_accuracy": 0.06055398155625807,
      "eval_loss": 10.5078125,
      "eval_runtime": 265.7628,
      "eval_samples_per_second": 127.057,
      "eval_steps_per_second": 2.649,
      "step": 91
    },
    {
      "epoch": 0.0066841034582970065,
      "grad_norm": 0.8808642029762268,
      "learning_rate": 9.999455100261552e-06,
      "loss": 10.5156,
      "step": 92
    },
    {
      "epoch": 0.0066841034582970065,
      "eval_accuracy": 0.060472056202761026,
      "eval_loss": 10.5078125,
      "eval_runtime": 266.9758,
      "eval_samples_per_second": 126.48,
      "eval_steps_per_second": 2.637,
      "step": 92
    },
    {
      "epoch": 0.006756756756756757,
      "grad_norm": 0.8804787993431091,
      "learning_rate": 9.999447834931707e-06,
      "loss": 10.5156,
      "step": 93
    },
    {
      "epoch": 0.006756756756756757,
      "eval_accuracy": 0.06028976505400806,
      "eval_loss": 10.5078125,
      "eval_runtime": 267.6988,
      "eval_samples_per_second": 126.138,
      "eval_steps_per_second": 2.63,
      "step": 93
    },
    {
      "epoch": 0.006829410055216507,
      "grad_norm": 0.8913342356681824,
      "learning_rate": 9.99944056960186e-06,
      "loss": 10.5156,
      "step": 94
    },
    {
      "epoch": 0.006829410055216507,
      "eval_accuracy": 0.06017234836362501,
      "eval_loss": 10.5078125,
      "eval_runtime": 268.8716,
      "eval_samples_per_second": 125.588,
      "eval_steps_per_second": 2.618,
      "step": 94
    },
    {
      "epoch": 0.006902063353676257,
      "grad_norm": 0.8503950834274292,
      "learning_rate": 9.999433304272015e-06,
      "loss": 10.5234,
      "step": 95
    },
    {
      "epoch": 0.006902063353676257,
      "eval_accuracy": 0.0601403308933184,
      "eval_loss": 10.5,
      "eval_runtime": 267.2705,
      "eval_samples_per_second": 126.34,
      "eval_steps_per_second": 2.634,
      "step": 95
    },
    {
      "epoch": 0.006974716652136007,
      "grad_norm": 0.912339985370636,
      "learning_rate": 9.99942603894217e-06,
      "loss": 10.5156,
      "step": 96
    },
    {
      "epoch": 0.006974716652136007,
      "eval_accuracy": 0.06016896134371012,
      "eval_loss": 10.5,
      "eval_runtime": 268.9999,
      "eval_samples_per_second": 125.528,
      "eval_steps_per_second": 2.617,
      "step": 96
    },
    {
      "epoch": 0.007047369950595757,
      "grad_norm": 0.8949794769287109,
      "learning_rate": 9.999418773612323e-06,
      "loss": 10.5078,
      "step": 97
    },
    {
      "epoch": 0.007047369950595757,
      "eval_accuracy": 0.06026235045691912,
      "eval_loss": 10.5,
      "eval_runtime": 267.9858,
      "eval_samples_per_second": 126.003,
      "eval_steps_per_second": 2.627,
      "step": 97
    },
    {
      "epoch": 0.007120023249055507,
      "grad_norm": 0.8988801836967468,
      "learning_rate": 9.999411508282477e-06,
      "loss": 10.5,
      "step": 98
    },
    {
      "epoch": 0.007120023249055507,
      "eval_accuracy": 0.06031005822460927,
      "eval_loss": 10.5,
      "eval_runtime": 268.4028,
      "eval_samples_per_second": 125.807,
      "eval_steps_per_second": 2.623,
      "step": 98
    },
    {
      "epoch": 0.007192676547515257,
      "grad_norm": 0.8954498767852783,
      "learning_rate": 9.999404242952631e-06,
      "loss": 10.5078,
      "step": 99
    },
    {
      "epoch": 0.007192676547515257,
      "eval_accuracy": 0.06044918658111344,
      "eval_loss": 10.5,
      "eval_runtime": 266.438,
      "eval_samples_per_second": 126.735,
      "eval_steps_per_second": 2.642,
      "step": 99
    },
    {
      "epoch": 0.007265329845975007,
      "grad_norm": 0.8816587328910828,
      "learning_rate": 9.999396977622785e-06,
      "loss": 10.5078,
      "step": 100
    },
    {
      "epoch": 0.007265329845975007,
      "eval_accuracy": 0.060579746066721805,
      "eval_loss": 10.4921875,
      "eval_runtime": 268.404,
      "eval_samples_per_second": 125.807,
      "eval_steps_per_second": 2.623,
      "step": 100
    },
    {
      "epoch": 0.007337983144434758,
      "grad_norm": 0.9182707071304321,
      "learning_rate": 9.999389712292939e-06,
      "loss": 10.5,
      "step": 101
    },
    {
      "epoch": 0.007337983144434758,
      "eval_accuracy": 0.0607209587431736,
      "eval_loss": 10.4921875,
      "eval_runtime": 269.5331,
      "eval_samples_per_second": 125.28,
      "eval_steps_per_second": 2.612,
      "step": 101
    },
    {
      "epoch": 0.0074106364428945075,
      "grad_norm": 0.9346348643302917,
      "learning_rate": 9.999382446963093e-06,
      "loss": 10.4922,
      "step": 102
    },
    {
      "epoch": 0.0074106364428945075,
      "eval_accuracy": 0.06087233247937008,
      "eval_loss": 10.4921875,
      "eval_runtime": 268.6739,
      "eval_samples_per_second": 125.68,
      "eval_steps_per_second": 2.62,
      "step": 102
    },
    {
      "epoch": 0.007483289741354257,
      "grad_norm": 1.0120168924331665,
      "learning_rate": 9.999375181633247e-06,
      "loss": 10.4922,
      "step": 103
    },
    {
      "epoch": 0.007483289741354257,
      "eval_accuracy": 0.06115695794777395,
      "eval_loss": 10.4921875,
      "eval_runtime": 269.4069,
      "eval_samples_per_second": 125.338,
      "eval_steps_per_second": 2.613,
      "step": 103
    },
    {
      "epoch": 0.007555943039814008,
      "grad_norm": 0.9036211967468262,
      "learning_rate": 9.999367916303401e-06,
      "loss": 10.4844,
      "step": 104
    },
    {
      "epoch": 0.007555943039814008,
      "eval_accuracy": 0.06140849483700922,
      "eval_loss": 10.484375,
      "eval_runtime": 267.3403,
      "eval_samples_per_second": 126.307,
      "eval_steps_per_second": 2.633,
      "step": 104
    },
    {
      "epoch": 0.007628596338273758,
      "grad_norm": 0.895473837852478,
      "learning_rate": 9.999360650973555e-06,
      "loss": 10.4922,
      "step": 105
    },
    {
      "epoch": 0.007628596338273758,
      "eval_accuracy": 0.0616540103575069,
      "eval_loss": 10.484375,
      "eval_runtime": 268.6172,
      "eval_samples_per_second": 125.707,
      "eval_steps_per_second": 2.621,
      "step": 105
    },
    {
      "epoch": 0.007701249636733507,
      "grad_norm": 0.908990204334259,
      "learning_rate": 9.999353385643709e-06,
      "loss": 10.4922,
      "step": 106
    },
    {
      "epoch": 0.007701249636733507,
      "eval_accuracy": 0.06192879320393586,
      "eval_loss": 10.484375,
      "eval_runtime": 269.3754,
      "eval_samples_per_second": 125.353,
      "eval_steps_per_second": 2.613,
      "step": 106
    },
    {
      "epoch": 0.007773902935193258,
      "grad_norm": 0.929440975189209,
      "learning_rate": 9.999346120313863e-06,
      "loss": 10.4844,
      "step": 107
    },
    {
      "epoch": 0.007773902935193258,
      "eval_accuracy": 0.062228703685288995,
      "eval_loss": 10.484375,
      "eval_runtime": 268.7245,
      "eval_samples_per_second": 125.657,
      "eval_steps_per_second": 2.62,
      "step": 107
    },
    {
      "epoch": 0.007846556233653008,
      "grad_norm": 0.9397541880607605,
      "learning_rate": 9.999338854984018e-06,
      "loss": 10.4922,
      "step": 108
    },
    {
      "epoch": 0.007846556233653008,
      "eval_accuracy": 0.06252207171791763,
      "eval_loss": 10.4765625,
      "eval_runtime": 267.6862,
      "eval_samples_per_second": 126.144,
      "eval_steps_per_second": 2.63,
      "step": 108
    },
    {
      "epoch": 0.007919209532112758,
      "grad_norm": 0.9697725772857666,
      "learning_rate": 9.99933158965417e-06,
      "loss": 10.4844,
      "step": 109
    },
    {
      "epoch": 0.007919209532112758,
      "eval_accuracy": 0.06282742459024514,
      "eval_loss": 10.4765625,
      "eval_runtime": 266.1334,
      "eval_samples_per_second": 126.88,
      "eval_steps_per_second": 2.645,
      "step": 109
    },
    {
      "epoch": 0.007991862830572507,
      "grad_norm": 0.8942638039588928,
      "learning_rate": 9.999324324324326e-06,
      "loss": 10.4766,
      "step": 110
    },
    {
      "epoch": 0.007991862830572507,
      "eval_accuracy": 0.06300488127467513,
      "eval_loss": 10.4765625,
      "eval_runtime": 267.3455,
      "eval_samples_per_second": 126.305,
      "eval_steps_per_second": 2.633,
      "step": 110
    },
    {
      "epoch": 0.008064516129032258,
      "grad_norm": 0.8714835047721863,
      "learning_rate": 9.999317058994478e-06,
      "loss": 10.4844,
      "step": 111
    },
    {
      "epoch": 0.008064516129032258,
      "eval_accuracy": 0.06321102630727317,
      "eval_loss": 10.4765625,
      "eval_runtime": 266.4815,
      "eval_samples_per_second": 126.714,
      "eval_steps_per_second": 2.642,
      "step": 111
    },
    {
      "epoch": 0.008137169427492008,
      "grad_norm": 0.8855974078178406,
      "learning_rate": 9.999309793664634e-06,
      "loss": 10.4766,
      "step": 112
    },
    {
      "epoch": 0.008137169427492008,
      "eval_accuracy": 0.06342374273748387,
      "eval_loss": 10.4765625,
      "eval_runtime": 265.4409,
      "eval_samples_per_second": 127.211,
      "eval_steps_per_second": 2.652,
      "step": 112
    },
    {
      "epoch": 0.008209822725951759,
      "grad_norm": 0.8999938368797302,
      "learning_rate": 9.999302528334788e-06,
      "loss": 10.4844,
      "step": 113
    },
    {
      "epoch": 0.008209822725951759,
      "eval_accuracy": 0.06359850717531484,
      "eval_loss": 10.46875,
      "eval_runtime": 264.9726,
      "eval_samples_per_second": 127.436,
      "eval_steps_per_second": 2.657,
      "step": 113
    },
    {
      "epoch": 0.008282476024411508,
      "grad_norm": 0.8735718727111816,
      "learning_rate": 9.99929526300494e-06,
      "loss": 10.4766,
      "step": 114
    },
    {
      "epoch": 0.008282476024411508,
      "eval_accuracy": 0.0637932173970891,
      "eval_loss": 10.46875,
      "eval_runtime": 264.7038,
      "eval_samples_per_second": 127.565,
      "eval_steps_per_second": 2.66,
      "step": 114
    },
    {
      "epoch": 0.008355129322871259,
      "grad_norm": 0.9054996371269226,
      "learning_rate": 9.999287997675096e-06,
      "loss": 10.4766,
      "step": 115
    },
    {
      "epoch": 0.008355129322871259,
      "eval_accuracy": 0.06404524641742311,
      "eval_loss": 10.46875,
      "eval_runtime": 265.6768,
      "eval_samples_per_second": 127.098,
      "eval_steps_per_second": 2.65,
      "step": 115
    },
    {
      "epoch": 0.00842778262133101,
      "grad_norm": 0.9062832593917847,
      "learning_rate": 9.999280732345248e-06,
      "loss": 10.4844,
      "step": 116
    },
    {
      "epoch": 0.00842778262133101,
      "eval_accuracy": 0.06427657698272166,
      "eval_loss": 10.46875,
      "eval_runtime": 264.6617,
      "eval_samples_per_second": 127.586,
      "eval_steps_per_second": 2.66,
      "step": 116
    },
    {
      "epoch": 0.008500435919790758,
      "grad_norm": 0.9465892910957336,
      "learning_rate": 9.999273467015404e-06,
      "loss": 10.4531,
      "step": 117
    },
    {
      "epoch": 0.008500435919790758,
      "eval_accuracy": 0.06444393050518328,
      "eval_loss": 10.4609375,
      "eval_runtime": 265.0601,
      "eval_samples_per_second": 127.394,
      "eval_steps_per_second": 2.656,
      "step": 117
    },
    {
      "epoch": 0.008573089218250509,
      "grad_norm": 0.9980528354644775,
      "learning_rate": 9.999266201685556e-06,
      "loss": 10.4609,
      "step": 118
    },
    {
      "epoch": 0.008573089218250509,
      "eval_accuracy": 0.06469538054775407,
      "eval_loss": 10.4609375,
      "eval_runtime": 265.9103,
      "eval_samples_per_second": 126.986,
      "eval_steps_per_second": 2.648,
      "step": 118
    },
    {
      "epoch": 0.00864574251671026,
      "grad_norm": 0.9110475778579712,
      "learning_rate": 9.999258936355712e-06,
      "loss": 10.4609,
      "step": 119
    },
    {
      "epoch": 0.00864574251671026,
      "eval_accuracy": 0.06482475312894781,
      "eval_loss": 10.4609375,
      "eval_runtime": 268.5579,
      "eval_samples_per_second": 125.735,
      "eval_steps_per_second": 2.621,
      "step": 119
    },
    {
      "epoch": 0.008718395815170008,
      "grad_norm": 0.8688368797302246,
      "learning_rate": 9.999251671025866e-06,
      "loss": 10.4688,
      "step": 120
    },
    {
      "epoch": 0.008718395815170008,
      "eval_accuracy": 0.06493464310840887,
      "eval_loss": 10.4609375,
      "eval_runtime": 268.4968,
      "eval_samples_per_second": 125.763,
      "eval_steps_per_second": 2.622,
      "step": 120
    },
    {
      "epoch": 0.008791049113629759,
      "grad_norm": 0.8964656591415405,
      "learning_rate": 9.99924440569602e-06,
      "loss": 10.4609,
      "step": 121
    },
    {
      "epoch": 0.008791049113629759,
      "eval_accuracy": 0.06505721270088466,
      "eval_loss": 10.4609375,
      "eval_runtime": 268.2266,
      "eval_samples_per_second": 125.89,
      "eval_steps_per_second": 2.625,
      "step": 121
    },
    {
      "epoch": 0.00886370241208951,
      "grad_norm": 0.917405903339386,
      "learning_rate": 9.999237140366174e-06,
      "loss": 10.4609,
      "step": 122
    },
    {
      "epoch": 0.00886370241208951,
      "eval_accuracy": 0.06532562679191808,
      "eval_loss": 10.453125,
      "eval_runtime": 267.3486,
      "eval_samples_per_second": 126.303,
      "eval_steps_per_second": 2.633,
      "step": 122
    },
    {
      "epoch": 0.008936355710549258,
      "grad_norm": 0.9321388602256775,
      "learning_rate": 9.999229875036328e-06,
      "loss": 10.4531,
      "step": 123
    },
    {
      "epoch": 0.008936355710549258,
      "eval_accuracy": 0.06563454037748945,
      "eval_loss": 10.453125,
      "eval_runtime": 268.6664,
      "eval_samples_per_second": 125.684,
      "eval_steps_per_second": 2.62,
      "step": 123
    },
    {
      "epoch": 0.009009009009009009,
      "grad_norm": 1.0306340456008911,
      "learning_rate": 9.999222609706481e-06,
      "loss": 10.4531,
      "step": 124
    },
    {
      "epoch": 0.009009009009009009,
      "eval_accuracy": 0.06589062224216607,
      "eval_loss": 10.453125,
      "eval_runtime": 269.4306,
      "eval_samples_per_second": 125.327,
      "eval_steps_per_second": 2.613,
      "step": 124
    },
    {
      "epoch": 0.00908166230746876,
      "grad_norm": 0.90235435962677,
      "learning_rate": 9.999215344376635e-06,
      "loss": 10.4531,
      "step": 125
    },
    {
      "epoch": 0.00908166230746876,
      "eval_accuracy": 0.06600340711044328,
      "eval_loss": 10.453125,
      "eval_runtime": 268.5113,
      "eval_samples_per_second": 125.756,
      "eval_steps_per_second": 2.622,
      "step": 125
    },
    {
      "epoch": 0.009154315605928508,
      "grad_norm": 0.8829610347747803,
      "learning_rate": 9.99920807904679e-06,
      "loss": 10.4531,
      "step": 126
    },
    {
      "epoch": 0.009154315605928508,
      "eval_accuracy": 0.06620975478525845,
      "eval_loss": 10.4453125,
      "eval_runtime": 268.5597,
      "eval_samples_per_second": 125.734,
      "eval_steps_per_second": 2.621,
      "step": 126
    },
    {
      "epoch": 0.009226968904388259,
      "grad_norm": 0.9231570959091187,
      "learning_rate": 9.999200813716943e-06,
      "loss": 10.4531,
      "step": 127
    },
    {
      "epoch": 0.009226968904388259,
      "eval_accuracy": 0.06642637931537096,
      "eval_loss": 10.4453125,
      "eval_runtime": 266.401,
      "eval_samples_per_second": 126.753,
      "eval_steps_per_second": 2.643,
      "step": 127
    },
    {
      "epoch": 0.00929962220284801,
      "grad_norm": 0.9046792984008789,
      "learning_rate": 9.999193548387097e-06,
      "loss": 10.4453,
      "step": 128
    },
    {
      "epoch": 0.00929962220284801,
      "eval_accuracy": 0.06673063212994831,
      "eval_loss": 10.4453125,
      "eval_runtime": 268.2718,
      "eval_samples_per_second": 125.869,
      "eval_steps_per_second": 2.624,
      "step": 128
    },
    {
      "epoch": 0.009372275501307759,
      "grad_norm": 0.9026487469673157,
      "learning_rate": 9.999186283057251e-06,
      "loss": 10.4531,
      "step": 129
    },
    {
      "epoch": 0.009372275501307759,
      "eval_accuracy": 0.06701204427176626,
      "eval_loss": 10.4453125,
      "eval_runtime": 266.0718,
      "eval_samples_per_second": 126.909,
      "eval_steps_per_second": 2.646,
      "step": 129
    },
    {
      "epoch": 0.00944492879976751,
      "grad_norm": 0.918516218662262,
      "learning_rate": 9.999179017727407e-06,
      "loss": 10.4375,
      "step": 130
    },
    {
      "epoch": 0.00944492879976751,
      "eval_accuracy": 0.0673045727866382,
      "eval_loss": 10.4453125,
      "eval_runtime": 267.2937,
      "eval_samples_per_second": 126.329,
      "eval_steps_per_second": 2.634,
      "step": 130
    },
    {
      "epoch": 0.00951758209822726,
      "grad_norm": 0.9067806601524353,
      "learning_rate": 9.999171752397559e-06,
      "loss": 10.4453,
      "step": 131
    },
    {
      "epoch": 0.00951758209822726,
      "eval_accuracy": 0.06758094782191605,
      "eval_loss": 10.4375,
      "eval_runtime": 266.3825,
      "eval_samples_per_second": 126.761,
      "eval_steps_per_second": 2.643,
      "step": 131
    },
    {
      "epoch": 0.00959023539668701,
      "grad_norm": 0.9461184740066528,
      "learning_rate": 9.999164487067715e-06,
      "loss": 10.4375,
      "step": 132
    },
    {
      "epoch": 0.00959023539668701,
      "eval_accuracy": 0.06776827607720912,
      "eval_loss": 10.4375,
      "eval_runtime": 266.9747,
      "eval_samples_per_second": 126.48,
      "eval_steps_per_second": 2.637,
      "step": 132
    },
    {
      "epoch": 0.00966288869514676,
      "grad_norm": 0.9130184054374695,
      "learning_rate": 9.999157221737867e-06,
      "loss": 10.4375,
      "step": 133
    },
    {
      "epoch": 0.00966288869514676,
      "eval_accuracy": 0.06790248312272583,
      "eval_loss": 10.4375,
      "eval_runtime": 267.3131,
      "eval_samples_per_second": 126.32,
      "eval_steps_per_second": 2.634,
      "step": 133
    },
    {
      "epoch": 0.00973554199360651,
      "grad_norm": 0.9464238882064819,
      "learning_rate": 9.999149956408023e-06,
      "loss": 10.4297,
      "step": 134
    },
    {
      "epoch": 0.00973554199360651,
      "eval_accuracy": 0.06788108989437448,
      "eval_loss": 10.4375,
      "eval_runtime": 267.1185,
      "eval_samples_per_second": 126.412,
      "eval_steps_per_second": 2.636,
      "step": 134
    },
    {
      "epoch": 0.00980819529206626,
      "grad_norm": 0.8799238204956055,
      "learning_rate": 9.999142691078175e-06,
      "loss": 10.4453,
      "step": 135
    },
    {
      "epoch": 0.00980819529206626,
      "eval_accuracy": 0.06779870135866685,
      "eval_loss": 10.4296875,
      "eval_runtime": 266.9212,
      "eval_samples_per_second": 126.505,
      "eval_steps_per_second": 2.637,
      "step": 135
    },
    {
      "epoch": 0.00988084859052601,
      "grad_norm": 0.8914628624916077,
      "learning_rate": 9.99913542574833e-06,
      "loss": 10.4375,
      "step": 136
    },
    {
      "epoch": 0.00988084859052601,
      "eval_accuracy": 0.06771660231184085,
      "eval_loss": 10.4296875,
      "eval_runtime": 265.5018,
      "eval_samples_per_second": 127.182,
      "eval_steps_per_second": 2.652,
      "step": 136
    },
    {
      "epoch": 0.00995350188898576,
      "grad_norm": 0.9166758060455322,
      "learning_rate": 9.999128160418484e-06,
      "loss": 10.4375,
      "step": 137
    },
    {
      "epoch": 0.00995350188898576,
      "eval_accuracy": 0.0677075992076226,
      "eval_loss": 10.4296875,
      "eval_runtime": 266.035,
      "eval_samples_per_second": 126.927,
      "eval_steps_per_second": 2.646,
      "step": 137
    },
    {
      "epoch": 0.01002615518744551,
      "grad_norm": 0.9371738433837891,
      "learning_rate": 9.999120895088638e-06,
      "loss": 10.4219,
      "step": 138
    },
    {
      "epoch": 0.01002615518744551,
      "eval_accuracy": 0.0677291950781911,
      "eval_loss": 10.4296875,
      "eval_runtime": 266.3525,
      "eval_samples_per_second": 126.776,
      "eval_steps_per_second": 2.643,
      "step": 138
    },
    {
      "epoch": 0.01009880848590526,
      "grad_norm": 0.8814043998718262,
      "learning_rate": 9.999113629758792e-06,
      "loss": 10.4375,
      "step": 139
    },
    {
      "epoch": 0.01009880848590526,
      "eval_accuracy": 0.06779661703871923,
      "eval_loss": 10.421875,
      "eval_runtime": 266.1042,
      "eval_samples_per_second": 126.894,
      "eval_steps_per_second": 2.646,
      "step": 139
    },
    {
      "epoch": 0.01017146178436501,
      "grad_norm": 0.9055945873260498,
      "learning_rate": 9.999106364428946e-06,
      "loss": 10.4297,
      "step": 140
    },
    {
      "epoch": 0.01017146178436501,
      "eval_accuracy": 0.06796996298103028,
      "eval_loss": 10.421875,
      "eval_runtime": 267.0593,
      "eval_samples_per_second": 126.44,
      "eval_steps_per_second": 2.636,
      "step": 140
    },
    {
      "epoch": 0.01024411508282476,
      "grad_norm": 0.8938325643539429,
      "learning_rate": 9.9990990990991e-06,
      "loss": 10.4297,
      "step": 141
    },
    {
      "epoch": 0.01024411508282476,
      "eval_accuracy": 0.06815485952971778,
      "eval_loss": 10.421875,
      "eval_runtime": 267.7346,
      "eval_samples_per_second": 126.121,
      "eval_steps_per_second": 2.629,
      "step": 141
    },
    {
      "epoch": 0.01031676838128451,
      "grad_norm": 0.9098795056343079,
      "learning_rate": 9.999091833769254e-06,
      "loss": 10.4219,
      "step": 142
    },
    {
      "epoch": 0.01031676838128451,
      "eval_accuracy": 0.06841157826993396,
      "eval_loss": 10.421875,
      "eval_runtime": 268.1424,
      "eval_samples_per_second": 125.929,
      "eval_steps_per_second": 2.625,
      "step": 142
    },
    {
      "epoch": 0.01038942167974426,
      "grad_norm": 0.907673716545105,
      "learning_rate": 9.999084568439408e-06,
      "loss": 10.4219,
      "step": 143
    },
    {
      "epoch": 0.01038942167974426,
      "eval_accuracy": 0.06867860281433565,
      "eval_loss": 10.421875,
      "eval_runtime": 268.3436,
      "eval_samples_per_second": 125.835,
      "eval_steps_per_second": 2.624,
      "step": 143
    },
    {
      "epoch": 0.010462074978204011,
      "grad_norm": 0.9119425415992737,
      "learning_rate": 9.999077303109562e-06,
      "loss": 10.4219,
      "step": 144
    },
    {
      "epoch": 0.010462074978204011,
      "eval_accuracy": 0.06893219507463037,
      "eval_loss": 10.4140625,
      "eval_runtime": 267.8804,
      "eval_samples_per_second": 126.053,
      "eval_steps_per_second": 2.628,
      "step": 144
    },
    {
      "epoch": 0.01053472827666376,
      "grad_norm": 0.8991184830665588,
      "learning_rate": 9.999070037779716e-06,
      "loss": 10.4219,
      "step": 145
    },
    {
      "epoch": 0.01053472827666376,
      "eval_accuracy": 0.0691721234597129,
      "eval_loss": 10.4140625,
      "eval_runtime": 268.0954,
      "eval_samples_per_second": 125.951,
      "eval_steps_per_second": 2.626,
      "step": 145
    },
    {
      "epoch": 0.01060738157512351,
      "grad_norm": 1.0204856395721436,
      "learning_rate": 9.99906277244987e-06,
      "loss": 10.4141,
      "step": 146
    },
    {
      "epoch": 0.01060738157512351,
      "eval_accuracy": 0.06934083757991812,
      "eval_loss": 10.4140625,
      "eval_runtime": 267.5128,
      "eval_samples_per_second": 126.226,
      "eval_steps_per_second": 2.632,
      "step": 146
    },
    {
      "epoch": 0.010680034873583261,
      "grad_norm": 0.9581719040870667,
      "learning_rate": 9.999055507120024e-06,
      "loss": 10.4062,
      "step": 147
    },
    {
      "epoch": 0.010680034873583261,
      "eval_accuracy": 0.06947478408544137,
      "eval_loss": 10.4140625,
      "eval_runtime": 267.7655,
      "eval_samples_per_second": 126.107,
      "eval_steps_per_second": 2.629,
      "step": 147
    },
    {
      "epoch": 0.010752688172043012,
      "grad_norm": 0.9252108931541443,
      "learning_rate": 9.999048241790178e-06,
      "loss": 10.4141,
      "step": 148
    },
    {
      "epoch": 0.010752688172043012,
      "eval_accuracy": 0.06958163443164546,
      "eval_loss": 10.40625,
      "eval_runtime": 266.9258,
      "eval_samples_per_second": 126.503,
      "eval_steps_per_second": 2.637,
      "step": 148
    },
    {
      "epoch": 0.01082534147050276,
      "grad_norm": 0.8792810440063477,
      "learning_rate": 9.999040976460332e-06,
      "loss": 10.4141,
      "step": 149
    },
    {
      "epoch": 0.01082534147050276,
      "eval_accuracy": 0.0696740971804333,
      "eval_loss": 10.40625,
      "eval_runtime": 267.4905,
      "eval_samples_per_second": 126.236,
      "eval_steps_per_second": 2.632,
      "step": 149
    },
    {
      "epoch": 0.010897994768962511,
      "grad_norm": 0.8908605575561523,
      "learning_rate": 9.999033711130486e-06,
      "loss": 10.4219,
      "step": 150
    },
    {
      "epoch": 0.010897994768962511,
      "eval_accuracy": 0.06974991431852827,
      "eval_loss": 10.40625,
      "eval_runtime": 268.0407,
      "eval_samples_per_second": 125.977,
      "eval_steps_per_second": 2.626,
      "step": 150
    },
    {
      "epoch": 0.010970648067422262,
      "grad_norm": 0.9047368764877319,
      "learning_rate": 9.99902644580064e-06,
      "loss": 10.4062,
      "step": 151
    },
    {
      "epoch": 0.010970648067422262,
      "eval_accuracy": 0.06984810894717207,
      "eval_loss": 10.40625,
      "eval_runtime": 268.9337,
      "eval_samples_per_second": 125.559,
      "eval_steps_per_second": 2.618,
      "step": 151
    },
    {
      "epoch": 0.01104330136588201,
      "grad_norm": 0.9523606300354004,
      "learning_rate": 9.999019180470794e-06,
      "loss": 10.4141,
      "step": 152
    },
    {
      "epoch": 0.01104330136588201,
      "eval_accuracy": 0.06996532299533799,
      "eval_loss": 10.40625,
      "eval_runtime": 268.7819,
      "eval_samples_per_second": 125.63,
      "eval_steps_per_second": 2.619,
      "step": 152
    },
    {
      "epoch": 0.011115954664341761,
      "grad_norm": 0.9536779522895813,
      "learning_rate": 9.999011915140948e-06,
      "loss": 10.4141,
      "step": 153
    },
    {
      "epoch": 0.011115954664341761,
      "eval_accuracy": 0.0701369030554712,
      "eval_loss": 10.3984375,
      "eval_runtime": 267.3646,
      "eval_samples_per_second": 126.296,
      "eval_steps_per_second": 2.633,
      "step": 153
    },
    {
      "epoch": 0.011188607962801512,
      "grad_norm": 0.8978484272956848,
      "learning_rate": 9.999004649811103e-06,
      "loss": 10.4219,
      "step": 154
    },
    {
      "epoch": 0.011188607962801512,
      "eval_accuracy": 0.07024372445278713,
      "eval_loss": 10.3984375,
      "eval_runtime": 267.0372,
      "eval_samples_per_second": 126.451,
      "eval_steps_per_second": 2.636,
      "step": 154
    },
    {
      "epoch": 0.01126126126126126,
      "grad_norm": 0.9067463874816895,
      "learning_rate": 9.998997384481255e-06,
      "loss": 10.4141,
      "step": 155
    },
    {
      "epoch": 0.01126126126126126,
      "eval_accuracy": 0.07035488818332729,
      "eval_loss": 10.3984375,
      "eval_runtime": 266.8902,
      "eval_samples_per_second": 126.52,
      "eval_steps_per_second": 2.638,
      "step": 155
    },
    {
      "epoch": 0.011333914559721011,
      "grad_norm": 0.8969941735267639,
      "learning_rate": 9.998990119151411e-06,
      "loss": 10.4062,
      "step": 156
    },
    {
      "epoch": 0.011333914559721011,
      "eval_accuracy": 0.07053625296765909,
      "eval_loss": 10.3984375,
      "eval_runtime": 266.2466,
      "eval_samples_per_second": 126.826,
      "eval_steps_per_second": 2.644,
      "step": 156
    },
    {
      "epoch": 0.011406567858180762,
      "grad_norm": 0.9160457253456116,
      "learning_rate": 9.998982853821563e-06,
      "loss": 10.4062,
      "step": 157
    },
    {
      "epoch": 0.011406567858180762,
      "eval_accuracy": 0.07071909414528711,
      "eval_loss": 10.390625,
      "eval_runtime": 266.1843,
      "eval_samples_per_second": 126.856,
      "eval_steps_per_second": 2.645,
      "step": 157
    },
    {
      "epoch": 0.01147922115664051,
      "grad_norm": 0.9947687387466431,
      "learning_rate": 9.998975588491719e-06,
      "loss": 10.3906,
      "step": 158
    },
    {
      "epoch": 0.01147922115664051,
      "eval_accuracy": 0.07083940572448631,
      "eval_loss": 10.390625,
      "eval_runtime": 266.0309,
      "eval_samples_per_second": 126.929,
      "eval_steps_per_second": 2.646,
      "step": 158
    },
    {
      "epoch": 0.011551874455100261,
      "grad_norm": 0.9923911690711975,
      "learning_rate": 9.998968323161873e-06,
      "loss": 10.3906,
      "step": 159
    },
    {
      "epoch": 0.011551874455100261,
      "eval_accuracy": 0.07099616395388084,
      "eval_loss": 10.390625,
      "eval_runtime": 265.8514,
      "eval_samples_per_second": 127.015,
      "eval_steps_per_second": 2.648,
      "step": 159
    },
    {
      "epoch": 0.011624527753560012,
      "grad_norm": 0.8818120360374451,
      "learning_rate": 9.998961057832027e-06,
      "loss": 10.3984,
      "step": 160
    },
    {
      "epoch": 0.011624527753560012,
      "eval_accuracy": 0.07109409804253118,
      "eval_loss": 10.390625,
      "eval_runtime": 265.1784,
      "eval_samples_per_second": 127.337,
      "eval_steps_per_second": 2.655,
      "step": 160
    },
    {
      "epoch": 0.011697181052019761,
      "grad_norm": 0.8733471035957336,
      "learning_rate": 9.99895379250218e-06,
      "loss": 10.3984,
      "step": 161
    },
    {
      "epoch": 0.011697181052019761,
      "eval_accuracy": 0.07113795560809585,
      "eval_loss": 10.390625,
      "eval_runtime": 266.4251,
      "eval_samples_per_second": 126.741,
      "eval_steps_per_second": 2.642,
      "step": 161
    },
    {
      "epoch": 0.011769834350479512,
      "grad_norm": 0.8769287467002869,
      "learning_rate": 9.998946527172335e-06,
      "loss": 10.3906,
      "step": 162
    },
    {
      "epoch": 0.011769834350479512,
      "eval_accuracy": 0.07117098628948813,
      "eval_loss": 10.3828125,
      "eval_runtime": 266.1962,
      "eval_samples_per_second": 126.85,
      "eval_steps_per_second": 2.645,
      "step": 162
    },
    {
      "epoch": 0.011842487648939262,
      "grad_norm": 0.8957408666610718,
      "learning_rate": 9.998939261842489e-06,
      "loss": 10.3906,
      "step": 163
    },
    {
      "epoch": 0.011842487648939262,
      "eval_accuracy": 0.07124170842326667,
      "eval_loss": 10.3828125,
      "eval_runtime": 266.0683,
      "eval_samples_per_second": 126.911,
      "eval_steps_per_second": 2.646,
      "step": 163
    },
    {
      "epoch": 0.011915140947399011,
      "grad_norm": 0.9207865595817566,
      "learning_rate": 9.998931996512643e-06,
      "loss": 10.3906,
      "step": 164
    },
    {
      "epoch": 0.011915140947399011,
      "eval_accuracy": 0.07135113522051714,
      "eval_loss": 10.3828125,
      "eval_runtime": 266.3681,
      "eval_samples_per_second": 126.768,
      "eval_steps_per_second": 2.643,
      "step": 164
    },
    {
      "epoch": 0.011987794245858762,
      "grad_norm": 1.0381028652191162,
      "learning_rate": 9.998924731182797e-06,
      "loss": 10.3828,
      "step": 165
    },
    {
      "epoch": 0.011987794245858762,
      "eval_accuracy": 0.0714838079749613,
      "eval_loss": 10.3828125,
      "eval_runtime": 266.8907,
      "eval_samples_per_second": 126.52,
      "eval_steps_per_second": 2.638,
      "step": 165
    },
    {
      "epoch": 0.012060447544318512,
      "grad_norm": 1.0229851007461548,
      "learning_rate": 9.99891746585295e-06,
      "loss": 10.375,
      "step": 166
    },
    {
      "epoch": 0.012060447544318512,
      "eval_accuracy": 0.07162267579147201,
      "eval_loss": 10.375,
      "eval_runtime": 268.0765,
      "eval_samples_per_second": 125.96,
      "eval_steps_per_second": 2.626,
      "step": 166
    },
    {
      "epoch": 0.012133100842778263,
      "grad_norm": 0.8751774430274963,
      "learning_rate": 9.998910200523105e-06,
      "loss": 10.3828,
      "step": 167
    },
    {
      "epoch": 0.012133100842778263,
      "eval_accuracy": 0.07171681757577321,
      "eval_loss": 10.375,
      "eval_runtime": 266.5398,
      "eval_samples_per_second": 126.687,
      "eval_steps_per_second": 2.641,
      "step": 167
    },
    {
      "epoch": 0.012205754141238012,
      "grad_norm": 0.9067946672439575,
      "learning_rate": 9.998902935193258e-06,
      "loss": 10.3828,
      "step": 168
    },
    {
      "epoch": 0.012205754141238012,
      "eval_accuracy": 0.07183573960834065,
      "eval_loss": 10.375,
      "eval_runtime": 269.0409,
      "eval_samples_per_second": 125.509,
      "eval_steps_per_second": 2.617,
      "step": 168
    },
    {
      "epoch": 0.012278407439697762,
      "grad_norm": 0.8819664120674133,
      "learning_rate": 9.998895669863412e-06,
      "loss": 10.3828,
      "step": 169
    },
    {
      "epoch": 0.012278407439697762,
      "eval_accuracy": 0.07194832183440072,
      "eval_loss": 10.375,
      "eval_runtime": 269.4359,
      "eval_samples_per_second": 125.325,
      "eval_steps_per_second": 2.613,
      "step": 169
    },
    {
      "epoch": 0.012351060738157513,
      "grad_norm": 0.8808407783508301,
      "learning_rate": 9.998888404533566e-06,
      "loss": 10.3828,
      "step": 170
    },
    {
      "epoch": 0.012351060738157513,
      "eval_accuracy": 0.0720716440979687,
      "eval_loss": 10.375,
      "eval_runtime": 269.1418,
      "eval_samples_per_second": 125.462,
      "eval_steps_per_second": 2.616,
      "step": 170
    },
    {
      "epoch": 0.012423714036617262,
      "grad_norm": 0.9482495188713074,
      "learning_rate": 9.99888113920372e-06,
      "loss": 10.3672,
      "step": 171
    },
    {
      "epoch": 0.012423714036617262,
      "eval_accuracy": 0.07210840918593382,
      "eval_loss": 10.3671875,
      "eval_runtime": 268.1791,
      "eval_samples_per_second": 125.912,
      "eval_steps_per_second": 2.625,
      "step": 171
    },
    {
      "epoch": 0.012496367335077013,
      "grad_norm": 0.8792570233345032,
      "learning_rate": 9.998873873873874e-06,
      "loss": 10.375,
      "step": 172
    },
    {
      "epoch": 0.012496367335077013,
      "eval_accuracy": 0.07209656909067576,
      "eval_loss": 10.3671875,
      "eval_runtime": 267.4096,
      "eval_samples_per_second": 126.274,
      "eval_steps_per_second": 2.633,
      "step": 172
    },
    {
      "epoch": 0.012569020633536763,
      "grad_norm": 1.0035219192504883,
      "learning_rate": 9.998866608544028e-06,
      "loss": 10.3594,
      "step": 173
    },
    {
      "epoch": 0.012569020633536763,
      "eval_accuracy": 0.07205164041624912,
      "eval_loss": 10.3671875,
      "eval_runtime": 267.2327,
      "eval_samples_per_second": 126.358,
      "eval_steps_per_second": 2.634,
      "step": 173
    },
    {
      "epoch": 0.012641673931996512,
      "grad_norm": 0.9102580547332764,
      "learning_rate": 9.998859343214182e-06,
      "loss": 10.375,
      "step": 174
    },
    {
      "epoch": 0.012641673931996512,
      "eval_accuracy": 0.07202917607903579,
      "eval_loss": 10.3671875,
      "eval_runtime": 267.9463,
      "eval_samples_per_second": 126.022,
      "eval_steps_per_second": 2.627,
      "step": 174
    },
    {
      "epoch": 0.012714327230456263,
      "grad_norm": 0.9545760154724121,
      "learning_rate": 9.998852077884336e-06,
      "loss": 10.3594,
      "step": 175
    },
    {
      "epoch": 0.012714327230456263,
      "eval_accuracy": 0.0720582697116381,
      "eval_loss": 10.359375,
      "eval_runtime": 266.8569,
      "eval_samples_per_second": 126.536,
      "eval_steps_per_second": 2.638,
      "step": 175
    },
    {
      "epoch": 0.012786980528916013,
      "grad_norm": 0.9329653978347778,
      "learning_rate": 9.998844812554492e-06,
      "loss": 10.3672,
      "step": 176
    },
    {
      "epoch": 0.012786980528916013,
      "eval_accuracy": 0.07217727859087003,
      "eval_loss": 10.359375,
      "eval_runtime": 265.4766,
      "eval_samples_per_second": 127.194,
      "eval_steps_per_second": 2.652,
      "step": 176
    },
    {
      "epoch": 0.012859633827375762,
      "grad_norm": 0.903916597366333,
      "learning_rate": 9.998837547224644e-06,
      "loss": 10.375,
      "step": 177
    },
    {
      "epoch": 0.012859633827375762,
      "eval_accuracy": 0.07231886760286792,
      "eval_loss": 10.359375,
      "eval_runtime": 266.8553,
      "eval_samples_per_second": 126.537,
      "eval_steps_per_second": 2.638,
      "step": 177
    },
    {
      "epoch": 0.012932287125835513,
      "grad_norm": 0.9190238118171692,
      "learning_rate": 9.9988302818948e-06,
      "loss": 10.3672,
      "step": 178
    },
    {
      "epoch": 0.012932287125835513,
      "eval_accuracy": 0.07257023079877423,
      "eval_loss": 10.359375,
      "eval_runtime": 266.7383,
      "eval_samples_per_second": 126.592,
      "eval_steps_per_second": 2.639,
      "step": 178
    },
    {
      "epoch": 0.013004940424295263,
      "grad_norm": 0.8731828927993774,
      "learning_rate": 9.998823016564952e-06,
      "loss": 10.3672,
      "step": 179
    },
    {
      "epoch": 0.013004940424295263,
      "eval_accuracy": 0.0727295075814388,
      "eval_loss": 10.359375,
      "eval_runtime": 266.7924,
      "eval_samples_per_second": 126.567,
      "eval_steps_per_second": 2.639,
      "step": 179
    },
    {
      "epoch": 0.013077593722755012,
      "grad_norm": 0.8964665532112122,
      "learning_rate": 9.998815751235107e-06,
      "loss": 10.3594,
      "step": 180
    },
    {
      "epoch": 0.013077593722755012,
      "eval_accuracy": 0.0728463452940586,
      "eval_loss": 10.3515625,
      "eval_runtime": 264.1125,
      "eval_samples_per_second": 127.851,
      "eval_steps_per_second": 2.666,
      "step": 180
    },
    {
      "epoch": 0.013150247021214763,
      "grad_norm": 0.8609874844551086,
      "learning_rate": 9.998808485905261e-06,
      "loss": 10.3672,
      "step": 181
    },
    {
      "epoch": 0.013150247021214763,
      "eval_accuracy": 0.07293759218954365,
      "eval_loss": 10.3515625,
      "eval_runtime": 264.4015,
      "eval_samples_per_second": 127.711,
      "eval_steps_per_second": 2.663,
      "step": 181
    },
    {
      "epoch": 0.013222900319674514,
      "grad_norm": 0.9078623056411743,
      "learning_rate": 9.998801220575415e-06,
      "loss": 10.3594,
      "step": 182
    },
    {
      "epoch": 0.013222900319674514,
      "eval_accuracy": 0.0730243230584755,
      "eval_loss": 10.3515625,
      "eval_runtime": 265.1597,
      "eval_samples_per_second": 127.346,
      "eval_steps_per_second": 2.655,
      "step": 182
    },
    {
      "epoch": 0.013295553618134264,
      "grad_norm": 0.9211888909339905,
      "learning_rate": 9.99879395524557e-06,
      "loss": 10.3516,
      "step": 183
    },
    {
      "epoch": 0.013295553618134264,
      "eval_accuracy": 0.07311939120719788,
      "eval_loss": 10.3515625,
      "eval_runtime": 265.0761,
      "eval_samples_per_second": 127.386,
      "eval_steps_per_second": 2.656,
      "step": 183
    },
    {
      "epoch": 0.013368206916594013,
      "grad_norm": 0.9223811030387878,
      "learning_rate": 9.998786689915723e-06,
      "loss": 10.3594,
      "step": 184
    },
    {
      "epoch": 0.013368206916594013,
      "eval_accuracy": 0.07324948751059565,
      "eval_loss": 10.3515625,
      "eval_runtime": 267.2168,
      "eval_samples_per_second": 126.366,
      "eval_steps_per_second": 2.635,
      "step": 184
    },
    {
      "epoch": 0.013440860215053764,
      "grad_norm": 0.8940264582633972,
      "learning_rate": 9.998779424585877e-06,
      "loss": 10.3516,
      "step": 185
    },
    {
      "epoch": 0.013440860215053764,
      "eval_accuracy": 0.07333268661517181,
      "eval_loss": 10.34375,
      "eval_runtime": 266.2508,
      "eval_samples_per_second": 126.824,
      "eval_steps_per_second": 2.644,
      "step": 185
    },
    {
      "epoch": 0.013513513513513514,
      "grad_norm": 0.8663957118988037,
      "learning_rate": 9.998772159256031e-06,
      "loss": 10.3516,
      "step": 186
    },
    {
      "epoch": 0.013513513513513514,
      "eval_accuracy": 0.07334869535032512,
      "eval_loss": 10.34375,
      "eval_runtime": 268.3928,
      "eval_samples_per_second": 125.812,
      "eval_steps_per_second": 2.623,
      "step": 186
    },
    {
      "epoch": 0.013586166811973263,
      "grad_norm": 0.899961531162262,
      "learning_rate": 9.998764893926185e-06,
      "loss": 10.3438,
      "step": 187
    },
    {
      "epoch": 0.013586166811973263,
      "eval_accuracy": 0.07337804952292087,
      "eval_loss": 10.34375,
      "eval_runtime": 268.2225,
      "eval_samples_per_second": 125.892,
      "eval_steps_per_second": 2.625,
      "step": 187
    },
    {
      "epoch": 0.013658820110433014,
      "grad_norm": 0.8721891045570374,
      "learning_rate": 9.998757628596339e-06,
      "loss": 10.3516,
      "step": 188
    },
    {
      "epoch": 0.013658820110433014,
      "eval_accuracy": 0.07342506251729515,
      "eval_loss": 10.34375,
      "eval_runtime": 268.3043,
      "eval_samples_per_second": 125.853,
      "eval_steps_per_second": 2.624,
      "step": 188
    },
    {
      "epoch": 0.013731473408892764,
      "grad_norm": 0.9019783735275269,
      "learning_rate": 9.998750363266493e-06,
      "loss": 10.3516,
      "step": 189
    },
    {
      "epoch": 0.013731473408892764,
      "eval_accuracy": 0.07348243921363125,
      "eval_loss": 10.3359375,
      "eval_runtime": 267.616,
      "eval_samples_per_second": 126.177,
      "eval_steps_per_second": 2.631,
      "step": 189
    },
    {
      "epoch": 0.013804126707352513,
      "grad_norm": 0.9109626412391663,
      "learning_rate": 9.998743097936647e-06,
      "loss": 10.3438,
      "step": 190
    },
    {
      "epoch": 0.013804126707352513,
      "eval_accuracy": 0.07349436615555378,
      "eval_loss": 10.3359375,
      "eval_runtime": 268.802,
      "eval_samples_per_second": 125.62,
      "eval_steps_per_second": 2.619,
      "step": 190
    },
    {
      "epoch": 0.013876780005812264,
      "grad_norm": 0.8707013130187988,
      "learning_rate": 9.998735832606801e-06,
      "loss": 10.3516,
      "step": 191
    },
    {
      "epoch": 0.013876780005812264,
      "eval_accuracy": 0.07354867426974475,
      "eval_loss": 10.3359375,
      "eval_runtime": 269.0333,
      "eval_samples_per_second": 125.512,
      "eval_steps_per_second": 2.617,
      "step": 191
    },
    {
      "epoch": 0.013949433304272014,
      "grad_norm": 0.9611899256706238,
      "learning_rate": 9.998728567276955e-06,
      "loss": 10.3359,
      "step": 192
    },
    {
      "epoch": 0.013949433304272014,
      "eval_accuracy": 0.07366001169361389,
      "eval_loss": 10.3359375,
      "eval_runtime": 266.4167,
      "eval_samples_per_second": 126.745,
      "eval_steps_per_second": 2.642,
      "step": 192
    },
    {
      "epoch": 0.014022086602731763,
      "grad_norm": 0.8997408151626587,
      "learning_rate": 9.99872130194711e-06,
      "loss": 10.3359,
      "step": 193
    },
    {
      "epoch": 0.014022086602731763,
      "eval_accuracy": 0.07367448613769463,
      "eval_loss": 10.3359375,
      "eval_runtime": 267.3071,
      "eval_samples_per_second": 126.323,
      "eval_steps_per_second": 2.634,
      "step": 193
    },
    {
      "epoch": 0.014094739901191514,
      "grad_norm": 0.8796170949935913,
      "learning_rate": 9.998714036617263e-06,
      "loss": 10.3359,
      "step": 194
    },
    {
      "epoch": 0.014094739901191514,
      "eval_accuracy": 0.07364093437631546,
      "eval_loss": 10.328125,
      "eval_runtime": 267.1483,
      "eval_samples_per_second": 126.398,
      "eval_steps_per_second": 2.635,
      "step": 194
    },
    {
      "epoch": 0.014167393199651265,
      "grad_norm": 0.9038819670677185,
      "learning_rate": 9.998706771287417e-06,
      "loss": 10.3359,
      "step": 195
    },
    {
      "epoch": 0.014167393199651265,
      "eval_accuracy": 0.0735885658376313,
      "eval_loss": 10.328125,
      "eval_runtime": 267.3865,
      "eval_samples_per_second": 126.285,
      "eval_steps_per_second": 2.633,
      "step": 195
    },
    {
      "epoch": 0.014240046498111014,
      "grad_norm": 0.9091231822967529,
      "learning_rate": 9.99869950595757e-06,
      "loss": 10.3359,
      "step": 196
    },
    {
      "epoch": 0.014240046498111014,
      "eval_accuracy": 0.0736078168482587,
      "eval_loss": 10.328125,
      "eval_runtime": 267.9665,
      "eval_samples_per_second": 126.012,
      "eval_steps_per_second": 2.627,
      "step": 196
    },
    {
      "epoch": 0.014312699796570764,
      "grad_norm": 0.9065552949905396,
      "learning_rate": 9.998692240627725e-06,
      "loss": 10.3281,
      "step": 197
    },
    {
      "epoch": 0.014312699796570764,
      "eval_accuracy": 0.07369920848818455,
      "eval_loss": 10.328125,
      "eval_runtime": 267.2862,
      "eval_samples_per_second": 126.333,
      "eval_steps_per_second": 2.634,
      "step": 197
    },
    {
      "epoch": 0.014385353095030515,
      "grad_norm": 0.8987371921539307,
      "learning_rate": 9.99868497529788e-06,
      "loss": 10.3359,
      "step": 198
    },
    {
      "epoch": 0.014385353095030515,
      "eval_accuracy": 0.07384696361336085,
      "eval_loss": 10.328125,
      "eval_runtime": 267.5117,
      "eval_samples_per_second": 126.226,
      "eval_steps_per_second": 2.632,
      "step": 198
    },
    {
      "epoch": 0.014458006393490264,
      "grad_norm": 0.891822338104248,
      "learning_rate": 9.998677709968032e-06,
      "loss": 10.3203,
      "step": 199
    },
    {
      "epoch": 0.014458006393490264,
      "eval_accuracy": 0.07396643567480336,
      "eval_loss": 10.3203125,
      "eval_runtime": 265.9448,
      "eval_samples_per_second": 126.97,
      "eval_steps_per_second": 2.647,
      "step": 199
    },
    {
      "epoch": 0.014530659691950014,
      "grad_norm": 0.8724116683006287,
      "learning_rate": 9.998670444638188e-06,
      "loss": 10.3359,
      "step": 200
    },
    {
      "epoch": 0.014530659691950014,
      "eval_accuracy": 0.07408226017633752,
      "eval_loss": 10.3203125,
      "eval_runtime": 266.1838,
      "eval_samples_per_second": 126.856,
      "eval_steps_per_second": 2.645,
      "step": 200
    },
    {
      "epoch": 0.014603312990409765,
      "grad_norm": 0.8940464854240417,
      "learning_rate": 9.99866317930834e-06,
      "loss": 10.3359,
      "step": 201
    },
    {
      "epoch": 0.014603312990409765,
      "eval_accuracy": 0.07420095061779967,
      "eval_loss": 10.3203125,
      "eval_runtime": 264.9987,
      "eval_samples_per_second": 127.423,
      "eval_steps_per_second": 2.657,
      "step": 201
    },
    {
      "epoch": 0.014675966288869515,
      "grad_norm": 0.9207845330238342,
      "learning_rate": 9.998655913978496e-06,
      "loss": 10.3281,
      "step": 202
    },
    {
      "epoch": 0.014675966288869515,
      "eval_accuracy": 0.0742804732135793,
      "eval_loss": 10.3203125,
      "eval_runtime": 264.7467,
      "eval_samples_per_second": 127.545,
      "eval_steps_per_second": 2.659,
      "step": 202
    },
    {
      "epoch": 0.014748619587329264,
      "grad_norm": 0.8840688467025757,
      "learning_rate": 9.998648648648648e-06,
      "loss": 10.3203,
      "step": 203
    },
    {
      "epoch": 0.014748619587329264,
      "eval_accuracy": 0.07432360705693994,
      "eval_loss": 10.3125,
      "eval_runtime": 264.0804,
      "eval_samples_per_second": 127.866,
      "eval_steps_per_second": 2.666,
      "step": 203
    },
    {
      "epoch": 0.014821272885789015,
      "grad_norm": 0.8885826468467712,
      "learning_rate": 9.998641383318804e-06,
      "loss": 10.3203,
      "step": 204
    },
    {
      "epoch": 0.014821272885789015,
      "eval_accuracy": 0.07433359442335566,
      "eval_loss": 10.3125,
      "eval_runtime": 266.5522,
      "eval_samples_per_second": 126.681,
      "eval_steps_per_second": 2.641,
      "step": 204
    },
    {
      "epoch": 0.014893926184248766,
      "grad_norm": 0.897081732749939,
      "learning_rate": 9.998634117988958e-06,
      "loss": 10.3281,
      "step": 205
    },
    {
      "epoch": 0.014893926184248766,
      "eval_accuracy": 0.07427410445818378,
      "eval_loss": 10.3125,
      "eval_runtime": 267.4051,
      "eval_samples_per_second": 126.277,
      "eval_steps_per_second": 2.633,
      "step": 205
    },
    {
      "epoch": 0.014966579482708514,
      "grad_norm": 0.9606081247329712,
      "learning_rate": 9.998626852659112e-06,
      "loss": 10.3125,
      "step": 206
    },
    {
      "epoch": 0.014966579482708514,
      "eval_accuracy": 0.07412779677741556,
      "eval_loss": 10.3125,
      "eval_runtime": 265.1816,
      "eval_samples_per_second": 127.335,
      "eval_steps_per_second": 2.655,
      "step": 206
    },
    {
      "epoch": 0.015039232781168265,
      "grad_norm": 0.9314731955528259,
      "learning_rate": 9.998619587329266e-06,
      "loss": 10.3125,
      "step": 207
    },
    {
      "epoch": 0.015039232781168265,
      "eval_accuracy": 0.07401284074252625,
      "eval_loss": 10.3125,
      "eval_runtime": 266.8876,
      "eval_samples_per_second": 126.521,
      "eval_steps_per_second": 2.638,
      "step": 207
    },
    {
      "epoch": 0.015111886079628016,
      "grad_norm": 0.9583424925804138,
      "learning_rate": 9.99861232199942e-06,
      "loss": 10.3047,
      "step": 208
    },
    {
      "epoch": 0.015111886079628016,
      "eval_accuracy": 0.07404071852182577,
      "eval_loss": 10.3046875,
      "eval_runtime": 266.703,
      "eval_samples_per_second": 126.609,
      "eval_steps_per_second": 2.64,
      "step": 208
    },
    {
      "epoch": 0.015184539378087765,
      "grad_norm": 0.9071934223175049,
      "learning_rate": 9.998605056669574e-06,
      "loss": 10.3125,
      "step": 209
    },
    {
      "epoch": 0.015184539378087765,
      "eval_accuracy": 0.07412215174422407,
      "eval_loss": 10.3046875,
      "eval_runtime": 266.5993,
      "eval_samples_per_second": 126.658,
      "eval_steps_per_second": 2.641,
      "step": 209
    },
    {
      "epoch": 0.015257192676547515,
      "grad_norm": 0.8879753351211548,
      "learning_rate": 9.998597791339728e-06,
      "loss": 10.3125,
      "step": 210
    },
    {
      "epoch": 0.015257192676547515,
      "eval_accuracy": 0.07420225331776693,
      "eval_loss": 10.3046875,
      "eval_runtime": 267.0745,
      "eval_samples_per_second": 126.433,
      "eval_steps_per_second": 2.636,
      "step": 210
    },
    {
      "epoch": 0.015329845975007266,
      "grad_norm": 0.9064663052558899,
      "learning_rate": 9.998590526009882e-06,
      "loss": 10.3203,
      "step": 211
    },
    {
      "epoch": 0.015329845975007266,
      "eval_accuracy": 0.07434856099853515,
      "eval_loss": 10.3046875,
      "eval_runtime": 267.2364,
      "eval_samples_per_second": 126.356,
      "eval_steps_per_second": 2.634,
      "step": 211
    },
    {
      "epoch": 0.015402499273467015,
      "grad_norm": 0.888227105140686,
      "learning_rate": 9.998583260680035e-06,
      "loss": 10.3047,
      "step": 212
    },
    {
      "epoch": 0.015402499273467015,
      "eval_accuracy": 0.07441022213031916,
      "eval_loss": 10.3046875,
      "eval_runtime": 267.6856,
      "eval_samples_per_second": 126.144,
      "eval_steps_per_second": 2.63,
      "step": 212
    },
    {
      "epoch": 0.015475152571926765,
      "grad_norm": 0.873029887676239,
      "learning_rate": 9.99857599535019e-06,
      "loss": 10.3203,
      "step": 213
    },
    {
      "epoch": 0.015475152571926765,
      "eval_accuracy": 0.07452069108754343,
      "eval_loss": 10.296875,
      "eval_runtime": 267.3911,
      "eval_samples_per_second": 126.283,
      "eval_steps_per_second": 2.633,
      "step": 213
    },
    {
      "epoch": 0.015547805870386516,
      "grad_norm": 0.9147621989250183,
      "learning_rate": 9.998568730020343e-06,
      "loss": 10.3125,
      "step": 214
    },
    {
      "epoch": 0.015547805870386516,
      "eval_accuracy": 0.07470987207167884,
      "eval_loss": 10.296875,
      "eval_runtime": 267.6606,
      "eval_samples_per_second": 126.156,
      "eval_steps_per_second": 2.63,
      "step": 214
    },
    {
      "epoch": 0.015620459168846265,
      "grad_norm": 0.9260271787643433,
      "learning_rate": 9.998561464690499e-06,
      "loss": 10.3047,
      "step": 215
    },
    {
      "epoch": 0.015620459168846265,
      "eval_accuracy": 0.07488478125395062,
      "eval_loss": 10.296875,
      "eval_runtime": 266.1126,
      "eval_samples_per_second": 126.89,
      "eval_steps_per_second": 2.645,
      "step": 215
    },
    {
      "epoch": 0.015693112467306015,
      "grad_norm": 0.9096031785011292,
      "learning_rate": 9.998554199360651e-06,
      "loss": 10.2969,
      "step": 216
    },
    {
      "epoch": 0.015693112467306015,
      "eval_accuracy": 0.07498534969142368,
      "eval_loss": 10.296875,
      "eval_runtime": 266.7055,
      "eval_samples_per_second": 126.608,
      "eval_steps_per_second": 2.64,
      "step": 216
    },
    {
      "epoch": 0.015765765765765764,
      "grad_norm": 0.9063442945480347,
      "learning_rate": 9.998546934030807e-06,
      "loss": 10.3047,
      "step": 217
    },
    {
      "epoch": 0.015765765765765764,
      "eval_accuracy": 0.07498459702033147,
      "eval_loss": 10.296875,
      "eval_runtime": 267.4598,
      "eval_samples_per_second": 126.251,
      "eval_steps_per_second": 2.632,
      "step": 217
    },
    {
      "epoch": 0.015838419064225517,
      "grad_norm": 0.9258260130882263,
      "learning_rate": 9.998539668700959e-06,
      "loss": 10.2969,
      "step": 218
    },
    {
      "epoch": 0.015838419064225517,
      "eval_accuracy": 0.0748771966452523,
      "eval_loss": 10.2890625,
      "eval_runtime": 267.3776,
      "eval_samples_per_second": 126.29,
      "eval_steps_per_second": 2.633,
      "step": 218
    },
    {
      "epoch": 0.015911072362685266,
      "grad_norm": 0.9510604739189148,
      "learning_rate": 9.998532403371115e-06,
      "loss": 10.2891,
      "step": 219
    },
    {
      "epoch": 0.015911072362685266,
      "eval_accuracy": 0.07466393018616653,
      "eval_loss": 10.2890625,
      "eval_runtime": 266.9849,
      "eval_samples_per_second": 126.475,
      "eval_steps_per_second": 2.637,
      "step": 219
    },
    {
      "epoch": 0.015983725661145014,
      "grad_norm": 0.888974130153656,
      "learning_rate": 9.998525138041267e-06,
      "loss": 10.2969,
      "step": 220
    },
    {
      "epoch": 0.015983725661145014,
      "eval_accuracy": 0.07440356388604201,
      "eval_loss": 10.2890625,
      "eval_runtime": 265.0185,
      "eval_samples_per_second": 127.414,
      "eval_steps_per_second": 2.656,
      "step": 220
    },
    {
      "epoch": 0.016056378959604767,
      "grad_norm": 0.9004181623458862,
      "learning_rate": 9.998517872711423e-06,
      "loss": 10.2969,
      "step": 221
    },
    {
      "epoch": 0.016056378959604767,
      "eval_accuracy": 0.07420781150429394,
      "eval_loss": 10.2890625,
      "eval_runtime": 265.4243,
      "eval_samples_per_second": 127.219,
      "eval_steps_per_second": 2.652,
      "step": 221
    },
    {
      "epoch": 0.016129032258064516,
      "grad_norm": 0.8965704441070557,
      "learning_rate": 9.998510607381577e-06,
      "loss": 10.2891,
      "step": 222
    },
    {
      "epoch": 0.016129032258064516,
      "eval_accuracy": 0.07409245018497036,
      "eval_loss": 10.2890625,
      "eval_runtime": 265.3546,
      "eval_samples_per_second": 127.252,
      "eval_steps_per_second": 2.653,
      "step": 222
    },
    {
      "epoch": 0.016201685556524265,
      "grad_norm": 0.9500789046287537,
      "learning_rate": 9.998503342051729e-06,
      "loss": 10.2891,
      "step": 223
    },
    {
      "epoch": 0.016201685556524265,
      "eval_accuracy": 0.07416858576083511,
      "eval_loss": 10.28125,
      "eval_runtime": 265.6881,
      "eval_samples_per_second": 127.093,
      "eval_steps_per_second": 2.65,
      "step": 223
    },
    {
      "epoch": 0.016274338854984017,
      "grad_norm": 0.9081275463104248,
      "learning_rate": 9.998496076721884e-06,
      "loss": 10.2891,
      "step": 224
    },
    {
      "epoch": 0.016274338854984017,
      "eval_accuracy": 0.07432068321923563,
      "eval_loss": 10.28125,
      "eval_runtime": 265.8739,
      "eval_samples_per_second": 127.004,
      "eval_steps_per_second": 2.648,
      "step": 224
    },
    {
      "epoch": 0.016346992153443766,
      "grad_norm": 0.9124018549919128,
      "learning_rate": 9.998488811392037e-06,
      "loss": 10.2891,
      "step": 225
    },
    {
      "epoch": 0.016346992153443766,
      "eval_accuracy": 0.07457499920173441,
      "eval_loss": 10.28125,
      "eval_runtime": 265.6262,
      "eval_samples_per_second": 127.122,
      "eval_steps_per_second": 2.65,
      "step": 225
    },
    {
      "epoch": 0.016419645451903518,
      "grad_norm": 0.8811033368110657,
      "learning_rate": 9.998481546062192e-06,
      "loss": 10.2969,
      "step": 226
    },
    {
      "epoch": 0.016419645451903518,
      "eval_accuracy": 0.07480795090477,
      "eval_loss": 10.28125,
      "eval_runtime": 265.1697,
      "eval_samples_per_second": 127.341,
      "eval_steps_per_second": 2.655,
      "step": 226
    },
    {
      "epoch": 0.016492298750363267,
      "grad_norm": 0.8931852579116821,
      "learning_rate": 9.998474280732346e-06,
      "loss": 10.2812,
      "step": 227
    },
    {
      "epoch": 0.016492298750363267,
      "eval_accuracy": 0.07488660503390479,
      "eval_loss": 10.2734375,
      "eval_runtime": 265.5292,
      "eval_samples_per_second": 127.169,
      "eval_steps_per_second": 2.651,
      "step": 227
    },
    {
      "epoch": 0.016564952048823016,
      "grad_norm": 0.9159207344055176,
      "learning_rate": 9.9984670154025e-06,
      "loss": 10.2891,
      "step": 228
    },
    {
      "epoch": 0.016564952048823016,
      "eval_accuracy": 0.07503638658125239,
      "eval_loss": 10.2734375,
      "eval_runtime": 264.9834,
      "eval_samples_per_second": 127.431,
      "eval_steps_per_second": 2.657,
      "step": 228
    },
    {
      "epoch": 0.01663760534728277,
      "grad_norm": 0.9291688203811646,
      "learning_rate": 9.998459750072654e-06,
      "loss": 10.2734,
      "step": 229
    },
    {
      "epoch": 0.01663760534728277,
      "eval_accuracy": 0.0751111905082617,
      "eval_loss": 10.2734375,
      "eval_runtime": 265.3402,
      "eval_samples_per_second": 127.259,
      "eval_steps_per_second": 2.653,
      "step": 229
    },
    {
      "epoch": 0.016710258645742517,
      "grad_norm": 0.8605514168739319,
      "learning_rate": 9.998452484742808e-06,
      "loss": 10.2969,
      "step": 230
    },
    {
      "epoch": 0.016710258645742517,
      "eval_accuracy": 0.075049760967583,
      "eval_loss": 10.2734375,
      "eval_runtime": 266.7587,
      "eval_samples_per_second": 126.583,
      "eval_steps_per_second": 2.639,
      "step": 230
    },
    {
      "epoch": 0.016782911944202266,
      "grad_norm": 0.9553351998329163,
      "learning_rate": 9.998445219412962e-06,
      "loss": 10.2656,
      "step": 231
    },
    {
      "epoch": 0.016782911944202266,
      "eval_accuracy": 0.07486694873884313,
      "eval_loss": 10.2734375,
      "eval_runtime": 266.6123,
      "eval_samples_per_second": 126.652,
      "eval_steps_per_second": 2.641,
      "step": 231
    },
    {
      "epoch": 0.01685556524266202,
      "grad_norm": 0.9175562262535095,
      "learning_rate": 9.998437954083116e-06,
      "loss": 10.2734,
      "step": 232
    },
    {
      "epoch": 0.01685556524266202,
      "eval_accuracy": 0.07473213376667504,
      "eval_loss": 10.265625,
      "eval_runtime": 267.4978,
      "eval_samples_per_second": 126.233,
      "eval_steps_per_second": 2.632,
      "step": 232
    },
    {
      "epoch": 0.016928218541121767,
      "grad_norm": 0.9021575450897217,
      "learning_rate": 9.99843068875327e-06,
      "loss": 10.2734,
      "step": 233
    },
    {
      "epoch": 0.016928218541121767,
      "eval_accuracy": 0.0746572719418894,
      "eval_loss": 10.265625,
      "eval_runtime": 267.5513,
      "eval_samples_per_second": 126.208,
      "eval_steps_per_second": 2.631,
      "step": 233
    },
    {
      "epoch": 0.017000871839581516,
      "grad_norm": 0.8851971626281738,
      "learning_rate": 9.998423423423424e-06,
      "loss": 10.2734,
      "step": 234
    },
    {
      "epoch": 0.017000871839581516,
      "eval_accuracy": 0.07463700772017634,
      "eval_loss": 10.265625,
      "eval_runtime": 267.13,
      "eval_samples_per_second": 126.407,
      "eval_steps_per_second": 2.635,
      "step": 234
    },
    {
      "epoch": 0.01707352513804127,
      "grad_norm": 0.9394397139549255,
      "learning_rate": 9.998416158093578e-06,
      "loss": 10.2656,
      "step": 235
    },
    {
      "epoch": 0.01707352513804127,
      "eval_accuracy": 0.07467038578822655,
      "eval_loss": 10.265625,
      "eval_runtime": 265.7106,
      "eval_samples_per_second": 127.082,
      "eval_steps_per_second": 2.649,
      "step": 235
    },
    {
      "epoch": 0.017146178436501017,
      "grad_norm": 0.9121464490890503,
      "learning_rate": 9.998408892763732e-06,
      "loss": 10.2656,
      "step": 236
    },
    {
      "epoch": 0.017146178436501017,
      "eval_accuracy": 0.07478282326984581,
      "eval_loss": 10.265625,
      "eval_runtime": 267.6727,
      "eval_samples_per_second": 126.15,
      "eval_steps_per_second": 2.63,
      "step": 236
    },
    {
      "epoch": 0.017218831734960766,
      "grad_norm": 0.8910766839981079,
      "learning_rate": 9.998401627433887e-06,
      "loss": 10.2734,
      "step": 237
    },
    {
      "epoch": 0.017218831734960766,
      "eval_accuracy": 0.07491986730640236,
      "eval_loss": 10.2578125,
      "eval_runtime": 268.4345,
      "eval_samples_per_second": 125.792,
      "eval_steps_per_second": 2.623,
      "step": 237
    },
    {
      "epoch": 0.01729148503342052,
      "grad_norm": 0.9403276443481445,
      "learning_rate": 9.99839436210404e-06,
      "loss": 10.2656,
      "step": 238
    },
    {
      "epoch": 0.01729148503342052,
      "eval_accuracy": 0.07518078363540195,
      "eval_loss": 10.2578125,
      "eval_runtime": 267.0058,
      "eval_samples_per_second": 126.465,
      "eval_steps_per_second": 2.637,
      "step": 238
    },
    {
      "epoch": 0.017364138331880268,
      "grad_norm": 0.8892084956169128,
      "learning_rate": 9.998387096774195e-06,
      "loss": 10.2734,
      "step": 239
    },
    {
      "epoch": 0.017364138331880268,
      "eval_accuracy": 0.07545047147751449,
      "eval_loss": 10.2578125,
      "eval_runtime": 265.2789,
      "eval_samples_per_second": 127.289,
      "eval_steps_per_second": 2.654,
      "step": 239
    },
    {
      "epoch": 0.017436791630340016,
      "grad_norm": 0.9249821305274963,
      "learning_rate": 9.998379831444348e-06,
      "loss": 10.2578,
      "step": 240
    },
    {
      "epoch": 0.017436791630340016,
      "eval_accuracy": 0.07559730023826962,
      "eval_loss": 10.2578125,
      "eval_runtime": 265.5188,
      "eval_samples_per_second": 127.174,
      "eval_steps_per_second": 2.651,
      "step": 240
    },
    {
      "epoch": 0.01750944492879977,
      "grad_norm": 0.8785547614097595,
      "learning_rate": 9.998372566114503e-06,
      "loss": 10.2734,
      "step": 241
    },
    {
      "epoch": 0.01750944492879977,
      "eval_accuracy": 0.07564480536374263,
      "eval_loss": 10.2578125,
      "eval_runtime": 265.4778,
      "eval_samples_per_second": 127.193,
      "eval_steps_per_second": 2.652,
      "step": 241
    },
    {
      "epoch": 0.017582098227259518,
      "grad_norm": 0.9142479300498962,
      "learning_rate": 9.998365300784656e-06,
      "loss": 10.2656,
      "step": 242
    },
    {
      "epoch": 0.017582098227259518,
      "eval_accuracy": 0.07562578594422054,
      "eval_loss": 10.25,
      "eval_runtime": 265.3917,
      "eval_samples_per_second": 127.235,
      "eval_steps_per_second": 2.653,
      "step": 242
    },
    {
      "epoch": 0.017654751525719267,
      "grad_norm": 0.924387514591217,
      "learning_rate": 9.998358035454811e-06,
      "loss": 10.2578,
      "step": 243
    },
    {
      "epoch": 0.017654751525719267,
      "eval_accuracy": 0.07555361636603392,
      "eval_loss": 10.25,
      "eval_runtime": 263.7272,
      "eval_samples_per_second": 128.038,
      "eval_steps_per_second": 2.669,
      "step": 243
    },
    {
      "epoch": 0.01772740482417902,
      "grad_norm": 0.9198188185691833,
      "learning_rate": 9.998350770124965e-06,
      "loss": 10.2578,
      "step": 244
    },
    {
      "epoch": 0.01772740482417902,
      "eval_accuracy": 0.07558369426083371,
      "eval_loss": 10.25,
      "eval_runtime": 264.6264,
      "eval_samples_per_second": 127.603,
      "eval_steps_per_second": 2.66,
      "step": 244
    },
    {
      "epoch": 0.017800058122638768,
      "grad_norm": 0.9178450703620911,
      "learning_rate": 9.998343504795119e-06,
      "loss": 10.2578,
      "step": 245
    },
    {
      "epoch": 0.017800058122638768,
      "eval_accuracy": 0.07555222681940216,
      "eval_loss": 10.25,
      "eval_runtime": 264.3962,
      "eval_samples_per_second": 127.714,
      "eval_steps_per_second": 2.663,
      "step": 245
    },
    {
      "epoch": 0.017872711421098517,
      "grad_norm": 0.8939234614372253,
      "learning_rate": 9.998336239465273e-06,
      "loss": 10.2578,
      "step": 246
    },
    {
      "epoch": 0.017872711421098517,
      "eval_accuracy": 0.07556374847689043,
      "eval_loss": 10.25,
      "eval_runtime": 264.4976,
      "eval_samples_per_second": 127.665,
      "eval_steps_per_second": 2.662,
      "step": 246
    },
    {
      "epoch": 0.01794536471955827,
      "grad_norm": 0.9162428379058838,
      "learning_rate": 9.998328974135427e-06,
      "loss": 10.2578,
      "step": 247
    },
    {
      "epoch": 0.01794536471955827,
      "eval_accuracy": 0.07567158308529202,
      "eval_loss": 10.2421875,
      "eval_runtime": 264.7261,
      "eval_samples_per_second": 127.554,
      "eval_steps_per_second": 2.659,
      "step": 247
    },
    {
      "epoch": 0.018018018018018018,
      "grad_norm": 0.8900968432426453,
      "learning_rate": 9.998321708805581e-06,
      "loss": 10.2578,
      "step": 248
    },
    {
      "epoch": 0.018018018018018018,
      "eval_accuracy": 0.07578150201364124,
      "eval_loss": 10.2421875,
      "eval_runtime": 264.8491,
      "eval_samples_per_second": 127.495,
      "eval_steps_per_second": 2.658,
      "step": 248
    },
    {
      "epoch": 0.018090671316477767,
      "grad_norm": 0.9296072721481323,
      "learning_rate": 9.998314443475735e-06,
      "loss": 10.2422,
      "step": 249
    },
    {
      "epoch": 0.018090671316477767,
      "eval_accuracy": 0.07588282312220648,
      "eval_loss": 10.2421875,
      "eval_runtime": 265.9596,
      "eval_samples_per_second": 126.963,
      "eval_steps_per_second": 2.647,
      "step": 249
    },
    {
      "epoch": 0.01816332461493752,
      "grad_norm": 0.9414094686508179,
      "learning_rate": 9.998307178145889e-06,
      "loss": 10.2422,
      "step": 250
    },
    {
      "epoch": 0.01816332461493752,
      "eval_accuracy": 0.07589431583080661,
      "eval_loss": 10.2421875,
      "eval_runtime": 265.5852,
      "eval_samples_per_second": 127.142,
      "eval_steps_per_second": 2.651,
      "step": 250
    },
    {
      "epoch": 0.018235977913397268,
      "grad_norm": 0.9078280329704285,
      "learning_rate": 9.998299912816043e-06,
      "loss": 10.2422,
      "step": 251
    },
    {
      "epoch": 0.018235977913397268,
      "eval_accuracy": 0.07588244678666038,
      "eval_loss": 10.2421875,
      "eval_runtime": 266.4837,
      "eval_samples_per_second": 126.713,
      "eval_steps_per_second": 2.642,
      "step": 251
    },
    {
      "epoch": 0.018308631211857017,
      "grad_norm": 0.9042601585388184,
      "learning_rate": 9.998292647486197e-06,
      "loss": 10.2422,
      "step": 252
    },
    {
      "epoch": 0.018308631211857017,
      "eval_accuracy": 0.07590384001501174,
      "eval_loss": 10.234375,
      "eval_runtime": 265.9021,
      "eval_samples_per_second": 126.99,
      "eval_steps_per_second": 2.648,
      "step": 252
    },
    {
      "epoch": 0.01838128451031677,
      "grad_norm": 0.9029207825660706,
      "learning_rate": 9.99828538215635e-06,
      "loss": 10.2422,
      "step": 253
    },
    {
      "epoch": 0.01838128451031677,
      "eval_accuracy": 0.0758776991690019,
      "eval_loss": 10.234375,
      "eval_runtime": 264.8706,
      "eval_samples_per_second": 127.485,
      "eval_steps_per_second": 2.658,
      "step": 253
    },
    {
      "epoch": 0.018453937808776518,
      "grad_norm": 0.901042640209198,
      "learning_rate": 9.998278116826505e-06,
      "loss": 10.2422,
      "step": 254
    },
    {
      "epoch": 0.018453937808776518,
      "eval_accuracy": 0.075944397407326,
      "eval_loss": 10.234375,
      "eval_runtime": 266.8196,
      "eval_samples_per_second": 126.554,
      "eval_steps_per_second": 2.638,
      "step": 254
    },
    {
      "epoch": 0.018526591107236267,
      "grad_norm": 0.921441376209259,
      "learning_rate": 9.998270851496658e-06,
      "loss": 10.2422,
      "step": 255
    },
    {
      "epoch": 0.018526591107236267,
      "eval_accuracy": 0.07608468371935663,
      "eval_loss": 10.234375,
      "eval_runtime": 266.5157,
      "eval_samples_per_second": 126.698,
      "eval_steps_per_second": 2.641,
      "step": 255
    },
    {
      "epoch": 0.01859924440569602,
      "grad_norm": 0.9235514998435974,
      "learning_rate": 9.998263586166812e-06,
      "loss": 10.2422,
      "step": 256
    },
    {
      "epoch": 0.01859924440569602,
      "eval_accuracy": 0.07609151565696273,
      "eval_loss": 10.234375,
      "eval_runtime": 265.5975,
      "eval_samples_per_second": 127.136,
      "eval_steps_per_second": 2.651,
      "step": 256
    },
    {
      "epoch": 0.018671897704155768,
      "grad_norm": 0.8886791467666626,
      "learning_rate": 9.998256320836966e-06,
      "loss": 10.2422,
      "step": 257
    },
    {
      "epoch": 0.018671897704155768,
      "eval_accuracy": 0.07604354734927914,
      "eval_loss": 10.2265625,
      "eval_runtime": 266.183,
      "eval_samples_per_second": 126.856,
      "eval_steps_per_second": 2.645,
      "step": 257
    },
    {
      "epoch": 0.018744551002615517,
      "grad_norm": 0.8807479739189148,
      "learning_rate": 9.99824905550712e-06,
      "loss": 10.2422,
      "step": 258
    },
    {
      "epoch": 0.018744551002615517,
      "eval_accuracy": 0.07599326313054261,
      "eval_loss": 10.2265625,
      "eval_runtime": 266.5367,
      "eval_samples_per_second": 126.688,
      "eval_steps_per_second": 2.641,
      "step": 258
    },
    {
      "epoch": 0.01881720430107527,
      "grad_norm": 0.902275025844574,
      "learning_rate": 9.998241790177274e-06,
      "loss": 10.2344,
      "step": 259
    },
    {
      "epoch": 0.01881720430107527,
      "eval_accuracy": 0.07592763600108049,
      "eval_loss": 10.2265625,
      "eval_runtime": 265.7243,
      "eval_samples_per_second": 127.075,
      "eval_steps_per_second": 2.649,
      "step": 259
    },
    {
      "epoch": 0.01888985759953502,
      "grad_norm": 0.8911043405532837,
      "learning_rate": 9.998234524847428e-06,
      "loss": 10.2344,
      "step": 260
    },
    {
      "epoch": 0.01888985759953502,
      "eval_accuracy": 0.07592697017665277,
      "eval_loss": 10.2265625,
      "eval_runtime": 265.6968,
      "eval_samples_per_second": 127.088,
      "eval_steps_per_second": 2.65,
      "step": 260
    },
    {
      "epoch": 0.01896251089799477,
      "grad_norm": 0.9092383980751038,
      "learning_rate": 9.998227259517584e-06,
      "loss": 10.2266,
      "step": 261
    },
    {
      "epoch": 0.01896251089799477,
      "eval_accuracy": 0.0759951448082731,
      "eval_loss": 10.2265625,
      "eval_runtime": 265.7199,
      "eval_samples_per_second": 127.077,
      "eval_steps_per_second": 2.649,
      "step": 261
    },
    {
      "epoch": 0.01903516419645452,
      "grad_norm": 0.928420901298523,
      "learning_rate": 9.998219994187736e-06,
      "loss": 10.2188,
      "step": 262
    },
    {
      "epoch": 0.01903516419645452,
      "eval_accuracy": 0.07604878709803636,
      "eval_loss": 10.21875,
      "eval_runtime": 265.3942,
      "eval_samples_per_second": 127.233,
      "eval_steps_per_second": 2.653,
      "step": 262
    },
    {
      "epoch": 0.01910781749491427,
      "grad_norm": 0.9022119641304016,
      "learning_rate": 9.998212728857892e-06,
      "loss": 10.2266,
      "step": 263
    },
    {
      "epoch": 0.01910781749491427,
      "eval_accuracy": 0.07615966133969491,
      "eval_loss": 10.21875,
      "eval_runtime": 265.8823,
      "eval_samples_per_second": 127.0,
      "eval_steps_per_second": 2.648,
      "step": 263
    },
    {
      "epoch": 0.01918047079337402,
      "grad_norm": 0.8958231210708618,
      "learning_rate": 9.998205463528044e-06,
      "loss": 10.2266,
      "step": 264
    },
    {
      "epoch": 0.01918047079337402,
      "eval_accuracy": 0.07618090982360545,
      "eval_loss": 10.21875,
      "eval_runtime": 264.9067,
      "eval_samples_per_second": 127.468,
      "eval_steps_per_second": 2.658,
      "step": 264
    },
    {
      "epoch": 0.01925312409183377,
      "grad_norm": 0.9452428817749023,
      "learning_rate": 9.9981981981982e-06,
      "loss": 10.2188,
      "step": 265
    },
    {
      "epoch": 0.01925312409183377,
      "eval_accuracy": 0.07618519425905335,
      "eval_loss": 10.21875,
      "eval_runtime": 265.6026,
      "eval_samples_per_second": 127.134,
      "eval_steps_per_second": 2.651,
      "step": 265
    },
    {
      "epoch": 0.01932577739029352,
      "grad_norm": 0.8848786354064941,
      "learning_rate": 9.998190932868354e-06,
      "loss": 10.2266,
      "step": 266
    },
    {
      "epoch": 0.01932577739029352,
      "eval_accuracy": 0.07619544216546252,
      "eval_loss": 10.21875,
      "eval_runtime": 264.5225,
      "eval_samples_per_second": 127.653,
      "eval_steps_per_second": 2.661,
      "step": 266
    },
    {
      "epoch": 0.01939843068875327,
      "grad_norm": 0.89435875415802,
      "learning_rate": 9.998183667538508e-06,
      "loss": 10.2188,
      "step": 267
    },
    {
      "epoch": 0.01939843068875327,
      "eval_accuracy": 0.07622743068688098,
      "eval_loss": 10.2109375,
      "eval_runtime": 263.8523,
      "eval_samples_per_second": 127.977,
      "eval_steps_per_second": 2.668,
      "step": 267
    },
    {
      "epoch": 0.01947108398721302,
      "grad_norm": 0.9147275686264038,
      "learning_rate": 9.998176402208661e-06,
      "loss": 10.2109,
      "step": 268
    },
    {
      "epoch": 0.01947108398721302,
      "eval_accuracy": 0.076288020709803,
      "eval_loss": 10.2109375,
      "eval_runtime": 264.7583,
      "eval_samples_per_second": 127.539,
      "eval_steps_per_second": 2.659,
      "step": 268
    },
    {
      "epoch": 0.01954373728567277,
      "grad_norm": 0.9651392102241516,
      "learning_rate": 9.998169136878815e-06,
      "loss": 10.2109,
      "step": 269
    },
    {
      "epoch": 0.01954373728567277,
      "eval_accuracy": 0.07618924710339596,
      "eval_loss": 10.2109375,
      "eval_runtime": 263.97,
      "eval_samples_per_second": 127.92,
      "eval_steps_per_second": 2.667,
      "step": 269
    },
    {
      "epoch": 0.01961639058413252,
      "grad_norm": 0.9311045408248901,
      "learning_rate": 9.99816187154897e-06,
      "loss": 10.2109,
      "step": 270
    },
    {
      "epoch": 0.01961639058413252,
      "eval_accuracy": 0.07608592852154757,
      "eval_loss": 10.2109375,
      "eval_runtime": 263.7922,
      "eval_samples_per_second": 128.006,
      "eval_steps_per_second": 2.669,
      "step": 270
    },
    {
      "epoch": 0.01968904388259227,
      "grad_norm": 0.9008721113204956,
      "learning_rate": 9.998154606219123e-06,
      "loss": 10.2188,
      "step": 271
    },
    {
      "epoch": 0.01968904388259227,
      "eval_accuracy": 0.07606844339309803,
      "eval_loss": 10.2109375,
      "eval_runtime": 263.8126,
      "eval_samples_per_second": 127.996,
      "eval_steps_per_second": 2.669,
      "step": 271
    },
    {
      "epoch": 0.01976169718105202,
      "grad_norm": 0.9026838541030884,
      "learning_rate": 9.998147340889277e-06,
      "loss": 10.2109,
      "step": 272
    },
    {
      "epoch": 0.01976169718105202,
      "eval_accuracy": 0.07600967715013018,
      "eval_loss": 10.203125,
      "eval_runtime": 265.1164,
      "eval_samples_per_second": 127.367,
      "eval_steps_per_second": 2.655,
      "step": 272
    },
    {
      "epoch": 0.01983435047951177,
      "grad_norm": 0.9332795143127441,
      "learning_rate": 9.998140075559431e-06,
      "loss": 10.2188,
      "step": 273
    },
    {
      "epoch": 0.01983435047951177,
      "eval_accuracy": 0.07610422421886563,
      "eval_loss": 10.203125,
      "eval_runtime": 266.0904,
      "eval_samples_per_second": 126.9,
      "eval_steps_per_second": 2.646,
      "step": 273
    },
    {
      "epoch": 0.01990700377797152,
      "grad_norm": 0.8622159361839294,
      "learning_rate": 9.998132810229585e-06,
      "loss": 10.2266,
      "step": 274
    },
    {
      "epoch": 0.01990700377797152,
      "eval_accuracy": 0.07618247306356617,
      "eval_loss": 10.203125,
      "eval_runtime": 265.3346,
      "eval_samples_per_second": 127.262,
      "eval_steps_per_second": 2.653,
      "step": 274
    },
    {
      "epoch": 0.01997965707643127,
      "grad_norm": 0.8802500367164612,
      "learning_rate": 9.998125544899739e-06,
      "loss": 10.2188,
      "step": 275
    },
    {
      "epoch": 0.01997965707643127,
      "eval_accuracy": 0.07621292729391207,
      "eval_loss": 10.203125,
      "eval_runtime": 263.5634,
      "eval_samples_per_second": 128.117,
      "eval_steps_per_second": 2.671,
      "step": 275
    },
    {
      "epoch": 0.02005231037489102,
      "grad_norm": 0.8940539956092834,
      "learning_rate": 9.998118279569893e-06,
      "loss": 10.2109,
      "step": 276
    },
    {
      "epoch": 0.02005231037489102,
      "eval_accuracy": 0.07612616747609205,
      "eval_loss": 10.1953125,
      "eval_runtime": 264.8033,
      "eval_samples_per_second": 127.517,
      "eval_steps_per_second": 2.659,
      "step": 276
    },
    {
      "epoch": 0.02012496367335077,
      "grad_norm": 0.9146431684494019,
      "learning_rate": 9.998111014240047e-06,
      "loss": 10.2109,
      "step": 277
    },
    {
      "epoch": 0.02012496367335077,
      "eval_accuracy": 0.07617022768387385,
      "eval_loss": 10.1953125,
      "eval_runtime": 264.0677,
      "eval_samples_per_second": 127.873,
      "eval_steps_per_second": 2.666,
      "step": 277
    },
    {
      "epoch": 0.02019761697181052,
      "grad_norm": 0.9410712122917175,
      "learning_rate": 9.998103748910201e-06,
      "loss": 10.1953,
      "step": 278
    },
    {
      "epoch": 0.02019761697181052,
      "eval_accuracy": 0.07624436578645546,
      "eval_loss": 10.1953125,
      "eval_runtime": 263.8716,
      "eval_samples_per_second": 127.968,
      "eval_steps_per_second": 2.668,
      "step": 278
    },
    {
      "epoch": 0.02027027027027027,
      "grad_norm": 0.8908507227897644,
      "learning_rate": 9.998096483580355e-06,
      "loss": 10.2031,
      "step": 279
    },
    {
      "epoch": 0.02027027027027027,
      "eval_accuracy": 0.07630177143167971,
      "eval_loss": 10.1953125,
      "eval_runtime": 263.3209,
      "eval_samples_per_second": 128.235,
      "eval_steps_per_second": 2.674,
      "step": 279
    },
    {
      "epoch": 0.02034292356873002,
      "grad_norm": 0.9145093560218811,
      "learning_rate": 9.998089218250509e-06,
      "loss": 10.2188,
      "step": 280
    },
    {
      "epoch": 0.02034292356873002,
      "eval_accuracy": 0.07648229669825482,
      "eval_loss": 10.1953125,
      "eval_runtime": 262.7765,
      "eval_samples_per_second": 128.501,
      "eval_steps_per_second": 2.679,
      "step": 280
    },
    {
      "epoch": 0.02041557686718977,
      "grad_norm": 0.9509057402610779,
      "learning_rate": 9.998081952920663e-06,
      "loss": 10.1953,
      "step": 281
    },
    {
      "epoch": 0.02041557686718977,
      "eval_accuracy": 0.07658419678458331,
      "eval_loss": 10.1875,
      "eval_runtime": 264.7797,
      "eval_samples_per_second": 127.529,
      "eval_steps_per_second": 2.659,
      "step": 281
    },
    {
      "epoch": 0.02048823016564952,
      "grad_norm": 0.9156680107116699,
      "learning_rate": 9.998074687590817e-06,
      "loss": 10.1953,
      "step": 282
    },
    {
      "epoch": 0.02048823016564952,
      "eval_accuracy": 0.07667509629341042,
      "eval_loss": 10.1875,
      "eval_runtime": 264.7774,
      "eval_samples_per_second": 127.53,
      "eval_steps_per_second": 2.659,
      "step": 282
    },
    {
      "epoch": 0.02056088346410927,
      "grad_norm": 0.9039434194564819,
      "learning_rate": 9.998067422260972e-06,
      "loss": 10.2031,
      "step": 283
    },
    {
      "epoch": 0.02056088346410927,
      "eval_accuracy": 0.07671203507470449,
      "eval_loss": 10.1875,
      "eval_runtime": 264.8864,
      "eval_samples_per_second": 127.477,
      "eval_steps_per_second": 2.658,
      "step": 283
    },
    {
      "epoch": 0.02063353676256902,
      "grad_norm": 0.9945496320724487,
      "learning_rate": 9.998060156931125e-06,
      "loss": 10.1797,
      "step": 284
    },
    {
      "epoch": 0.02063353676256902,
      "eval_accuracy": 0.0766314992678392,
      "eval_loss": 10.1875,
      "eval_runtime": 264.5241,
      "eval_samples_per_second": 127.652,
      "eval_steps_per_second": 2.661,
      "step": 284
    },
    {
      "epoch": 0.02070619006102877,
      "grad_norm": 1.0437395572662354,
      "learning_rate": 9.99805289160128e-06,
      "loss": 10.1953,
      "step": 285
    },
    {
      "epoch": 0.02070619006102877,
      "eval_accuracy": 0.07648548107595259,
      "eval_loss": 10.1875,
      "eval_runtime": 265.3496,
      "eval_samples_per_second": 127.255,
      "eval_steps_per_second": 2.653,
      "step": 285
    },
    {
      "epoch": 0.02077884335948852,
      "grad_norm": 0.9568849802017212,
      "learning_rate": 9.998045626271433e-06,
      "loss": 10.1953,
      "step": 286
    },
    {
      "epoch": 0.02077884335948852,
      "eval_accuracy": 0.07641924601983908,
      "eval_loss": 10.1796875,
      "eval_runtime": 264.6514,
      "eval_samples_per_second": 127.59,
      "eval_steps_per_second": 2.66,
      "step": 286
    },
    {
      "epoch": 0.02085149665794827,
      "grad_norm": 0.9541803002357483,
      "learning_rate": 9.998038360941588e-06,
      "loss": 10.1875,
      "step": 287
    },
    {
      "epoch": 0.02085149665794827,
      "eval_accuracy": 0.07642651219076761,
      "eval_loss": 10.1796875,
      "eval_runtime": 264.1269,
      "eval_samples_per_second": 127.844,
      "eval_steps_per_second": 2.665,
      "step": 287
    },
    {
      "epoch": 0.020924149956408022,
      "grad_norm": 0.8972413539886475,
      "learning_rate": 9.998031095611742e-06,
      "loss": 10.1953,
      "step": 288
    },
    {
      "epoch": 0.020924149956408022,
      "eval_accuracy": 0.0764929209402101,
      "eval_loss": 10.1796875,
      "eval_runtime": 262.3613,
      "eval_samples_per_second": 128.704,
      "eval_steps_per_second": 2.683,
      "step": 288
    },
    {
      "epoch": 0.02099680325486777,
      "grad_norm": 0.9032208323478699,
      "learning_rate": 9.998023830281896e-06,
      "loss": 10.1875,
      "step": 289
    },
    {
      "epoch": 0.02099680325486777,
      "eval_accuracy": 0.07653272566143215,
      "eval_loss": 10.1796875,
      "eval_runtime": 264.0713,
      "eval_samples_per_second": 127.871,
      "eval_steps_per_second": 2.666,
      "step": 289
    },
    {
      "epoch": 0.02106945655332752,
      "grad_norm": 0.9714264869689941,
      "learning_rate": 9.99801656495205e-06,
      "loss": 10.1875,
      "step": 290
    },
    {
      "epoch": 0.02106945655332752,
      "eval_accuracy": 0.07676037971793419,
      "eval_loss": 10.1796875,
      "eval_runtime": 265.0307,
      "eval_samples_per_second": 127.408,
      "eval_steps_per_second": 2.656,
      "step": 290
    },
    {
      "epoch": 0.021142109851787272,
      "grad_norm": 0.9713578820228577,
      "learning_rate": 9.998009299622204e-06,
      "loss": 10.1797,
      "step": 291
    },
    {
      "epoch": 0.021142109851787272,
      "eval_accuracy": 0.07695943227293267,
      "eval_loss": 10.171875,
      "eval_runtime": 264.6088,
      "eval_samples_per_second": 127.611,
      "eval_steps_per_second": 2.661,
      "step": 291
    },
    {
      "epoch": 0.02121476315024702,
      "grad_norm": 0.947812557220459,
      "learning_rate": 9.998002034292358e-06,
      "loss": 10.1719,
      "step": 292
    },
    {
      "epoch": 0.02121476315024702,
      "eval_accuracy": 0.07713083863973691,
      "eval_loss": 10.171875,
      "eval_runtime": 263.4033,
      "eval_samples_per_second": 128.195,
      "eval_steps_per_second": 2.673,
      "step": 292
    },
    {
      "epoch": 0.02128741644870677,
      "grad_norm": 0.980165421962738,
      "learning_rate": 9.997994768962512e-06,
      "loss": 10.1719,
      "step": 293
    },
    {
      "epoch": 0.02128741644870677,
      "eval_accuracy": 0.07723297031717068,
      "eval_loss": 10.171875,
      "eval_runtime": 264.0562,
      "eval_samples_per_second": 127.878,
      "eval_steps_per_second": 2.666,
      "step": 293
    },
    {
      "epoch": 0.021360069747166522,
      "grad_norm": 0.9119016528129578,
      "learning_rate": 9.997987503632666e-06,
      "loss": 10.1797,
      "step": 294
    },
    {
      "epoch": 0.021360069747166522,
      "eval_accuracy": 0.07731897746389849,
      "eval_loss": 10.171875,
      "eval_runtime": 265.096,
      "eval_samples_per_second": 127.377,
      "eval_steps_per_second": 2.656,
      "step": 294
    },
    {
      "epoch": 0.02143272304562627,
      "grad_norm": 0.9215472936630249,
      "learning_rate": 9.99798023830282e-06,
      "loss": 10.1797,
      "step": 295
    },
    {
      "epoch": 0.02143272304562627,
      "eval_accuracy": 0.07734911325647462,
      "eval_loss": 10.171875,
      "eval_runtime": 264.1241,
      "eval_samples_per_second": 127.845,
      "eval_steps_per_second": 2.665,
      "step": 295
    },
    {
      "epoch": 0.021505376344086023,
      "grad_norm": 0.915708601474762,
      "learning_rate": 9.997972972972974e-06,
      "loss": 10.1641,
      "step": 296
    },
    {
      "epoch": 0.021505376344086023,
      "eval_accuracy": 0.07730580571978501,
      "eval_loss": 10.1640625,
      "eval_runtime": 262.6233,
      "eval_samples_per_second": 128.576,
      "eval_steps_per_second": 2.681,
      "step": 296
    },
    {
      "epoch": 0.021578029642545772,
      "grad_norm": 0.9310121536254883,
      "learning_rate": 9.997965707643128e-06,
      "loss": 10.1719,
      "step": 297
    },
    {
      "epoch": 0.021578029642545772,
      "eval_accuracy": 0.07730317137096232,
      "eval_loss": 10.1640625,
      "eval_runtime": 263.411,
      "eval_samples_per_second": 128.191,
      "eval_steps_per_second": 2.673,
      "step": 297
    },
    {
      "epoch": 0.02165068294100552,
      "grad_norm": 0.9275549650192261,
      "learning_rate": 9.997958442313282e-06,
      "loss": 10.1719,
      "step": 298
    },
    {
      "epoch": 0.02165068294100552,
      "eval_accuracy": 0.07726713000520125,
      "eval_loss": 10.1640625,
      "eval_runtime": 263.956,
      "eval_samples_per_second": 127.927,
      "eval_steps_per_second": 2.667,
      "step": 298
    },
    {
      "epoch": 0.021723336239465273,
      "grad_norm": 0.9178668260574341,
      "learning_rate": 9.997951176983435e-06,
      "loss": 10.1719,
      "step": 299
    },
    {
      "epoch": 0.021723336239465273,
      "eval_accuracy": 0.07729367613564535,
      "eval_loss": 10.1640625,
      "eval_runtime": 263.6087,
      "eval_samples_per_second": 128.095,
      "eval_steps_per_second": 2.671,
      "step": 299
    },
    {
      "epoch": 0.021795989537925022,
      "grad_norm": 0.9181063175201416,
      "learning_rate": 9.997943911653591e-06,
      "loss": 10.1719,
      "step": 300
    },
    {
      "epoch": 0.021795989537925022,
      "eval_accuracy": 0.0773372442123284,
      "eval_loss": 10.1640625,
      "eval_runtime": 264.6871,
      "eval_samples_per_second": 127.573,
      "eval_steps_per_second": 2.66,
      "step": 300
    },
    {
      "epoch": 0.02186864283638477,
      "grad_norm": 0.9063278436660767,
      "learning_rate": 9.997936646323743e-06,
      "loss": 10.1641,
      "step": 301
    },
    {
      "epoch": 0.02186864283638477,
      "eval_accuracy": 0.07729164971347403,
      "eval_loss": 10.1640625,
      "eval_runtime": 263.4469,
      "eval_samples_per_second": 128.174,
      "eval_steps_per_second": 2.672,
      "step": 301
    },
    {
      "epoch": 0.021941296134844523,
      "grad_norm": 0.9040680527687073,
      "learning_rate": 9.997929380993899e-06,
      "loss": 10.1562,
      "step": 302
    },
    {
      "epoch": 0.021941296134844523,
      "eval_accuracy": 0.07716485358332667,
      "eval_loss": 10.15625,
      "eval_runtime": 264.4717,
      "eval_samples_per_second": 127.677,
      "eval_steps_per_second": 2.662,
      "step": 302
    },
    {
      "epoch": 0.022013949433304272,
      "grad_norm": 0.9027392864227295,
      "learning_rate": 9.997922115664051e-06,
      "loss": 10.1719,
      "step": 303
    },
    {
      "epoch": 0.022013949433304272,
      "eval_accuracy": 0.0771164799912088,
      "eval_loss": 10.15625,
      "eval_runtime": 263.5132,
      "eval_samples_per_second": 128.142,
      "eval_steps_per_second": 2.672,
      "step": 303
    },
    {
      "epoch": 0.02208660273176402,
      "grad_norm": 0.9688916802406311,
      "learning_rate": 9.997914850334205e-06,
      "loss": 10.1562,
      "step": 304
    },
    {
      "epoch": 0.02208660273176402,
      "eval_accuracy": 0.07716798006324811,
      "eval_loss": 10.15625,
      "eval_runtime": 265.6792,
      "eval_samples_per_second": 127.097,
      "eval_steps_per_second": 2.65,
      "step": 304
    },
    {
      "epoch": 0.022159256030223774,
      "grad_norm": 0.9013357162475586,
      "learning_rate": 9.997907585004361e-06,
      "loss": 10.1641,
      "step": 305
    },
    {
      "epoch": 0.022159256030223774,
      "eval_accuracy": 0.07729283661788866,
      "eval_loss": 10.15625,
      "eval_runtime": 263.3689,
      "eval_samples_per_second": 128.212,
      "eval_steps_per_second": 2.673,
      "step": 305
    },
    {
      "epoch": 0.022231909328683522,
      "grad_norm": 0.9209669828414917,
      "learning_rate": 9.997900319674513e-06,
      "loss": 10.1562,
      "step": 306
    },
    {
      "epoch": 0.022231909328683522,
      "eval_accuracy": 0.07727607521164315,
      "eval_loss": 10.1484375,
      "eval_runtime": 262.7117,
      "eval_samples_per_second": 128.533,
      "eval_steps_per_second": 2.68,
      "step": 306
    },
    {
      "epoch": 0.02230456262714327,
      "grad_norm": 0.9404518604278564,
      "learning_rate": 9.997893054344669e-06,
      "loss": 10.1641,
      "step": 307
    },
    {
      "epoch": 0.02230456262714327,
      "eval_accuracy": 0.07732798056811672,
      "eval_loss": 10.1484375,
      "eval_runtime": 264.5099,
      "eval_samples_per_second": 127.659,
      "eval_steps_per_second": 2.662,
      "step": 307
    },
    {
      "epoch": 0.022377215925603024,
      "grad_norm": 0.8949778079986572,
      "learning_rate": 9.997885789014821e-06,
      "loss": 10.1719,
      "step": 308
    },
    {
      "epoch": 0.022377215925603024,
      "eval_accuracy": 0.07748395717753088,
      "eval_loss": 10.1484375,
      "eval_runtime": 265.2866,
      "eval_samples_per_second": 127.285,
      "eval_steps_per_second": 2.654,
      "step": 308
    },
    {
      "epoch": 0.022449869224062773,
      "grad_norm": 0.9001926183700562,
      "learning_rate": 9.997878523684977e-06,
      "loss": 10.1562,
      "step": 309
    },
    {
      "epoch": 0.022449869224062773,
      "eval_accuracy": 0.07751218234348835,
      "eval_loss": 10.1484375,
      "eval_runtime": 265.0408,
      "eval_samples_per_second": 127.403,
      "eval_steps_per_second": 2.656,
      "step": 309
    },
    {
      "epoch": 0.02252252252252252,
      "grad_norm": 0.9069272875785828,
      "learning_rate": 9.997871258355129e-06,
      "loss": 10.1719,
      "step": 310
    },
    {
      "epoch": 0.02252252252252252,
      "eval_accuracy": 0.07750650836140868,
      "eval_loss": 10.1484375,
      "eval_runtime": 265.3373,
      "eval_samples_per_second": 127.261,
      "eval_steps_per_second": 2.653,
      "step": 310
    },
    {
      "epoch": 0.022595175820982274,
      "grad_norm": 0.92779940366745,
      "learning_rate": 9.997863993025285e-06,
      "loss": 10.1562,
      "step": 311
    },
    {
      "epoch": 0.022595175820982274,
      "eval_accuracy": 0.07742909903446483,
      "eval_loss": 10.140625,
      "eval_runtime": 264.244,
      "eval_samples_per_second": 127.787,
      "eval_steps_per_second": 2.664,
      "step": 311
    },
    {
      "epoch": 0.022667829119442023,
      "grad_norm": 0.9007747769355774,
      "learning_rate": 9.997856727695438e-06,
      "loss": 10.1562,
      "step": 312
    },
    {
      "epoch": 0.022667829119442023,
      "eval_accuracy": 0.07736051911841024,
      "eval_loss": 10.140625,
      "eval_runtime": 265.1787,
      "eval_samples_per_second": 127.337,
      "eval_steps_per_second": 2.655,
      "step": 312
    },
    {
      "epoch": 0.02274048241790177,
      "grad_norm": 0.9027653336524963,
      "learning_rate": 9.997849462365592e-06,
      "loss": 10.1562,
      "step": 313
    },
    {
      "epoch": 0.02274048241790177,
      "eval_accuracy": 0.07730719526641676,
      "eval_loss": 10.140625,
      "eval_runtime": 262.9549,
      "eval_samples_per_second": 128.414,
      "eval_steps_per_second": 2.677,
      "step": 313
    },
    {
      "epoch": 0.022813135716361524,
      "grad_norm": 0.9862774610519409,
      "learning_rate": 9.997842197035746e-06,
      "loss": 10.1406,
      "step": 314
    },
    {
      "epoch": 0.022813135716361524,
      "eval_accuracy": 0.07735834795179813,
      "eval_loss": 10.140625,
      "eval_runtime": 263.4521,
      "eval_samples_per_second": 128.171,
      "eval_steps_per_second": 2.672,
      "step": 314
    },
    {
      "epoch": 0.022885789014821273,
      "grad_norm": 0.9319806694984436,
      "learning_rate": 9.9978349317059e-06,
      "loss": 10.1406,
      "step": 315
    },
    {
      "epoch": 0.022885789014821273,
      "eval_accuracy": 0.07738877323325587,
      "eval_loss": 10.140625,
      "eval_runtime": 262.7183,
      "eval_samples_per_second": 128.529,
      "eval_steps_per_second": 2.68,
      "step": 315
    },
    {
      "epoch": 0.02295844231328102,
      "grad_norm": 0.9190651774406433,
      "learning_rate": 9.997827666376054e-06,
      "loss": 10.1406,
      "step": 316
    },
    {
      "epoch": 0.02295844231328102,
      "eval_accuracy": 0.07740159759071141,
      "eval_loss": 10.140625,
      "eval_runtime": 264.3693,
      "eval_samples_per_second": 127.727,
      "eval_steps_per_second": 2.663,
      "step": 316
    },
    {
      "epoch": 0.023031095611740774,
      "grad_norm": 0.9385405778884888,
      "learning_rate": 9.997820401046208e-06,
      "loss": 10.1328,
      "step": 317
    },
    {
      "epoch": 0.023031095611740774,
      "eval_accuracy": 0.07745408192494821,
      "eval_loss": 10.1328125,
      "eval_runtime": 263.8288,
      "eval_samples_per_second": 127.988,
      "eval_steps_per_second": 2.668,
      "step": 317
    },
    {
      "epoch": 0.023103748910200523,
      "grad_norm": 0.9594412446022034,
      "learning_rate": 9.997813135716362e-06,
      "loss": 10.1484,
      "step": 318
    },
    {
      "epoch": 0.023103748910200523,
      "eval_accuracy": 0.07749652099499298,
      "eval_loss": 10.1328125,
      "eval_runtime": 262.8505,
      "eval_samples_per_second": 128.465,
      "eval_steps_per_second": 2.678,
      "step": 318
    },
    {
      "epoch": 0.023176402208660272,
      "grad_norm": 0.9393614530563354,
      "learning_rate": 9.997805870386516e-06,
      "loss": 10.1328,
      "step": 319
    },
    {
      "epoch": 0.023176402208660272,
      "eval_accuracy": 0.07747440404443759,
      "eval_loss": 10.1328125,
      "eval_runtime": 263.8311,
      "eval_samples_per_second": 127.987,
      "eval_steps_per_second": 2.668,
      "step": 319
    },
    {
      "epoch": 0.023249055507120024,
      "grad_norm": 0.9211113452911377,
      "learning_rate": 9.99779860505667e-06,
      "loss": 10.1328,
      "step": 320
    },
    {
      "epoch": 0.023249055507120024,
      "eval_accuracy": 0.07746320082471908,
      "eval_loss": 10.1328125,
      "eval_runtime": 264.0976,
      "eval_samples_per_second": 127.858,
      "eval_steps_per_second": 2.666,
      "step": 320
    },
    {
      "epoch": 0.023321708805579773,
      "grad_norm": 0.9568068385124207,
      "learning_rate": 9.997791339726824e-06,
      "loss": 10.125,
      "step": 321
    },
    {
      "epoch": 0.023321708805579773,
      "eval_accuracy": 0.07749640519944033,
      "eval_loss": 10.1328125,
      "eval_runtime": 264.3338,
      "eval_samples_per_second": 127.744,
      "eval_steps_per_second": 2.663,
      "step": 321
    },
    {
      "epoch": 0.023394362104039522,
      "grad_norm": 0.9372284412384033,
      "learning_rate": 9.99778407439698e-06,
      "loss": 10.1406,
      "step": 322
    },
    {
      "epoch": 0.023394362104039522,
      "eval_accuracy": 0.07760533986559205,
      "eval_loss": 10.125,
      "eval_runtime": 264.2267,
      "eval_samples_per_second": 127.796,
      "eval_steps_per_second": 2.664,
      "step": 322
    },
    {
      "epoch": 0.023467015402499274,
      "grad_norm": 0.9022813439369202,
      "learning_rate": 9.997776809067132e-06,
      "loss": 10.1328,
      "step": 323
    },
    {
      "epoch": 0.023467015402499274,
      "eval_accuracy": 0.07770527142752555,
      "eval_loss": 10.125,
      "eval_runtime": 263.5487,
      "eval_samples_per_second": 128.124,
      "eval_steps_per_second": 2.671,
      "step": 323
    },
    {
      "epoch": 0.023539668700959023,
      "grad_norm": 0.9569028615951538,
      "learning_rate": 9.997769543737288e-06,
      "loss": 10.125,
      "step": 324
    },
    {
      "epoch": 0.023539668700959023,
      "eval_accuracy": 0.07776036116169688,
      "eval_loss": 10.125,
      "eval_runtime": 264.1074,
      "eval_samples_per_second": 127.853,
      "eval_steps_per_second": 2.666,
      "step": 324
    },
    {
      "epoch": 0.023612321999418772,
      "grad_norm": 0.926621675491333,
      "learning_rate": 9.99776227840744e-06,
      "loss": 10.125,
      "step": 325
    },
    {
      "epoch": 0.023612321999418772,
      "eval_accuracy": 0.07774163123105639,
      "eval_loss": 10.125,
      "eval_runtime": 264.9077,
      "eval_samples_per_second": 127.467,
      "eval_steps_per_second": 2.658,
      "step": 325
    },
    {
      "epoch": 0.023684975297878524,
      "grad_norm": 0.8989631533622742,
      "learning_rate": 9.997755013077595e-06,
      "loss": 10.125,
      "step": 326
    },
    {
      "epoch": 0.023684975297878524,
      "eval_accuracy": 0.0777147087650662,
      "eval_loss": 10.125,
      "eval_runtime": 262.9955,
      "eval_samples_per_second": 128.394,
      "eval_steps_per_second": 2.677,
      "step": 326
    },
    {
      "epoch": 0.023757628596338273,
      "grad_norm": 0.918336033821106,
      "learning_rate": 9.997747747747748e-06,
      "loss": 10.1328,
      "step": 327
    },
    {
      "epoch": 0.023757628596338273,
      "eval_accuracy": 0.07771042432961829,
      "eval_loss": 10.1171875,
      "eval_runtime": 264.3981,
      "eval_samples_per_second": 127.713,
      "eval_steps_per_second": 2.663,
      "step": 327
    },
    {
      "epoch": 0.023830281894798022,
      "grad_norm": 0.9403995275497437,
      "learning_rate": 9.997740482417903e-06,
      "loss": 10.1172,
      "step": 328
    },
    {
      "epoch": 0.023830281894798022,
      "eval_accuracy": 0.07768630990577977,
      "eval_loss": 10.1171875,
      "eval_runtime": 262.3713,
      "eval_samples_per_second": 128.699,
      "eval_steps_per_second": 2.683,
      "step": 328
    },
    {
      "epoch": 0.023902935193257775,
      "grad_norm": 0.9186561703681946,
      "learning_rate": 9.997733217088057e-06,
      "loss": 10.1172,
      "step": 329
    },
    {
      "epoch": 0.023902935193257775,
      "eval_accuracy": 0.07772889372026533,
      "eval_loss": 10.1171875,
      "eval_runtime": 264.6641,
      "eval_samples_per_second": 127.584,
      "eval_steps_per_second": 2.66,
      "step": 329
    },
    {
      "epoch": 0.023975588491717523,
      "grad_norm": 0.9268199801445007,
      "learning_rate": 9.997725951758211e-06,
      "loss": 10.125,
      "step": 330
    },
    {
      "epoch": 0.023975588491717523,
      "eval_accuracy": 0.07778919425430574,
      "eval_loss": 10.1171875,
      "eval_runtime": 264.2577,
      "eval_samples_per_second": 127.781,
      "eval_steps_per_second": 2.664,
      "step": 330
    },
    {
      "epoch": 0.024048241790177276,
      "grad_norm": 0.9123356342315674,
      "learning_rate": 9.997718686428365e-06,
      "loss": 10.1094,
      "step": 331
    },
    {
      "epoch": 0.024048241790177276,
      "eval_accuracy": 0.07782868053775802,
      "eval_loss": 10.1171875,
      "eval_runtime": 264.6854,
      "eval_samples_per_second": 127.574,
      "eval_steps_per_second": 2.66,
      "step": 331
    },
    {
      "epoch": 0.024120895088637025,
      "grad_norm": 0.9475653767585754,
      "learning_rate": 9.997711421098517e-06,
      "loss": 10.1094,
      "step": 332
    },
    {
      "epoch": 0.024120895088637025,
      "eval_accuracy": 0.07771977482049446,
      "eval_loss": 10.109375,
      "eval_runtime": 264.176,
      "eval_samples_per_second": 127.82,
      "eval_steps_per_second": 2.665,
      "step": 332
    },
    {
      "epoch": 0.024193548387096774,
      "grad_norm": 0.9262251853942871,
      "learning_rate": 9.997704155768673e-06,
      "loss": 10.1094,
      "step": 333
    },
    {
      "epoch": 0.024193548387096774,
      "eval_accuracy": 0.07764413137572845,
      "eval_loss": 10.109375,
      "eval_runtime": 266.5418,
      "eval_samples_per_second": 126.686,
      "eval_steps_per_second": 2.641,
      "step": 333
    },
    {
      "epoch": 0.024266201685556526,
      "grad_norm": 0.9046162962913513,
      "learning_rate": 9.997696890438827e-06,
      "loss": 10.1172,
      "step": 334
    },
    {
      "epoch": 0.024266201685556526,
      "eval_accuracy": 0.07753328608295808,
      "eval_loss": 10.109375,
      "eval_runtime": 264.8485,
      "eval_samples_per_second": 127.496,
      "eval_steps_per_second": 2.658,
      "step": 334
    },
    {
      "epoch": 0.024338854984016275,
      "grad_norm": 0.8864550590515137,
      "learning_rate": 9.997689625108981e-06,
      "loss": 10.125,
      "step": 335
    },
    {
      "epoch": 0.024338854984016275,
      "eval_accuracy": 0.07736963801818111,
      "eval_loss": 10.109375,
      "eval_runtime": 262.4932,
      "eval_samples_per_second": 128.64,
      "eval_steps_per_second": 2.682,
      "step": 335
    },
    {
      "epoch": 0.024411508282476024,
      "grad_norm": 0.8957669138908386,
      "learning_rate": 9.997682359779135e-06,
      "loss": 10.1172,
      "step": 336
    },
    {
      "epoch": 0.024411508282476024,
      "eval_accuracy": 0.07715223186808826,
      "eval_loss": 10.109375,
      "eval_runtime": 264.8989,
      "eval_samples_per_second": 127.471,
      "eval_steps_per_second": 2.658,
      "step": 336
    },
    {
      "epoch": 0.024484161580935776,
      "grad_norm": 0.9608045816421509,
      "learning_rate": 9.997675094449289e-06,
      "loss": 10.1016,
      "step": 337
    },
    {
      "epoch": 0.024484161580935776,
      "eval_accuracy": 0.07713784427067198,
      "eval_loss": 10.1015625,
      "eval_runtime": 264.4843,
      "eval_samples_per_second": 127.671,
      "eval_steps_per_second": 2.662,
      "step": 337
    },
    {
      "epoch": 0.024556814879395525,
      "grad_norm": 0.9367948770523071,
      "learning_rate": 9.997667829119443e-06,
      "loss": 10.1094,
      "step": 338
    },
    {
      "epoch": 0.024556814879395525,
      "eval_accuracy": 0.0773351309434926,
      "eval_loss": 10.1015625,
      "eval_runtime": 264.3155,
      "eval_samples_per_second": 127.753,
      "eval_steps_per_second": 2.663,
      "step": 338
    },
    {
      "epoch": 0.024629468177855274,
      "grad_norm": 0.9086586833000183,
      "learning_rate": 9.997660563789597e-06,
      "loss": 10.1172,
      "step": 339
    },
    {
      "epoch": 0.024629468177855274,
      "eval_accuracy": 0.07753942324724832,
      "eval_loss": 10.1015625,
      "eval_runtime": 263.7541,
      "eval_samples_per_second": 128.025,
      "eval_steps_per_second": 2.669,
      "step": 339
    },
    {
      "epoch": 0.024702121476315026,
      "grad_norm": 0.936314046382904,
      "learning_rate": 9.99765329845975e-06,
      "loss": 10.1094,
      "step": 340
    },
    {
      "epoch": 0.024702121476315026,
      "eval_accuracy": 0.07769429979891233,
      "eval_loss": 10.1015625,
      "eval_runtime": 264.8284,
      "eval_samples_per_second": 127.505,
      "eval_steps_per_second": 2.658,
      "step": 340
    },
    {
      "epoch": 0.024774774774774775,
      "grad_norm": 0.8729653358459473,
      "learning_rate": 9.997646033129905e-06,
      "loss": 10.1172,
      "step": 341
    },
    {
      "epoch": 0.024774774774774775,
      "eval_accuracy": 0.07776137437278254,
      "eval_loss": 10.1015625,
      "eval_runtime": 264.1666,
      "eval_samples_per_second": 127.825,
      "eval_steps_per_second": 2.665,
      "step": 341
    },
    {
      "epoch": 0.024847428073234524,
      "grad_norm": 0.9122793078422546,
      "learning_rate": 9.997638767800059e-06,
      "loss": 10.0938,
      "step": 342
    },
    {
      "epoch": 0.024847428073234524,
      "eval_accuracy": 0.07787676464099427,
      "eval_loss": 10.09375,
      "eval_runtime": 264.3725,
      "eval_samples_per_second": 127.725,
      "eval_steps_per_second": 2.663,
      "step": 342
    },
    {
      "epoch": 0.024920081371694276,
      "grad_norm": 0.9096229076385498,
      "learning_rate": 9.997631502470212e-06,
      "loss": 10.1016,
      "step": 343
    },
    {
      "epoch": 0.024920081371694276,
      "eval_accuracy": 0.077991257493673,
      "eval_loss": 10.09375,
      "eval_runtime": 265.889,
      "eval_samples_per_second": 126.997,
      "eval_steps_per_second": 2.648,
      "step": 343
    },
    {
      "epoch": 0.024992734670154025,
      "grad_norm": 0.9116566181182861,
      "learning_rate": 9.997624237140366e-06,
      "loss": 10.0938,
      "step": 344
    },
    {
      "epoch": 0.024992734670154025,
      "eval_accuracy": 0.07803271230152027,
      "eval_loss": 10.09375,
      "eval_runtime": 263.9618,
      "eval_samples_per_second": 127.924,
      "eval_steps_per_second": 2.667,
      "step": 344
    },
    {
      "epoch": 0.025065387968613774,
      "grad_norm": 0.9252493381500244,
      "learning_rate": 9.99761697181052e-06,
      "loss": 10.0938,
      "step": 345
    },
    {
      "epoch": 0.025065387968613774,
      "eval_accuracy": 0.0780303674415792,
      "eval_loss": 10.09375,
      "eval_runtime": 264.8551,
      "eval_samples_per_second": 127.492,
      "eval_steps_per_second": 2.658,
      "step": 345
    },
    {
      "epoch": 0.025138041267073526,
      "grad_norm": 0.8922543525695801,
      "learning_rate": 9.997609706480676e-06,
      "loss": 10.1016,
      "step": 346
    },
    {
      "epoch": 0.025138041267073526,
      "eval_accuracy": 0.07808099904697366,
      "eval_loss": 10.09375,
      "eval_runtime": 264.1901,
      "eval_samples_per_second": 127.813,
      "eval_steps_per_second": 2.665,
      "step": 346
    },
    {
      "epoch": 0.025210694565533275,
      "grad_norm": 0.8663190603256226,
      "learning_rate": 9.997602441150828e-06,
      "loss": 10.1094,
      "step": 347
    },
    {
      "epoch": 0.025210694565533275,
      "eval_accuracy": 0.07801609563971557,
      "eval_loss": 10.0859375,
      "eval_runtime": 262.4011,
      "eval_samples_per_second": 128.685,
      "eval_steps_per_second": 2.683,
      "step": 347
    },
    {
      "epoch": 0.025283347863993024,
      "grad_norm": 0.9128501415252686,
      "learning_rate": 9.997595175820984e-06,
      "loss": 10.0938,
      "step": 348
    },
    {
      "epoch": 0.025283347863993024,
      "eval_accuracy": 0.07798708885377775,
      "eval_loss": 10.0859375,
      "eval_runtime": 263.7953,
      "eval_samples_per_second": 128.005,
      "eval_steps_per_second": 2.669,
      "step": 348
    },
    {
      "epoch": 0.025356001162452776,
      "grad_norm": 0.9011194705963135,
      "learning_rate": 9.997587910491136e-06,
      "loss": 10.0938,
      "step": 349
    },
    {
      "epoch": 0.025356001162452776,
      "eval_accuracy": 0.07796170067886012,
      "eval_loss": 10.0859375,
      "eval_runtime": 263.0115,
      "eval_samples_per_second": 128.386,
      "eval_steps_per_second": 2.677,
      "step": 349
    },
    {
      "epoch": 0.025428654460912525,
      "grad_norm": 0.9395301342010498,
      "learning_rate": 9.997580645161292e-06,
      "loss": 10.0859,
      "step": 350
    },
    {
      "epoch": 0.025428654460912525,
      "eval_accuracy": 0.0779401337571798,
      "eval_loss": 10.0859375,
      "eval_runtime": 265.4304,
      "eval_samples_per_second": 127.216,
      "eval_steps_per_second": 2.652,
      "step": 350
    },
    {
      "epoch": 0.025501307759372274,
      "grad_norm": 0.9046230316162109,
      "learning_rate": 9.997573379831446e-06,
      "loss": 10.0859,
      "step": 351
    },
    {
      "epoch": 0.025501307759372274,
      "eval_accuracy": 0.07796905369645313,
      "eval_loss": 10.0859375,
      "eval_runtime": 264.1028,
      "eval_samples_per_second": 127.856,
      "eval_steps_per_second": 2.666,
      "step": 351
    },
    {
      "epoch": 0.025573961057832027,
      "grad_norm": 0.9076169729232788,
      "learning_rate": 9.9975661145016e-06,
      "loss": 10.0938,
      "step": 352
    },
    {
      "epoch": 0.025573961057832027,
      "eval_accuracy": 0.07807518032045319,
      "eval_loss": 10.078125,
      "eval_runtime": 263.5124,
      "eval_samples_per_second": 128.142,
      "eval_steps_per_second": 2.672,
      "step": 352
    },
    {
      "epoch": 0.025573961057832027,
      "step": 352,
      "total_flos": 247015648788480.0,
      "train_loss": 10.390092329545455,
      "train_runtime": 94034.2968,
      "train_samples_per_second": 702.555,
      "train_steps_per_second": 14.637
    }
  ],
  "logging_steps": 1,
  "max_steps": 1376400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 1000000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 247015648788480.0,
  "train_batch_size": 48,
  "trial_name": null,
  "trial_params": null
}