{
  "best_metric": 0.90825,
  "best_model_checkpoint": "nathanReitinger/FASHION-vision/checkpoint-21375",
  "epoch": 60.0,
  "eval_steps": 500,
  "global_step": 22500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.523047685623169,
      "learning_rate": 1.3333333333333334e-07,
      "loss": 2.3075,
      "step": 10
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.5552763342857361,
      "learning_rate": 2.6666666666666667e-07,
      "loss": 2.3074,
      "step": 20
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5376197099685669,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 2.3035,
      "step": 30
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.6457321643829346,
      "learning_rate": 5.333333333333333e-07,
      "loss": 2.3037,
      "step": 40
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.5918385982513428,
      "learning_rate": 6.666666666666667e-07,
      "loss": 2.299,
      "step": 50
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.49572938680648804,
      "learning_rate": 8.000000000000001e-07,
      "loss": 2.2936,
      "step": 60
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.5726321935653687,
      "learning_rate": 9.333333333333334e-07,
      "loss": 2.2912,
      "step": 70
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.546880841255188,
      "learning_rate": 1.0666666666666667e-06,
      "loss": 2.2876,
      "step": 80
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5502996444702148,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 2.2779,
      "step": 90
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.5014591813087463,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 2.269,
      "step": 100
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.6471307873725891,
      "learning_rate": 1.4666666666666667e-06,
      "loss": 2.2635,
      "step": 110
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5403459668159485,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.2593,
      "step": 120
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.685127317905426,
      "learning_rate": 1.7333333333333334e-06,
      "loss": 2.2469,
      "step": 130
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.5315631031990051,
      "learning_rate": 1.8666666666666669e-06,
      "loss": 2.2402,
      "step": 140
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5637540817260742,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 2.2254,
      "step": 150
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.516559898853302,
      "learning_rate": 2.1333333333333334e-06,
      "loss": 2.2143,
      "step": 160
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.5694682002067566,
      "learning_rate": 2.266666666666667e-06,
      "loss": 2.2023,
      "step": 170
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5600557327270508,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 2.1909,
      "step": 180
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 0.5678396821022034,
      "learning_rate": 2.5333333333333334e-06,
      "loss": 2.1622,
      "step": 190
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.5785785913467407,
      "learning_rate": 2.666666666666667e-06,
      "loss": 2.142,
      "step": 200
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6398864984512329,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 2.1258,
      "step": 210
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 0.5946400165557861,
      "learning_rate": 2.9333333333333333e-06,
      "loss": 2.1083,
      "step": 220
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 0.582646906375885,
      "learning_rate": 3.066666666666667e-06,
      "loss": 2.0785,
      "step": 230
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5856070518493652,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 2.0405,
      "step": 240
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.5840105414390564,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 2.0181,
      "step": 250
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 0.6193951964378357,
      "learning_rate": 3.466666666666667e-06,
      "loss": 1.9919,
      "step": 260
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6050300002098083,
      "learning_rate": 3.6e-06,
      "loss": 1.9446,
      "step": 270
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 0.6478451490402222,
      "learning_rate": 3.7333333333333337e-06,
      "loss": 1.9049,
      "step": 280
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 0.6568677425384521,
      "learning_rate": 3.866666666666667e-06,
      "loss": 1.8365,
      "step": 290
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6807597875595093,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.7904,
      "step": 300
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 0.726629376411438,
      "learning_rate": 4.133333333333333e-06,
      "loss": 1.7604,
      "step": 310
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.666414201259613,
      "learning_rate": 4.266666666666667e-06,
      "loss": 1.6925,
      "step": 320
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7060936689376831,
      "learning_rate": 4.4e-06,
      "loss": 1.6647,
      "step": 330
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 0.7357079386711121,
      "learning_rate": 4.533333333333334e-06,
      "loss": 1.5809,
      "step": 340
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.7015929818153381,
      "learning_rate": 4.666666666666667e-06,
      "loss": 1.5496,
      "step": 350
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6975520849227905,
      "learning_rate": 4.800000000000001e-06,
      "loss": 1.4738,
      "step": 360
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 0.6449431777000427,
      "learning_rate": 4.933333333333333e-06,
      "loss": 1.4678,
      "step": 370
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.7154166666666667,
      "eval_loss": 1.4123508930206299,
      "eval_runtime": 251.7129,
      "eval_samples_per_second": 47.673,
      "eval_steps_per_second": 1.49,
      "step": 375
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 0.7132147550582886,
      "learning_rate": 5.066666666666667e-06,
      "loss": 1.4103,
      "step": 380
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.6486594080924988,
      "learning_rate": 5.2e-06,
      "loss": 1.3621,
      "step": 390
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.7866731286048889,
      "learning_rate": 5.333333333333334e-06,
      "loss": 1.338,
      "step": 400
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 0.7460314631462097,
      "learning_rate": 5.466666666666667e-06,
      "loss": 1.3044,
      "step": 410
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.672776997089386,
      "learning_rate": 5.600000000000001e-06,
      "loss": 1.2234,
      "step": 420
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 0.7854825258255005,
      "learning_rate": 5.733333333333333e-06,
      "loss": 1.2487,
      "step": 430
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 0.7380782961845398,
      "learning_rate": 5.866666666666667e-06,
      "loss": 1.1797,
      "step": 440
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.7625659108161926,
      "learning_rate": 6e-06,
      "loss": 1.1746,
      "step": 450
    },
    {
      "epoch": 1.2266666666666666,
      "grad_norm": 0.8111923336982727,
      "learning_rate": 6.133333333333334e-06,
      "loss": 1.1691,
      "step": 460
    },
    {
      "epoch": 1.2533333333333334,
      "grad_norm": 0.7667580842971802,
      "learning_rate": 6.266666666666666e-06,
      "loss": 1.1411,
      "step": 470
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.753954291343689,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 1.1054,
      "step": 480
    },
    {
      "epoch": 1.3066666666666666,
      "grad_norm": 0.7377068996429443,
      "learning_rate": 6.533333333333333e-06,
      "loss": 1.0828,
      "step": 490
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.9820953011512756,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.0424,
      "step": 500
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 0.7644351124763489,
      "learning_rate": 6.800000000000001e-06,
      "loss": 1.0573,
      "step": 510
    },
    {
      "epoch": 1.3866666666666667,
      "grad_norm": 0.8212087154388428,
      "learning_rate": 6.933333333333334e-06,
      "loss": 1.0173,
      "step": 520
    },
    {
      "epoch": 1.4133333333333333,
      "grad_norm": 0.8315467834472656,
      "learning_rate": 7.066666666666667e-06,
      "loss": 0.9692,
      "step": 530
    },
    {
      "epoch": 1.44,
      "grad_norm": 1.069244146347046,
      "learning_rate": 7.2e-06,
      "loss": 0.978,
      "step": 540
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.7936562895774841,
      "learning_rate": 7.333333333333334e-06,
      "loss": 0.9424,
      "step": 550
    },
    {
      "epoch": 1.4933333333333334,
      "grad_norm": 0.7659708857536316,
      "learning_rate": 7.4666666666666675e-06,
      "loss": 0.9823,
      "step": 560
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.9382613301277161,
      "learning_rate": 7.6e-06,
      "loss": 0.9453,
      "step": 570
    },
    {
      "epoch": 1.5466666666666666,
      "grad_norm": 1.0581766366958618,
      "learning_rate": 7.733333333333334e-06,
      "loss": 0.9409,
      "step": 580
    },
    {
      "epoch": 1.5733333333333333,
      "grad_norm": 1.069870114326477,
      "learning_rate": 7.866666666666667e-06,
      "loss": 0.9508,
      "step": 590
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.90777188539505,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.887,
      "step": 600
    },
    {
      "epoch": 1.6266666666666667,
      "grad_norm": 1.2335937023162842,
      "learning_rate": 8.133333333333332e-06,
      "loss": 0.9311,
      "step": 610
    },
    {
      "epoch": 1.6533333333333333,
      "grad_norm": 1.0029135942459106,
      "learning_rate": 8.266666666666667e-06,
      "loss": 0.8561,
      "step": 620
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 1.072263240814209,
      "learning_rate": 8.400000000000001e-06,
      "loss": 0.8644,
      "step": 630
    },
    {
      "epoch": 1.7066666666666666,
      "grad_norm": 1.0174798965454102,
      "learning_rate": 8.533333333333334e-06,
      "loss": 0.8713,
      "step": 640
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.9830342531204224,
      "learning_rate": 8.666666666666668e-06,
      "loss": 0.852,
      "step": 650
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.1105958223342896,
      "learning_rate": 8.8e-06,
      "loss": 0.8331,
      "step": 660
    },
    {
      "epoch": 1.7866666666666666,
      "grad_norm": 1.3445558547973633,
      "learning_rate": 8.933333333333333e-06,
      "loss": 0.8595,
      "step": 670
    },
    {
      "epoch": 1.8133333333333335,
      "grad_norm": 0.9208192229270935,
      "learning_rate": 9.066666666666667e-06,
      "loss": 0.8327,
      "step": 680
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 0.8158299326896667,
      "learning_rate": 9.2e-06,
      "loss": 0.8052,
      "step": 690
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 1.1894135475158691,
      "learning_rate": 9.333333333333334e-06,
      "loss": 0.8085,
      "step": 700
    },
    {
      "epoch": 1.8933333333333333,
      "grad_norm": 1.1022515296936035,
      "learning_rate": 9.466666666666667e-06,
      "loss": 0.8196,
      "step": 710
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.8503223657608032,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.8264,
      "step": 720
    },
    {
      "epoch": 1.9466666666666668,
      "grad_norm": 0.9416592717170715,
      "learning_rate": 9.733333333333334e-06,
      "loss": 0.764,
      "step": 730
    },
    {
      "epoch": 1.9733333333333334,
      "grad_norm": 1.018501877784729,
      "learning_rate": 9.866666666666667e-06,
      "loss": 0.7963,
      "step": 740
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.1012654304504395,
      "learning_rate": 1e-05,
      "loss": 0.7684,
      "step": 750
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8094166666666667,
      "eval_loss": 0.7787800431251526,
      "eval_runtime": 253.0715,
      "eval_samples_per_second": 47.417,
      "eval_steps_per_second": 1.482,
      "step": 750
    },
    {
      "epoch": 2.026666666666667,
      "grad_norm": 1.0708824396133423,
      "learning_rate": 1.0133333333333333e-05,
      "loss": 0.7822,
      "step": 760
    },
    {
      "epoch": 2.0533333333333332,
      "grad_norm": 1.4673056602478027,
      "learning_rate": 1.0266666666666668e-05,
      "loss": 0.7869,
      "step": 770
    },
    {
      "epoch": 2.08,
      "grad_norm": 1.2150228023529053,
      "learning_rate": 1.04e-05,
      "loss": 0.7484,
      "step": 780
    },
    {
      "epoch": 2.1066666666666665,
      "grad_norm": 1.5481164455413818,
      "learning_rate": 1.0533333333333335e-05,
      "loss": 0.7442,
      "step": 790
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 1.0784778594970703,
      "learning_rate": 1.0666666666666667e-05,
      "loss": 0.7409,
      "step": 800
    },
    {
      "epoch": 2.16,
      "grad_norm": 1.052842617034912,
      "learning_rate": 1.08e-05,
      "loss": 0.7421,
      "step": 810
    },
    {
      "epoch": 2.1866666666666665,
      "grad_norm": 1.390291690826416,
      "learning_rate": 1.0933333333333334e-05,
      "loss": 0.7394,
      "step": 820
    },
    {
      "epoch": 2.2133333333333334,
      "grad_norm": 1.1223007440567017,
      "learning_rate": 1.1066666666666667e-05,
      "loss": 0.7283,
      "step": 830
    },
    {
      "epoch": 2.24,
      "grad_norm": 1.1918033361434937,
      "learning_rate": 1.1200000000000001e-05,
      "loss": 0.7162,
      "step": 840
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.9362882375717163,
      "learning_rate": 1.1333333333333334e-05,
      "loss": 0.655,
      "step": 850
    },
    {
      "epoch": 2.2933333333333334,
      "grad_norm": 1.0802836418151855,
      "learning_rate": 1.1466666666666666e-05,
      "loss": 0.7099,
      "step": 860
    },
    {
      "epoch": 2.32,
      "grad_norm": 1.641676902770996,
      "learning_rate": 1.16e-05,
      "loss": 0.7111,
      "step": 870
    },
    {
      "epoch": 2.3466666666666667,
      "grad_norm": 0.9850042462348938,
      "learning_rate": 1.1733333333333333e-05,
      "loss": 0.7058,
      "step": 880
    },
    {
      "epoch": 2.3733333333333335,
      "grad_norm": 1.418823003768921,
      "learning_rate": 1.1866666666666668e-05,
      "loss": 0.6992,
      "step": 890
    },
    {
      "epoch": 2.4,
      "grad_norm": 1.0583059787750244,
      "learning_rate": 1.2e-05,
      "loss": 0.7026,
      "step": 900
    },
    {
      "epoch": 2.4266666666666667,
      "grad_norm": 1.0806751251220703,
      "learning_rate": 1.2133333333333335e-05,
      "loss": 0.6775,
      "step": 910
    },
    {
      "epoch": 2.453333333333333,
      "grad_norm": 1.477805495262146,
      "learning_rate": 1.2266666666666667e-05,
      "loss": 0.6401,
      "step": 920
    },
    {
      "epoch": 2.48,
      "grad_norm": 1.37532639503479,
      "learning_rate": 1.24e-05,
      "loss": 0.692,
      "step": 930
    },
    {
      "epoch": 2.506666666666667,
      "grad_norm": 1.0383663177490234,
      "learning_rate": 1.2533333333333332e-05,
      "loss": 0.6767,
      "step": 940
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 1.5573583841323853,
      "learning_rate": 1.2666666666666668e-05,
      "loss": 0.7033,
      "step": 950
    },
    {
      "epoch": 2.56,
      "grad_norm": 1.3657231330871582,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 0.6657,
      "step": 960
    },
    {
      "epoch": 2.586666666666667,
      "grad_norm": 1.0886105298995972,
      "learning_rate": 1.2933333333333334e-05,
      "loss": 0.6653,
      "step": 970
    },
    {
      "epoch": 2.6133333333333333,
      "grad_norm": 1.4899654388427734,
      "learning_rate": 1.3066666666666666e-05,
      "loss": 0.6736,
      "step": 980
    },
    {
      "epoch": 2.64,
      "grad_norm": 1.0892140865325928,
      "learning_rate": 1.32e-05,
      "loss": 0.6602,
      "step": 990
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 1.757778286933899,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.6438,
      "step": 1000
    },
    {
      "epoch": 2.6933333333333334,
      "grad_norm": 1.4072977304458618,
      "learning_rate": 1.3466666666666666e-05,
      "loss": 0.6454,
      "step": 1010
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": 1.4191005229949951,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.65,
      "step": 1020
    },
    {
      "epoch": 2.7466666666666666,
      "grad_norm": 1.2355992794036865,
      "learning_rate": 1.3733333333333335e-05,
      "loss": 0.6468,
      "step": 1030
    },
    {
      "epoch": 2.7733333333333334,
      "grad_norm": 1.0899584293365479,
      "learning_rate": 1.3866666666666667e-05,
      "loss": 0.6195,
      "step": 1040
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.1220864057540894,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 0.6447,
      "step": 1050
    },
    {
      "epoch": 2.8266666666666667,
      "grad_norm": 1.2130671739578247,
      "learning_rate": 1.4133333333333334e-05,
      "loss": 0.6363,
      "step": 1060
    },
    {
      "epoch": 2.8533333333333335,
      "grad_norm": 1.6652445793151855,
      "learning_rate": 1.4266666666666667e-05,
      "loss": 0.649,
      "step": 1070
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.573158860206604,
      "learning_rate": 1.44e-05,
      "loss": 0.6131,
      "step": 1080
    },
    {
      "epoch": 2.9066666666666667,
      "grad_norm": 1.6508690118789673,
      "learning_rate": 1.4533333333333335e-05,
      "loss": 0.6425,
      "step": 1090
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 1.027748465538025,
      "learning_rate": 1.4666666666666668e-05,
      "loss": 0.5706,
      "step": 1100
    },
    {
      "epoch": 2.96,
      "grad_norm": 1.4707986116409302,
      "learning_rate": 1.48e-05,
      "loss": 0.6557,
      "step": 1110
    },
    {
      "epoch": 2.986666666666667,
      "grad_norm": 1.1269705295562744,
      "learning_rate": 1.4933333333333335e-05,
      "loss": 0.601,
      "step": 1120
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8335833333333333,
      "eval_loss": 0.6188022494316101,
      "eval_runtime": 252.8818,
      "eval_samples_per_second": 47.453,
      "eval_steps_per_second": 1.483,
      "step": 1125
    },
    {
      "epoch": 3.013333333333333,
      "grad_norm": 1.1408145427703857,
      "learning_rate": 1.5066666666666668e-05,
      "loss": 0.5949,
      "step": 1130
    },
    {
      "epoch": 3.04,
      "grad_norm": 1.154862642288208,
      "learning_rate": 1.52e-05,
      "loss": 0.5827,
      "step": 1140
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 0.9795767664909363,
      "learning_rate": 1.5333333333333334e-05,
      "loss": 0.6098,
      "step": 1150
    },
    {
      "epoch": 3.0933333333333333,
      "grad_norm": 1.275421380996704,
      "learning_rate": 1.546666666666667e-05,
      "loss": 0.5785,
      "step": 1160
    },
    {
      "epoch": 3.12,
      "grad_norm": 1.1093873977661133,
      "learning_rate": 1.56e-05,
      "loss": 0.5576,
      "step": 1170
    },
    {
      "epoch": 3.1466666666666665,
      "grad_norm": 1.3806421756744385,
      "learning_rate": 1.5733333333333334e-05,
      "loss": 0.5579,
      "step": 1180
    },
    {
      "epoch": 3.1733333333333333,
      "grad_norm": 1.3961694240570068,
      "learning_rate": 1.586666666666667e-05,
      "loss": 0.5812,
      "step": 1190
    },
    {
      "epoch": 3.2,
      "grad_norm": 1.3505513668060303,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.5477,
      "step": 1200
    },
    {
      "epoch": 3.2266666666666666,
      "grad_norm": 1.1637428998947144,
      "learning_rate": 1.6133333333333334e-05,
      "loss": 0.5827,
      "step": 1210
    },
    {
      "epoch": 3.2533333333333334,
      "grad_norm": 1.7076727151870728,
      "learning_rate": 1.6266666666666665e-05,
      "loss": 0.5917,
      "step": 1220
    },
    {
      "epoch": 3.2800000000000002,
      "grad_norm": 1.0909322500228882,
      "learning_rate": 1.6400000000000002e-05,
      "loss": 0.5832,
      "step": 1230
    },
    {
      "epoch": 3.3066666666666666,
      "grad_norm": 1.4935245513916016,
      "learning_rate": 1.6533333333333333e-05,
      "loss": 0.5456,
      "step": 1240
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 1.6042735576629639,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.5733,
      "step": 1250
    },
    {
      "epoch": 3.36,
      "grad_norm": 1.4420127868652344,
      "learning_rate": 1.6800000000000002e-05,
      "loss": 0.5261,
      "step": 1260
    },
    {
      "epoch": 3.3866666666666667,
      "grad_norm": 1.5541865825653076,
      "learning_rate": 1.6933333333333333e-05,
      "loss": 0.5683,
      "step": 1270
    },
    {
      "epoch": 3.413333333333333,
      "grad_norm": 1.48206627368927,
      "learning_rate": 1.7066666666666667e-05,
      "loss": 0.553,
      "step": 1280
    },
    {
      "epoch": 3.44,
      "grad_norm": 1.8646939992904663,
      "learning_rate": 1.7199999999999998e-05,
      "loss": 0.5466,
      "step": 1290
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 1.1181879043579102,
      "learning_rate": 1.7333333333333336e-05,
      "loss": 0.5524,
      "step": 1300
    },
    {
      "epoch": 3.493333333333333,
      "grad_norm": 1.9017016887664795,
      "learning_rate": 1.7466666666666667e-05,
      "loss": 0.5124,
      "step": 1310
    },
    {
      "epoch": 3.52,
      "grad_norm": 1.369870901107788,
      "learning_rate": 1.76e-05,
      "loss": 0.5608,
      "step": 1320
    },
    {
      "epoch": 3.546666666666667,
      "grad_norm": 1.1890102624893188,
      "learning_rate": 1.7733333333333335e-05,
      "loss": 0.5535,
      "step": 1330
    },
    {
      "epoch": 3.5733333333333333,
      "grad_norm": 1.8598867654800415,
      "learning_rate": 1.7866666666666666e-05,
      "loss": 0.5625,
      "step": 1340
    },
    {
      "epoch": 3.6,
      "grad_norm": 1.178681492805481,
      "learning_rate": 1.8e-05,
      "loss": 0.5843,
      "step": 1350
    },
    {
      "epoch": 3.626666666666667,
      "grad_norm": 1.5860885381698608,
      "learning_rate": 1.8133333333333335e-05,
      "loss": 0.5634,
      "step": 1360
    },
    {
      "epoch": 3.6533333333333333,
      "grad_norm": 1.6016782522201538,
      "learning_rate": 1.826666666666667e-05,
      "loss": 0.5384,
      "step": 1370
    },
    {
      "epoch": 3.68,
      "grad_norm": 1.3504785299301147,
      "learning_rate": 1.84e-05,
      "loss": 0.5482,
      "step": 1380
    },
    {
      "epoch": 3.7066666666666666,
      "grad_norm": 1.182882308959961,
      "learning_rate": 1.8533333333333334e-05,
      "loss": 0.5324,
      "step": 1390
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 1.7216957807540894,
      "learning_rate": 1.866666666666667e-05,
      "loss": 0.5483,
      "step": 1400
    },
    {
      "epoch": 3.76,
      "grad_norm": 1.4555907249450684,
      "learning_rate": 1.88e-05,
      "loss": 0.5522,
      "step": 1410
    },
    {
      "epoch": 3.7866666666666666,
      "grad_norm": 1.782230257987976,
      "learning_rate": 1.8933333333333334e-05,
      "loss": 0.5186,
      "step": 1420
    },
    {
      "epoch": 3.8133333333333335,
      "grad_norm": 1.5357329845428467,
      "learning_rate": 1.9066666666666668e-05,
      "loss": 0.5092,
      "step": 1430
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.3541619777679443,
      "learning_rate": 1.9200000000000003e-05,
      "loss": 0.5472,
      "step": 1440
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 1.345468521118164,
      "learning_rate": 1.9333333333333333e-05,
      "loss": 0.4959,
      "step": 1450
    },
    {
      "epoch": 3.8933333333333335,
      "grad_norm": 1.1840789318084717,
      "learning_rate": 1.9466666666666668e-05,
      "loss": 0.5329,
      "step": 1460
    },
    {
      "epoch": 3.92,
      "grad_norm": 1.0094152688980103,
      "learning_rate": 1.9600000000000002e-05,
      "loss": 0.496,
      "step": 1470
    },
    {
      "epoch": 3.9466666666666668,
      "grad_norm": 1.2937079668045044,
      "learning_rate": 1.9733333333333333e-05,
      "loss": 0.5044,
      "step": 1480
    },
    {
      "epoch": 3.9733333333333336,
      "grad_norm": 1.416028380393982,
      "learning_rate": 1.9866666666666667e-05,
      "loss": 0.529,
      "step": 1490
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.1835155487060547,
      "learning_rate": 2e-05,
      "loss": 0.5112,
      "step": 1500
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.8478333333333333,
      "eval_loss": 0.5264700055122375,
      "eval_runtime": 250.783,
      "eval_samples_per_second": 47.85,
      "eval_steps_per_second": 1.495,
      "step": 1500
    },
    {
      "epoch": 4.026666666666666,
      "grad_norm": 1.2850406169891357,
      "learning_rate": 2.0133333333333336e-05,
      "loss": 0.5615,
      "step": 1510
    },
    {
      "epoch": 4.053333333333334,
      "grad_norm": 1.0897717475891113,
      "learning_rate": 2.0266666666666667e-05,
      "loss": 0.4814,
      "step": 1520
    },
    {
      "epoch": 4.08,
      "grad_norm": 1.2198373079299927,
      "learning_rate": 2.04e-05,
      "loss": 0.4884,
      "step": 1530
    },
    {
      "epoch": 4.1066666666666665,
      "grad_norm": 2.1793172359466553,
      "learning_rate": 2.0533333333333336e-05,
      "loss": 0.5041,
      "step": 1540
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 1.349697232246399,
      "learning_rate": 2.0666666666666666e-05,
      "loss": 0.521,
      "step": 1550
    },
    {
      "epoch": 4.16,
      "grad_norm": 0.9776567816734314,
      "learning_rate": 2.08e-05,
      "loss": 0.4784,
      "step": 1560
    },
    {
      "epoch": 4.1866666666666665,
      "grad_norm": 1.6105858087539673,
      "learning_rate": 2.0933333333333335e-05,
      "loss": 0.4507,
      "step": 1570
    },
    {
      "epoch": 4.213333333333333,
      "grad_norm": 1.2502280473709106,
      "learning_rate": 2.106666666666667e-05,
      "loss": 0.4966,
      "step": 1580
    },
    {
      "epoch": 4.24,
      "grad_norm": 0.8996163606643677,
      "learning_rate": 2.12e-05,
      "loss": 0.4883,
      "step": 1590
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 1.2022095918655396,
      "learning_rate": 2.1333333333333335e-05,
      "loss": 0.5084,
      "step": 1600
    },
    {
      "epoch": 4.293333333333333,
      "grad_norm": 1.7620633840560913,
      "learning_rate": 2.146666666666667e-05,
      "loss": 0.4464,
      "step": 1610
    },
    {
      "epoch": 4.32,
      "grad_norm": 1.4631232023239136,
      "learning_rate": 2.16e-05,
      "loss": 0.4833,
      "step": 1620
    },
    {
      "epoch": 4.346666666666667,
      "grad_norm": 1.3216817378997803,
      "learning_rate": 2.1733333333333334e-05,
      "loss": 0.4602,
      "step": 1630
    },
    {
      "epoch": 4.373333333333333,
      "grad_norm": 1.222000241279602,
      "learning_rate": 2.186666666666667e-05,
      "loss": 0.4289,
      "step": 1640
    },
    {
      "epoch": 4.4,
      "grad_norm": 1.6202765703201294,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 0.4526,
      "step": 1650
    },
    {
      "epoch": 4.426666666666667,
      "grad_norm": 1.584963083267212,
      "learning_rate": 2.2133333333333334e-05,
      "loss": 0.4787,
      "step": 1660
    },
    {
      "epoch": 4.453333333333333,
      "grad_norm": 1.5327050685882568,
      "learning_rate": 2.2266666666666668e-05,
      "loss": 0.4913,
      "step": 1670
    },
    {
      "epoch": 4.48,
      "grad_norm": 1.238145112991333,
      "learning_rate": 2.2400000000000002e-05,
      "loss": 0.4781,
      "step": 1680
    },
    {
      "epoch": 4.506666666666667,
      "grad_norm": 1.416844367980957,
      "learning_rate": 2.2533333333333333e-05,
      "loss": 0.4928,
      "step": 1690
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 1.2246005535125732,
      "learning_rate": 2.2666666666666668e-05,
      "loss": 0.4514,
      "step": 1700
    },
    {
      "epoch": 4.5600000000000005,
      "grad_norm": 1.5167866945266724,
      "learning_rate": 2.2800000000000002e-05,
      "loss": 0.4464,
      "step": 1710
    },
    {
      "epoch": 4.586666666666667,
      "grad_norm": 1.5583484172821045,
      "learning_rate": 2.2933333333333333e-05,
      "loss": 0.4596,
      "step": 1720
    },
    {
      "epoch": 4.613333333333333,
      "grad_norm": 1.2330771684646606,
      "learning_rate": 2.3066666666666667e-05,
      "loss": 0.4377,
      "step": 1730
    },
    {
      "epoch": 4.64,
      "grad_norm": 2.0583174228668213,
      "learning_rate": 2.32e-05,
      "loss": 0.4643,
      "step": 1740
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 1.3421686887741089,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 0.4514,
      "step": 1750
    },
    {
      "epoch": 4.693333333333333,
      "grad_norm": 1.4690873622894287,
      "learning_rate": 2.3466666666666667e-05,
      "loss": 0.4514,
      "step": 1760
    },
    {
      "epoch": 4.72,
      "grad_norm": 1.2651149034500122,
      "learning_rate": 2.36e-05,
      "loss": 0.4753,
      "step": 1770
    },
    {
      "epoch": 4.746666666666667,
      "grad_norm": 1.4450587034225464,
      "learning_rate": 2.3733333333333335e-05,
      "loss": 0.4703,
      "step": 1780
    },
    {
      "epoch": 4.773333333333333,
      "grad_norm": 1.1887861490249634,
      "learning_rate": 2.3866666666666666e-05,
      "loss": 0.4948,
      "step": 1790
    },
    {
      "epoch": 4.8,
      "grad_norm": 1.1826320886611938,
      "learning_rate": 2.4e-05,
      "loss": 0.4476,
      "step": 1800
    },
    {
      "epoch": 4.826666666666666,
      "grad_norm": 1.2198917865753174,
      "learning_rate": 2.4133333333333335e-05,
      "loss": 0.4432,
      "step": 1810
    },
    {
      "epoch": 4.8533333333333335,
      "grad_norm": 1.5406042337417603,
      "learning_rate": 2.426666666666667e-05,
      "loss": 0.4328,
      "step": 1820
    },
    {
      "epoch": 4.88,
      "grad_norm": 1.405493974685669,
      "learning_rate": 2.44e-05,
      "loss": 0.481,
      "step": 1830
    },
    {
      "epoch": 4.906666666666666,
      "grad_norm": 1.1060372591018677,
      "learning_rate": 2.4533333333333334e-05,
      "loss": 0.4566,
      "step": 1840
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 1.3357353210449219,
      "learning_rate": 2.466666666666667e-05,
      "loss": 0.4348,
      "step": 1850
    },
    {
      "epoch": 4.96,
      "grad_norm": 1.412351131439209,
      "learning_rate": 2.48e-05,
      "loss": 0.4525,
      "step": 1860
    },
    {
      "epoch": 4.986666666666666,
      "grad_norm": 1.0553109645843506,
      "learning_rate": 2.4933333333333334e-05,
      "loss": 0.4207,
      "step": 1870
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.8620833333333333,
      "eval_loss": 0.44949954748153687,
      "eval_runtime": 249.7348,
      "eval_samples_per_second": 48.051,
      "eval_steps_per_second": 1.502,
      "step": 1875
    },
    {
      "epoch": 5.013333333333334,
      "grad_norm": 1.487226963043213,
      "learning_rate": 2.5066666666666665e-05,
      "loss": 0.3724,
      "step": 1880
    },
    {
      "epoch": 5.04,
      "grad_norm": 0.9325187802314758,
      "learning_rate": 2.5200000000000003e-05,
      "loss": 0.4163,
      "step": 1890
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 1.2603026628494263,
      "learning_rate": 2.5333333333333337e-05,
      "loss": 0.4303,
      "step": 1900
    },
    {
      "epoch": 5.093333333333334,
      "grad_norm": 1.299117088317871,
      "learning_rate": 2.5466666666666668e-05,
      "loss": 0.4388,
      "step": 1910
    },
    {
      "epoch": 5.12,
      "grad_norm": 1.4388401508331299,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 0.4215,
      "step": 1920
    },
    {
      "epoch": 5.1466666666666665,
      "grad_norm": 1.1698435544967651,
      "learning_rate": 2.5733333333333337e-05,
      "loss": 0.4436,
      "step": 1930
    },
    {
      "epoch": 5.173333333333334,
      "grad_norm": 1.224798560142517,
      "learning_rate": 2.5866666666666667e-05,
      "loss": 0.4204,
      "step": 1940
    },
    {
      "epoch": 5.2,
      "grad_norm": 1.1372491121292114,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 0.3966,
      "step": 1950
    },
    {
      "epoch": 5.226666666666667,
      "grad_norm": 1.7697786092758179,
      "learning_rate": 2.6133333333333333e-05,
      "loss": 0.4531,
      "step": 1960
    },
    {
      "epoch": 5.253333333333333,
      "grad_norm": 1.1250134706497192,
      "learning_rate": 2.6266666666666667e-05,
      "loss": 0.4479,
      "step": 1970
    },
    {
      "epoch": 5.28,
      "grad_norm": 1.1149576902389526,
      "learning_rate": 2.64e-05,
      "loss": 0.4024,
      "step": 1980
    },
    {
      "epoch": 5.306666666666667,
      "grad_norm": 0.8580728769302368,
      "learning_rate": 2.6533333333333332e-05,
      "loss": 0.4095,
      "step": 1990
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 1.3150044679641724,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 0.4311,
      "step": 2000
    },
    {
      "epoch": 5.36,
      "grad_norm": 1.5291498899459839,
      "learning_rate": 2.6800000000000004e-05,
      "loss": 0.3829,
      "step": 2010
    },
    {
      "epoch": 5.386666666666667,
      "grad_norm": 1.1148710250854492,
      "learning_rate": 2.6933333333333332e-05,
      "loss": 0.3988,
      "step": 2020
    },
    {
      "epoch": 5.413333333333333,
      "grad_norm": 1.181640625,
      "learning_rate": 2.706666666666667e-05,
      "loss": 0.4108,
      "step": 2030
    },
    {
      "epoch": 5.44,
      "grad_norm": 1.1221822500228882,
      "learning_rate": 2.7200000000000004e-05,
      "loss": 0.3953,
      "step": 2040
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 1.305713415145874,
      "learning_rate": 2.733333333333333e-05,
      "loss": 0.3891,
      "step": 2050
    },
    {
      "epoch": 5.493333333333333,
      "grad_norm": 1.1887928247451782,
      "learning_rate": 2.746666666666667e-05,
      "loss": 0.3832,
      "step": 2060
    },
    {
      "epoch": 5.52,
      "grad_norm": 1.0353480577468872,
      "learning_rate": 2.7600000000000003e-05,
      "loss": 0.4395,
      "step": 2070
    },
    {
      "epoch": 5.546666666666667,
      "grad_norm": 1.3996936082839966,
      "learning_rate": 2.7733333333333334e-05,
      "loss": 0.429,
      "step": 2080
    },
    {
      "epoch": 5.573333333333333,
      "grad_norm": 1.3166385889053345,
      "learning_rate": 2.786666666666667e-05,
      "loss": 0.4384,
      "step": 2090
    },
    {
      "epoch": 5.6,
      "grad_norm": 1.241619348526001,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.4302,
      "step": 2100
    },
    {
      "epoch": 5.626666666666667,
      "grad_norm": 1.4851853847503662,
      "learning_rate": 2.8133333333333334e-05,
      "loss": 0.4094,
      "step": 2110
    },
    {
      "epoch": 5.653333333333333,
      "grad_norm": 1.774938702583313,
      "learning_rate": 2.8266666666666668e-05,
      "loss": 0.4453,
      "step": 2120
    },
    {
      "epoch": 5.68,
      "grad_norm": 1.681108832359314,
      "learning_rate": 2.84e-05,
      "loss": 0.4176,
      "step": 2130
    },
    {
      "epoch": 5.706666666666667,
      "grad_norm": 1.012275218963623,
      "learning_rate": 2.8533333333333333e-05,
      "loss": 0.3822,
      "step": 2140
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.9668782949447632,
      "learning_rate": 2.8666666666666668e-05,
      "loss": 0.4064,
      "step": 2150
    },
    {
      "epoch": 5.76,
      "grad_norm": 1.0975890159606934,
      "learning_rate": 2.88e-05,
      "loss": 0.3868,
      "step": 2160
    },
    {
      "epoch": 5.786666666666667,
      "grad_norm": 1.3022563457489014,
      "learning_rate": 2.8933333333333333e-05,
      "loss": 0.3942,
      "step": 2170
    },
    {
      "epoch": 5.8133333333333335,
      "grad_norm": 1.1875505447387695,
      "learning_rate": 2.906666666666667e-05,
      "loss": 0.3838,
      "step": 2180
    },
    {
      "epoch": 5.84,
      "grad_norm": 1.2263437509536743,
      "learning_rate": 2.9199999999999998e-05,
      "loss": 0.3611,
      "step": 2190
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 1.5053207874298096,
      "learning_rate": 2.9333333333333336e-05,
      "loss": 0.4357,
      "step": 2200
    },
    {
      "epoch": 5.8933333333333335,
      "grad_norm": 1.1794692277908325,
      "learning_rate": 2.946666666666667e-05,
      "loss": 0.403,
      "step": 2210
    },
    {
      "epoch": 5.92,
      "grad_norm": 1.2697879076004028,
      "learning_rate": 2.96e-05,
      "loss": 0.4162,
      "step": 2220
    },
    {
      "epoch": 5.946666666666666,
      "grad_norm": 0.9458759427070618,
      "learning_rate": 2.9733333333333336e-05,
      "loss": 0.4084,
      "step": 2230
    },
    {
      "epoch": 5.973333333333334,
      "grad_norm": 1.431753396987915,
      "learning_rate": 2.986666666666667e-05,
      "loss": 0.3758,
      "step": 2240
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.057325839996338,
      "learning_rate": 3e-05,
      "loss": 0.3604,
      "step": 2250
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8655,
      "eval_loss": 0.41260525584220886,
      "eval_runtime": 250.054,
      "eval_samples_per_second": 47.99,
      "eval_steps_per_second": 1.5,
      "step": 2250
    },
    {
      "epoch": 6.026666666666666,
      "grad_norm": 1.1537690162658691,
      "learning_rate": 3.0133333333333335e-05,
      "loss": 0.3781,
      "step": 2260
    },
    {
      "epoch": 6.053333333333334,
      "grad_norm": 0.9227214455604553,
      "learning_rate": 3.0266666666666666e-05,
      "loss": 0.3751,
      "step": 2270
    },
    {
      "epoch": 6.08,
      "grad_norm": 1.1220436096191406,
      "learning_rate": 3.04e-05,
      "loss": 0.385,
      "step": 2280
    },
    {
      "epoch": 6.1066666666666665,
      "grad_norm": 1.316062331199646,
      "learning_rate": 3.0533333333333335e-05,
      "loss": 0.3743,
      "step": 2290
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 1.233098030090332,
      "learning_rate": 3.066666666666667e-05,
      "loss": 0.4141,
      "step": 2300
    },
    {
      "epoch": 6.16,
      "grad_norm": 1.0905852317810059,
      "learning_rate": 3.08e-05,
      "loss": 0.4025,
      "step": 2310
    },
    {
      "epoch": 6.1866666666666665,
      "grad_norm": 1.383314609527588,
      "learning_rate": 3.093333333333334e-05,
      "loss": 0.3936,
      "step": 2320
    },
    {
      "epoch": 6.213333333333333,
      "grad_norm": 1.0277948379516602,
      "learning_rate": 3.1066666666666665e-05,
      "loss": 0.373,
      "step": 2330
    },
    {
      "epoch": 6.24,
      "grad_norm": 0.9248735904693604,
      "learning_rate": 3.12e-05,
      "loss": 0.3813,
      "step": 2340
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.980923056602478,
      "learning_rate": 3.1333333333333334e-05,
      "loss": 0.3758,
      "step": 2350
    },
    {
      "epoch": 6.293333333333333,
      "grad_norm": 1.0026986598968506,
      "learning_rate": 3.146666666666667e-05,
      "loss": 0.3455,
      "step": 2360
    },
    {
      "epoch": 6.32,
      "grad_norm": 1.2889373302459717,
      "learning_rate": 3.16e-05,
      "loss": 0.4124,
      "step": 2370
    },
    {
      "epoch": 6.346666666666667,
      "grad_norm": 1.1151232719421387,
      "learning_rate": 3.173333333333334e-05,
      "loss": 0.3937,
      "step": 2380
    },
    {
      "epoch": 6.373333333333333,
      "grad_norm": 1.1859952211380005,
      "learning_rate": 3.1866666666666664e-05,
      "loss": 0.4234,
      "step": 2390
    },
    {
      "epoch": 6.4,
      "grad_norm": 1.0505211353302002,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.3916,
      "step": 2400
    },
    {
      "epoch": 6.426666666666667,
      "grad_norm": 0.9080841541290283,
      "learning_rate": 3.213333333333334e-05,
      "loss": 0.3525,
      "step": 2410
    },
    {
      "epoch": 6.453333333333333,
      "grad_norm": 1.016626000404358,
      "learning_rate": 3.226666666666667e-05,
      "loss": 0.3775,
      "step": 2420
    },
    {
      "epoch": 6.48,
      "grad_norm": 1.3775297403335571,
      "learning_rate": 3.24e-05,
      "loss": 0.3756,
      "step": 2430
    },
    {
      "epoch": 6.506666666666667,
      "grad_norm": 0.775924563407898,
      "learning_rate": 3.253333333333333e-05,
      "loss": 0.3378,
      "step": 2440
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 1.5069085359573364,
      "learning_rate": 3.266666666666667e-05,
      "loss": 0.3614,
      "step": 2450
    },
    {
      "epoch": 6.5600000000000005,
      "grad_norm": 1.3161460161209106,
      "learning_rate": 3.2800000000000004e-05,
      "loss": 0.3943,
      "step": 2460
    },
    {
      "epoch": 6.586666666666667,
      "grad_norm": 1.3259575366973877,
      "learning_rate": 3.293333333333333e-05,
      "loss": 0.3717,
      "step": 2470
    },
    {
      "epoch": 6.613333333333333,
      "grad_norm": 1.3593661785125732,
      "learning_rate": 3.3066666666666666e-05,
      "loss": 0.4385,
      "step": 2480
    },
    {
      "epoch": 6.64,
      "grad_norm": 1.1150352954864502,
      "learning_rate": 3.32e-05,
      "loss": 0.3576,
      "step": 2490
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.9887901544570923,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.392,
      "step": 2500
    },
    {
      "epoch": 6.693333333333333,
      "grad_norm": 1.388339877128601,
      "learning_rate": 3.346666666666667e-05,
      "loss": 0.381,
      "step": 2510
    },
    {
      "epoch": 6.72,
      "grad_norm": 1.0314621925354004,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 0.38,
      "step": 2520
    },
    {
      "epoch": 6.746666666666667,
      "grad_norm": 1.588046669960022,
      "learning_rate": 3.373333333333333e-05,
      "loss": 0.3897,
      "step": 2530
    },
    {
      "epoch": 6.773333333333333,
      "grad_norm": 1.0398540496826172,
      "learning_rate": 3.3866666666666665e-05,
      "loss": 0.3474,
      "step": 2540
    },
    {
      "epoch": 6.8,
      "grad_norm": 1.2241482734680176,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 0.38,
      "step": 2550
    },
    {
      "epoch": 6.826666666666666,
      "grad_norm": 1.2187809944152832,
      "learning_rate": 3.4133333333333334e-05,
      "loss": 0.3424,
      "step": 2560
    },
    {
      "epoch": 6.8533333333333335,
      "grad_norm": 1.665645718574524,
      "learning_rate": 3.426666666666667e-05,
      "loss": 0.3767,
      "step": 2570
    },
    {
      "epoch": 6.88,
      "grad_norm": 1.106926679611206,
      "learning_rate": 3.4399999999999996e-05,
      "loss": 0.367,
      "step": 2580
    },
    {
      "epoch": 6.906666666666666,
      "grad_norm": 1.2827609777450562,
      "learning_rate": 3.453333333333334e-05,
      "loss": 0.3687,
      "step": 2590
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 1.010549545288086,
      "learning_rate": 3.466666666666667e-05,
      "loss": 0.3698,
      "step": 2600
    },
    {
      "epoch": 6.96,
      "grad_norm": 1.1130890846252441,
      "learning_rate": 3.48e-05,
      "loss": 0.4127,
      "step": 2610
    },
    {
      "epoch": 6.986666666666666,
      "grad_norm": 1.268324851989746,
      "learning_rate": 3.493333333333333e-05,
      "loss": 0.3618,
      "step": 2620
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.8690833333333333,
      "eval_loss": 0.38323599100112915,
      "eval_runtime": 250.1627,
      "eval_samples_per_second": 47.969,
      "eval_steps_per_second": 1.499,
      "step": 2625
    },
    {
      "epoch": 7.013333333333334,
      "grad_norm": 1.3853873014450073,
      "learning_rate": 3.506666666666667e-05,
      "loss": 0.3221,
      "step": 2630
    },
    {
      "epoch": 7.04,
      "grad_norm": 1.3326914310455322,
      "learning_rate": 3.52e-05,
      "loss": 0.3467,
      "step": 2640
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 2.0146069526672363,
      "learning_rate": 3.5333333333333336e-05,
      "loss": 0.3611,
      "step": 2650
    },
    {
      "epoch": 7.093333333333334,
      "grad_norm": 1.1076328754425049,
      "learning_rate": 3.546666666666667e-05,
      "loss": 0.3699,
      "step": 2660
    },
    {
      "epoch": 7.12,
      "grad_norm": 1.0090011358261108,
      "learning_rate": 3.56e-05,
      "loss": 0.3292,
      "step": 2670
    },
    {
      "epoch": 7.1466666666666665,
      "grad_norm": 0.9773492217063904,
      "learning_rate": 3.573333333333333e-05,
      "loss": 0.3614,
      "step": 2680
    },
    {
      "epoch": 7.173333333333334,
      "grad_norm": 1.2434812784194946,
      "learning_rate": 3.586666666666667e-05,
      "loss": 0.3878,
      "step": 2690
    },
    {
      "epoch": 7.2,
      "grad_norm": 1.3080124855041504,
      "learning_rate": 3.6e-05,
      "loss": 0.3534,
      "step": 2700
    },
    {
      "epoch": 7.226666666666667,
      "grad_norm": 1.4765065908432007,
      "learning_rate": 3.6133333333333335e-05,
      "loss": 0.3499,
      "step": 2710
    },
    {
      "epoch": 7.253333333333333,
      "grad_norm": 1.1715103387832642,
      "learning_rate": 3.626666666666667e-05,
      "loss": 0.4057,
      "step": 2720
    },
    {
      "epoch": 7.28,
      "grad_norm": 0.97383713722229,
      "learning_rate": 3.6400000000000004e-05,
      "loss": 0.3326,
      "step": 2730
    },
    {
      "epoch": 7.306666666666667,
      "grad_norm": 1.017042636871338,
      "learning_rate": 3.653333333333334e-05,
      "loss": 0.3264,
      "step": 2740
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.9164740443229675,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 0.3715,
      "step": 2750
    },
    {
      "epoch": 7.36,
      "grad_norm": 1.0807558298110962,
      "learning_rate": 3.68e-05,
      "loss": 0.3452,
      "step": 2760
    },
    {
      "epoch": 7.386666666666667,
      "grad_norm": 1.3183648586273193,
      "learning_rate": 3.6933333333333334e-05,
      "loss": 0.366,
      "step": 2770
    },
    {
      "epoch": 7.413333333333333,
      "grad_norm": 1.0195010900497437,
      "learning_rate": 3.706666666666667e-05,
      "loss": 0.3302,
      "step": 2780
    },
    {
      "epoch": 7.44,
      "grad_norm": 1.145652174949646,
      "learning_rate": 3.72e-05,
      "loss": 0.3296,
      "step": 2790
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 1.095531940460205,
      "learning_rate": 3.733333333333334e-05,
      "loss": 0.3203,
      "step": 2800
    },
    {
      "epoch": 7.493333333333333,
      "grad_norm": 0.988767683506012,
      "learning_rate": 3.7466666666666665e-05,
      "loss": 0.3708,
      "step": 2810
    },
    {
      "epoch": 7.52,
      "grad_norm": 1.335120439529419,
      "learning_rate": 3.76e-05,
      "loss": 0.351,
      "step": 2820
    },
    {
      "epoch": 7.546666666666667,
      "grad_norm": 1.0117450952529907,
      "learning_rate": 3.773333333333334e-05,
      "loss": 0.3532,
      "step": 2830
    },
    {
      "epoch": 7.573333333333333,
      "grad_norm": 1.1973203420639038,
      "learning_rate": 3.786666666666667e-05,
      "loss": 0.3907,
      "step": 2840
    },
    {
      "epoch": 7.6,
      "grad_norm": 1.3828959465026855,
      "learning_rate": 3.8e-05,
      "loss": 0.3896,
      "step": 2850
    },
    {
      "epoch": 7.626666666666667,
      "grad_norm": 0.7788476347923279,
      "learning_rate": 3.8133333333333336e-05,
      "loss": 0.3396,
      "step": 2860
    },
    {
      "epoch": 7.653333333333333,
      "grad_norm": 1.0035938024520874,
      "learning_rate": 3.8266666666666664e-05,
      "loss": 0.3589,
      "step": 2870
    },
    {
      "epoch": 7.68,
      "grad_norm": 0.9664866924285889,
      "learning_rate": 3.8400000000000005e-05,
      "loss": 0.3619,
      "step": 2880
    },
    {
      "epoch": 7.706666666666667,
      "grad_norm": 0.9333173632621765,
      "learning_rate": 3.853333333333334e-05,
      "loss": 0.3367,
      "step": 2890
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 0.9549736976623535,
      "learning_rate": 3.866666666666667e-05,
      "loss": 0.3677,
      "step": 2900
    },
    {
      "epoch": 7.76,
      "grad_norm": 1.210145115852356,
      "learning_rate": 3.88e-05,
      "loss": 0.3352,
      "step": 2910
    },
    {
      "epoch": 7.786666666666667,
      "grad_norm": 0.7399745583534241,
      "learning_rate": 3.8933333333333336e-05,
      "loss": 0.3796,
      "step": 2920
    },
    {
      "epoch": 7.8133333333333335,
      "grad_norm": 0.7903591394424438,
      "learning_rate": 3.906666666666667e-05,
      "loss": 0.3641,
      "step": 2930
    },
    {
      "epoch": 7.84,
      "grad_norm": 1.0947338342666626,
      "learning_rate": 3.9200000000000004e-05,
      "loss": 0.3329,
      "step": 2940
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 1.385036587715149,
      "learning_rate": 3.933333333333333e-05,
      "loss": 0.3625,
      "step": 2950
    },
    {
      "epoch": 7.8933333333333335,
      "grad_norm": 1.1349703073501587,
      "learning_rate": 3.9466666666666666e-05,
      "loss": 0.3562,
      "step": 2960
    },
    {
      "epoch": 7.92,
      "grad_norm": 1.0462818145751953,
      "learning_rate": 3.960000000000001e-05,
      "loss": 0.3747,
      "step": 2970
    },
    {
      "epoch": 7.946666666666666,
      "grad_norm": 1.184927225112915,
      "learning_rate": 3.9733333333333335e-05,
      "loss": 0.3355,
      "step": 2980
    },
    {
      "epoch": 7.973333333333334,
      "grad_norm": 0.7963899970054626,
      "learning_rate": 3.986666666666667e-05,
      "loss": 0.3353,
      "step": 2990
    },
    {
      "epoch": 8.0,
      "grad_norm": 1.0202020406723022,
      "learning_rate": 4e-05,
      "loss": 0.3129,
      "step": 3000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.8735,
      "eval_loss": 0.3670659065246582,
      "eval_runtime": 249.9213,
      "eval_samples_per_second": 48.015,
      "eval_steps_per_second": 1.5,
      "step": 3000
    },
    {
      "epoch": 8.026666666666667,
      "grad_norm": 1.1990036964416504,
      "learning_rate": 4.013333333333333e-05,
      "loss": 0.324,
      "step": 3010
    },
    {
      "epoch": 8.053333333333333,
      "grad_norm": 1.1469494104385376,
      "learning_rate": 4.026666666666667e-05,
      "loss": 0.3332,
      "step": 3020
    },
    {
      "epoch": 8.08,
      "grad_norm": 1.1124786138534546,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 0.3552,
      "step": 3030
    },
    {
      "epoch": 8.106666666666667,
      "grad_norm": 0.8214703798294067,
      "learning_rate": 4.0533333333333334e-05,
      "loss": 0.3089,
      "step": 3040
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 1.2005770206451416,
      "learning_rate": 4.066666666666667e-05,
      "loss": 0.3419,
      "step": 3050
    },
    {
      "epoch": 8.16,
      "grad_norm": 0.9036789536476135,
      "learning_rate": 4.08e-05,
      "loss": 0.3024,
      "step": 3060
    },
    {
      "epoch": 8.186666666666667,
      "grad_norm": 1.2493318319320679,
      "learning_rate": 4.093333333333334e-05,
      "loss": 0.3455,
      "step": 3070
    },
    {
      "epoch": 8.213333333333333,
      "grad_norm": 0.7038171291351318,
      "learning_rate": 4.106666666666667e-05,
      "loss": 0.3569,
      "step": 3080
    },
    {
      "epoch": 8.24,
      "grad_norm": 1.1271955966949463,
      "learning_rate": 4.12e-05,
      "loss": 0.2989,
      "step": 3090
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.9328200221061707,
      "learning_rate": 4.133333333333333e-05,
      "loss": 0.3237,
      "step": 3100
    },
    {
      "epoch": 8.293333333333333,
      "grad_norm": 1.0676214694976807,
      "learning_rate": 4.146666666666667e-05,
      "loss": 0.301,
      "step": 3110
    },
    {
      "epoch": 8.32,
      "grad_norm": 0.7362902164459229,
      "learning_rate": 4.16e-05,
      "loss": 0.364,
      "step": 3120
    },
    {
      "epoch": 8.346666666666668,
      "grad_norm": 1.4200522899627686,
      "learning_rate": 4.1733333333333336e-05,
      "loss": 0.3329,
      "step": 3130
    },
    {
      "epoch": 8.373333333333333,
      "grad_norm": 0.8434764742851257,
      "learning_rate": 4.186666666666667e-05,
      "loss": 0.3369,
      "step": 3140
    },
    {
      "epoch": 8.4,
      "grad_norm": 1.1177301406860352,
      "learning_rate": 4.2e-05,
      "loss": 0.3113,
      "step": 3150
    },
    {
      "epoch": 8.426666666666666,
      "grad_norm": 1.1583192348480225,
      "learning_rate": 4.213333333333334e-05,
      "loss": 0.3282,
      "step": 3160
    },
    {
      "epoch": 8.453333333333333,
      "grad_norm": 1.2726008892059326,
      "learning_rate": 4.226666666666667e-05,
      "loss": 0.3586,
      "step": 3170
    },
    {
      "epoch": 8.48,
      "grad_norm": 0.9566053152084351,
      "learning_rate": 4.24e-05,
      "loss": 0.314,
      "step": 3180
    },
    {
      "epoch": 8.506666666666666,
      "grad_norm": 1.1776909828186035,
      "learning_rate": 4.2533333333333335e-05,
      "loss": 0.3177,
      "step": 3190
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.870840311050415,
      "learning_rate": 4.266666666666667e-05,
      "loss": 0.3434,
      "step": 3200
    },
    {
      "epoch": 8.56,
      "grad_norm": 1.181289553642273,
      "learning_rate": 4.2800000000000004e-05,
      "loss": 0.3377,
      "step": 3210
    },
    {
      "epoch": 8.586666666666666,
      "grad_norm": 1.1119019985198975,
      "learning_rate": 4.293333333333334e-05,
      "loss": 0.3224,
      "step": 3220
    },
    {
      "epoch": 8.613333333333333,
      "grad_norm": 1.068803310394287,
      "learning_rate": 4.3066666666666665e-05,
      "loss": 0.3196,
      "step": 3230
    },
    {
      "epoch": 8.64,
      "grad_norm": 1.019371747970581,
      "learning_rate": 4.32e-05,
      "loss": 0.3256,
      "step": 3240
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 1.0368677377700806,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 0.2868,
      "step": 3250
    },
    {
      "epoch": 8.693333333333333,
      "grad_norm": 0.9881754517555237,
      "learning_rate": 4.346666666666667e-05,
      "loss": 0.3422,
      "step": 3260
    },
    {
      "epoch": 8.72,
      "grad_norm": 1.313144326210022,
      "learning_rate": 4.36e-05,
      "loss": 0.3383,
      "step": 3270
    },
    {
      "epoch": 8.746666666666666,
      "grad_norm": 0.9378319978713989,
      "learning_rate": 4.373333333333334e-05,
      "loss": 0.3408,
      "step": 3280
    },
    {
      "epoch": 8.773333333333333,
      "grad_norm": 1.3141783475875854,
      "learning_rate": 4.3866666666666665e-05,
      "loss": 0.3411,
      "step": 3290
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.7097713351249695,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.3235,
      "step": 3300
    },
    {
      "epoch": 8.826666666666666,
      "grad_norm": 1.3685508966445923,
      "learning_rate": 4.413333333333334e-05,
      "loss": 0.3393,
      "step": 3310
    },
    {
      "epoch": 8.853333333333333,
      "grad_norm": 1.2369203567504883,
      "learning_rate": 4.426666666666667e-05,
      "loss": 0.3581,
      "step": 3320
    },
    {
      "epoch": 8.88,
      "grad_norm": 1.0951428413391113,
      "learning_rate": 4.44e-05,
      "loss": 0.3092,
      "step": 3330
    },
    {
      "epoch": 8.906666666666666,
      "grad_norm": 1.0099565982818604,
      "learning_rate": 4.4533333333333336e-05,
      "loss": 0.3235,
      "step": 3340
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 1.0069804191589355,
      "learning_rate": 4.466666666666667e-05,
      "loss": 0.323,
      "step": 3350
    },
    {
      "epoch": 8.96,
      "grad_norm": 1.22927987575531,
      "learning_rate": 4.4800000000000005e-05,
      "loss": 0.3611,
      "step": 3360
    },
    {
      "epoch": 8.986666666666666,
      "grad_norm": 0.9956313371658325,
      "learning_rate": 4.493333333333333e-05,
      "loss": 0.2918,
      "step": 3370
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.8794166666666666,
      "eval_loss": 0.34058070182800293,
      "eval_runtime": 250.0227,
      "eval_samples_per_second": 47.996,
      "eval_steps_per_second": 1.5,
      "step": 3375
    },
    {
      "epoch": 9.013333333333334,
      "grad_norm": 1.331423044204712,
      "learning_rate": 4.5066666666666667e-05,
      "loss": 0.3068,
      "step": 3380
    },
    {
      "epoch": 9.04,
      "grad_norm": 0.7804103493690491,
      "learning_rate": 4.52e-05,
      "loss": 0.2974,
      "step": 3390
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 1.0219981670379639,
      "learning_rate": 4.5333333333333335e-05,
      "loss": 0.3184,
      "step": 3400
    },
    {
      "epoch": 9.093333333333334,
      "grad_norm": 0.8608193397521973,
      "learning_rate": 4.546666666666667e-05,
      "loss": 0.3138,
      "step": 3410
    },
    {
      "epoch": 9.12,
      "grad_norm": 1.299875020980835,
      "learning_rate": 4.5600000000000004e-05,
      "loss": 0.3433,
      "step": 3420
    },
    {
      "epoch": 9.146666666666667,
      "grad_norm": 1.1877332925796509,
      "learning_rate": 4.573333333333333e-05,
      "loss": 0.366,
      "step": 3430
    },
    {
      "epoch": 9.173333333333334,
      "grad_norm": 0.7962378263473511,
      "learning_rate": 4.5866666666666666e-05,
      "loss": 0.2866,
      "step": 3440
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.6703245639801025,
      "learning_rate": 4.600000000000001e-05,
      "loss": 0.301,
      "step": 3450
    },
    {
      "epoch": 9.226666666666667,
      "grad_norm": 0.9960207343101501,
      "learning_rate": 4.6133333333333334e-05,
      "loss": 0.3151,
      "step": 3460
    },
    {
      "epoch": 9.253333333333334,
      "grad_norm": 0.9815031886100769,
      "learning_rate": 4.626666666666667e-05,
      "loss": 0.3238,
      "step": 3470
    },
    {
      "epoch": 9.28,
      "grad_norm": 0.917545735836029,
      "learning_rate": 4.64e-05,
      "loss": 0.3104,
      "step": 3480
    },
    {
      "epoch": 9.306666666666667,
      "grad_norm": 1.035467267036438,
      "learning_rate": 4.653333333333334e-05,
      "loss": 0.3103,
      "step": 3490
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 1.051026463508606,
      "learning_rate": 4.666666666666667e-05,
      "loss": 0.3206,
      "step": 3500
    },
    {
      "epoch": 9.36,
      "grad_norm": 0.7698755860328674,
      "learning_rate": 4.6800000000000006e-05,
      "loss": 0.3308,
      "step": 3510
    },
    {
      "epoch": 9.386666666666667,
      "grad_norm": 0.9168539047241211,
      "learning_rate": 4.6933333333333333e-05,
      "loss": 0.3123,
      "step": 3520
    },
    {
      "epoch": 9.413333333333334,
      "grad_norm": 1.0283716917037964,
      "learning_rate": 4.706666666666667e-05,
      "loss": 0.3258,
      "step": 3530
    },
    {
      "epoch": 9.44,
      "grad_norm": 1.1083451509475708,
      "learning_rate": 4.72e-05,
      "loss": 0.3099,
      "step": 3540
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 0.8982616662979126,
      "learning_rate": 4.7333333333333336e-05,
      "loss": 0.3027,
      "step": 3550
    },
    {
      "epoch": 9.493333333333334,
      "grad_norm": 1.0877487659454346,
      "learning_rate": 4.746666666666667e-05,
      "loss": 0.2956,
      "step": 3560
    },
    {
      "epoch": 9.52,
      "grad_norm": 1.191184163093567,
      "learning_rate": 4.76e-05,
      "loss": 0.342,
      "step": 3570
    },
    {
      "epoch": 9.546666666666667,
      "grad_norm": 0.8474676609039307,
      "learning_rate": 4.773333333333333e-05,
      "loss": 0.304,
      "step": 3580
    },
    {
      "epoch": 9.573333333333334,
      "grad_norm": 1.0417426824569702,
      "learning_rate": 4.7866666666666674e-05,
      "loss": 0.2965,
      "step": 3590
    },
    {
      "epoch": 9.6,
      "grad_norm": 1.1297999620437622,
      "learning_rate": 4.8e-05,
      "loss": 0.2915,
      "step": 3600
    },
    {
      "epoch": 9.626666666666667,
      "grad_norm": 1.0381224155426025,
      "learning_rate": 4.8133333333333336e-05,
      "loss": 0.2923,
      "step": 3610
    },
    {
      "epoch": 9.653333333333332,
      "grad_norm": 1.0109899044036865,
      "learning_rate": 4.826666666666667e-05,
      "loss": 0.3172,
      "step": 3620
    },
    {
      "epoch": 9.68,
      "grad_norm": 1.2492258548736572,
      "learning_rate": 4.8400000000000004e-05,
      "loss": 0.2996,
      "step": 3630
    },
    {
      "epoch": 9.706666666666667,
      "grad_norm": 1.4475677013397217,
      "learning_rate": 4.853333333333334e-05,
      "loss": 0.3148,
      "step": 3640
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 1.0414727926254272,
      "learning_rate": 4.866666666666667e-05,
      "loss": 0.2643,
      "step": 3650
    },
    {
      "epoch": 9.76,
      "grad_norm": 1.4769376516342163,
      "learning_rate": 4.88e-05,
      "loss": 0.3219,
      "step": 3660
    },
    {
      "epoch": 9.786666666666667,
      "grad_norm": 1.0891233682632446,
      "learning_rate": 4.8933333333333335e-05,
      "loss": 0.3165,
      "step": 3670
    },
    {
      "epoch": 9.813333333333333,
      "grad_norm": 1.1873751878738403,
      "learning_rate": 4.906666666666667e-05,
      "loss": 0.3067,
      "step": 3680
    },
    {
      "epoch": 9.84,
      "grad_norm": 1.2168985605239868,
      "learning_rate": 4.92e-05,
      "loss": 0.3141,
      "step": 3690
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 1.4385560750961304,
      "learning_rate": 4.933333333333334e-05,
      "loss": 0.2948,
      "step": 3700
    },
    {
      "epoch": 9.893333333333333,
      "grad_norm": 0.9587885141372681,
      "learning_rate": 4.9466666666666665e-05,
      "loss": 0.2999,
      "step": 3710
    },
    {
      "epoch": 9.92,
      "grad_norm": 0.7605528831481934,
      "learning_rate": 4.96e-05,
      "loss": 0.2904,
      "step": 3720
    },
    {
      "epoch": 9.946666666666667,
      "grad_norm": 0.9197943210601807,
      "learning_rate": 4.973333333333334e-05,
      "loss": 0.3002,
      "step": 3730
    },
    {
      "epoch": 9.973333333333333,
      "grad_norm": 0.9895532131195068,
      "learning_rate": 4.986666666666667e-05,
      "loss": 0.3425,
      "step": 3740
    },
    {
      "epoch": 10.0,
      "grad_norm": 1.0051286220550537,
      "learning_rate": 5e-05,
      "loss": 0.3278,
      "step": 3750
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.8774166666666666,
      "eval_loss": 0.3483765721321106,
      "eval_runtime": 249.4341,
      "eval_samples_per_second": 48.109,
      "eval_steps_per_second": 1.503,
      "step": 3750
    },
    {
      "epoch": 10.026666666666667,
      "grad_norm": 0.8491660952568054,
      "learning_rate": 4.998518518518518e-05,
      "loss": 0.2767,
      "step": 3760
    },
    {
      "epoch": 10.053333333333333,
      "grad_norm": 1.0298689603805542,
      "learning_rate": 4.997037037037037e-05,
      "loss": 0.2852,
      "step": 3770
    },
    {
      "epoch": 10.08,
      "grad_norm": 1.0634586811065674,
      "learning_rate": 4.995555555555556e-05,
      "loss": 0.3026,
      "step": 3780
    },
    {
      "epoch": 10.106666666666667,
      "grad_norm": 1.0354704856872559,
      "learning_rate": 4.9940740740740745e-05,
      "loss": 0.2877,
      "step": 3790
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 1.0123462677001953,
      "learning_rate": 4.9925925925925926e-05,
      "loss": 0.3132,
      "step": 3800
    },
    {
      "epoch": 10.16,
      "grad_norm": 0.8517223596572876,
      "learning_rate": 4.991111111111111e-05,
      "loss": 0.2845,
      "step": 3810
    },
    {
      "epoch": 10.186666666666667,
      "grad_norm": 0.8956115245819092,
      "learning_rate": 4.9896296296296293e-05,
      "loss": 0.3102,
      "step": 3820
    },
    {
      "epoch": 10.213333333333333,
      "grad_norm": 1.0428314208984375,
      "learning_rate": 4.988148148148149e-05,
      "loss": 0.3161,
      "step": 3830
    },
    {
      "epoch": 10.24,
      "grad_norm": 0.9418639540672302,
      "learning_rate": 4.986666666666667e-05,
      "loss": 0.325,
      "step": 3840
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 1.0829304456710815,
      "learning_rate": 4.9851851851851855e-05,
      "loss": 0.2889,
      "step": 3850
    },
    {
      "epoch": 10.293333333333333,
      "grad_norm": 0.9718042016029358,
      "learning_rate": 4.9837037037037036e-05,
      "loss": 0.3158,
      "step": 3860
    },
    {
      "epoch": 10.32,
      "grad_norm": 0.8945780992507935,
      "learning_rate": 4.982222222222222e-05,
      "loss": 0.3376,
      "step": 3870
    },
    {
      "epoch": 10.346666666666668,
      "grad_norm": 1.2482484579086304,
      "learning_rate": 4.980740740740741e-05,
      "loss": 0.2983,
      "step": 3880
    },
    {
      "epoch": 10.373333333333333,
      "grad_norm": 0.8141582608222961,
      "learning_rate": 4.97925925925926e-05,
      "loss": 0.2929,
      "step": 3890
    },
    {
      "epoch": 10.4,
      "grad_norm": 0.7104393243789673,
      "learning_rate": 4.977777777777778e-05,
      "loss": 0.2917,
      "step": 3900
    },
    {
      "epoch": 10.426666666666666,
      "grad_norm": 1.1380536556243896,
      "learning_rate": 4.9762962962962966e-05,
      "loss": 0.2948,
      "step": 3910
    },
    {
      "epoch": 10.453333333333333,
      "grad_norm": 1.0419397354125977,
      "learning_rate": 4.9748148148148146e-05,
      "loss": 0.2796,
      "step": 3920
    },
    {
      "epoch": 10.48,
      "grad_norm": 1.1697673797607422,
      "learning_rate": 4.973333333333334e-05,
      "loss": 0.2972,
      "step": 3930
    },
    {
      "epoch": 10.506666666666666,
      "grad_norm": 1.0109014511108398,
      "learning_rate": 4.971851851851852e-05,
      "loss": 0.2916,
      "step": 3940
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.9663733243942261,
      "learning_rate": 4.970370370370371e-05,
      "loss": 0.282,
      "step": 3950
    },
    {
      "epoch": 10.56,
      "grad_norm": 1.3836638927459717,
      "learning_rate": 4.968888888888889e-05,
      "loss": 0.2923,
      "step": 3960
    },
    {
      "epoch": 10.586666666666666,
      "grad_norm": 0.7263649106025696,
      "learning_rate": 4.9674074074074076e-05,
      "loss": 0.3028,
      "step": 3970
    },
    {
      "epoch": 10.613333333333333,
      "grad_norm": 0.9863650798797607,
      "learning_rate": 4.9659259259259264e-05,
      "loss": 0.3059,
      "step": 3980
    },
    {
      "epoch": 10.64,
      "grad_norm": 1.039373755455017,
      "learning_rate": 4.964444444444445e-05,
      "loss": 0.3095,
      "step": 3990
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.9459337592124939,
      "learning_rate": 4.962962962962963e-05,
      "loss": 0.334,
      "step": 4000
    },
    {
      "epoch": 10.693333333333333,
      "grad_norm": 0.6720755100250244,
      "learning_rate": 4.961481481481482e-05,
      "loss": 0.2931,
      "step": 4010
    },
    {
      "epoch": 10.72,
      "grad_norm": 1.0891010761260986,
      "learning_rate": 4.96e-05,
      "loss": 0.281,
      "step": 4020
    },
    {
      "epoch": 10.746666666666666,
      "grad_norm": 1.2608108520507812,
      "learning_rate": 4.958518518518519e-05,
      "loss": 0.2978,
      "step": 4030
    },
    {
      "epoch": 10.773333333333333,
      "grad_norm": 1.0872828960418701,
      "learning_rate": 4.9570370370370374e-05,
      "loss": 0.2845,
      "step": 4040
    },
    {
      "epoch": 10.8,
      "grad_norm": 1.4261547327041626,
      "learning_rate": 4.955555555555556e-05,
      "loss": 0.2991,
      "step": 4050
    },
    {
      "epoch": 10.826666666666666,
      "grad_norm": 1.3085424900054932,
      "learning_rate": 4.954074074074074e-05,
      "loss": 0.2823,
      "step": 4060
    },
    {
      "epoch": 10.853333333333333,
      "grad_norm": 0.7995527386665344,
      "learning_rate": 4.952592592592592e-05,
      "loss": 0.267,
      "step": 4070
    },
    {
      "epoch": 10.88,
      "grad_norm": 0.8985316157341003,
      "learning_rate": 4.951111111111112e-05,
      "loss": 0.2907,
      "step": 4080
    },
    {
      "epoch": 10.906666666666666,
      "grad_norm": 0.8624246716499329,
      "learning_rate": 4.94962962962963e-05,
      "loss": 0.2791,
      "step": 4090
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 0.9527334570884705,
      "learning_rate": 4.9481481481481485e-05,
      "loss": 0.2943,
      "step": 4100
    },
    {
      "epoch": 10.96,
      "grad_norm": 0.5632626414299011,
      "learning_rate": 4.9466666666666665e-05,
      "loss": 0.2531,
      "step": 4110
    },
    {
      "epoch": 10.986666666666666,
      "grad_norm": 1.0168466567993164,
      "learning_rate": 4.945185185185185e-05,
      "loss": 0.2951,
      "step": 4120
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.8813333333333333,
      "eval_loss": 0.33049798011779785,
      "eval_runtime": 249.6891,
      "eval_samples_per_second": 48.06,
      "eval_steps_per_second": 1.502,
      "step": 4125
    },
    {
      "epoch": 11.013333333333334,
      "grad_norm": 1.1329760551452637,
      "learning_rate": 4.943703703703704e-05,
      "loss": 0.2945,
      "step": 4130
    },
    {
      "epoch": 11.04,
      "grad_norm": 0.7936837673187256,
      "learning_rate": 4.942222222222223e-05,
      "loss": 0.2884,
      "step": 4140
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 1.3211606740951538,
      "learning_rate": 4.940740740740741e-05,
      "loss": 0.2503,
      "step": 4150
    },
    {
      "epoch": 11.093333333333334,
      "grad_norm": 0.750946044921875,
      "learning_rate": 4.9392592592592595e-05,
      "loss": 0.2706,
      "step": 4160
    },
    {
      "epoch": 11.12,
      "grad_norm": 1.0144660472869873,
      "learning_rate": 4.9377777777777776e-05,
      "loss": 0.2889,
      "step": 4170
    },
    {
      "epoch": 11.146666666666667,
      "grad_norm": 1.0185914039611816,
      "learning_rate": 4.936296296296297e-05,
      "loss": 0.2771,
      "step": 4180
    },
    {
      "epoch": 11.173333333333334,
      "grad_norm": 1.0491774082183838,
      "learning_rate": 4.934814814814815e-05,
      "loss": 0.2743,
      "step": 4190
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.9106046557426453,
      "learning_rate": 4.933333333333334e-05,
      "loss": 0.2816,
      "step": 4200
    },
    {
      "epoch": 11.226666666666667,
      "grad_norm": 0.985514223575592,
      "learning_rate": 4.931851851851852e-05,
      "loss": 0.2804,
      "step": 4210
    },
    {
      "epoch": 11.253333333333334,
      "grad_norm": 0.9636727571487427,
      "learning_rate": 4.9303703703703705e-05,
      "loss": 0.3098,
      "step": 4220
    },
    {
      "epoch": 11.28,
      "grad_norm": 1.0055756568908691,
      "learning_rate": 4.928888888888889e-05,
      "loss": 0.2865,
      "step": 4230
    },
    {
      "epoch": 11.306666666666667,
      "grad_norm": 1.032878041267395,
      "learning_rate": 4.927407407407408e-05,
      "loss": 0.2618,
      "step": 4240
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.9672583341598511,
      "learning_rate": 4.925925925925926e-05,
      "loss": 0.2949,
      "step": 4250
    },
    {
      "epoch": 11.36,
      "grad_norm": 0.6188272833824158,
      "learning_rate": 4.924444444444445e-05,
      "loss": 0.2757,
      "step": 4260
    },
    {
      "epoch": 11.386666666666667,
      "grad_norm": 0.9915037751197815,
      "learning_rate": 4.922962962962963e-05,
      "loss": 0.3073,
      "step": 4270
    },
    {
      "epoch": 11.413333333333334,
      "grad_norm": 1.1850367784500122,
      "learning_rate": 4.9214814814814816e-05,
      "loss": 0.3185,
      "step": 4280
    },
    {
      "epoch": 11.44,
      "grad_norm": 1.137850284576416,
      "learning_rate": 4.92e-05,
      "loss": 0.2654,
      "step": 4290
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.8076909184455872,
      "learning_rate": 4.918518518518519e-05,
      "loss": 0.2792,
      "step": 4300
    },
    {
      "epoch": 11.493333333333334,
      "grad_norm": 1.014146327972412,
      "learning_rate": 4.917037037037037e-05,
      "loss": 0.2832,
      "step": 4310
    },
    {
      "epoch": 11.52,
      "grad_norm": 0.6529107093811035,
      "learning_rate": 4.915555555555556e-05,
      "loss": 0.2933,
      "step": 4320
    },
    {
      "epoch": 11.546666666666667,
      "grad_norm": 0.8933963179588318,
      "learning_rate": 4.9140740740740746e-05,
      "loss": 0.3036,
      "step": 4330
    },
    {
      "epoch": 11.573333333333334,
      "grad_norm": 0.8025181293487549,
      "learning_rate": 4.912592592592593e-05,
      "loss": 0.288,
      "step": 4340
    },
    {
      "epoch": 11.6,
      "grad_norm": 0.8378201723098755,
      "learning_rate": 4.9111111111111114e-05,
      "loss": 0.2609,
      "step": 4350
    },
    {
      "epoch": 11.626666666666667,
      "grad_norm": 1.2006419897079468,
      "learning_rate": 4.90962962962963e-05,
      "loss": 0.2834,
      "step": 4360
    },
    {
      "epoch": 11.653333333333332,
      "grad_norm": 0.883449912071228,
      "learning_rate": 4.908148148148148e-05,
      "loss": 0.2972,
      "step": 4370
    },
    {
      "epoch": 11.68,
      "grad_norm": 1.1643561124801636,
      "learning_rate": 4.906666666666667e-05,
      "loss": 0.28,
      "step": 4380
    },
    {
      "epoch": 11.706666666666667,
      "grad_norm": 0.8465391397476196,
      "learning_rate": 4.9051851851851856e-05,
      "loss": 0.2626,
      "step": 4390
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.8113766312599182,
      "learning_rate": 4.903703703703704e-05,
      "loss": 0.2754,
      "step": 4400
    },
    {
      "epoch": 11.76,
      "grad_norm": 1.1312212944030762,
      "learning_rate": 4.9022222222222224e-05,
      "loss": 0.2874,
      "step": 4410
    },
    {
      "epoch": 11.786666666666667,
      "grad_norm": 0.9732006192207336,
      "learning_rate": 4.9007407407407405e-05,
      "loss": 0.2585,
      "step": 4420
    },
    {
      "epoch": 11.813333333333333,
      "grad_norm": 0.9120191335678101,
      "learning_rate": 4.89925925925926e-05,
      "loss": 0.2626,
      "step": 4430
    },
    {
      "epoch": 11.84,
      "grad_norm": 0.82260662317276,
      "learning_rate": 4.897777777777778e-05,
      "loss": 0.2612,
      "step": 4440
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.853863000869751,
      "learning_rate": 4.896296296296297e-05,
      "loss": 0.2579,
      "step": 4450
    },
    {
      "epoch": 11.893333333333333,
      "grad_norm": 0.8941542506217957,
      "learning_rate": 4.894814814814815e-05,
      "loss": 0.2431,
      "step": 4460
    },
    {
      "epoch": 11.92,
      "grad_norm": 1.0879697799682617,
      "learning_rate": 4.8933333333333335e-05,
      "loss": 0.2936,
      "step": 4470
    },
    {
      "epoch": 11.946666666666667,
      "grad_norm": 0.7603148818016052,
      "learning_rate": 4.891851851851852e-05,
      "loss": 0.2454,
      "step": 4480
    },
    {
      "epoch": 11.973333333333333,
      "grad_norm": 1.0221105813980103,
      "learning_rate": 4.890370370370371e-05,
      "loss": 0.2402,
      "step": 4490
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.8571638464927673,
      "learning_rate": 4.888888888888889e-05,
      "loss": 0.278,
      "step": 4500
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.8811666666666667,
      "eval_loss": 0.3329264223575592,
      "eval_runtime": 249.4858,
      "eval_samples_per_second": 48.099,
      "eval_steps_per_second": 1.503,
      "step": 4500
    },
    {
      "epoch": 12.026666666666667,
      "grad_norm": 1.126734733581543,
      "learning_rate": 4.887407407407408e-05,
      "loss": 0.2715,
      "step": 4510
    },
    {
      "epoch": 12.053333333333333,
      "grad_norm": 1.0949597358703613,
      "learning_rate": 4.885925925925926e-05,
      "loss": 0.3059,
      "step": 4520
    },
    {
      "epoch": 12.08,
      "grad_norm": 0.9064618945121765,
      "learning_rate": 4.8844444444444445e-05,
      "loss": 0.2748,
      "step": 4530
    },
    {
      "epoch": 12.106666666666667,
      "grad_norm": 1.054699420928955,
      "learning_rate": 4.882962962962963e-05,
      "loss": 0.2541,
      "step": 4540
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 1.0697853565216064,
      "learning_rate": 4.881481481481482e-05,
      "loss": 0.2448,
      "step": 4550
    },
    {
      "epoch": 12.16,
      "grad_norm": 0.7116659879684448,
      "learning_rate": 4.88e-05,
      "loss": 0.2448,
      "step": 4560
    },
    {
      "epoch": 12.186666666666667,
      "grad_norm": 0.8856263756752014,
      "learning_rate": 4.878518518518519e-05,
      "loss": 0.2794,
      "step": 4570
    },
    {
      "epoch": 12.213333333333333,
      "grad_norm": 0.9276167750358582,
      "learning_rate": 4.8770370370370375e-05,
      "loss": 0.2662,
      "step": 4580
    },
    {
      "epoch": 12.24,
      "grad_norm": 0.9007221460342407,
      "learning_rate": 4.875555555555556e-05,
      "loss": 0.239,
      "step": 4590
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 1.0693758726119995,
      "learning_rate": 4.874074074074074e-05,
      "loss": 0.2466,
      "step": 4600
    },
    {
      "epoch": 12.293333333333333,
      "grad_norm": 0.9888723492622375,
      "learning_rate": 4.872592592592593e-05,
      "loss": 0.2629,
      "step": 4610
    },
    {
      "epoch": 12.32,
      "grad_norm": 1.1285632848739624,
      "learning_rate": 4.871111111111111e-05,
      "loss": 0.2445,
      "step": 4620
    },
    {
      "epoch": 12.346666666666668,
      "grad_norm": 1.2479591369628906,
      "learning_rate": 4.86962962962963e-05,
      "loss": 0.2818,
      "step": 4630
    },
    {
      "epoch": 12.373333333333333,
      "grad_norm": 0.888307511806488,
      "learning_rate": 4.8681481481481485e-05,
      "loss": 0.2595,
      "step": 4640
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.939766526222229,
      "learning_rate": 4.866666666666667e-05,
      "loss": 0.254,
      "step": 4650
    },
    {
      "epoch": 12.426666666666666,
      "grad_norm": 0.9327693581581116,
      "learning_rate": 4.865185185185185e-05,
      "loss": 0.256,
      "step": 4660
    },
    {
      "epoch": 12.453333333333333,
      "grad_norm": 0.5767496228218079,
      "learning_rate": 4.863703703703704e-05,
      "loss": 0.2647,
      "step": 4670
    },
    {
      "epoch": 12.48,
      "grad_norm": 1.1379495859146118,
      "learning_rate": 4.862222222222222e-05,
      "loss": 0.2787,
      "step": 4680
    },
    {
      "epoch": 12.506666666666666,
      "grad_norm": 0.8261799812316895,
      "learning_rate": 4.860740740740741e-05,
      "loss": 0.243,
      "step": 4690
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.7199703454971313,
      "learning_rate": 4.8592592592592596e-05,
      "loss": 0.267,
      "step": 4700
    },
    {
      "epoch": 12.56,
      "grad_norm": 0.843106210231781,
      "learning_rate": 4.8577777777777776e-05,
      "loss": 0.2858,
      "step": 4710
    },
    {
      "epoch": 12.586666666666666,
      "grad_norm": 0.9174416661262512,
      "learning_rate": 4.8562962962962964e-05,
      "loss": 0.2734,
      "step": 4720
    },
    {
      "epoch": 12.613333333333333,
      "grad_norm": 0.9142345190048218,
      "learning_rate": 4.854814814814815e-05,
      "loss": 0.2426,
      "step": 4730
    },
    {
      "epoch": 12.64,
      "grad_norm": 0.7256776690483093,
      "learning_rate": 4.853333333333334e-05,
      "loss": 0.268,
      "step": 4740
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.8155712485313416,
      "learning_rate": 4.851851851851852e-05,
      "loss": 0.2605,
      "step": 4750
    },
    {
      "epoch": 12.693333333333333,
      "grad_norm": 1.0268746614456177,
      "learning_rate": 4.8503703703703706e-05,
      "loss": 0.2592,
      "step": 4760
    },
    {
      "epoch": 12.72,
      "grad_norm": 1.0284401178359985,
      "learning_rate": 4.848888888888889e-05,
      "loss": 0.2465,
      "step": 4770
    },
    {
      "epoch": 12.746666666666666,
      "grad_norm": 0.9450557827949524,
      "learning_rate": 4.8474074074074074e-05,
      "loss": 0.2594,
      "step": 4780
    },
    {
      "epoch": 12.773333333333333,
      "grad_norm": 0.7002690434455872,
      "learning_rate": 4.845925925925926e-05,
      "loss": 0.2314,
      "step": 4790
    },
    {
      "epoch": 12.8,
      "grad_norm": 1.3233262300491333,
      "learning_rate": 4.844444444444445e-05,
      "loss": 0.2488,
      "step": 4800
    },
    {
      "epoch": 12.826666666666666,
      "grad_norm": 1.1148347854614258,
      "learning_rate": 4.842962962962963e-05,
      "loss": 0.2747,
      "step": 4810
    },
    {
      "epoch": 12.853333333333333,
      "grad_norm": 0.7571829557418823,
      "learning_rate": 4.841481481481482e-05,
      "loss": 0.2389,
      "step": 4820
    },
    {
      "epoch": 12.88,
      "grad_norm": 0.9332305788993835,
      "learning_rate": 4.8400000000000004e-05,
      "loss": 0.241,
      "step": 4830
    },
    {
      "epoch": 12.906666666666666,
      "grad_norm": 1.1315864324569702,
      "learning_rate": 4.838518518518519e-05,
      "loss": 0.2931,
      "step": 4840
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.8548458814620972,
      "learning_rate": 4.837037037037037e-05,
      "loss": 0.2529,
      "step": 4850
    },
    {
      "epoch": 12.96,
      "grad_norm": 0.7947821021080017,
      "learning_rate": 4.835555555555556e-05,
      "loss": 0.2767,
      "step": 4860
    },
    {
      "epoch": 12.986666666666666,
      "grad_norm": 1.2046189308166504,
      "learning_rate": 4.834074074074074e-05,
      "loss": 0.3618,
      "step": 4870
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.8835833333333334,
      "eval_loss": 0.3177317678928375,
      "eval_runtime": 249.4484,
      "eval_samples_per_second": 48.106,
      "eval_steps_per_second": 1.503,
      "step": 4875
    },
    {
      "epoch": 13.013333333333334,
      "grad_norm": 0.7338574528694153,
      "learning_rate": 4.832592592592593e-05,
      "loss": 0.2784,
      "step": 4880
    },
    {
      "epoch": 13.04,
      "grad_norm": 0.729314386844635,
      "learning_rate": 4.8311111111111115e-05,
      "loss": 0.2239,
      "step": 4890
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 0.64952152967453,
      "learning_rate": 4.82962962962963e-05,
      "loss": 0.2318,
      "step": 4900
    },
    {
      "epoch": 13.093333333333334,
      "grad_norm": 0.8439804911613464,
      "learning_rate": 4.828148148148148e-05,
      "loss": 0.2338,
      "step": 4910
    },
    {
      "epoch": 13.12,
      "grad_norm": 0.8302816152572632,
      "learning_rate": 4.826666666666667e-05,
      "loss": 0.2594,
      "step": 4920
    },
    {
      "epoch": 13.146666666666667,
      "grad_norm": 1.2588374614715576,
      "learning_rate": 4.825185185185185e-05,
      "loss": 0.2298,
      "step": 4930
    },
    {
      "epoch": 13.173333333333334,
      "grad_norm": 0.9967134594917297,
      "learning_rate": 4.8237037037037045e-05,
      "loss": 0.2415,
      "step": 4940
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.7642468214035034,
      "learning_rate": 4.8222222222222225e-05,
      "loss": 0.2304,
      "step": 4950
    },
    {
      "epoch": 13.226666666666667,
      "grad_norm": 0.9817863702774048,
      "learning_rate": 4.820740740740741e-05,
      "loss": 0.2736,
      "step": 4960
    },
    {
      "epoch": 13.253333333333334,
      "grad_norm": 0.6865203976631165,
      "learning_rate": 4.819259259259259e-05,
      "loss": 0.2337,
      "step": 4970
    },
    {
      "epoch": 13.28,
      "grad_norm": 0.850912868976593,
      "learning_rate": 4.817777777777778e-05,
      "loss": 0.2265,
      "step": 4980
    },
    {
      "epoch": 13.306666666666667,
      "grad_norm": 0.797937273979187,
      "learning_rate": 4.816296296296297e-05,
      "loss": 0.2371,
      "step": 4990
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.7671889662742615,
      "learning_rate": 4.814814814814815e-05,
      "loss": 0.242,
      "step": 5000
    },
    {
      "epoch": 13.36,
      "grad_norm": 1.253916621208191,
      "learning_rate": 4.8133333333333336e-05,
      "loss": 0.2642,
      "step": 5010
    },
    {
      "epoch": 13.386666666666667,
      "grad_norm": 0.7739356756210327,
      "learning_rate": 4.8118518518518516e-05,
      "loss": 0.2236,
      "step": 5020
    },
    {
      "epoch": 13.413333333333334,
      "grad_norm": 1.0052436590194702,
      "learning_rate": 4.8103703703703703e-05,
      "loss": 0.2335,
      "step": 5030
    },
    {
      "epoch": 13.44,
      "grad_norm": 0.6017870306968689,
      "learning_rate": 4.808888888888889e-05,
      "loss": 0.2408,
      "step": 5040
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 0.8387773633003235,
      "learning_rate": 4.807407407407408e-05,
      "loss": 0.261,
      "step": 5050
    },
    {
      "epoch": 13.493333333333334,
      "grad_norm": 1.0903067588806152,
      "learning_rate": 4.805925925925926e-05,
      "loss": 0.2802,
      "step": 5060
    },
    {
      "epoch": 13.52,
      "grad_norm": 1.0829507112503052,
      "learning_rate": 4.8044444444444446e-05,
      "loss": 0.221,
      "step": 5070
    },
    {
      "epoch": 13.546666666666667,
      "grad_norm": 0.752372145652771,
      "learning_rate": 4.802962962962963e-05,
      "loss": 0.2392,
      "step": 5080
    },
    {
      "epoch": 13.573333333333334,
      "grad_norm": 0.884834349155426,
      "learning_rate": 4.801481481481482e-05,
      "loss": 0.2359,
      "step": 5090
    },
    {
      "epoch": 13.6,
      "grad_norm": 1.199129581451416,
      "learning_rate": 4.8e-05,
      "loss": 0.2713,
      "step": 5100
    },
    {
      "epoch": 13.626666666666667,
      "grad_norm": 0.9208950400352478,
      "learning_rate": 4.798518518518519e-05,
      "loss": 0.243,
      "step": 5110
    },
    {
      "epoch": 13.653333333333332,
      "grad_norm": 1.113991141319275,
      "learning_rate": 4.797037037037037e-05,
      "loss": 0.2388,
      "step": 5120
    },
    {
      "epoch": 13.68,
      "grad_norm": 0.7170684337615967,
      "learning_rate": 4.7955555555555556e-05,
      "loss": 0.2571,
      "step": 5130
    },
    {
      "epoch": 13.706666666666667,
      "grad_norm": 0.7488929033279419,
      "learning_rate": 4.7940740740740744e-05,
      "loss": 0.2355,
      "step": 5140
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.9703030586242676,
      "learning_rate": 4.792592592592593e-05,
      "loss": 0.2772,
      "step": 5150
    },
    {
      "epoch": 13.76,
      "grad_norm": 0.6981998085975647,
      "learning_rate": 4.791111111111111e-05,
      "loss": 0.2205,
      "step": 5160
    },
    {
      "epoch": 13.786666666666667,
      "grad_norm": 1.1885621547698975,
      "learning_rate": 4.78962962962963e-05,
      "loss": 0.2315,
      "step": 5170
    },
    {
      "epoch": 13.813333333333333,
      "grad_norm": 0.8561756610870361,
      "learning_rate": 4.788148148148148e-05,
      "loss": 0.2619,
      "step": 5180
    },
    {
      "epoch": 13.84,
      "grad_norm": 0.6427872776985168,
      "learning_rate": 4.7866666666666674e-05,
      "loss": 0.2412,
      "step": 5190
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.7743550539016724,
      "learning_rate": 4.7851851851851854e-05,
      "loss": 0.226,
      "step": 5200
    },
    {
      "epoch": 13.893333333333333,
      "grad_norm": 1.053391695022583,
      "learning_rate": 4.783703703703704e-05,
      "loss": 0.2573,
      "step": 5210
    },
    {
      "epoch": 13.92,
      "grad_norm": 0.7874213457107544,
      "learning_rate": 4.782222222222222e-05,
      "loss": 0.2731,
      "step": 5220
    },
    {
      "epoch": 13.946666666666667,
      "grad_norm": 0.8373676538467407,
      "learning_rate": 4.780740740740741e-05,
      "loss": 0.2985,
      "step": 5230
    },
    {
      "epoch": 13.973333333333333,
      "grad_norm": 1.0595630407333374,
      "learning_rate": 4.77925925925926e-05,
      "loss": 0.2804,
      "step": 5240
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.9218273758888245,
      "learning_rate": 4.7777777777777784e-05,
      "loss": 0.2448,
      "step": 5250
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.8925833333333333,
      "eval_loss": 0.30693358182907104,
      "eval_runtime": 249.8608,
      "eval_samples_per_second": 48.027,
      "eval_steps_per_second": 1.501,
      "step": 5250
    },
    {
      "epoch": 14.026666666666667,
      "grad_norm": 1.2409112453460693,
      "learning_rate": 4.7762962962962965e-05,
      "loss": 0.2172,
      "step": 5260
    },
    {
      "epoch": 14.053333333333333,
      "grad_norm": 0.7531927227973938,
      "learning_rate": 4.774814814814815e-05,
      "loss": 0.2561,
      "step": 5270
    },
    {
      "epoch": 14.08,
      "grad_norm": 1.0628620386123657,
      "learning_rate": 4.773333333333333e-05,
      "loss": 0.268,
      "step": 5280
    },
    {
      "epoch": 14.106666666666667,
      "grad_norm": 0.810427725315094,
      "learning_rate": 4.771851851851853e-05,
      "loss": 0.2286,
      "step": 5290
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.6282049417495728,
      "learning_rate": 4.770370370370371e-05,
      "loss": 0.2479,
      "step": 5300
    },
    {
      "epoch": 14.16,
      "grad_norm": 0.8406832218170166,
      "learning_rate": 4.768888888888889e-05,
      "loss": 0.2246,
      "step": 5310
    },
    {
      "epoch": 14.186666666666667,
      "grad_norm": 1.1238325834274292,
      "learning_rate": 4.7674074074074075e-05,
      "loss": 0.2667,
      "step": 5320
    },
    {
      "epoch": 14.213333333333333,
      "grad_norm": 1.0784190893173218,
      "learning_rate": 4.7659259259259256e-05,
      "loss": 0.2615,
      "step": 5330
    },
    {
      "epoch": 14.24,
      "grad_norm": 0.7037746906280518,
      "learning_rate": 4.764444444444445e-05,
      "loss": 0.2359,
      "step": 5340
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.9757088422775269,
      "learning_rate": 4.762962962962963e-05,
      "loss": 0.2232,
      "step": 5350
    },
    {
      "epoch": 14.293333333333333,
      "grad_norm": 0.9441906213760376,
      "learning_rate": 4.761481481481482e-05,
      "loss": 0.2501,
      "step": 5360
    },
    {
      "epoch": 14.32,
      "grad_norm": 1.210986852645874,
      "learning_rate": 4.76e-05,
      "loss": 0.2329,
      "step": 5370
    },
    {
      "epoch": 14.346666666666668,
      "grad_norm": 0.9474188685417175,
      "learning_rate": 4.7585185185185186e-05,
      "loss": 0.2453,
      "step": 5380
    },
    {
      "epoch": 14.373333333333333,
      "grad_norm": 0.6864265203475952,
      "learning_rate": 4.757037037037037e-05,
      "loss": 0.2601,
      "step": 5390
    },
    {
      "epoch": 14.4,
      "grad_norm": 1.1126164197921753,
      "learning_rate": 4.755555555555556e-05,
      "loss": 0.2385,
      "step": 5400
    },
    {
      "epoch": 14.426666666666666,
      "grad_norm": 0.9865297675132751,
      "learning_rate": 4.754074074074074e-05,
      "loss": 0.2057,
      "step": 5410
    },
    {
      "epoch": 14.453333333333333,
      "grad_norm": 1.42702054977417,
      "learning_rate": 4.752592592592593e-05,
      "loss": 0.2158,
      "step": 5420
    },
    {
      "epoch": 14.48,
      "grad_norm": 0.8993312120437622,
      "learning_rate": 4.751111111111111e-05,
      "loss": 0.2436,
      "step": 5430
    },
    {
      "epoch": 14.506666666666666,
      "grad_norm": 0.9271665215492249,
      "learning_rate": 4.74962962962963e-05,
      "loss": 0.2507,
      "step": 5440
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.9794839024543762,
      "learning_rate": 4.7481481481481483e-05,
      "loss": 0.2034,
      "step": 5450
    },
    {
      "epoch": 14.56,
      "grad_norm": 0.7170578241348267,
      "learning_rate": 4.746666666666667e-05,
      "loss": 0.2525,
      "step": 5460
    },
    {
      "epoch": 14.586666666666666,
      "grad_norm": 1.1436090469360352,
      "learning_rate": 4.745185185185185e-05,
      "loss": 0.2485,
      "step": 5470
    },
    {
      "epoch": 14.613333333333333,
      "grad_norm": 1.1626040935516357,
      "learning_rate": 4.743703703703704e-05,
      "loss": 0.2815,
      "step": 5480
    },
    {
      "epoch": 14.64,
      "grad_norm": 0.6691455245018005,
      "learning_rate": 4.7422222222222226e-05,
      "loss": 0.2357,
      "step": 5490
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.7307310104370117,
      "learning_rate": 4.740740740740741e-05,
      "loss": 0.2381,
      "step": 5500
    },
    {
      "epoch": 14.693333333333333,
      "grad_norm": 0.7989517450332642,
      "learning_rate": 4.7392592592592594e-05,
      "loss": 0.2347,
      "step": 5510
    },
    {
      "epoch": 14.72,
      "grad_norm": 0.9122467637062073,
      "learning_rate": 4.737777777777778e-05,
      "loss": 0.2322,
      "step": 5520
    },
    {
      "epoch": 14.746666666666666,
      "grad_norm": 0.9169259071350098,
      "learning_rate": 4.736296296296296e-05,
      "loss": 0.2282,
      "step": 5530
    },
    {
      "epoch": 14.773333333333333,
      "grad_norm": 1.1285344362258911,
      "learning_rate": 4.7348148148148156e-05,
      "loss": 0.2417,
      "step": 5540
    },
    {
      "epoch": 14.8,
      "grad_norm": 0.8034947514533997,
      "learning_rate": 4.7333333333333336e-05,
      "loss": 0.1917,
      "step": 5550
    },
    {
      "epoch": 14.826666666666666,
      "grad_norm": 1.2625291347503662,
      "learning_rate": 4.7318518518518524e-05,
      "loss": 0.2726,
      "step": 5560
    },
    {
      "epoch": 14.853333333333333,
      "grad_norm": 0.8303372859954834,
      "learning_rate": 4.7303703703703704e-05,
      "loss": 0.2483,
      "step": 5570
    },
    {
      "epoch": 14.88,
      "grad_norm": 0.9976439476013184,
      "learning_rate": 4.728888888888889e-05,
      "loss": 0.2252,
      "step": 5580
    },
    {
      "epoch": 14.906666666666666,
      "grad_norm": 0.8537195324897766,
      "learning_rate": 4.727407407407408e-05,
      "loss": 0.2504,
      "step": 5590
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.8124051690101624,
      "learning_rate": 4.7259259259259266e-05,
      "loss": 0.2387,
      "step": 5600
    },
    {
      "epoch": 14.96,
      "grad_norm": 0.8286536335945129,
      "learning_rate": 4.724444444444445e-05,
      "loss": 0.2044,
      "step": 5610
    },
    {
      "epoch": 14.986666666666666,
      "grad_norm": 0.6831819415092468,
      "learning_rate": 4.722962962962963e-05,
      "loss": 0.2256,
      "step": 5620
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.895,
      "eval_loss": 0.305128812789917,
      "eval_runtime": 250.4452,
      "eval_samples_per_second": 47.915,
      "eval_steps_per_second": 1.497,
      "step": 5625
    },
    {
      "epoch": 15.013333333333334,
      "grad_norm": 0.8780859112739563,
      "learning_rate": 4.7214814814814815e-05,
      "loss": 0.1993,
      "step": 5630
    },
    {
      "epoch": 15.04,
      "grad_norm": 1.15898597240448,
      "learning_rate": 4.72e-05,
      "loss": 0.224,
      "step": 5640
    },
    {
      "epoch": 15.066666666666666,
      "grad_norm": 1.075177550315857,
      "learning_rate": 4.718518518518519e-05,
      "loss": 0.2336,
      "step": 5650
    },
    {
      "epoch": 15.093333333333334,
      "grad_norm": 0.7190340757369995,
      "learning_rate": 4.717037037037037e-05,
      "loss": 0.2276,
      "step": 5660
    },
    {
      "epoch": 15.12,
      "grad_norm": 0.8303045630455017,
      "learning_rate": 4.715555555555556e-05,
      "loss": 0.2415,
      "step": 5670
    },
    {
      "epoch": 15.146666666666667,
      "grad_norm": 0.8324750661849976,
      "learning_rate": 4.714074074074074e-05,
      "loss": 0.2528,
      "step": 5680
    },
    {
      "epoch": 15.173333333333334,
      "grad_norm": 1.0571017265319824,
      "learning_rate": 4.712592592592593e-05,
      "loss": 0.2206,
      "step": 5690
    },
    {
      "epoch": 15.2,
      "grad_norm": 1.1469885110855103,
      "learning_rate": 4.711111111111111e-05,
      "loss": 0.237,
      "step": 5700
    },
    {
      "epoch": 15.226666666666667,
      "grad_norm": 0.7209925651550293,
      "learning_rate": 4.70962962962963e-05,
      "loss": 0.2493,
      "step": 5710
    },
    {
      "epoch": 15.253333333333334,
      "grad_norm": 1.4051053524017334,
      "learning_rate": 4.708148148148148e-05,
      "loss": 0.1988,
      "step": 5720
    },
    {
      "epoch": 15.28,
      "grad_norm": 0.8226048946380615,
      "learning_rate": 4.706666666666667e-05,
      "loss": 0.241,
      "step": 5730
    },
    {
      "epoch": 15.306666666666667,
      "grad_norm": 0.8640329241752625,
      "learning_rate": 4.7051851851851855e-05,
      "loss": 0.2015,
      "step": 5740
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 1.0002055168151855,
      "learning_rate": 4.703703703703704e-05,
      "loss": 0.2489,
      "step": 5750
    },
    {
      "epoch": 15.36,
      "grad_norm": 0.9465985894203186,
      "learning_rate": 4.702222222222222e-05,
      "loss": 0.217,
      "step": 5760
    },
    {
      "epoch": 15.386666666666667,
      "grad_norm": 1.2353829145431519,
      "learning_rate": 4.700740740740741e-05,
      "loss": 0.2383,
      "step": 5770
    },
    {
      "epoch": 15.413333333333334,
      "grad_norm": 0.9031379222869873,
      "learning_rate": 4.699259259259259e-05,
      "loss": 0.2399,
      "step": 5780
    },
    {
      "epoch": 15.44,
      "grad_norm": 0.9846685528755188,
      "learning_rate": 4.6977777777777785e-05,
      "loss": 0.2661,
      "step": 5790
    },
    {
      "epoch": 15.466666666666667,
      "grad_norm": 0.9312131404876709,
      "learning_rate": 4.6962962962962966e-05,
      "loss": 0.2157,
      "step": 5800
    },
    {
      "epoch": 15.493333333333334,
      "grad_norm": 0.9156227707862854,
      "learning_rate": 4.694814814814815e-05,
      "loss": 0.2248,
      "step": 5810
    },
    {
      "epoch": 15.52,
      "grad_norm": 0.9699175357818604,
      "learning_rate": 4.6933333333333333e-05,
      "loss": 0.2347,
      "step": 5820
    },
    {
      "epoch": 15.546666666666667,
      "grad_norm": 1.1148622035980225,
      "learning_rate": 4.691851851851852e-05,
      "loss": 0.241,
      "step": 5830
    },
    {
      "epoch": 15.573333333333334,
      "grad_norm": 0.8843104243278503,
      "learning_rate": 4.690370370370371e-05,
      "loss": 0.217,
      "step": 5840
    },
    {
      "epoch": 15.6,
      "grad_norm": 1.0564892292022705,
      "learning_rate": 4.6888888888888895e-05,
      "loss": 0.2354,
      "step": 5850
    },
    {
      "epoch": 15.626666666666667,
      "grad_norm": 0.9679903984069824,
      "learning_rate": 4.6874074074074076e-05,
      "loss": 0.2365,
      "step": 5860
    },
    {
      "epoch": 15.653333333333332,
      "grad_norm": 1.2783359289169312,
      "learning_rate": 4.685925925925926e-05,
      "loss": 0.2255,
      "step": 5870
    },
    {
      "epoch": 15.68,
      "grad_norm": 0.748306930065155,
      "learning_rate": 4.6844444444444444e-05,
      "loss": 0.2017,
      "step": 5880
    },
    {
      "epoch": 15.706666666666667,
      "grad_norm": 1.0005475282669067,
      "learning_rate": 4.682962962962963e-05,
      "loss": 0.2301,
      "step": 5890
    },
    {
      "epoch": 15.733333333333333,
      "grad_norm": 0.9688641428947449,
      "learning_rate": 4.681481481481482e-05,
      "loss": 0.2319,
      "step": 5900
    },
    {
      "epoch": 15.76,
      "grad_norm": 0.977564811706543,
      "learning_rate": 4.6800000000000006e-05,
      "loss": 0.222,
      "step": 5910
    },
    {
      "epoch": 15.786666666666667,
      "grad_norm": 0.8027255535125732,
      "learning_rate": 4.6785185185185186e-05,
      "loss": 0.2346,
      "step": 5920
    },
    {
      "epoch": 15.813333333333333,
      "grad_norm": 0.8266276717185974,
      "learning_rate": 4.677037037037037e-05,
      "loss": 0.2228,
      "step": 5930
    },
    {
      "epoch": 15.84,
      "grad_norm": 0.9315988421440125,
      "learning_rate": 4.675555555555556e-05,
      "loss": 0.2323,
      "step": 5940
    },
    {
      "epoch": 15.866666666666667,
      "grad_norm": 0.9123389720916748,
      "learning_rate": 4.674074074074074e-05,
      "loss": 0.2102,
      "step": 5950
    },
    {
      "epoch": 15.893333333333333,
      "grad_norm": 0.7363046407699585,
      "learning_rate": 4.672592592592593e-05,
      "loss": 0.2461,
      "step": 5960
    },
    {
      "epoch": 15.92,
      "grad_norm": 0.8314365744590759,
      "learning_rate": 4.671111111111111e-05,
      "loss": 0.1871,
      "step": 5970
    },
    {
      "epoch": 15.946666666666667,
      "grad_norm": 0.5943475365638733,
      "learning_rate": 4.66962962962963e-05,
      "loss": 0.2433,
      "step": 5980
    },
    {
      "epoch": 15.973333333333333,
      "grad_norm": 1.1373237371444702,
      "learning_rate": 4.6681481481481484e-05,
      "loss": 0.2252,
      "step": 5990
    },
    {
      "epoch": 16.0,
      "grad_norm": 1.013159155845642,
      "learning_rate": 4.666666666666667e-05,
      "loss": 0.2345,
      "step": 6000
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.8869166666666667,
      "eval_loss": 0.3172546923160553,
      "eval_runtime": 250.0354,
      "eval_samples_per_second": 47.993,
      "eval_steps_per_second": 1.5,
      "step": 6000
    },
    {
      "epoch": 16.026666666666667,
      "grad_norm": 0.5933257937431335,
      "learning_rate": 4.665185185185185e-05,
      "loss": 0.1982,
      "step": 6010
    },
    {
      "epoch": 16.053333333333335,
      "grad_norm": 0.6856117248535156,
      "learning_rate": 4.663703703703704e-05,
      "loss": 0.2018,
      "step": 6020
    },
    {
      "epoch": 16.08,
      "grad_norm": 0.952616274356842,
      "learning_rate": 4.662222222222222e-05,
      "loss": 0.2311,
      "step": 6030
    },
    {
      "epoch": 16.106666666666666,
      "grad_norm": 0.873878538608551,
      "learning_rate": 4.660740740740741e-05,
      "loss": 0.2194,
      "step": 6040
    },
    {
      "epoch": 16.133333333333333,
      "grad_norm": 0.7192165851593018,
      "learning_rate": 4.6592592592592595e-05,
      "loss": 0.214,
      "step": 6050
    },
    {
      "epoch": 16.16,
      "grad_norm": 0.7372754216194153,
      "learning_rate": 4.657777777777778e-05,
      "loss": 0.2287,
      "step": 6060
    },
    {
      "epoch": 16.186666666666667,
      "grad_norm": 1.0513696670532227,
      "learning_rate": 4.656296296296296e-05,
      "loss": 0.2246,
      "step": 6070
    },
    {
      "epoch": 16.213333333333335,
      "grad_norm": 0.9082813262939453,
      "learning_rate": 4.654814814814815e-05,
      "loss": 0.2133,
      "step": 6080
    },
    {
      "epoch": 16.24,
      "grad_norm": 1.0280488729476929,
      "learning_rate": 4.653333333333334e-05,
      "loss": 0.2253,
      "step": 6090
    },
    {
      "epoch": 16.266666666666666,
      "grad_norm": 0.6344209909439087,
      "learning_rate": 4.6518518518518525e-05,
      "loss": 0.23,
      "step": 6100
    },
    {
      "epoch": 16.293333333333333,
      "grad_norm": 0.8463193774223328,
      "learning_rate": 4.6503703703703705e-05,
      "loss": 0.2062,
      "step": 6110
    },
    {
      "epoch": 16.32,
      "grad_norm": 1.276474118232727,
      "learning_rate": 4.648888888888889e-05,
      "loss": 0.2177,
      "step": 6120
    },
    {
      "epoch": 16.346666666666668,
      "grad_norm": 0.983705997467041,
      "learning_rate": 4.647407407407407e-05,
      "loss": 0.252,
      "step": 6130
    },
    {
      "epoch": 16.373333333333335,
      "grad_norm": 1.0397183895111084,
      "learning_rate": 4.645925925925926e-05,
      "loss": 0.2137,
      "step": 6140
    },
    {
      "epoch": 16.4,
      "grad_norm": 0.6958578824996948,
      "learning_rate": 4.644444444444445e-05,
      "loss": 0.2029,
      "step": 6150
    },
    {
      "epoch": 16.426666666666666,
      "grad_norm": 0.7723661661148071,
      "learning_rate": 4.6429629629629635e-05,
      "loss": 0.2035,
      "step": 6160
    },
    {
      "epoch": 16.453333333333333,
      "grad_norm": 0.7995575070381165,
      "learning_rate": 4.6414814814814816e-05,
      "loss": 0.2244,
      "step": 6170
    },
    {
      "epoch": 16.48,
      "grad_norm": 0.8854344487190247,
      "learning_rate": 4.64e-05,
      "loss": 0.2211,
      "step": 6180
    },
    {
      "epoch": 16.506666666666668,
      "grad_norm": 0.9779818654060364,
      "learning_rate": 4.638518518518519e-05,
      "loss": 0.2238,
      "step": 6190
    },
    {
      "epoch": 16.533333333333335,
      "grad_norm": 1.0446619987487793,
      "learning_rate": 4.637037037037038e-05,
      "loss": 0.2309,
      "step": 6200
    },
    {
      "epoch": 16.56,
      "grad_norm": 1.2140849828720093,
      "learning_rate": 4.635555555555556e-05,
      "loss": 0.2527,
      "step": 6210
    },
    {
      "epoch": 16.586666666666666,
      "grad_norm": 0.6466585397720337,
      "learning_rate": 4.6340740740740746e-05,
      "loss": 0.1961,
      "step": 6220
    },
    {
      "epoch": 16.613333333333333,
      "grad_norm": 0.8170985579490662,
      "learning_rate": 4.6325925925925926e-05,
      "loss": 0.2212,
      "step": 6230
    },
    {
      "epoch": 16.64,
      "grad_norm": 1.0058077573776245,
      "learning_rate": 4.6311111111111113e-05,
      "loss": 0.2334,
      "step": 6240
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.8503581881523132,
      "learning_rate": 4.62962962962963e-05,
      "loss": 0.2354,
      "step": 6250
    },
    {
      "epoch": 16.693333333333335,
      "grad_norm": 1.0003212690353394,
      "learning_rate": 4.628148148148148e-05,
      "loss": 0.24,
      "step": 6260
    },
    {
      "epoch": 16.72,
      "grad_norm": 0.8633155226707458,
      "learning_rate": 4.626666666666667e-05,
      "loss": 0.236,
      "step": 6270
    },
    {
      "epoch": 16.746666666666666,
      "grad_norm": 0.5616276264190674,
      "learning_rate": 4.625185185185185e-05,
      "loss": 0.2056,
      "step": 6280
    },
    {
      "epoch": 16.773333333333333,
      "grad_norm": 0.8033865094184875,
      "learning_rate": 4.6237037037037037e-05,
      "loss": 0.2031,
      "step": 6290
    },
    {
      "epoch": 16.8,
      "grad_norm": 1.333404779434204,
      "learning_rate": 4.6222222222222224e-05,
      "loss": 0.2149,
      "step": 6300
    },
    {
      "epoch": 16.826666666666668,
      "grad_norm": 1.1390050649642944,
      "learning_rate": 4.620740740740741e-05,
      "loss": 0.2059,
      "step": 6310
    },
    {
      "epoch": 16.85333333333333,
      "grad_norm": 1.1555438041687012,
      "learning_rate": 4.619259259259259e-05,
      "loss": 0.229,
      "step": 6320
    },
    {
      "epoch": 16.88,
      "grad_norm": 0.8743488192558289,
      "learning_rate": 4.617777777777778e-05,
      "loss": 0.2045,
      "step": 6330
    },
    {
      "epoch": 16.906666666666666,
      "grad_norm": 0.9817400574684143,
      "learning_rate": 4.6162962962962966e-05,
      "loss": 0.2247,
      "step": 6340
    },
    {
      "epoch": 16.933333333333334,
      "grad_norm": 0.6580103039741516,
      "learning_rate": 4.6148148148148154e-05,
      "loss": 0.2145,
      "step": 6350
    },
    {
      "epoch": 16.96,
      "grad_norm": 1.186204433441162,
      "learning_rate": 4.6133333333333334e-05,
      "loss": 0.2558,
      "step": 6360
    },
    {
      "epoch": 16.986666666666668,
      "grad_norm": 0.786339521408081,
      "learning_rate": 4.611851851851852e-05,
      "loss": 0.2121,
      "step": 6370
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.8954166666666666,
      "eval_loss": 0.309306800365448,
      "eval_runtime": 250.3724,
      "eval_samples_per_second": 47.929,
      "eval_steps_per_second": 1.498,
      "step": 6375
    },
    {
      "epoch": 17.013333333333332,
      "grad_norm": 1.0847649574279785,
      "learning_rate": 4.61037037037037e-05,
      "loss": 0.2219,
      "step": 6380
    },
    {
      "epoch": 17.04,
      "grad_norm": 0.6315633654594421,
      "learning_rate": 4.608888888888889e-05,
      "loss": 0.223,
      "step": 6390
    },
    {
      "epoch": 17.066666666666666,
      "grad_norm": 0.8920674324035645,
      "learning_rate": 4.607407407407408e-05,
      "loss": 0.209,
      "step": 6400
    },
    {
      "epoch": 17.093333333333334,
      "grad_norm": 1.1400494575500488,
      "learning_rate": 4.6059259259259264e-05,
      "loss": 0.2122,
      "step": 6410
    },
    {
      "epoch": 17.12,
      "grad_norm": 0.7829921841621399,
      "learning_rate": 4.6044444444444445e-05,
      "loss": 0.1807,
      "step": 6420
    },
    {
      "epoch": 17.14666666666667,
      "grad_norm": 1.2247706651687622,
      "learning_rate": 4.602962962962963e-05,
      "loss": 0.2122,
      "step": 6430
    },
    {
      "epoch": 17.173333333333332,
      "grad_norm": 0.9251999855041504,
      "learning_rate": 4.601481481481482e-05,
      "loss": 0.1936,
      "step": 6440
    },
    {
      "epoch": 17.2,
      "grad_norm": 1.129963994026184,
      "learning_rate": 4.600000000000001e-05,
      "loss": 0.2154,
      "step": 6450
    },
    {
      "epoch": 17.226666666666667,
      "grad_norm": 1.1568506956100464,
      "learning_rate": 4.598518518518519e-05,
      "loss": 0.1798,
      "step": 6460
    },
    {
      "epoch": 17.253333333333334,
      "grad_norm": 0.8407930731773376,
      "learning_rate": 4.5970370370370375e-05,
      "loss": 0.2208,
      "step": 6470
    },
    {
      "epoch": 17.28,
      "grad_norm": 1.0254485607147217,
      "learning_rate": 4.5955555555555555e-05,
      "loss": 0.2072,
      "step": 6480
    },
    {
      "epoch": 17.306666666666665,
      "grad_norm": 0.6046079993247986,
      "learning_rate": 4.594074074074074e-05,
      "loss": 0.2177,
      "step": 6490
    },
    {
      "epoch": 17.333333333333332,
      "grad_norm": 0.7018064260482788,
      "learning_rate": 4.592592592592593e-05,
      "loss": 0.2115,
      "step": 6500
    },
    {
      "epoch": 17.36,
      "grad_norm": 0.7071021199226379,
      "learning_rate": 4.591111111111112e-05,
      "loss": 0.2046,
      "step": 6510
    },
    {
      "epoch": 17.386666666666667,
      "grad_norm": 0.9970195889472961,
      "learning_rate": 4.58962962962963e-05,
      "loss": 0.2329,
      "step": 6520
    },
    {
      "epoch": 17.413333333333334,
      "grad_norm": 1.0762938261032104,
      "learning_rate": 4.5881481481481485e-05,
      "loss": 0.2395,
      "step": 6530
    },
    {
      "epoch": 17.44,
      "grad_norm": 1.3508251905441284,
      "learning_rate": 4.5866666666666666e-05,
      "loss": 0.2469,
      "step": 6540
    },
    {
      "epoch": 17.466666666666665,
      "grad_norm": 1.1004494428634644,
      "learning_rate": 4.585185185185185e-05,
      "loss": 0.1896,
      "step": 6550
    },
    {
      "epoch": 17.493333333333332,
      "grad_norm": 1.2068158388137817,
      "learning_rate": 4.583703703703704e-05,
      "loss": 0.2233,
      "step": 6560
    },
    {
      "epoch": 17.52,
      "grad_norm": 0.9937577247619629,
      "learning_rate": 4.582222222222222e-05,
      "loss": 0.1951,
      "step": 6570
    },
    {
      "epoch": 17.546666666666667,
      "grad_norm": 0.9528632164001465,
      "learning_rate": 4.580740740740741e-05,
      "loss": 0.2104,
      "step": 6580
    },
    {
      "epoch": 17.573333333333334,
      "grad_norm": 0.8297341465950012,
      "learning_rate": 4.5792592592592596e-05,
      "loss": 0.1931,
      "step": 6590
    },
    {
      "epoch": 17.6,
      "grad_norm": 1.4589300155639648,
      "learning_rate": 4.577777777777778e-05,
      "loss": 0.2236,
      "step": 6600
    },
    {
      "epoch": 17.626666666666665,
      "grad_norm": 0.8489493131637573,
      "learning_rate": 4.5762962962962964e-05,
      "loss": 0.2011,
      "step": 6610
    },
    {
      "epoch": 17.653333333333332,
      "grad_norm": 0.8059865832328796,
      "learning_rate": 4.574814814814815e-05,
      "loss": 0.2079,
      "step": 6620
    },
    {
      "epoch": 17.68,
      "grad_norm": 0.8653674125671387,
      "learning_rate": 4.573333333333333e-05,
      "loss": 0.1874,
      "step": 6630
    },
    {
      "epoch": 17.706666666666667,
      "grad_norm": 0.794390082359314,
      "learning_rate": 4.571851851851852e-05,
      "loss": 0.2341,
      "step": 6640
    },
    {
      "epoch": 17.733333333333334,
      "grad_norm": 0.8734914660453796,
      "learning_rate": 4.5703703703703706e-05,
      "loss": 0.2185,
      "step": 6650
    },
    {
      "epoch": 17.76,
      "grad_norm": 0.9834457039833069,
      "learning_rate": 4.5688888888888893e-05,
      "loss": 0.2247,
      "step": 6660
    },
    {
      "epoch": 17.786666666666665,
      "grad_norm": 0.6483538746833801,
      "learning_rate": 4.5674074074074074e-05,
      "loss": 0.1868,
      "step": 6670
    },
    {
      "epoch": 17.813333333333333,
      "grad_norm": 0.7812337279319763,
      "learning_rate": 4.565925925925926e-05,
      "loss": 0.1862,
      "step": 6680
    },
    {
      "epoch": 17.84,
      "grad_norm": 0.6785242557525635,
      "learning_rate": 4.564444444444444e-05,
      "loss": 0.1967,
      "step": 6690
    },
    {
      "epoch": 17.866666666666667,
      "grad_norm": 1.0414509773254395,
      "learning_rate": 4.5629629629629636e-05,
      "loss": 0.2338,
      "step": 6700
    },
    {
      "epoch": 17.893333333333334,
      "grad_norm": 0.7245619297027588,
      "learning_rate": 4.5614814814814817e-05,
      "loss": 0.2138,
      "step": 6710
    },
    {
      "epoch": 17.92,
      "grad_norm": 1.0841164588928223,
      "learning_rate": 4.5600000000000004e-05,
      "loss": 0.1885,
      "step": 6720
    },
    {
      "epoch": 17.946666666666665,
      "grad_norm": 1.136484980583191,
      "learning_rate": 4.5585185185185184e-05,
      "loss": 0.2296,
      "step": 6730
    },
    {
      "epoch": 17.973333333333333,
      "grad_norm": 1.0612092018127441,
      "learning_rate": 4.557037037037037e-05,
      "loss": 0.241,
      "step": 6740
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.9051516652107239,
      "learning_rate": 4.555555555555556e-05,
      "loss": 0.2335,
      "step": 6750
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.8955,
      "eval_loss": 0.30209314823150635,
      "eval_runtime": 249.9246,
      "eval_samples_per_second": 48.014,
      "eval_steps_per_second": 1.5,
      "step": 6750
    },
    {
      "epoch": 18.026666666666667,
      "grad_norm": 0.6505367159843445,
      "learning_rate": 4.5540740740740746e-05,
      "loss": 0.2015,
      "step": 6760
    },
    {
      "epoch": 18.053333333333335,
      "grad_norm": 0.9085814356803894,
      "learning_rate": 4.552592592592593e-05,
      "loss": 0.2366,
      "step": 6770
    },
    {
      "epoch": 18.08,
      "grad_norm": 0.7052538990974426,
      "learning_rate": 4.5511111111111114e-05,
      "loss": 0.182,
      "step": 6780
    },
    {
      "epoch": 18.106666666666666,
      "grad_norm": 0.7736017107963562,
      "learning_rate": 4.5496296296296295e-05,
      "loss": 0.2197,
      "step": 6790
    },
    {
      "epoch": 18.133333333333333,
      "grad_norm": 0.666124165058136,
      "learning_rate": 4.548148148148149e-05,
      "loss": 0.1842,
      "step": 6800
    },
    {
      "epoch": 18.16,
      "grad_norm": 0.5719690918922424,
      "learning_rate": 4.546666666666667e-05,
      "loss": 0.2052,
      "step": 6810
    },
    {
      "epoch": 18.186666666666667,
      "grad_norm": 0.7998666763305664,
      "learning_rate": 4.545185185185186e-05,
      "loss": 0.1978,
      "step": 6820
    },
    {
      "epoch": 18.213333333333335,
      "grad_norm": 0.8826988935470581,
      "learning_rate": 4.543703703703704e-05,
      "loss": 0.1857,
      "step": 6830
    },
    {
      "epoch": 18.24,
      "grad_norm": 0.8675973415374756,
      "learning_rate": 4.5422222222222225e-05,
      "loss": 0.2091,
      "step": 6840
    },
    {
      "epoch": 18.266666666666666,
      "grad_norm": 0.6671814322471619,
      "learning_rate": 4.540740740740741e-05,
      "loss": 0.2148,
      "step": 6850
    },
    {
      "epoch": 18.293333333333333,
      "grad_norm": 0.7314287424087524,
      "learning_rate": 4.539259259259259e-05,
      "loss": 0.2154,
      "step": 6860
    },
    {
      "epoch": 18.32,
      "grad_norm": 0.9431774616241455,
      "learning_rate": 4.537777777777778e-05,
      "loss": 0.217,
      "step": 6870
    },
    {
      "epoch": 18.346666666666668,
      "grad_norm": 0.8163052201271057,
      "learning_rate": 4.536296296296296e-05,
      "loss": 0.2084,
      "step": 6880
    },
    {
      "epoch": 18.373333333333335,
      "grad_norm": 0.7082629203796387,
      "learning_rate": 4.534814814814815e-05,
      "loss": 0.2197,
      "step": 6890
    },
    {
      "epoch": 18.4,
      "grad_norm": 0.8074229955673218,
      "learning_rate": 4.5333333333333335e-05,
      "loss": 0.2156,
      "step": 6900
    },
    {
      "epoch": 18.426666666666666,
      "grad_norm": 0.9027374982833862,
      "learning_rate": 4.531851851851852e-05,
      "loss": 0.2098,
      "step": 6910
    },
    {
      "epoch": 18.453333333333333,
      "grad_norm": 0.6998944878578186,
      "learning_rate": 4.53037037037037e-05,
      "loss": 0.1942,
      "step": 6920
    },
    {
      "epoch": 18.48,
      "grad_norm": 0.7281433343887329,
      "learning_rate": 4.528888888888889e-05,
      "loss": 0.1907,
      "step": 6930
    },
    {
      "epoch": 18.506666666666668,
      "grad_norm": 0.6471507549285889,
      "learning_rate": 4.527407407407407e-05,
      "loss": 0.2214,
      "step": 6940
    },
    {
      "epoch": 18.533333333333335,
      "grad_norm": 0.7700861692428589,
      "learning_rate": 4.5259259259259265e-05,
      "loss": 0.2097,
      "step": 6950
    },
    {
      "epoch": 18.56,
      "grad_norm": 0.6788780689239502,
      "learning_rate": 4.5244444444444446e-05,
      "loss": 0.1795,
      "step": 6960
    },
    {
      "epoch": 18.586666666666666,
      "grad_norm": 0.7007779479026794,
      "learning_rate": 4.522962962962963e-05,
      "loss": 0.1936,
      "step": 6970
    },
    {
      "epoch": 18.613333333333333,
      "grad_norm": 0.867875337600708,
      "learning_rate": 4.5214814814814814e-05,
      "loss": 0.212,
      "step": 6980
    },
    {
      "epoch": 18.64,
      "grad_norm": 0.9867449998855591,
      "learning_rate": 4.52e-05,
      "loss": 0.1954,
      "step": 6990
    },
    {
      "epoch": 18.666666666666668,
      "grad_norm": 1.0442817211151123,
      "learning_rate": 4.518518518518519e-05,
      "loss": 0.2091,
      "step": 7000
    },
    {
      "epoch": 18.693333333333335,
      "grad_norm": 1.0887091159820557,
      "learning_rate": 4.5170370370370376e-05,
      "loss": 0.1934,
      "step": 7010
    },
    {
      "epoch": 18.72,
      "grad_norm": 0.9661551117897034,
      "learning_rate": 4.5155555555555556e-05,
      "loss": 0.2058,
      "step": 7020
    },
    {
      "epoch": 18.746666666666666,
      "grad_norm": 0.654455304145813,
      "learning_rate": 4.5140740740740743e-05,
      "loss": 0.1811,
      "step": 7030
    },
    {
      "epoch": 18.773333333333333,
      "grad_norm": 1.4048088788986206,
      "learning_rate": 4.5125925925925924e-05,
      "loss": 0.2461,
      "step": 7040
    },
    {
      "epoch": 18.8,
      "grad_norm": 1.0240541696548462,
      "learning_rate": 4.511111111111112e-05,
      "loss": 0.2117,
      "step": 7050
    },
    {
      "epoch": 18.826666666666668,
      "grad_norm": 0.8644067049026489,
      "learning_rate": 4.50962962962963e-05,
      "loss": 0.204,
      "step": 7060
    },
    {
      "epoch": 18.85333333333333,
      "grad_norm": 1.051024079322815,
      "learning_rate": 4.5081481481481486e-05,
      "loss": 0.2289,
      "step": 7070
    },
    {
      "epoch": 18.88,
      "grad_norm": 0.7867690920829773,
      "learning_rate": 4.5066666666666667e-05,
      "loss": 0.1644,
      "step": 7080
    },
    {
      "epoch": 18.906666666666666,
      "grad_norm": 0.8934321403503418,
      "learning_rate": 4.5051851851851854e-05,
      "loss": 0.2173,
      "step": 7090
    },
    {
      "epoch": 18.933333333333334,
      "grad_norm": 1.1223819255828857,
      "learning_rate": 4.503703703703704e-05,
      "loss": 0.2125,
      "step": 7100
    },
    {
      "epoch": 18.96,
      "grad_norm": 0.8107485771179199,
      "learning_rate": 4.502222222222223e-05,
      "loss": 0.1964,
      "step": 7110
    },
    {
      "epoch": 18.986666666666668,
      "grad_norm": 0.9979279041290283,
      "learning_rate": 4.500740740740741e-05,
      "loss": 0.2169,
      "step": 7120
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.8891666666666667,
      "eval_loss": 0.3249436020851135,
      "eval_runtime": 250.4677,
      "eval_samples_per_second": 47.91,
      "eval_steps_per_second": 1.497,
      "step": 7125
    },
    {
      "epoch": 19.013333333333332,
      "grad_norm": 0.5381714701652527,
      "learning_rate": 4.4992592592592597e-05,
      "loss": 0.2025,
      "step": 7130
    },
    {
      "epoch": 19.04,
      "grad_norm": 1.0808249711990356,
      "learning_rate": 4.497777777777778e-05,
      "loss": 0.1914,
      "step": 7140
    },
    {
      "epoch": 19.066666666666666,
      "grad_norm": 0.6208426356315613,
      "learning_rate": 4.496296296296297e-05,
      "loss": 0.1679,
      "step": 7150
    },
    {
      "epoch": 19.093333333333334,
      "grad_norm": 1.240587830543518,
      "learning_rate": 4.494814814814815e-05,
      "loss": 0.1985,
      "step": 7160
    },
    {
      "epoch": 19.12,
      "grad_norm": 1.2524210214614868,
      "learning_rate": 4.493333333333333e-05,
      "loss": 0.2159,
      "step": 7170
    },
    {
      "epoch": 19.14666666666667,
      "grad_norm": 1.103708267211914,
      "learning_rate": 4.491851851851852e-05,
      "loss": 0.1812,
      "step": 7180
    },
    {
      "epoch": 19.173333333333332,
      "grad_norm": 0.7198252081871033,
      "learning_rate": 4.49037037037037e-05,
      "loss": 0.2187,
      "step": 7190
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.6944759488105774,
      "learning_rate": 4.4888888888888894e-05,
      "loss": 0.1774,
      "step": 7200
    },
    {
      "epoch": 19.226666666666667,
      "grad_norm": 0.8930229544639587,
      "learning_rate": 4.4874074074074075e-05,
      "loss": 0.2069,
      "step": 7210
    },
    {
      "epoch": 19.253333333333334,
      "grad_norm": 0.9005588293075562,
      "learning_rate": 4.485925925925926e-05,
      "loss": 0.2113,
      "step": 7220
    },
    {
      "epoch": 19.28,
      "grad_norm": 0.8683817982673645,
      "learning_rate": 4.484444444444444e-05,
      "loss": 0.1643,
      "step": 7230
    },
    {
      "epoch": 19.306666666666665,
      "grad_norm": 0.8800892233848572,
      "learning_rate": 4.482962962962963e-05,
      "loss": 0.207,
      "step": 7240
    },
    {
      "epoch": 19.333333333333332,
      "grad_norm": 0.7513169050216675,
      "learning_rate": 4.481481481481482e-05,
      "loss": 0.2171,
      "step": 7250
    },
    {
      "epoch": 19.36,
      "grad_norm": 0.8226156830787659,
      "learning_rate": 4.4800000000000005e-05,
      "loss": 0.2023,
      "step": 7260
    },
    {
      "epoch": 19.386666666666667,
      "grad_norm": 0.9768080711364746,
      "learning_rate": 4.4785185185185185e-05,
      "loss": 0.1596,
      "step": 7270
    },
    {
      "epoch": 19.413333333333334,
      "grad_norm": 1.1303435564041138,
      "learning_rate": 4.477037037037037e-05,
      "loss": 0.1941,
      "step": 7280
    },
    {
      "epoch": 19.44,
      "grad_norm": 1.7983283996582031,
      "learning_rate": 4.475555555555555e-05,
      "loss": 0.2218,
      "step": 7290
    },
    {
      "epoch": 19.466666666666665,
      "grad_norm": 0.6958315968513489,
      "learning_rate": 4.474074074074075e-05,
      "loss": 0.1762,
      "step": 7300
    },
    {
      "epoch": 19.493333333333332,
      "grad_norm": 0.845567524433136,
      "learning_rate": 4.472592592592593e-05,
      "loss": 0.2016,
      "step": 7310
    },
    {
      "epoch": 19.52,
      "grad_norm": 1.0077093839645386,
      "learning_rate": 4.4711111111111115e-05,
      "loss": 0.1856,
      "step": 7320
    },
    {
      "epoch": 19.546666666666667,
      "grad_norm": 0.8518097996711731,
      "learning_rate": 4.4696296296296296e-05,
      "loss": 0.1841,
      "step": 7330
    },
    {
      "epoch": 19.573333333333334,
      "grad_norm": 0.9338054656982422,
      "learning_rate": 4.468148148148148e-05,
      "loss": 0.1909,
      "step": 7340
    },
    {
      "epoch": 19.6,
      "grad_norm": 0.854891836643219,
      "learning_rate": 4.466666666666667e-05,
      "loss": 0.1942,
      "step": 7350
    },
    {
      "epoch": 19.626666666666665,
      "grad_norm": 1.1921600103378296,
      "learning_rate": 4.465185185185186e-05,
      "loss": 0.1869,
      "step": 7360
    },
    {
      "epoch": 19.653333333333332,
      "grad_norm": 1.2619552612304688,
      "learning_rate": 4.463703703703704e-05,
      "loss": 0.1961,
      "step": 7370
    },
    {
      "epoch": 19.68,
      "grad_norm": 1.0258257389068604,
      "learning_rate": 4.4622222222222226e-05,
      "loss": 0.2015,
      "step": 7380
    },
    {
      "epoch": 19.706666666666667,
      "grad_norm": 0.8175105452537537,
      "learning_rate": 4.4607407407407406e-05,
      "loss": 0.1842,
      "step": 7390
    },
    {
      "epoch": 19.733333333333334,
      "grad_norm": 0.8806605339050293,
      "learning_rate": 4.4592592592592594e-05,
      "loss": 0.1993,
      "step": 7400
    },
    {
      "epoch": 19.76,
      "grad_norm": 0.7799044847488403,
      "learning_rate": 4.457777777777778e-05,
      "loss": 0.2101,
      "step": 7410
    },
    {
      "epoch": 19.786666666666665,
      "grad_norm": 0.9906026721000671,
      "learning_rate": 4.456296296296297e-05,
      "loss": 0.1883,
      "step": 7420
    },
    {
      "epoch": 19.813333333333333,
      "grad_norm": 0.716210663318634,
      "learning_rate": 4.454814814814815e-05,
      "loss": 0.2153,
      "step": 7430
    },
    {
      "epoch": 19.84,
      "grad_norm": 0.8464218974113464,
      "learning_rate": 4.4533333333333336e-05,
      "loss": 0.1849,
      "step": 7440
    },
    {
      "epoch": 19.866666666666667,
      "grad_norm": 0.6615992784500122,
      "learning_rate": 4.4518518518518523e-05,
      "loss": 0.208,
      "step": 7450
    },
    {
      "epoch": 19.893333333333334,
      "grad_norm": 0.8176917433738708,
      "learning_rate": 4.450370370370371e-05,
      "loss": 0.2124,
      "step": 7460
    },
    {
      "epoch": 19.92,
      "grad_norm": 0.9772405624389648,
      "learning_rate": 4.448888888888889e-05,
      "loss": 0.214,
      "step": 7470
    },
    {
      "epoch": 19.946666666666665,
      "grad_norm": 0.8531501293182373,
      "learning_rate": 4.447407407407407e-05,
      "loss": 0.1954,
      "step": 7480
    },
    {
      "epoch": 19.973333333333333,
      "grad_norm": 0.7524469494819641,
      "learning_rate": 4.445925925925926e-05,
      "loss": 0.2099,
      "step": 7490
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.9186290502548218,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.1899,
      "step": 7500
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.895,
      "eval_loss": 0.3019094467163086,
      "eval_runtime": 252.2921,
      "eval_samples_per_second": 47.564,
      "eval_steps_per_second": 1.486,
      "step": 7500
    },
    {
      "epoch": 20.026666666666667,
      "grad_norm": 0.974155604839325,
      "learning_rate": 4.4429629629629634e-05,
      "loss": 0.1876,
      "step": 7510
    },
    {
      "epoch": 20.053333333333335,
      "grad_norm": 1.0890696048736572,
      "learning_rate": 4.4414814814814814e-05,
      "loss": 0.1716,
      "step": 7520
    },
    {
      "epoch": 20.08,
      "grad_norm": 0.680019199848175,
      "learning_rate": 4.44e-05,
      "loss": 0.158,
      "step": 7530
    },
    {
      "epoch": 20.106666666666666,
      "grad_norm": 1.1356762647628784,
      "learning_rate": 4.438518518518518e-05,
      "loss": 0.1784,
      "step": 7540
    },
    {
      "epoch": 20.133333333333333,
      "grad_norm": 1.1568999290466309,
      "learning_rate": 4.4370370370370376e-05,
      "loss": 0.1971,
      "step": 7550
    },
    {
      "epoch": 20.16,
      "grad_norm": 1.0519245862960815,
      "learning_rate": 4.435555555555556e-05,
      "loss": 0.1969,
      "step": 7560
    },
    {
      "epoch": 20.186666666666667,
      "grad_norm": 0.7984748482704163,
      "learning_rate": 4.4340740740740744e-05,
      "loss": 0.2016,
      "step": 7570
    },
    {
      "epoch": 20.213333333333335,
      "grad_norm": 1.0421602725982666,
      "learning_rate": 4.4325925925925925e-05,
      "loss": 0.1909,
      "step": 7580
    },
    {
      "epoch": 20.24,
      "grad_norm": 1.0614240169525146,
      "learning_rate": 4.431111111111111e-05,
      "loss": 0.2089,
      "step": 7590
    },
    {
      "epoch": 20.266666666666666,
      "grad_norm": 0.9773007035255432,
      "learning_rate": 4.42962962962963e-05,
      "loss": 0.2172,
      "step": 7600
    },
    {
      "epoch": 20.293333333333333,
      "grad_norm": 0.8822944760322571,
      "learning_rate": 4.428148148148149e-05,
      "loss": 0.2107,
      "step": 7610
    },
    {
      "epoch": 20.32,
      "grad_norm": 0.9824352264404297,
      "learning_rate": 4.426666666666667e-05,
      "loss": 0.197,
      "step": 7620
    },
    {
      "epoch": 20.346666666666668,
      "grad_norm": 0.5978705286979675,
      "learning_rate": 4.4251851851851855e-05,
      "loss": 0.1996,
      "step": 7630
    },
    {
      "epoch": 20.373333333333335,
      "grad_norm": 0.7914773225784302,
      "learning_rate": 4.4237037037037035e-05,
      "loss": 0.1977,
      "step": 7640
    },
    {
      "epoch": 20.4,
      "grad_norm": 0.9881728887557983,
      "learning_rate": 4.422222222222222e-05,
      "loss": 0.1981,
      "step": 7650
    },
    {
      "epoch": 20.426666666666666,
      "grad_norm": 1.231351375579834,
      "learning_rate": 4.420740740740741e-05,
      "loss": 0.1522,
      "step": 7660
    },
    {
      "epoch": 20.453333333333333,
      "grad_norm": 1.2548089027404785,
      "learning_rate": 4.41925925925926e-05,
      "loss": 0.2017,
      "step": 7670
    },
    {
      "epoch": 20.48,
      "grad_norm": 0.6990628838539124,
      "learning_rate": 4.417777777777778e-05,
      "loss": 0.1821,
      "step": 7680
    },
    {
      "epoch": 20.506666666666668,
      "grad_norm": 0.8536621332168579,
      "learning_rate": 4.4162962962962965e-05,
      "loss": 0.2056,
      "step": 7690
    },
    {
      "epoch": 20.533333333333335,
      "grad_norm": 0.6946174502372742,
      "learning_rate": 4.414814814814815e-05,
      "loss": 0.1724,
      "step": 7700
    },
    {
      "epoch": 20.56,
      "grad_norm": 1.3559132814407349,
      "learning_rate": 4.413333333333334e-05,
      "loss": 0.2002,
      "step": 7710
    },
    {
      "epoch": 20.586666666666666,
      "grad_norm": 0.5767248272895813,
      "learning_rate": 4.411851851851852e-05,
      "loss": 0.1816,
      "step": 7720
    },
    {
      "epoch": 20.613333333333333,
      "grad_norm": 0.7752051949501038,
      "learning_rate": 4.410370370370371e-05,
      "loss": 0.1953,
      "step": 7730
    },
    {
      "epoch": 20.64,
      "grad_norm": 0.7078379988670349,
      "learning_rate": 4.408888888888889e-05,
      "loss": 0.1701,
      "step": 7740
    },
    {
      "epoch": 20.666666666666668,
      "grad_norm": 0.9532902240753174,
      "learning_rate": 4.4074074074074076e-05,
      "loss": 0.1886,
      "step": 7750
    },
    {
      "epoch": 20.693333333333335,
      "grad_norm": 0.9259477853775024,
      "learning_rate": 4.405925925925926e-05,
      "loss": 0.1905,
      "step": 7760
    },
    {
      "epoch": 20.72,
      "grad_norm": 0.7656415104866028,
      "learning_rate": 4.404444444444445e-05,
      "loss": 0.1691,
      "step": 7770
    },
    {
      "epoch": 20.746666666666666,
      "grad_norm": 0.7031339406967163,
      "learning_rate": 4.402962962962963e-05,
      "loss": 0.1669,
      "step": 7780
    },
    {
      "epoch": 20.773333333333333,
      "grad_norm": 0.9130908250808716,
      "learning_rate": 4.401481481481481e-05,
      "loss": 0.1905,
      "step": 7790
    },
    {
      "epoch": 20.8,
      "grad_norm": 0.4964917302131653,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.1802,
      "step": 7800
    },
    {
      "epoch": 20.826666666666668,
      "grad_norm": 0.788489043712616,
      "learning_rate": 4.3985185185185186e-05,
      "loss": 0.1937,
      "step": 7810
    },
    {
      "epoch": 20.85333333333333,
      "grad_norm": 0.763920247554779,
      "learning_rate": 4.3970370370370374e-05,
      "loss": 0.178,
      "step": 7820
    },
    {
      "epoch": 20.88,
      "grad_norm": 1.1586834192276,
      "learning_rate": 4.3955555555555554e-05,
      "loss": 0.191,
      "step": 7830
    },
    {
      "epoch": 20.906666666666666,
      "grad_norm": 0.872491180896759,
      "learning_rate": 4.394074074074074e-05,
      "loss": 0.1886,
      "step": 7840
    },
    {
      "epoch": 20.933333333333334,
      "grad_norm": 0.9791348576545715,
      "learning_rate": 4.392592592592593e-05,
      "loss": 0.2112,
      "step": 7850
    },
    {
      "epoch": 20.96,
      "grad_norm": 1.3266221284866333,
      "learning_rate": 4.3911111111111116e-05,
      "loss": 0.2018,
      "step": 7860
    },
    {
      "epoch": 20.986666666666668,
      "grad_norm": 1.6931546926498413,
      "learning_rate": 4.38962962962963e-05,
      "loss": 0.1839,
      "step": 7870
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.89375,
      "eval_loss": 0.32217755913734436,
      "eval_runtime": 252.8854,
      "eval_samples_per_second": 47.452,
      "eval_steps_per_second": 1.483,
      "step": 7875
    },
    {
      "epoch": 21.013333333333332,
      "grad_norm": 0.8386087417602539,
      "learning_rate": 4.3881481481481484e-05,
      "loss": 0.1812,
      "step": 7880
    },
    {
      "epoch": 21.04,
      "grad_norm": 0.8113182187080383,
      "learning_rate": 4.3866666666666665e-05,
      "loss": 0.1758,
      "step": 7890
    },
    {
      "epoch": 21.066666666666666,
      "grad_norm": 0.9453726410865784,
      "learning_rate": 4.385185185185185e-05,
      "loss": 0.1995,
      "step": 7900
    },
    {
      "epoch": 21.093333333333334,
      "grad_norm": 0.8395352363586426,
      "learning_rate": 4.383703703703704e-05,
      "loss": 0.1612,
      "step": 7910
    },
    {
      "epoch": 21.12,
      "grad_norm": 0.9851044416427612,
      "learning_rate": 4.3822222222222227e-05,
      "loss": 0.1808,
      "step": 7920
    },
    {
      "epoch": 21.14666666666667,
      "grad_norm": 1.0393065214157104,
      "learning_rate": 4.380740740740741e-05,
      "loss": 0.1816,
      "step": 7930
    },
    {
      "epoch": 21.173333333333332,
      "grad_norm": 0.787501335144043,
      "learning_rate": 4.3792592592592594e-05,
      "loss": 0.1969,
      "step": 7940
    },
    {
      "epoch": 21.2,
      "grad_norm": 0.6561554074287415,
      "learning_rate": 4.377777777777778e-05,
      "loss": 0.1762,
      "step": 7950
    },
    {
      "epoch": 21.226666666666667,
      "grad_norm": 1.031649112701416,
      "learning_rate": 4.376296296296297e-05,
      "loss": 0.1748,
      "step": 7960
    },
    {
      "epoch": 21.253333333333334,
      "grad_norm": 1.063297152519226,
      "learning_rate": 4.374814814814815e-05,
      "loss": 0.1661,
      "step": 7970
    },
    {
      "epoch": 21.28,
      "grad_norm": 1.1451592445373535,
      "learning_rate": 4.373333333333334e-05,
      "loss": 0.1764,
      "step": 7980
    },
    {
      "epoch": 21.306666666666665,
      "grad_norm": 0.9897364974021912,
      "learning_rate": 4.371851851851852e-05,
      "loss": 0.1737,
      "step": 7990
    },
    {
      "epoch": 21.333333333333332,
      "grad_norm": 0.6504824161529541,
      "learning_rate": 4.3703703703703705e-05,
      "loss": 0.1667,
      "step": 8000
    },
    {
      "epoch": 21.36,
      "grad_norm": 1.1151783466339111,
      "learning_rate": 4.368888888888889e-05,
      "loss": 0.2116,
      "step": 8010
    },
    {
      "epoch": 21.386666666666667,
      "grad_norm": 1.1283199787139893,
      "learning_rate": 4.367407407407408e-05,
      "loss": 0.1799,
      "step": 8020
    },
    {
      "epoch": 21.413333333333334,
      "grad_norm": 1.1571197509765625,
      "learning_rate": 4.365925925925926e-05,
      "loss": 0.1563,
      "step": 8030
    },
    {
      "epoch": 21.44,
      "grad_norm": 1.2237275838851929,
      "learning_rate": 4.364444444444445e-05,
      "loss": 0.1751,
      "step": 8040
    },
    {
      "epoch": 21.466666666666665,
      "grad_norm": 0.8761997222900391,
      "learning_rate": 4.3629629629629635e-05,
      "loss": 0.1785,
      "step": 8050
    },
    {
      "epoch": 21.493333333333332,
      "grad_norm": 1.0804013013839722,
      "learning_rate": 4.361481481481482e-05,
      "loss": 0.183,
      "step": 8060
    },
    {
      "epoch": 21.52,
      "grad_norm": 0.8241725564002991,
      "learning_rate": 4.36e-05,
      "loss": 0.1536,
      "step": 8070
    },
    {
      "epoch": 21.546666666666667,
      "grad_norm": 1.452316403388977,
      "learning_rate": 4.358518518518519e-05,
      "loss": 0.1731,
      "step": 8080
    },
    {
      "epoch": 21.573333333333334,
      "grad_norm": 0.6904736161231995,
      "learning_rate": 4.357037037037037e-05,
      "loss": 0.2101,
      "step": 8090
    },
    {
      "epoch": 21.6,
      "grad_norm": 0.7161980867385864,
      "learning_rate": 4.355555555555556e-05,
      "loss": 0.1625,
      "step": 8100
    },
    {
      "epoch": 21.626666666666665,
      "grad_norm": 0.7790060043334961,
      "learning_rate": 4.3540740740740745e-05,
      "loss": 0.1787,
      "step": 8110
    },
    {
      "epoch": 21.653333333333332,
      "grad_norm": 0.5258254408836365,
      "learning_rate": 4.3525925925925926e-05,
      "loss": 0.1647,
      "step": 8120
    },
    {
      "epoch": 21.68,
      "grad_norm": 1.2902252674102783,
      "learning_rate": 4.351111111111111e-05,
      "loss": 0.1567,
      "step": 8130
    },
    {
      "epoch": 21.706666666666667,
      "grad_norm": 0.8799579739570618,
      "learning_rate": 4.3496296296296294e-05,
      "loss": 0.1979,
      "step": 8140
    },
    {
      "epoch": 21.733333333333334,
      "grad_norm": 0.7444628477096558,
      "learning_rate": 4.348148148148148e-05,
      "loss": 0.178,
      "step": 8150
    },
    {
      "epoch": 21.76,
      "grad_norm": 0.8602064847946167,
      "learning_rate": 4.346666666666667e-05,
      "loss": 0.1704,
      "step": 8160
    },
    {
      "epoch": 21.786666666666665,
      "grad_norm": 1.1372920274734497,
      "learning_rate": 4.3451851851851856e-05,
      "loss": 0.1884,
      "step": 8170
    },
    {
      "epoch": 21.813333333333333,
      "grad_norm": 0.932178795337677,
      "learning_rate": 4.3437037037037036e-05,
      "loss": 0.1911,
      "step": 8180
    },
    {
      "epoch": 21.84,
      "grad_norm": 0.761458694934845,
      "learning_rate": 4.3422222222222224e-05,
      "loss": 0.1959,
      "step": 8190
    },
    {
      "epoch": 21.866666666666667,
      "grad_norm": 1.028793454170227,
      "learning_rate": 4.340740740740741e-05,
      "loss": 0.1778,
      "step": 8200
    },
    {
      "epoch": 21.893333333333334,
      "grad_norm": 1.0833359956741333,
      "learning_rate": 4.33925925925926e-05,
      "loss": 0.195,
      "step": 8210
    },
    {
      "epoch": 21.92,
      "grad_norm": 0.7734977006912231,
      "learning_rate": 4.337777777777778e-05,
      "loss": 0.1742,
      "step": 8220
    },
    {
      "epoch": 21.946666666666665,
      "grad_norm": 0.8688709139823914,
      "learning_rate": 4.3362962962962966e-05,
      "loss": 0.168,
      "step": 8230
    },
    {
      "epoch": 21.973333333333333,
      "grad_norm": 1.3795506954193115,
      "learning_rate": 4.334814814814815e-05,
      "loss": 0.1504,
      "step": 8240
    },
    {
      "epoch": 22.0,
      "grad_norm": 1.1969883441925049,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 0.1768,
      "step": 8250
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.8876666666666667,
      "eval_loss": 0.3409099876880646,
      "eval_runtime": 252.569,
      "eval_samples_per_second": 47.512,
      "eval_steps_per_second": 1.485,
      "step": 8250
    },
    {
      "epoch": 22.026666666666667,
      "grad_norm": 0.7353700995445251,
      "learning_rate": 4.331851851851852e-05,
      "loss": 0.178,
      "step": 8260
    },
    {
      "epoch": 22.053333333333335,
      "grad_norm": 0.7419420480728149,
      "learning_rate": 4.330370370370371e-05,
      "loss": 0.1895,
      "step": 8270
    },
    {
      "epoch": 22.08,
      "grad_norm": 0.6869510412216187,
      "learning_rate": 4.328888888888889e-05,
      "loss": 0.1855,
      "step": 8280
    },
    {
      "epoch": 22.106666666666666,
      "grad_norm": 1.0026262998580933,
      "learning_rate": 4.327407407407408e-05,
      "loss": 0.1666,
      "step": 8290
    },
    {
      "epoch": 22.133333333333333,
      "grad_norm": 0.7855711579322815,
      "learning_rate": 4.325925925925926e-05,
      "loss": 0.1868,
      "step": 8300
    },
    {
      "epoch": 22.16,
      "grad_norm": 1.2874245643615723,
      "learning_rate": 4.324444444444445e-05,
      "loss": 0.1658,
      "step": 8310
    },
    {
      "epoch": 22.186666666666667,
      "grad_norm": 0.8713183999061584,
      "learning_rate": 4.322962962962963e-05,
      "loss": 0.207,
      "step": 8320
    },
    {
      "epoch": 22.213333333333335,
      "grad_norm": 0.8744196891784668,
      "learning_rate": 4.321481481481482e-05,
      "loss": 0.1731,
      "step": 8330
    },
    {
      "epoch": 22.24,
      "grad_norm": 1.1002644300460815,
      "learning_rate": 4.32e-05,
      "loss": 0.1884,
      "step": 8340
    },
    {
      "epoch": 22.266666666666666,
      "grad_norm": 1.0432552099227905,
      "learning_rate": 4.318518518518519e-05,
      "loss": 0.1945,
      "step": 8350
    },
    {
      "epoch": 22.293333333333333,
      "grad_norm": 0.9092620015144348,
      "learning_rate": 4.3170370370370374e-05,
      "loss": 0.1945,
      "step": 8360
    },
    {
      "epoch": 22.32,
      "grad_norm": 0.8668107390403748,
      "learning_rate": 4.315555555555556e-05,
      "loss": 0.185,
      "step": 8370
    },
    {
      "epoch": 22.346666666666668,
      "grad_norm": 0.6398547291755676,
      "learning_rate": 4.314074074074074e-05,
      "loss": 0.1668,
      "step": 8380
    },
    {
      "epoch": 22.373333333333335,
      "grad_norm": 1.4548838138580322,
      "learning_rate": 4.312592592592593e-05,
      "loss": 0.2037,
      "step": 8390
    },
    {
      "epoch": 22.4,
      "grad_norm": 0.9992258548736572,
      "learning_rate": 4.311111111111111e-05,
      "loss": 0.1851,
      "step": 8400
    },
    {
      "epoch": 22.426666666666666,
      "grad_norm": 0.6763677597045898,
      "learning_rate": 4.30962962962963e-05,
      "loss": 0.1779,
      "step": 8410
    },
    {
      "epoch": 22.453333333333333,
      "grad_norm": 0.7363944053649902,
      "learning_rate": 4.3081481481481485e-05,
      "loss": 0.1747,
      "step": 8420
    },
    {
      "epoch": 22.48,
      "grad_norm": 0.7682416439056396,
      "learning_rate": 4.3066666666666665e-05,
      "loss": 0.1907,
      "step": 8430
    },
    {
      "epoch": 22.506666666666668,
      "grad_norm": 0.6851952075958252,
      "learning_rate": 4.305185185185185e-05,
      "loss": 0.17,
      "step": 8440
    },
    {
      "epoch": 22.533333333333335,
      "grad_norm": 1.0802876949310303,
      "learning_rate": 4.303703703703704e-05,
      "loss": 0.1879,
      "step": 8450
    },
    {
      "epoch": 22.56,
      "grad_norm": 0.7615159749984741,
      "learning_rate": 4.302222222222223e-05,
      "loss": 0.1703,
      "step": 8460
    },
    {
      "epoch": 22.586666666666666,
      "grad_norm": 0.9228318333625793,
      "learning_rate": 4.300740740740741e-05,
      "loss": 0.1957,
      "step": 8470
    },
    {
      "epoch": 22.613333333333333,
      "grad_norm": 0.5299271941184998,
      "learning_rate": 4.2992592592592595e-05,
      "loss": 0.1663,
      "step": 8480
    },
    {
      "epoch": 22.64,
      "grad_norm": 0.9154703617095947,
      "learning_rate": 4.2977777777777776e-05,
      "loss": 0.1802,
      "step": 8490
    },
    {
      "epoch": 22.666666666666668,
      "grad_norm": 0.9980658888816833,
      "learning_rate": 4.296296296296296e-05,
      "loss": 0.2066,
      "step": 8500
    },
    {
      "epoch": 22.693333333333335,
      "grad_norm": 1.0865224599838257,
      "learning_rate": 4.294814814814815e-05,
      "loss": 0.1823,
      "step": 8510
    },
    {
      "epoch": 22.72,
      "grad_norm": 0.8318993449211121,
      "learning_rate": 4.293333333333334e-05,
      "loss": 0.1666,
      "step": 8520
    },
    {
      "epoch": 22.746666666666666,
      "grad_norm": 1.0815845727920532,
      "learning_rate": 4.291851851851852e-05,
      "loss": 0.1759,
      "step": 8530
    },
    {
      "epoch": 22.773333333333333,
      "grad_norm": 0.6411643624305725,
      "learning_rate": 4.2903703703703706e-05,
      "loss": 0.1709,
      "step": 8540
    },
    {
      "epoch": 22.8,
      "grad_norm": 1.19650399684906,
      "learning_rate": 4.2888888888888886e-05,
      "loss": 0.1817,
      "step": 8550
    },
    {
      "epoch": 22.826666666666668,
      "grad_norm": 0.6900277733802795,
      "learning_rate": 4.287407407407408e-05,
      "loss": 0.1871,
      "step": 8560
    },
    {
      "epoch": 22.85333333333333,
      "grad_norm": 0.8420649766921997,
      "learning_rate": 4.285925925925926e-05,
      "loss": 0.1949,
      "step": 8570
    },
    {
      "epoch": 22.88,
      "grad_norm": 0.4560328722000122,
      "learning_rate": 4.284444444444445e-05,
      "loss": 0.1858,
      "step": 8580
    },
    {
      "epoch": 22.906666666666666,
      "grad_norm": 0.7816135883331299,
      "learning_rate": 4.282962962962963e-05,
      "loss": 0.1695,
      "step": 8590
    },
    {
      "epoch": 22.933333333333334,
      "grad_norm": 0.741071343421936,
      "learning_rate": 4.2814814814814816e-05,
      "loss": 0.1857,
      "step": 8600
    },
    {
      "epoch": 22.96,
      "grad_norm": 1.2350037097930908,
      "learning_rate": 4.2800000000000004e-05,
      "loss": 0.1755,
      "step": 8610
    },
    {
      "epoch": 22.986666666666668,
      "grad_norm": 0.8331182599067688,
      "learning_rate": 4.278518518518519e-05,
      "loss": 0.1706,
      "step": 8620
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.8998333333333334,
      "eval_loss": 0.2921205163002014,
      "eval_runtime": 251.8908,
      "eval_samples_per_second": 47.64,
      "eval_steps_per_second": 1.489,
      "step": 8625
    },
    {
      "epoch": 23.013333333333332,
      "grad_norm": 1.4009085893630981,
      "learning_rate": 4.277037037037037e-05,
      "loss": 0.181,
      "step": 8630
    },
    {
      "epoch": 23.04,
      "grad_norm": 0.9988806843757629,
      "learning_rate": 4.275555555555556e-05,
      "loss": 0.177,
      "step": 8640
    },
    {
      "epoch": 23.066666666666666,
      "grad_norm": 1.0534147024154663,
      "learning_rate": 4.274074074074074e-05,
      "loss": 0.1616,
      "step": 8650
    },
    {
      "epoch": 23.093333333333334,
      "grad_norm": 1.0849246978759766,
      "learning_rate": 4.2725925925925933e-05,
      "loss": 0.1835,
      "step": 8660
    },
    {
      "epoch": 23.12,
      "grad_norm": 0.6626443862915039,
      "learning_rate": 4.2711111111111114e-05,
      "loss": 0.1671,
      "step": 8670
    },
    {
      "epoch": 23.14666666666667,
      "grad_norm": 1.1908282041549683,
      "learning_rate": 4.26962962962963e-05,
      "loss": 0.1699,
      "step": 8680
    },
    {
      "epoch": 23.173333333333332,
      "grad_norm": 0.8376059532165527,
      "learning_rate": 4.268148148148148e-05,
      "loss": 0.1697,
      "step": 8690
    },
    {
      "epoch": 23.2,
      "grad_norm": 0.9271876811981201,
      "learning_rate": 4.266666666666667e-05,
      "loss": 0.2006,
      "step": 8700
    },
    {
      "epoch": 23.226666666666667,
      "grad_norm": 0.8758803009986877,
      "learning_rate": 4.2651851851851857e-05,
      "loss": 0.1656,
      "step": 8710
    },
    {
      "epoch": 23.253333333333334,
      "grad_norm": 0.8610839247703552,
      "learning_rate": 4.263703703703704e-05,
      "loss": 0.1677,
      "step": 8720
    },
    {
      "epoch": 23.28,
      "grad_norm": 0.6845949292182922,
      "learning_rate": 4.2622222222222224e-05,
      "loss": 0.1733,
      "step": 8730
    },
    {
      "epoch": 23.306666666666665,
      "grad_norm": 1.113952875137329,
      "learning_rate": 4.2607407407407405e-05,
      "loss": 0.1686,
      "step": 8740
    },
    {
      "epoch": 23.333333333333332,
      "grad_norm": 1.0626049041748047,
      "learning_rate": 4.259259259259259e-05,
      "loss": 0.1498,
      "step": 8750
    },
    {
      "epoch": 23.36,
      "grad_norm": 1.4771642684936523,
      "learning_rate": 4.257777777777778e-05,
      "loss": 0.1833,
      "step": 8760
    },
    {
      "epoch": 23.386666666666667,
      "grad_norm": 0.9757238626480103,
      "learning_rate": 4.256296296296297e-05,
      "loss": 0.1812,
      "step": 8770
    },
    {
      "epoch": 23.413333333333334,
      "grad_norm": 0.6607667207717896,
      "learning_rate": 4.254814814814815e-05,
      "loss": 0.1766,
      "step": 8780
    },
    {
      "epoch": 23.44,
      "grad_norm": 1.0310217142105103,
      "learning_rate": 4.2533333333333335e-05,
      "loss": 0.1969,
      "step": 8790
    },
    {
      "epoch": 23.466666666666665,
      "grad_norm": 1.017004132270813,
      "learning_rate": 4.2518518518518515e-05,
      "loss": 0.1892,
      "step": 8800
    },
    {
      "epoch": 23.493333333333332,
      "grad_norm": 0.9267727732658386,
      "learning_rate": 4.250370370370371e-05,
      "loss": 0.1727,
      "step": 8810
    },
    {
      "epoch": 23.52,
      "grad_norm": 0.8183227181434631,
      "learning_rate": 4.248888888888889e-05,
      "loss": 0.1984,
      "step": 8820
    },
    {
      "epoch": 23.546666666666667,
      "grad_norm": 1.0381815433502197,
      "learning_rate": 4.247407407407408e-05,
      "loss": 0.1718,
      "step": 8830
    },
    {
      "epoch": 23.573333333333334,
      "grad_norm": 0.8884240984916687,
      "learning_rate": 4.245925925925926e-05,
      "loss": 0.1807,
      "step": 8840
    },
    {
      "epoch": 23.6,
      "grad_norm": 0.7501320838928223,
      "learning_rate": 4.2444444444444445e-05,
      "loss": 0.1863,
      "step": 8850
    },
    {
      "epoch": 23.626666666666665,
      "grad_norm": 1.1587915420532227,
      "learning_rate": 4.242962962962963e-05,
      "loss": 0.1459,
      "step": 8860
    },
    {
      "epoch": 23.653333333333332,
      "grad_norm": 1.3702963590621948,
      "learning_rate": 4.241481481481482e-05,
      "loss": 0.1468,
      "step": 8870
    },
    {
      "epoch": 23.68,
      "grad_norm": 0.788389265537262,
      "learning_rate": 4.24e-05,
      "loss": 0.1699,
      "step": 8880
    },
    {
      "epoch": 23.706666666666667,
      "grad_norm": 0.7712949514389038,
      "learning_rate": 4.238518518518519e-05,
      "loss": 0.1521,
      "step": 8890
    },
    {
      "epoch": 23.733333333333334,
      "grad_norm": 0.9007423520088196,
      "learning_rate": 4.237037037037037e-05,
      "loss": 0.2026,
      "step": 8900
    },
    {
      "epoch": 23.76,
      "grad_norm": 0.5816249847412109,
      "learning_rate": 4.235555555555556e-05,
      "loss": 0.1763,
      "step": 8910
    },
    {
      "epoch": 23.786666666666665,
      "grad_norm": 0.8288398385047913,
      "learning_rate": 4.234074074074074e-05,
      "loss": 0.1808,
      "step": 8920
    },
    {
      "epoch": 23.813333333333333,
      "grad_norm": 0.9582520127296448,
      "learning_rate": 4.232592592592593e-05,
      "loss": 0.1585,
      "step": 8930
    },
    {
      "epoch": 23.84,
      "grad_norm": 0.9543741941452026,
      "learning_rate": 4.231111111111111e-05,
      "loss": 0.1722,
      "step": 8940
    },
    {
      "epoch": 23.866666666666667,
      "grad_norm": 0.9123662114143372,
      "learning_rate": 4.22962962962963e-05,
      "loss": 0.1762,
      "step": 8950
    },
    {
      "epoch": 23.893333333333334,
      "grad_norm": 0.9601418972015381,
      "learning_rate": 4.2281481481481486e-05,
      "loss": 0.1905,
      "step": 8960
    },
    {
      "epoch": 23.92,
      "grad_norm": 1.0358216762542725,
      "learning_rate": 4.226666666666667e-05,
      "loss": 0.1674,
      "step": 8970
    },
    {
      "epoch": 23.946666666666665,
      "grad_norm": 0.7353113889694214,
      "learning_rate": 4.2251851851851854e-05,
      "loss": 0.2169,
      "step": 8980
    },
    {
      "epoch": 23.973333333333333,
      "grad_norm": 0.687998354434967,
      "learning_rate": 4.223703703703704e-05,
      "loss": 0.1805,
      "step": 8990
    },
    {
      "epoch": 24.0,
      "grad_norm": 0.8310955166816711,
      "learning_rate": 4.222222222222222e-05,
      "loss": 0.1793,
      "step": 9000
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.89725,
      "eval_loss": 0.30275094509124756,
      "eval_runtime": 252.7084,
      "eval_samples_per_second": 47.486,
      "eval_steps_per_second": 1.484,
      "step": 9000
    },
    {
      "epoch": 24.026666666666667,
      "grad_norm": 0.7066337466239929,
      "learning_rate": 4.220740740740741e-05,
      "loss": 0.1508,
      "step": 9010
    },
    {
      "epoch": 24.053333333333335,
      "grad_norm": 0.7717369794845581,
      "learning_rate": 4.2192592592592596e-05,
      "loss": 0.1511,
      "step": 9020
    },
    {
      "epoch": 24.08,
      "grad_norm": 0.5945690870285034,
      "learning_rate": 4.217777777777778e-05,
      "loss": 0.1586,
      "step": 9030
    },
    {
      "epoch": 24.106666666666666,
      "grad_norm": 0.7968681454658508,
      "learning_rate": 4.2162962962962964e-05,
      "loss": 0.1633,
      "step": 9040
    },
    {
      "epoch": 24.133333333333333,
      "grad_norm": 0.9050436615943909,
      "learning_rate": 4.2148148148148145e-05,
      "loss": 0.1505,
      "step": 9050
    },
    {
      "epoch": 24.16,
      "grad_norm": 1.5258382558822632,
      "learning_rate": 4.213333333333334e-05,
      "loss": 0.1947,
      "step": 9060
    },
    {
      "epoch": 24.186666666666667,
      "grad_norm": 0.7220850586891174,
      "learning_rate": 4.211851851851852e-05,
      "loss": 0.1795,
      "step": 9070
    },
    {
      "epoch": 24.213333333333335,
      "grad_norm": 0.7701992392539978,
      "learning_rate": 4.210370370370371e-05,
      "loss": 0.1814,
      "step": 9080
    },
    {
      "epoch": 24.24,
      "grad_norm": 1.10643470287323,
      "learning_rate": 4.208888888888889e-05,
      "loss": 0.1702,
      "step": 9090
    },
    {
      "epoch": 24.266666666666666,
      "grad_norm": 0.5304285287857056,
      "learning_rate": 4.2074074074074075e-05,
      "loss": 0.1429,
      "step": 9100
    },
    {
      "epoch": 24.293333333333333,
      "grad_norm": 0.7879608273506165,
      "learning_rate": 4.205925925925926e-05,
      "loss": 0.1642,
      "step": 9110
    },
    {
      "epoch": 24.32,
      "grad_norm": 0.9071942567825317,
      "learning_rate": 4.204444444444445e-05,
      "loss": 0.1603,
      "step": 9120
    },
    {
      "epoch": 24.346666666666668,
      "grad_norm": 0.5709224939346313,
      "learning_rate": 4.202962962962963e-05,
      "loss": 0.1761,
      "step": 9130
    },
    {
      "epoch": 24.373333333333335,
      "grad_norm": 0.7939537763595581,
      "learning_rate": 4.201481481481482e-05,
      "loss": 0.174,
      "step": 9140
    },
    {
      "epoch": 24.4,
      "grad_norm": 1.0654009580612183,
      "learning_rate": 4.2e-05,
      "loss": 0.1974,
      "step": 9150
    },
    {
      "epoch": 24.426666666666666,
      "grad_norm": 0.8201857805252075,
      "learning_rate": 4.198518518518519e-05,
      "loss": 0.1736,
      "step": 9160
    },
    {
      "epoch": 24.453333333333333,
      "grad_norm": 0.964053750038147,
      "learning_rate": 4.197037037037037e-05,
      "loss": 0.1754,
      "step": 9170
    },
    {
      "epoch": 24.48,
      "grad_norm": 0.7591426968574524,
      "learning_rate": 4.195555555555556e-05,
      "loss": 0.1521,
      "step": 9180
    },
    {
      "epoch": 24.506666666666668,
      "grad_norm": 0.9103859066963196,
      "learning_rate": 4.194074074074074e-05,
      "loss": 0.2021,
      "step": 9190
    },
    {
      "epoch": 24.533333333333335,
      "grad_norm": 0.9591417908668518,
      "learning_rate": 4.192592592592593e-05,
      "loss": 0.1773,
      "step": 9200
    },
    {
      "epoch": 24.56,
      "grad_norm": 0.9724812507629395,
      "learning_rate": 4.1911111111111115e-05,
      "loss": 0.1709,
      "step": 9210
    },
    {
      "epoch": 24.586666666666666,
      "grad_norm": 0.7648409605026245,
      "learning_rate": 4.18962962962963e-05,
      "loss": 0.1728,
      "step": 9220
    },
    {
      "epoch": 24.613333333333333,
      "grad_norm": 1.0305107831954956,
      "learning_rate": 4.188148148148148e-05,
      "loss": 0.1768,
      "step": 9230
    },
    {
      "epoch": 24.64,
      "grad_norm": 1.042624592781067,
      "learning_rate": 4.186666666666667e-05,
      "loss": 0.1741,
      "step": 9240
    },
    {
      "epoch": 24.666666666666668,
      "grad_norm": 0.8776698708534241,
      "learning_rate": 4.185185185185185e-05,
      "loss": 0.1739,
      "step": 9250
    },
    {
      "epoch": 24.693333333333335,
      "grad_norm": 0.8154869079589844,
      "learning_rate": 4.183703703703704e-05,
      "loss": 0.1644,
      "step": 9260
    },
    {
      "epoch": 24.72,
      "grad_norm": 1.0589091777801514,
      "learning_rate": 4.1822222222222225e-05,
      "loss": 0.1643,
      "step": 9270
    },
    {
      "epoch": 24.746666666666666,
      "grad_norm": 1.109400749206543,
      "learning_rate": 4.180740740740741e-05,
      "loss": 0.1893,
      "step": 9280
    },
    {
      "epoch": 24.773333333333333,
      "grad_norm": 0.5576030015945435,
      "learning_rate": 4.179259259259259e-05,
      "loss": 0.155,
      "step": 9290
    },
    {
      "epoch": 24.8,
      "grad_norm": 0.7653414607048035,
      "learning_rate": 4.177777777777778e-05,
      "loss": 0.1605,
      "step": 9300
    },
    {
      "epoch": 24.826666666666668,
      "grad_norm": 0.7315034866333008,
      "learning_rate": 4.176296296296297e-05,
      "loss": 0.1716,
      "step": 9310
    },
    {
      "epoch": 24.85333333333333,
      "grad_norm": 0.7963380813598633,
      "learning_rate": 4.1748148148148155e-05,
      "loss": 0.1437,
      "step": 9320
    },
    {
      "epoch": 24.88,
      "grad_norm": 1.1860369443893433,
      "learning_rate": 4.1733333333333336e-05,
      "loss": 0.1758,
      "step": 9330
    },
    {
      "epoch": 24.906666666666666,
      "grad_norm": 1.2217801809310913,
      "learning_rate": 4.1718518518518516e-05,
      "loss": 0.1697,
      "step": 9340
    },
    {
      "epoch": 24.933333333333334,
      "grad_norm": 0.728153645992279,
      "learning_rate": 4.1703703703703704e-05,
      "loss": 0.1498,
      "step": 9350
    },
    {
      "epoch": 24.96,
      "grad_norm": 0.8887326121330261,
      "learning_rate": 4.168888888888889e-05,
      "loss": 0.1998,
      "step": 9360
    },
    {
      "epoch": 24.986666666666668,
      "grad_norm": 0.6151113510131836,
      "learning_rate": 4.167407407407408e-05,
      "loss": 0.1777,
      "step": 9370
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.898,
      "eval_loss": 0.3156568109989166,
      "eval_runtime": 251.8883,
      "eval_samples_per_second": 47.64,
      "eval_steps_per_second": 1.489,
      "step": 9375
    },
    {
      "epoch": 25.013333333333332,
      "grad_norm": 0.8027066588401794,
      "learning_rate": 4.165925925925926e-05,
      "loss": 0.1785,
      "step": 9380
    },
    {
      "epoch": 25.04,
      "grad_norm": 0.46272796392440796,
      "learning_rate": 4.1644444444444446e-05,
      "loss": 0.1591,
      "step": 9390
    },
    {
      "epoch": 25.066666666666666,
      "grad_norm": 0.48692336678504944,
      "learning_rate": 4.162962962962963e-05,
      "loss": 0.1428,
      "step": 9400
    },
    {
      "epoch": 25.093333333333334,
      "grad_norm": 0.8233329653739929,
      "learning_rate": 4.161481481481482e-05,
      "loss": 0.1575,
      "step": 9410
    },
    {
      "epoch": 25.12,
      "grad_norm": 0.957427442073822,
      "learning_rate": 4.16e-05,
      "loss": 0.1539,
      "step": 9420
    },
    {
      "epoch": 25.14666666666667,
      "grad_norm": 1.2377736568450928,
      "learning_rate": 4.158518518518519e-05,
      "loss": 0.1669,
      "step": 9430
    },
    {
      "epoch": 25.173333333333332,
      "grad_norm": 0.769623339176178,
      "learning_rate": 4.157037037037037e-05,
      "loss": 0.1879,
      "step": 9440
    },
    {
      "epoch": 25.2,
      "grad_norm": 0.766095757484436,
      "learning_rate": 4.155555555555556e-05,
      "loss": 0.1384,
      "step": 9450
    },
    {
      "epoch": 25.226666666666667,
      "grad_norm": 0.7639849185943604,
      "learning_rate": 4.1540740740740744e-05,
      "loss": 0.1478,
      "step": 9460
    },
    {
      "epoch": 25.253333333333334,
      "grad_norm": 0.6896493434906006,
      "learning_rate": 4.152592592592593e-05,
      "loss": 0.1598,
      "step": 9470
    },
    {
      "epoch": 25.28,
      "grad_norm": 0.6748881936073303,
      "learning_rate": 4.151111111111111e-05,
      "loss": 0.1768,
      "step": 9480
    },
    {
      "epoch": 25.306666666666665,
      "grad_norm": 1.2227346897125244,
      "learning_rate": 4.14962962962963e-05,
      "loss": 0.1774,
      "step": 9490
    },
    {
      "epoch": 25.333333333333332,
      "grad_norm": 0.663772702217102,
      "learning_rate": 4.148148148148148e-05,
      "loss": 0.1635,
      "step": 9500
    },
    {
      "epoch": 25.36,
      "grad_norm": 0.5167037844657898,
      "learning_rate": 4.146666666666667e-05,
      "loss": 0.1658,
      "step": 9510
    },
    {
      "epoch": 25.386666666666667,
      "grad_norm": 0.9501878619194031,
      "learning_rate": 4.1451851851851855e-05,
      "loss": 0.1382,
      "step": 9520
    },
    {
      "epoch": 25.413333333333334,
      "grad_norm": 1.1179039478302002,
      "learning_rate": 4.143703703703704e-05,
      "loss": 0.1724,
      "step": 9530
    },
    {
      "epoch": 25.44,
      "grad_norm": 0.7136002779006958,
      "learning_rate": 4.142222222222222e-05,
      "loss": 0.1542,
      "step": 9540
    },
    {
      "epoch": 25.466666666666665,
      "grad_norm": 0.8506696224212646,
      "learning_rate": 4.140740740740741e-05,
      "loss": 0.1491,
      "step": 9550
    },
    {
      "epoch": 25.493333333333332,
      "grad_norm": 1.212020754814148,
      "learning_rate": 4.13925925925926e-05,
      "loss": 0.1859,
      "step": 9560
    },
    {
      "epoch": 25.52,
      "grad_norm": 0.766791045665741,
      "learning_rate": 4.1377777777777784e-05,
      "loss": 0.1894,
      "step": 9570
    },
    {
      "epoch": 25.546666666666667,
      "grad_norm": 0.5400250554084778,
      "learning_rate": 4.1362962962962965e-05,
      "loss": 0.1541,
      "step": 9580
    },
    {
      "epoch": 25.573333333333334,
      "grad_norm": 0.6574545502662659,
      "learning_rate": 4.134814814814815e-05,
      "loss": 0.1592,
      "step": 9590
    },
    {
      "epoch": 25.6,
      "grad_norm": 1.0278068780899048,
      "learning_rate": 4.133333333333333e-05,
      "loss": 0.1543,
      "step": 9600
    },
    {
      "epoch": 25.626666666666665,
      "grad_norm": 1.0386019945144653,
      "learning_rate": 4.131851851851852e-05,
      "loss": 0.1552,
      "step": 9610
    },
    {
      "epoch": 25.653333333333332,
      "grad_norm": 0.5067430138587952,
      "learning_rate": 4.130370370370371e-05,
      "loss": 0.1764,
      "step": 9620
    },
    {
      "epoch": 25.68,
      "grad_norm": 0.7337875962257385,
      "learning_rate": 4.1288888888888895e-05,
      "loss": 0.1529,
      "step": 9630
    },
    {
      "epoch": 25.706666666666667,
      "grad_norm": 0.6260819435119629,
      "learning_rate": 4.1274074074074075e-05,
      "loss": 0.1748,
      "step": 9640
    },
    {
      "epoch": 25.733333333333334,
      "grad_norm": 0.8517183661460876,
      "learning_rate": 4.1259259259259256e-05,
      "loss": 0.141,
      "step": 9650
    },
    {
      "epoch": 25.76,
      "grad_norm": 0.6665200591087341,
      "learning_rate": 4.124444444444444e-05,
      "loss": 0.1562,
      "step": 9660
    },
    {
      "epoch": 25.786666666666665,
      "grad_norm": 0.6507882475852966,
      "learning_rate": 4.122962962962963e-05,
      "loss": 0.165,
      "step": 9670
    },
    {
      "epoch": 25.813333333333333,
      "grad_norm": 0.8839073777198792,
      "learning_rate": 4.121481481481482e-05,
      "loss": 0.2142,
      "step": 9680
    },
    {
      "epoch": 25.84,
      "grad_norm": 0.3860010802745819,
      "learning_rate": 4.12e-05,
      "loss": 0.161,
      "step": 9690
    },
    {
      "epoch": 25.866666666666667,
      "grad_norm": 0.7398421168327332,
      "learning_rate": 4.1185185185185186e-05,
      "loss": 0.1687,
      "step": 9700
    },
    {
      "epoch": 25.893333333333334,
      "grad_norm": 0.4246804416179657,
      "learning_rate": 4.117037037037037e-05,
      "loss": 0.1822,
      "step": 9710
    },
    {
      "epoch": 25.92,
      "grad_norm": 1.161210060119629,
      "learning_rate": 4.115555555555556e-05,
      "loss": 0.1382,
      "step": 9720
    },
    {
      "epoch": 25.946666666666665,
      "grad_norm": 1.0247435569763184,
      "learning_rate": 4.114074074074074e-05,
      "loss": 0.1373,
      "step": 9730
    },
    {
      "epoch": 25.973333333333333,
      "grad_norm": 0.814956545829773,
      "learning_rate": 4.112592592592593e-05,
      "loss": 0.1592,
      "step": 9740
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.9313995838165283,
      "learning_rate": 4.111111111111111e-05,
      "loss": 0.1571,
      "step": 9750
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.8990833333333333,
      "eval_loss": 0.31929996609687805,
      "eval_runtime": 253.0476,
      "eval_samples_per_second": 47.422,
      "eval_steps_per_second": 1.482,
      "step": 9750
    },
    {
      "epoch": 26.026666666666667,
      "grad_norm": 0.7782986164093018,
      "learning_rate": 4.1096296296296296e-05,
      "loss": 0.1752,
      "step": 9760
    },
    {
      "epoch": 26.053333333333335,
      "grad_norm": 0.9605236649513245,
      "learning_rate": 4.1081481481481484e-05,
      "loss": 0.1601,
      "step": 9770
    },
    {
      "epoch": 26.08,
      "grad_norm": 0.7013469338417053,
      "learning_rate": 4.106666666666667e-05,
      "loss": 0.1571,
      "step": 9780
    },
    {
      "epoch": 26.106666666666666,
      "grad_norm": 1.042792558670044,
      "learning_rate": 4.105185185185185e-05,
      "loss": 0.1628,
      "step": 9790
    },
    {
      "epoch": 26.133333333333333,
      "grad_norm": 1.104070782661438,
      "learning_rate": 4.103703703703704e-05,
      "loss": 0.1554,
      "step": 9800
    },
    {
      "epoch": 26.16,
      "grad_norm": 0.9003199338912964,
      "learning_rate": 4.1022222222222226e-05,
      "loss": 0.1665,
      "step": 9810
    },
    {
      "epoch": 26.186666666666667,
      "grad_norm": 1.1134809255599976,
      "learning_rate": 4.1007407407407414e-05,
      "loss": 0.162,
      "step": 9820
    },
    {
      "epoch": 26.213333333333335,
      "grad_norm": 0.6833969354629517,
      "learning_rate": 4.0992592592592594e-05,
      "loss": 0.1653,
      "step": 9830
    },
    {
      "epoch": 26.24,
      "grad_norm": 1.1178427934646606,
      "learning_rate": 4.097777777777778e-05,
      "loss": 0.1425,
      "step": 9840
    },
    {
      "epoch": 26.266666666666666,
      "grad_norm": 1.0028446912765503,
      "learning_rate": 4.096296296296296e-05,
      "loss": 0.17,
      "step": 9850
    },
    {
      "epoch": 26.293333333333333,
      "grad_norm": 0.7377941012382507,
      "learning_rate": 4.094814814814815e-05,
      "loss": 0.1753,
      "step": 9860
    },
    {
      "epoch": 26.32,
      "grad_norm": 0.7071134448051453,
      "learning_rate": 4.093333333333334e-05,
      "loss": 0.1381,
      "step": 9870
    },
    {
      "epoch": 26.346666666666668,
      "grad_norm": 0.9348256587982178,
      "learning_rate": 4.0918518518518524e-05,
      "loss": 0.1578,
      "step": 9880
    },
    {
      "epoch": 26.373333333333335,
      "grad_norm": 0.955427885055542,
      "learning_rate": 4.0903703703703705e-05,
      "loss": 0.1445,
      "step": 9890
    },
    {
      "epoch": 26.4,
      "grad_norm": 0.8554354310035706,
      "learning_rate": 4.088888888888889e-05,
      "loss": 0.1548,
      "step": 9900
    },
    {
      "epoch": 26.426666666666666,
      "grad_norm": 0.9663209319114685,
      "learning_rate": 4.087407407407407e-05,
      "loss": 0.1538,
      "step": 9910
    },
    {
      "epoch": 26.453333333333333,
      "grad_norm": 0.6183518171310425,
      "learning_rate": 4.0859259259259267e-05,
      "loss": 0.1667,
      "step": 9920
    },
    {
      "epoch": 26.48,
      "grad_norm": 0.6601312160491943,
      "learning_rate": 4.084444444444445e-05,
      "loss": 0.149,
      "step": 9930
    },
    {
      "epoch": 26.506666666666668,
      "grad_norm": 0.6924620270729065,
      "learning_rate": 4.0829629629629634e-05,
      "loss": 0.1702,
      "step": 9940
    },
    {
      "epoch": 26.533333333333335,
      "grad_norm": 1.4241288900375366,
      "learning_rate": 4.0814814814814815e-05,
      "loss": 0.1704,
      "step": 9950
    },
    {
      "epoch": 26.56,
      "grad_norm": 1.0676738023757935,
      "learning_rate": 4.08e-05,
      "loss": 0.1505,
      "step": 9960
    },
    {
      "epoch": 26.586666666666666,
      "grad_norm": 0.6703752279281616,
      "learning_rate": 4.078518518518519e-05,
      "loss": 0.1543,
      "step": 9970
    },
    {
      "epoch": 26.613333333333333,
      "grad_norm": 0.952796995639801,
      "learning_rate": 4.077037037037037e-05,
      "loss": 0.179,
      "step": 9980
    },
    {
      "epoch": 26.64,
      "grad_norm": 1.101239800453186,
      "learning_rate": 4.075555555555556e-05,
      "loss": 0.1629,
      "step": 9990
    },
    {
      "epoch": 26.666666666666668,
      "grad_norm": 0.9030396342277527,
      "learning_rate": 4.074074074074074e-05,
      "loss": 0.1674,
      "step": 10000
    },
    {
      "epoch": 26.693333333333335,
      "grad_norm": 0.7878081798553467,
      "learning_rate": 4.0725925925925926e-05,
      "loss": 0.1851,
      "step": 10010
    },
    {
      "epoch": 26.72,
      "grad_norm": 0.5717151165008545,
      "learning_rate": 4.071111111111111e-05,
      "loss": 0.1538,
      "step": 10020
    },
    {
      "epoch": 26.746666666666666,
      "grad_norm": 0.6442128419876099,
      "learning_rate": 4.06962962962963e-05,
      "loss": 0.1495,
      "step": 10030
    },
    {
      "epoch": 26.773333333333333,
      "grad_norm": 0.6916108727455139,
      "learning_rate": 4.068148148148148e-05,
      "loss": 0.1594,
      "step": 10040
    },
    {
      "epoch": 26.8,
      "grad_norm": 0.8664018511772156,
      "learning_rate": 4.066666666666667e-05,
      "loss": 0.2021,
      "step": 10050
    },
    {
      "epoch": 26.826666666666668,
      "grad_norm": 1.0689308643341064,
      "learning_rate": 4.0651851851851855e-05,
      "loss": 0.1732,
      "step": 10060
    },
    {
      "epoch": 26.85333333333333,
      "grad_norm": 1.2212198972702026,
      "learning_rate": 4.063703703703704e-05,
      "loss": 0.1521,
      "step": 10070
    },
    {
      "epoch": 26.88,
      "grad_norm": 0.5901145935058594,
      "learning_rate": 4.062222222222222e-05,
      "loss": 0.1703,
      "step": 10080
    },
    {
      "epoch": 26.906666666666666,
      "grad_norm": 0.9043041467666626,
      "learning_rate": 4.060740740740741e-05,
      "loss": 0.1891,
      "step": 10090
    },
    {
      "epoch": 26.933333333333334,
      "grad_norm": 0.6385757923126221,
      "learning_rate": 4.059259259259259e-05,
      "loss": 0.1531,
      "step": 10100
    },
    {
      "epoch": 26.96,
      "grad_norm": 0.9186438918113708,
      "learning_rate": 4.057777777777778e-05,
      "loss": 0.1886,
      "step": 10110
    },
    {
      "epoch": 26.986666666666668,
      "grad_norm": 0.9996051788330078,
      "learning_rate": 4.0562962962962966e-05,
      "loss": 0.1616,
      "step": 10120
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.9008333333333334,
      "eval_loss": 0.31497037410736084,
      "eval_runtime": 252.7702,
      "eval_samples_per_second": 47.474,
      "eval_steps_per_second": 1.484,
      "step": 10125
    },
    {
      "epoch": 27.013333333333332,
      "grad_norm": 1.4487619400024414,
      "learning_rate": 4.054814814814815e-05,
      "loss": 0.1272,
      "step": 10130
    },
    {
      "epoch": 27.04,
      "grad_norm": 1.0402156114578247,
      "learning_rate": 4.0533333333333334e-05,
      "loss": 0.1405,
      "step": 10140
    },
    {
      "epoch": 27.066666666666666,
      "grad_norm": 0.7778382301330566,
      "learning_rate": 4.051851851851852e-05,
      "loss": 0.1266,
      "step": 10150
    },
    {
      "epoch": 27.093333333333334,
      "grad_norm": 0.7495517730712891,
      "learning_rate": 4.05037037037037e-05,
      "loss": 0.1381,
      "step": 10160
    },
    {
      "epoch": 27.12,
      "grad_norm": 1.0426610708236694,
      "learning_rate": 4.0488888888888896e-05,
      "loss": 0.1653,
      "step": 10170
    },
    {
      "epoch": 27.14666666666667,
      "grad_norm": 0.8395851850509644,
      "learning_rate": 4.0474074074074076e-05,
      "loss": 0.1599,
      "step": 10180
    },
    {
      "epoch": 27.173333333333332,
      "grad_norm": 0.8455336093902588,
      "learning_rate": 4.0459259259259264e-05,
      "loss": 0.1416,
      "step": 10190
    },
    {
      "epoch": 27.2,
      "grad_norm": 0.8600906133651733,
      "learning_rate": 4.0444444444444444e-05,
      "loss": 0.1641,
      "step": 10200
    },
    {
      "epoch": 27.226666666666667,
      "grad_norm": 1.121575951576233,
      "learning_rate": 4.042962962962963e-05,
      "loss": 0.168,
      "step": 10210
    },
    {
      "epoch": 27.253333333333334,
      "grad_norm": 1.0944111347198486,
      "learning_rate": 4.041481481481482e-05,
      "loss": 0.178,
      "step": 10220
    },
    {
      "epoch": 27.28,
      "grad_norm": 0.6407256126403809,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 0.1445,
      "step": 10230
    },
    {
      "epoch": 27.306666666666665,
      "grad_norm": 0.79509437084198,
      "learning_rate": 4.038518518518519e-05,
      "loss": 0.1539,
      "step": 10240
    },
    {
      "epoch": 27.333333333333332,
      "grad_norm": 0.7339061498641968,
      "learning_rate": 4.0370370370370374e-05,
      "loss": 0.1574,
      "step": 10250
    },
    {
      "epoch": 27.36,
      "grad_norm": 0.8828989267349243,
      "learning_rate": 4.0355555555555555e-05,
      "loss": 0.1837,
      "step": 10260
    },
    {
      "epoch": 27.386666666666667,
      "grad_norm": 0.5819228887557983,
      "learning_rate": 4.034074074074074e-05,
      "loss": 0.1776,
      "step": 10270
    },
    {
      "epoch": 27.413333333333334,
      "grad_norm": 0.7457976937294006,
      "learning_rate": 4.032592592592593e-05,
      "loss": 0.1648,
      "step": 10280
    },
    {
      "epoch": 27.44,
      "grad_norm": 0.6604668498039246,
      "learning_rate": 4.031111111111111e-05,
      "loss": 0.1551,
      "step": 10290
    },
    {
      "epoch": 27.466666666666665,
      "grad_norm": 1.3926297426223755,
      "learning_rate": 4.02962962962963e-05,
      "loss": 0.1598,
      "step": 10300
    },
    {
      "epoch": 27.493333333333332,
      "grad_norm": 1.0974200963974,
      "learning_rate": 4.028148148148148e-05,
      "loss": 0.1873,
      "step": 10310
    },
    {
      "epoch": 27.52,
      "grad_norm": 0.817166268825531,
      "learning_rate": 4.026666666666667e-05,
      "loss": 0.1762,
      "step": 10320
    },
    {
      "epoch": 27.546666666666667,
      "grad_norm": 0.6444597244262695,
      "learning_rate": 4.025185185185185e-05,
      "loss": 0.1424,
      "step": 10330
    },
    {
      "epoch": 27.573333333333334,
      "grad_norm": 0.7346920967102051,
      "learning_rate": 4.023703703703704e-05,
      "loss": 0.1423,
      "step": 10340
    },
    {
      "epoch": 27.6,
      "grad_norm": 0.33930566906929016,
      "learning_rate": 4.022222222222222e-05,
      "loss": 0.1265,
      "step": 10350
    },
    {
      "epoch": 27.626666666666665,
      "grad_norm": 0.7126988768577576,
      "learning_rate": 4.020740740740741e-05,
      "loss": 0.1301,
      "step": 10360
    },
    {
      "epoch": 27.653333333333332,
      "grad_norm": 1.3599756956100464,
      "learning_rate": 4.0192592592592595e-05,
      "loss": 0.1516,
      "step": 10370
    },
    {
      "epoch": 27.68,
      "grad_norm": 0.9836394190788269,
      "learning_rate": 4.017777777777778e-05,
      "loss": 0.157,
      "step": 10380
    },
    {
      "epoch": 27.706666666666667,
      "grad_norm": 0.6310690641403198,
      "learning_rate": 4.016296296296296e-05,
      "loss": 0.1439,
      "step": 10390
    },
    {
      "epoch": 27.733333333333334,
      "grad_norm": 0.9054973125457764,
      "learning_rate": 4.014814814814815e-05,
      "loss": 0.1581,
      "step": 10400
    },
    {
      "epoch": 27.76,
      "grad_norm": 0.7506052851676941,
      "learning_rate": 4.013333333333333e-05,
      "loss": 0.1525,
      "step": 10410
    },
    {
      "epoch": 27.786666666666665,
      "grad_norm": 0.9047917723655701,
      "learning_rate": 4.0118518518518525e-05,
      "loss": 0.1639,
      "step": 10420
    },
    {
      "epoch": 27.813333333333333,
      "grad_norm": 0.7593700289726257,
      "learning_rate": 4.0103703703703705e-05,
      "loss": 0.1658,
      "step": 10430
    },
    {
      "epoch": 27.84,
      "grad_norm": 1.2208822965621948,
      "learning_rate": 4.008888888888889e-05,
      "loss": 0.1761,
      "step": 10440
    },
    {
      "epoch": 27.866666666666667,
      "grad_norm": 0.7650309205055237,
      "learning_rate": 4.007407407407407e-05,
      "loss": 0.1771,
      "step": 10450
    },
    {
      "epoch": 27.893333333333334,
      "grad_norm": 0.47849419713020325,
      "learning_rate": 4.005925925925926e-05,
      "loss": 0.1603,
      "step": 10460
    },
    {
      "epoch": 27.92,
      "grad_norm": 0.8781583309173584,
      "learning_rate": 4.004444444444445e-05,
      "loss": 0.1411,
      "step": 10470
    },
    {
      "epoch": 27.946666666666665,
      "grad_norm": 1.3224233388900757,
      "learning_rate": 4.0029629629629635e-05,
      "loss": 0.1545,
      "step": 10480
    },
    {
      "epoch": 27.973333333333333,
      "grad_norm": 0.8204091787338257,
      "learning_rate": 4.0014814814814816e-05,
      "loss": 0.1367,
      "step": 10490
    },
    {
      "epoch": 28.0,
      "grad_norm": 1.2398439645767212,
      "learning_rate": 4e-05,
      "loss": 0.1608,
      "step": 10500
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.8994166666666666,
      "eval_loss": 0.3260481059551239,
      "eval_runtime": 252.8199,
      "eval_samples_per_second": 47.465,
      "eval_steps_per_second": 1.483,
      "step": 10500
    },
    {
      "epoch": 28.026666666666667,
      "grad_norm": 0.6893605589866638,
      "learning_rate": 3.9985185185185184e-05,
      "loss": 0.1558,
      "step": 10510
    },
    {
      "epoch": 28.053333333333335,
      "grad_norm": 0.7332105040550232,
      "learning_rate": 3.997037037037038e-05,
      "loss": 0.1641,
      "step": 10520
    },
    {
      "epoch": 28.08,
      "grad_norm": 0.9733380675315857,
      "learning_rate": 3.995555555555556e-05,
      "loss": 0.1593,
      "step": 10530
    },
    {
      "epoch": 28.106666666666666,
      "grad_norm": 0.5634269714355469,
      "learning_rate": 3.9940740740740746e-05,
      "loss": 0.1664,
      "step": 10540
    },
    {
      "epoch": 28.133333333333333,
      "grad_norm": 0.6527448296546936,
      "learning_rate": 3.9925925925925926e-05,
      "loss": 0.1576,
      "step": 10550
    },
    {
      "epoch": 28.16,
      "grad_norm": 1.0427942276000977,
      "learning_rate": 3.9911111111111114e-05,
      "loss": 0.1385,
      "step": 10560
    },
    {
      "epoch": 28.186666666666667,
      "grad_norm": 0.6839006543159485,
      "learning_rate": 3.98962962962963e-05,
      "loss": 0.1582,
      "step": 10570
    },
    {
      "epoch": 28.213333333333335,
      "grad_norm": 0.5583319664001465,
      "learning_rate": 3.988148148148148e-05,
      "loss": 0.1842,
      "step": 10580
    },
    {
      "epoch": 28.24,
      "grad_norm": 0.5305918455123901,
      "learning_rate": 3.986666666666667e-05,
      "loss": 0.1622,
      "step": 10590
    },
    {
      "epoch": 28.266666666666666,
      "grad_norm": 0.9706399440765381,
      "learning_rate": 3.985185185185185e-05,
      "loss": 0.1454,
      "step": 10600
    },
    {
      "epoch": 28.293333333333333,
      "grad_norm": 0.6750807762145996,
      "learning_rate": 3.983703703703704e-05,
      "loss": 0.1464,
      "step": 10610
    },
    {
      "epoch": 28.32,
      "grad_norm": 0.8013555407524109,
      "learning_rate": 3.9822222222222224e-05,
      "loss": 0.1567,
      "step": 10620
    },
    {
      "epoch": 28.346666666666668,
      "grad_norm": 1.144155740737915,
      "learning_rate": 3.980740740740741e-05,
      "loss": 0.154,
      "step": 10630
    },
    {
      "epoch": 28.373333333333335,
      "grad_norm": 0.9181743264198303,
      "learning_rate": 3.979259259259259e-05,
      "loss": 0.1528,
      "step": 10640
    },
    {
      "epoch": 28.4,
      "grad_norm": 0.9138596653938293,
      "learning_rate": 3.977777777777778e-05,
      "loss": 0.1942,
      "step": 10650
    },
    {
      "epoch": 28.426666666666666,
      "grad_norm": 0.940497100353241,
      "learning_rate": 3.976296296296296e-05,
      "loss": 0.1303,
      "step": 10660
    },
    {
      "epoch": 28.453333333333333,
      "grad_norm": 0.9832512736320496,
      "learning_rate": 3.9748148148148154e-05,
      "loss": 0.1414,
      "step": 10670
    },
    {
      "epoch": 28.48,
      "grad_norm": 0.6621248722076416,
      "learning_rate": 3.9733333333333335e-05,
      "loss": 0.1491,
      "step": 10680
    },
    {
      "epoch": 28.506666666666668,
      "grad_norm": 0.99233078956604,
      "learning_rate": 3.971851851851852e-05,
      "loss": 0.1631,
      "step": 10690
    },
    {
      "epoch": 28.533333333333335,
      "grad_norm": 0.7408146858215332,
      "learning_rate": 3.97037037037037e-05,
      "loss": 0.1417,
      "step": 10700
    },
    {
      "epoch": 28.56,
      "grad_norm": 1.1458914279937744,
      "learning_rate": 3.968888888888889e-05,
      "loss": 0.1643,
      "step": 10710
    },
    {
      "epoch": 28.586666666666666,
      "grad_norm": 0.629497230052948,
      "learning_rate": 3.967407407407408e-05,
      "loss": 0.1638,
      "step": 10720
    },
    {
      "epoch": 28.613333333333333,
      "grad_norm": 1.3338971138000488,
      "learning_rate": 3.9659259259259265e-05,
      "loss": 0.1267,
      "step": 10730
    },
    {
      "epoch": 28.64,
      "grad_norm": 0.5817397236824036,
      "learning_rate": 3.9644444444444445e-05,
      "loss": 0.1455,
      "step": 10740
    },
    {
      "epoch": 28.666666666666668,
      "grad_norm": 0.9284518957138062,
      "learning_rate": 3.962962962962963e-05,
      "loss": 0.151,
      "step": 10750
    },
    {
      "epoch": 28.693333333333335,
      "grad_norm": 1.0227954387664795,
      "learning_rate": 3.961481481481481e-05,
      "loss": 0.1405,
      "step": 10760
    },
    {
      "epoch": 28.72,
      "grad_norm": 0.7645326852798462,
      "learning_rate": 3.960000000000001e-05,
      "loss": 0.1459,
      "step": 10770
    },
    {
      "epoch": 28.746666666666666,
      "grad_norm": 0.7437626719474792,
      "learning_rate": 3.958518518518519e-05,
      "loss": 0.194,
      "step": 10780
    },
    {
      "epoch": 28.773333333333333,
      "grad_norm": 0.6487135887145996,
      "learning_rate": 3.9570370370370375e-05,
      "loss": 0.1542,
      "step": 10790
    },
    {
      "epoch": 28.8,
      "grad_norm": 0.6059247255325317,
      "learning_rate": 3.9555555555555556e-05,
      "loss": 0.1555,
      "step": 10800
    },
    {
      "epoch": 28.826666666666668,
      "grad_norm": 0.3758384883403778,
      "learning_rate": 3.954074074074074e-05,
      "loss": 0.1488,
      "step": 10810
    },
    {
      "epoch": 28.85333333333333,
      "grad_norm": 0.8953729271888733,
      "learning_rate": 3.952592592592593e-05,
      "loss": 0.1346,
      "step": 10820
    },
    {
      "epoch": 28.88,
      "grad_norm": 0.8550493717193604,
      "learning_rate": 3.951111111111112e-05,
      "loss": 0.1402,
      "step": 10830
    },
    {
      "epoch": 28.906666666666666,
      "grad_norm": 0.707980215549469,
      "learning_rate": 3.94962962962963e-05,
      "loss": 0.1821,
      "step": 10840
    },
    {
      "epoch": 28.933333333333334,
      "grad_norm": 0.7635376453399658,
      "learning_rate": 3.9481481481481485e-05,
      "loss": 0.1739,
      "step": 10850
    },
    {
      "epoch": 28.96,
      "grad_norm": 1.2454946041107178,
      "learning_rate": 3.9466666666666666e-05,
      "loss": 0.1487,
      "step": 10860
    },
    {
      "epoch": 28.986666666666668,
      "grad_norm": 0.9234296679496765,
      "learning_rate": 3.945185185185185e-05,
      "loss": 0.1766,
      "step": 10870
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.8963333333333333,
      "eval_loss": 0.3143346905708313,
      "eval_runtime": 253.1085,
      "eval_samples_per_second": 47.41,
      "eval_steps_per_second": 1.482,
      "step": 10875
    },
    {
      "epoch": 29.013333333333332,
      "grad_norm": 0.6467958092689514,
      "learning_rate": 3.943703703703704e-05,
      "loss": 0.1514,
      "step": 10880
    },
    {
      "epoch": 29.04,
      "grad_norm": 0.6527116894721985,
      "learning_rate": 3.942222222222222e-05,
      "loss": 0.1486,
      "step": 10890
    },
    {
      "epoch": 29.066666666666666,
      "grad_norm": 0.6416818499565125,
      "learning_rate": 3.940740740740741e-05,
      "loss": 0.1366,
      "step": 10900
    },
    {
      "epoch": 29.093333333333334,
      "grad_norm": 1.0649131536483765,
      "learning_rate": 3.939259259259259e-05,
      "loss": 0.1524,
      "step": 10910
    },
    {
      "epoch": 29.12,
      "grad_norm": 1.2108582258224487,
      "learning_rate": 3.937777777777778e-05,
      "loss": 0.1365,
      "step": 10920
    },
    {
      "epoch": 29.14666666666667,
      "grad_norm": 1.0144089460372925,
      "learning_rate": 3.9362962962962964e-05,
      "loss": 0.1511,
      "step": 10930
    },
    {
      "epoch": 29.173333333333332,
      "grad_norm": 0.5941630005836487,
      "learning_rate": 3.934814814814815e-05,
      "loss": 0.1681,
      "step": 10940
    },
    {
      "epoch": 29.2,
      "grad_norm": 0.552924394607544,
      "learning_rate": 3.933333333333333e-05,
      "loss": 0.1401,
      "step": 10950
    },
    {
      "epoch": 29.226666666666667,
      "grad_norm": 0.5984042286872864,
      "learning_rate": 3.931851851851852e-05,
      "loss": 0.1735,
      "step": 10960
    },
    {
      "epoch": 29.253333333333334,
      "grad_norm": 0.5484638214111328,
      "learning_rate": 3.9303703703703706e-05,
      "loss": 0.1342,
      "step": 10970
    },
    {
      "epoch": 29.28,
      "grad_norm": 0.8591370582580566,
      "learning_rate": 3.9288888888888894e-05,
      "loss": 0.1574,
      "step": 10980
    },
    {
      "epoch": 29.306666666666665,
      "grad_norm": 0.8318890929222107,
      "learning_rate": 3.9274074074074074e-05,
      "loss": 0.1544,
      "step": 10990
    },
    {
      "epoch": 29.333333333333332,
      "grad_norm": 0.8118026256561279,
      "learning_rate": 3.925925925925926e-05,
      "loss": 0.1621,
      "step": 11000
    },
    {
      "epoch": 29.36,
      "grad_norm": 0.9545933604240417,
      "learning_rate": 3.924444444444444e-05,
      "loss": 0.1592,
      "step": 11010
    },
    {
      "epoch": 29.386666666666667,
      "grad_norm": 0.669881284236908,
      "learning_rate": 3.922962962962963e-05,
      "loss": 0.1515,
      "step": 11020
    },
    {
      "epoch": 29.413333333333334,
      "grad_norm": 0.639251172542572,
      "learning_rate": 3.921481481481482e-05,
      "loss": 0.1483,
      "step": 11030
    },
    {
      "epoch": 29.44,
      "grad_norm": 1.6298249959945679,
      "learning_rate": 3.9200000000000004e-05,
      "loss": 0.1349,
      "step": 11040
    },
    {
      "epoch": 29.466666666666665,
      "grad_norm": 0.496686726808548,
      "learning_rate": 3.9185185185185185e-05,
      "loss": 0.1591,
      "step": 11050
    },
    {
      "epoch": 29.493333333333332,
      "grad_norm": 0.6817299127578735,
      "learning_rate": 3.917037037037037e-05,
      "loss": 0.1288,
      "step": 11060
    },
    {
      "epoch": 29.52,
      "grad_norm": 0.7114832401275635,
      "learning_rate": 3.915555555555556e-05,
      "loss": 0.1533,
      "step": 11070
    },
    {
      "epoch": 29.546666666666667,
      "grad_norm": 1.1204123497009277,
      "learning_rate": 3.914074074074075e-05,
      "loss": 0.1638,
      "step": 11080
    },
    {
      "epoch": 29.573333333333334,
      "grad_norm": 0.6622611880302429,
      "learning_rate": 3.912592592592593e-05,
      "loss": 0.1578,
      "step": 11090
    },
    {
      "epoch": 29.6,
      "grad_norm": 0.8145710229873657,
      "learning_rate": 3.9111111111111115e-05,
      "loss": 0.1423,
      "step": 11100
    },
    {
      "epoch": 29.626666666666665,
      "grad_norm": 0.6247044801712036,
      "learning_rate": 3.9096296296296295e-05,
      "loss": 0.1772,
      "step": 11110
    },
    {
      "epoch": 29.653333333333332,
      "grad_norm": 0.6817605495452881,
      "learning_rate": 3.908148148148148e-05,
      "loss": 0.1838,
      "step": 11120
    },
    {
      "epoch": 29.68,
      "grad_norm": 1.0804976224899292,
      "learning_rate": 3.906666666666667e-05,
      "loss": 0.1616,
      "step": 11130
    },
    {
      "epoch": 29.706666666666667,
      "grad_norm": 1.0282964706420898,
      "learning_rate": 3.905185185185186e-05,
      "loss": 0.136,
      "step": 11140
    },
    {
      "epoch": 29.733333333333334,
      "grad_norm": 0.5476607084274292,
      "learning_rate": 3.903703703703704e-05,
      "loss": 0.114,
      "step": 11150
    },
    {
      "epoch": 29.76,
      "grad_norm": 1.141966700553894,
      "learning_rate": 3.9022222222222225e-05,
      "loss": 0.1525,
      "step": 11160
    },
    {
      "epoch": 29.786666666666665,
      "grad_norm": 0.7984287142753601,
      "learning_rate": 3.900740740740741e-05,
      "loss": 0.1648,
      "step": 11170
    },
    {
      "epoch": 29.813333333333333,
      "grad_norm": 1.0380336046218872,
      "learning_rate": 3.89925925925926e-05,
      "loss": 0.1769,
      "step": 11180
    },
    {
      "epoch": 29.84,
      "grad_norm": 0.8326897621154785,
      "learning_rate": 3.897777777777778e-05,
      "loss": 0.1746,
      "step": 11190
    },
    {
      "epoch": 29.866666666666667,
      "grad_norm": 0.9488481879234314,
      "learning_rate": 3.896296296296296e-05,
      "loss": 0.1595,
      "step": 11200
    },
    {
      "epoch": 29.893333333333334,
      "grad_norm": 0.6698833703994751,
      "learning_rate": 3.894814814814815e-05,
      "loss": 0.1609,
      "step": 11210
    },
    {
      "epoch": 29.92,
      "grad_norm": 0.7668611407279968,
      "learning_rate": 3.8933333333333336e-05,
      "loss": 0.1541,
      "step": 11220
    },
    {
      "epoch": 29.946666666666665,
      "grad_norm": 1.407020092010498,
      "learning_rate": 3.891851851851852e-05,
      "loss": 0.1369,
      "step": 11230
    },
    {
      "epoch": 29.973333333333333,
      "grad_norm": 0.7712295055389404,
      "learning_rate": 3.8903703703703703e-05,
      "loss": 0.1681,
      "step": 11240
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.7841002345085144,
      "learning_rate": 3.888888888888889e-05,
      "loss": 0.1459,
      "step": 11250
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.8990833333333333,
      "eval_loss": 0.326180100440979,
      "eval_runtime": 252.5821,
      "eval_samples_per_second": 47.509,
      "eval_steps_per_second": 1.485,
      "step": 11250
    },
    {
      "epoch": 30.026666666666667,
      "grad_norm": 0.8573657870292664,
      "learning_rate": 3.887407407407407e-05,
      "loss": 0.1519,
      "step": 11260
    },
    {
      "epoch": 30.053333333333335,
      "grad_norm": 0.6085878610610962,
      "learning_rate": 3.885925925925926e-05,
      "loss": 0.1618,
      "step": 11270
    },
    {
      "epoch": 30.08,
      "grad_norm": 1.2267919778823853,
      "learning_rate": 3.8844444444444446e-05,
      "loss": 0.152,
      "step": 11280
    },
    {
      "epoch": 30.106666666666666,
      "grad_norm": 0.7280980944633484,
      "learning_rate": 3.882962962962963e-05,
      "loss": 0.132,
      "step": 11290
    },
    {
      "epoch": 30.133333333333333,
      "grad_norm": 1.2680655717849731,
      "learning_rate": 3.8814814814814814e-05,
      "loss": 0.1241,
      "step": 11300
    },
    {
      "epoch": 30.16,
      "grad_norm": 0.8354300856590271,
      "learning_rate": 3.88e-05,
      "loss": 0.1487,
      "step": 11310
    },
    {
      "epoch": 30.186666666666667,
      "grad_norm": 1.194151520729065,
      "learning_rate": 3.878518518518519e-05,
      "loss": 0.1377,
      "step": 11320
    },
    {
      "epoch": 30.213333333333335,
      "grad_norm": 0.7555848956108093,
      "learning_rate": 3.8770370370370376e-05,
      "loss": 0.1421,
      "step": 11330
    },
    {
      "epoch": 30.24,
      "grad_norm": 0.5116603374481201,
      "learning_rate": 3.8755555555555556e-05,
      "loss": 0.1243,
      "step": 11340
    },
    {
      "epoch": 30.266666666666666,
      "grad_norm": 0.8198305368423462,
      "learning_rate": 3.8740740740740744e-05,
      "loss": 0.137,
      "step": 11350
    },
    {
      "epoch": 30.293333333333333,
      "grad_norm": 0.5630440711975098,
      "learning_rate": 3.8725925925925924e-05,
      "loss": 0.1473,
      "step": 11360
    },
    {
      "epoch": 30.32,
      "grad_norm": 0.7061154842376709,
      "learning_rate": 3.871111111111111e-05,
      "loss": 0.1961,
      "step": 11370
    },
    {
      "epoch": 30.346666666666668,
      "grad_norm": 0.8157947063446045,
      "learning_rate": 3.86962962962963e-05,
      "loss": 0.1352,
      "step": 11380
    },
    {
      "epoch": 30.373333333333335,
      "grad_norm": 1.1062180995941162,
      "learning_rate": 3.8681481481481486e-05,
      "loss": 0.1441,
      "step": 11390
    },
    {
      "epoch": 30.4,
      "grad_norm": 0.45194345712661743,
      "learning_rate": 3.866666666666667e-05,
      "loss": 0.1297,
      "step": 11400
    },
    {
      "epoch": 30.426666666666666,
      "grad_norm": 0.5673952102661133,
      "learning_rate": 3.8651851851851854e-05,
      "loss": 0.1578,
      "step": 11410
    },
    {
      "epoch": 30.453333333333333,
      "grad_norm": 0.5672792792320251,
      "learning_rate": 3.863703703703704e-05,
      "loss": 0.1453,
      "step": 11420
    },
    {
      "epoch": 30.48,
      "grad_norm": 0.5309438705444336,
      "learning_rate": 3.862222222222223e-05,
      "loss": 0.1648,
      "step": 11430
    },
    {
      "epoch": 30.506666666666668,
      "grad_norm": 0.8667115569114685,
      "learning_rate": 3.860740740740741e-05,
      "loss": 0.1487,
      "step": 11440
    },
    {
      "epoch": 30.533333333333335,
      "grad_norm": 0.9123988747596741,
      "learning_rate": 3.85925925925926e-05,
      "loss": 0.1563,
      "step": 11450
    },
    {
      "epoch": 30.56,
      "grad_norm": 0.7069024443626404,
      "learning_rate": 3.857777777777778e-05,
      "loss": 0.1411,
      "step": 11460
    },
    {
      "epoch": 30.586666666666666,
      "grad_norm": 0.9990876317024231,
      "learning_rate": 3.8562962962962965e-05,
      "loss": 0.1534,
      "step": 11470
    },
    {
      "epoch": 30.613333333333333,
      "grad_norm": 0.42457976937294006,
      "learning_rate": 3.854814814814815e-05,
      "loss": 0.1452,
      "step": 11480
    },
    {
      "epoch": 30.64,
      "grad_norm": 0.325662225484848,
      "learning_rate": 3.853333333333334e-05,
      "loss": 0.137,
      "step": 11490
    },
    {
      "epoch": 30.666666666666668,
      "grad_norm": 0.8207065463066101,
      "learning_rate": 3.851851851851852e-05,
      "loss": 0.1727,
      "step": 11500
    },
    {
      "epoch": 30.693333333333335,
      "grad_norm": 0.8283947706222534,
      "learning_rate": 3.85037037037037e-05,
      "loss": 0.1607,
      "step": 11510
    },
    {
      "epoch": 30.72,
      "grad_norm": 1.5957098007202148,
      "learning_rate": 3.848888888888889e-05,
      "loss": 0.1342,
      "step": 11520
    },
    {
      "epoch": 30.746666666666666,
      "grad_norm": 1.2843079566955566,
      "learning_rate": 3.8474074074074075e-05,
      "loss": 0.1509,
      "step": 11530
    },
    {
      "epoch": 30.773333333333333,
      "grad_norm": 0.7785205245018005,
      "learning_rate": 3.845925925925926e-05,
      "loss": 0.1509,
      "step": 11540
    },
    {
      "epoch": 30.8,
      "grad_norm": 0.38686737418174744,
      "learning_rate": 3.844444444444444e-05,
      "loss": 0.1571,
      "step": 11550
    },
    {
      "epoch": 30.826666666666668,
      "grad_norm": 0.4960973858833313,
      "learning_rate": 3.842962962962963e-05,
      "loss": 0.1071,
      "step": 11560
    },
    {
      "epoch": 30.85333333333333,
      "grad_norm": 0.8786376714706421,
      "learning_rate": 3.841481481481482e-05,
      "loss": 0.1881,
      "step": 11570
    },
    {
      "epoch": 30.88,
      "grad_norm": 0.6073949933052063,
      "learning_rate": 3.8400000000000005e-05,
      "loss": 0.1469,
      "step": 11580
    },
    {
      "epoch": 30.906666666666666,
      "grad_norm": 1.1761499643325806,
      "learning_rate": 3.8385185185185186e-05,
      "loss": 0.1522,
      "step": 11590
    },
    {
      "epoch": 30.933333333333334,
      "grad_norm": 1.1161147356033325,
      "learning_rate": 3.837037037037037e-05,
      "loss": 0.1566,
      "step": 11600
    },
    {
      "epoch": 30.96,
      "grad_norm": 0.718074381351471,
      "learning_rate": 3.8355555555555553e-05,
      "loss": 0.118,
      "step": 11610
    },
    {
      "epoch": 30.986666666666668,
      "grad_norm": 1.0799586772918701,
      "learning_rate": 3.834074074074074e-05,
      "loss": 0.112,
      "step": 11620
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.9040833333333333,
      "eval_loss": 0.3329257071018219,
      "eval_runtime": 253.3806,
      "eval_samples_per_second": 47.36,
      "eval_steps_per_second": 1.48,
      "step": 11625
    },
    {
      "epoch": 31.013333333333332,
      "grad_norm": 1.0448365211486816,
      "learning_rate": 3.832592592592593e-05,
      "loss": 0.1387,
      "step": 11630
    },
    {
      "epoch": 31.04,
      "grad_norm": 0.8702309131622314,
      "learning_rate": 3.8311111111111115e-05,
      "loss": 0.1432,
      "step": 11640
    },
    {
      "epoch": 31.066666666666666,
      "grad_norm": 0.7754233479499817,
      "learning_rate": 3.8296296296296296e-05,
      "loss": 0.1544,
      "step": 11650
    },
    {
      "epoch": 31.093333333333334,
      "grad_norm": 0.9715024828910828,
      "learning_rate": 3.8281481481481483e-05,
      "loss": 0.1393,
      "step": 11660
    },
    {
      "epoch": 31.12,
      "grad_norm": 0.7901193499565125,
      "learning_rate": 3.8266666666666664e-05,
      "loss": 0.1531,
      "step": 11670
    },
    {
      "epoch": 31.14666666666667,
      "grad_norm": 0.44737014174461365,
      "learning_rate": 3.825185185185186e-05,
      "loss": 0.1261,
      "step": 11680
    },
    {
      "epoch": 31.173333333333332,
      "grad_norm": 0.9578866958618164,
      "learning_rate": 3.823703703703704e-05,
      "loss": 0.1562,
      "step": 11690
    },
    {
      "epoch": 31.2,
      "grad_norm": 0.9539816975593567,
      "learning_rate": 3.8222222222222226e-05,
      "loss": 0.1282,
      "step": 11700
    },
    {
      "epoch": 31.226666666666667,
      "grad_norm": 0.6584634780883789,
      "learning_rate": 3.8207407407407407e-05,
      "loss": 0.1649,
      "step": 11710
    },
    {
      "epoch": 31.253333333333334,
      "grad_norm": 0.8631150722503662,
      "learning_rate": 3.8192592592592594e-05,
      "loss": 0.1523,
      "step": 11720
    },
    {
      "epoch": 31.28,
      "grad_norm": 0.47979697585105896,
      "learning_rate": 3.817777777777778e-05,
      "loss": 0.1553,
      "step": 11730
    },
    {
      "epoch": 31.306666666666665,
      "grad_norm": 0.6728746891021729,
      "learning_rate": 3.816296296296297e-05,
      "loss": 0.1432,
      "step": 11740
    },
    {
      "epoch": 31.333333333333332,
      "grad_norm": 0.9024733304977417,
      "learning_rate": 3.814814814814815e-05,
      "loss": 0.1494,
      "step": 11750
    },
    {
      "epoch": 31.36,
      "grad_norm": 0.8229910135269165,
      "learning_rate": 3.8133333333333336e-05,
      "loss": 0.1279,
      "step": 11760
    },
    {
      "epoch": 31.386666666666667,
      "grad_norm": 0.8371192216873169,
      "learning_rate": 3.811851851851852e-05,
      "loss": 0.136,
      "step": 11770
    },
    {
      "epoch": 31.413333333333334,
      "grad_norm": 1.4966837167739868,
      "learning_rate": 3.810370370370371e-05,
      "loss": 0.1938,
      "step": 11780
    },
    {
      "epoch": 31.44,
      "grad_norm": 0.8800570368766785,
      "learning_rate": 3.808888888888889e-05,
      "loss": 0.1516,
      "step": 11790
    },
    {
      "epoch": 31.466666666666665,
      "grad_norm": 0.6718322038650513,
      "learning_rate": 3.807407407407408e-05,
      "loss": 0.1502,
      "step": 11800
    },
    {
      "epoch": 31.493333333333332,
      "grad_norm": 1.0114471912384033,
      "learning_rate": 3.805925925925926e-05,
      "loss": 0.1411,
      "step": 11810
    },
    {
      "epoch": 31.52,
      "grad_norm": 0.8189203143119812,
      "learning_rate": 3.804444444444445e-05,
      "loss": 0.1617,
      "step": 11820
    },
    {
      "epoch": 31.546666666666667,
      "grad_norm": 1.0306363105773926,
      "learning_rate": 3.8029629629629634e-05,
      "loss": 0.1477,
      "step": 11830
    },
    {
      "epoch": 31.573333333333334,
      "grad_norm": 0.5885746479034424,
      "learning_rate": 3.8014814814814815e-05,
      "loss": 0.1477,
      "step": 11840
    },
    {
      "epoch": 31.6,
      "grad_norm": 1.2009676694869995,
      "learning_rate": 3.8e-05,
      "loss": 0.1479,
      "step": 11850
    },
    {
      "epoch": 31.626666666666665,
      "grad_norm": 0.7326869368553162,
      "learning_rate": 3.798518518518518e-05,
      "loss": 0.1427,
      "step": 11860
    },
    {
      "epoch": 31.653333333333332,
      "grad_norm": 0.7947394847869873,
      "learning_rate": 3.797037037037037e-05,
      "loss": 0.14,
      "step": 11870
    },
    {
      "epoch": 31.68,
      "grad_norm": 0.9484646320343018,
      "learning_rate": 3.795555555555556e-05,
      "loss": 0.147,
      "step": 11880
    },
    {
      "epoch": 31.706666666666667,
      "grad_norm": 0.36476749181747437,
      "learning_rate": 3.7940740740740745e-05,
      "loss": 0.1627,
      "step": 11890
    },
    {
      "epoch": 31.733333333333334,
      "grad_norm": 0.829441249370575,
      "learning_rate": 3.7925925925925925e-05,
      "loss": 0.1692,
      "step": 11900
    },
    {
      "epoch": 31.76,
      "grad_norm": 0.4258587062358856,
      "learning_rate": 3.791111111111111e-05,
      "loss": 0.1148,
      "step": 11910
    },
    {
      "epoch": 31.786666666666665,
      "grad_norm": 0.6510931849479675,
      "learning_rate": 3.789629629629629e-05,
      "loss": 0.1162,
      "step": 11920
    },
    {
      "epoch": 31.813333333333333,
      "grad_norm": 1.0323469638824463,
      "learning_rate": 3.788148148148149e-05,
      "loss": 0.1516,
      "step": 11930
    },
    {
      "epoch": 31.84,
      "grad_norm": 1.32700777053833,
      "learning_rate": 3.786666666666667e-05,
      "loss": 0.1406,
      "step": 11940
    },
    {
      "epoch": 31.866666666666667,
      "grad_norm": 0.9105033874511719,
      "learning_rate": 3.7851851851851855e-05,
      "loss": 0.1297,
      "step": 11950
    },
    {
      "epoch": 31.893333333333334,
      "grad_norm": 0.7099591493606567,
      "learning_rate": 3.7837037037037036e-05,
      "loss": 0.1485,
      "step": 11960
    },
    {
      "epoch": 31.92,
      "grad_norm": 0.6305086612701416,
      "learning_rate": 3.782222222222222e-05,
      "loss": 0.1334,
      "step": 11970
    },
    {
      "epoch": 31.946666666666665,
      "grad_norm": 0.8867177963256836,
      "learning_rate": 3.780740740740741e-05,
      "loss": 0.1621,
      "step": 11980
    },
    {
      "epoch": 31.973333333333333,
      "grad_norm": 0.8763002157211304,
      "learning_rate": 3.77925925925926e-05,
      "loss": 0.1476,
      "step": 11990
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.8974031805992126,
      "learning_rate": 3.777777777777778e-05,
      "loss": 0.1319,
      "step": 12000
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.9004166666666666,
      "eval_loss": 0.31857413053512573,
      "eval_runtime": 253.257,
      "eval_samples_per_second": 47.383,
      "eval_steps_per_second": 1.481,
      "step": 12000
    },
    {
      "epoch": 32.026666666666664,
      "grad_norm": 0.7753136157989502,
      "learning_rate": 3.7762962962962966e-05,
      "loss": 0.1269,
      "step": 12010
    },
    {
      "epoch": 32.053333333333335,
      "grad_norm": 0.7995634078979492,
      "learning_rate": 3.7748148148148146e-05,
      "loss": 0.1411,
      "step": 12020
    },
    {
      "epoch": 32.08,
      "grad_norm": 0.6742477416992188,
      "learning_rate": 3.773333333333334e-05,
      "loss": 0.139,
      "step": 12030
    },
    {
      "epoch": 32.10666666666667,
      "grad_norm": 1.3187172412872314,
      "learning_rate": 3.771851851851852e-05,
      "loss": 0.1467,
      "step": 12040
    },
    {
      "epoch": 32.13333333333333,
      "grad_norm": 0.6753908395767212,
      "learning_rate": 3.770370370370371e-05,
      "loss": 0.1197,
      "step": 12050
    },
    {
      "epoch": 32.16,
      "grad_norm": 0.7020182013511658,
      "learning_rate": 3.768888888888889e-05,
      "loss": 0.1418,
      "step": 12060
    },
    {
      "epoch": 32.18666666666667,
      "grad_norm": 0.7069774270057678,
      "learning_rate": 3.7674074074074076e-05,
      "loss": 0.1519,
      "step": 12070
    },
    {
      "epoch": 32.21333333333333,
      "grad_norm": 1.3456929922103882,
      "learning_rate": 3.765925925925926e-05,
      "loss": 0.1732,
      "step": 12080
    },
    {
      "epoch": 32.24,
      "grad_norm": 0.7249400615692139,
      "learning_rate": 3.764444444444445e-05,
      "loss": 0.1523,
      "step": 12090
    },
    {
      "epoch": 32.266666666666666,
      "grad_norm": 0.6168241500854492,
      "learning_rate": 3.762962962962963e-05,
      "loss": 0.1349,
      "step": 12100
    },
    {
      "epoch": 32.29333333333334,
      "grad_norm": 0.5220170021057129,
      "learning_rate": 3.761481481481482e-05,
      "loss": 0.1464,
      "step": 12110
    },
    {
      "epoch": 32.32,
      "grad_norm": 0.5630850195884705,
      "learning_rate": 3.76e-05,
      "loss": 0.147,
      "step": 12120
    },
    {
      "epoch": 32.346666666666664,
      "grad_norm": 0.4130004048347473,
      "learning_rate": 3.7585185185185186e-05,
      "loss": 0.1293,
      "step": 12130
    },
    {
      "epoch": 32.373333333333335,
      "grad_norm": 0.7287957668304443,
      "learning_rate": 3.7570370370370374e-05,
      "loss": 0.1344,
      "step": 12140
    },
    {
      "epoch": 32.4,
      "grad_norm": 0.865244448184967,
      "learning_rate": 3.7555555555555554e-05,
      "loss": 0.1423,
      "step": 12150
    },
    {
      "epoch": 32.42666666666667,
      "grad_norm": 1.1962553262710571,
      "learning_rate": 3.754074074074074e-05,
      "loss": 0.1542,
      "step": 12160
    },
    {
      "epoch": 32.45333333333333,
      "grad_norm": 0.8940578103065491,
      "learning_rate": 3.752592592592592e-05,
      "loss": 0.128,
      "step": 12170
    },
    {
      "epoch": 32.48,
      "grad_norm": 0.642844021320343,
      "learning_rate": 3.7511111111111116e-05,
      "loss": 0.1276,
      "step": 12180
    },
    {
      "epoch": 32.50666666666667,
      "grad_norm": 0.5693470239639282,
      "learning_rate": 3.74962962962963e-05,
      "loss": 0.1579,
      "step": 12190
    },
    {
      "epoch": 32.53333333333333,
      "grad_norm": 0.6597217917442322,
      "learning_rate": 3.7481481481481484e-05,
      "loss": 0.1695,
      "step": 12200
    },
    {
      "epoch": 32.56,
      "grad_norm": 0.6610549688339233,
      "learning_rate": 3.7466666666666665e-05,
      "loss": 0.1263,
      "step": 12210
    },
    {
      "epoch": 32.586666666666666,
      "grad_norm": 0.5763738751411438,
      "learning_rate": 3.745185185185185e-05,
      "loss": 0.1153,
      "step": 12220
    },
    {
      "epoch": 32.61333333333333,
      "grad_norm": 0.8833099603652954,
      "learning_rate": 3.743703703703704e-05,
      "loss": 0.1636,
      "step": 12230
    },
    {
      "epoch": 32.64,
      "grad_norm": 1.3768240213394165,
      "learning_rate": 3.742222222222223e-05,
      "loss": 0.1457,
      "step": 12240
    },
    {
      "epoch": 32.666666666666664,
      "grad_norm": 0.9241883754730225,
      "learning_rate": 3.740740740740741e-05,
      "loss": 0.1194,
      "step": 12250
    },
    {
      "epoch": 32.693333333333335,
      "grad_norm": 1.0868351459503174,
      "learning_rate": 3.7392592592592595e-05,
      "loss": 0.1633,
      "step": 12260
    },
    {
      "epoch": 32.72,
      "grad_norm": 0.5179634690284729,
      "learning_rate": 3.7377777777777775e-05,
      "loss": 0.1464,
      "step": 12270
    },
    {
      "epoch": 32.74666666666667,
      "grad_norm": 0.8258621096611023,
      "learning_rate": 3.736296296296297e-05,
      "loss": 0.1486,
      "step": 12280
    },
    {
      "epoch": 32.77333333333333,
      "grad_norm": 0.6329468488693237,
      "learning_rate": 3.734814814814815e-05,
      "loss": 0.1274,
      "step": 12290
    },
    {
      "epoch": 32.8,
      "grad_norm": 1.055465579032898,
      "learning_rate": 3.733333333333334e-05,
      "loss": 0.1461,
      "step": 12300
    },
    {
      "epoch": 32.82666666666667,
      "grad_norm": 0.8224266767501831,
      "learning_rate": 3.731851851851852e-05,
      "loss": 0.1584,
      "step": 12310
    },
    {
      "epoch": 32.85333333333333,
      "grad_norm": 1.0598785877227783,
      "learning_rate": 3.7303703703703705e-05,
      "loss": 0.1316,
      "step": 12320
    },
    {
      "epoch": 32.88,
      "grad_norm": 1.0388379096984863,
      "learning_rate": 3.728888888888889e-05,
      "loss": 0.1451,
      "step": 12330
    },
    {
      "epoch": 32.906666666666666,
      "grad_norm": 1.242279052734375,
      "learning_rate": 3.727407407407408e-05,
      "loss": 0.1394,
      "step": 12340
    },
    {
      "epoch": 32.93333333333333,
      "grad_norm": 0.5607912540435791,
      "learning_rate": 3.725925925925926e-05,
      "loss": 0.163,
      "step": 12350
    },
    {
      "epoch": 32.96,
      "grad_norm": 0.5934064984321594,
      "learning_rate": 3.724444444444445e-05,
      "loss": 0.1504,
      "step": 12360
    },
    {
      "epoch": 32.986666666666665,
      "grad_norm": 0.8265310525894165,
      "learning_rate": 3.722962962962963e-05,
      "loss": 0.1526,
      "step": 12370
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.8988333333333334,
      "eval_loss": 0.32392576336860657,
      "eval_runtime": 253.3924,
      "eval_samples_per_second": 47.357,
      "eval_steps_per_second": 1.48,
      "step": 12375
    },
    {
      "epoch": 33.013333333333335,
      "grad_norm": 0.7690653204917908,
      "learning_rate": 3.7214814814814816e-05,
      "loss": 0.1641,
      "step": 12380
    },
    {
      "epoch": 33.04,
      "grad_norm": 0.6992849111557007,
      "learning_rate": 3.72e-05,
      "loss": 0.1503,
      "step": 12390
    },
    {
      "epoch": 33.06666666666667,
      "grad_norm": 1.470149040222168,
      "learning_rate": 3.718518518518519e-05,
      "loss": 0.1424,
      "step": 12400
    },
    {
      "epoch": 33.093333333333334,
      "grad_norm": 0.8524302840232849,
      "learning_rate": 3.717037037037037e-05,
      "loss": 0.1408,
      "step": 12410
    },
    {
      "epoch": 33.12,
      "grad_norm": 0.7455756664276123,
      "learning_rate": 3.715555555555555e-05,
      "loss": 0.1433,
      "step": 12420
    },
    {
      "epoch": 33.14666666666667,
      "grad_norm": 0.9443094730377197,
      "learning_rate": 3.7140740740740746e-05,
      "loss": 0.1192,
      "step": 12430
    },
    {
      "epoch": 33.17333333333333,
      "grad_norm": 1.1599451303482056,
      "learning_rate": 3.7125925925925926e-05,
      "loss": 0.1251,
      "step": 12440
    },
    {
      "epoch": 33.2,
      "grad_norm": 1.0691704750061035,
      "learning_rate": 3.7111111111111113e-05,
      "loss": 0.1259,
      "step": 12450
    },
    {
      "epoch": 33.22666666666667,
      "grad_norm": 0.996192455291748,
      "learning_rate": 3.7096296296296294e-05,
      "loss": 0.151,
      "step": 12460
    },
    {
      "epoch": 33.25333333333333,
      "grad_norm": 0.7671313881874084,
      "learning_rate": 3.708148148148148e-05,
      "loss": 0.1795,
      "step": 12470
    },
    {
      "epoch": 33.28,
      "grad_norm": 0.9651719331741333,
      "learning_rate": 3.706666666666667e-05,
      "loss": 0.1382,
      "step": 12480
    },
    {
      "epoch": 33.306666666666665,
      "grad_norm": 0.6641609072685242,
      "learning_rate": 3.7051851851851856e-05,
      "loss": 0.1277,
      "step": 12490
    },
    {
      "epoch": 33.333333333333336,
      "grad_norm": 1.052465558052063,
      "learning_rate": 3.7037037037037037e-05,
      "loss": 0.1362,
      "step": 12500
    },
    {
      "epoch": 33.36,
      "grad_norm": 0.8863968849182129,
      "learning_rate": 3.7022222222222224e-05,
      "loss": 0.1629,
      "step": 12510
    },
    {
      "epoch": 33.38666666666666,
      "grad_norm": 1.2258726358413696,
      "learning_rate": 3.7007407407407404e-05,
      "loss": 0.1435,
      "step": 12520
    },
    {
      "epoch": 33.413333333333334,
      "grad_norm": 0.6132445335388184,
      "learning_rate": 3.69925925925926e-05,
      "loss": 0.1175,
      "step": 12530
    },
    {
      "epoch": 33.44,
      "grad_norm": 0.8157356381416321,
      "learning_rate": 3.697777777777778e-05,
      "loss": 0.1399,
      "step": 12540
    },
    {
      "epoch": 33.46666666666667,
      "grad_norm": 1.3738257884979248,
      "learning_rate": 3.6962962962962966e-05,
      "loss": 0.1682,
      "step": 12550
    },
    {
      "epoch": 33.49333333333333,
      "grad_norm": 0.6727016568183899,
      "learning_rate": 3.694814814814815e-05,
      "loss": 0.1539,
      "step": 12560
    },
    {
      "epoch": 33.52,
      "grad_norm": 0.5193202495574951,
      "learning_rate": 3.6933333333333334e-05,
      "loss": 0.137,
      "step": 12570
    },
    {
      "epoch": 33.54666666666667,
      "grad_norm": 0.9341437220573425,
      "learning_rate": 3.691851851851852e-05,
      "loss": 0.1289,
      "step": 12580
    },
    {
      "epoch": 33.57333333333333,
      "grad_norm": 0.8415389657020569,
      "learning_rate": 3.690370370370371e-05,
      "loss": 0.1322,
      "step": 12590
    },
    {
      "epoch": 33.6,
      "grad_norm": 0.573862612247467,
      "learning_rate": 3.688888888888889e-05,
      "loss": 0.1219,
      "step": 12600
    },
    {
      "epoch": 33.626666666666665,
      "grad_norm": 0.6681346893310547,
      "learning_rate": 3.687407407407408e-05,
      "loss": 0.1667,
      "step": 12610
    },
    {
      "epoch": 33.653333333333336,
      "grad_norm": 0.3955742418766022,
      "learning_rate": 3.685925925925926e-05,
      "loss": 0.1424,
      "step": 12620
    },
    {
      "epoch": 33.68,
      "grad_norm": 1.0248210430145264,
      "learning_rate": 3.6844444444444445e-05,
      "loss": 0.114,
      "step": 12630
    },
    {
      "epoch": 33.70666666666666,
      "grad_norm": 1.089159369468689,
      "learning_rate": 3.682962962962963e-05,
      "loss": 0.1163,
      "step": 12640
    },
    {
      "epoch": 33.733333333333334,
      "grad_norm": 0.7815674543380737,
      "learning_rate": 3.681481481481482e-05,
      "loss": 0.168,
      "step": 12650
    },
    {
      "epoch": 33.76,
      "grad_norm": 1.2996643781661987,
      "learning_rate": 3.68e-05,
      "loss": 0.1349,
      "step": 12660
    },
    {
      "epoch": 33.78666666666667,
      "grad_norm": 0.6737468838691711,
      "learning_rate": 3.678518518518519e-05,
      "loss": 0.1656,
      "step": 12670
    },
    {
      "epoch": 33.81333333333333,
      "grad_norm": 0.513012707233429,
      "learning_rate": 3.6770370370370375e-05,
      "loss": 0.1286,
      "step": 12680
    },
    {
      "epoch": 33.84,
      "grad_norm": 0.6336917281150818,
      "learning_rate": 3.675555555555556e-05,
      "loss": 0.1445,
      "step": 12690
    },
    {
      "epoch": 33.86666666666667,
      "grad_norm": 0.9191528558731079,
      "learning_rate": 3.674074074074074e-05,
      "loss": 0.1269,
      "step": 12700
    },
    {
      "epoch": 33.89333333333333,
      "grad_norm": 0.7947202324867249,
      "learning_rate": 3.672592592592593e-05,
      "loss": 0.1514,
      "step": 12710
    },
    {
      "epoch": 33.92,
      "grad_norm": 0.7362467050552368,
      "learning_rate": 3.671111111111111e-05,
      "loss": 0.1585,
      "step": 12720
    },
    {
      "epoch": 33.946666666666665,
      "grad_norm": 0.8674696087837219,
      "learning_rate": 3.66962962962963e-05,
      "loss": 0.1427,
      "step": 12730
    },
    {
      "epoch": 33.973333333333336,
      "grad_norm": 0.5792920589447021,
      "learning_rate": 3.6681481481481485e-05,
      "loss": 0.1478,
      "step": 12740
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.5065246224403381,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 0.1138,
      "step": 12750
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.8975833333333333,
      "eval_loss": 0.34048619866371155,
      "eval_runtime": 253.7113,
      "eval_samples_per_second": 47.298,
      "eval_steps_per_second": 1.478,
      "step": 12750
    },
    {
      "epoch": 34.026666666666664,
      "grad_norm": 0.6351572275161743,
      "learning_rate": 3.665185185185185e-05,
      "loss": 0.1621,
      "step": 12760
    },
    {
      "epoch": 34.053333333333335,
      "grad_norm": 1.0246134996414185,
      "learning_rate": 3.6637037037037034e-05,
      "loss": 0.1538,
      "step": 12770
    },
    {
      "epoch": 34.08,
      "grad_norm": 1.550531268119812,
      "learning_rate": 3.662222222222223e-05,
      "loss": 0.148,
      "step": 12780
    },
    {
      "epoch": 34.10666666666667,
      "grad_norm": 0.7439724206924438,
      "learning_rate": 3.660740740740741e-05,
      "loss": 0.1468,
      "step": 12790
    },
    {
      "epoch": 34.13333333333333,
      "grad_norm": 0.7332127690315247,
      "learning_rate": 3.6592592592592596e-05,
      "loss": 0.1315,
      "step": 12800
    },
    {
      "epoch": 34.16,
      "grad_norm": 0.6775870323181152,
      "learning_rate": 3.6577777777777776e-05,
      "loss": 0.136,
      "step": 12810
    },
    {
      "epoch": 34.18666666666667,
      "grad_norm": 0.7522141337394714,
      "learning_rate": 3.6562962962962964e-05,
      "loss": 0.1384,
      "step": 12820
    },
    {
      "epoch": 34.21333333333333,
      "grad_norm": 0.885827898979187,
      "learning_rate": 3.654814814814815e-05,
      "loss": 0.1507,
      "step": 12830
    },
    {
      "epoch": 34.24,
      "grad_norm": 0.7200608849525452,
      "learning_rate": 3.653333333333334e-05,
      "loss": 0.143,
      "step": 12840
    },
    {
      "epoch": 34.266666666666666,
      "grad_norm": 0.8285389542579651,
      "learning_rate": 3.651851851851852e-05,
      "loss": 0.1418,
      "step": 12850
    },
    {
      "epoch": 34.29333333333334,
      "grad_norm": 0.5745165348052979,
      "learning_rate": 3.6503703703703706e-05,
      "loss": 0.1301,
      "step": 12860
    },
    {
      "epoch": 34.32,
      "grad_norm": 0.41124147176742554,
      "learning_rate": 3.648888888888889e-05,
      "loss": 0.1339,
      "step": 12870
    },
    {
      "epoch": 34.346666666666664,
      "grad_norm": 0.6520372033119202,
      "learning_rate": 3.6474074074074074e-05,
      "loss": 0.1234,
      "step": 12880
    },
    {
      "epoch": 34.373333333333335,
      "grad_norm": 1.0737919807434082,
      "learning_rate": 3.645925925925926e-05,
      "loss": 0.1267,
      "step": 12890
    },
    {
      "epoch": 34.4,
      "grad_norm": 0.9509351849555969,
      "learning_rate": 3.644444444444445e-05,
      "loss": 0.1256,
      "step": 12900
    },
    {
      "epoch": 34.42666666666667,
      "grad_norm": 1.3736263513565063,
      "learning_rate": 3.642962962962963e-05,
      "loss": 0.1391,
      "step": 12910
    },
    {
      "epoch": 34.45333333333333,
      "grad_norm": 0.7847578525543213,
      "learning_rate": 3.6414814814814817e-05,
      "loss": 0.1482,
      "step": 12920
    },
    {
      "epoch": 34.48,
      "grad_norm": 0.7375786304473877,
      "learning_rate": 3.6400000000000004e-05,
      "loss": 0.1374,
      "step": 12930
    },
    {
      "epoch": 34.50666666666667,
      "grad_norm": 0.7954359650611877,
      "learning_rate": 3.638518518518519e-05,
      "loss": 0.1362,
      "step": 12940
    },
    {
      "epoch": 34.53333333333333,
      "grad_norm": 0.5446063280105591,
      "learning_rate": 3.637037037037037e-05,
      "loss": 0.1065,
      "step": 12950
    },
    {
      "epoch": 34.56,
      "grad_norm": 0.6327025294303894,
      "learning_rate": 3.635555555555556e-05,
      "loss": 0.1247,
      "step": 12960
    },
    {
      "epoch": 34.586666666666666,
      "grad_norm": 0.5986203551292419,
      "learning_rate": 3.634074074074074e-05,
      "loss": 0.1319,
      "step": 12970
    },
    {
      "epoch": 34.61333333333333,
      "grad_norm": 0.9851693511009216,
      "learning_rate": 3.632592592592593e-05,
      "loss": 0.1348,
      "step": 12980
    },
    {
      "epoch": 34.64,
      "grad_norm": 0.8156079649925232,
      "learning_rate": 3.6311111111111114e-05,
      "loss": 0.1529,
      "step": 12990
    },
    {
      "epoch": 34.666666666666664,
      "grad_norm": 0.9944355487823486,
      "learning_rate": 3.62962962962963e-05,
      "loss": 0.1446,
      "step": 13000
    },
    {
      "epoch": 34.693333333333335,
      "grad_norm": 1.042147159576416,
      "learning_rate": 3.628148148148148e-05,
      "loss": 0.1516,
      "step": 13010
    },
    {
      "epoch": 34.72,
      "grad_norm": 0.9342076182365417,
      "learning_rate": 3.626666666666667e-05,
      "loss": 0.1183,
      "step": 13020
    },
    {
      "epoch": 34.74666666666667,
      "grad_norm": 0.9152241945266724,
      "learning_rate": 3.625185185185186e-05,
      "loss": 0.1335,
      "step": 13030
    },
    {
      "epoch": 34.77333333333333,
      "grad_norm": 0.6570676565170288,
      "learning_rate": 3.623703703703704e-05,
      "loss": 0.1572,
      "step": 13040
    },
    {
      "epoch": 34.8,
      "grad_norm": 0.7134150862693787,
      "learning_rate": 3.6222222222222225e-05,
      "loss": 0.16,
      "step": 13050
    },
    {
      "epoch": 34.82666666666667,
      "grad_norm": 0.7075513005256653,
      "learning_rate": 3.6207407407407405e-05,
      "loss": 0.1454,
      "step": 13060
    },
    {
      "epoch": 34.85333333333333,
      "grad_norm": 0.6469486355781555,
      "learning_rate": 3.619259259259259e-05,
      "loss": 0.1515,
      "step": 13070
    },
    {
      "epoch": 34.88,
      "grad_norm": 0.43984219431877136,
      "learning_rate": 3.617777777777778e-05,
      "loss": 0.1528,
      "step": 13080
    },
    {
      "epoch": 34.906666666666666,
      "grad_norm": 0.8607357144355774,
      "learning_rate": 3.616296296296297e-05,
      "loss": 0.132,
      "step": 13090
    },
    {
      "epoch": 34.93333333333333,
      "grad_norm": 1.310937762260437,
      "learning_rate": 3.614814814814815e-05,
      "loss": 0.1382,
      "step": 13100
    },
    {
      "epoch": 34.96,
      "grad_norm": 0.7271262407302856,
      "learning_rate": 3.6133333333333335e-05,
      "loss": 0.1221,
      "step": 13110
    },
    {
      "epoch": 34.986666666666665,
      "grad_norm": 1.6328643560409546,
      "learning_rate": 3.6118518518518516e-05,
      "loss": 0.1499,
      "step": 13120
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.8975833333333333,
      "eval_loss": 0.33780360221862793,
      "eval_runtime": 253.3021,
      "eval_samples_per_second": 47.374,
      "eval_steps_per_second": 1.48,
      "step": 13125
    },
    {
      "epoch": 35.013333333333335,
      "grad_norm": 0.6441872119903564,
      "learning_rate": 3.61037037037037e-05,
      "loss": 0.148,
      "step": 13130
    },
    {
      "epoch": 35.04,
      "grad_norm": 0.8366817831993103,
      "learning_rate": 3.608888888888889e-05,
      "loss": 0.1482,
      "step": 13140
    },
    {
      "epoch": 35.06666666666667,
      "grad_norm": 0.7292802929878235,
      "learning_rate": 3.607407407407408e-05,
      "loss": 0.1563,
      "step": 13150
    },
    {
      "epoch": 35.093333333333334,
      "grad_norm": 0.7485653162002563,
      "learning_rate": 3.605925925925926e-05,
      "loss": 0.1396,
      "step": 13160
    },
    {
      "epoch": 35.12,
      "grad_norm": 0.5841584205627441,
      "learning_rate": 3.6044444444444446e-05,
      "loss": 0.1457,
      "step": 13170
    },
    {
      "epoch": 35.14666666666667,
      "grad_norm": 0.762127161026001,
      "learning_rate": 3.602962962962963e-05,
      "loss": 0.1242,
      "step": 13180
    },
    {
      "epoch": 35.17333333333333,
      "grad_norm": 1.2623951435089111,
      "learning_rate": 3.601481481481482e-05,
      "loss": 0.1096,
      "step": 13190
    },
    {
      "epoch": 35.2,
      "grad_norm": 0.7394558787345886,
      "learning_rate": 3.6e-05,
      "loss": 0.1247,
      "step": 13200
    },
    {
      "epoch": 35.22666666666667,
      "grad_norm": 0.47356802225112915,
      "learning_rate": 3.598518518518519e-05,
      "loss": 0.1289,
      "step": 13210
    },
    {
      "epoch": 35.25333333333333,
      "grad_norm": 0.46636152267456055,
      "learning_rate": 3.597037037037037e-05,
      "loss": 0.1304,
      "step": 13220
    },
    {
      "epoch": 35.28,
      "grad_norm": 0.6294062733650208,
      "learning_rate": 3.5955555555555556e-05,
      "loss": 0.1521,
      "step": 13230
    },
    {
      "epoch": 35.306666666666665,
      "grad_norm": 0.6311681270599365,
      "learning_rate": 3.5940740740740743e-05,
      "loss": 0.1539,
      "step": 13240
    },
    {
      "epoch": 35.333333333333336,
      "grad_norm": 0.8516069650650024,
      "learning_rate": 3.592592592592593e-05,
      "loss": 0.1236,
      "step": 13250
    },
    {
      "epoch": 35.36,
      "grad_norm": 0.7895090579986572,
      "learning_rate": 3.591111111111111e-05,
      "loss": 0.1375,
      "step": 13260
    },
    {
      "epoch": 35.38666666666666,
      "grad_norm": 1.0421847105026245,
      "learning_rate": 3.58962962962963e-05,
      "loss": 0.1259,
      "step": 13270
    },
    {
      "epoch": 35.413333333333334,
      "grad_norm": 0.566455602645874,
      "learning_rate": 3.588148148148148e-05,
      "loss": 0.1383,
      "step": 13280
    },
    {
      "epoch": 35.44,
      "grad_norm": 0.5035443902015686,
      "learning_rate": 3.586666666666667e-05,
      "loss": 0.1528,
      "step": 13290
    },
    {
      "epoch": 35.46666666666667,
      "grad_norm": 0.9292590618133545,
      "learning_rate": 3.5851851851851854e-05,
      "loss": 0.1396,
      "step": 13300
    },
    {
      "epoch": 35.49333333333333,
      "grad_norm": 0.5976445078849792,
      "learning_rate": 3.583703703703704e-05,
      "loss": 0.1488,
      "step": 13310
    },
    {
      "epoch": 35.52,
      "grad_norm": 0.7056884765625,
      "learning_rate": 3.582222222222222e-05,
      "loss": 0.1331,
      "step": 13320
    },
    {
      "epoch": 35.54666666666667,
      "grad_norm": 0.9672914147377014,
      "learning_rate": 3.580740740740741e-05,
      "loss": 0.1278,
      "step": 13330
    },
    {
      "epoch": 35.57333333333333,
      "grad_norm": 0.6320948004722595,
      "learning_rate": 3.5792592592592596e-05,
      "loss": 0.1427,
      "step": 13340
    },
    {
      "epoch": 35.6,
      "grad_norm": 1.376320242881775,
      "learning_rate": 3.577777777777778e-05,
      "loss": 0.1308,
      "step": 13350
    },
    {
      "epoch": 35.626666666666665,
      "grad_norm": 1.0108109712600708,
      "learning_rate": 3.5762962962962964e-05,
      "loss": 0.1621,
      "step": 13360
    },
    {
      "epoch": 35.653333333333336,
      "grad_norm": 0.5519050359725952,
      "learning_rate": 3.5748148148148145e-05,
      "loss": 0.1468,
      "step": 13370
    },
    {
      "epoch": 35.68,
      "grad_norm": 1.0791192054748535,
      "learning_rate": 3.573333333333333e-05,
      "loss": 0.1497,
      "step": 13380
    },
    {
      "epoch": 35.70666666666666,
      "grad_norm": 0.9764125943183899,
      "learning_rate": 3.571851851851852e-05,
      "loss": 0.1547,
      "step": 13390
    },
    {
      "epoch": 35.733333333333334,
      "grad_norm": 1.214794397354126,
      "learning_rate": 3.570370370370371e-05,
      "loss": 0.1479,
      "step": 13400
    },
    {
      "epoch": 35.76,
      "grad_norm": 0.46179693937301636,
      "learning_rate": 3.568888888888889e-05,
      "loss": 0.1382,
      "step": 13410
    },
    {
      "epoch": 35.78666666666667,
      "grad_norm": 0.6101595759391785,
      "learning_rate": 3.5674074074074075e-05,
      "loss": 0.1141,
      "step": 13420
    },
    {
      "epoch": 35.81333333333333,
      "grad_norm": 0.7943254709243774,
      "learning_rate": 3.565925925925926e-05,
      "loss": 0.1479,
      "step": 13430
    },
    {
      "epoch": 35.84,
      "grad_norm": 0.4523789882659912,
      "learning_rate": 3.564444444444445e-05,
      "loss": 0.1276,
      "step": 13440
    },
    {
      "epoch": 35.86666666666667,
      "grad_norm": 0.6252668499946594,
      "learning_rate": 3.562962962962963e-05,
      "loss": 0.1288,
      "step": 13450
    },
    {
      "epoch": 35.89333333333333,
      "grad_norm": 0.6102684736251831,
      "learning_rate": 3.561481481481482e-05,
      "loss": 0.1441,
      "step": 13460
    },
    {
      "epoch": 35.92,
      "grad_norm": 0.5815966725349426,
      "learning_rate": 3.56e-05,
      "loss": 0.1435,
      "step": 13470
    },
    {
      "epoch": 35.946666666666665,
      "grad_norm": 0.9414661526679993,
      "learning_rate": 3.5585185185185185e-05,
      "loss": 0.1477,
      "step": 13480
    },
    {
      "epoch": 35.973333333333336,
      "grad_norm": 0.8867117762565613,
      "learning_rate": 3.557037037037037e-05,
      "loss": 0.1323,
      "step": 13490
    },
    {
      "epoch": 36.0,
      "grad_norm": 0.4549649655818939,
      "learning_rate": 3.555555555555556e-05,
      "loss": 0.1123,
      "step": 13500
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.9011666666666667,
      "eval_loss": 0.32743558287620544,
      "eval_runtime": 252.002,
      "eval_samples_per_second": 47.619,
      "eval_steps_per_second": 1.488,
      "step": 13500
    },
    {
      "epoch": 36.026666666666664,
      "grad_norm": 1.212974190711975,
      "learning_rate": 3.554074074074074e-05,
      "loss": 0.1284,
      "step": 13510
    },
    {
      "epoch": 36.053333333333335,
      "grad_norm": 0.8784121870994568,
      "learning_rate": 3.552592592592593e-05,
      "loss": 0.1277,
      "step": 13520
    },
    {
      "epoch": 36.08,
      "grad_norm": 0.8518645167350769,
      "learning_rate": 3.551111111111111e-05,
      "loss": 0.1426,
      "step": 13530
    },
    {
      "epoch": 36.10666666666667,
      "grad_norm": 0.8246267437934875,
      "learning_rate": 3.54962962962963e-05,
      "loss": 0.1458,
      "step": 13540
    },
    {
      "epoch": 36.13333333333333,
      "grad_norm": 0.7509289383888245,
      "learning_rate": 3.548148148148148e-05,
      "loss": 0.1184,
      "step": 13550
    },
    {
      "epoch": 36.16,
      "grad_norm": 1.4086122512817383,
      "learning_rate": 3.546666666666667e-05,
      "loss": 0.1492,
      "step": 13560
    },
    {
      "epoch": 36.18666666666667,
      "grad_norm": 1.3178306818008423,
      "learning_rate": 3.545185185185185e-05,
      "loss": 0.1248,
      "step": 13570
    },
    {
      "epoch": 36.21333333333333,
      "grad_norm": 1.0506410598754883,
      "learning_rate": 3.543703703703704e-05,
      "loss": 0.1611,
      "step": 13580
    },
    {
      "epoch": 36.24,
      "grad_norm": 0.6429629325866699,
      "learning_rate": 3.5422222222222226e-05,
      "loss": 0.1416,
      "step": 13590
    },
    {
      "epoch": 36.266666666666666,
      "grad_norm": 1.1766481399536133,
      "learning_rate": 3.540740740740741e-05,
      "loss": 0.1326,
      "step": 13600
    },
    {
      "epoch": 36.29333333333334,
      "grad_norm": 0.8868152499198914,
      "learning_rate": 3.5392592592592594e-05,
      "loss": 0.1183,
      "step": 13610
    },
    {
      "epoch": 36.32,
      "grad_norm": 0.6395604014396667,
      "learning_rate": 3.537777777777778e-05,
      "loss": 0.1231,
      "step": 13620
    },
    {
      "epoch": 36.346666666666664,
      "grad_norm": 0.6500803828239441,
      "learning_rate": 3.536296296296296e-05,
      "loss": 0.1518,
      "step": 13630
    },
    {
      "epoch": 36.373333333333335,
      "grad_norm": 0.9768928289413452,
      "learning_rate": 3.5348148148148156e-05,
      "loss": 0.1415,
      "step": 13640
    },
    {
      "epoch": 36.4,
      "grad_norm": 1.2233556509017944,
      "learning_rate": 3.5333333333333336e-05,
      "loss": 0.1388,
      "step": 13650
    },
    {
      "epoch": 36.42666666666667,
      "grad_norm": 0.6144688725471497,
      "learning_rate": 3.531851851851852e-05,
      "loss": 0.1137,
      "step": 13660
    },
    {
      "epoch": 36.45333333333333,
      "grad_norm": 0.7787757515907288,
      "learning_rate": 3.5303703703703704e-05,
      "loss": 0.1381,
      "step": 13670
    },
    {
      "epoch": 36.48,
      "grad_norm": 0.7986034154891968,
      "learning_rate": 3.528888888888889e-05,
      "loss": 0.1283,
      "step": 13680
    },
    {
      "epoch": 36.50666666666667,
      "grad_norm": 0.817489504814148,
      "learning_rate": 3.527407407407408e-05,
      "loss": 0.121,
      "step": 13690
    },
    {
      "epoch": 36.53333333333333,
      "grad_norm": 0.6848250031471252,
      "learning_rate": 3.525925925925926e-05,
      "loss": 0.1354,
      "step": 13700
    },
    {
      "epoch": 36.56,
      "grad_norm": 1.015969157218933,
      "learning_rate": 3.5244444444444447e-05,
      "loss": 0.1472,
      "step": 13710
    },
    {
      "epoch": 36.586666666666666,
      "grad_norm": 0.696994960308075,
      "learning_rate": 3.522962962962963e-05,
      "loss": 0.131,
      "step": 13720
    },
    {
      "epoch": 36.61333333333333,
      "grad_norm": 0.6195046305656433,
      "learning_rate": 3.5214814814814814e-05,
      "loss": 0.1474,
      "step": 13730
    },
    {
      "epoch": 36.64,
      "grad_norm": 0.8067151308059692,
      "learning_rate": 3.52e-05,
      "loss": 0.105,
      "step": 13740
    },
    {
      "epoch": 36.666666666666664,
      "grad_norm": 0.8105616569519043,
      "learning_rate": 3.518518518518519e-05,
      "loss": 0.1362,
      "step": 13750
    },
    {
      "epoch": 36.693333333333335,
      "grad_norm": 0.5336594581604004,
      "learning_rate": 3.517037037037037e-05,
      "loss": 0.1749,
      "step": 13760
    },
    {
      "epoch": 36.72,
      "grad_norm": 0.4899935722351074,
      "learning_rate": 3.515555555555556e-05,
      "loss": 0.1127,
      "step": 13770
    },
    {
      "epoch": 36.74666666666667,
      "grad_norm": 0.667278528213501,
      "learning_rate": 3.514074074074074e-05,
      "loss": 0.1542,
      "step": 13780
    },
    {
      "epoch": 36.77333333333333,
      "grad_norm": 0.7568264007568359,
      "learning_rate": 3.512592592592593e-05,
      "loss": 0.1274,
      "step": 13790
    },
    {
      "epoch": 36.8,
      "grad_norm": 0.6847347021102905,
      "learning_rate": 3.511111111111111e-05,
      "loss": 0.1475,
      "step": 13800
    },
    {
      "epoch": 36.82666666666667,
      "grad_norm": 0.8310431838035583,
      "learning_rate": 3.50962962962963e-05,
      "loss": 0.1408,
      "step": 13810
    },
    {
      "epoch": 36.85333333333333,
      "grad_norm": 0.6507230401039124,
      "learning_rate": 3.508148148148148e-05,
      "loss": 0.13,
      "step": 13820
    },
    {
      "epoch": 36.88,
      "grad_norm": 1.1377085447311401,
      "learning_rate": 3.506666666666667e-05,
      "loss": 0.1561,
      "step": 13830
    },
    {
      "epoch": 36.906666666666666,
      "grad_norm": 1.168576955795288,
      "learning_rate": 3.5051851851851855e-05,
      "loss": 0.1559,
      "step": 13840
    },
    {
      "epoch": 36.93333333333333,
      "grad_norm": 0.7437068223953247,
      "learning_rate": 3.503703703703704e-05,
      "loss": 0.1332,
      "step": 13850
    },
    {
      "epoch": 36.96,
      "grad_norm": 0.635266125202179,
      "learning_rate": 3.502222222222222e-05,
      "loss": 0.1298,
      "step": 13860
    },
    {
      "epoch": 36.986666666666665,
      "grad_norm": 1.225651741027832,
      "learning_rate": 3.500740740740741e-05,
      "loss": 0.1375,
      "step": 13870
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.9001666666666667,
      "eval_loss": 0.3242860436439514,
      "eval_runtime": 251.5738,
      "eval_samples_per_second": 47.7,
      "eval_steps_per_second": 1.491,
      "step": 13875
    },
    {
      "epoch": 37.013333333333335,
      "grad_norm": 0.7417032122612,
      "learning_rate": 3.499259259259259e-05,
      "loss": 0.143,
      "step": 13880
    },
    {
      "epoch": 37.04,
      "grad_norm": 0.5635210275650024,
      "learning_rate": 3.4977777777777785e-05,
      "loss": 0.1325,
      "step": 13890
    },
    {
      "epoch": 37.06666666666667,
      "grad_norm": 0.47801390290260315,
      "learning_rate": 3.4962962962962965e-05,
      "loss": 0.1427,
      "step": 13900
    },
    {
      "epoch": 37.093333333333334,
      "grad_norm": 0.6503446698188782,
      "learning_rate": 3.494814814814815e-05,
      "loss": 0.1289,
      "step": 13910
    },
    {
      "epoch": 37.12,
      "grad_norm": 0.7092220187187195,
      "learning_rate": 3.493333333333333e-05,
      "loss": 0.1557,
      "step": 13920
    },
    {
      "epoch": 37.14666666666667,
      "grad_norm": 0.7625207304954529,
      "learning_rate": 3.491851851851852e-05,
      "loss": 0.1507,
      "step": 13930
    },
    {
      "epoch": 37.17333333333333,
      "grad_norm": 1.037205457687378,
      "learning_rate": 3.490370370370371e-05,
      "loss": 0.1561,
      "step": 13940
    },
    {
      "epoch": 37.2,
      "grad_norm": 1.1264344453811646,
      "learning_rate": 3.4888888888888895e-05,
      "loss": 0.1228,
      "step": 13950
    },
    {
      "epoch": 37.22666666666667,
      "grad_norm": 0.8767980933189392,
      "learning_rate": 3.4874074074074076e-05,
      "loss": 0.1259,
      "step": 13960
    },
    {
      "epoch": 37.25333333333333,
      "grad_norm": 0.781400203704834,
      "learning_rate": 3.4859259259259256e-05,
      "loss": 0.124,
      "step": 13970
    },
    {
      "epoch": 37.28,
      "grad_norm": 0.7508281469345093,
      "learning_rate": 3.4844444444444444e-05,
      "loss": 0.1095,
      "step": 13980
    },
    {
      "epoch": 37.306666666666665,
      "grad_norm": 0.754393994808197,
      "learning_rate": 3.482962962962963e-05,
      "loss": 0.1467,
      "step": 13990
    },
    {
      "epoch": 37.333333333333336,
      "grad_norm": 0.7221003174781799,
      "learning_rate": 3.481481481481482e-05,
      "loss": 0.1351,
      "step": 14000
    },
    {
      "epoch": 37.36,
      "grad_norm": 0.7134292721748352,
      "learning_rate": 3.48e-05,
      "loss": 0.114,
      "step": 14010
    },
    {
      "epoch": 37.38666666666666,
      "grad_norm": 0.9922940731048584,
      "learning_rate": 3.4785185185185186e-05,
      "loss": 0.1285,
      "step": 14020
    },
    {
      "epoch": 37.413333333333334,
      "grad_norm": 0.7211880683898926,
      "learning_rate": 3.477037037037037e-05,
      "loss": 0.1221,
      "step": 14030
    },
    {
      "epoch": 37.44,
      "grad_norm": 0.6565313935279846,
      "learning_rate": 3.475555555555556e-05,
      "loss": 0.1392,
      "step": 14040
    },
    {
      "epoch": 37.46666666666667,
      "grad_norm": 0.6743717789649963,
      "learning_rate": 3.474074074074074e-05,
      "loss": 0.1115,
      "step": 14050
    },
    {
      "epoch": 37.49333333333333,
      "grad_norm": 1.7883774042129517,
      "learning_rate": 3.472592592592593e-05,
      "loss": 0.1301,
      "step": 14060
    },
    {
      "epoch": 37.52,
      "grad_norm": 0.805345892906189,
      "learning_rate": 3.471111111111111e-05,
      "loss": 0.1167,
      "step": 14070
    },
    {
      "epoch": 37.54666666666667,
      "grad_norm": 1.4342106580734253,
      "learning_rate": 3.46962962962963e-05,
      "loss": 0.1232,
      "step": 14080
    },
    {
      "epoch": 37.57333333333333,
      "grad_norm": 0.4553696811199188,
      "learning_rate": 3.4681481481481484e-05,
      "loss": 0.1204,
      "step": 14090
    },
    {
      "epoch": 37.6,
      "grad_norm": 0.7249352335929871,
      "learning_rate": 3.466666666666667e-05,
      "loss": 0.1419,
      "step": 14100
    },
    {
      "epoch": 37.626666666666665,
      "grad_norm": 0.6591256260871887,
      "learning_rate": 3.465185185185185e-05,
      "loss": 0.1255,
      "step": 14110
    },
    {
      "epoch": 37.653333333333336,
      "grad_norm": 1.0625101327896118,
      "learning_rate": 3.463703703703704e-05,
      "loss": 0.1231,
      "step": 14120
    },
    {
      "epoch": 37.68,
      "grad_norm": 1.1617131233215332,
      "learning_rate": 3.462222222222222e-05,
      "loss": 0.1463,
      "step": 14130
    },
    {
      "epoch": 37.70666666666666,
      "grad_norm": 0.7959069013595581,
      "learning_rate": 3.4607407407407414e-05,
      "loss": 0.1385,
      "step": 14140
    },
    {
      "epoch": 37.733333333333334,
      "grad_norm": 1.442711591720581,
      "learning_rate": 3.4592592592592594e-05,
      "loss": 0.1228,
      "step": 14150
    },
    {
      "epoch": 37.76,
      "grad_norm": 1.193173885345459,
      "learning_rate": 3.457777777777778e-05,
      "loss": 0.1412,
      "step": 14160
    },
    {
      "epoch": 37.78666666666667,
      "grad_norm": 0.7857397198677063,
      "learning_rate": 3.456296296296296e-05,
      "loss": 0.1286,
      "step": 14170
    },
    {
      "epoch": 37.81333333333333,
      "grad_norm": 0.5885981321334839,
      "learning_rate": 3.454814814814815e-05,
      "loss": 0.1416,
      "step": 14180
    },
    {
      "epoch": 37.84,
      "grad_norm": 0.4125601351261139,
      "learning_rate": 3.453333333333334e-05,
      "loss": 0.1165,
      "step": 14190
    },
    {
      "epoch": 37.86666666666667,
      "grad_norm": 1.1467071771621704,
      "learning_rate": 3.4518518518518524e-05,
      "loss": 0.0922,
      "step": 14200
    },
    {
      "epoch": 37.89333333333333,
      "grad_norm": 1.42283034324646,
      "learning_rate": 3.4503703703703705e-05,
      "loss": 0.114,
      "step": 14210
    },
    {
      "epoch": 37.92,
      "grad_norm": 1.4116325378417969,
      "learning_rate": 3.448888888888889e-05,
      "loss": 0.1436,
      "step": 14220
    },
    {
      "epoch": 37.946666666666665,
      "grad_norm": 0.6621559858322144,
      "learning_rate": 3.447407407407407e-05,
      "loss": 0.1192,
      "step": 14230
    },
    {
      "epoch": 37.973333333333336,
      "grad_norm": 0.540582537651062,
      "learning_rate": 3.445925925925926e-05,
      "loss": 0.1098,
      "step": 14240
    },
    {
      "epoch": 38.0,
      "grad_norm": 1.037381887435913,
      "learning_rate": 3.444444444444445e-05,
      "loss": 0.1374,
      "step": 14250
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.8965,
      "eval_loss": 0.34809452295303345,
      "eval_runtime": 251.4258,
      "eval_samples_per_second": 47.728,
      "eval_steps_per_second": 1.491,
      "step": 14250
    },
    {
      "epoch": 38.026666666666664,
      "grad_norm": 0.7166621088981628,
      "learning_rate": 3.4429629629629635e-05,
      "loss": 0.1303,
      "step": 14260
    },
    {
      "epoch": 38.053333333333335,
      "grad_norm": 0.8803855776786804,
      "learning_rate": 3.4414814814814815e-05,
      "loss": 0.1615,
      "step": 14270
    },
    {
      "epoch": 38.08,
      "grad_norm": 0.508794367313385,
      "learning_rate": 3.4399999999999996e-05,
      "loss": 0.1218,
      "step": 14280
    },
    {
      "epoch": 38.10666666666667,
      "grad_norm": 0.7889625430107117,
      "learning_rate": 3.438518518518519e-05,
      "loss": 0.1216,
      "step": 14290
    },
    {
      "epoch": 38.13333333333333,
      "grad_norm": 0.6536449193954468,
      "learning_rate": 3.437037037037037e-05,
      "loss": 0.1482,
      "step": 14300
    },
    {
      "epoch": 38.16,
      "grad_norm": 0.7631733417510986,
      "learning_rate": 3.435555555555556e-05,
      "loss": 0.1319,
      "step": 14310
    },
    {
      "epoch": 38.18666666666667,
      "grad_norm": 0.5255581736564636,
      "learning_rate": 3.434074074074074e-05,
      "loss": 0.1164,
      "step": 14320
    },
    {
      "epoch": 38.21333333333333,
      "grad_norm": 1.1684460639953613,
      "learning_rate": 3.4325925925925926e-05,
      "loss": 0.1395,
      "step": 14330
    },
    {
      "epoch": 38.24,
      "grad_norm": 0.559105634689331,
      "learning_rate": 3.431111111111111e-05,
      "loss": 0.1334,
      "step": 14340
    },
    {
      "epoch": 38.266666666666666,
      "grad_norm": 0.9589331746101379,
      "learning_rate": 3.42962962962963e-05,
      "loss": 0.1175,
      "step": 14350
    },
    {
      "epoch": 38.29333333333334,
      "grad_norm": 0.6816359758377075,
      "learning_rate": 3.428148148148148e-05,
      "loss": 0.1343,
      "step": 14360
    },
    {
      "epoch": 38.32,
      "grad_norm": 0.7111276388168335,
      "learning_rate": 3.426666666666667e-05,
      "loss": 0.1273,
      "step": 14370
    },
    {
      "epoch": 38.346666666666664,
      "grad_norm": 0.7280983328819275,
      "learning_rate": 3.425185185185185e-05,
      "loss": 0.1204,
      "step": 14380
    },
    {
      "epoch": 38.373333333333335,
      "grad_norm": 1.3807474374771118,
      "learning_rate": 3.423703703703704e-05,
      "loss": 0.1111,
      "step": 14390
    },
    {
      "epoch": 38.4,
      "grad_norm": 1.234544277191162,
      "learning_rate": 3.4222222222222224e-05,
      "loss": 0.1412,
      "step": 14400
    },
    {
      "epoch": 38.42666666666667,
      "grad_norm": 0.7091413140296936,
      "learning_rate": 3.420740740740741e-05,
      "loss": 0.1336,
      "step": 14410
    },
    {
      "epoch": 38.45333333333333,
      "grad_norm": 0.5706987977027893,
      "learning_rate": 3.419259259259259e-05,
      "loss": 0.1145,
      "step": 14420
    },
    {
      "epoch": 38.48,
      "grad_norm": 0.6795122623443604,
      "learning_rate": 3.417777777777778e-05,
      "loss": 0.1447,
      "step": 14430
    },
    {
      "epoch": 38.50666666666667,
      "grad_norm": 0.30239519476890564,
      "learning_rate": 3.4162962962962966e-05,
      "loss": 0.1219,
      "step": 14440
    },
    {
      "epoch": 38.53333333333333,
      "grad_norm": 1.0869932174682617,
      "learning_rate": 3.4148148148148153e-05,
      "loss": 0.1201,
      "step": 14450
    },
    {
      "epoch": 38.56,
      "grad_norm": 1.0687272548675537,
      "learning_rate": 3.4133333333333334e-05,
      "loss": 0.1252,
      "step": 14460
    },
    {
      "epoch": 38.586666666666666,
      "grad_norm": 1.136164903640747,
      "learning_rate": 3.411851851851852e-05,
      "loss": 0.1242,
      "step": 14470
    },
    {
      "epoch": 38.61333333333333,
      "grad_norm": 1.101167917251587,
      "learning_rate": 3.41037037037037e-05,
      "loss": 0.1709,
      "step": 14480
    },
    {
      "epoch": 38.64,
      "grad_norm": 0.6120354533195496,
      "learning_rate": 3.408888888888889e-05,
      "loss": 0.1288,
      "step": 14490
    },
    {
      "epoch": 38.666666666666664,
      "grad_norm": 0.9654986262321472,
      "learning_rate": 3.4074074074074077e-05,
      "loss": 0.1349,
      "step": 14500
    },
    {
      "epoch": 38.693333333333335,
      "grad_norm": 0.46039366722106934,
      "learning_rate": 3.4059259259259264e-05,
      "loss": 0.1366,
      "step": 14510
    },
    {
      "epoch": 38.72,
      "grad_norm": 1.0039660930633545,
      "learning_rate": 3.4044444444444445e-05,
      "loss": 0.1176,
      "step": 14520
    },
    {
      "epoch": 38.74666666666667,
      "grad_norm": 0.625465989112854,
      "learning_rate": 3.402962962962963e-05,
      "loss": 0.1479,
      "step": 14530
    },
    {
      "epoch": 38.77333333333333,
      "grad_norm": 1.7477797269821167,
      "learning_rate": 3.401481481481482e-05,
      "loss": 0.1471,
      "step": 14540
    },
    {
      "epoch": 38.8,
      "grad_norm": 0.5777425765991211,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 0.1161,
      "step": 14550
    },
    {
      "epoch": 38.82666666666667,
      "grad_norm": 0.5771605968475342,
      "learning_rate": 3.398518518518519e-05,
      "loss": 0.1081,
      "step": 14560
    },
    {
      "epoch": 38.85333333333333,
      "grad_norm": 0.629884660243988,
      "learning_rate": 3.3970370370370374e-05,
      "loss": 0.122,
      "step": 14570
    },
    {
      "epoch": 38.88,
      "grad_norm": 0.6165542006492615,
      "learning_rate": 3.3955555555555555e-05,
      "loss": 0.0974,
      "step": 14580
    },
    {
      "epoch": 38.906666666666666,
      "grad_norm": 0.7050284147262573,
      "learning_rate": 3.394074074074074e-05,
      "loss": 0.1377,
      "step": 14590
    },
    {
      "epoch": 38.93333333333333,
      "grad_norm": 1.7434810400009155,
      "learning_rate": 3.392592592592593e-05,
      "loss": 0.1256,
      "step": 14600
    },
    {
      "epoch": 38.96,
      "grad_norm": 1.0927953720092773,
      "learning_rate": 3.391111111111111e-05,
      "loss": 0.1336,
      "step": 14610
    },
    {
      "epoch": 38.986666666666665,
      "grad_norm": 0.9946818947792053,
      "learning_rate": 3.38962962962963e-05,
      "loss": 0.0958,
      "step": 14620
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.8960833333333333,
      "eval_loss": 0.3610909879207611,
      "eval_runtime": 251.5093,
      "eval_samples_per_second": 47.712,
      "eval_steps_per_second": 1.491,
      "step": 14625
    },
    {
      "epoch": 39.013333333333335,
      "grad_norm": 0.5719517469406128,
      "learning_rate": 3.388148148148148e-05,
      "loss": 0.1158,
      "step": 14630
    },
    {
      "epoch": 39.04,
      "grad_norm": 0.4408528506755829,
      "learning_rate": 3.3866666666666665e-05,
      "loss": 0.1092,
      "step": 14640
    },
    {
      "epoch": 39.06666666666667,
      "grad_norm": 0.6252496838569641,
      "learning_rate": 3.385185185185185e-05,
      "loss": 0.1209,
      "step": 14650
    },
    {
      "epoch": 39.093333333333334,
      "grad_norm": 0.8698192834854126,
      "learning_rate": 3.383703703703704e-05,
      "loss": 0.1142,
      "step": 14660
    },
    {
      "epoch": 39.12,
      "grad_norm": 1.196700096130371,
      "learning_rate": 3.382222222222222e-05,
      "loss": 0.1176,
      "step": 14670
    },
    {
      "epoch": 39.14666666666667,
      "grad_norm": 0.5499346852302551,
      "learning_rate": 3.380740740740741e-05,
      "loss": 0.1231,
      "step": 14680
    },
    {
      "epoch": 39.17333333333333,
      "grad_norm": 0.389573335647583,
      "learning_rate": 3.3792592592592595e-05,
      "loss": 0.1209,
      "step": 14690
    },
    {
      "epoch": 39.2,
      "grad_norm": 0.5306630730628967,
      "learning_rate": 3.377777777777778e-05,
      "loss": 0.1095,
      "step": 14700
    },
    {
      "epoch": 39.22666666666667,
      "grad_norm": 0.786679208278656,
      "learning_rate": 3.376296296296296e-05,
      "loss": 0.1418,
      "step": 14710
    },
    {
      "epoch": 39.25333333333333,
      "grad_norm": 0.49732303619384766,
      "learning_rate": 3.374814814814815e-05,
      "loss": 0.1068,
      "step": 14720
    },
    {
      "epoch": 39.28,
      "grad_norm": 1.2102797031402588,
      "learning_rate": 3.373333333333333e-05,
      "loss": 0.1514,
      "step": 14730
    },
    {
      "epoch": 39.306666666666665,
      "grad_norm": 0.6238965392112732,
      "learning_rate": 3.371851851851852e-05,
      "loss": 0.1591,
      "step": 14740
    },
    {
      "epoch": 39.333333333333336,
      "grad_norm": 0.6495566964149475,
      "learning_rate": 3.3703703703703706e-05,
      "loss": 0.107,
      "step": 14750
    },
    {
      "epoch": 39.36,
      "grad_norm": 0.5533037185668945,
      "learning_rate": 3.368888888888889e-05,
      "loss": 0.1287,
      "step": 14760
    },
    {
      "epoch": 39.38666666666666,
      "grad_norm": 1.017029881477356,
      "learning_rate": 3.3674074074074074e-05,
      "loss": 0.1076,
      "step": 14770
    },
    {
      "epoch": 39.413333333333334,
      "grad_norm": 1.006684422492981,
      "learning_rate": 3.365925925925926e-05,
      "loss": 0.1398,
      "step": 14780
    },
    {
      "epoch": 39.44,
      "grad_norm": 1.1622883081436157,
      "learning_rate": 3.364444444444445e-05,
      "loss": 0.1241,
      "step": 14790
    },
    {
      "epoch": 39.46666666666667,
      "grad_norm": 1.2200229167938232,
      "learning_rate": 3.3629629629629636e-05,
      "loss": 0.121,
      "step": 14800
    },
    {
      "epoch": 39.49333333333333,
      "grad_norm": 1.1513895988464355,
      "learning_rate": 3.3614814814814816e-05,
      "loss": 0.1246,
      "step": 14810
    },
    {
      "epoch": 39.52,
      "grad_norm": 0.5467257499694824,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 0.1345,
      "step": 14820
    },
    {
      "epoch": 39.54666666666667,
      "grad_norm": 0.4860801100730896,
      "learning_rate": 3.3585185185185184e-05,
      "loss": 0.1187,
      "step": 14830
    },
    {
      "epoch": 39.57333333333333,
      "grad_norm": 0.7540624141693115,
      "learning_rate": 3.357037037037037e-05,
      "loss": 0.1533,
      "step": 14840
    },
    {
      "epoch": 39.6,
      "grad_norm": 0.9086800813674927,
      "learning_rate": 3.355555555555556e-05,
      "loss": 0.1415,
      "step": 14850
    },
    {
      "epoch": 39.626666666666665,
      "grad_norm": 0.5642034411430359,
      "learning_rate": 3.3540740740740746e-05,
      "loss": 0.1392,
      "step": 14860
    },
    {
      "epoch": 39.653333333333336,
      "grad_norm": 0.8766238689422607,
      "learning_rate": 3.352592592592593e-05,
      "loss": 0.1181,
      "step": 14870
    },
    {
      "epoch": 39.68,
      "grad_norm": 0.7619327306747437,
      "learning_rate": 3.3511111111111114e-05,
      "loss": 0.1283,
      "step": 14880
    },
    {
      "epoch": 39.70666666666666,
      "grad_norm": 0.8211836218833923,
      "learning_rate": 3.3496296296296295e-05,
      "loss": 0.1358,
      "step": 14890
    },
    {
      "epoch": 39.733333333333334,
      "grad_norm": 0.6400761008262634,
      "learning_rate": 3.348148148148148e-05,
      "loss": 0.1124,
      "step": 14900
    },
    {
      "epoch": 39.76,
      "grad_norm": 0.6918902397155762,
      "learning_rate": 3.346666666666667e-05,
      "loss": 0.1466,
      "step": 14910
    },
    {
      "epoch": 39.78666666666667,
      "grad_norm": 0.508161187171936,
      "learning_rate": 3.345185185185185e-05,
      "loss": 0.1327,
      "step": 14920
    },
    {
      "epoch": 39.81333333333333,
      "grad_norm": 0.7068108320236206,
      "learning_rate": 3.343703703703704e-05,
      "loss": 0.126,
      "step": 14930
    },
    {
      "epoch": 39.84,
      "grad_norm": 1.17863929271698,
      "learning_rate": 3.3422222222222224e-05,
      "loss": 0.1295,
      "step": 14940
    },
    {
      "epoch": 39.86666666666667,
      "grad_norm": 0.6790997385978699,
      "learning_rate": 3.340740740740741e-05,
      "loss": 0.1026,
      "step": 14950
    },
    {
      "epoch": 39.89333333333333,
      "grad_norm": 0.5771085619926453,
      "learning_rate": 3.339259259259259e-05,
      "loss": 0.1187,
      "step": 14960
    },
    {
      "epoch": 39.92,
      "grad_norm": 0.7192868590354919,
      "learning_rate": 3.337777777777778e-05,
      "loss": 0.1182,
      "step": 14970
    },
    {
      "epoch": 39.946666666666665,
      "grad_norm": 0.7595701813697815,
      "learning_rate": 3.336296296296296e-05,
      "loss": 0.1247,
      "step": 14980
    },
    {
      "epoch": 39.973333333333336,
      "grad_norm": 0.7476987242698669,
      "learning_rate": 3.334814814814815e-05,
      "loss": 0.1171,
      "step": 14990
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.626864492893219,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.1283,
      "step": 15000
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.9004166666666666,
      "eval_loss": 0.3521290719509125,
      "eval_runtime": 251.3559,
      "eval_samples_per_second": 47.741,
      "eval_steps_per_second": 1.492,
      "step": 15000
    },
    {
      "epoch": 40.026666666666664,
      "grad_norm": 0.41568902134895325,
      "learning_rate": 3.331851851851852e-05,
      "loss": 0.1285,
      "step": 15010
    },
    {
      "epoch": 40.053333333333335,
      "grad_norm": 0.7474643588066101,
      "learning_rate": 3.33037037037037e-05,
      "loss": 0.1342,
      "step": 15020
    },
    {
      "epoch": 40.08,
      "grad_norm": 1.0370335578918457,
      "learning_rate": 3.328888888888889e-05,
      "loss": 0.1407,
      "step": 15030
    },
    {
      "epoch": 40.10666666666667,
      "grad_norm": 0.8611982464790344,
      "learning_rate": 3.327407407407408e-05,
      "loss": 0.1271,
      "step": 15040
    },
    {
      "epoch": 40.13333333333333,
      "grad_norm": 0.627683699131012,
      "learning_rate": 3.3259259259259265e-05,
      "loss": 0.1497,
      "step": 15050
    },
    {
      "epoch": 40.16,
      "grad_norm": 1.4769397974014282,
      "learning_rate": 3.3244444444444445e-05,
      "loss": 0.1544,
      "step": 15060
    },
    {
      "epoch": 40.18666666666667,
      "grad_norm": 0.7434845566749573,
      "learning_rate": 3.322962962962963e-05,
      "loss": 0.1311,
      "step": 15070
    },
    {
      "epoch": 40.21333333333333,
      "grad_norm": 0.9985266327857971,
      "learning_rate": 3.321481481481481e-05,
      "loss": 0.1245,
      "step": 15080
    },
    {
      "epoch": 40.24,
      "grad_norm": 0.537520706653595,
      "learning_rate": 3.32e-05,
      "loss": 0.1113,
      "step": 15090
    },
    {
      "epoch": 40.266666666666666,
      "grad_norm": 0.5798508524894714,
      "learning_rate": 3.318518518518519e-05,
      "loss": 0.1151,
      "step": 15100
    },
    {
      "epoch": 40.29333333333334,
      "grad_norm": 0.574065625667572,
      "learning_rate": 3.3170370370370375e-05,
      "loss": 0.1279,
      "step": 15110
    },
    {
      "epoch": 40.32,
      "grad_norm": 0.9477535486221313,
      "learning_rate": 3.3155555555555556e-05,
      "loss": 0.145,
      "step": 15120
    },
    {
      "epoch": 40.346666666666664,
      "grad_norm": 0.996489405632019,
      "learning_rate": 3.314074074074074e-05,
      "loss": 0.1386,
      "step": 15130
    },
    {
      "epoch": 40.373333333333335,
      "grad_norm": 1.104817509651184,
      "learning_rate": 3.3125925925925924e-05,
      "loss": 0.1229,
      "step": 15140
    },
    {
      "epoch": 40.4,
      "grad_norm": 0.7359675168991089,
      "learning_rate": 3.311111111111112e-05,
      "loss": 0.1397,
      "step": 15150
    },
    {
      "epoch": 40.42666666666667,
      "grad_norm": 0.5696702003479004,
      "learning_rate": 3.30962962962963e-05,
      "loss": 0.1275,
      "step": 15160
    },
    {
      "epoch": 40.45333333333333,
      "grad_norm": 0.4963131248950958,
      "learning_rate": 3.3081481481481486e-05,
      "loss": 0.1186,
      "step": 15170
    },
    {
      "epoch": 40.48,
      "grad_norm": 0.4819418787956238,
      "learning_rate": 3.3066666666666666e-05,
      "loss": 0.13,
      "step": 15180
    },
    {
      "epoch": 40.50666666666667,
      "grad_norm": 0.6714977622032166,
      "learning_rate": 3.3051851851851854e-05,
      "loss": 0.1385,
      "step": 15190
    },
    {
      "epoch": 40.53333333333333,
      "grad_norm": 1.2647731304168701,
      "learning_rate": 3.303703703703704e-05,
      "loss": 0.107,
      "step": 15200
    },
    {
      "epoch": 40.56,
      "grad_norm": 0.585480272769928,
      "learning_rate": 3.302222222222222e-05,
      "loss": 0.1375,
      "step": 15210
    },
    {
      "epoch": 40.586666666666666,
      "grad_norm": 0.6727729439735413,
      "learning_rate": 3.300740740740741e-05,
      "loss": 0.1149,
      "step": 15220
    },
    {
      "epoch": 40.61333333333333,
      "grad_norm": 0.8125377893447876,
      "learning_rate": 3.299259259259259e-05,
      "loss": 0.1231,
      "step": 15230
    },
    {
      "epoch": 40.64,
      "grad_norm": 0.9470720291137695,
      "learning_rate": 3.297777777777778e-05,
      "loss": 0.1232,
      "step": 15240
    },
    {
      "epoch": 40.666666666666664,
      "grad_norm": 0.8009923696517944,
      "learning_rate": 3.2962962962962964e-05,
      "loss": 0.1097,
      "step": 15250
    },
    {
      "epoch": 40.693333333333335,
      "grad_norm": 0.9782776832580566,
      "learning_rate": 3.294814814814815e-05,
      "loss": 0.1224,
      "step": 15260
    },
    {
      "epoch": 40.72,
      "grad_norm": 1.2802739143371582,
      "learning_rate": 3.293333333333333e-05,
      "loss": 0.1329,
      "step": 15270
    },
    {
      "epoch": 40.74666666666667,
      "grad_norm": 0.8636932373046875,
      "learning_rate": 3.291851851851852e-05,
      "loss": 0.1255,
      "step": 15280
    },
    {
      "epoch": 40.77333333333333,
      "grad_norm": 0.8853609561920166,
      "learning_rate": 3.29037037037037e-05,
      "loss": 0.123,
      "step": 15290
    },
    {
      "epoch": 40.8,
      "grad_norm": 0.7726976275444031,
      "learning_rate": 3.2888888888888894e-05,
      "loss": 0.1232,
      "step": 15300
    },
    {
      "epoch": 40.82666666666667,
      "grad_norm": 1.3522144556045532,
      "learning_rate": 3.2874074074074075e-05,
      "loss": 0.1349,
      "step": 15310
    },
    {
      "epoch": 40.85333333333333,
      "grad_norm": 0.4356692433357239,
      "learning_rate": 3.285925925925926e-05,
      "loss": 0.124,
      "step": 15320
    },
    {
      "epoch": 40.88,
      "grad_norm": 0.9283479452133179,
      "learning_rate": 3.284444444444444e-05,
      "loss": 0.1234,
      "step": 15330
    },
    {
      "epoch": 40.906666666666666,
      "grad_norm": 0.8456709980964661,
      "learning_rate": 3.282962962962963e-05,
      "loss": 0.1202,
      "step": 15340
    },
    {
      "epoch": 40.93333333333333,
      "grad_norm": 0.6898795962333679,
      "learning_rate": 3.281481481481482e-05,
      "loss": 0.1057,
      "step": 15350
    },
    {
      "epoch": 40.96,
      "grad_norm": 0.6814408302307129,
      "learning_rate": 3.2800000000000004e-05,
      "loss": 0.1086,
      "step": 15360
    },
    {
      "epoch": 40.986666666666665,
      "grad_norm": 0.2729504406452179,
      "learning_rate": 3.2785185185185185e-05,
      "loss": 0.1314,
      "step": 15370
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.8981666666666667,
      "eval_loss": 0.34471485018730164,
      "eval_runtime": 251.4775,
      "eval_samples_per_second": 47.718,
      "eval_steps_per_second": 1.491,
      "step": 15375
    },
    {
      "epoch": 41.013333333333335,
      "grad_norm": 0.6671677231788635,
      "learning_rate": 3.277037037037037e-05,
      "loss": 0.131,
      "step": 15380
    },
    {
      "epoch": 41.04,
      "grad_norm": 0.7450612187385559,
      "learning_rate": 3.275555555555555e-05,
      "loss": 0.0954,
      "step": 15390
    },
    {
      "epoch": 41.06666666666667,
      "grad_norm": 0.40599867701530457,
      "learning_rate": 3.274074074074075e-05,
      "loss": 0.1425,
      "step": 15400
    },
    {
      "epoch": 41.093333333333334,
      "grad_norm": 1.0959832668304443,
      "learning_rate": 3.272592592592593e-05,
      "loss": 0.113,
      "step": 15410
    },
    {
      "epoch": 41.12,
      "grad_norm": 1.3606762886047363,
      "learning_rate": 3.2711111111111115e-05,
      "loss": 0.1151,
      "step": 15420
    },
    {
      "epoch": 41.14666666666667,
      "grad_norm": 1.1403651237487793,
      "learning_rate": 3.2696296296296295e-05,
      "loss": 0.1347,
      "step": 15430
    },
    {
      "epoch": 41.17333333333333,
      "grad_norm": 0.759689450263977,
      "learning_rate": 3.268148148148148e-05,
      "loss": 0.1144,
      "step": 15440
    },
    {
      "epoch": 41.2,
      "grad_norm": 0.7083584666252136,
      "learning_rate": 3.266666666666667e-05,
      "loss": 0.1409,
      "step": 15450
    },
    {
      "epoch": 41.22666666666667,
      "grad_norm": 0.3134825825691223,
      "learning_rate": 3.265185185185186e-05,
      "loss": 0.1262,
      "step": 15460
    },
    {
      "epoch": 41.25333333333333,
      "grad_norm": 0.913765549659729,
      "learning_rate": 3.263703703703704e-05,
      "loss": 0.1329,
      "step": 15470
    },
    {
      "epoch": 41.28,
      "grad_norm": 0.6508323550224304,
      "learning_rate": 3.2622222222222225e-05,
      "loss": 0.1195,
      "step": 15480
    },
    {
      "epoch": 41.306666666666665,
      "grad_norm": 0.6196288466453552,
      "learning_rate": 3.2607407407407406e-05,
      "loss": 0.1347,
      "step": 15490
    },
    {
      "epoch": 41.333333333333336,
      "grad_norm": 0.5625476837158203,
      "learning_rate": 3.25925925925926e-05,
      "loss": 0.1122,
      "step": 15500
    },
    {
      "epoch": 41.36,
      "grad_norm": 0.6837165951728821,
      "learning_rate": 3.257777777777778e-05,
      "loss": 0.1196,
      "step": 15510
    },
    {
      "epoch": 41.38666666666666,
      "grad_norm": 0.8440409302711487,
      "learning_rate": 3.256296296296296e-05,
      "loss": 0.1323,
      "step": 15520
    },
    {
      "epoch": 41.413333333333334,
      "grad_norm": 0.9584532976150513,
      "learning_rate": 3.254814814814815e-05,
      "loss": 0.1391,
      "step": 15530
    },
    {
      "epoch": 41.44,
      "grad_norm": 1.4705955982208252,
      "learning_rate": 3.253333333333333e-05,
      "loss": 0.1603,
      "step": 15540
    },
    {
      "epoch": 41.46666666666667,
      "grad_norm": 1.1904652118682861,
      "learning_rate": 3.251851851851852e-05,
      "loss": 0.1146,
      "step": 15550
    },
    {
      "epoch": 41.49333333333333,
      "grad_norm": 0.8853037357330322,
      "learning_rate": 3.2503703703703704e-05,
      "loss": 0.1139,
      "step": 15560
    },
    {
      "epoch": 41.52,
      "grad_norm": 0.8238078951835632,
      "learning_rate": 3.248888888888889e-05,
      "loss": 0.1327,
      "step": 15570
    },
    {
      "epoch": 41.54666666666667,
      "grad_norm": 0.8381800651550293,
      "learning_rate": 3.247407407407407e-05,
      "loss": 0.1337,
      "step": 15580
    },
    {
      "epoch": 41.57333333333333,
      "grad_norm": 0.7168253064155579,
      "learning_rate": 3.245925925925926e-05,
      "loss": 0.1243,
      "step": 15590
    },
    {
      "epoch": 41.6,
      "grad_norm": 0.36679548025131226,
      "learning_rate": 3.2444444444444446e-05,
      "loss": 0.1289,
      "step": 15600
    },
    {
      "epoch": 41.626666666666665,
      "grad_norm": 1.1263999938964844,
      "learning_rate": 3.2429629629629634e-05,
      "loss": 0.1439,
      "step": 15610
    },
    {
      "epoch": 41.653333333333336,
      "grad_norm": 0.8729699850082397,
      "learning_rate": 3.2414814814814814e-05,
      "loss": 0.12,
      "step": 15620
    },
    {
      "epoch": 41.68,
      "grad_norm": 0.8348574042320251,
      "learning_rate": 3.24e-05,
      "loss": 0.1172,
      "step": 15630
    },
    {
      "epoch": 41.70666666666666,
      "grad_norm": 0.5051025748252869,
      "learning_rate": 3.238518518518518e-05,
      "loss": 0.1209,
      "step": 15640
    },
    {
      "epoch": 41.733333333333334,
      "grad_norm": 0.5913931131362915,
      "learning_rate": 3.2370370370370376e-05,
      "loss": 0.1497,
      "step": 15650
    },
    {
      "epoch": 41.76,
      "grad_norm": 1.0688273906707764,
      "learning_rate": 3.235555555555556e-05,
      "loss": 0.1394,
      "step": 15660
    },
    {
      "epoch": 41.78666666666667,
      "grad_norm": 0.5799959301948547,
      "learning_rate": 3.2340740740740744e-05,
      "loss": 0.1422,
      "step": 15670
    },
    {
      "epoch": 41.81333333333333,
      "grad_norm": 0.6872878670692444,
      "learning_rate": 3.2325925925925925e-05,
      "loss": 0.1249,
      "step": 15680
    },
    {
      "epoch": 41.84,
      "grad_norm": 0.5501497387886047,
      "learning_rate": 3.231111111111111e-05,
      "loss": 0.1369,
      "step": 15690
    },
    {
      "epoch": 41.86666666666667,
      "grad_norm": 1.377920150756836,
      "learning_rate": 3.22962962962963e-05,
      "loss": 0.129,
      "step": 15700
    },
    {
      "epoch": 41.89333333333333,
      "grad_norm": 0.6324396729469299,
      "learning_rate": 3.228148148148149e-05,
      "loss": 0.1249,
      "step": 15710
    },
    {
      "epoch": 41.92,
      "grad_norm": 0.8195778131484985,
      "learning_rate": 3.226666666666667e-05,
      "loss": 0.1397,
      "step": 15720
    },
    {
      "epoch": 41.946666666666665,
      "grad_norm": 0.9175658822059631,
      "learning_rate": 3.2251851851851855e-05,
      "loss": 0.1083,
      "step": 15730
    },
    {
      "epoch": 41.973333333333336,
      "grad_norm": 0.2916625738143921,
      "learning_rate": 3.2237037037037035e-05,
      "loss": 0.1445,
      "step": 15740
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.8220896124839783,
      "learning_rate": 3.222222222222223e-05,
      "loss": 0.1035,
      "step": 15750
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.9038333333333334,
      "eval_loss": 0.33113691210746765,
      "eval_runtime": 251.3411,
      "eval_samples_per_second": 47.744,
      "eval_steps_per_second": 1.492,
      "step": 15750
    },
    {
      "epoch": 42.026666666666664,
      "grad_norm": 1.1726385354995728,
      "learning_rate": 3.220740740740741e-05,
      "loss": 0.1431,
      "step": 15760
    },
    {
      "epoch": 42.053333333333335,
      "grad_norm": 0.38585272431373596,
      "learning_rate": 3.21925925925926e-05,
      "loss": 0.1129,
      "step": 15770
    },
    {
      "epoch": 42.08,
      "grad_norm": 0.67658531665802,
      "learning_rate": 3.217777777777778e-05,
      "loss": 0.1139,
      "step": 15780
    },
    {
      "epoch": 42.10666666666667,
      "grad_norm": 0.6816834211349487,
      "learning_rate": 3.2162962962962965e-05,
      "loss": 0.138,
      "step": 15790
    },
    {
      "epoch": 42.13333333333333,
      "grad_norm": 0.5829227566719055,
      "learning_rate": 3.214814814814815e-05,
      "loss": 0.1126,
      "step": 15800
    },
    {
      "epoch": 42.16,
      "grad_norm": 0.5939732789993286,
      "learning_rate": 3.213333333333334e-05,
      "loss": 0.1113,
      "step": 15810
    },
    {
      "epoch": 42.18666666666667,
      "grad_norm": 1.0321975946426392,
      "learning_rate": 3.211851851851852e-05,
      "loss": 0.1008,
      "step": 15820
    },
    {
      "epoch": 42.21333333333333,
      "grad_norm": 0.6373071074485779,
      "learning_rate": 3.21037037037037e-05,
      "loss": 0.1099,
      "step": 15830
    },
    {
      "epoch": 42.24,
      "grad_norm": 0.9280217885971069,
      "learning_rate": 3.208888888888889e-05,
      "loss": 0.1208,
      "step": 15840
    },
    {
      "epoch": 42.266666666666666,
      "grad_norm": 0.8970444798469543,
      "learning_rate": 3.2074074074074075e-05,
      "loss": 0.1379,
      "step": 15850
    },
    {
      "epoch": 42.29333333333334,
      "grad_norm": 0.5511905550956726,
      "learning_rate": 3.205925925925926e-05,
      "loss": 0.126,
      "step": 15860
    },
    {
      "epoch": 42.32,
      "grad_norm": 1.341580867767334,
      "learning_rate": 3.204444444444444e-05,
      "loss": 0.1377,
      "step": 15870
    },
    {
      "epoch": 42.346666666666664,
      "grad_norm": 1.2140607833862305,
      "learning_rate": 3.202962962962963e-05,
      "loss": 0.1148,
      "step": 15880
    },
    {
      "epoch": 42.373333333333335,
      "grad_norm": 0.8168236613273621,
      "learning_rate": 3.201481481481481e-05,
      "loss": 0.1231,
      "step": 15890
    },
    {
      "epoch": 42.4,
      "grad_norm": 0.847783625125885,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.1235,
      "step": 15900
    },
    {
      "epoch": 42.42666666666667,
      "grad_norm": 0.6168175339698792,
      "learning_rate": 3.1985185185185186e-05,
      "loss": 0.1168,
      "step": 15910
    },
    {
      "epoch": 42.45333333333333,
      "grad_norm": 1.0434849262237549,
      "learning_rate": 3.197037037037037e-05,
      "loss": 0.1342,
      "step": 15920
    },
    {
      "epoch": 42.48,
      "grad_norm": 0.7262018322944641,
      "learning_rate": 3.1955555555555554e-05,
      "loss": 0.1159,
      "step": 15930
    },
    {
      "epoch": 42.50666666666667,
      "grad_norm": 0.5176212787628174,
      "learning_rate": 3.194074074074074e-05,
      "loss": 0.106,
      "step": 15940
    },
    {
      "epoch": 42.53333333333333,
      "grad_norm": 0.7773478031158447,
      "learning_rate": 3.192592592592593e-05,
      "loss": 0.1247,
      "step": 15950
    },
    {
      "epoch": 42.56,
      "grad_norm": 1.5310711860656738,
      "learning_rate": 3.1911111111111116e-05,
      "loss": 0.1454,
      "step": 15960
    },
    {
      "epoch": 42.586666666666666,
      "grad_norm": 0.5892236828804016,
      "learning_rate": 3.1896296296296296e-05,
      "loss": 0.1073,
      "step": 15970
    },
    {
      "epoch": 42.61333333333333,
      "grad_norm": 0.5777662396430969,
      "learning_rate": 3.1881481481481484e-05,
      "loss": 0.1093,
      "step": 15980
    },
    {
      "epoch": 42.64,
      "grad_norm": 1.961869478225708,
      "learning_rate": 3.1866666666666664e-05,
      "loss": 0.1189,
      "step": 15990
    },
    {
      "epoch": 42.666666666666664,
      "grad_norm": 0.6930792927742004,
      "learning_rate": 3.185185185185185e-05,
      "loss": 0.1329,
      "step": 16000
    },
    {
      "epoch": 42.693333333333335,
      "grad_norm": 0.9752848148345947,
      "learning_rate": 3.183703703703704e-05,
      "loss": 0.1057,
      "step": 16010
    },
    {
      "epoch": 42.72,
      "grad_norm": 0.5700481534004211,
      "learning_rate": 3.1822222222222226e-05,
      "loss": 0.1022,
      "step": 16020
    },
    {
      "epoch": 42.74666666666667,
      "grad_norm": 0.489149808883667,
      "learning_rate": 3.180740740740741e-05,
      "loss": 0.1124,
      "step": 16030
    },
    {
      "epoch": 42.77333333333333,
      "grad_norm": 0.763787031173706,
      "learning_rate": 3.1792592592592594e-05,
      "loss": 0.1159,
      "step": 16040
    },
    {
      "epoch": 42.8,
      "grad_norm": 0.8953835964202881,
      "learning_rate": 3.177777777777778e-05,
      "loss": 0.1381,
      "step": 16050
    },
    {
      "epoch": 42.82666666666667,
      "grad_norm": 0.7403663992881775,
      "learning_rate": 3.176296296296297e-05,
      "loss": 0.1362,
      "step": 16060
    },
    {
      "epoch": 42.85333333333333,
      "grad_norm": 0.8902115225791931,
      "learning_rate": 3.174814814814815e-05,
      "loss": 0.1306,
      "step": 16070
    },
    {
      "epoch": 42.88,
      "grad_norm": 1.294203519821167,
      "learning_rate": 3.173333333333334e-05,
      "loss": 0.1145,
      "step": 16080
    },
    {
      "epoch": 42.906666666666666,
      "grad_norm": 0.7054836750030518,
      "learning_rate": 3.171851851851852e-05,
      "loss": 0.1219,
      "step": 16090
    },
    {
      "epoch": 42.93333333333333,
      "grad_norm": 1.0014545917510986,
      "learning_rate": 3.1703703703703705e-05,
      "loss": 0.1166,
      "step": 16100
    },
    {
      "epoch": 42.96,
      "grad_norm": 0.9486914873123169,
      "learning_rate": 3.168888888888889e-05,
      "loss": 0.1716,
      "step": 16110
    },
    {
      "epoch": 42.986666666666665,
      "grad_norm": 0.6005178093910217,
      "learning_rate": 3.167407407407408e-05,
      "loss": 0.1343,
      "step": 16120
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.9003333333333333,
      "eval_loss": 0.3330574035644531,
      "eval_runtime": 251.3902,
      "eval_samples_per_second": 47.735,
      "eval_steps_per_second": 1.492,
      "step": 16125
    },
    {
      "epoch": 43.013333333333335,
      "grad_norm": 0.9363821744918823,
      "learning_rate": 3.165925925925926e-05,
      "loss": 0.1305,
      "step": 16130
    },
    {
      "epoch": 43.04,
      "grad_norm": 0.7136745452880859,
      "learning_rate": 3.164444444444444e-05,
      "loss": 0.1063,
      "step": 16140
    },
    {
      "epoch": 43.06666666666667,
      "grad_norm": 0.6924651861190796,
      "learning_rate": 3.1629629629629634e-05,
      "loss": 0.1109,
      "step": 16150
    },
    {
      "epoch": 43.093333333333334,
      "grad_norm": 0.9386874437332153,
      "learning_rate": 3.1614814814814815e-05,
      "loss": 0.1282,
      "step": 16160
    },
    {
      "epoch": 43.12,
      "grad_norm": 0.7837782502174377,
      "learning_rate": 3.16e-05,
      "loss": 0.128,
      "step": 16170
    },
    {
      "epoch": 43.14666666666667,
      "grad_norm": 0.8381037712097168,
      "learning_rate": 3.158518518518518e-05,
      "loss": 0.1089,
      "step": 16180
    },
    {
      "epoch": 43.17333333333333,
      "grad_norm": 0.6816710829734802,
      "learning_rate": 3.157037037037037e-05,
      "loss": 0.1171,
      "step": 16190
    },
    {
      "epoch": 43.2,
      "grad_norm": 1.027929663658142,
      "learning_rate": 3.155555555555556e-05,
      "loss": 0.1271,
      "step": 16200
    },
    {
      "epoch": 43.22666666666667,
      "grad_norm": 0.5163158178329468,
      "learning_rate": 3.1540740740740745e-05,
      "loss": 0.1458,
      "step": 16210
    },
    {
      "epoch": 43.25333333333333,
      "grad_norm": 0.49551698565483093,
      "learning_rate": 3.1525925925925926e-05,
      "loss": 0.1271,
      "step": 16220
    },
    {
      "epoch": 43.28,
      "grad_norm": 0.8512800931930542,
      "learning_rate": 3.151111111111111e-05,
      "loss": 0.1304,
      "step": 16230
    },
    {
      "epoch": 43.306666666666665,
      "grad_norm": 0.5508648157119751,
      "learning_rate": 3.1496296296296293e-05,
      "loss": 0.136,
      "step": 16240
    },
    {
      "epoch": 43.333333333333336,
      "grad_norm": 1.124014973640442,
      "learning_rate": 3.148148148148148e-05,
      "loss": 0.1127,
      "step": 16250
    },
    {
      "epoch": 43.36,
      "grad_norm": 1.2825756072998047,
      "learning_rate": 3.146666666666667e-05,
      "loss": 0.155,
      "step": 16260
    },
    {
      "epoch": 43.38666666666666,
      "grad_norm": 1.109536051750183,
      "learning_rate": 3.1451851851851855e-05,
      "loss": 0.1466,
      "step": 16270
    },
    {
      "epoch": 43.413333333333334,
      "grad_norm": 0.8152025938034058,
      "learning_rate": 3.1437037037037036e-05,
      "loss": 0.1314,
      "step": 16280
    },
    {
      "epoch": 43.44,
      "grad_norm": 1.2142354249954224,
      "learning_rate": 3.142222222222222e-05,
      "loss": 0.1304,
      "step": 16290
    },
    {
      "epoch": 43.46666666666667,
      "grad_norm": 1.314323902130127,
      "learning_rate": 3.140740740740741e-05,
      "loss": 0.1455,
      "step": 16300
    },
    {
      "epoch": 43.49333333333333,
      "grad_norm": 0.6168428063392639,
      "learning_rate": 3.13925925925926e-05,
      "loss": 0.1239,
      "step": 16310
    },
    {
      "epoch": 43.52,
      "grad_norm": 0.9281080961227417,
      "learning_rate": 3.137777777777778e-05,
      "loss": 0.1195,
      "step": 16320
    },
    {
      "epoch": 43.54666666666667,
      "grad_norm": 0.6874710321426392,
      "learning_rate": 3.1362962962962966e-05,
      "loss": 0.118,
      "step": 16330
    },
    {
      "epoch": 43.57333333333333,
      "grad_norm": 0.7968535423278809,
      "learning_rate": 3.1348148148148146e-05,
      "loss": 0.1173,
      "step": 16340
    },
    {
      "epoch": 43.6,
      "grad_norm": 0.8030575513839722,
      "learning_rate": 3.1333333333333334e-05,
      "loss": 0.1416,
      "step": 16350
    },
    {
      "epoch": 43.626666666666665,
      "grad_norm": 0.539986252784729,
      "learning_rate": 3.131851851851852e-05,
      "loss": 0.1132,
      "step": 16360
    },
    {
      "epoch": 43.653333333333336,
      "grad_norm": 0.7112353444099426,
      "learning_rate": 3.130370370370371e-05,
      "loss": 0.1214,
      "step": 16370
    },
    {
      "epoch": 43.68,
      "grad_norm": 0.751925528049469,
      "learning_rate": 3.128888888888889e-05,
      "loss": 0.1227,
      "step": 16380
    },
    {
      "epoch": 43.70666666666666,
      "grad_norm": 1.0294158458709717,
      "learning_rate": 3.1274074074074076e-05,
      "loss": 0.1116,
      "step": 16390
    },
    {
      "epoch": 43.733333333333334,
      "grad_norm": 0.9141790270805359,
      "learning_rate": 3.1259259259259264e-05,
      "loss": 0.133,
      "step": 16400
    },
    {
      "epoch": 43.76,
      "grad_norm": 0.5291667580604553,
      "learning_rate": 3.124444444444445e-05,
      "loss": 0.1198,
      "step": 16410
    },
    {
      "epoch": 43.78666666666667,
      "grad_norm": 0.7802924513816833,
      "learning_rate": 3.122962962962963e-05,
      "loss": 0.1135,
      "step": 16420
    },
    {
      "epoch": 43.81333333333333,
      "grad_norm": 0.928758442401886,
      "learning_rate": 3.121481481481482e-05,
      "loss": 0.119,
      "step": 16430
    },
    {
      "epoch": 43.84,
      "grad_norm": 0.4844142496585846,
      "learning_rate": 3.12e-05,
      "loss": 0.0992,
      "step": 16440
    },
    {
      "epoch": 43.86666666666667,
      "grad_norm": 0.7611650824546814,
      "learning_rate": 3.118518518518519e-05,
      "loss": 0.1087,
      "step": 16450
    },
    {
      "epoch": 43.89333333333333,
      "grad_norm": 1.0403081178665161,
      "learning_rate": 3.1170370370370374e-05,
      "loss": 0.14,
      "step": 16460
    },
    {
      "epoch": 43.92,
      "grad_norm": 0.540250301361084,
      "learning_rate": 3.1155555555555555e-05,
      "loss": 0.1101,
      "step": 16470
    },
    {
      "epoch": 43.946666666666665,
      "grad_norm": 0.8601893782615662,
      "learning_rate": 3.114074074074074e-05,
      "loss": 0.1198,
      "step": 16480
    },
    {
      "epoch": 43.973333333333336,
      "grad_norm": 0.7683752179145813,
      "learning_rate": 3.112592592592592e-05,
      "loss": 0.1193,
      "step": 16490
    },
    {
      "epoch": 44.0,
      "grad_norm": 0.9233737587928772,
      "learning_rate": 3.111111111111111e-05,
      "loss": 0.1163,
      "step": 16500
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.901,
      "eval_loss": 0.3505781292915344,
      "eval_runtime": 251.3695,
      "eval_samples_per_second": 47.738,
      "eval_steps_per_second": 1.492,
      "step": 16500
    },
    {
      "epoch": 44.026666666666664,
      "grad_norm": 0.5083851218223572,
      "learning_rate": 3.10962962962963e-05,
      "loss": 0.1093,
      "step": 16510
    },
    {
      "epoch": 44.053333333333335,
      "grad_norm": 0.7215377688407898,
      "learning_rate": 3.1081481481481485e-05,
      "loss": 0.1259,
      "step": 16520
    },
    {
      "epoch": 44.08,
      "grad_norm": 1.2080796957015991,
      "learning_rate": 3.1066666666666665e-05,
      "loss": 0.1196,
      "step": 16530
    },
    {
      "epoch": 44.10666666666667,
      "grad_norm": 0.9492436051368713,
      "learning_rate": 3.105185185185185e-05,
      "loss": 0.1013,
      "step": 16540
    },
    {
      "epoch": 44.13333333333333,
      "grad_norm": 1.0404207706451416,
      "learning_rate": 3.103703703703704e-05,
      "loss": 0.1324,
      "step": 16550
    },
    {
      "epoch": 44.16,
      "grad_norm": 0.7048701643943787,
      "learning_rate": 3.102222222222223e-05,
      "loss": 0.1182,
      "step": 16560
    },
    {
      "epoch": 44.18666666666667,
      "grad_norm": 0.44903719425201416,
      "learning_rate": 3.100740740740741e-05,
      "loss": 0.114,
      "step": 16570
    },
    {
      "epoch": 44.21333333333333,
      "grad_norm": 0.8988425731658936,
      "learning_rate": 3.0992592592592595e-05,
      "loss": 0.1153,
      "step": 16580
    },
    {
      "epoch": 44.24,
      "grad_norm": 0.5105049014091492,
      "learning_rate": 3.0977777777777776e-05,
      "loss": 0.1203,
      "step": 16590
    },
    {
      "epoch": 44.266666666666666,
      "grad_norm": 0.8300052881240845,
      "learning_rate": 3.096296296296296e-05,
      "loss": 0.1078,
      "step": 16600
    },
    {
      "epoch": 44.29333333333334,
      "grad_norm": 0.7175353765487671,
      "learning_rate": 3.094814814814815e-05,
      "loss": 0.1234,
      "step": 16610
    },
    {
      "epoch": 44.32,
      "grad_norm": 1.221085548400879,
      "learning_rate": 3.093333333333334e-05,
      "loss": 0.1305,
      "step": 16620
    },
    {
      "epoch": 44.346666666666664,
      "grad_norm": 0.6117452383041382,
      "learning_rate": 3.091851851851852e-05,
      "loss": 0.1561,
      "step": 16630
    },
    {
      "epoch": 44.373333333333335,
      "grad_norm": 0.663759708404541,
      "learning_rate": 3.0903703703703705e-05,
      "loss": 0.1323,
      "step": 16640
    },
    {
      "epoch": 44.4,
      "grad_norm": 0.5485753417015076,
      "learning_rate": 3.088888888888889e-05,
      "loss": 0.1055,
      "step": 16650
    },
    {
      "epoch": 44.42666666666667,
      "grad_norm": 0.697367787361145,
      "learning_rate": 3.087407407407408e-05,
      "loss": 0.109,
      "step": 16660
    },
    {
      "epoch": 44.45333333333333,
      "grad_norm": 0.9931197762489319,
      "learning_rate": 3.085925925925926e-05,
      "loss": 0.1174,
      "step": 16670
    },
    {
      "epoch": 44.48,
      "grad_norm": 0.907964289188385,
      "learning_rate": 3.084444444444445e-05,
      "loss": 0.1087,
      "step": 16680
    },
    {
      "epoch": 44.50666666666667,
      "grad_norm": 0.6099154353141785,
      "learning_rate": 3.082962962962963e-05,
      "loss": 0.1358,
      "step": 16690
    },
    {
      "epoch": 44.53333333333333,
      "grad_norm": 1.640714406967163,
      "learning_rate": 3.0814814814814816e-05,
      "loss": 0.1356,
      "step": 16700
    },
    {
      "epoch": 44.56,
      "grad_norm": 0.6792948246002197,
      "learning_rate": 3.08e-05,
      "loss": 0.104,
      "step": 16710
    },
    {
      "epoch": 44.586666666666666,
      "grad_norm": 1.2282480001449585,
      "learning_rate": 3.078518518518519e-05,
      "loss": 0.1553,
      "step": 16720
    },
    {
      "epoch": 44.61333333333333,
      "grad_norm": 1.1024445295333862,
      "learning_rate": 3.077037037037037e-05,
      "loss": 0.1188,
      "step": 16730
    },
    {
      "epoch": 44.64,
      "grad_norm": 0.7203577756881714,
      "learning_rate": 3.075555555555556e-05,
      "loss": 0.1158,
      "step": 16740
    },
    {
      "epoch": 44.666666666666664,
      "grad_norm": 1.1606868505477905,
      "learning_rate": 3.074074074074074e-05,
      "loss": 0.1557,
      "step": 16750
    },
    {
      "epoch": 44.693333333333335,
      "grad_norm": 0.5337738394737244,
      "learning_rate": 3.0725925925925926e-05,
      "loss": 0.1091,
      "step": 16760
    },
    {
      "epoch": 44.72,
      "grad_norm": 0.6471222639083862,
      "learning_rate": 3.0711111111111114e-05,
      "loss": 0.1209,
      "step": 16770
    },
    {
      "epoch": 44.74666666666667,
      "grad_norm": 0.3534478545188904,
      "learning_rate": 3.0696296296296294e-05,
      "loss": 0.1133,
      "step": 16780
    },
    {
      "epoch": 44.77333333333333,
      "grad_norm": 0.6215720772743225,
      "learning_rate": 3.068148148148148e-05,
      "loss": 0.1229,
      "step": 16790
    },
    {
      "epoch": 44.8,
      "grad_norm": 0.9212892651557922,
      "learning_rate": 3.066666666666667e-05,
      "loss": 0.1408,
      "step": 16800
    },
    {
      "epoch": 44.82666666666667,
      "grad_norm": 1.1198707818984985,
      "learning_rate": 3.0651851851851856e-05,
      "loss": 0.1115,
      "step": 16810
    },
    {
      "epoch": 44.85333333333333,
      "grad_norm": 0.8587360978126526,
      "learning_rate": 3.063703703703704e-05,
      "loss": 0.1105,
      "step": 16820
    },
    {
      "epoch": 44.88,
      "grad_norm": 0.8749282956123352,
      "learning_rate": 3.0622222222222224e-05,
      "loss": 0.1271,
      "step": 16830
    },
    {
      "epoch": 44.906666666666666,
      "grad_norm": 0.6292451024055481,
      "learning_rate": 3.0607407407407405e-05,
      "loss": 0.1412,
      "step": 16840
    },
    {
      "epoch": 44.93333333333333,
      "grad_norm": 1.2952896356582642,
      "learning_rate": 3.059259259259259e-05,
      "loss": 0.1195,
      "step": 16850
    },
    {
      "epoch": 44.96,
      "grad_norm": 0.2476649284362793,
      "learning_rate": 3.057777777777778e-05,
      "loss": 0.1057,
      "step": 16860
    },
    {
      "epoch": 44.986666666666665,
      "grad_norm": 0.6779937744140625,
      "learning_rate": 3.056296296296297e-05,
      "loss": 0.1214,
      "step": 16870
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.9005,
      "eval_loss": 0.34354647994041443,
      "eval_runtime": 253.5681,
      "eval_samples_per_second": 47.325,
      "eval_steps_per_second": 1.479,
      "step": 16875
    },
    {
      "epoch": 45.013333333333335,
      "grad_norm": 1.2206398248672485,
      "learning_rate": 3.054814814814815e-05,
      "loss": 0.1087,
      "step": 16880
    },
    {
      "epoch": 45.04,
      "grad_norm": 1.1203272342681885,
      "learning_rate": 3.0533333333333335e-05,
      "loss": 0.1166,
      "step": 16890
    },
    {
      "epoch": 45.06666666666667,
      "grad_norm": 0.9529656171798706,
      "learning_rate": 3.0518518518518515e-05,
      "loss": 0.1307,
      "step": 16900
    },
    {
      "epoch": 45.093333333333334,
      "grad_norm": 0.7583413124084473,
      "learning_rate": 3.0503703703703706e-05,
      "loss": 0.1311,
      "step": 16910
    },
    {
      "epoch": 45.12,
      "grad_norm": 0.9846914410591125,
      "learning_rate": 3.048888888888889e-05,
      "loss": 0.1384,
      "step": 16920
    },
    {
      "epoch": 45.14666666666667,
      "grad_norm": 0.7451393604278564,
      "learning_rate": 3.0474074074074077e-05,
      "loss": 0.1238,
      "step": 16930
    },
    {
      "epoch": 45.17333333333333,
      "grad_norm": 0.9685015082359314,
      "learning_rate": 3.045925925925926e-05,
      "loss": 0.1319,
      "step": 16940
    },
    {
      "epoch": 45.2,
      "grad_norm": 0.796222448348999,
      "learning_rate": 3.044444444444445e-05,
      "loss": 0.1306,
      "step": 16950
    },
    {
      "epoch": 45.22666666666667,
      "grad_norm": 0.5613497495651245,
      "learning_rate": 3.042962962962963e-05,
      "loss": 0.1302,
      "step": 16960
    },
    {
      "epoch": 45.25333333333333,
      "grad_norm": 0.46396738290786743,
      "learning_rate": 3.041481481481482e-05,
      "loss": 0.1031,
      "step": 16970
    },
    {
      "epoch": 45.28,
      "grad_norm": 1.0692193508148193,
      "learning_rate": 3.04e-05,
      "loss": 0.1222,
      "step": 16980
    },
    {
      "epoch": 45.306666666666665,
      "grad_norm": 0.6849391460418701,
      "learning_rate": 3.0385185185185188e-05,
      "loss": 0.1289,
      "step": 16990
    },
    {
      "epoch": 45.333333333333336,
      "grad_norm": 0.5194891095161438,
      "learning_rate": 3.037037037037037e-05,
      "loss": 0.1263,
      "step": 17000
    },
    {
      "epoch": 45.36,
      "grad_norm": 0.9299823641777039,
      "learning_rate": 3.035555555555556e-05,
      "loss": 0.1378,
      "step": 17010
    },
    {
      "epoch": 45.38666666666666,
      "grad_norm": 0.9953082799911499,
      "learning_rate": 3.0340740740740743e-05,
      "loss": 0.132,
      "step": 17020
    },
    {
      "epoch": 45.413333333333334,
      "grad_norm": 0.5512344837188721,
      "learning_rate": 3.032592592592593e-05,
      "loss": 0.1037,
      "step": 17030
    },
    {
      "epoch": 45.44,
      "grad_norm": 0.5295369625091553,
      "learning_rate": 3.031111111111111e-05,
      "loss": 0.1069,
      "step": 17040
    },
    {
      "epoch": 45.46666666666667,
      "grad_norm": 1.2764853239059448,
      "learning_rate": 3.02962962962963e-05,
      "loss": 0.1027,
      "step": 17050
    },
    {
      "epoch": 45.49333333333333,
      "grad_norm": 0.9638668894767761,
      "learning_rate": 3.0281481481481482e-05,
      "loss": 0.1159,
      "step": 17060
    },
    {
      "epoch": 45.52,
      "grad_norm": 1.0061888694763184,
      "learning_rate": 3.0266666666666666e-05,
      "loss": 0.1136,
      "step": 17070
    },
    {
      "epoch": 45.54666666666667,
      "grad_norm": 0.44770029187202454,
      "learning_rate": 3.0251851851851853e-05,
      "loss": 0.1006,
      "step": 17080
    },
    {
      "epoch": 45.57333333333333,
      "grad_norm": 0.6145328283309937,
      "learning_rate": 3.0237037037037037e-05,
      "loss": 0.0952,
      "step": 17090
    },
    {
      "epoch": 45.6,
      "grad_norm": 0.5946821570396423,
      "learning_rate": 3.0222222222222225e-05,
      "loss": 0.146,
      "step": 17100
    },
    {
      "epoch": 45.626666666666665,
      "grad_norm": 0.9481339454650879,
      "learning_rate": 3.0207407407407405e-05,
      "loss": 0.1024,
      "step": 17110
    },
    {
      "epoch": 45.653333333333336,
      "grad_norm": 0.9362908005714417,
      "learning_rate": 3.0192592592592596e-05,
      "loss": 0.1087,
      "step": 17120
    },
    {
      "epoch": 45.68,
      "grad_norm": 0.9882051348686218,
      "learning_rate": 3.0177777777777776e-05,
      "loss": 0.1276,
      "step": 17130
    },
    {
      "epoch": 45.70666666666666,
      "grad_norm": 1.1000326871871948,
      "learning_rate": 3.0162962962962964e-05,
      "loss": 0.1049,
      "step": 17140
    },
    {
      "epoch": 45.733333333333334,
      "grad_norm": 0.7420867681503296,
      "learning_rate": 3.0148148148148148e-05,
      "loss": 0.1146,
      "step": 17150
    },
    {
      "epoch": 45.76,
      "grad_norm": 0.5254116058349609,
      "learning_rate": 3.0133333333333335e-05,
      "loss": 0.1121,
      "step": 17160
    },
    {
      "epoch": 45.78666666666667,
      "grad_norm": 0.7504268288612366,
      "learning_rate": 3.011851851851852e-05,
      "loss": 0.1367,
      "step": 17170
    },
    {
      "epoch": 45.81333333333333,
      "grad_norm": 0.5725244283676147,
      "learning_rate": 3.0103703703703706e-05,
      "loss": 0.1522,
      "step": 17180
    },
    {
      "epoch": 45.84,
      "grad_norm": 0.6966990232467651,
      "learning_rate": 3.008888888888889e-05,
      "loss": 0.12,
      "step": 17190
    },
    {
      "epoch": 45.86666666666667,
      "grad_norm": 1.149040699005127,
      "learning_rate": 3.0074074074074078e-05,
      "loss": 0.1066,
      "step": 17200
    },
    {
      "epoch": 45.89333333333333,
      "grad_norm": 0.9212325215339661,
      "learning_rate": 3.0059259259259258e-05,
      "loss": 0.1176,
      "step": 17210
    },
    {
      "epoch": 45.92,
      "grad_norm": 0.48472830653190613,
      "learning_rate": 3.004444444444445e-05,
      "loss": 0.1076,
      "step": 17220
    },
    {
      "epoch": 45.946666666666665,
      "grad_norm": 0.621033787727356,
      "learning_rate": 3.002962962962963e-05,
      "loss": 0.1047,
      "step": 17230
    },
    {
      "epoch": 45.973333333333336,
      "grad_norm": 1.1546809673309326,
      "learning_rate": 3.0014814814814817e-05,
      "loss": 0.0987,
      "step": 17240
    },
    {
      "epoch": 46.0,
      "grad_norm": 0.5619125366210938,
      "learning_rate": 3e-05,
      "loss": 0.1055,
      "step": 17250
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.9018333333333334,
      "eval_loss": 0.3587205410003662,
      "eval_runtime": 253.8347,
      "eval_samples_per_second": 47.275,
      "eval_steps_per_second": 1.477,
      "step": 17250
    },
    {
      "epoch": 46.026666666666664,
      "grad_norm": 0.7461891174316406,
      "learning_rate": 2.9985185185185188e-05,
      "loss": 0.155,
      "step": 17260
    },
    {
      "epoch": 46.053333333333335,
      "grad_norm": 0.5234472155570984,
      "learning_rate": 2.9970370370370372e-05,
      "loss": 0.111,
      "step": 17270
    },
    {
      "epoch": 46.08,
      "grad_norm": 0.43223243951797485,
      "learning_rate": 2.995555555555556e-05,
      "loss": 0.0947,
      "step": 17280
    },
    {
      "epoch": 46.10666666666667,
      "grad_norm": 0.7777111530303955,
      "learning_rate": 2.994074074074074e-05,
      "loss": 0.1127,
      "step": 17290
    },
    {
      "epoch": 46.13333333333333,
      "grad_norm": 0.8766204714775085,
      "learning_rate": 2.992592592592593e-05,
      "loss": 0.124,
      "step": 17300
    },
    {
      "epoch": 46.16,
      "grad_norm": 0.5274333357810974,
      "learning_rate": 2.991111111111111e-05,
      "loss": 0.121,
      "step": 17310
    },
    {
      "epoch": 46.18666666666667,
      "grad_norm": 0.4555768072605133,
      "learning_rate": 2.98962962962963e-05,
      "loss": 0.1103,
      "step": 17320
    },
    {
      "epoch": 46.21333333333333,
      "grad_norm": 0.6402236819267273,
      "learning_rate": 2.9881481481481482e-05,
      "loss": 0.0875,
      "step": 17330
    },
    {
      "epoch": 46.24,
      "grad_norm": 0.6981205344200134,
      "learning_rate": 2.986666666666667e-05,
      "loss": 0.1146,
      "step": 17340
    },
    {
      "epoch": 46.266666666666666,
      "grad_norm": 0.4717854857444763,
      "learning_rate": 2.9851851851851854e-05,
      "loss": 0.1087,
      "step": 17350
    },
    {
      "epoch": 46.29333333333334,
      "grad_norm": 0.7485230565071106,
      "learning_rate": 2.983703703703704e-05,
      "loss": 0.1358,
      "step": 17360
    },
    {
      "epoch": 46.32,
      "grad_norm": 0.9594528675079346,
      "learning_rate": 2.9822222222222225e-05,
      "loss": 0.0974,
      "step": 17370
    },
    {
      "epoch": 46.346666666666664,
      "grad_norm": 0.4352808892726898,
      "learning_rate": 2.9807407407407406e-05,
      "loss": 0.1207,
      "step": 17380
    },
    {
      "epoch": 46.373333333333335,
      "grad_norm": 0.753587007522583,
      "learning_rate": 2.9792592592592593e-05,
      "loss": 0.1167,
      "step": 17390
    },
    {
      "epoch": 46.4,
      "grad_norm": 0.6406862735748291,
      "learning_rate": 2.9777777777777777e-05,
      "loss": 0.1092,
      "step": 17400
    },
    {
      "epoch": 46.42666666666667,
      "grad_norm": 0.8874475955963135,
      "learning_rate": 2.9762962962962964e-05,
      "loss": 0.1305,
      "step": 17410
    },
    {
      "epoch": 46.45333333333333,
      "grad_norm": 0.9711248874664307,
      "learning_rate": 2.9748148148148148e-05,
      "loss": 0.1489,
      "step": 17420
    },
    {
      "epoch": 46.48,
      "grad_norm": 0.493867427110672,
      "learning_rate": 2.9733333333333336e-05,
      "loss": 0.1183,
      "step": 17430
    },
    {
      "epoch": 46.50666666666667,
      "grad_norm": 0.5929214954376221,
      "learning_rate": 2.9718518518518516e-05,
      "loss": 0.1022,
      "step": 17440
    },
    {
      "epoch": 46.53333333333333,
      "grad_norm": 0.5925045609474182,
      "learning_rate": 2.9703703703703707e-05,
      "loss": 0.111,
      "step": 17450
    },
    {
      "epoch": 46.56,
      "grad_norm": 0.7654463648796082,
      "learning_rate": 2.9688888888888887e-05,
      "loss": 0.1015,
      "step": 17460
    },
    {
      "epoch": 46.586666666666666,
      "grad_norm": 0.770209014415741,
      "learning_rate": 2.9674074074074075e-05,
      "loss": 0.1006,
      "step": 17470
    },
    {
      "epoch": 46.61333333333333,
      "grad_norm": 0.5277777314186096,
      "learning_rate": 2.965925925925926e-05,
      "loss": 0.1142,
      "step": 17480
    },
    {
      "epoch": 46.64,
      "grad_norm": 0.7141275405883789,
      "learning_rate": 2.9644444444444446e-05,
      "loss": 0.1225,
      "step": 17490
    },
    {
      "epoch": 46.666666666666664,
      "grad_norm": 1.0017422437667847,
      "learning_rate": 2.962962962962963e-05,
      "loss": 0.1032,
      "step": 17500
    },
    {
      "epoch": 46.693333333333335,
      "grad_norm": 0.8265091776847839,
      "learning_rate": 2.9614814814814817e-05,
      "loss": 0.1121,
      "step": 17510
    },
    {
      "epoch": 46.72,
      "grad_norm": 0.7294397354125977,
      "learning_rate": 2.96e-05,
      "loss": 0.1081,
      "step": 17520
    },
    {
      "epoch": 46.74666666666667,
      "grad_norm": 1.0573780536651611,
      "learning_rate": 2.958518518518519e-05,
      "loss": 0.1345,
      "step": 17530
    },
    {
      "epoch": 46.77333333333333,
      "grad_norm": 1.153691291809082,
      "learning_rate": 2.957037037037037e-05,
      "loss": 0.1243,
      "step": 17540
    },
    {
      "epoch": 46.8,
      "grad_norm": 0.9743576645851135,
      "learning_rate": 2.955555555555556e-05,
      "loss": 0.1166,
      "step": 17550
    },
    {
      "epoch": 46.82666666666667,
      "grad_norm": 0.5775934457778931,
      "learning_rate": 2.954074074074074e-05,
      "loss": 0.1194,
      "step": 17560
    },
    {
      "epoch": 46.85333333333333,
      "grad_norm": 0.4566071927547455,
      "learning_rate": 2.9525925925925928e-05,
      "loss": 0.1293,
      "step": 17570
    },
    {
      "epoch": 46.88,
      "grad_norm": 1.1192882061004639,
      "learning_rate": 2.951111111111111e-05,
      "loss": 0.1064,
      "step": 17580
    },
    {
      "epoch": 46.906666666666666,
      "grad_norm": 0.7127460241317749,
      "learning_rate": 2.94962962962963e-05,
      "loss": 0.1392,
      "step": 17590
    },
    {
      "epoch": 46.93333333333333,
      "grad_norm": 0.718596339225769,
      "learning_rate": 2.9481481481481483e-05,
      "loss": 0.1172,
      "step": 17600
    },
    {
      "epoch": 46.96,
      "grad_norm": 0.8184888362884521,
      "learning_rate": 2.946666666666667e-05,
      "loss": 0.122,
      "step": 17610
    },
    {
      "epoch": 46.986666666666665,
      "grad_norm": 0.4526049792766571,
      "learning_rate": 2.9451851851851854e-05,
      "loss": 0.1097,
      "step": 17620
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.9020833333333333,
      "eval_loss": 0.3388381004333496,
      "eval_runtime": 253.8853,
      "eval_samples_per_second": 47.265,
      "eval_steps_per_second": 1.477,
      "step": 17625
    },
    {
      "epoch": 47.013333333333335,
      "grad_norm": 0.7311096787452698,
      "learning_rate": 2.943703703703704e-05,
      "loss": 0.1226,
      "step": 17630
    },
    {
      "epoch": 47.04,
      "grad_norm": 0.46326684951782227,
      "learning_rate": 2.9422222222222222e-05,
      "loss": 0.1057,
      "step": 17640
    },
    {
      "epoch": 47.06666666666667,
      "grad_norm": 0.7768539190292358,
      "learning_rate": 2.9407407407407413e-05,
      "loss": 0.1137,
      "step": 17650
    },
    {
      "epoch": 47.093333333333334,
      "grad_norm": 0.7905116677284241,
      "learning_rate": 2.9392592592592593e-05,
      "loss": 0.1402,
      "step": 17660
    },
    {
      "epoch": 47.12,
      "grad_norm": 1.0095783472061157,
      "learning_rate": 2.937777777777778e-05,
      "loss": 0.1094,
      "step": 17670
    },
    {
      "epoch": 47.14666666666667,
      "grad_norm": 0.7040125131607056,
      "learning_rate": 2.9362962962962965e-05,
      "loss": 0.1226,
      "step": 17680
    },
    {
      "epoch": 47.17333333333333,
      "grad_norm": 1.0941599607467651,
      "learning_rate": 2.9348148148148145e-05,
      "loss": 0.1191,
      "step": 17690
    },
    {
      "epoch": 47.2,
      "grad_norm": 0.590173602104187,
      "learning_rate": 2.9333333333333336e-05,
      "loss": 0.1294,
      "step": 17700
    },
    {
      "epoch": 47.22666666666667,
      "grad_norm": 0.5932841897010803,
      "learning_rate": 2.9318518518518517e-05,
      "loss": 0.1244,
      "step": 17710
    },
    {
      "epoch": 47.25333333333333,
      "grad_norm": 0.6381416320800781,
      "learning_rate": 2.9303703703703704e-05,
      "loss": 0.1247,
      "step": 17720
    },
    {
      "epoch": 47.28,
      "grad_norm": 0.4351062774658203,
      "learning_rate": 2.9288888888888888e-05,
      "loss": 0.1288,
      "step": 17730
    },
    {
      "epoch": 47.306666666666665,
      "grad_norm": 0.7778250575065613,
      "learning_rate": 2.9274074074074075e-05,
      "loss": 0.1075,
      "step": 17740
    },
    {
      "epoch": 47.333333333333336,
      "grad_norm": 1.0143440961837769,
      "learning_rate": 2.925925925925926e-05,
      "loss": 0.1323,
      "step": 17750
    },
    {
      "epoch": 47.36,
      "grad_norm": 0.426794171333313,
      "learning_rate": 2.9244444444444446e-05,
      "loss": 0.0843,
      "step": 17760
    },
    {
      "epoch": 47.38666666666666,
      "grad_norm": 0.5667079091072083,
      "learning_rate": 2.922962962962963e-05,
      "loss": 0.1109,
      "step": 17770
    },
    {
      "epoch": 47.413333333333334,
      "grad_norm": 1.1787670850753784,
      "learning_rate": 2.9214814814814818e-05,
      "loss": 0.1193,
      "step": 17780
    },
    {
      "epoch": 47.44,
      "grad_norm": 0.3884506821632385,
      "learning_rate": 2.9199999999999998e-05,
      "loss": 0.1307,
      "step": 17790
    },
    {
      "epoch": 47.46666666666667,
      "grad_norm": 0.512022078037262,
      "learning_rate": 2.918518518518519e-05,
      "loss": 0.1413,
      "step": 17800
    },
    {
      "epoch": 47.49333333333333,
      "grad_norm": 0.5937590599060059,
      "learning_rate": 2.917037037037037e-05,
      "loss": 0.1216,
      "step": 17810
    },
    {
      "epoch": 47.52,
      "grad_norm": 0.5365837812423706,
      "learning_rate": 2.9155555555555557e-05,
      "loss": 0.1248,
      "step": 17820
    },
    {
      "epoch": 47.54666666666667,
      "grad_norm": 0.7429771423339844,
      "learning_rate": 2.914074074074074e-05,
      "loss": 0.124,
      "step": 17830
    },
    {
      "epoch": 47.57333333333333,
      "grad_norm": 0.7039695978164673,
      "learning_rate": 2.9125925925925928e-05,
      "loss": 0.1249,
      "step": 17840
    },
    {
      "epoch": 47.6,
      "grad_norm": 0.45121780037879944,
      "learning_rate": 2.9111111111111112e-05,
      "loss": 0.1128,
      "step": 17850
    },
    {
      "epoch": 47.626666666666665,
      "grad_norm": 1.0913827419281006,
      "learning_rate": 2.90962962962963e-05,
      "loss": 0.1147,
      "step": 17860
    },
    {
      "epoch": 47.653333333333336,
      "grad_norm": 0.7693084478378296,
      "learning_rate": 2.9081481481481483e-05,
      "loss": 0.1177,
      "step": 17870
    },
    {
      "epoch": 47.68,
      "grad_norm": 0.8948861360549927,
      "learning_rate": 2.906666666666667e-05,
      "loss": 0.1137,
      "step": 17880
    },
    {
      "epoch": 47.70666666666666,
      "grad_norm": 0.8601765036582947,
      "learning_rate": 2.905185185185185e-05,
      "loss": 0.1554,
      "step": 17890
    },
    {
      "epoch": 47.733333333333334,
      "grad_norm": 0.599297821521759,
      "learning_rate": 2.9037037037037042e-05,
      "loss": 0.1228,
      "step": 17900
    },
    {
      "epoch": 47.76,
      "grad_norm": 0.5960290431976318,
      "learning_rate": 2.9022222222222223e-05,
      "loss": 0.1082,
      "step": 17910
    },
    {
      "epoch": 47.78666666666667,
      "grad_norm": 1.0994760990142822,
      "learning_rate": 2.900740740740741e-05,
      "loss": 0.1592,
      "step": 17920
    },
    {
      "epoch": 47.81333333333333,
      "grad_norm": 0.40384671092033386,
      "learning_rate": 2.8992592592592594e-05,
      "loss": 0.1365,
      "step": 17930
    },
    {
      "epoch": 47.84,
      "grad_norm": 0.7017285823822021,
      "learning_rate": 2.897777777777778e-05,
      "loss": 0.1431,
      "step": 17940
    },
    {
      "epoch": 47.86666666666667,
      "grad_norm": 0.8847180008888245,
      "learning_rate": 2.8962962962962965e-05,
      "loss": 0.1216,
      "step": 17950
    },
    {
      "epoch": 47.89333333333333,
      "grad_norm": 0.427737832069397,
      "learning_rate": 2.8948148148148152e-05,
      "loss": 0.0971,
      "step": 17960
    },
    {
      "epoch": 47.92,
      "grad_norm": 1.002913236618042,
      "learning_rate": 2.8933333333333333e-05,
      "loss": 0.1261,
      "step": 17970
    },
    {
      "epoch": 47.946666666666665,
      "grad_norm": 0.840640664100647,
      "learning_rate": 2.8918518518518524e-05,
      "loss": 0.0966,
      "step": 17980
    },
    {
      "epoch": 47.973333333333336,
      "grad_norm": 1.0228304862976074,
      "learning_rate": 2.8903703703703704e-05,
      "loss": 0.1244,
      "step": 17990
    },
    {
      "epoch": 48.0,
      "grad_norm": 0.6366199851036072,
      "learning_rate": 2.8888888888888888e-05,
      "loss": 0.1229,
      "step": 18000
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.9040833333333333,
      "eval_loss": 0.3500368297100067,
      "eval_runtime": 253.8738,
      "eval_samples_per_second": 47.268,
      "eval_steps_per_second": 1.477,
      "step": 18000
    },
    {
      "epoch": 48.026666666666664,
      "grad_norm": 1.0985430479049683,
      "learning_rate": 2.8874074074074076e-05,
      "loss": 0.1234,
      "step": 18010
    },
    {
      "epoch": 48.053333333333335,
      "grad_norm": 1.1416891813278198,
      "learning_rate": 2.885925925925926e-05,
      "loss": 0.1302,
      "step": 18020
    },
    {
      "epoch": 48.08,
      "grad_norm": 0.9195489883422852,
      "learning_rate": 2.8844444444444447e-05,
      "loss": 0.1123,
      "step": 18030
    },
    {
      "epoch": 48.10666666666667,
      "grad_norm": 0.5616374611854553,
      "learning_rate": 2.8829629629629627e-05,
      "loss": 0.117,
      "step": 18040
    },
    {
      "epoch": 48.13333333333333,
      "grad_norm": 0.9357309341430664,
      "learning_rate": 2.8814814814814818e-05,
      "loss": 0.1365,
      "step": 18050
    },
    {
      "epoch": 48.16,
      "grad_norm": 0.5318824052810669,
      "learning_rate": 2.88e-05,
      "loss": 0.101,
      "step": 18060
    },
    {
      "epoch": 48.18666666666667,
      "grad_norm": 0.6028080582618713,
      "learning_rate": 2.8785185185185186e-05,
      "loss": 0.1117,
      "step": 18070
    },
    {
      "epoch": 48.21333333333333,
      "grad_norm": 1.1985206604003906,
      "learning_rate": 2.877037037037037e-05,
      "loss": 0.1311,
      "step": 18080
    },
    {
      "epoch": 48.24,
      "grad_norm": 0.5664718151092529,
      "learning_rate": 2.8755555555555557e-05,
      "loss": 0.106,
      "step": 18090
    },
    {
      "epoch": 48.266666666666666,
      "grad_norm": 0.8198311924934387,
      "learning_rate": 2.874074074074074e-05,
      "loss": 0.1435,
      "step": 18100
    },
    {
      "epoch": 48.29333333333334,
      "grad_norm": 0.687383770942688,
      "learning_rate": 2.872592592592593e-05,
      "loss": 0.133,
      "step": 18110
    },
    {
      "epoch": 48.32,
      "grad_norm": 0.48195791244506836,
      "learning_rate": 2.8711111111111113e-05,
      "loss": 0.1199,
      "step": 18120
    },
    {
      "epoch": 48.346666666666664,
      "grad_norm": 0.6707039475440979,
      "learning_rate": 2.86962962962963e-05,
      "loss": 0.12,
      "step": 18130
    },
    {
      "epoch": 48.373333333333335,
      "grad_norm": 0.9685347080230713,
      "learning_rate": 2.868148148148148e-05,
      "loss": 0.1086,
      "step": 18140
    },
    {
      "epoch": 48.4,
      "grad_norm": 0.7319927215576172,
      "learning_rate": 2.8666666666666668e-05,
      "loss": 0.1429,
      "step": 18150
    },
    {
      "epoch": 48.42666666666667,
      "grad_norm": 0.6034587621688843,
      "learning_rate": 2.8651851851851852e-05,
      "loss": 0.1062,
      "step": 18160
    },
    {
      "epoch": 48.45333333333333,
      "grad_norm": 1.1959223747253418,
      "learning_rate": 2.863703703703704e-05,
      "loss": 0.1515,
      "step": 18170
    },
    {
      "epoch": 48.48,
      "grad_norm": 0.5030449628829956,
      "learning_rate": 2.8622222222222223e-05,
      "loss": 0.1132,
      "step": 18180
    },
    {
      "epoch": 48.50666666666667,
      "grad_norm": 0.6360395550727844,
      "learning_rate": 2.860740740740741e-05,
      "loss": 0.1128,
      "step": 18190
    },
    {
      "epoch": 48.53333333333333,
      "grad_norm": 0.6620995998382568,
      "learning_rate": 2.8592592592592594e-05,
      "loss": 0.1152,
      "step": 18200
    },
    {
      "epoch": 48.56,
      "grad_norm": 0.7384064197540283,
      "learning_rate": 2.857777777777778e-05,
      "loss": 0.112,
      "step": 18210
    },
    {
      "epoch": 48.586666666666666,
      "grad_norm": 0.7673972845077515,
      "learning_rate": 2.8562962962962962e-05,
      "loss": 0.1302,
      "step": 18220
    },
    {
      "epoch": 48.61333333333333,
      "grad_norm": 0.7485019564628601,
      "learning_rate": 2.8548148148148153e-05,
      "loss": 0.0912,
      "step": 18230
    },
    {
      "epoch": 48.64,
      "grad_norm": 0.48040422797203064,
      "learning_rate": 2.8533333333333333e-05,
      "loss": 0.1311,
      "step": 18240
    },
    {
      "epoch": 48.666666666666664,
      "grad_norm": 0.8373307585716248,
      "learning_rate": 2.851851851851852e-05,
      "loss": 0.113,
      "step": 18250
    },
    {
      "epoch": 48.693333333333335,
      "grad_norm": 0.7600528597831726,
      "learning_rate": 2.8503703703703705e-05,
      "loss": 0.1101,
      "step": 18260
    },
    {
      "epoch": 48.72,
      "grad_norm": 0.7917771935462952,
      "learning_rate": 2.8488888888888892e-05,
      "loss": 0.1125,
      "step": 18270
    },
    {
      "epoch": 48.74666666666667,
      "grad_norm": 0.7849538326263428,
      "learning_rate": 2.8474074074074076e-05,
      "loss": 0.1102,
      "step": 18280
    },
    {
      "epoch": 48.77333333333333,
      "grad_norm": 0.623174786567688,
      "learning_rate": 2.8459259259259263e-05,
      "loss": 0.0954,
      "step": 18290
    },
    {
      "epoch": 48.8,
      "grad_norm": 0.8154776096343994,
      "learning_rate": 2.8444444444444447e-05,
      "loss": 0.1157,
      "step": 18300
    },
    {
      "epoch": 48.82666666666667,
      "grad_norm": 0.4827369153499603,
      "learning_rate": 2.8429629629629628e-05,
      "loss": 0.1076,
      "step": 18310
    },
    {
      "epoch": 48.85333333333333,
      "grad_norm": 0.579918384552002,
      "learning_rate": 2.8414814814814815e-05,
      "loss": 0.1073,
      "step": 18320
    },
    {
      "epoch": 48.88,
      "grad_norm": 0.34451261162757874,
      "learning_rate": 2.84e-05,
      "loss": 0.0907,
      "step": 18330
    },
    {
      "epoch": 48.906666666666666,
      "grad_norm": 1.1390894651412964,
      "learning_rate": 2.8385185185185186e-05,
      "loss": 0.1087,
      "step": 18340
    },
    {
      "epoch": 48.93333333333333,
      "grad_norm": 0.8791013956069946,
      "learning_rate": 2.837037037037037e-05,
      "loss": 0.128,
      "step": 18350
    },
    {
      "epoch": 48.96,
      "grad_norm": 0.6428954005241394,
      "learning_rate": 2.8355555555555558e-05,
      "loss": 0.1047,
      "step": 18360
    },
    {
      "epoch": 48.986666666666665,
      "grad_norm": 1.5035400390625,
      "learning_rate": 2.834074074074074e-05,
      "loss": 0.123,
      "step": 18370
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.9036666666666666,
      "eval_loss": 0.3483108580112457,
      "eval_runtime": 253.9287,
      "eval_samples_per_second": 47.257,
      "eval_steps_per_second": 1.477,
      "step": 18375
    },
    {
      "epoch": 49.013333333333335,
      "grad_norm": 0.8014954924583435,
      "learning_rate": 2.832592592592593e-05,
      "loss": 0.1179,
      "step": 18380
    },
    {
      "epoch": 49.04,
      "grad_norm": 0.915111780166626,
      "learning_rate": 2.831111111111111e-05,
      "loss": 0.128,
      "step": 18390
    },
    {
      "epoch": 49.06666666666667,
      "grad_norm": 0.6840565800666809,
      "learning_rate": 2.8296296296296297e-05,
      "loss": 0.1058,
      "step": 18400
    },
    {
      "epoch": 49.093333333333334,
      "grad_norm": 0.8273472785949707,
      "learning_rate": 2.828148148148148e-05,
      "loss": 0.1146,
      "step": 18410
    },
    {
      "epoch": 49.12,
      "grad_norm": 0.6456076502799988,
      "learning_rate": 2.8266666666666668e-05,
      "loss": 0.1289,
      "step": 18420
    },
    {
      "epoch": 49.14666666666667,
      "grad_norm": 0.5452912449836731,
      "learning_rate": 2.8251851851851852e-05,
      "loss": 0.1327,
      "step": 18430
    },
    {
      "epoch": 49.17333333333333,
      "grad_norm": 0.5208062529563904,
      "learning_rate": 2.823703703703704e-05,
      "loss": 0.1053,
      "step": 18440
    },
    {
      "epoch": 49.2,
      "grad_norm": 0.888599157333374,
      "learning_rate": 2.8222222222222223e-05,
      "loss": 0.0915,
      "step": 18450
    },
    {
      "epoch": 49.22666666666667,
      "grad_norm": 1.3526356220245361,
      "learning_rate": 2.820740740740741e-05,
      "loss": 0.1216,
      "step": 18460
    },
    {
      "epoch": 49.25333333333333,
      "grad_norm": 0.8525989055633545,
      "learning_rate": 2.819259259259259e-05,
      "loss": 0.0951,
      "step": 18470
    },
    {
      "epoch": 49.28,
      "grad_norm": 1.2459921836853027,
      "learning_rate": 2.8177777777777782e-05,
      "loss": 0.1079,
      "step": 18480
    },
    {
      "epoch": 49.306666666666665,
      "grad_norm": 0.8043139576911926,
      "learning_rate": 2.8162962962962963e-05,
      "loss": 0.0949,
      "step": 18490
    },
    {
      "epoch": 49.333333333333336,
      "grad_norm": 0.7434647083282471,
      "learning_rate": 2.814814814814815e-05,
      "loss": 0.1062,
      "step": 18500
    },
    {
      "epoch": 49.36,
      "grad_norm": 0.8444651365280151,
      "learning_rate": 2.8133333333333334e-05,
      "loss": 0.115,
      "step": 18510
    },
    {
      "epoch": 49.38666666666666,
      "grad_norm": 0.47303712368011475,
      "learning_rate": 2.811851851851852e-05,
      "loss": 0.1233,
      "step": 18520
    },
    {
      "epoch": 49.413333333333334,
      "grad_norm": 1.3678315877914429,
      "learning_rate": 2.8103703703703705e-05,
      "loss": 0.1297,
      "step": 18530
    },
    {
      "epoch": 49.44,
      "grad_norm": 0.506630003452301,
      "learning_rate": 2.8088888888888893e-05,
      "loss": 0.1072,
      "step": 18540
    },
    {
      "epoch": 49.46666666666667,
      "grad_norm": 0.6883729100227356,
      "learning_rate": 2.8074074074074076e-05,
      "loss": 0.1182,
      "step": 18550
    },
    {
      "epoch": 49.49333333333333,
      "grad_norm": 0.7314412593841553,
      "learning_rate": 2.8059259259259264e-05,
      "loss": 0.1148,
      "step": 18560
    },
    {
      "epoch": 49.52,
      "grad_norm": 0.9019626379013062,
      "learning_rate": 2.8044444444444444e-05,
      "loss": 0.1207,
      "step": 18570
    },
    {
      "epoch": 49.54666666666667,
      "grad_norm": 0.601712703704834,
      "learning_rate": 2.8029629629629635e-05,
      "loss": 0.1231,
      "step": 18580
    },
    {
      "epoch": 49.57333333333333,
      "grad_norm": 0.6320507526397705,
      "learning_rate": 2.8014814814814816e-05,
      "loss": 0.1208,
      "step": 18590
    },
    {
      "epoch": 49.6,
      "grad_norm": 0.9620966911315918,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.1057,
      "step": 18600
    },
    {
      "epoch": 49.626666666666665,
      "grad_norm": 0.9534189701080322,
      "learning_rate": 2.7985185185185187e-05,
      "loss": 0.1166,
      "step": 18610
    },
    {
      "epoch": 49.653333333333336,
      "grad_norm": 0.7791820764541626,
      "learning_rate": 2.7970370370370367e-05,
      "loss": 0.1107,
      "step": 18620
    },
    {
      "epoch": 49.68,
      "grad_norm": 0.9915904998779297,
      "learning_rate": 2.7955555555555558e-05,
      "loss": 0.1342,
      "step": 18630
    },
    {
      "epoch": 49.70666666666666,
      "grad_norm": 0.5442671179771423,
      "learning_rate": 2.794074074074074e-05,
      "loss": 0.116,
      "step": 18640
    },
    {
      "epoch": 49.733333333333334,
      "grad_norm": 0.8549047708511353,
      "learning_rate": 2.7925925925925926e-05,
      "loss": 0.1127,
      "step": 18650
    },
    {
      "epoch": 49.76,
      "grad_norm": 0.5355319380760193,
      "learning_rate": 2.791111111111111e-05,
      "loss": 0.1077,
      "step": 18660
    },
    {
      "epoch": 49.78666666666667,
      "grad_norm": 0.5735291242599487,
      "learning_rate": 2.7896296296296297e-05,
      "loss": 0.1205,
      "step": 18670
    },
    {
      "epoch": 49.81333333333333,
      "grad_norm": 1.1089893579483032,
      "learning_rate": 2.788148148148148e-05,
      "loss": 0.1047,
      "step": 18680
    },
    {
      "epoch": 49.84,
      "grad_norm": 0.6288029551506042,
      "learning_rate": 2.786666666666667e-05,
      "loss": 0.1056,
      "step": 18690
    },
    {
      "epoch": 49.86666666666667,
      "grad_norm": 0.9746517539024353,
      "learning_rate": 2.7851851851851853e-05,
      "loss": 0.1172,
      "step": 18700
    },
    {
      "epoch": 49.89333333333333,
      "grad_norm": 1.2414524555206299,
      "learning_rate": 2.783703703703704e-05,
      "loss": 0.107,
      "step": 18710
    },
    {
      "epoch": 49.92,
      "grad_norm": 0.6638383865356445,
      "learning_rate": 2.782222222222222e-05,
      "loss": 0.1043,
      "step": 18720
    },
    {
      "epoch": 49.946666666666665,
      "grad_norm": 0.5987620949745178,
      "learning_rate": 2.780740740740741e-05,
      "loss": 0.1207,
      "step": 18730
    },
    {
      "epoch": 49.973333333333336,
      "grad_norm": 0.6998955607414246,
      "learning_rate": 2.7792592592592592e-05,
      "loss": 0.1207,
      "step": 18740
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.37233802676200867,
      "learning_rate": 2.777777777777778e-05,
      "loss": 0.1238,
      "step": 18750
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.89975,
      "eval_loss": 0.35206934809684753,
      "eval_runtime": 254.1653,
      "eval_samples_per_second": 47.213,
      "eval_steps_per_second": 1.475,
      "step": 18750
    },
    {
      "epoch": 50.026666666666664,
      "grad_norm": 0.7466848492622375,
      "learning_rate": 2.7762962962962963e-05,
      "loss": 0.1336,
      "step": 18760
    },
    {
      "epoch": 50.053333333333335,
      "grad_norm": 0.6644850969314575,
      "learning_rate": 2.774814814814815e-05,
      "loss": 0.1256,
      "step": 18770
    },
    {
      "epoch": 50.08,
      "grad_norm": 0.2608025074005127,
      "learning_rate": 2.7733333333333334e-05,
      "loss": 0.1077,
      "step": 18780
    },
    {
      "epoch": 50.10666666666667,
      "grad_norm": 0.47813212871551514,
      "learning_rate": 2.771851851851852e-05,
      "loss": 0.0848,
      "step": 18790
    },
    {
      "epoch": 50.13333333333333,
      "grad_norm": 0.6277278065681458,
      "learning_rate": 2.7703703703703706e-05,
      "loss": 0.0951,
      "step": 18800
    },
    {
      "epoch": 50.16,
      "grad_norm": 0.6985889077186584,
      "learning_rate": 2.7688888888888893e-05,
      "loss": 0.092,
      "step": 18810
    },
    {
      "epoch": 50.18666666666667,
      "grad_norm": 0.7696321606636047,
      "learning_rate": 2.7674074074074074e-05,
      "loss": 0.0999,
      "step": 18820
    },
    {
      "epoch": 50.21333333333333,
      "grad_norm": 0.7499311566352844,
      "learning_rate": 2.765925925925926e-05,
      "loss": 0.1101,
      "step": 18830
    },
    {
      "epoch": 50.24,
      "grad_norm": 1.2586036920547485,
      "learning_rate": 2.7644444444444445e-05,
      "loss": 0.1202,
      "step": 18840
    },
    {
      "epoch": 50.266666666666666,
      "grad_norm": 0.7985758781433105,
      "learning_rate": 2.7629629629629632e-05,
      "loss": 0.1078,
      "step": 18850
    },
    {
      "epoch": 50.29333333333334,
      "grad_norm": 0.9623746275901794,
      "learning_rate": 2.7614814814814816e-05,
      "loss": 0.1138,
      "step": 18860
    },
    {
      "epoch": 50.32,
      "grad_norm": 1.2047063112258911,
      "learning_rate": 2.7600000000000003e-05,
      "loss": 0.1172,
      "step": 18870
    },
    {
      "epoch": 50.346666666666664,
      "grad_norm": 0.7687171697616577,
      "learning_rate": 2.7585185185185187e-05,
      "loss": 0.1307,
      "step": 18880
    },
    {
      "epoch": 50.373333333333335,
      "grad_norm": 0.8604133129119873,
      "learning_rate": 2.7570370370370375e-05,
      "loss": 0.115,
      "step": 18890
    },
    {
      "epoch": 50.4,
      "grad_norm": 0.5652578473091125,
      "learning_rate": 2.7555555555555555e-05,
      "loss": 0.0991,
      "step": 18900
    },
    {
      "epoch": 50.42666666666667,
      "grad_norm": 0.8642829060554504,
      "learning_rate": 2.7540740740740746e-05,
      "loss": 0.1086,
      "step": 18910
    },
    {
      "epoch": 50.45333333333333,
      "grad_norm": 0.6288286447525024,
      "learning_rate": 2.7525925925925927e-05,
      "loss": 0.1013,
      "step": 18920
    },
    {
      "epoch": 50.48,
      "grad_norm": 0.5690379738807678,
      "learning_rate": 2.751111111111111e-05,
      "loss": 0.1047,
      "step": 18930
    },
    {
      "epoch": 50.50666666666667,
      "grad_norm": 0.6165653467178345,
      "learning_rate": 2.7496296296296298e-05,
      "loss": 0.1103,
      "step": 18940
    },
    {
      "epoch": 50.53333333333333,
      "grad_norm": 0.6078413724899292,
      "learning_rate": 2.7481481481481482e-05,
      "loss": 0.1044,
      "step": 18950
    },
    {
      "epoch": 50.56,
      "grad_norm": 0.5568577647209167,
      "learning_rate": 2.746666666666667e-05,
      "loss": 0.112,
      "step": 18960
    },
    {
      "epoch": 50.586666666666666,
      "grad_norm": 0.533805787563324,
      "learning_rate": 2.745185185185185e-05,
      "loss": 0.1287,
      "step": 18970
    },
    {
      "epoch": 50.61333333333333,
      "grad_norm": 0.5819263458251953,
      "learning_rate": 2.743703703703704e-05,
      "loss": 0.1097,
      "step": 18980
    },
    {
      "epoch": 50.64,
      "grad_norm": 0.7459146976470947,
      "learning_rate": 2.742222222222222e-05,
      "loss": 0.1032,
      "step": 18990
    },
    {
      "epoch": 50.666666666666664,
      "grad_norm": 1.0337797403335571,
      "learning_rate": 2.7407407407407408e-05,
      "loss": 0.118,
      "step": 19000
    },
    {
      "epoch": 50.693333333333335,
      "grad_norm": 0.33238255977630615,
      "learning_rate": 2.7392592592592592e-05,
      "loss": 0.1424,
      "step": 19010
    },
    {
      "epoch": 50.72,
      "grad_norm": 0.7003692388534546,
      "learning_rate": 2.737777777777778e-05,
      "loss": 0.1249,
      "step": 19020
    },
    {
      "epoch": 50.74666666666667,
      "grad_norm": 0.3677314519882202,
      "learning_rate": 2.7362962962962963e-05,
      "loss": 0.1272,
      "step": 19030
    },
    {
      "epoch": 50.77333333333333,
      "grad_norm": 0.7883759140968323,
      "learning_rate": 2.734814814814815e-05,
      "loss": 0.109,
      "step": 19040
    },
    {
      "epoch": 50.8,
      "grad_norm": 0.5291357636451721,
      "learning_rate": 2.733333333333333e-05,
      "loss": 0.1179,
      "step": 19050
    },
    {
      "epoch": 50.82666666666667,
      "grad_norm": 0.6483950614929199,
      "learning_rate": 2.7318518518518522e-05,
      "loss": 0.1104,
      "step": 19060
    },
    {
      "epoch": 50.85333333333333,
      "grad_norm": 0.611803412437439,
      "learning_rate": 2.7303703703703703e-05,
      "loss": 0.1245,
      "step": 19070
    },
    {
      "epoch": 50.88,
      "grad_norm": 0.5900137424468994,
      "learning_rate": 2.728888888888889e-05,
      "loss": 0.127,
      "step": 19080
    },
    {
      "epoch": 50.906666666666666,
      "grad_norm": 0.4367186427116394,
      "learning_rate": 2.7274074074074074e-05,
      "loss": 0.1171,
      "step": 19090
    },
    {
      "epoch": 50.93333333333333,
      "grad_norm": 0.538131058216095,
      "learning_rate": 2.725925925925926e-05,
      "loss": 0.1203,
      "step": 19100
    },
    {
      "epoch": 50.96,
      "grad_norm": 0.5565964579582214,
      "learning_rate": 2.7244444444444445e-05,
      "loss": 0.1141,
      "step": 19110
    },
    {
      "epoch": 50.986666666666665,
      "grad_norm": 0.6284306049346924,
      "learning_rate": 2.7229629629629633e-05,
      "loss": 0.1249,
      "step": 19120
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.90525,
      "eval_loss": 0.34239399433135986,
      "eval_runtime": 252.2077,
      "eval_samples_per_second": 47.58,
      "eval_steps_per_second": 1.487,
      "step": 19125
    },
    {
      "epoch": 51.013333333333335,
      "grad_norm": 1.2406744956970215,
      "learning_rate": 2.7214814814814817e-05,
      "loss": 0.1179,
      "step": 19130
    },
    {
      "epoch": 51.04,
      "grad_norm": 1.0814391374588013,
      "learning_rate": 2.7200000000000004e-05,
      "loss": 0.105,
      "step": 19140
    },
    {
      "epoch": 51.06666666666667,
      "grad_norm": 0.4586455821990967,
      "learning_rate": 2.7185185185185184e-05,
      "loss": 0.1086,
      "step": 19150
    },
    {
      "epoch": 51.093333333333334,
      "grad_norm": 0.6702836751937866,
      "learning_rate": 2.7170370370370375e-05,
      "loss": 0.0884,
      "step": 19160
    },
    {
      "epoch": 51.12,
      "grad_norm": 0.6787272691726685,
      "learning_rate": 2.7155555555555556e-05,
      "loss": 0.107,
      "step": 19170
    },
    {
      "epoch": 51.14666666666667,
      "grad_norm": 0.642193615436554,
      "learning_rate": 2.7140740740740743e-05,
      "loss": 0.0812,
      "step": 19180
    },
    {
      "epoch": 51.17333333333333,
      "grad_norm": 0.8027759790420532,
      "learning_rate": 2.7125925925925927e-05,
      "loss": 0.1075,
      "step": 19190
    },
    {
      "epoch": 51.2,
      "grad_norm": 0.6455164551734924,
      "learning_rate": 2.7111111111111114e-05,
      "loss": 0.1246,
      "step": 19200
    },
    {
      "epoch": 51.22666666666667,
      "grad_norm": 0.7553550601005554,
      "learning_rate": 2.7096296296296298e-05,
      "loss": 0.1115,
      "step": 19210
    },
    {
      "epoch": 51.25333333333333,
      "grad_norm": 0.413303941488266,
      "learning_rate": 2.7081481481481486e-05,
      "loss": 0.1072,
      "step": 19220
    },
    {
      "epoch": 51.28,
      "grad_norm": 0.5619508624076843,
      "learning_rate": 2.706666666666667e-05,
      "loss": 0.1028,
      "step": 19230
    },
    {
      "epoch": 51.306666666666665,
      "grad_norm": 0.9154611229896545,
      "learning_rate": 2.705185185185185e-05,
      "loss": 0.1167,
      "step": 19240
    },
    {
      "epoch": 51.333333333333336,
      "grad_norm": 0.9925470352172852,
      "learning_rate": 2.7037037037037037e-05,
      "loss": 0.0831,
      "step": 19250
    },
    {
      "epoch": 51.36,
      "grad_norm": 0.7799338102340698,
      "learning_rate": 2.702222222222222e-05,
      "loss": 0.1061,
      "step": 19260
    },
    {
      "epoch": 51.38666666666666,
      "grad_norm": 0.7379835844039917,
      "learning_rate": 2.700740740740741e-05,
      "loss": 0.1054,
      "step": 19270
    },
    {
      "epoch": 51.413333333333334,
      "grad_norm": 1.0529745817184448,
      "learning_rate": 2.6992592592592593e-05,
      "loss": 0.1063,
      "step": 19280
    },
    {
      "epoch": 51.44,
      "grad_norm": 0.9061985015869141,
      "learning_rate": 2.697777777777778e-05,
      "loss": 0.1073,
      "step": 19290
    },
    {
      "epoch": 51.46666666666667,
      "grad_norm": 0.39818140864372253,
      "learning_rate": 2.696296296296296e-05,
      "loss": 0.0845,
      "step": 19300
    },
    {
      "epoch": 51.49333333333333,
      "grad_norm": 0.6215844750404358,
      "learning_rate": 2.694814814814815e-05,
      "loss": 0.1085,
      "step": 19310
    },
    {
      "epoch": 51.52,
      "grad_norm": 0.7406467199325562,
      "learning_rate": 2.6933333333333332e-05,
      "loss": 0.1052,
      "step": 19320
    },
    {
      "epoch": 51.54666666666667,
      "grad_norm": 1.1003071069717407,
      "learning_rate": 2.691851851851852e-05,
      "loss": 0.114,
      "step": 19330
    },
    {
      "epoch": 51.57333333333333,
      "grad_norm": 0.7772546410560608,
      "learning_rate": 2.6903703703703703e-05,
      "loss": 0.12,
      "step": 19340
    },
    {
      "epoch": 51.6,
      "grad_norm": 0.5900471210479736,
      "learning_rate": 2.688888888888889e-05,
      "loss": 0.1103,
      "step": 19350
    },
    {
      "epoch": 51.626666666666665,
      "grad_norm": 0.4610118269920349,
      "learning_rate": 2.6874074074074074e-05,
      "loss": 0.0976,
      "step": 19360
    },
    {
      "epoch": 51.653333333333336,
      "grad_norm": 0.7819445133209229,
      "learning_rate": 2.6859259259259262e-05,
      "loss": 0.1261,
      "step": 19370
    },
    {
      "epoch": 51.68,
      "grad_norm": 0.34965381026268005,
      "learning_rate": 2.6844444444444446e-05,
      "loss": 0.1075,
      "step": 19380
    },
    {
      "epoch": 51.70666666666666,
      "grad_norm": 0.46014639735221863,
      "learning_rate": 2.6829629629629633e-05,
      "loss": 0.0917,
      "step": 19390
    },
    {
      "epoch": 51.733333333333334,
      "grad_norm": 1.039361834526062,
      "learning_rate": 2.6814814814814814e-05,
      "loss": 0.1075,
      "step": 19400
    },
    {
      "epoch": 51.76,
      "grad_norm": 1.3970975875854492,
      "learning_rate": 2.6800000000000004e-05,
      "loss": 0.1345,
      "step": 19410
    },
    {
      "epoch": 51.78666666666667,
      "grad_norm": 0.7886126041412354,
      "learning_rate": 2.6785185185185185e-05,
      "loss": 0.1063,
      "step": 19420
    },
    {
      "epoch": 51.81333333333333,
      "grad_norm": 1.1258819103240967,
      "learning_rate": 2.6770370370370372e-05,
      "loss": 0.1116,
      "step": 19430
    },
    {
      "epoch": 51.84,
      "grad_norm": 0.7099321484565735,
      "learning_rate": 2.6755555555555556e-05,
      "loss": 0.1226,
      "step": 19440
    },
    {
      "epoch": 51.86666666666667,
      "grad_norm": 1.0013525485992432,
      "learning_rate": 2.6740740740740743e-05,
      "loss": 0.1155,
      "step": 19450
    },
    {
      "epoch": 51.89333333333333,
      "grad_norm": 0.6939754486083984,
      "learning_rate": 2.6725925925925927e-05,
      "loss": 0.1031,
      "step": 19460
    },
    {
      "epoch": 51.92,
      "grad_norm": 0.8334268927574158,
      "learning_rate": 2.6711111111111115e-05,
      "loss": 0.1038,
      "step": 19470
    },
    {
      "epoch": 51.946666666666665,
      "grad_norm": 0.4391489028930664,
      "learning_rate": 2.66962962962963e-05,
      "loss": 0.0995,
      "step": 19480
    },
    {
      "epoch": 51.973333333333336,
      "grad_norm": 0.42255011200904846,
      "learning_rate": 2.6681481481481486e-05,
      "loss": 0.144,
      "step": 19490
    },
    {
      "epoch": 52.0,
      "grad_norm": 1.1266640424728394,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 0.1409,
      "step": 19500
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.9028333333333334,
      "eval_loss": 0.34650227427482605,
      "eval_runtime": 252.8891,
      "eval_samples_per_second": 47.452,
      "eval_steps_per_second": 1.483,
      "step": 19500
    },
    {
      "epoch": 52.026666666666664,
      "grad_norm": 0.5483550429344177,
      "learning_rate": 2.6651851851851857e-05,
      "loss": 0.0969,
      "step": 19510
    },
    {
      "epoch": 52.053333333333335,
      "grad_norm": 1.0991977453231812,
      "learning_rate": 2.6637037037037038e-05,
      "loss": 0.0967,
      "step": 19520
    },
    {
      "epoch": 52.08,
      "grad_norm": 0.9379845261573792,
      "learning_rate": 2.6622222222222225e-05,
      "loss": 0.1074,
      "step": 19530
    },
    {
      "epoch": 52.10666666666667,
      "grad_norm": 0.8575564026832581,
      "learning_rate": 2.660740740740741e-05,
      "loss": 0.0959,
      "step": 19540
    },
    {
      "epoch": 52.13333333333333,
      "grad_norm": 0.5938505530357361,
      "learning_rate": 2.659259259259259e-05,
      "loss": 0.1003,
      "step": 19550
    },
    {
      "epoch": 52.16,
      "grad_norm": 1.1276493072509766,
      "learning_rate": 2.657777777777778e-05,
      "loss": 0.1133,
      "step": 19560
    },
    {
      "epoch": 52.18666666666667,
      "grad_norm": 0.9531975388526917,
      "learning_rate": 2.656296296296296e-05,
      "loss": 0.1117,
      "step": 19570
    },
    {
      "epoch": 52.21333333333333,
      "grad_norm": 0.6895321607589722,
      "learning_rate": 2.654814814814815e-05,
      "loss": 0.1003,
      "step": 19580
    },
    {
      "epoch": 52.24,
      "grad_norm": 0.6923683285713196,
      "learning_rate": 2.6533333333333332e-05,
      "loss": 0.1107,
      "step": 19590
    },
    {
      "epoch": 52.266666666666666,
      "grad_norm": 0.528456449508667,
      "learning_rate": 2.651851851851852e-05,
      "loss": 0.1122,
      "step": 19600
    },
    {
      "epoch": 52.29333333333334,
      "grad_norm": 0.928973913192749,
      "learning_rate": 2.6503703703703704e-05,
      "loss": 0.1075,
      "step": 19610
    },
    {
      "epoch": 52.32,
      "grad_norm": 1.0252000093460083,
      "learning_rate": 2.648888888888889e-05,
      "loss": 0.0995,
      "step": 19620
    },
    {
      "epoch": 52.346666666666664,
      "grad_norm": 0.5680385231971741,
      "learning_rate": 2.6474074074074075e-05,
      "loss": 0.1277,
      "step": 19630
    },
    {
      "epoch": 52.373333333333335,
      "grad_norm": 0.8542535305023193,
      "learning_rate": 2.6459259259259262e-05,
      "loss": 0.1338,
      "step": 19640
    },
    {
      "epoch": 52.4,
      "grad_norm": 0.9812256097793579,
      "learning_rate": 2.6444444444444443e-05,
      "loss": 0.1118,
      "step": 19650
    },
    {
      "epoch": 52.42666666666667,
      "grad_norm": 0.6184626817703247,
      "learning_rate": 2.6429629629629633e-05,
      "loss": 0.1159,
      "step": 19660
    },
    {
      "epoch": 52.45333333333333,
      "grad_norm": 0.48384109139442444,
      "learning_rate": 2.6414814814814814e-05,
      "loss": 0.1114,
      "step": 19670
    },
    {
      "epoch": 52.48,
      "grad_norm": 1.1777026653289795,
      "learning_rate": 2.64e-05,
      "loss": 0.1325,
      "step": 19680
    },
    {
      "epoch": 52.50666666666667,
      "grad_norm": 0.52642422914505,
      "learning_rate": 2.6385185185185185e-05,
      "loss": 0.1057,
      "step": 19690
    },
    {
      "epoch": 52.53333333333333,
      "grad_norm": 0.5037238001823425,
      "learning_rate": 2.6370370370370373e-05,
      "loss": 0.0968,
      "step": 19700
    },
    {
      "epoch": 52.56,
      "grad_norm": 0.6868501901626587,
      "learning_rate": 2.6355555555555557e-05,
      "loss": 0.1047,
      "step": 19710
    },
    {
      "epoch": 52.586666666666666,
      "grad_norm": 0.7349966168403625,
      "learning_rate": 2.6340740740740744e-05,
      "loss": 0.0965,
      "step": 19720
    },
    {
      "epoch": 52.61333333333333,
      "grad_norm": 1.68825364112854,
      "learning_rate": 2.6325925925925924e-05,
      "loss": 0.1074,
      "step": 19730
    },
    {
      "epoch": 52.64,
      "grad_norm": 0.6620669960975647,
      "learning_rate": 2.6311111111111115e-05,
      "loss": 0.1171,
      "step": 19740
    },
    {
      "epoch": 52.666666666666664,
      "grad_norm": 0.8925554156303406,
      "learning_rate": 2.6296296296296296e-05,
      "loss": 0.1256,
      "step": 19750
    },
    {
      "epoch": 52.693333333333335,
      "grad_norm": 0.8769292831420898,
      "learning_rate": 2.6281481481481483e-05,
      "loss": 0.1198,
      "step": 19760
    },
    {
      "epoch": 52.72,
      "grad_norm": 0.4674606919288635,
      "learning_rate": 2.6266666666666667e-05,
      "loss": 0.0888,
      "step": 19770
    },
    {
      "epoch": 52.74666666666667,
      "grad_norm": 1.0681183338165283,
      "learning_rate": 2.6251851851851854e-05,
      "loss": 0.1151,
      "step": 19780
    },
    {
      "epoch": 52.77333333333333,
      "grad_norm": 0.5794731378555298,
      "learning_rate": 2.623703703703704e-05,
      "loss": 0.0967,
      "step": 19790
    },
    {
      "epoch": 52.8,
      "grad_norm": 0.6610031723976135,
      "learning_rate": 2.6222222222222226e-05,
      "loss": 0.141,
      "step": 19800
    },
    {
      "epoch": 52.82666666666667,
      "grad_norm": 1.003202199935913,
      "learning_rate": 2.620740740740741e-05,
      "loss": 0.1173,
      "step": 19810
    },
    {
      "epoch": 52.85333333333333,
      "grad_norm": 0.5001841187477112,
      "learning_rate": 2.6192592592592597e-05,
      "loss": 0.1005,
      "step": 19820
    },
    {
      "epoch": 52.88,
      "grad_norm": 0.706732451915741,
      "learning_rate": 2.6177777777777777e-05,
      "loss": 0.1149,
      "step": 19830
    },
    {
      "epoch": 52.906666666666666,
      "grad_norm": 0.7133508324623108,
      "learning_rate": 2.6162962962962968e-05,
      "loss": 0.0949,
      "step": 19840
    },
    {
      "epoch": 52.93333333333333,
      "grad_norm": 0.8902855515480042,
      "learning_rate": 2.614814814814815e-05,
      "loss": 0.1344,
      "step": 19850
    },
    {
      "epoch": 52.96,
      "grad_norm": 0.6898523569107056,
      "learning_rate": 2.6133333333333333e-05,
      "loss": 0.1199,
      "step": 19860
    },
    {
      "epoch": 52.986666666666665,
      "grad_norm": 0.9370724558830261,
      "learning_rate": 2.611851851851852e-05,
      "loss": 0.0906,
      "step": 19870
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.9040833333333333,
      "eval_loss": 0.3507191836833954,
      "eval_runtime": 251.3993,
      "eval_samples_per_second": 47.733,
      "eval_steps_per_second": 1.492,
      "step": 19875
    },
    {
      "epoch": 53.013333333333335,
      "grad_norm": 0.6654468178749084,
      "learning_rate": 2.6103703703703704e-05,
      "loss": 0.1057,
      "step": 19880
    },
    {
      "epoch": 53.04,
      "grad_norm": 0.7314413189888,
      "learning_rate": 2.608888888888889e-05,
      "loss": 0.1276,
      "step": 19890
    },
    {
      "epoch": 53.06666666666667,
      "grad_norm": 1.121352195739746,
      "learning_rate": 2.6074074074074072e-05,
      "loss": 0.1237,
      "step": 19900
    },
    {
      "epoch": 53.093333333333334,
      "grad_norm": 0.6047077775001526,
      "learning_rate": 2.6059259259259263e-05,
      "loss": 0.1083,
      "step": 19910
    },
    {
      "epoch": 53.12,
      "grad_norm": 0.7145724296569824,
      "learning_rate": 2.6044444444444443e-05,
      "loss": 0.1382,
      "step": 19920
    },
    {
      "epoch": 53.14666666666667,
      "grad_norm": 0.6806608438491821,
      "learning_rate": 2.602962962962963e-05,
      "loss": 0.1135,
      "step": 19930
    },
    {
      "epoch": 53.17333333333333,
      "grad_norm": 1.2009620666503906,
      "learning_rate": 2.6014814814814814e-05,
      "loss": 0.1385,
      "step": 19940
    },
    {
      "epoch": 53.2,
      "grad_norm": 0.5773588418960571,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 0.0932,
      "step": 19950
    },
    {
      "epoch": 53.22666666666667,
      "grad_norm": 0.661574125289917,
      "learning_rate": 2.5985185185185186e-05,
      "loss": 0.1207,
      "step": 19960
    },
    {
      "epoch": 53.25333333333333,
      "grad_norm": 0.734674334526062,
      "learning_rate": 2.5970370370370373e-05,
      "loss": 0.0981,
      "step": 19970
    },
    {
      "epoch": 53.28,
      "grad_norm": 0.7607903480529785,
      "learning_rate": 2.5955555555555554e-05,
      "loss": 0.0946,
      "step": 19980
    },
    {
      "epoch": 53.306666666666665,
      "grad_norm": 1.0973612070083618,
      "learning_rate": 2.5940740740740744e-05,
      "loss": 0.1232,
      "step": 19990
    },
    {
      "epoch": 53.333333333333336,
      "grad_norm": 0.4742031693458557,
      "learning_rate": 2.5925925925925925e-05,
      "loss": 0.1219,
      "step": 20000
    },
    {
      "epoch": 53.36,
      "grad_norm": 0.7020147442817688,
      "learning_rate": 2.5911111111111112e-05,
      "loss": 0.0946,
      "step": 20010
    },
    {
      "epoch": 53.38666666666666,
      "grad_norm": 0.852869987487793,
      "learning_rate": 2.5896296296296296e-05,
      "loss": 0.101,
      "step": 20020
    },
    {
      "epoch": 53.413333333333334,
      "grad_norm": 0.7520203590393066,
      "learning_rate": 2.5881481481481484e-05,
      "loss": 0.1224,
      "step": 20030
    },
    {
      "epoch": 53.44,
      "grad_norm": 0.5920900106430054,
      "learning_rate": 2.5866666666666667e-05,
      "loss": 0.1082,
      "step": 20040
    },
    {
      "epoch": 53.46666666666667,
      "grad_norm": 0.8343285918235779,
      "learning_rate": 2.5851851851851855e-05,
      "loss": 0.0963,
      "step": 20050
    },
    {
      "epoch": 53.49333333333333,
      "grad_norm": 0.7654612064361572,
      "learning_rate": 2.583703703703704e-05,
      "loss": 0.1089,
      "step": 20060
    },
    {
      "epoch": 53.52,
      "grad_norm": 0.9402092099189758,
      "learning_rate": 2.5822222222222226e-05,
      "loss": 0.1154,
      "step": 20070
    },
    {
      "epoch": 53.54666666666667,
      "grad_norm": 0.8136700391769409,
      "learning_rate": 2.5807407407407407e-05,
      "loss": 0.1232,
      "step": 20080
    },
    {
      "epoch": 53.57333333333333,
      "grad_norm": 0.5199759602546692,
      "learning_rate": 2.5792592592592597e-05,
      "loss": 0.1104,
      "step": 20090
    },
    {
      "epoch": 53.6,
      "grad_norm": 1.010179042816162,
      "learning_rate": 2.5777777777777778e-05,
      "loss": 0.0938,
      "step": 20100
    },
    {
      "epoch": 53.626666666666665,
      "grad_norm": 0.4636317193508148,
      "learning_rate": 2.5762962962962965e-05,
      "loss": 0.1168,
      "step": 20110
    },
    {
      "epoch": 53.653333333333336,
      "grad_norm": 2.01253342628479,
      "learning_rate": 2.574814814814815e-05,
      "loss": 0.1207,
      "step": 20120
    },
    {
      "epoch": 53.68,
      "grad_norm": 0.681442141532898,
      "learning_rate": 2.5733333333333337e-05,
      "loss": 0.1087,
      "step": 20130
    },
    {
      "epoch": 53.70666666666666,
      "grad_norm": 0.6114698648452759,
      "learning_rate": 2.571851851851852e-05,
      "loss": 0.1145,
      "step": 20140
    },
    {
      "epoch": 53.733333333333334,
      "grad_norm": 1.143951177597046,
      "learning_rate": 2.5703703703703708e-05,
      "loss": 0.1181,
      "step": 20150
    },
    {
      "epoch": 53.76,
      "grad_norm": 0.8228276371955872,
      "learning_rate": 2.5688888888888892e-05,
      "loss": 0.1024,
      "step": 20160
    },
    {
      "epoch": 53.78666666666667,
      "grad_norm": 0.6687818169593811,
      "learning_rate": 2.5674074074074072e-05,
      "loss": 0.0995,
      "step": 20170
    },
    {
      "epoch": 53.81333333333333,
      "grad_norm": 0.5723560452461243,
      "learning_rate": 2.565925925925926e-05,
      "loss": 0.11,
      "step": 20180
    },
    {
      "epoch": 53.84,
      "grad_norm": 0.8131089210510254,
      "learning_rate": 2.5644444444444444e-05,
      "loss": 0.1186,
      "step": 20190
    },
    {
      "epoch": 53.86666666666667,
      "grad_norm": 0.9216879606246948,
      "learning_rate": 2.562962962962963e-05,
      "loss": 0.1063,
      "step": 20200
    },
    {
      "epoch": 53.89333333333333,
      "grad_norm": 0.8571296334266663,
      "learning_rate": 2.5614814814814815e-05,
      "loss": 0.1177,
      "step": 20210
    },
    {
      "epoch": 53.92,
      "grad_norm": 0.5185639262199402,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 0.089,
      "step": 20220
    },
    {
      "epoch": 53.946666666666665,
      "grad_norm": 1.7001179456710815,
      "learning_rate": 2.5585185185185183e-05,
      "loss": 0.1163,
      "step": 20230
    },
    {
      "epoch": 53.973333333333336,
      "grad_norm": 0.9040560722351074,
      "learning_rate": 2.5570370370370374e-05,
      "loss": 0.1038,
      "step": 20240
    },
    {
      "epoch": 54.0,
      "grad_norm": 0.9965651035308838,
      "learning_rate": 2.5555555555555554e-05,
      "loss": 0.1137,
      "step": 20250
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.90225,
      "eval_loss": 0.3423898220062256,
      "eval_runtime": 252.2075,
      "eval_samples_per_second": 47.58,
      "eval_steps_per_second": 1.487,
      "step": 20250
    },
    {
      "epoch": 54.026666666666664,
      "grad_norm": 1.1846202611923218,
      "learning_rate": 2.554074074074074e-05,
      "loss": 0.138,
      "step": 20260
    },
    {
      "epoch": 54.053333333333335,
      "grad_norm": 0.7119896411895752,
      "learning_rate": 2.5525925925925925e-05,
      "loss": 0.1104,
      "step": 20270
    },
    {
      "epoch": 54.08,
      "grad_norm": 0.7142273187637329,
      "learning_rate": 2.5511111111111113e-05,
      "loss": 0.0775,
      "step": 20280
    },
    {
      "epoch": 54.10666666666667,
      "grad_norm": 0.4612995684146881,
      "learning_rate": 2.5496296296296297e-05,
      "loss": 0.108,
      "step": 20290
    },
    {
      "epoch": 54.13333333333333,
      "grad_norm": 0.6033573746681213,
      "learning_rate": 2.5481481481481484e-05,
      "loss": 0.1197,
      "step": 20300
    },
    {
      "epoch": 54.16,
      "grad_norm": 0.6175103187561035,
      "learning_rate": 2.5466666666666668e-05,
      "loss": 0.0999,
      "step": 20310
    },
    {
      "epoch": 54.18666666666667,
      "grad_norm": 0.6694178581237793,
      "learning_rate": 2.5451851851851855e-05,
      "loss": 0.1344,
      "step": 20320
    },
    {
      "epoch": 54.21333333333333,
      "grad_norm": 0.47251537442207336,
      "learning_rate": 2.5437037037037036e-05,
      "loss": 0.1198,
      "step": 20330
    },
    {
      "epoch": 54.24,
      "grad_norm": 0.76850825548172,
      "learning_rate": 2.5422222222222227e-05,
      "loss": 0.1274,
      "step": 20340
    },
    {
      "epoch": 54.266666666666666,
      "grad_norm": 1.2185297012329102,
      "learning_rate": 2.5407407407407407e-05,
      "loss": 0.1126,
      "step": 20350
    },
    {
      "epoch": 54.29333333333334,
      "grad_norm": 0.7711465358734131,
      "learning_rate": 2.5392592592592594e-05,
      "loss": 0.1003,
      "step": 20360
    },
    {
      "epoch": 54.32,
      "grad_norm": 0.5719056129455566,
      "learning_rate": 2.537777777777778e-05,
      "loss": 0.1031,
      "step": 20370
    },
    {
      "epoch": 54.346666666666664,
      "grad_norm": 0.6603631973266602,
      "learning_rate": 2.5362962962962966e-05,
      "loss": 0.1084,
      "step": 20380
    },
    {
      "epoch": 54.373333333333335,
      "grad_norm": 0.4617520570755005,
      "learning_rate": 2.534814814814815e-05,
      "loss": 0.0954,
      "step": 20390
    },
    {
      "epoch": 54.4,
      "grad_norm": 0.8691810369491577,
      "learning_rate": 2.5333333333333337e-05,
      "loss": 0.1071,
      "step": 20400
    },
    {
      "epoch": 54.42666666666667,
      "grad_norm": 0.7390445470809937,
      "learning_rate": 2.5318518518518518e-05,
      "loss": 0.1265,
      "step": 20410
    },
    {
      "epoch": 54.45333333333333,
      "grad_norm": 0.3044273555278778,
      "learning_rate": 2.5303703703703708e-05,
      "loss": 0.0977,
      "step": 20420
    },
    {
      "epoch": 54.48,
      "grad_norm": 0.6567471623420715,
      "learning_rate": 2.528888888888889e-05,
      "loss": 0.1105,
      "step": 20430
    },
    {
      "epoch": 54.50666666666667,
      "grad_norm": 0.4924421012401581,
      "learning_rate": 2.5274074074074076e-05,
      "loss": 0.1235,
      "step": 20440
    },
    {
      "epoch": 54.53333333333333,
      "grad_norm": 1.1057689189910889,
      "learning_rate": 2.525925925925926e-05,
      "loss": 0.1104,
      "step": 20450
    },
    {
      "epoch": 54.56,
      "grad_norm": 0.47551071643829346,
      "learning_rate": 2.5244444444444447e-05,
      "loss": 0.1109,
      "step": 20460
    },
    {
      "epoch": 54.586666666666666,
      "grad_norm": 0.5585640668869019,
      "learning_rate": 2.522962962962963e-05,
      "loss": 0.0955,
      "step": 20470
    },
    {
      "epoch": 54.61333333333333,
      "grad_norm": 0.5886541604995728,
      "learning_rate": 2.5214814814814812e-05,
      "loss": 0.1018,
      "step": 20480
    },
    {
      "epoch": 54.64,
      "grad_norm": 0.8945900797843933,
      "learning_rate": 2.5200000000000003e-05,
      "loss": 0.1234,
      "step": 20490
    },
    {
      "epoch": 54.666666666666664,
      "grad_norm": 0.6299301981925964,
      "learning_rate": 2.5185185185185183e-05,
      "loss": 0.1002,
      "step": 20500
    },
    {
      "epoch": 54.693333333333335,
      "grad_norm": 0.8101232647895813,
      "learning_rate": 2.517037037037037e-05,
      "loss": 0.0961,
      "step": 20510
    },
    {
      "epoch": 54.72,
      "grad_norm": 0.8895696401596069,
      "learning_rate": 2.5155555555555555e-05,
      "loss": 0.1002,
      "step": 20520
    },
    {
      "epoch": 54.74666666666667,
      "grad_norm": 0.8636345863342285,
      "learning_rate": 2.5140740740740742e-05,
      "loss": 0.1152,
      "step": 20530
    },
    {
      "epoch": 54.77333333333333,
      "grad_norm": 0.6430239081382751,
      "learning_rate": 2.5125925925925926e-05,
      "loss": 0.0845,
      "step": 20540
    },
    {
      "epoch": 54.8,
      "grad_norm": 0.5371702909469604,
      "learning_rate": 2.5111111111111113e-05,
      "loss": 0.1324,
      "step": 20550
    },
    {
      "epoch": 54.82666666666667,
      "grad_norm": 0.5197726488113403,
      "learning_rate": 2.5096296296296297e-05,
      "loss": 0.1193,
      "step": 20560
    },
    {
      "epoch": 54.85333333333333,
      "grad_norm": 0.5994065999984741,
      "learning_rate": 2.5081481481481484e-05,
      "loss": 0.1087,
      "step": 20570
    },
    {
      "epoch": 54.88,
      "grad_norm": 0.4849262535572052,
      "learning_rate": 2.5066666666666665e-05,
      "loss": 0.1053,
      "step": 20580
    },
    {
      "epoch": 54.906666666666666,
      "grad_norm": 0.6818738579750061,
      "learning_rate": 2.5051851851851856e-05,
      "loss": 0.1273,
      "step": 20590
    },
    {
      "epoch": 54.93333333333333,
      "grad_norm": 0.5953255295753479,
      "learning_rate": 2.5037037037037036e-05,
      "loss": 0.115,
      "step": 20600
    },
    {
      "epoch": 54.96,
      "grad_norm": 0.9372193813323975,
      "learning_rate": 2.5022222222222224e-05,
      "loss": 0.1112,
      "step": 20610
    },
    {
      "epoch": 54.986666666666665,
      "grad_norm": 0.4269486665725708,
      "learning_rate": 2.5007407407407408e-05,
      "loss": 0.0957,
      "step": 20620
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.9009166666666667,
      "eval_loss": 0.3625262975692749,
      "eval_runtime": 253.0709,
      "eval_samples_per_second": 47.418,
      "eval_steps_per_second": 1.482,
      "step": 20625
    },
    {
      "epoch": 55.013333333333335,
      "grad_norm": 0.9814882874488831,
      "learning_rate": 2.499259259259259e-05,
      "loss": 0.1226,
      "step": 20630
    },
    {
      "epoch": 55.04,
      "grad_norm": 0.36696818470954895,
      "learning_rate": 2.497777777777778e-05,
      "loss": 0.0846,
      "step": 20640
    },
    {
      "epoch": 55.06666666666667,
      "grad_norm": 0.815235435962677,
      "learning_rate": 2.4962962962962963e-05,
      "loss": 0.1105,
      "step": 20650
    },
    {
      "epoch": 55.093333333333334,
      "grad_norm": 0.5760468244552612,
      "learning_rate": 2.4948148148148147e-05,
      "loss": 0.1199,
      "step": 20660
    },
    {
      "epoch": 55.12,
      "grad_norm": 0.7937754988670349,
      "learning_rate": 2.4933333333333334e-05,
      "loss": 0.1013,
      "step": 20670
    },
    {
      "epoch": 55.14666666666667,
      "grad_norm": 0.7340512871742249,
      "learning_rate": 2.4918518518518518e-05,
      "loss": 0.1064,
      "step": 20680
    },
    {
      "epoch": 55.17333333333333,
      "grad_norm": 1.0124377012252808,
      "learning_rate": 2.4903703703703705e-05,
      "loss": 0.1315,
      "step": 20690
    },
    {
      "epoch": 55.2,
      "grad_norm": 0.5560145378112793,
      "learning_rate": 2.488888888888889e-05,
      "loss": 0.0997,
      "step": 20700
    },
    {
      "epoch": 55.22666666666667,
      "grad_norm": 0.544284462928772,
      "learning_rate": 2.4874074074074073e-05,
      "loss": 0.0933,
      "step": 20710
    },
    {
      "epoch": 55.25333333333333,
      "grad_norm": 0.7541294693946838,
      "learning_rate": 2.485925925925926e-05,
      "loss": 0.1093,
      "step": 20720
    },
    {
      "epoch": 55.28,
      "grad_norm": 0.6316329836845398,
      "learning_rate": 2.4844444444444444e-05,
      "loss": 0.1007,
      "step": 20730
    },
    {
      "epoch": 55.306666666666665,
      "grad_norm": 0.7037729024887085,
      "learning_rate": 2.4829629629629632e-05,
      "loss": 0.1125,
      "step": 20740
    },
    {
      "epoch": 55.333333333333336,
      "grad_norm": 0.6622397303581238,
      "learning_rate": 2.4814814814814816e-05,
      "loss": 0.1021,
      "step": 20750
    },
    {
      "epoch": 55.36,
      "grad_norm": 0.5579321384429932,
      "learning_rate": 2.48e-05,
      "loss": 0.0864,
      "step": 20760
    },
    {
      "epoch": 55.38666666666666,
      "grad_norm": 0.5158767104148865,
      "learning_rate": 2.4785185185185187e-05,
      "loss": 0.1159,
      "step": 20770
    },
    {
      "epoch": 55.413333333333334,
      "grad_norm": 1.2095023393630981,
      "learning_rate": 2.477037037037037e-05,
      "loss": 0.1125,
      "step": 20780
    },
    {
      "epoch": 55.44,
      "grad_norm": 0.7903284430503845,
      "learning_rate": 2.475555555555556e-05,
      "loss": 0.0962,
      "step": 20790
    },
    {
      "epoch": 55.46666666666667,
      "grad_norm": 0.45998406410217285,
      "learning_rate": 2.4740740740740742e-05,
      "loss": 0.1053,
      "step": 20800
    },
    {
      "epoch": 55.49333333333333,
      "grad_norm": 0.6135699152946472,
      "learning_rate": 2.4725925925925926e-05,
      "loss": 0.1246,
      "step": 20810
    },
    {
      "epoch": 55.52,
      "grad_norm": 0.8106532096862793,
      "learning_rate": 2.4711111111111114e-05,
      "loss": 0.0947,
      "step": 20820
    },
    {
      "epoch": 55.54666666666667,
      "grad_norm": 0.38377055525779724,
      "learning_rate": 2.4696296296296298e-05,
      "loss": 0.1182,
      "step": 20830
    },
    {
      "epoch": 55.57333333333333,
      "grad_norm": 0.7477769255638123,
      "learning_rate": 2.4681481481481485e-05,
      "loss": 0.1061,
      "step": 20840
    },
    {
      "epoch": 55.6,
      "grad_norm": 0.7652304172515869,
      "learning_rate": 2.466666666666667e-05,
      "loss": 0.0896,
      "step": 20850
    },
    {
      "epoch": 55.626666666666665,
      "grad_norm": 0.6366835832595825,
      "learning_rate": 2.4651851851851853e-05,
      "loss": 0.1104,
      "step": 20860
    },
    {
      "epoch": 55.653333333333336,
      "grad_norm": 0.6330248713493347,
      "learning_rate": 2.463703703703704e-05,
      "loss": 0.1211,
      "step": 20870
    },
    {
      "epoch": 55.68,
      "grad_norm": 0.7449114322662354,
      "learning_rate": 2.4622222222222224e-05,
      "loss": 0.1185,
      "step": 20880
    },
    {
      "epoch": 55.70666666666666,
      "grad_norm": 1.0321539640426636,
      "learning_rate": 2.4607407407407408e-05,
      "loss": 0.1119,
      "step": 20890
    },
    {
      "epoch": 55.733333333333334,
      "grad_norm": 0.5899551510810852,
      "learning_rate": 2.4592592592592595e-05,
      "loss": 0.1192,
      "step": 20900
    },
    {
      "epoch": 55.76,
      "grad_norm": 1.1250054836273193,
      "learning_rate": 2.457777777777778e-05,
      "loss": 0.1096,
      "step": 20910
    },
    {
      "epoch": 55.78666666666667,
      "grad_norm": 1.1822185516357422,
      "learning_rate": 2.4562962962962967e-05,
      "loss": 0.1117,
      "step": 20920
    },
    {
      "epoch": 55.81333333333333,
      "grad_norm": 0.3752869665622711,
      "learning_rate": 2.454814814814815e-05,
      "loss": 0.0921,
      "step": 20930
    },
    {
      "epoch": 55.84,
      "grad_norm": 0.7649368643760681,
      "learning_rate": 2.4533333333333334e-05,
      "loss": 0.0851,
      "step": 20940
    },
    {
      "epoch": 55.86666666666667,
      "grad_norm": 0.756144642829895,
      "learning_rate": 2.451851851851852e-05,
      "loss": 0.0889,
      "step": 20950
    },
    {
      "epoch": 55.89333333333333,
      "grad_norm": 1.4061423540115356,
      "learning_rate": 2.4503703703703702e-05,
      "loss": 0.1115,
      "step": 20960
    },
    {
      "epoch": 55.92,
      "grad_norm": 0.8722385764122009,
      "learning_rate": 2.448888888888889e-05,
      "loss": 0.1218,
      "step": 20970
    },
    {
      "epoch": 55.946666666666665,
      "grad_norm": 0.8162955045700073,
      "learning_rate": 2.4474074074074074e-05,
      "loss": 0.1027,
      "step": 20980
    },
    {
      "epoch": 55.973333333333336,
      "grad_norm": 0.6883504986763,
      "learning_rate": 2.445925925925926e-05,
      "loss": 0.1129,
      "step": 20990
    },
    {
      "epoch": 56.0,
      "grad_norm": 0.7958362698554993,
      "learning_rate": 2.4444444444444445e-05,
      "loss": 0.1015,
      "step": 21000
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.9049166666666667,
      "eval_loss": 0.373552531003952,
      "eval_runtime": 251.9389,
      "eval_samples_per_second": 47.631,
      "eval_steps_per_second": 1.488,
      "step": 21000
    },
    {
      "epoch": 56.026666666666664,
      "grad_norm": 0.7372122406959534,
      "learning_rate": 2.442962962962963e-05,
      "loss": 0.1046,
      "step": 21010
    },
    {
      "epoch": 56.053333333333335,
      "grad_norm": 0.5306940078735352,
      "learning_rate": 2.4414814814814816e-05,
      "loss": 0.1133,
      "step": 21020
    },
    {
      "epoch": 56.08,
      "grad_norm": 0.8220292925834656,
      "learning_rate": 2.44e-05,
      "loss": 0.1199,
      "step": 21030
    },
    {
      "epoch": 56.10666666666667,
      "grad_norm": 0.5492140054702759,
      "learning_rate": 2.4385185185185188e-05,
      "loss": 0.1011,
      "step": 21040
    },
    {
      "epoch": 56.13333333333333,
      "grad_norm": 0.6529495716094971,
      "learning_rate": 2.437037037037037e-05,
      "loss": 0.1029,
      "step": 21050
    },
    {
      "epoch": 56.16,
      "grad_norm": 0.766482949256897,
      "learning_rate": 2.4355555555555555e-05,
      "loss": 0.1152,
      "step": 21060
    },
    {
      "epoch": 56.18666666666667,
      "grad_norm": 0.7869422435760498,
      "learning_rate": 2.4340740740740743e-05,
      "loss": 0.1142,
      "step": 21070
    },
    {
      "epoch": 56.21333333333333,
      "grad_norm": 0.8023734092712402,
      "learning_rate": 2.4325925925925927e-05,
      "loss": 0.1122,
      "step": 21080
    },
    {
      "epoch": 56.24,
      "grad_norm": 0.8885458111763,
      "learning_rate": 2.431111111111111e-05,
      "loss": 0.1094,
      "step": 21090
    },
    {
      "epoch": 56.266666666666666,
      "grad_norm": 1.0350416898727417,
      "learning_rate": 2.4296296296296298e-05,
      "loss": 0.1091,
      "step": 21100
    },
    {
      "epoch": 56.29333333333334,
      "grad_norm": 0.9093277454376221,
      "learning_rate": 2.4281481481481482e-05,
      "loss": 0.1216,
      "step": 21110
    },
    {
      "epoch": 56.32,
      "grad_norm": 0.496748149394989,
      "learning_rate": 2.426666666666667e-05,
      "loss": 0.1266,
      "step": 21120
    },
    {
      "epoch": 56.346666666666664,
      "grad_norm": 1.2328885793685913,
      "learning_rate": 2.4251851851851853e-05,
      "loss": 0.0956,
      "step": 21130
    },
    {
      "epoch": 56.373333333333335,
      "grad_norm": 0.6635181307792664,
      "learning_rate": 2.4237037037037037e-05,
      "loss": 0.1135,
      "step": 21140
    },
    {
      "epoch": 56.4,
      "grad_norm": 1.018630862236023,
      "learning_rate": 2.4222222222222224e-05,
      "loss": 0.1163,
      "step": 21150
    },
    {
      "epoch": 56.42666666666667,
      "grad_norm": 0.8815622925758362,
      "learning_rate": 2.420740740740741e-05,
      "loss": 0.0887,
      "step": 21160
    },
    {
      "epoch": 56.45333333333333,
      "grad_norm": 1.0139894485473633,
      "learning_rate": 2.4192592592592596e-05,
      "loss": 0.1231,
      "step": 21170
    },
    {
      "epoch": 56.48,
      "grad_norm": 0.8004248142242432,
      "learning_rate": 2.417777777777778e-05,
      "loss": 0.1148,
      "step": 21180
    },
    {
      "epoch": 56.50666666666667,
      "grad_norm": 0.8550395369529724,
      "learning_rate": 2.4162962962962964e-05,
      "loss": 0.1161,
      "step": 21190
    },
    {
      "epoch": 56.53333333333333,
      "grad_norm": 0.9331701397895813,
      "learning_rate": 2.414814814814815e-05,
      "loss": 0.1044,
      "step": 21200
    },
    {
      "epoch": 56.56,
      "grad_norm": 0.8349881172180176,
      "learning_rate": 2.4133333333333335e-05,
      "loss": 0.1045,
      "step": 21210
    },
    {
      "epoch": 56.586666666666666,
      "grad_norm": 1.2735644578933716,
      "learning_rate": 2.4118518518518522e-05,
      "loss": 0.1169,
      "step": 21220
    },
    {
      "epoch": 56.61333333333333,
      "grad_norm": 0.8714974522590637,
      "learning_rate": 2.4103703703703706e-05,
      "loss": 0.1259,
      "step": 21230
    },
    {
      "epoch": 56.64,
      "grad_norm": 0.5187882781028748,
      "learning_rate": 2.408888888888889e-05,
      "loss": 0.0943,
      "step": 21240
    },
    {
      "epoch": 56.666666666666664,
      "grad_norm": 0.43540939688682556,
      "learning_rate": 2.4074074074074074e-05,
      "loss": 0.0985,
      "step": 21250
    },
    {
      "epoch": 56.693333333333335,
      "grad_norm": 0.4787781536579132,
      "learning_rate": 2.4059259259259258e-05,
      "loss": 0.1128,
      "step": 21260
    },
    {
      "epoch": 56.72,
      "grad_norm": 0.4473596215248108,
      "learning_rate": 2.4044444444444445e-05,
      "loss": 0.1012,
      "step": 21270
    },
    {
      "epoch": 56.74666666666667,
      "grad_norm": 0.32798486948013306,
      "learning_rate": 2.402962962962963e-05,
      "loss": 0.1118,
      "step": 21280
    },
    {
      "epoch": 56.77333333333333,
      "grad_norm": 0.6130265593528748,
      "learning_rate": 2.4014814814814817e-05,
      "loss": 0.0988,
      "step": 21290
    },
    {
      "epoch": 56.8,
      "grad_norm": 0.7345811128616333,
      "learning_rate": 2.4e-05,
      "loss": 0.1095,
      "step": 21300
    },
    {
      "epoch": 56.82666666666667,
      "grad_norm": 0.7747665047645569,
      "learning_rate": 2.3985185185185185e-05,
      "loss": 0.1241,
      "step": 21310
    },
    {
      "epoch": 56.85333333333333,
      "grad_norm": 0.9727655053138733,
      "learning_rate": 2.3970370370370372e-05,
      "loss": 0.1149,
      "step": 21320
    },
    {
      "epoch": 56.88,
      "grad_norm": 1.0749186277389526,
      "learning_rate": 2.3955555555555556e-05,
      "loss": 0.1178,
      "step": 21330
    },
    {
      "epoch": 56.906666666666666,
      "grad_norm": 0.9204607605934143,
      "learning_rate": 2.394074074074074e-05,
      "loss": 0.1114,
      "step": 21340
    },
    {
      "epoch": 56.93333333333333,
      "grad_norm": 0.48743870854377747,
      "learning_rate": 2.3925925925925927e-05,
      "loss": 0.1033,
      "step": 21350
    },
    {
      "epoch": 56.96,
      "grad_norm": 0.4297689199447632,
      "learning_rate": 2.391111111111111e-05,
      "loss": 0.0875,
      "step": 21360
    },
    {
      "epoch": 56.986666666666665,
      "grad_norm": 0.43958503007888794,
      "learning_rate": 2.38962962962963e-05,
      "loss": 0.127,
      "step": 21370
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.90825,
      "eval_loss": 0.33916670083999634,
      "eval_runtime": 251.1053,
      "eval_samples_per_second": 47.789,
      "eval_steps_per_second": 1.493,
      "step": 21375
    },
    {
      "epoch": 57.013333333333335,
      "grad_norm": 0.8018772602081299,
      "learning_rate": 2.3881481481481482e-05,
      "loss": 0.1153,
      "step": 21380
    },
    {
      "epoch": 57.04,
      "grad_norm": 0.6165487170219421,
      "learning_rate": 2.3866666666666666e-05,
      "loss": 0.0808,
      "step": 21390
    },
    {
      "epoch": 57.06666666666667,
      "grad_norm": 0.4442841410636902,
      "learning_rate": 2.3851851851851854e-05,
      "loss": 0.1008,
      "step": 21400
    },
    {
      "epoch": 57.093333333333334,
      "grad_norm": 0.5491738319396973,
      "learning_rate": 2.3837037037037038e-05,
      "loss": 0.1126,
      "step": 21410
    },
    {
      "epoch": 57.12,
      "grad_norm": 0.7244901657104492,
      "learning_rate": 2.3822222222222225e-05,
      "loss": 0.0914,
      "step": 21420
    },
    {
      "epoch": 57.14666666666667,
      "grad_norm": 0.9319353699684143,
      "learning_rate": 2.380740740740741e-05,
      "loss": 0.1071,
      "step": 21430
    },
    {
      "epoch": 57.17333333333333,
      "grad_norm": 0.7370308041572571,
      "learning_rate": 2.3792592592592593e-05,
      "loss": 0.1168,
      "step": 21440
    },
    {
      "epoch": 57.2,
      "grad_norm": 0.975963830947876,
      "learning_rate": 2.377777777777778e-05,
      "loss": 0.121,
      "step": 21450
    },
    {
      "epoch": 57.22666666666667,
      "grad_norm": 0.6367535591125488,
      "learning_rate": 2.3762962962962964e-05,
      "loss": 0.1086,
      "step": 21460
    },
    {
      "epoch": 57.25333333333333,
      "grad_norm": 1.0800801515579224,
      "learning_rate": 2.374814814814815e-05,
      "loss": 0.1012,
      "step": 21470
    },
    {
      "epoch": 57.28,
      "grad_norm": 0.40590035915374756,
      "learning_rate": 2.3733333333333335e-05,
      "loss": 0.0871,
      "step": 21480
    },
    {
      "epoch": 57.306666666666665,
      "grad_norm": 0.8625735640525818,
      "learning_rate": 2.371851851851852e-05,
      "loss": 0.1094,
      "step": 21490
    },
    {
      "epoch": 57.333333333333336,
      "grad_norm": 0.6254645586013794,
      "learning_rate": 2.3703703703703707e-05,
      "loss": 0.1153,
      "step": 21500
    },
    {
      "epoch": 57.36,
      "grad_norm": 0.6897726655006409,
      "learning_rate": 2.368888888888889e-05,
      "loss": 0.106,
      "step": 21510
    },
    {
      "epoch": 57.38666666666666,
      "grad_norm": 0.4901174008846283,
      "learning_rate": 2.3674074074074078e-05,
      "loss": 0.1086,
      "step": 21520
    },
    {
      "epoch": 57.413333333333334,
      "grad_norm": 0.829415500164032,
      "learning_rate": 2.3659259259259262e-05,
      "loss": 0.1254,
      "step": 21530
    },
    {
      "epoch": 57.44,
      "grad_norm": 0.9125663638114929,
      "learning_rate": 2.3644444444444446e-05,
      "loss": 0.1103,
      "step": 21540
    },
    {
      "epoch": 57.46666666666667,
      "grad_norm": 1.0103572607040405,
      "learning_rate": 2.3629629629629633e-05,
      "loss": 0.0958,
      "step": 21550
    },
    {
      "epoch": 57.49333333333333,
      "grad_norm": 0.4855523407459259,
      "learning_rate": 2.3614814814814814e-05,
      "loss": 0.0942,
      "step": 21560
    },
    {
      "epoch": 57.52,
      "grad_norm": 1.4078803062438965,
      "learning_rate": 2.36e-05,
      "loss": 0.1047,
      "step": 21570
    },
    {
      "epoch": 57.54666666666667,
      "grad_norm": 0.7950993180274963,
      "learning_rate": 2.3585185185185185e-05,
      "loss": 0.1213,
      "step": 21580
    },
    {
      "epoch": 57.57333333333333,
      "grad_norm": 1.0884138345718384,
      "learning_rate": 2.357037037037037e-05,
      "loss": 0.0886,
      "step": 21590
    },
    {
      "epoch": 57.6,
      "grad_norm": 1.912618637084961,
      "learning_rate": 2.3555555555555556e-05,
      "loss": 0.1028,
      "step": 21600
    },
    {
      "epoch": 57.626666666666665,
      "grad_norm": 0.9463043808937073,
      "learning_rate": 2.354074074074074e-05,
      "loss": 0.1184,
      "step": 21610
    },
    {
      "epoch": 57.653333333333336,
      "grad_norm": 0.7650777101516724,
      "learning_rate": 2.3525925925925928e-05,
      "loss": 0.1027,
      "step": 21620
    },
    {
      "epoch": 57.68,
      "grad_norm": 0.761574923992157,
      "learning_rate": 2.351111111111111e-05,
      "loss": 0.1105,
      "step": 21630
    },
    {
      "epoch": 57.70666666666666,
      "grad_norm": 0.5409091114997864,
      "learning_rate": 2.3496296296296295e-05,
      "loss": 0.1037,
      "step": 21640
    },
    {
      "epoch": 57.733333333333334,
      "grad_norm": 0.5423007011413574,
      "learning_rate": 2.3481481481481483e-05,
      "loss": 0.1194,
      "step": 21650
    },
    {
      "epoch": 57.76,
      "grad_norm": 0.5755845308303833,
      "learning_rate": 2.3466666666666667e-05,
      "loss": 0.0896,
      "step": 21660
    },
    {
      "epoch": 57.78666666666667,
      "grad_norm": 0.6536055207252502,
      "learning_rate": 2.3451851851851854e-05,
      "loss": 0.1082,
      "step": 21670
    },
    {
      "epoch": 57.81333333333333,
      "grad_norm": 0.37602904438972473,
      "learning_rate": 2.3437037037037038e-05,
      "loss": 0.1076,
      "step": 21680
    },
    {
      "epoch": 57.84,
      "grad_norm": 0.8181330561637878,
      "learning_rate": 2.3422222222222222e-05,
      "loss": 0.0842,
      "step": 21690
    },
    {
      "epoch": 57.86666666666667,
      "grad_norm": 1.4925469160079956,
      "learning_rate": 2.340740740740741e-05,
      "loss": 0.1174,
      "step": 21700
    },
    {
      "epoch": 57.89333333333333,
      "grad_norm": 1.300069808959961,
      "learning_rate": 2.3392592592592593e-05,
      "loss": 0.0963,
      "step": 21710
    },
    {
      "epoch": 57.92,
      "grad_norm": 0.5960765480995178,
      "learning_rate": 2.337777777777778e-05,
      "loss": 0.1059,
      "step": 21720
    },
    {
      "epoch": 57.946666666666665,
      "grad_norm": 0.8465743064880371,
      "learning_rate": 2.3362962962962965e-05,
      "loss": 0.1241,
      "step": 21730
    },
    {
      "epoch": 57.973333333333336,
      "grad_norm": 0.6664037108421326,
      "learning_rate": 2.334814814814815e-05,
      "loss": 0.1216,
      "step": 21740
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.7164819240570068,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 0.1052,
      "step": 21750
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.90375,
      "eval_loss": 0.3561854958534241,
      "eval_runtime": 251.0263,
      "eval_samples_per_second": 47.804,
      "eval_steps_per_second": 1.494,
      "step": 21750
    },
    {
      "epoch": 58.026666666666664,
      "grad_norm": 1.269797682762146,
      "learning_rate": 2.331851851851852e-05,
      "loss": 0.1071,
      "step": 21760
    },
    {
      "epoch": 58.053333333333335,
      "grad_norm": 0.9424992203712463,
      "learning_rate": 2.3303703703703704e-05,
      "loss": 0.107,
      "step": 21770
    },
    {
      "epoch": 58.08,
      "grad_norm": 0.7366050481796265,
      "learning_rate": 2.328888888888889e-05,
      "loss": 0.1296,
      "step": 21780
    },
    {
      "epoch": 58.10666666666667,
      "grad_norm": 0.7592846155166626,
      "learning_rate": 2.3274074074074075e-05,
      "loss": 0.1214,
      "step": 21790
    },
    {
      "epoch": 58.13333333333333,
      "grad_norm": 0.6315038800239563,
      "learning_rate": 2.3259259259259262e-05,
      "loss": 0.1116,
      "step": 21800
    },
    {
      "epoch": 58.16,
      "grad_norm": 0.4826793968677521,
      "learning_rate": 2.3244444444444446e-05,
      "loss": 0.1049,
      "step": 21810
    },
    {
      "epoch": 58.18666666666667,
      "grad_norm": 0.7681486010551453,
      "learning_rate": 2.322962962962963e-05,
      "loss": 0.1219,
      "step": 21820
    },
    {
      "epoch": 58.21333333333333,
      "grad_norm": 1.0546191930770874,
      "learning_rate": 2.3214814814814818e-05,
      "loss": 0.1191,
      "step": 21830
    },
    {
      "epoch": 58.24,
      "grad_norm": 0.7406566739082336,
      "learning_rate": 2.32e-05,
      "loss": 0.1194,
      "step": 21840
    },
    {
      "epoch": 58.266666666666666,
      "grad_norm": 0.7936819791793823,
      "learning_rate": 2.318518518518519e-05,
      "loss": 0.086,
      "step": 21850
    },
    {
      "epoch": 58.29333333333334,
      "grad_norm": 0.8432274460792542,
      "learning_rate": 2.3170370370370373e-05,
      "loss": 0.1074,
      "step": 21860
    },
    {
      "epoch": 58.32,
      "grad_norm": 0.7144952416419983,
      "learning_rate": 2.3155555555555557e-05,
      "loss": 0.1269,
      "step": 21870
    },
    {
      "epoch": 58.346666666666664,
      "grad_norm": 0.57988041639328,
      "learning_rate": 2.314074074074074e-05,
      "loss": 0.0962,
      "step": 21880
    },
    {
      "epoch": 58.373333333333335,
      "grad_norm": 0.7650472521781921,
      "learning_rate": 2.3125925925925925e-05,
      "loss": 0.1084,
      "step": 21890
    },
    {
      "epoch": 58.4,
      "grad_norm": 0.7300851941108704,
      "learning_rate": 2.3111111111111112e-05,
      "loss": 0.1245,
      "step": 21900
    },
    {
      "epoch": 58.42666666666667,
      "grad_norm": 0.6340977549552917,
      "learning_rate": 2.3096296296296296e-05,
      "loss": 0.1049,
      "step": 21910
    },
    {
      "epoch": 58.45333333333333,
      "grad_norm": 0.5822761654853821,
      "learning_rate": 2.3081481481481483e-05,
      "loss": 0.0815,
      "step": 21920
    },
    {
      "epoch": 58.48,
      "grad_norm": 0.6962836980819702,
      "learning_rate": 2.3066666666666667e-05,
      "loss": 0.0973,
      "step": 21930
    },
    {
      "epoch": 58.50666666666667,
      "grad_norm": 0.6490551233291626,
      "learning_rate": 2.305185185185185e-05,
      "loss": 0.1187,
      "step": 21940
    },
    {
      "epoch": 58.53333333333333,
      "grad_norm": 1.0636241436004639,
      "learning_rate": 2.303703703703704e-05,
      "loss": 0.0904,
      "step": 21950
    },
    {
      "epoch": 58.56,
      "grad_norm": 0.7011326551437378,
      "learning_rate": 2.3022222222222222e-05,
      "loss": 0.1191,
      "step": 21960
    },
    {
      "epoch": 58.586666666666666,
      "grad_norm": 0.6702389717102051,
      "learning_rate": 2.300740740740741e-05,
      "loss": 0.1114,
      "step": 21970
    },
    {
      "epoch": 58.61333333333333,
      "grad_norm": 0.5666784048080444,
      "learning_rate": 2.2992592592592594e-05,
      "loss": 0.0874,
      "step": 21980
    },
    {
      "epoch": 58.64,
      "grad_norm": 0.6011951565742493,
      "learning_rate": 2.2977777777777778e-05,
      "loss": 0.0776,
      "step": 21990
    },
    {
      "epoch": 58.666666666666664,
      "grad_norm": 0.7326487898826599,
      "learning_rate": 2.2962962962962965e-05,
      "loss": 0.1042,
      "step": 22000
    },
    {
      "epoch": 58.693333333333335,
      "grad_norm": 0.9952179193496704,
      "learning_rate": 2.294814814814815e-05,
      "loss": 0.1088,
      "step": 22010
    },
    {
      "epoch": 58.72,
      "grad_norm": 0.7761932015419006,
      "learning_rate": 2.2933333333333333e-05,
      "loss": 0.0942,
      "step": 22020
    },
    {
      "epoch": 58.74666666666667,
      "grad_norm": 0.5672218203544617,
      "learning_rate": 2.291851851851852e-05,
      "loss": 0.0995,
      "step": 22030
    },
    {
      "epoch": 58.77333333333333,
      "grad_norm": 0.3637765347957611,
      "learning_rate": 2.2903703703703704e-05,
      "loss": 0.1052,
      "step": 22040
    },
    {
      "epoch": 58.8,
      "grad_norm": 0.8737623691558838,
      "learning_rate": 2.288888888888889e-05,
      "loss": 0.1059,
      "step": 22050
    },
    {
      "epoch": 58.82666666666667,
      "grad_norm": 0.7890958786010742,
      "learning_rate": 2.2874074074074075e-05,
      "loss": 0.1115,
      "step": 22060
    },
    {
      "epoch": 58.85333333333333,
      "grad_norm": 0.9339655637741089,
      "learning_rate": 2.285925925925926e-05,
      "loss": 0.1069,
      "step": 22070
    },
    {
      "epoch": 58.88,
      "grad_norm": 0.8260341882705688,
      "learning_rate": 2.2844444444444447e-05,
      "loss": 0.1083,
      "step": 22080
    },
    {
      "epoch": 58.906666666666666,
      "grad_norm": 0.9457599520683289,
      "learning_rate": 2.282962962962963e-05,
      "loss": 0.107,
      "step": 22090
    },
    {
      "epoch": 58.93333333333333,
      "grad_norm": 0.6401690244674683,
      "learning_rate": 2.2814814814814818e-05,
      "loss": 0.0843,
      "step": 22100
    },
    {
      "epoch": 58.96,
      "grad_norm": 0.8054176568984985,
      "learning_rate": 2.2800000000000002e-05,
      "loss": 0.1149,
      "step": 22110
    },
    {
      "epoch": 58.986666666666665,
      "grad_norm": 0.5587853193283081,
      "learning_rate": 2.2785185185185186e-05,
      "loss": 0.1341,
      "step": 22120
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.9050833333333334,
      "eval_loss": 0.3501264750957489,
      "eval_runtime": 252.9226,
      "eval_samples_per_second": 47.445,
      "eval_steps_per_second": 1.483,
      "step": 22125
    },
    {
      "epoch": 59.013333333333335,
      "grad_norm": 0.6033284068107605,
      "learning_rate": 2.2770370370370373e-05,
      "loss": 0.1009,
      "step": 22130
    },
    {
      "epoch": 59.04,
      "grad_norm": 0.6120572686195374,
      "learning_rate": 2.2755555555555557e-05,
      "loss": 0.1015,
      "step": 22140
    },
    {
      "epoch": 59.06666666666667,
      "grad_norm": 0.6673848032951355,
      "learning_rate": 2.2740740740740744e-05,
      "loss": 0.1075,
      "step": 22150
    },
    {
      "epoch": 59.093333333333334,
      "grad_norm": 0.8071389198303223,
      "learning_rate": 2.272592592592593e-05,
      "loss": 0.0947,
      "step": 22160
    },
    {
      "epoch": 59.12,
      "grad_norm": 0.9277157187461853,
      "learning_rate": 2.2711111111111112e-05,
      "loss": 0.1048,
      "step": 22170
    },
    {
      "epoch": 59.14666666666667,
      "grad_norm": 0.4567291736602783,
      "learning_rate": 2.2696296296296296e-05,
      "loss": 0.116,
      "step": 22180
    },
    {
      "epoch": 59.17333333333333,
      "grad_norm": 0.644817590713501,
      "learning_rate": 2.268148148148148e-05,
      "loss": 0.089,
      "step": 22190
    },
    {
      "epoch": 59.2,
      "grad_norm": 0.9096694588661194,
      "learning_rate": 2.2666666666666668e-05,
      "loss": 0.0937,
      "step": 22200
    },
    {
      "epoch": 59.22666666666667,
      "grad_norm": 0.8013559579849243,
      "learning_rate": 2.265185185185185e-05,
      "loss": 0.1091,
      "step": 22210
    },
    {
      "epoch": 59.25333333333333,
      "grad_norm": 0.7758790850639343,
      "learning_rate": 2.2637037037037036e-05,
      "loss": 0.128,
      "step": 22220
    },
    {
      "epoch": 59.28,
      "grad_norm": 0.7872348427772522,
      "learning_rate": 2.2622222222222223e-05,
      "loss": 0.1144,
      "step": 22230
    },
    {
      "epoch": 59.306666666666665,
      "grad_norm": 0.7660977840423584,
      "learning_rate": 2.2607407407407407e-05,
      "loss": 0.0834,
      "step": 22240
    },
    {
      "epoch": 59.333333333333336,
      "grad_norm": 0.6157160401344299,
      "learning_rate": 2.2592592592592594e-05,
      "loss": 0.0985,
      "step": 22250
    },
    {
      "epoch": 59.36,
      "grad_norm": 0.38788917660713196,
      "learning_rate": 2.2577777777777778e-05,
      "loss": 0.0912,
      "step": 22260
    },
    {
      "epoch": 59.38666666666666,
      "grad_norm": 0.7269772291183472,
      "learning_rate": 2.2562962962962962e-05,
      "loss": 0.0865,
      "step": 22270
    },
    {
      "epoch": 59.413333333333334,
      "grad_norm": 0.5136067271232605,
      "learning_rate": 2.254814814814815e-05,
      "loss": 0.1053,
      "step": 22280
    },
    {
      "epoch": 59.44,
      "grad_norm": 0.7449811697006226,
      "learning_rate": 2.2533333333333333e-05,
      "loss": 0.1007,
      "step": 22290
    },
    {
      "epoch": 59.46666666666667,
      "grad_norm": 0.6225616335868835,
      "learning_rate": 2.251851851851852e-05,
      "loss": 0.0865,
      "step": 22300
    },
    {
      "epoch": 59.49333333333333,
      "grad_norm": 0.7305272817611694,
      "learning_rate": 2.2503703703703705e-05,
      "loss": 0.0952,
      "step": 22310
    },
    {
      "epoch": 59.52,
      "grad_norm": 0.7931828498840332,
      "learning_rate": 2.248888888888889e-05,
      "loss": 0.1318,
      "step": 22320
    },
    {
      "epoch": 59.54666666666667,
      "grad_norm": 0.6465429663658142,
      "learning_rate": 2.2474074074074076e-05,
      "loss": 0.1057,
      "step": 22330
    },
    {
      "epoch": 59.57333333333333,
      "grad_norm": 0.5452882051467896,
      "learning_rate": 2.245925925925926e-05,
      "loss": 0.1026,
      "step": 22340
    },
    {
      "epoch": 59.6,
      "grad_norm": 0.6973422765731812,
      "learning_rate": 2.2444444444444447e-05,
      "loss": 0.1102,
      "step": 22350
    },
    {
      "epoch": 59.626666666666665,
      "grad_norm": 0.6449379920959473,
      "learning_rate": 2.242962962962963e-05,
      "loss": 0.1105,
      "step": 22360
    },
    {
      "epoch": 59.653333333333336,
      "grad_norm": 0.6876383423805237,
      "learning_rate": 2.2414814814814815e-05,
      "loss": 0.1288,
      "step": 22370
    },
    {
      "epoch": 59.68,
      "grad_norm": 0.8773509860038757,
      "learning_rate": 2.2400000000000002e-05,
      "loss": 0.0968,
      "step": 22380
    },
    {
      "epoch": 59.70666666666666,
      "grad_norm": 0.9409114718437195,
      "learning_rate": 2.2385185185185186e-05,
      "loss": 0.0983,
      "step": 22390
    },
    {
      "epoch": 59.733333333333334,
      "grad_norm": 0.6347073316574097,
      "learning_rate": 2.2370370370370374e-05,
      "loss": 0.1042,
      "step": 22400
    },
    {
      "epoch": 59.76,
      "grad_norm": 0.3518627882003784,
      "learning_rate": 2.2355555555555558e-05,
      "loss": 0.1072,
      "step": 22410
    },
    {
      "epoch": 59.78666666666667,
      "grad_norm": 1.0639209747314453,
      "learning_rate": 2.234074074074074e-05,
      "loss": 0.1204,
      "step": 22420
    },
    {
      "epoch": 59.81333333333333,
      "grad_norm": 0.6734100580215454,
      "learning_rate": 2.232592592592593e-05,
      "loss": 0.1024,
      "step": 22430
    },
    {
      "epoch": 59.84,
      "grad_norm": 0.6965450048446655,
      "learning_rate": 2.2311111111111113e-05,
      "loss": 0.1261,
      "step": 22440
    },
    {
      "epoch": 59.86666666666667,
      "grad_norm": 0.5725679397583008,
      "learning_rate": 2.2296296296296297e-05,
      "loss": 0.1025,
      "step": 22450
    },
    {
      "epoch": 59.89333333333333,
      "grad_norm": 0.5571090579032898,
      "learning_rate": 2.2281481481481484e-05,
      "loss": 0.0912,
      "step": 22460
    },
    {
      "epoch": 59.92,
      "grad_norm": 0.6965648531913757,
      "learning_rate": 2.2266666666666668e-05,
      "loss": 0.0803,
      "step": 22470
    },
    {
      "epoch": 59.946666666666665,
      "grad_norm": 0.6672995686531067,
      "learning_rate": 2.2251851851851855e-05,
      "loss": 0.1214,
      "step": 22480
    },
    {
      "epoch": 59.973333333333336,
      "grad_norm": 0.6836172938346863,
      "learning_rate": 2.2237037037037036e-05,
      "loss": 0.0836,
      "step": 22490
    },
    {
      "epoch": 60.0,
      "grad_norm": 0.9594629406929016,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 0.0942,
      "step": 22500
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.9,
      "eval_loss": 0.38503962755203247,
      "eval_runtime": 253.7084,
      "eval_samples_per_second": 47.298,
      "eval_steps_per_second": 1.478,
      "step": 22500
    }
  ],
  "logging_steps": 10,
  "max_steps": 37500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "total_flos": 1.6407306791092224e+21,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}