{
  "best_metric": 0.8434039950370789,
  "best_model_checkpoint": "autotrain-5um8a-sa81u/checkpoint-7500",
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 7500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 3.13798189163208,
      "learning_rate": 1.1111111111111112e-06,
      "loss": 2.2931,
      "step": 25
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 3.3599817752838135,
      "learning_rate": 2.2222222222222225e-06,
      "loss": 2.2796,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.9536943435668945,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 2.2502,
      "step": 75
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 3.538480281829834,
      "learning_rate": 4.444444444444445e-06,
      "loss": 2.189,
      "step": 100
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 3.384152889251709,
      "learning_rate": 5.555555555555556e-06,
      "loss": 2.1509,
      "step": 125
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.4334306716918945,
      "learning_rate": 6.666666666666667e-06,
      "loss": 2.0535,
      "step": 150
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 4.605741500854492,
      "learning_rate": 7.777777777777777e-06,
      "loss": 1.875,
      "step": 175
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 5.930888652801514,
      "learning_rate": 8.88888888888889e-06,
      "loss": 1.7946,
      "step": 200
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.181428909301758,
      "learning_rate": 1e-05,
      "loss": 1.6376,
      "step": 225
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 7.74509334564209,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 1.5804,
      "step": 250
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 4.1855669021606445,
      "learning_rate": 1.2177777777777778e-05,
      "loss": 1.5385,
      "step": 275
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.815659999847412,
      "learning_rate": 1.328888888888889e-05,
      "loss": 1.4515,
      "step": 300
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 7.293570041656494,
      "learning_rate": 1.44e-05,
      "loss": 1.4399,
      "step": 325
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 9.302970886230469,
      "learning_rate": 1.5511111111111114e-05,
      "loss": 1.4602,
      "step": 350
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.114165782928467,
      "learning_rate": 1.6622222222222223e-05,
      "loss": 1.3399,
      "step": 375
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 10.503884315490723,
      "learning_rate": 1.768888888888889e-05,
      "loss": 1.2846,
      "step": 400
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 6.395691871643066,
      "learning_rate": 1.88e-05,
      "loss": 1.178,
      "step": 425
    },
    {
      "epoch": 0.12,
      "grad_norm": 7.209555625915527,
      "learning_rate": 1.9911111111111112e-05,
      "loss": 1.1698,
      "step": 450
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 7.22865629196167,
      "learning_rate": 2.1022222222222225e-05,
      "loss": 1.1631,
      "step": 475
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 8.306069374084473,
      "learning_rate": 2.2133333333333334e-05,
      "loss": 1.1196,
      "step": 500
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.044536590576172,
      "learning_rate": 2.3244444444444446e-05,
      "loss": 1.0854,
      "step": 525
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 8.39782428741455,
      "learning_rate": 2.4355555555555555e-05,
      "loss": 1.1724,
      "step": 550
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 7.276834011077881,
      "learning_rate": 2.5466666666666668e-05,
      "loss": 1.2506,
      "step": 575
    },
    {
      "epoch": 0.16,
      "grad_norm": 6.928461074829102,
      "learning_rate": 2.657777777777778e-05,
      "loss": 1.0995,
      "step": 600
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 5.020209789276123,
      "learning_rate": 2.7688888888888893e-05,
      "loss": 1.0529,
      "step": 625
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 4.41862154006958,
      "learning_rate": 2.8755555555555557e-05,
      "loss": 1.1523,
      "step": 650
    },
    {
      "epoch": 0.18,
      "grad_norm": 17.745071411132812,
      "learning_rate": 2.986666666666667e-05,
      "loss": 1.1962,
      "step": 675
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 5.518793106079102,
      "learning_rate": 3.0977777777777776e-05,
      "loss": 1.0913,
      "step": 700
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 10.203434944152832,
      "learning_rate": 3.208888888888889e-05,
      "loss": 1.108,
      "step": 725
    },
    {
      "epoch": 0.2,
      "grad_norm": 6.468237400054932,
      "learning_rate": 3.32e-05,
      "loss": 1.0822,
      "step": 750
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 6.182399272918701,
      "learning_rate": 3.431111111111111e-05,
      "loss": 1.1224,
      "step": 775
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 9.415875434875488,
      "learning_rate": 3.5422222222222226e-05,
      "loss": 0.9095,
      "step": 800
    },
    {
      "epoch": 0.22,
      "grad_norm": 17.09987449645996,
      "learning_rate": 3.653333333333334e-05,
      "loss": 1.1613,
      "step": 825
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 8.294900894165039,
      "learning_rate": 3.764444444444445e-05,
      "loss": 1.0934,
      "step": 850
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 13.019417762756348,
      "learning_rate": 3.8755555555555556e-05,
      "loss": 1.0647,
      "step": 875
    },
    {
      "epoch": 0.24,
      "grad_norm": 10.864327430725098,
      "learning_rate": 3.986666666666667e-05,
      "loss": 1.0718,
      "step": 900
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 9.016544342041016,
      "learning_rate": 4.097777777777778e-05,
      "loss": 0.9817,
      "step": 925
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 5.4241485595703125,
      "learning_rate": 4.208888888888889e-05,
      "loss": 1.003,
      "step": 950
    },
    {
      "epoch": 0.26,
      "grad_norm": 10.213274955749512,
      "learning_rate": 4.32e-05,
      "loss": 1.0223,
      "step": 975
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 15.214512825012207,
      "learning_rate": 4.431111111111111e-05,
      "loss": 1.0648,
      "step": 1000
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 3.9258694648742676,
      "learning_rate": 4.5422222222222225e-05,
      "loss": 0.9985,
      "step": 1025
    },
    {
      "epoch": 0.28,
      "grad_norm": 7.457239151000977,
      "learning_rate": 4.653333333333334e-05,
      "loss": 1.117,
      "step": 1050
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 12.809249877929688,
      "learning_rate": 4.764444444444445e-05,
      "loss": 1.0538,
      "step": 1075
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 18.092700958251953,
      "learning_rate": 4.875555555555556e-05,
      "loss": 1.0866,
      "step": 1100
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.2002458572387695,
      "learning_rate": 4.986666666666667e-05,
      "loss": 0.9351,
      "step": 1125
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 9.016805648803711,
      "learning_rate": 4.9891358024691356e-05,
      "loss": 0.8765,
      "step": 1150
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 8.664179801940918,
      "learning_rate": 4.9767901234567903e-05,
      "loss": 1.1023,
      "step": 1175
    },
    {
      "epoch": 0.32,
      "grad_norm": 11.132316589355469,
      "learning_rate": 4.964444444444445e-05,
      "loss": 0.9903,
      "step": 1200
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 10.408929824829102,
      "learning_rate": 4.9520987654320985e-05,
      "loss": 0.9008,
      "step": 1225
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 15.614274978637695,
      "learning_rate": 4.939753086419753e-05,
      "loss": 1.002,
      "step": 1250
    },
    {
      "epoch": 0.34,
      "grad_norm": 11.449036598205566,
      "learning_rate": 4.927407407407408e-05,
      "loss": 0.959,
      "step": 1275
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 5.918100357055664,
      "learning_rate": 4.9150617283950614e-05,
      "loss": 0.9706,
      "step": 1300
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 6.706690788269043,
      "learning_rate": 4.902716049382716e-05,
      "loss": 0.9262,
      "step": 1325
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.575336456298828,
      "learning_rate": 4.890370370370371e-05,
      "loss": 1.0084,
      "step": 1350
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 12.109813690185547,
      "learning_rate": 4.878024691358025e-05,
      "loss": 1.0407,
      "step": 1375
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 11.848983764648438,
      "learning_rate": 4.865679012345679e-05,
      "loss": 0.9616,
      "step": 1400
    },
    {
      "epoch": 0.38,
      "grad_norm": 11.87781047821045,
      "learning_rate": 4.853333333333334e-05,
      "loss": 1.0143,
      "step": 1425
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 8.980938911437988,
      "learning_rate": 4.840987654320988e-05,
      "loss": 0.9217,
      "step": 1450
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 8.561235427856445,
      "learning_rate": 4.828641975308642e-05,
      "loss": 1.1442,
      "step": 1475
    },
    {
      "epoch": 0.4,
      "grad_norm": 9.980470657348633,
      "learning_rate": 4.816296296296297e-05,
      "loss": 1.0186,
      "step": 1500
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 7.693286418914795,
      "learning_rate": 4.803950617283951e-05,
      "loss": 0.9953,
      "step": 1525
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 5.39948034286499,
      "learning_rate": 4.791604938271605e-05,
      "loss": 0.9544,
      "step": 1550
    },
    {
      "epoch": 0.42,
      "grad_norm": 7.7968549728393555,
      "learning_rate": 4.77925925925926e-05,
      "loss": 0.898,
      "step": 1575
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 3.694169044494629,
      "learning_rate": 4.766913580246914e-05,
      "loss": 1.0325,
      "step": 1600
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 10.049742698669434,
      "learning_rate": 4.754567901234568e-05,
      "loss": 0.9118,
      "step": 1625
    },
    {
      "epoch": 0.44,
      "grad_norm": 13.797918319702148,
      "learning_rate": 4.7422222222222226e-05,
      "loss": 0.9135,
      "step": 1650
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 7.2649688720703125,
      "learning_rate": 4.729876543209877e-05,
      "loss": 1.0054,
      "step": 1675
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 5.670660018920898,
      "learning_rate": 4.7175308641975314e-05,
      "loss": 0.9929,
      "step": 1700
    },
    {
      "epoch": 0.46,
      "grad_norm": 10.087015151977539,
      "learning_rate": 4.7051851851851855e-05,
      "loss": 1.1383,
      "step": 1725
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 6.2626800537109375,
      "learning_rate": 4.6928395061728396e-05,
      "loss": 1.1386,
      "step": 1750
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 11.429990768432617,
      "learning_rate": 4.6804938271604943e-05,
      "loss": 0.9042,
      "step": 1775
    },
    {
      "epoch": 0.48,
      "grad_norm": 6.389810085296631,
      "learning_rate": 4.6681481481481484e-05,
      "loss": 0.9631,
      "step": 1800
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 8.779641151428223,
      "learning_rate": 4.6558024691358025e-05,
      "loss": 1.1042,
      "step": 1825
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 8.273574829101562,
      "learning_rate": 4.643456790123457e-05,
      "loss": 0.9551,
      "step": 1850
    },
    {
      "epoch": 0.5,
      "grad_norm": 7.0266194343566895,
      "learning_rate": 4.6311111111111113e-05,
      "loss": 0.9846,
      "step": 1875
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 8.741957664489746,
      "learning_rate": 4.6187654320987654e-05,
      "loss": 1.0969,
      "step": 1900
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 17.768611907958984,
      "learning_rate": 4.60641975308642e-05,
      "loss": 0.844,
      "step": 1925
    },
    {
      "epoch": 0.52,
      "grad_norm": 9.893391609191895,
      "learning_rate": 4.594074074074074e-05,
      "loss": 0.9731,
      "step": 1950
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 5.22994327545166,
      "learning_rate": 4.5817283950617283e-05,
      "loss": 0.8226,
      "step": 1975
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 13.81772232055664,
      "learning_rate": 4.569382716049383e-05,
      "loss": 0.8015,
      "step": 2000
    },
    {
      "epoch": 0.54,
      "grad_norm": 5.9889302253723145,
      "learning_rate": 4.557037037037037e-05,
      "loss": 0.9881,
      "step": 2025
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 7.382312774658203,
      "learning_rate": 4.544691358024691e-05,
      "loss": 1.0753,
      "step": 2050
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 13.38068962097168,
      "learning_rate": 4.532345679012346e-05,
      "loss": 0.8732,
      "step": 2075
    },
    {
      "epoch": 0.56,
      "grad_norm": 18.700225830078125,
      "learning_rate": 4.52e-05,
      "loss": 0.9685,
      "step": 2100
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 9.365460395812988,
      "learning_rate": 4.507654320987654e-05,
      "loss": 1.0779,
      "step": 2125
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 8.056510925292969,
      "learning_rate": 4.495308641975309e-05,
      "loss": 0.9673,
      "step": 2150
    },
    {
      "epoch": 0.58,
      "grad_norm": 7.804261684417725,
      "learning_rate": 4.482962962962963e-05,
      "loss": 0.9461,
      "step": 2175
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 4.484943866729736,
      "learning_rate": 4.470617283950618e-05,
      "loss": 0.9341,
      "step": 2200
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 7.764664173126221,
      "learning_rate": 4.458271604938272e-05,
      "loss": 0.8104,
      "step": 2225
    },
    {
      "epoch": 0.6,
      "grad_norm": 6.613196849822998,
      "learning_rate": 4.44641975308642e-05,
      "loss": 1.0037,
      "step": 2250
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 5.951300144195557,
      "learning_rate": 4.4340740740740744e-05,
      "loss": 0.9785,
      "step": 2275
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 4.876894474029541,
      "learning_rate": 4.421728395061729e-05,
      "loss": 0.9276,
      "step": 2300
    },
    {
      "epoch": 0.62,
      "grad_norm": 9.433537483215332,
      "learning_rate": 4.4093827160493826e-05,
      "loss": 1.0004,
      "step": 2325
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 10.541296005249023,
      "learning_rate": 4.3970370370370374e-05,
      "loss": 1.0609,
      "step": 2350
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 6.446004390716553,
      "learning_rate": 4.384691358024692e-05,
      "loss": 0.9926,
      "step": 2375
    },
    {
      "epoch": 0.64,
      "grad_norm": 8.850340843200684,
      "learning_rate": 4.3723456790123455e-05,
      "loss": 0.9382,
      "step": 2400
    },
    {
      "epoch": 0.6466666666666666,
      "grad_norm": 6.004384517669678,
      "learning_rate": 4.36e-05,
      "loss": 1.1173,
      "step": 2425
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 10.950887680053711,
      "learning_rate": 4.3476543209876543e-05,
      "loss": 0.8673,
      "step": 2450
    },
    {
      "epoch": 0.66,
      "grad_norm": 5.736955642700195,
      "learning_rate": 4.3353086419753084e-05,
      "loss": 0.9869,
      "step": 2475
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 9.545438766479492,
      "learning_rate": 4.322962962962963e-05,
      "loss": 1.0109,
      "step": 2500
    },
    {
      "epoch": 0.6733333333333333,
      "grad_norm": 14.54963207244873,
      "learning_rate": 4.310617283950617e-05,
      "loss": 0.8774,
      "step": 2525
    },
    {
      "epoch": 0.68,
      "grad_norm": 6.30457067489624,
      "learning_rate": 4.298271604938272e-05,
      "loss": 0.8801,
      "step": 2550
    },
    {
      "epoch": 0.6866666666666666,
      "grad_norm": 6.858036041259766,
      "learning_rate": 4.285925925925926e-05,
      "loss": 0.727,
      "step": 2575
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 5.082749366760254,
      "learning_rate": 4.27358024691358e-05,
      "loss": 0.9237,
      "step": 2600
    },
    {
      "epoch": 0.7,
      "grad_norm": 7.5763936042785645,
      "learning_rate": 4.261234567901235e-05,
      "loss": 0.8342,
      "step": 2625
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 8.811793327331543,
      "learning_rate": 4.248888888888889e-05,
      "loss": 1.0076,
      "step": 2650
    },
    {
      "epoch": 0.7133333333333334,
      "grad_norm": 13.048144340515137,
      "learning_rate": 4.236543209876543e-05,
      "loss": 0.9556,
      "step": 2675
    },
    {
      "epoch": 0.72,
      "grad_norm": 11.870134353637695,
      "learning_rate": 4.224197530864198e-05,
      "loss": 1.0028,
      "step": 2700
    },
    {
      "epoch": 0.7266666666666667,
      "grad_norm": 12.326855659484863,
      "learning_rate": 4.211851851851852e-05,
      "loss": 0.8794,
      "step": 2725
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 7.567747116088867,
      "learning_rate": 4.199506172839506e-05,
      "loss": 0.8812,
      "step": 2750
    },
    {
      "epoch": 0.74,
      "grad_norm": 6.114919185638428,
      "learning_rate": 4.187160493827161e-05,
      "loss": 0.8974,
      "step": 2775
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 16.97509765625,
      "learning_rate": 4.1748148148148155e-05,
      "loss": 0.8895,
      "step": 2800
    },
    {
      "epoch": 0.7533333333333333,
      "grad_norm": 9.177389144897461,
      "learning_rate": 4.162469135802469e-05,
      "loss": 0.7692,
      "step": 2825
    },
    {
      "epoch": 0.76,
      "grad_norm": 7.463740348815918,
      "learning_rate": 4.150123456790124e-05,
      "loss": 0.9168,
      "step": 2850
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 8.774567604064941,
      "learning_rate": 4.1377777777777784e-05,
      "loss": 0.8709,
      "step": 2875
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 7.635562419891357,
      "learning_rate": 4.125432098765432e-05,
      "loss": 1.059,
      "step": 2900
    },
    {
      "epoch": 0.78,
      "grad_norm": 5.951021671295166,
      "learning_rate": 4.1130864197530866e-05,
      "loss": 0.7637,
      "step": 2925
    },
    {
      "epoch": 0.7866666666666666,
      "grad_norm": 9.935166358947754,
      "learning_rate": 4.1007407407407414e-05,
      "loss": 0.9919,
      "step": 2950
    },
    {
      "epoch": 0.7933333333333333,
      "grad_norm": 5.804830074310303,
      "learning_rate": 4.088395061728395e-05,
      "loss": 0.7903,
      "step": 2975
    },
    {
      "epoch": 0.8,
      "grad_norm": 5.533348560333252,
      "learning_rate": 4.0760493827160495e-05,
      "loss": 0.9898,
      "step": 3000
    },
    {
      "epoch": 0.8066666666666666,
      "grad_norm": 8.753861427307129,
      "learning_rate": 4.063703703703704e-05,
      "loss": 0.7716,
      "step": 3025
    },
    {
      "epoch": 0.8133333333333334,
      "grad_norm": 11.261335372924805,
      "learning_rate": 4.051358024691358e-05,
      "loss": 0.9554,
      "step": 3050
    },
    {
      "epoch": 0.82,
      "grad_norm": 10.08859920501709,
      "learning_rate": 4.0390123456790124e-05,
      "loss": 0.8887,
      "step": 3075
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 3.6686923503875732,
      "learning_rate": 4.026666666666667e-05,
      "loss": 0.8084,
      "step": 3100
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 7.54130220413208,
      "learning_rate": 4.014320987654321e-05,
      "loss": 1.0297,
      "step": 3125
    },
    {
      "epoch": 0.84,
      "grad_norm": 5.28485631942749,
      "learning_rate": 4.0019753086419753e-05,
      "loss": 0.8179,
      "step": 3150
    },
    {
      "epoch": 0.8466666666666667,
      "grad_norm": 5.715919494628906,
      "learning_rate": 3.98962962962963e-05,
      "loss": 0.8925,
      "step": 3175
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 12.822041511535645,
      "learning_rate": 3.977283950617284e-05,
      "loss": 0.8126,
      "step": 3200
    },
    {
      "epoch": 0.86,
      "grad_norm": 6.913020133972168,
      "learning_rate": 3.964938271604938e-05,
      "loss": 0.9576,
      "step": 3225
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 7.729150772094727,
      "learning_rate": 3.952592592592593e-05,
      "loss": 0.8019,
      "step": 3250
    },
    {
      "epoch": 0.8733333333333333,
      "grad_norm": 14.75147819519043,
      "learning_rate": 3.940246913580247e-05,
      "loss": 0.8749,
      "step": 3275
    },
    {
      "epoch": 0.88,
      "grad_norm": 6.890247344970703,
      "learning_rate": 3.927901234567901e-05,
      "loss": 0.8219,
      "step": 3300
    },
    {
      "epoch": 0.8866666666666667,
      "grad_norm": 14.082189559936523,
      "learning_rate": 3.915555555555556e-05,
      "loss": 0.9104,
      "step": 3325
    },
    {
      "epoch": 0.8933333333333333,
      "grad_norm": 14.824267387390137,
      "learning_rate": 3.90320987654321e-05,
      "loss": 1.0422,
      "step": 3350
    },
    {
      "epoch": 0.9,
      "grad_norm": 6.831472396850586,
      "learning_rate": 3.890864197530865e-05,
      "loss": 0.955,
      "step": 3375
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 12.86788558959961,
      "learning_rate": 3.878518518518519e-05,
      "loss": 0.8177,
      "step": 3400
    },
    {
      "epoch": 0.9133333333333333,
      "grad_norm": 5.384681224822998,
      "learning_rate": 3.866172839506173e-05,
      "loss": 1.0076,
      "step": 3425
    },
    {
      "epoch": 0.92,
      "grad_norm": 7.360981464385986,
      "learning_rate": 3.853827160493828e-05,
      "loss": 0.9525,
      "step": 3450
    },
    {
      "epoch": 0.9266666666666666,
      "grad_norm": 9.476499557495117,
      "learning_rate": 3.841481481481482e-05,
      "loss": 0.8705,
      "step": 3475
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 11.018596649169922,
      "learning_rate": 3.829135802469136e-05,
      "loss": 0.8799,
      "step": 3500
    },
    {
      "epoch": 0.94,
      "grad_norm": 9.566810607910156,
      "learning_rate": 3.8167901234567906e-05,
      "loss": 0.9072,
      "step": 3525
    },
    {
      "epoch": 0.9466666666666667,
      "grad_norm": 6.946780681610107,
      "learning_rate": 3.804444444444445e-05,
      "loss": 0.9795,
      "step": 3550
    },
    {
      "epoch": 0.9533333333333334,
      "grad_norm": 11.96141242980957,
      "learning_rate": 3.792098765432099e-05,
      "loss": 0.9398,
      "step": 3575
    },
    {
      "epoch": 0.96,
      "grad_norm": 6.139281749725342,
      "learning_rate": 3.7797530864197535e-05,
      "loss": 0.877,
      "step": 3600
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 8.848674774169922,
      "learning_rate": 3.7674074074074076e-05,
      "loss": 0.9407,
      "step": 3625
    },
    {
      "epoch": 0.9733333333333334,
      "grad_norm": 8.626237869262695,
      "learning_rate": 3.755061728395062e-05,
      "loss": 0.7231,
      "step": 3650
    },
    {
      "epoch": 0.98,
      "grad_norm": 8.904046058654785,
      "learning_rate": 3.7427160493827164e-05,
      "loss": 0.7771,
      "step": 3675
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 8.304384231567383,
      "learning_rate": 3.7303703703703705e-05,
      "loss": 0.8759,
      "step": 3700
    },
    {
      "epoch": 0.9933333333333333,
      "grad_norm": 3.275665283203125,
      "learning_rate": 3.7180246913580246e-05,
      "loss": 1.0953,
      "step": 3725
    },
    {
      "epoch": 1.0,
      "grad_norm": 9.612822532653809,
      "learning_rate": 3.7056790123456794e-05,
      "loss": 0.9654,
      "step": 3750
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.7091666666666666,
      "eval_f1_macro": 0.6100324685442738,
      "eval_f1_micro": 0.7091666666666666,
      "eval_f1_weighted": 0.6820074793819821,
      "eval_loss": 0.8581413626670837,
      "eval_precision_macro": 0.6409039609039581,
      "eval_precision_micro": 0.7091666666666666,
      "eval_precision_weighted": 0.6788783926303716,
      "eval_recall_macro": 0.6173398268291092,
      "eval_recall_micro": 0.7091666666666666,
      "eval_recall_weighted": 0.7091666666666666,
      "eval_runtime": 17.7272,
      "eval_samples_per_second": 338.462,
      "eval_steps_per_second": 21.154,
      "step": 3750
    },
    {
      "epoch": 1.0066666666666666,
      "grad_norm": 4.440273761749268,
      "learning_rate": 3.6933333333333334e-05,
      "loss": 0.7425,
      "step": 3775
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 2.8456194400787354,
      "learning_rate": 3.6809876543209875e-05,
      "loss": 0.8552,
      "step": 3800
    },
    {
      "epoch": 1.02,
      "grad_norm": 7.814695358276367,
      "learning_rate": 3.668641975308642e-05,
      "loss": 0.7137,
      "step": 3825
    },
    {
      "epoch": 1.0266666666666666,
      "grad_norm": 15.144572257995605,
      "learning_rate": 3.6562962962962964e-05,
      "loss": 0.7113,
      "step": 3850
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 7.033264636993408,
      "learning_rate": 3.643950617283951e-05,
      "loss": 0.635,
      "step": 3875
    },
    {
      "epoch": 1.04,
      "grad_norm": 9.882685661315918,
      "learning_rate": 3.631604938271605e-05,
      "loss": 0.6947,
      "step": 3900
    },
    {
      "epoch": 1.0466666666666666,
      "grad_norm": 3.8773844242095947,
      "learning_rate": 3.619259259259259e-05,
      "loss": 0.7561,
      "step": 3925
    },
    {
      "epoch": 1.0533333333333332,
      "grad_norm": 13.235457420349121,
      "learning_rate": 3.606913580246914e-05,
      "loss": 0.8613,
      "step": 3950
    },
    {
      "epoch": 1.06,
      "grad_norm": 7.09820032119751,
      "learning_rate": 3.594567901234568e-05,
      "loss": 0.6555,
      "step": 3975
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 10.326157569885254,
      "learning_rate": 3.582222222222222e-05,
      "loss": 0.7023,
      "step": 4000
    },
    {
      "epoch": 1.0733333333333333,
      "grad_norm": 26.21095085144043,
      "learning_rate": 3.569876543209877e-05,
      "loss": 0.8392,
      "step": 4025
    },
    {
      "epoch": 1.08,
      "grad_norm": 8.45411205291748,
      "learning_rate": 3.557530864197531e-05,
      "loss": 0.6542,
      "step": 4050
    },
    {
      "epoch": 1.0866666666666667,
      "grad_norm": 9.493447303771973,
      "learning_rate": 3.545185185185185e-05,
      "loss": 0.6472,
      "step": 4075
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 6.964524745941162,
      "learning_rate": 3.53283950617284e-05,
      "loss": 0.8216,
      "step": 4100
    },
    {
      "epoch": 1.1,
      "grad_norm": 9.059328079223633,
      "learning_rate": 3.520493827160494e-05,
      "loss": 0.8314,
      "step": 4125
    },
    {
      "epoch": 1.1066666666666667,
      "grad_norm": 6.654369831085205,
      "learning_rate": 3.508148148148148e-05,
      "loss": 0.628,
      "step": 4150
    },
    {
      "epoch": 1.1133333333333333,
      "grad_norm": 13.223770141601562,
      "learning_rate": 3.495802469135803e-05,
      "loss": 0.8023,
      "step": 4175
    },
    {
      "epoch": 1.12,
      "grad_norm": 12.41712474822998,
      "learning_rate": 3.483456790123457e-05,
      "loss": 0.8411,
      "step": 4200
    },
    {
      "epoch": 1.1266666666666667,
      "grad_norm": 6.774609565734863,
      "learning_rate": 3.471111111111111e-05,
      "loss": 0.8376,
      "step": 4225
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 7.308166980743408,
      "learning_rate": 3.4592592592592594e-05,
      "loss": 0.7768,
      "step": 4250
    },
    {
      "epoch": 1.1400000000000001,
      "grad_norm": 7.681529521942139,
      "learning_rate": 3.4469135802469135e-05,
      "loss": 0.7728,
      "step": 4275
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 6.580010414123535,
      "learning_rate": 3.434567901234568e-05,
      "loss": 0.6793,
      "step": 4300
    },
    {
      "epoch": 1.1533333333333333,
      "grad_norm": 3.635303497314453,
      "learning_rate": 3.4222222222222224e-05,
      "loss": 0.7412,
      "step": 4325
    },
    {
      "epoch": 1.16,
      "grad_norm": 8.876466751098633,
      "learning_rate": 3.4098765432098764e-05,
      "loss": 0.6272,
      "step": 4350
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 7.696030139923096,
      "learning_rate": 3.397530864197531e-05,
      "loss": 0.6547,
      "step": 4375
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 8.832601547241211,
      "learning_rate": 3.385185185185185e-05,
      "loss": 0.5395,
      "step": 4400
    },
    {
      "epoch": 1.18,
      "grad_norm": 8.13397216796875,
      "learning_rate": 3.3728395061728394e-05,
      "loss": 0.7159,
      "step": 4425
    },
    {
      "epoch": 1.1866666666666668,
      "grad_norm": 13.775779724121094,
      "learning_rate": 3.360493827160494e-05,
      "loss": 0.827,
      "step": 4450
    },
    {
      "epoch": 1.1933333333333334,
      "grad_norm": 10.165814399719238,
      "learning_rate": 3.348148148148148e-05,
      "loss": 0.6612,
      "step": 4475
    },
    {
      "epoch": 1.2,
      "grad_norm": 16.018178939819336,
      "learning_rate": 3.335802469135802e-05,
      "loss": 0.6556,
      "step": 4500
    },
    {
      "epoch": 1.2066666666666666,
      "grad_norm": 1.3013031482696533,
      "learning_rate": 3.323456790123457e-05,
      "loss": 0.8252,
      "step": 4525
    },
    {
      "epoch": 1.2133333333333334,
      "grad_norm": 7.296039581298828,
      "learning_rate": 3.311111111111112e-05,
      "loss": 0.8382,
      "step": 4550
    },
    {
      "epoch": 1.22,
      "grad_norm": 6.962835788726807,
      "learning_rate": 3.298765432098765e-05,
      "loss": 0.7487,
      "step": 4575
    },
    {
      "epoch": 1.2266666666666666,
      "grad_norm": 4.2493062019348145,
      "learning_rate": 3.28641975308642e-05,
      "loss": 0.8383,
      "step": 4600
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 9.330086708068848,
      "learning_rate": 3.274074074074075e-05,
      "loss": 0.7768,
      "step": 4625
    },
    {
      "epoch": 1.24,
      "grad_norm": 10.251571655273438,
      "learning_rate": 3.261728395061728e-05,
      "loss": 0.867,
      "step": 4650
    },
    {
      "epoch": 1.2466666666666666,
      "grad_norm": 11.619964599609375,
      "learning_rate": 3.249382716049383e-05,
      "loss": 0.7623,
      "step": 4675
    },
    {
      "epoch": 1.2533333333333334,
      "grad_norm": 3.9532220363616943,
      "learning_rate": 3.2370370370370376e-05,
      "loss": 0.7566,
      "step": 4700
    },
    {
      "epoch": 1.26,
      "grad_norm": 4.52797794342041,
      "learning_rate": 3.224691358024691e-05,
      "loss": 0.6151,
      "step": 4725
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 5.5519118309021,
      "learning_rate": 3.212345679012346e-05,
      "loss": 0.6997,
      "step": 4750
    },
    {
      "epoch": 1.2733333333333334,
      "grad_norm": 16.9818172454834,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.8484,
      "step": 4775
    },
    {
      "epoch": 1.28,
      "grad_norm": 9.749587059020996,
      "learning_rate": 3.1876543209876546e-05,
      "loss": 0.6278,
      "step": 4800
    },
    {
      "epoch": 1.2866666666666666,
      "grad_norm": 9.709831237792969,
      "learning_rate": 3.175308641975309e-05,
      "loss": 0.7075,
      "step": 4825
    },
    {
      "epoch": 1.2933333333333334,
      "grad_norm": 20.00463104248047,
      "learning_rate": 3.1629629629629634e-05,
      "loss": 0.5736,
      "step": 4850
    },
    {
      "epoch": 1.3,
      "grad_norm": 6.521317958831787,
      "learning_rate": 3.1506172839506175e-05,
      "loss": 0.778,
      "step": 4875
    },
    {
      "epoch": 1.3066666666666666,
      "grad_norm": 8.647531509399414,
      "learning_rate": 3.1382716049382716e-05,
      "loss": 0.6916,
      "step": 4900
    },
    {
      "epoch": 1.3133333333333335,
      "grad_norm": 6.482861042022705,
      "learning_rate": 3.1259259259259264e-05,
      "loss": 0.8645,
      "step": 4925
    },
    {
      "epoch": 1.32,
      "grad_norm": 11.362075805664062,
      "learning_rate": 3.1135802469135804e-05,
      "loss": 0.7179,
      "step": 4950
    },
    {
      "epoch": 1.3266666666666667,
      "grad_norm": 7.478168487548828,
      "learning_rate": 3.1012345679012345e-05,
      "loss": 0.7394,
      "step": 4975
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 8.96081256866455,
      "learning_rate": 3.088888888888889e-05,
      "loss": 0.796,
      "step": 5000
    },
    {
      "epoch": 1.34,
      "grad_norm": 7.8306450843811035,
      "learning_rate": 3.0765432098765434e-05,
      "loss": 0.6964,
      "step": 5025
    },
    {
      "epoch": 1.3466666666666667,
      "grad_norm": 10.186200141906738,
      "learning_rate": 3.064197530864198e-05,
      "loss": 0.66,
      "step": 5050
    },
    {
      "epoch": 1.3533333333333333,
      "grad_norm": 9.338884353637695,
      "learning_rate": 3.0518518518518515e-05,
      "loss": 0.7104,
      "step": 5075
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 13.582483291625977,
      "learning_rate": 3.0395061728395063e-05,
      "loss": 0.7455,
      "step": 5100
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 7.894265651702881,
      "learning_rate": 3.0271604938271607e-05,
      "loss": 0.7794,
      "step": 5125
    },
    {
      "epoch": 1.3733333333333333,
      "grad_norm": 2.8598034381866455,
      "learning_rate": 3.0148148148148148e-05,
      "loss": 0.685,
      "step": 5150
    },
    {
      "epoch": 1.38,
      "grad_norm": 2.645756244659424,
      "learning_rate": 3.0024691358024692e-05,
      "loss": 0.8207,
      "step": 5175
    },
    {
      "epoch": 1.3866666666666667,
      "grad_norm": 9.987272262573242,
      "learning_rate": 2.9901234567901236e-05,
      "loss": 0.7231,
      "step": 5200
    },
    {
      "epoch": 1.3933333333333333,
      "grad_norm": 12.924286842346191,
      "learning_rate": 2.9777777777777777e-05,
      "loss": 0.7388,
      "step": 5225
    },
    {
      "epoch": 1.4,
      "grad_norm": 16.83519744873047,
      "learning_rate": 2.965432098765432e-05,
      "loss": 0.7497,
      "step": 5250
    },
    {
      "epoch": 1.4066666666666667,
      "grad_norm": 7.9070587158203125,
      "learning_rate": 2.9530864197530865e-05,
      "loss": 0.8074,
      "step": 5275
    },
    {
      "epoch": 1.4133333333333333,
      "grad_norm": 4.564779758453369,
      "learning_rate": 2.9407407407407413e-05,
      "loss": 0.6971,
      "step": 5300
    },
    {
      "epoch": 1.42,
      "grad_norm": 8.644104957580566,
      "learning_rate": 2.928395061728395e-05,
      "loss": 0.7966,
      "step": 5325
    },
    {
      "epoch": 1.4266666666666667,
      "grad_norm": 11.114713668823242,
      "learning_rate": 2.9160493827160494e-05,
      "loss": 0.7489,
      "step": 5350
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 10.182296752929688,
      "learning_rate": 2.9037037037037042e-05,
      "loss": 0.5922,
      "step": 5375
    },
    {
      "epoch": 1.44,
      "grad_norm": 8.90845775604248,
      "learning_rate": 2.891358024691358e-05,
      "loss": 0.7728,
      "step": 5400
    },
    {
      "epoch": 1.4466666666666668,
      "grad_norm": 7.750247478485107,
      "learning_rate": 2.8790123456790124e-05,
      "loss": 0.7747,
      "step": 5425
    },
    {
      "epoch": 1.4533333333333334,
      "grad_norm": 5.938879489898682,
      "learning_rate": 2.8666666666666668e-05,
      "loss": 0.6753,
      "step": 5450
    },
    {
      "epoch": 1.46,
      "grad_norm": 9.088497161865234,
      "learning_rate": 2.854320987654321e-05,
      "loss": 0.6682,
      "step": 5475
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 18.685951232910156,
      "learning_rate": 2.8419753086419753e-05,
      "loss": 0.6772,
      "step": 5500
    },
    {
      "epoch": 1.4733333333333334,
      "grad_norm": 8.782575607299805,
      "learning_rate": 2.8296296296296297e-05,
      "loss": 0.6646,
      "step": 5525
    },
    {
      "epoch": 1.48,
      "grad_norm": 4.917479515075684,
      "learning_rate": 2.8172839506172845e-05,
      "loss": 0.7017,
      "step": 5550
    },
    {
      "epoch": 1.4866666666666668,
      "grad_norm": 8.09851360321045,
      "learning_rate": 2.8049382716049382e-05,
      "loss": 0.7154,
      "step": 5575
    },
    {
      "epoch": 1.4933333333333334,
      "grad_norm": 6.223681449890137,
      "learning_rate": 2.7925925925925926e-05,
      "loss": 0.7596,
      "step": 5600
    },
    {
      "epoch": 1.5,
      "grad_norm": 8.397703170776367,
      "learning_rate": 2.7802469135802474e-05,
      "loss": 0.809,
      "step": 5625
    },
    {
      "epoch": 1.5066666666666668,
      "grad_norm": 6.877397537231445,
      "learning_rate": 2.767901234567901e-05,
      "loss": 0.8519,
      "step": 5650
    },
    {
      "epoch": 1.5133333333333332,
      "grad_norm": 23.255901336669922,
      "learning_rate": 2.7555555555555555e-05,
      "loss": 0.5782,
      "step": 5675
    },
    {
      "epoch": 1.52,
      "grad_norm": 9.83711051940918,
      "learning_rate": 2.7432098765432103e-05,
      "loss": 0.6336,
      "step": 5700
    },
    {
      "epoch": 1.5266666666666666,
      "grad_norm": 5.23626708984375,
      "learning_rate": 2.730864197530864e-05,
      "loss": 0.7307,
      "step": 5725
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 9.331045150756836,
      "learning_rate": 2.7185185185185184e-05,
      "loss": 0.7259,
      "step": 5750
    },
    {
      "epoch": 1.54,
      "grad_norm": 8.801417350769043,
      "learning_rate": 2.7061728395061732e-05,
      "loss": 0.8571,
      "step": 5775
    },
    {
      "epoch": 1.5466666666666666,
      "grad_norm": 6.789374828338623,
      "learning_rate": 2.6938271604938276e-05,
      "loss": 0.7824,
      "step": 5800
    },
    {
      "epoch": 1.5533333333333332,
      "grad_norm": 10.509846687316895,
      "learning_rate": 2.6814814814814814e-05,
      "loss": 0.7399,
      "step": 5825
    },
    {
      "epoch": 1.56,
      "grad_norm": 8.728089332580566,
      "learning_rate": 2.669135802469136e-05,
      "loss": 0.742,
      "step": 5850
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 7.6164774894714355,
      "learning_rate": 2.6567901234567905e-05,
      "loss": 0.7879,
      "step": 5875
    },
    {
      "epoch": 1.5733333333333333,
      "grad_norm": 14.654951095581055,
      "learning_rate": 2.6444444444444443e-05,
      "loss": 0.63,
      "step": 5900
    },
    {
      "epoch": 1.58,
      "grad_norm": 5.373976707458496,
      "learning_rate": 2.632098765432099e-05,
      "loss": 0.7247,
      "step": 5925
    },
    {
      "epoch": 1.5866666666666667,
      "grad_norm": 6.956189155578613,
      "learning_rate": 2.6197530864197534e-05,
      "loss": 0.6052,
      "step": 5950
    },
    {
      "epoch": 1.5933333333333333,
      "grad_norm": 9.96907901763916,
      "learning_rate": 2.6074074074074072e-05,
      "loss": 0.8396,
      "step": 5975
    },
    {
      "epoch": 1.6,
      "grad_norm": 13.184568405151367,
      "learning_rate": 2.595061728395062e-05,
      "loss": 0.7757,
      "step": 6000
    },
    {
      "epoch": 1.6066666666666667,
      "grad_norm": 15.362314224243164,
      "learning_rate": 2.5827160493827164e-05,
      "loss": 0.893,
      "step": 6025
    },
    {
      "epoch": 1.6133333333333333,
      "grad_norm": 4.897271156311035,
      "learning_rate": 2.5703703703703708e-05,
      "loss": 0.6591,
      "step": 6050
    },
    {
      "epoch": 1.62,
      "grad_norm": 9.751553535461426,
      "learning_rate": 2.558024691358025e-05,
      "loss": 0.6348,
      "step": 6075
    },
    {
      "epoch": 1.6266666666666667,
      "grad_norm": 8.476768493652344,
      "learning_rate": 2.5456790123456793e-05,
      "loss": 0.6365,
      "step": 6100
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 8.62093734741211,
      "learning_rate": 2.5333333333333337e-05,
      "loss": 0.7576,
      "step": 6125
    },
    {
      "epoch": 1.6400000000000001,
      "grad_norm": 2.200514078140259,
      "learning_rate": 2.5209876543209874e-05,
      "loss": 0.6805,
      "step": 6150
    },
    {
      "epoch": 1.6466666666666665,
      "grad_norm": 2.226874828338623,
      "learning_rate": 2.5086419753086422e-05,
      "loss": 0.6033,
      "step": 6175
    },
    {
      "epoch": 1.6533333333333333,
      "grad_norm": 1.4179869890213013,
      "learning_rate": 2.4962962962962963e-05,
      "loss": 0.5945,
      "step": 6200
    },
    {
      "epoch": 1.6600000000000001,
      "grad_norm": 9.433260917663574,
      "learning_rate": 2.4839506172839507e-05,
      "loss": 0.7244,
      "step": 6225
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 10.319985389709473,
      "learning_rate": 2.471604938271605e-05,
      "loss": 0.6965,
      "step": 6250
    },
    {
      "epoch": 1.6733333333333333,
      "grad_norm": 13.357112884521484,
      "learning_rate": 2.4592592592592595e-05,
      "loss": 0.5875,
      "step": 6275
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 11.539891242980957,
      "learning_rate": 2.4469135802469136e-05,
      "loss": 0.5944,
      "step": 6300
    },
    {
      "epoch": 1.6866666666666665,
      "grad_norm": 5.3860344886779785,
      "learning_rate": 2.434567901234568e-05,
      "loss": 0.6623,
      "step": 6325
    },
    {
      "epoch": 1.6933333333333334,
      "grad_norm": 14.049308776855469,
      "learning_rate": 2.4222222222222224e-05,
      "loss": 0.6706,
      "step": 6350
    },
    {
      "epoch": 1.7,
      "grad_norm": 9.558539390563965,
      "learning_rate": 2.4098765432098765e-05,
      "loss": 0.7215,
      "step": 6375
    },
    {
      "epoch": 1.7066666666666666,
      "grad_norm": 13.506587028503418,
      "learning_rate": 2.397530864197531e-05,
      "loss": 0.6993,
      "step": 6400
    },
    {
      "epoch": 1.7133333333333334,
      "grad_norm": 9.131032943725586,
      "learning_rate": 2.3851851851851854e-05,
      "loss": 0.7986,
      "step": 6425
    },
    {
      "epoch": 1.72,
      "grad_norm": 3.78764009475708,
      "learning_rate": 2.3728395061728394e-05,
      "loss": 0.7608,
      "step": 6450
    },
    {
      "epoch": 1.7266666666666666,
      "grad_norm": 9.804962158203125,
      "learning_rate": 2.360493827160494e-05,
      "loss": 0.7245,
      "step": 6475
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 5.942134857177734,
      "learning_rate": 2.3481481481481483e-05,
      "loss": 0.6769,
      "step": 6500
    },
    {
      "epoch": 1.74,
      "grad_norm": 8.747697830200195,
      "learning_rate": 2.3358024691358027e-05,
      "loss": 0.7199,
      "step": 6525
    },
    {
      "epoch": 1.7466666666666666,
      "grad_norm": 6.169302940368652,
      "learning_rate": 2.3234567901234568e-05,
      "loss": 0.7633,
      "step": 6550
    },
    {
      "epoch": 1.7533333333333334,
      "grad_norm": 10.793547630310059,
      "learning_rate": 2.3111111111111112e-05,
      "loss": 0.543,
      "step": 6575
    },
    {
      "epoch": 1.76,
      "grad_norm": 12.748262405395508,
      "learning_rate": 2.2987654320987656e-05,
      "loss": 0.7764,
      "step": 6600
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 13.716763496398926,
      "learning_rate": 2.2864197530864197e-05,
      "loss": 0.7844,
      "step": 6625
    },
    {
      "epoch": 1.7733333333333334,
      "grad_norm": 14.565423011779785,
      "learning_rate": 2.2740740740740744e-05,
      "loss": 0.683,
      "step": 6650
    },
    {
      "epoch": 1.78,
      "grad_norm": 8.850066184997559,
      "learning_rate": 2.2617283950617285e-05,
      "loss": 0.6995,
      "step": 6675
    },
    {
      "epoch": 1.7866666666666666,
      "grad_norm": 12.295726776123047,
      "learning_rate": 2.2493827160493826e-05,
      "loss": 0.8103,
      "step": 6700
    },
    {
      "epoch": 1.7933333333333334,
      "grad_norm": 5.886265754699707,
      "learning_rate": 2.2370370370370374e-05,
      "loss": 0.6811,
      "step": 6725
    },
    {
      "epoch": 1.8,
      "grad_norm": 4.584556579589844,
      "learning_rate": 2.2246913580246914e-05,
      "loss": 0.6821,
      "step": 6750
    },
    {
      "epoch": 1.8066666666666666,
      "grad_norm": 10.706587791442871,
      "learning_rate": 2.212345679012346e-05,
      "loss": 0.7736,
      "step": 6775
    },
    {
      "epoch": 1.8133333333333335,
      "grad_norm": 9.361528396606445,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 0.7977,
      "step": 6800
    },
    {
      "epoch": 1.8199999999999998,
      "grad_norm": 17.178653717041016,
      "learning_rate": 2.1876543209876544e-05,
      "loss": 0.8598,
      "step": 6825
    },
    {
      "epoch": 1.8266666666666667,
      "grad_norm": 7.339766979217529,
      "learning_rate": 2.1753086419753088e-05,
      "loss": 0.571,
      "step": 6850
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 6.615869045257568,
      "learning_rate": 2.162962962962963e-05,
      "loss": 0.6702,
      "step": 6875
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 10.113656997680664,
      "learning_rate": 2.1506172839506176e-05,
      "loss": 0.7777,
      "step": 6900
    },
    {
      "epoch": 1.8466666666666667,
      "grad_norm": 7.745372295379639,
      "learning_rate": 2.1382716049382717e-05,
      "loss": 0.7539,
      "step": 6925
    },
    {
      "epoch": 1.8533333333333335,
      "grad_norm": 7.907397747039795,
      "learning_rate": 2.1259259259259258e-05,
      "loss": 0.7244,
      "step": 6950
    },
    {
      "epoch": 1.8599999999999999,
      "grad_norm": 11.474489212036133,
      "learning_rate": 2.1135802469135805e-05,
      "loss": 0.7925,
      "step": 6975
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 11.150900840759277,
      "learning_rate": 2.1012345679012346e-05,
      "loss": 0.5607,
      "step": 7000
    },
    {
      "epoch": 1.8733333333333333,
      "grad_norm": 17.480403900146484,
      "learning_rate": 2.088888888888889e-05,
      "loss": 0.8783,
      "step": 7025
    },
    {
      "epoch": 1.88,
      "grad_norm": 10.300092697143555,
      "learning_rate": 2.0765432098765434e-05,
      "loss": 0.8025,
      "step": 7050
    },
    {
      "epoch": 1.8866666666666667,
      "grad_norm": 3.967689275741577,
      "learning_rate": 2.0641975308641975e-05,
      "loss": 0.7898,
      "step": 7075
    },
    {
      "epoch": 1.8933333333333333,
      "grad_norm": 8.212587356567383,
      "learning_rate": 2.051851851851852e-05,
      "loss": 0.6461,
      "step": 7100
    },
    {
      "epoch": 1.9,
      "grad_norm": 13.606761932373047,
      "learning_rate": 2.0395061728395064e-05,
      "loss": 0.651,
      "step": 7125
    },
    {
      "epoch": 1.9066666666666667,
      "grad_norm": 7.908700942993164,
      "learning_rate": 2.0271604938271608e-05,
      "loss": 0.6489,
      "step": 7150
    },
    {
      "epoch": 1.9133333333333333,
      "grad_norm": 11.340200424194336,
      "learning_rate": 2.014814814814815e-05,
      "loss": 0.7675,
      "step": 7175
    },
    {
      "epoch": 1.92,
      "grad_norm": 5.6627373695373535,
      "learning_rate": 2.0024691358024693e-05,
      "loss": 0.6732,
      "step": 7200
    },
    {
      "epoch": 1.9266666666666667,
      "grad_norm": 21.99058723449707,
      "learning_rate": 1.9901234567901237e-05,
      "loss": 0.7135,
      "step": 7225
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 17.246597290039062,
      "learning_rate": 1.9777777777777778e-05,
      "loss": 0.7077,
      "step": 7250
    },
    {
      "epoch": 1.94,
      "grad_norm": 6.322951316833496,
      "learning_rate": 1.9654320987654322e-05,
      "loss": 0.6163,
      "step": 7275
    },
    {
      "epoch": 1.9466666666666668,
      "grad_norm": 5.832266807556152,
      "learning_rate": 1.9530864197530866e-05,
      "loss": 0.642,
      "step": 7300
    },
    {
      "epoch": 1.9533333333333334,
      "grad_norm": 5.883837699890137,
      "learning_rate": 1.9407407407407407e-05,
      "loss": 0.6955,
      "step": 7325
    },
    {
      "epoch": 1.96,
      "grad_norm": 12.114556312561035,
      "learning_rate": 1.928395061728395e-05,
      "loss": 0.772,
      "step": 7350
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 4.3004350662231445,
      "learning_rate": 1.9160493827160495e-05,
      "loss": 0.7316,
      "step": 7375
    },
    {
      "epoch": 1.9733333333333334,
      "grad_norm": 8.095020294189453,
      "learning_rate": 1.903703703703704e-05,
      "loss": 0.623,
      "step": 7400
    },
    {
      "epoch": 1.98,
      "grad_norm": 10.078492164611816,
      "learning_rate": 1.891358024691358e-05,
      "loss": 0.8212,
      "step": 7425
    },
    {
      "epoch": 1.9866666666666668,
      "grad_norm": 6.047307968139648,
      "learning_rate": 1.8790123456790124e-05,
      "loss": 0.6209,
      "step": 7450
    },
    {
      "epoch": 1.9933333333333332,
      "grad_norm": 2.696333885192871,
      "learning_rate": 1.866666666666667e-05,
      "loss": 0.7312,
      "step": 7475
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.4287543296813965,
      "learning_rate": 1.854320987654321e-05,
      "loss": 0.6442,
      "step": 7500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.7258333333333333,
      "eval_f1_macro": 0.6405635167768103,
      "eval_f1_micro": 0.7258333333333333,
      "eval_f1_weighted": 0.7031763861072888,
      "eval_loss": 0.8434039950370789,
      "eval_precision_macro": 0.6510401126834049,
      "eval_precision_micro": 0.7258333333333333,
      "eval_precision_weighted": 0.6973286083232175,
      "eval_recall_macro": 0.6512228541854506,
      "eval_recall_micro": 0.7258333333333333,
      "eval_recall_weighted": 0.7258333333333333,
      "eval_runtime": 17.4744,
      "eval_samples_per_second": 343.359,
      "eval_steps_per_second": 21.46,
      "step": 7500
    }
  ],
  "logging_steps": 25,
  "max_steps": 11250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.01
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1987294464000000.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}