{
  "best_metric": 0.2612117528915405,
  "best_model_checkpoint": "xblock-social-screenshots-5/checkpoint-6738",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 6738,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "grad_norm": 14.132967948913574,
      "learning_rate": 1.8545994065281898e-06,
      "loss": 0.6958,
      "step": 25
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.136152267456055,
      "learning_rate": 3.6350148367952525e-06,
      "loss": 0.6975,
      "step": 50
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9680777788162231,
      "learning_rate": 5.489614243323442e-06,
      "loss": 0.5213,
      "step": 75
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.900412559509277,
      "learning_rate": 7.270029673590505e-06,
      "loss": 0.4804,
      "step": 100
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.952802896499634,
      "learning_rate": 9.124629080118695e-06,
      "loss": 0.4743,
      "step": 125
    },
    {
      "epoch": 0.07,
      "grad_norm": 14.785197257995605,
      "learning_rate": 1.0979228486646884e-05,
      "loss": 0.5276,
      "step": 150
    },
    {
      "epoch": 0.08,
      "grad_norm": 13.082988739013672,
      "learning_rate": 1.2833827893175073e-05,
      "loss": 0.5019,
      "step": 175
    },
    {
      "epoch": 0.09,
      "grad_norm": 8.51102352142334,
      "learning_rate": 1.4688427299703264e-05,
      "loss": 0.6297,
      "step": 200
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.031483173370361,
      "learning_rate": 1.6543026706231455e-05,
      "loss": 0.4062,
      "step": 225
    },
    {
      "epoch": 0.11,
      "grad_norm": 7.973475456237793,
      "learning_rate": 1.8397626112759644e-05,
      "loss": 0.5997,
      "step": 250
    },
    {
      "epoch": 0.12,
      "grad_norm": 11.180716514587402,
      "learning_rate": 2.0252225519287833e-05,
      "loss": 0.478,
      "step": 275
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.953334331512451,
      "learning_rate": 2.2106824925816026e-05,
      "loss": 0.3911,
      "step": 300
    },
    {
      "epoch": 0.14,
      "grad_norm": 7.498977184295654,
      "learning_rate": 2.3961424332344215e-05,
      "loss": 0.477,
      "step": 325
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.19468317925930023,
      "learning_rate": 2.58160237388724e-05,
      "loss": 0.338,
      "step": 350
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9361104965209961,
      "learning_rate": 2.7670623145400593e-05,
      "loss": 0.5228,
      "step": 375
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6056278944015503,
      "learning_rate": 2.9525222551928783e-05,
      "loss": 0.526,
      "step": 400
    },
    {
      "epoch": 0.19,
      "grad_norm": 6.435601234436035,
      "learning_rate": 3.137982195845697e-05,
      "loss": 0.3893,
      "step": 425
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40519052743911743,
      "learning_rate": 3.323442136498516e-05,
      "loss": 0.3945,
      "step": 450
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.11996802687644958,
      "learning_rate": 3.508902077151335e-05,
      "loss": 0.5464,
      "step": 475
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.791567325592041,
      "learning_rate": 3.6943620178041546e-05,
      "loss": 0.6363,
      "step": 500
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3942394256591797,
      "learning_rate": 3.8798219584569735e-05,
      "loss": 0.368,
      "step": 525
    },
    {
      "epoch": 0.24,
      "grad_norm": 11.67949390411377,
      "learning_rate": 4.0652818991097924e-05,
      "loss": 0.4232,
      "step": 550
    },
    {
      "epoch": 0.26,
      "grad_norm": 6.389534950256348,
      "learning_rate": 4.2507418397626114e-05,
      "loss": 0.4988,
      "step": 575
    },
    {
      "epoch": 0.27,
      "grad_norm": 22.40272331237793,
      "learning_rate": 4.43620178041543e-05,
      "loss": 0.707,
      "step": 600
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.8825833797454834,
      "learning_rate": 4.621661721068249e-05,
      "loss": 0.576,
      "step": 625
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.9929873943328857,
      "learning_rate": 4.807121661721069e-05,
      "loss": 0.4785,
      "step": 650
    },
    {
      "epoch": 0.3,
      "grad_norm": 8.819046974182129,
      "learning_rate": 4.992581602373888e-05,
      "loss": 0.5884,
      "step": 675
    },
    {
      "epoch": 0.31,
      "grad_norm": 10.694670677185059,
      "learning_rate": 4.9802110817941956e-05,
      "loss": 0.5243,
      "step": 700
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.784719944000244,
      "learning_rate": 4.9595976253298154e-05,
      "loss": 0.6428,
      "step": 725
    },
    {
      "epoch": 0.33,
      "grad_norm": 7.733468055725098,
      "learning_rate": 4.938984168865435e-05,
      "loss": 0.612,
      "step": 750
    },
    {
      "epoch": 0.35,
      "grad_norm": 7.867452144622803,
      "learning_rate": 4.918370712401056e-05,
      "loss": 0.582,
      "step": 775
    },
    {
      "epoch": 0.36,
      "grad_norm": 12.518653869628906,
      "learning_rate": 4.8977572559366755e-05,
      "loss": 0.569,
      "step": 800
    },
    {
      "epoch": 0.37,
      "grad_norm": 7.27546501159668,
      "learning_rate": 4.877143799472296e-05,
      "loss": 0.6449,
      "step": 825
    },
    {
      "epoch": 0.38,
      "grad_norm": 16.084596633911133,
      "learning_rate": 4.856530343007916e-05,
      "loss": 0.6471,
      "step": 850
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.305793285369873,
      "learning_rate": 4.8359168865435357e-05,
      "loss": 0.5507,
      "step": 875
    },
    {
      "epoch": 0.4,
      "grad_norm": 17.53583335876465,
      "learning_rate": 4.815303430079156e-05,
      "loss": 0.4701,
      "step": 900
    },
    {
      "epoch": 0.41,
      "grad_norm": 6.12671422958374,
      "learning_rate": 4.794689973614776e-05,
      "loss": 0.551,
      "step": 925
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.3855419158935547,
      "learning_rate": 4.774076517150396e-05,
      "loss": 0.6347,
      "step": 950
    },
    {
      "epoch": 0.43,
      "grad_norm": 7.226621627807617,
      "learning_rate": 4.7534630606860156e-05,
      "loss": 0.3186,
      "step": 975
    },
    {
      "epoch": 0.45,
      "grad_norm": 7.834379196166992,
      "learning_rate": 4.732849604221636e-05,
      "loss": 0.5085,
      "step": 1000
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.51530522108078,
      "learning_rate": 4.7122361477572566e-05,
      "loss": 0.3593,
      "step": 1025
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3713924884796143,
      "learning_rate": 4.6916226912928764e-05,
      "loss": 0.5763,
      "step": 1050
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3441976308822632,
      "learning_rate": 4.671009234828496e-05,
      "loss": 0.6034,
      "step": 1075
    },
    {
      "epoch": 0.49,
      "grad_norm": 14.422416687011719,
      "learning_rate": 4.650395778364116e-05,
      "loss": 0.4459,
      "step": 1100
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.849581241607666,
      "learning_rate": 4.6297823218997365e-05,
      "loss": 0.4681,
      "step": 1125
    },
    {
      "epoch": 0.51,
      "grad_norm": 11.974592208862305,
      "learning_rate": 4.6091688654353563e-05,
      "loss": 0.5693,
      "step": 1150
    },
    {
      "epoch": 0.52,
      "grad_norm": 8.925352096557617,
      "learning_rate": 4.588555408970976e-05,
      "loss": 0.4427,
      "step": 1175
    },
    {
      "epoch": 0.53,
      "grad_norm": 7.595994472503662,
      "learning_rate": 4.5679419525065967e-05,
      "loss": 0.3736,
      "step": 1200
    },
    {
      "epoch": 0.55,
      "grad_norm": 8.393537521362305,
      "learning_rate": 4.5473284960422165e-05,
      "loss": 0.6534,
      "step": 1225
    },
    {
      "epoch": 0.56,
      "grad_norm": 6.042502403259277,
      "learning_rate": 4.526715039577837e-05,
      "loss": 0.4326,
      "step": 1250
    },
    {
      "epoch": 0.57,
      "grad_norm": 13.696694374084473,
      "learning_rate": 4.506101583113457e-05,
      "loss": 0.5176,
      "step": 1275
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.518089771270752,
      "learning_rate": 4.4854881266490766e-05,
      "loss": 0.4211,
      "step": 1300
    },
    {
      "epoch": 0.59,
      "grad_norm": 11.04053783416748,
      "learning_rate": 4.4648746701846964e-05,
      "loss": 0.5664,
      "step": 1325
    },
    {
      "epoch": 0.6,
      "grad_norm": 16.009056091308594,
      "learning_rate": 4.444261213720316e-05,
      "loss": 0.5545,
      "step": 1350
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.595952033996582,
      "learning_rate": 4.423647757255937e-05,
      "loss": 0.4318,
      "step": 1375
    },
    {
      "epoch": 0.62,
      "grad_norm": 5.188466548919678,
      "learning_rate": 4.403034300791557e-05,
      "loss": 0.4286,
      "step": 1400
    },
    {
      "epoch": 0.63,
      "grad_norm": 6.234115123748779,
      "learning_rate": 4.382420844327177e-05,
      "loss": 0.5876,
      "step": 1425
    },
    {
      "epoch": 0.65,
      "grad_norm": 8.778355598449707,
      "learning_rate": 4.361807387862797e-05,
      "loss": 0.6304,
      "step": 1450
    },
    {
      "epoch": 0.66,
      "grad_norm": 9.595151901245117,
      "learning_rate": 4.3411939313984173e-05,
      "loss": 0.5844,
      "step": 1475
    },
    {
      "epoch": 0.67,
      "grad_norm": 9.795525550842285,
      "learning_rate": 4.320580474934037e-05,
      "loss": 0.4714,
      "step": 1500
    },
    {
      "epoch": 0.68,
      "grad_norm": 14.277398109436035,
      "learning_rate": 4.299967018469657e-05,
      "loss": 0.5627,
      "step": 1525
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.245518684387207,
      "learning_rate": 4.2793535620052775e-05,
      "loss": 0.5474,
      "step": 1550
    },
    {
      "epoch": 0.7,
      "grad_norm": 6.895930290222168,
      "learning_rate": 4.258740105540897e-05,
      "loss": 0.4686,
      "step": 1575
    },
    {
      "epoch": 0.71,
      "grad_norm": 7.74411153793335,
      "learning_rate": 4.238126649076518e-05,
      "loss": 0.5021,
      "step": 1600
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.97990083694458,
      "learning_rate": 4.2175131926121376e-05,
      "loss": 0.4173,
      "step": 1625
    },
    {
      "epoch": 0.73,
      "grad_norm": 8.026514053344727,
      "learning_rate": 4.1968997361477574e-05,
      "loss": 0.3728,
      "step": 1650
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3547731339931488,
      "learning_rate": 4.176286279683377e-05,
      "loss": 0.4983,
      "step": 1675
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.483277797698975,
      "learning_rate": 4.155672823218997e-05,
      "loss": 0.5235,
      "step": 1700
    },
    {
      "epoch": 0.77,
      "grad_norm": 7.000768184661865,
      "learning_rate": 4.1350593667546175e-05,
      "loss": 0.4955,
      "step": 1725
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.905660152435303,
      "learning_rate": 4.114445910290238e-05,
      "loss": 0.4803,
      "step": 1750
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.236353397369385,
      "learning_rate": 4.093832453825858e-05,
      "loss": 0.5105,
      "step": 1775
    },
    {
      "epoch": 0.8,
      "grad_norm": 8.685340881347656,
      "learning_rate": 4.073218997361478e-05,
      "loss": 0.6345,
      "step": 1800
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.6251416206359863,
      "learning_rate": 4.052605540897098e-05,
      "loss": 0.6859,
      "step": 1825
    },
    {
      "epoch": 0.82,
      "grad_norm": 13.661340713500977,
      "learning_rate": 4.031992084432718e-05,
      "loss": 0.3122,
      "step": 1850
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7971667051315308,
      "learning_rate": 4.011378627968338e-05,
      "loss": 0.5103,
      "step": 1875
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.921170234680176,
      "learning_rate": 3.9907651715039576e-05,
      "loss": 0.4259,
      "step": 1900
    },
    {
      "epoch": 0.86,
      "grad_norm": 6.340487480163574,
      "learning_rate": 3.970151715039578e-05,
      "loss": 0.5088,
      "step": 1925
    },
    {
      "epoch": 0.87,
      "grad_norm": 8.182121276855469,
      "learning_rate": 3.9495382585751986e-05,
      "loss": 0.5638,
      "step": 1950
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.3480095863342285,
      "learning_rate": 3.9289248021108184e-05,
      "loss": 0.5788,
      "step": 1975
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.820002555847168,
      "learning_rate": 3.908311345646438e-05,
      "loss": 0.5043,
      "step": 2000
    },
    {
      "epoch": 0.9,
      "grad_norm": 5.409160614013672,
      "learning_rate": 3.887697889182058e-05,
      "loss": 0.3171,
      "step": 2025
    },
    {
      "epoch": 0.91,
      "grad_norm": 6.675960063934326,
      "learning_rate": 3.867084432717678e-05,
      "loss": 0.4536,
      "step": 2050
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.4080889225006104,
      "learning_rate": 3.8464709762532984e-05,
      "loss": 0.5149,
      "step": 2075
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0316126346588135,
      "learning_rate": 3.825857519788918e-05,
      "loss": 0.6131,
      "step": 2100
    },
    {
      "epoch": 0.95,
      "grad_norm": 6.637559413909912,
      "learning_rate": 3.805244063324539e-05,
      "loss": 0.4527,
      "step": 2125
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.249868869781494,
      "learning_rate": 3.7846306068601585e-05,
      "loss": 0.3764,
      "step": 2150
    },
    {
      "epoch": 0.97,
      "grad_norm": 8.488882064819336,
      "learning_rate": 3.764017150395778e-05,
      "loss": 0.4237,
      "step": 2175
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0089231729507446,
      "learning_rate": 3.743403693931399e-05,
      "loss": 0.5939,
      "step": 2200
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9522852301597595,
      "learning_rate": 3.7227902374670186e-05,
      "loss": 0.4297,
      "step": 2225
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.9071889606053861,
      "eval_f1_macro": 0.4640938055477737,
      "eval_f1_micro": 0.9071889606053861,
      "eval_f1_weighted": 0.8894145383985912,
      "eval_loss": 0.35839545726776123,
      "eval_precision_macro": 0.6916894534747811,
      "eval_precision_micro": 0.9071889606053861,
      "eval_precision_weighted": 0.8955058437354184,
      "eval_recall_macro": 0.4208919396551037,
      "eval_recall_micro": 0.9071889606053861,
      "eval_recall_weighted": 0.9071889606053861,
      "eval_runtime": 391.8611,
      "eval_samples_per_second": 11.466,
      "eval_steps_per_second": 0.717,
      "step": 2246
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.51116943359375,
      "learning_rate": 3.7021767810026384e-05,
      "loss": 0.5182,
      "step": 2250
    },
    {
      "epoch": 1.01,
      "grad_norm": 4.062203884124756,
      "learning_rate": 3.681563324538258e-05,
      "loss": 0.4014,
      "step": 2275
    },
    {
      "epoch": 1.02,
      "grad_norm": 4.1213884353637695,
      "learning_rate": 3.660949868073879e-05,
      "loss": 0.3564,
      "step": 2300
    },
    {
      "epoch": 1.04,
      "grad_norm": 4.061648845672607,
      "learning_rate": 3.640336411609499e-05,
      "loss": 0.5185,
      "step": 2325
    },
    {
      "epoch": 1.05,
      "grad_norm": 5.865363597869873,
      "learning_rate": 3.619722955145119e-05,
      "loss": 0.5669,
      "step": 2350
    },
    {
      "epoch": 1.06,
      "grad_norm": 1.3118332624435425,
      "learning_rate": 3.599109498680739e-05,
      "loss": 0.3586,
      "step": 2375
    },
    {
      "epoch": 1.07,
      "grad_norm": 8.255626678466797,
      "learning_rate": 3.578496042216359e-05,
      "loss": 0.5938,
      "step": 2400
    },
    {
      "epoch": 1.08,
      "grad_norm": 11.17790412902832,
      "learning_rate": 3.557882585751979e-05,
      "loss": 0.3843,
      "step": 2425
    },
    {
      "epoch": 1.09,
      "grad_norm": 9.643479347229004,
      "learning_rate": 3.5380936675461745e-05,
      "loss": 0.5595,
      "step": 2450
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.35103797912597656,
      "learning_rate": 3.5174802110817943e-05,
      "loss": 0.413,
      "step": 2475
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.7915975451469421,
      "learning_rate": 3.496866754617414e-05,
      "loss": 0.3686,
      "step": 2500
    },
    {
      "epoch": 1.12,
      "grad_norm": 5.222273826599121,
      "learning_rate": 3.4762532981530347e-05,
      "loss": 0.3873,
      "step": 2525
    },
    {
      "epoch": 1.14,
      "grad_norm": 6.224874019622803,
      "learning_rate": 3.4556398416886545e-05,
      "loss": 0.5069,
      "step": 2550
    },
    {
      "epoch": 1.15,
      "grad_norm": 12.55453109741211,
      "learning_rate": 3.435026385224275e-05,
      "loss": 0.255,
      "step": 2575
    },
    {
      "epoch": 1.16,
      "grad_norm": 11.516471862792969,
      "learning_rate": 3.414412928759895e-05,
      "loss": 0.4712,
      "step": 2600
    },
    {
      "epoch": 1.17,
      "grad_norm": 1.0335161685943604,
      "learning_rate": 3.3937994722955146e-05,
      "loss": 0.4652,
      "step": 2625
    },
    {
      "epoch": 1.18,
      "grad_norm": 5.176596641540527,
      "learning_rate": 3.3731860158311344e-05,
      "loss": 0.3918,
      "step": 2650
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.3881676197052,
      "learning_rate": 3.352572559366754e-05,
      "loss": 0.3869,
      "step": 2675
    },
    {
      "epoch": 1.2,
      "grad_norm": 4.0972514152526855,
      "learning_rate": 3.331959102902375e-05,
      "loss": 0.44,
      "step": 2700
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4464218020439148,
      "learning_rate": 3.311345646437995e-05,
      "loss": 0.3373,
      "step": 2725
    },
    {
      "epoch": 1.22,
      "grad_norm": 6.553329944610596,
      "learning_rate": 3.290732189973615e-05,
      "loss": 0.3585,
      "step": 2750
    },
    {
      "epoch": 1.24,
      "grad_norm": 6.4266157150268555,
      "learning_rate": 3.270118733509235e-05,
      "loss": 0.4454,
      "step": 2775
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.8840596079826355,
      "learning_rate": 3.2495052770448553e-05,
      "loss": 0.396,
      "step": 2800
    },
    {
      "epoch": 1.26,
      "grad_norm": 6.651895523071289,
      "learning_rate": 3.228891820580475e-05,
      "loss": 0.4029,
      "step": 2825
    },
    {
      "epoch": 1.27,
      "grad_norm": 8.035750389099121,
      "learning_rate": 3.208278364116095e-05,
      "loss": 0.5253,
      "step": 2850
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.7661600112915039,
      "learning_rate": 3.187664907651715e-05,
      "loss": 0.498,
      "step": 2875
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.3388662338256836,
      "learning_rate": 3.167051451187335e-05,
      "loss": 0.4511,
      "step": 2900
    },
    {
      "epoch": 1.3,
      "grad_norm": 4.266098499298096,
      "learning_rate": 3.146437994722956e-05,
      "loss": 0.5038,
      "step": 2925
    },
    {
      "epoch": 1.31,
      "grad_norm": 9.547815322875977,
      "learning_rate": 3.1258245382585756e-05,
      "loss": 0.3055,
      "step": 2950
    },
    {
      "epoch": 1.32,
      "grad_norm": 5.78660774230957,
      "learning_rate": 3.1052110817941954e-05,
      "loss": 0.3645,
      "step": 2975
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.6312762498855591,
      "learning_rate": 3.084597625329815e-05,
      "loss": 0.5396,
      "step": 3000
    },
    {
      "epoch": 1.35,
      "grad_norm": 9.60580825805664,
      "learning_rate": 3.063984168865435e-05,
      "loss": 0.3903,
      "step": 3025
    },
    {
      "epoch": 1.36,
      "grad_norm": 8.78200626373291,
      "learning_rate": 3.043370712401056e-05,
      "loss": 0.2628,
      "step": 3050
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.5894768834114075,
      "learning_rate": 3.0227572559366757e-05,
      "loss": 0.3829,
      "step": 3075
    },
    {
      "epoch": 1.38,
      "grad_norm": 4.919884204864502,
      "learning_rate": 3.0021437994722955e-05,
      "loss": 0.4657,
      "step": 3100
    },
    {
      "epoch": 1.39,
      "grad_norm": 4.6643290519714355,
      "learning_rate": 2.9815303430079157e-05,
      "loss": 0.4419,
      "step": 3125
    },
    {
      "epoch": 1.4,
      "grad_norm": 4.99531888961792,
      "learning_rate": 2.9609168865435355e-05,
      "loss": 0.6053,
      "step": 3150
    },
    {
      "epoch": 1.41,
      "grad_norm": 2.8033461570739746,
      "learning_rate": 2.940303430079156e-05,
      "loss": 0.3048,
      "step": 3175
    },
    {
      "epoch": 1.42,
      "grad_norm": 10.75854206085205,
      "learning_rate": 2.9196899736147758e-05,
      "loss": 0.3911,
      "step": 3200
    },
    {
      "epoch": 1.44,
      "grad_norm": 1.392392635345459,
      "learning_rate": 2.899076517150396e-05,
      "loss": 0.43,
      "step": 3225
    },
    {
      "epoch": 1.45,
      "grad_norm": 4.793901443481445,
      "learning_rate": 2.8784630606860158e-05,
      "loss": 0.4389,
      "step": 3250
    },
    {
      "epoch": 1.46,
      "grad_norm": 6.22283935546875,
      "learning_rate": 2.8578496042216363e-05,
      "loss": 0.3379,
      "step": 3275
    },
    {
      "epoch": 1.47,
      "grad_norm": 2.443415403366089,
      "learning_rate": 2.837236147757256e-05,
      "loss": 0.4967,
      "step": 3300
    },
    {
      "epoch": 1.48,
      "grad_norm": 4.5518059730529785,
      "learning_rate": 2.8166226912928762e-05,
      "loss": 0.5465,
      "step": 3325
    },
    {
      "epoch": 1.49,
      "grad_norm": 6.078768253326416,
      "learning_rate": 2.796009234828496e-05,
      "loss": 0.4807,
      "step": 3350
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.6977243423461914,
      "learning_rate": 2.775395778364116e-05,
      "loss": 0.5693,
      "step": 3375
    },
    {
      "epoch": 1.51,
      "grad_norm": 13.189055442810059,
      "learning_rate": 2.7547823218997364e-05,
      "loss": 0.2355,
      "step": 3400
    },
    {
      "epoch": 1.52,
      "grad_norm": 11.238237380981445,
      "learning_rate": 2.7341688654353565e-05,
      "loss": 0.5586,
      "step": 3425
    },
    {
      "epoch": 1.54,
      "grad_norm": 8.910079956054688,
      "learning_rate": 2.7135554089709763e-05,
      "loss": 0.4066,
      "step": 3450
    },
    {
      "epoch": 1.55,
      "grad_norm": 1.7681870460510254,
      "learning_rate": 2.692941952506596e-05,
      "loss": 0.5567,
      "step": 3475
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.8575474619865417,
      "learning_rate": 2.6723284960422163e-05,
      "loss": 0.2942,
      "step": 3500
    },
    {
      "epoch": 1.57,
      "grad_norm": 6.890367031097412,
      "learning_rate": 2.6517150395778368e-05,
      "loss": 0.2915,
      "step": 3525
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.6504009962081909,
      "learning_rate": 2.6311015831134566e-05,
      "loss": 0.4993,
      "step": 3550
    },
    {
      "epoch": 1.59,
      "grad_norm": 5.363488674163818,
      "learning_rate": 2.6104881266490768e-05,
      "loss": 0.4317,
      "step": 3575
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.34819716215133667,
      "learning_rate": 2.5898746701846966e-05,
      "loss": 0.3354,
      "step": 3600
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5899884104728699,
      "learning_rate": 2.5692612137203164e-05,
      "loss": 0.3711,
      "step": 3625
    },
    {
      "epoch": 1.63,
      "grad_norm": 3.2884409427642822,
      "learning_rate": 2.548647757255937e-05,
      "loss": 0.3231,
      "step": 3650
    },
    {
      "epoch": 1.64,
      "grad_norm": 10.364724159240723,
      "learning_rate": 2.528034300791557e-05,
      "loss": 0.5173,
      "step": 3675
    },
    {
      "epoch": 1.65,
      "grad_norm": 5.121739864349365,
      "learning_rate": 2.507420844327177e-05,
      "loss": 0.4939,
      "step": 3700
    },
    {
      "epoch": 1.66,
      "grad_norm": 6.0736589431762695,
      "learning_rate": 2.486807387862797e-05,
      "loss": 0.4922,
      "step": 3725
    },
    {
      "epoch": 1.67,
      "grad_norm": 11.522198677062988,
      "learning_rate": 2.466193931398417e-05,
      "loss": 0.4233,
      "step": 3750
    },
    {
      "epoch": 1.68,
      "grad_norm": 2.02380633354187,
      "learning_rate": 2.4455804749340373e-05,
      "loss": 0.3657,
      "step": 3775
    },
    {
      "epoch": 1.69,
      "grad_norm": 7.379997730255127,
      "learning_rate": 2.424967018469657e-05,
      "loss": 0.4719,
      "step": 3800
    },
    {
      "epoch": 1.7,
      "grad_norm": 9.087469100952148,
      "learning_rate": 2.404353562005277e-05,
      "loss": 0.4912,
      "step": 3825
    },
    {
      "epoch": 1.71,
      "grad_norm": 6.239768028259277,
      "learning_rate": 2.383740105540897e-05,
      "loss": 0.4496,
      "step": 3850
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5235075354576111,
      "learning_rate": 2.3631266490765173e-05,
      "loss": 0.3338,
      "step": 3875
    },
    {
      "epoch": 1.74,
      "grad_norm": 4.942290782928467,
      "learning_rate": 2.3425131926121374e-05,
      "loss": 0.5681,
      "step": 3900
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.7366746068000793,
      "learning_rate": 2.3218997361477572e-05,
      "loss": 0.4026,
      "step": 3925
    },
    {
      "epoch": 1.76,
      "grad_norm": 6.261937141418457,
      "learning_rate": 2.3012862796833774e-05,
      "loss": 0.3486,
      "step": 3950
    },
    {
      "epoch": 1.77,
      "grad_norm": 4.27028751373291,
      "learning_rate": 2.2806728232189976e-05,
      "loss": 0.2636,
      "step": 3975
    },
    {
      "epoch": 1.78,
      "grad_norm": 1.5691050291061401,
      "learning_rate": 2.260883905013193e-05,
      "loss": 0.4031,
      "step": 4000
    },
    {
      "epoch": 1.79,
      "grad_norm": 8.969446182250977,
      "learning_rate": 2.2402704485488127e-05,
      "loss": 0.3943,
      "step": 4025
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.4185885190963745,
      "learning_rate": 2.219656992084433e-05,
      "loss": 0.4099,
      "step": 4050
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.5010409355163574,
      "learning_rate": 2.1990435356200527e-05,
      "loss": 0.5192,
      "step": 4075
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.3482280969619751,
      "learning_rate": 2.1784300791556732e-05,
      "loss": 0.4143,
      "step": 4100
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.623389720916748,
      "learning_rate": 2.157816622691293e-05,
      "loss": 0.3566,
      "step": 4125
    },
    {
      "epoch": 1.85,
      "grad_norm": 11.738636016845703,
      "learning_rate": 2.1372031662269128e-05,
      "loss": 0.4869,
      "step": 4150
    },
    {
      "epoch": 1.86,
      "grad_norm": 18.07844352722168,
      "learning_rate": 2.116589709762533e-05,
      "loss": 0.2863,
      "step": 4175
    },
    {
      "epoch": 1.87,
      "grad_norm": 7.016993522644043,
      "learning_rate": 2.095976253298153e-05,
      "loss": 0.3461,
      "step": 4200
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.18062768876552582,
      "learning_rate": 2.0753627968337733e-05,
      "loss": 0.2242,
      "step": 4225
    },
    {
      "epoch": 1.89,
      "grad_norm": 8.72131061553955,
      "learning_rate": 2.054749340369393e-05,
      "loss": 0.4769,
      "step": 4250
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.8265817165374756,
      "learning_rate": 2.0341358839050133e-05,
      "loss": 0.4334,
      "step": 4275
    },
    {
      "epoch": 1.91,
      "grad_norm": 2.490007162094116,
      "learning_rate": 2.0135224274406334e-05,
      "loss": 0.457,
      "step": 4300
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.18633964657783508,
      "learning_rate": 1.9929089709762532e-05,
      "loss": 0.4192,
      "step": 4325
    },
    {
      "epoch": 1.94,
      "grad_norm": 5.816620826721191,
      "learning_rate": 1.9722955145118734e-05,
      "loss": 0.3111,
      "step": 4350
    },
    {
      "epoch": 1.95,
      "grad_norm": 5.391794204711914,
      "learning_rate": 1.9516820580474935e-05,
      "loss": 0.276,
      "step": 4375
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.8628760576248169,
      "learning_rate": 1.9310686015831137e-05,
      "loss": 0.3737,
      "step": 4400
    },
    {
      "epoch": 1.97,
      "grad_norm": 4.97860050201416,
      "learning_rate": 1.9104551451187335e-05,
      "loss": 0.376,
      "step": 4425
    },
    {
      "epoch": 1.98,
      "grad_norm": 4.89571475982666,
      "learning_rate": 1.8898416886543537e-05,
      "loss": 0.3772,
      "step": 4450
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.35662633180618286,
      "learning_rate": 1.8692282321899738e-05,
      "loss": 0.4631,
      "step": 4475
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.9203204985533051,
      "eval_f1_macro": 0.49143994642521266,
      "eval_f1_micro": 0.9203204985533051,
      "eval_f1_weighted": 0.9061028561941445,
      "eval_loss": 0.2875824272632599,
      "eval_precision_macro": 0.6640335095209342,
      "eval_precision_micro": 0.9203204985533051,
      "eval_precision_weighted": 0.9054269421170664,
      "eval_recall_macro": 0.445379050503802,
      "eval_recall_micro": 0.9203204985533051,
      "eval_recall_weighted": 0.9203204985533051,
      "eval_runtime": 404.3838,
      "eval_samples_per_second": 11.111,
      "eval_steps_per_second": 0.695,
      "step": 4492
    },
    {
      "epoch": 2.0,
      "grad_norm": 10.790550231933594,
      "learning_rate": 1.8486147757255936e-05,
      "loss": 0.536,
      "step": 4500
    },
    {
      "epoch": 2.01,
      "grad_norm": 8.45910930633545,
      "learning_rate": 1.8280013192612138e-05,
      "loss": 0.4415,
      "step": 4525
    },
    {
      "epoch": 2.03,
      "grad_norm": 5.119017124176025,
      "learning_rate": 1.807387862796834e-05,
      "loss": 0.3585,
      "step": 4550
    },
    {
      "epoch": 2.04,
      "grad_norm": 1.2371793985366821,
      "learning_rate": 1.786774406332454e-05,
      "loss": 0.3951,
      "step": 4575
    },
    {
      "epoch": 2.05,
      "grad_norm": 4.3467607498168945,
      "learning_rate": 1.766160949868074e-05,
      "loss": 0.4048,
      "step": 4600
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.7943634986877441,
      "learning_rate": 1.7455474934036937e-05,
      "loss": 0.3604,
      "step": 4625
    },
    {
      "epoch": 2.07,
      "grad_norm": 1.8456642627716064,
      "learning_rate": 1.7249340369393142e-05,
      "loss": 0.4308,
      "step": 4650
    },
    {
      "epoch": 2.08,
      "grad_norm": 15.450132369995117,
      "learning_rate": 1.704320580474934e-05,
      "loss": 0.2849,
      "step": 4675
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.7097306251525879,
      "learning_rate": 1.6837071240105542e-05,
      "loss": 0.3189,
      "step": 4700
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.0466163270175457,
      "learning_rate": 1.663093667546174e-05,
      "loss": 0.3747,
      "step": 4725
    },
    {
      "epoch": 2.11,
      "grad_norm": 17.914644241333008,
      "learning_rate": 1.6424802110817945e-05,
      "loss": 0.4635,
      "step": 4750
    },
    {
      "epoch": 2.13,
      "grad_norm": 5.257259845733643,
      "learning_rate": 1.6218667546174143e-05,
      "loss": 0.3882,
      "step": 4775
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.1565193384885788,
      "learning_rate": 1.601253298153034e-05,
      "loss": 0.4073,
      "step": 4800
    },
    {
      "epoch": 2.15,
      "grad_norm": 13.001235008239746,
      "learning_rate": 1.5806398416886546e-05,
      "loss": 0.3174,
      "step": 4825
    },
    {
      "epoch": 2.16,
      "grad_norm": 11.252735137939453,
      "learning_rate": 1.5600263852242745e-05,
      "loss": 0.4794,
      "step": 4850
    },
    {
      "epoch": 2.17,
      "grad_norm": 8.534846305847168,
      "learning_rate": 1.5394129287598946e-05,
      "loss": 0.2951,
      "step": 4875
    },
    {
      "epoch": 2.18,
      "grad_norm": 4.504175662994385,
      "learning_rate": 1.5187994722955146e-05,
      "loss": 0.5374,
      "step": 4900
    },
    {
      "epoch": 2.19,
      "grad_norm": 4.395377159118652,
      "learning_rate": 1.4981860158311347e-05,
      "loss": 0.3697,
      "step": 4925
    },
    {
      "epoch": 2.2,
      "grad_norm": 11.302129745483398,
      "learning_rate": 1.4775725593667547e-05,
      "loss": 0.2116,
      "step": 4950
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.7363251447677612,
      "learning_rate": 1.4569591029023747e-05,
      "loss": 0.327,
      "step": 4975
    },
    {
      "epoch": 2.23,
      "grad_norm": 4.721381664276123,
      "learning_rate": 1.4363456464379949e-05,
      "loss": 0.3867,
      "step": 5000
    },
    {
      "epoch": 2.24,
      "grad_norm": 2.9688565731048584,
      "learning_rate": 1.4157321899736149e-05,
      "loss": 0.4413,
      "step": 5025
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.40781280398368835,
      "learning_rate": 1.395118733509235e-05,
      "loss": 0.3637,
      "step": 5050
    },
    {
      "epoch": 2.26,
      "grad_norm": 1.3190653324127197,
      "learning_rate": 1.374505277044855e-05,
      "loss": 0.3532,
      "step": 5075
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6920987963676453,
      "learning_rate": 1.3538918205804748e-05,
      "loss": 0.3523,
      "step": 5100
    },
    {
      "epoch": 2.28,
      "grad_norm": 10.344520568847656,
      "learning_rate": 1.3332783641160951e-05,
      "loss": 0.4375,
      "step": 5125
    },
    {
      "epoch": 2.29,
      "grad_norm": 12.584922790527344,
      "learning_rate": 1.312664907651715e-05,
      "loss": 0.4301,
      "step": 5150
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.4461086094379425,
      "learning_rate": 1.2920514511873353e-05,
      "loss": 0.3158,
      "step": 5175
    },
    {
      "epoch": 2.32,
      "grad_norm": 9.555744171142578,
      "learning_rate": 1.2714379947229551e-05,
      "loss": 0.3468,
      "step": 5200
    },
    {
      "epoch": 2.33,
      "grad_norm": 12.140357971191406,
      "learning_rate": 1.2508245382585754e-05,
      "loss": 0.4215,
      "step": 5225
    },
    {
      "epoch": 2.34,
      "grad_norm": 4.640113830566406,
      "learning_rate": 1.2302110817941952e-05,
      "loss": 0.3538,
      "step": 5250
    },
    {
      "epoch": 2.35,
      "grad_norm": 8.983073234558105,
      "learning_rate": 1.2095976253298154e-05,
      "loss": 0.2868,
      "step": 5275
    },
    {
      "epoch": 2.36,
      "grad_norm": 6.697389125823975,
      "learning_rate": 1.1889841688654354e-05,
      "loss": 0.4148,
      "step": 5300
    },
    {
      "epoch": 2.37,
      "grad_norm": 9.571817398071289,
      "learning_rate": 1.1683707124010555e-05,
      "loss": 0.4891,
      "step": 5325
    },
    {
      "epoch": 2.38,
      "grad_norm": 6.644136905670166,
      "learning_rate": 1.1477572559366755e-05,
      "loss": 0.2858,
      "step": 5350
    },
    {
      "epoch": 2.39,
      "grad_norm": 19.55898666381836,
      "learning_rate": 1.1271437994722955e-05,
      "loss": 0.4059,
      "step": 5375
    },
    {
      "epoch": 2.4,
      "grad_norm": 6.888569355010986,
      "learning_rate": 1.1065303430079157e-05,
      "loss": 0.3415,
      "step": 5400
    },
    {
      "epoch": 2.42,
      "grad_norm": 7.856134414672852,
      "learning_rate": 1.0859168865435356e-05,
      "loss": 0.3327,
      "step": 5425
    },
    {
      "epoch": 2.43,
      "grad_norm": 15.82084846496582,
      "learning_rate": 1.0653034300791558e-05,
      "loss": 0.4321,
      "step": 5450
    },
    {
      "epoch": 2.44,
      "grad_norm": 14.98440170288086,
      "learning_rate": 1.0446899736147758e-05,
      "loss": 0.4672,
      "step": 5475
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.872367799282074,
      "learning_rate": 1.0240765171503958e-05,
      "loss": 0.2711,
      "step": 5500
    },
    {
      "epoch": 2.46,
      "grad_norm": 5.635341167449951,
      "learning_rate": 1.0034630606860158e-05,
      "loss": 0.3636,
      "step": 5525
    },
    {
      "epoch": 2.47,
      "grad_norm": 12.989480972290039,
      "learning_rate": 9.82849604221636e-06,
      "loss": 0.3524,
      "step": 5550
    },
    {
      "epoch": 2.48,
      "grad_norm": 16.43426513671875,
      "learning_rate": 9.622361477572559e-06,
      "loss": 0.2381,
      "step": 5575
    },
    {
      "epoch": 2.49,
      "grad_norm": 1.0547945499420166,
      "learning_rate": 9.41622691292876e-06,
      "loss": 0.3293,
      "step": 5600
    },
    {
      "epoch": 2.5,
      "grad_norm": 13.630729675292969,
      "learning_rate": 9.210092348284962e-06,
      "loss": 0.3658,
      "step": 5625
    },
    {
      "epoch": 2.52,
      "grad_norm": 12.972505569458008,
      "learning_rate": 9.003957783641162e-06,
      "loss": 0.2829,
      "step": 5650
    },
    {
      "epoch": 2.53,
      "grad_norm": 10.048601150512695,
      "learning_rate": 8.797823218997362e-06,
      "loss": 0.3867,
      "step": 5675
    },
    {
      "epoch": 2.54,
      "grad_norm": 1.120229721069336,
      "learning_rate": 8.591688654353562e-06,
      "loss": 0.4166,
      "step": 5700
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.9482748508453369,
      "learning_rate": 8.385554089709763e-06,
      "loss": 0.4281,
      "step": 5725
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.29686295986175537,
      "learning_rate": 8.179419525065963e-06,
      "loss": 0.3187,
      "step": 5750
    },
    {
      "epoch": 2.57,
      "grad_norm": 9.385336875915527,
      "learning_rate": 7.973284960422165e-06,
      "loss": 0.3553,
      "step": 5775
    },
    {
      "epoch": 2.58,
      "grad_norm": 5.910414695739746,
      "learning_rate": 7.767150395778365e-06,
      "loss": 0.2821,
      "step": 5800
    },
    {
      "epoch": 2.59,
      "grad_norm": 5.932247161865234,
      "learning_rate": 7.561015831134564e-06,
      "loss": 0.2706,
      "step": 5825
    },
    {
      "epoch": 2.6,
      "grad_norm": 1.826149821281433,
      "learning_rate": 7.354881266490765e-06,
      "loss": 0.3742,
      "step": 5850
    },
    {
      "epoch": 2.62,
      "grad_norm": 9.548162460327148,
      "learning_rate": 7.148746701846966e-06,
      "loss": 0.3124,
      "step": 5875
    },
    {
      "epoch": 2.63,
      "grad_norm": 10.59200668334961,
      "learning_rate": 6.9426121372031665e-06,
      "loss": 0.2541,
      "step": 5900
    },
    {
      "epoch": 2.64,
      "grad_norm": 6.801640033721924,
      "learning_rate": 6.736477572559367e-06,
      "loss": 0.336,
      "step": 5925
    },
    {
      "epoch": 2.65,
      "grad_norm": 6.312964916229248,
      "learning_rate": 6.530343007915568e-06,
      "loss": 0.5251,
      "step": 5950
    },
    {
      "epoch": 2.66,
      "grad_norm": 10.121294975280762,
      "learning_rate": 6.324208443271768e-06,
      "loss": 0.3999,
      "step": 5975
    },
    {
      "epoch": 2.67,
      "grad_norm": 11.066811561584473,
      "learning_rate": 6.1180738786279684e-06,
      "loss": 0.3101,
      "step": 6000
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.14530642330646515,
      "learning_rate": 5.911939313984169e-06,
      "loss": 0.2483,
      "step": 6025
    },
    {
      "epoch": 2.69,
      "grad_norm": 8.127425193786621,
      "learning_rate": 5.70580474934037e-06,
      "loss": 0.2684,
      "step": 6050
    },
    {
      "epoch": 2.7,
      "grad_norm": 4.671697616577148,
      "learning_rate": 5.4996701846965706e-06,
      "loss": 0.3339,
      "step": 6075
    },
    {
      "epoch": 2.72,
      "grad_norm": 7.663967609405518,
      "learning_rate": 5.29353562005277e-06,
      "loss": 0.2823,
      "step": 6100
    },
    {
      "epoch": 2.73,
      "grad_norm": 4.24953556060791,
      "learning_rate": 5.087401055408971e-06,
      "loss": 0.2481,
      "step": 6125
    },
    {
      "epoch": 2.74,
      "grad_norm": 6.942299842834473,
      "learning_rate": 4.881266490765172e-06,
      "loss": 0.3467,
      "step": 6150
    },
    {
      "epoch": 2.75,
      "grad_norm": 2.23897123336792,
      "learning_rate": 4.6751319261213725e-06,
      "loss": 0.4663,
      "step": 6175
    },
    {
      "epoch": 2.76,
      "grad_norm": 21.0181827545166,
      "learning_rate": 4.468997361477572e-06,
      "loss": 0.2012,
      "step": 6200
    },
    {
      "epoch": 2.77,
      "grad_norm": 6.582679748535156,
      "learning_rate": 4.262862796833773e-06,
      "loss": 0.3391,
      "step": 6225
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.8921090960502625,
      "learning_rate": 4.056728232189974e-06,
      "loss": 0.2925,
      "step": 6250
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.729013204574585,
      "learning_rate": 3.8505936675461745e-06,
      "loss": 0.2918,
      "step": 6275
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.47634056210517883,
      "learning_rate": 3.6527044854881267e-06,
      "loss": 0.3309,
      "step": 6300
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7455437183380127,
      "learning_rate": 3.4465699208443274e-06,
      "loss": 0.2839,
      "step": 6325
    },
    {
      "epoch": 2.83,
      "grad_norm": 17.21619415283203,
      "learning_rate": 3.240435356200528e-06,
      "loss": 0.3023,
      "step": 6350
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.5437944531440735,
      "learning_rate": 3.0343007915567284e-06,
      "loss": 0.2888,
      "step": 6375
    },
    {
      "epoch": 2.85,
      "grad_norm": 4.063761234283447,
      "learning_rate": 2.8281662269129287e-06,
      "loss": 0.4373,
      "step": 6400
    },
    {
      "epoch": 2.86,
      "grad_norm": 6.74634313583374,
      "learning_rate": 2.6220316622691294e-06,
      "loss": 0.4396,
      "step": 6425
    },
    {
      "epoch": 2.87,
      "grad_norm": 3.216498613357544,
      "learning_rate": 2.41589709762533e-06,
      "loss": 0.3116,
      "step": 6450
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.6705697774887085,
      "learning_rate": 2.2097625329815304e-06,
      "loss": 0.3643,
      "step": 6475
    },
    {
      "epoch": 2.89,
      "grad_norm": 4.8092851638793945,
      "learning_rate": 2.003627968337731e-06,
      "loss": 0.2643,
      "step": 6500
    },
    {
      "epoch": 2.91,
      "grad_norm": 16.015827178955078,
      "learning_rate": 1.7974934036939316e-06,
      "loss": 0.4048,
      "step": 6525
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.7783210277557373,
      "learning_rate": 1.5913588390501319e-06,
      "loss": 0.3777,
      "step": 6550
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.9853120446205139,
      "learning_rate": 1.3852242744063324e-06,
      "loss": 0.2335,
      "step": 6575
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.24746793508529663,
      "learning_rate": 1.179089709762533e-06,
      "loss": 0.1812,
      "step": 6600
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.739319324493408,
      "learning_rate": 9.729551451187335e-07,
      "loss": 0.2132,
      "step": 6625
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.38551005721092224,
      "learning_rate": 7.66820580474934e-07,
      "loss": 0.2686,
      "step": 6650
    },
    {
      "epoch": 2.97,
      "grad_norm": 6.976538181304932,
      "learning_rate": 5.606860158311346e-07,
      "loss": 0.507,
      "step": 6675
    },
    {
      "epoch": 2.98,
      "grad_norm": 6.835049152374268,
      "learning_rate": 3.5455145118733513e-07,
      "loss": 0.4169,
      "step": 6700
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.45143523812294006,
      "learning_rate": 1.4841688654353562e-07,
      "loss": 0.3045,
      "step": 6725
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.9278878255063432,
      "eval_f1_macro": 0.5509939923795275,
      "eval_f1_micro": 0.9278878255063432,
      "eval_f1_weighted": 0.915533252030031,
      "eval_loss": 0.2612117528915405,
      "eval_precision_macro": 0.7507175360173887,
      "eval_precision_micro": 0.9278878255063432,
      "eval_precision_weighted": 0.9184859185112592,
      "eval_recall_macro": 0.4872137731200702,
      "eval_recall_micro": 0.9278878255063432,
      "eval_recall_weighted": 0.9278878255063432,
      "eval_runtime": 408.2523,
      "eval_samples_per_second": 11.005,
      "eval_steps_per_second": 0.688,
      "step": 6738
    }
  ],
  "logging_steps": 25,
  "max_steps": 6738,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 4.1760701843670835e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}