{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 33.0,
  "eval_steps": 500,
  "global_step": 17457,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.19,
      "learning_rate": 3e-05,
      "loss": 1.7194,
      "step": 100
    },
    {
      "epoch": 0.38,
      "learning_rate": 3e-05,
      "loss": 1.4369,
      "step": 200
    },
    {
      "epoch": 0.57,
      "learning_rate": 3e-05,
      "loss": 1.4257,
      "step": 300
    },
    {
      "epoch": 0.76,
      "learning_rate": 3e-05,
      "loss": 1.3947,
      "step": 400
    },
    {
      "epoch": 0.95,
      "learning_rate": 3e-05,
      "loss": 1.3948,
      "step": 500
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.6132307692307692,
      "eval_loss": 1.3087366819381714,
      "eval_runtime": 4.3553,
      "eval_samples_per_second": 114.803,
      "eval_steps_per_second": 14.465,
      "step": 529
    },
    {
      "epoch": 1.0,
      "eval_exact_match": 24.4,
      "eval_f1": 37.614420394420414,
      "step": 529
    },
    {
      "epoch": 1.13,
      "learning_rate": 3e-05,
      "loss": 1.3927,
      "step": 600
    },
    {
      "epoch": 1.32,
      "learning_rate": 3e-05,
      "loss": 1.3644,
      "step": 700
    },
    {
      "epoch": 1.51,
      "learning_rate": 3e-05,
      "loss": 1.3791,
      "step": 800
    },
    {
      "epoch": 1.7,
      "learning_rate": 3e-05,
      "loss": 1.3627,
      "step": 900
    },
    {
      "epoch": 1.89,
      "learning_rate": 3e-05,
      "loss": 1.3789,
      "step": 1000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.6146153846153846,
      "eval_loss": 1.289727807044983,
      "eval_runtime": 4.4281,
      "eval_samples_per_second": 112.915,
      "eval_steps_per_second": 14.227,
      "step": 1058
    },
    {
      "epoch": 2.0,
      "eval_exact_match": 23.2,
      "eval_f1": 35.56775335775336,
      "step": 1058
    },
    {
      "epoch": 2.08,
      "learning_rate": 3e-05,
      "loss": 1.3605,
      "step": 1100
    },
    {
      "epoch": 2.27,
      "learning_rate": 3e-05,
      "loss": 1.3306,
      "step": 1200
    },
    {
      "epoch": 2.46,
      "learning_rate": 3e-05,
      "loss": 1.3318,
      "step": 1300
    },
    {
      "epoch": 2.65,
      "learning_rate": 3e-05,
      "loss": 1.3491,
      "step": 1400
    },
    {
      "epoch": 2.84,
      "learning_rate": 3e-05,
      "loss": 1.3259,
      "step": 1500
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.6178974358974358,
      "eval_loss": 1.2849316596984863,
      "eval_runtime": 4.875,
      "eval_samples_per_second": 102.565,
      "eval_steps_per_second": 12.923,
      "step": 1587
    },
    {
      "epoch": 3.0,
      "eval_exact_match": 25.2,
      "eval_f1": 37.32698412698414,
      "step": 1587
    },
    {
      "epoch": 3.02,
      "learning_rate": 3e-05,
      "loss": 1.3255,
      "step": 1600
    },
    {
      "epoch": 3.21,
      "learning_rate": 3e-05,
      "loss": 1.28,
      "step": 1700
    },
    {
      "epoch": 3.4,
      "learning_rate": 3e-05,
      "loss": 1.2995,
      "step": 1800
    },
    {
      "epoch": 3.59,
      "learning_rate": 3e-05,
      "loss": 1.2991,
      "step": 1900
    },
    {
      "epoch": 3.78,
      "learning_rate": 3e-05,
      "loss": 1.3024,
      "step": 2000
    },
    {
      "epoch": 3.97,
      "learning_rate": 3e-05,
      "loss": 1.2853,
      "step": 2100
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.615948717948718,
      "eval_loss": 1.316924810409546,
      "eval_runtime": 5.3385,
      "eval_samples_per_second": 93.659,
      "eval_steps_per_second": 11.801,
      "step": 2116
    },
    {
      "epoch": 4.0,
      "eval_exact_match": 23.8,
      "eval_f1": 36.284920634920645,
      "step": 2116
    },
    {
      "epoch": 4.16,
      "learning_rate": 3e-05,
      "loss": 1.2575,
      "step": 2200
    },
    {
      "epoch": 4.35,
      "learning_rate": 3e-05,
      "loss": 1.2261,
      "step": 2300
    },
    {
      "epoch": 4.54,
      "learning_rate": 3e-05,
      "loss": 1.2536,
      "step": 2400
    },
    {
      "epoch": 4.73,
      "learning_rate": 3e-05,
      "loss": 1.2376,
      "step": 2500
    },
    {
      "epoch": 4.91,
      "learning_rate": 3e-05,
      "loss": 1.2556,
      "step": 2600
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.6131794871794872,
      "eval_loss": 1.3531945943832397,
      "eval_runtime": 4.4382,
      "eval_samples_per_second": 112.659,
      "eval_steps_per_second": 14.195,
      "step": 2645
    },
    {
      "epoch": 5.0,
      "eval_exact_match": 25.8,
      "eval_f1": 37.67571428571429,
      "step": 2645
    },
    {
      "epoch": 5.1,
      "learning_rate": 3e-05,
      "loss": 1.2195,
      "step": 2700
    },
    {
      "epoch": 5.29,
      "learning_rate": 3e-05,
      "loss": 1.2003,
      "step": 2800
    },
    {
      "epoch": 5.48,
      "learning_rate": 3e-05,
      "loss": 1.1864,
      "step": 2900
    },
    {
      "epoch": 5.67,
      "learning_rate": 3e-05,
      "loss": 1.2231,
      "step": 3000
    },
    {
      "epoch": 5.86,
      "learning_rate": 3e-05,
      "loss": 1.1972,
      "step": 3100
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.6125641025641025,
      "eval_loss": 1.4135066270828247,
      "eval_runtime": 5.0312,
      "eval_samples_per_second": 99.38,
      "eval_steps_per_second": 12.522,
      "step": 3174
    },
    {
      "epoch": 6.0,
      "eval_exact_match": 24.0,
      "eval_f1": 36.140952380952385,
      "step": 3174
    },
    {
      "epoch": 6.05,
      "learning_rate": 3e-05,
      "loss": 1.1889,
      "step": 3200
    },
    {
      "epoch": 6.24,
      "learning_rate": 3e-05,
      "loss": 1.1471,
      "step": 3300
    },
    {
      "epoch": 6.43,
      "learning_rate": 3e-05,
      "loss": 1.1509,
      "step": 3400
    },
    {
      "epoch": 6.62,
      "learning_rate": 3e-05,
      "loss": 1.1654,
      "step": 3500
    },
    {
      "epoch": 6.81,
      "learning_rate": 3e-05,
      "loss": 1.1716,
      "step": 3600
    },
    {
      "epoch": 6.99,
      "learning_rate": 3e-05,
      "loss": 1.1839,
      "step": 3700
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.6081025641025641,
      "eval_loss": 1.500714898109436,
      "eval_runtime": 4.4677,
      "eval_samples_per_second": 111.916,
      "eval_steps_per_second": 14.101,
      "step": 3703
    },
    {
      "epoch": 7.0,
      "eval_exact_match": 22.8,
      "eval_f1": 33.44777777777779,
      "step": 3703
    },
    {
      "epoch": 7.18,
      "learning_rate": 3e-05,
      "loss": 1.1059,
      "step": 3800
    },
    {
      "epoch": 7.37,
      "learning_rate": 3e-05,
      "loss": 1.1146,
      "step": 3900
    },
    {
      "epoch": 7.56,
      "learning_rate": 3e-05,
      "loss": 1.1121,
      "step": 4000
    },
    {
      "epoch": 7.75,
      "learning_rate": 3e-05,
      "loss": 1.1286,
      "step": 4100
    },
    {
      "epoch": 7.94,
      "learning_rate": 3e-05,
      "loss": 1.1334,
      "step": 4200
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.6074358974358974,
      "eval_loss": 1.524243950843811,
      "eval_runtime": 4.2161,
      "eval_samples_per_second": 118.592,
      "eval_steps_per_second": 14.943,
      "step": 4232
    },
    {
      "epoch": 8.0,
      "eval_exact_match": 23.2,
      "eval_f1": 34.507792207792214,
      "step": 4232
    },
    {
      "epoch": 8.13,
      "learning_rate": 3e-05,
      "loss": 1.1072,
      "step": 4300
    },
    {
      "epoch": 8.32,
      "learning_rate": 3e-05,
      "loss": 1.0626,
      "step": 4400
    },
    {
      "epoch": 8.51,
      "learning_rate": 3e-05,
      "loss": 1.0842,
      "step": 4500
    },
    {
      "epoch": 8.7,
      "learning_rate": 3e-05,
      "loss": 1.0812,
      "step": 4600
    },
    {
      "epoch": 8.88,
      "learning_rate": 3e-05,
      "loss": 1.0966,
      "step": 4700
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.5802564102564103,
      "eval_loss": 1.6106736660003662,
      "eval_runtime": 4.2194,
      "eval_samples_per_second": 118.5,
      "eval_steps_per_second": 14.931,
      "step": 4761
    },
    {
      "epoch": 9.0,
      "eval_exact_match": 22.8,
      "eval_f1": 34.45666666666666,
      "step": 4761
    },
    {
      "epoch": 9.07,
      "learning_rate": 3e-05,
      "loss": 1.0755,
      "step": 4800
    },
    {
      "epoch": 9.26,
      "learning_rate": 3e-05,
      "loss": 1.0189,
      "step": 4900
    },
    {
      "epoch": 9.45,
      "learning_rate": 3e-05,
      "loss": 1.0565,
      "step": 5000
    },
    {
      "epoch": 9.64,
      "learning_rate": 3e-05,
      "loss": 1.0635,
      "step": 5100
    },
    {
      "epoch": 9.83,
      "learning_rate": 3e-05,
      "loss": 1.0485,
      "step": 5200
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.6049230769230769,
      "eval_loss": 1.6749216318130493,
      "eval_runtime": 4.8521,
      "eval_samples_per_second": 103.048,
      "eval_steps_per_second": 12.984,
      "step": 5290
    },
    {
      "epoch": 10.0,
      "eval_exact_match": 22.8,
      "eval_f1": 34.3535064935065,
      "step": 5290
    },
    {
      "epoch": 10.02,
      "learning_rate": 3e-05,
      "loss": 1.0585,
      "step": 5300
    },
    {
      "epoch": 10.21,
      "learning_rate": 3e-05,
      "loss": 1.0098,
      "step": 5400
    },
    {
      "epoch": 10.4,
      "learning_rate": 3e-05,
      "loss": 0.9935,
      "step": 5500
    },
    {
      "epoch": 10.59,
      "learning_rate": 3e-05,
      "loss": 1.0178,
      "step": 5600
    },
    {
      "epoch": 10.78,
      "learning_rate": 3e-05,
      "loss": 1.0217,
      "step": 5700
    },
    {
      "epoch": 10.96,
      "learning_rate": 3e-05,
      "loss": 1.021,
      "step": 5800
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.6014871794871794,
      "eval_loss": 1.7323671579360962,
      "eval_runtime": 4.4139,
      "eval_samples_per_second": 113.28,
      "eval_steps_per_second": 14.273,
      "step": 5819
    },
    {
      "epoch": 11.0,
      "eval_exact_match": 22.4,
      "eval_f1": 34.060490620490626,
      "step": 5819
    },
    {
      "epoch": 11.15,
      "learning_rate": 3e-05,
      "loss": 0.9788,
      "step": 5900
    },
    {
      "epoch": 11.34,
      "learning_rate": 3e-05,
      "loss": 0.9799,
      "step": 6000
    },
    {
      "epoch": 11.53,
      "learning_rate": 3e-05,
      "loss": 0.9749,
      "step": 6100
    },
    {
      "epoch": 11.72,
      "learning_rate": 3e-05,
      "loss": 0.981,
      "step": 6200
    },
    {
      "epoch": 11.91,
      "learning_rate": 3e-05,
      "loss": 0.9918,
      "step": 6300
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.6007179487179487,
      "eval_loss": 1.7632156610488892,
      "eval_runtime": 4.4251,
      "eval_samples_per_second": 112.992,
      "eval_steps_per_second": 14.237,
      "step": 6348
    },
    {
      "epoch": 12.0,
      "eval_exact_match": 22.4,
      "eval_f1": 33.017142857142865,
      "step": 6348
    },
    {
      "epoch": 12.1,
      "learning_rate": 3e-05,
      "loss": 0.967,
      "step": 6400
    },
    {
      "epoch": 12.29,
      "learning_rate": 3e-05,
      "loss": 0.9341,
      "step": 6500
    },
    {
      "epoch": 12.48,
      "learning_rate": 3e-05,
      "loss": 0.9656,
      "step": 6600
    },
    {
      "epoch": 12.67,
      "learning_rate": 3e-05,
      "loss": 0.9519,
      "step": 6700
    },
    {
      "epoch": 12.85,
      "learning_rate": 3e-05,
      "loss": 0.947,
      "step": 6800
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.6010769230769231,
      "eval_loss": 1.8302537202835083,
      "eval_runtime": 4.849,
      "eval_samples_per_second": 103.115,
      "eval_steps_per_second": 12.992,
      "step": 6877
    },
    {
      "epoch": 13.0,
      "eval_exact_match": 21.6,
      "eval_f1": 32.89746031746034,
      "step": 6877
    },
    {
      "epoch": 13.04,
      "learning_rate": 3e-05,
      "loss": 0.9461,
      "step": 6900
    },
    {
      "epoch": 13.23,
      "learning_rate": 3e-05,
      "loss": 0.9153,
      "step": 7000
    },
    {
      "epoch": 13.42,
      "learning_rate": 3e-05,
      "loss": 0.9166,
      "step": 7100
    },
    {
      "epoch": 13.61,
      "learning_rate": 3e-05,
      "loss": 0.9266,
      "step": 7200
    },
    {
      "epoch": 13.8,
      "learning_rate": 3e-05,
      "loss": 0.9089,
      "step": 7300
    },
    {
      "epoch": 13.99,
      "learning_rate": 3e-05,
      "loss": 0.9376,
      "step": 7400
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.5990769230769231,
      "eval_loss": 1.8872731924057007,
      "eval_runtime": 4.1087,
      "eval_samples_per_second": 121.694,
      "eval_steps_per_second": 15.333,
      "step": 7406
    },
    {
      "epoch": 14.0,
      "eval_exact_match": 20.8,
      "eval_f1": 32.45952380952382,
      "step": 7406
    },
    {
      "epoch": 14.18,
      "learning_rate": 3e-05,
      "loss": 0.8792,
      "step": 7500
    },
    {
      "epoch": 14.37,
      "learning_rate": 3e-05,
      "loss": 0.8787,
      "step": 7600
    },
    {
      "epoch": 14.56,
      "learning_rate": 3e-05,
      "loss": 0.874,
      "step": 7700
    },
    {
      "epoch": 14.74,
      "learning_rate": 3e-05,
      "loss": 0.9123,
      "step": 7800
    },
    {
      "epoch": 14.93,
      "learning_rate": 3e-05,
      "loss": 0.898,
      "step": 7900
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.5975897435897436,
      "eval_loss": 1.96884024143219,
      "eval_runtime": 4.5009,
      "eval_samples_per_second": 111.09,
      "eval_steps_per_second": 13.997,
      "step": 7935
    },
    {
      "epoch": 15.0,
      "eval_exact_match": 20.6,
      "eval_f1": 31.090952380952388,
      "step": 7935
    },
    {
      "epoch": 15.12,
      "learning_rate": 3e-05,
      "loss": 0.8631,
      "step": 8000
    },
    {
      "epoch": 15.31,
      "learning_rate": 3e-05,
      "loss": 0.8353,
      "step": 8100
    },
    {
      "epoch": 15.5,
      "learning_rate": 3e-05,
      "loss": 0.8673,
      "step": 8200
    },
    {
      "epoch": 15.69,
      "learning_rate": 3e-05,
      "loss": 0.8515,
      "step": 8300
    },
    {
      "epoch": 15.88,
      "learning_rate": 3e-05,
      "loss": 0.8559,
      "step": 8400
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.5987692307692307,
      "eval_loss": 1.9724328517913818,
      "eval_runtime": 4.5341,
      "eval_samples_per_second": 110.275,
      "eval_steps_per_second": 13.895,
      "step": 8464
    },
    {
      "epoch": 16.0,
      "eval_exact_match": 21.4,
      "eval_f1": 32.21255411255413,
      "step": 8464
    },
    {
      "epoch": 16.07,
      "learning_rate": 3e-05,
      "loss": 0.8508,
      "step": 8500
    },
    {
      "epoch": 16.26,
      "learning_rate": 3e-05,
      "loss": 0.8122,
      "step": 8600
    },
    {
      "epoch": 16.45,
      "learning_rate": 3e-05,
      "loss": 0.8223,
      "step": 8700
    },
    {
      "epoch": 16.64,
      "learning_rate": 3e-05,
      "loss": 0.8275,
      "step": 8800
    },
    {
      "epoch": 16.82,
      "learning_rate": 3e-05,
      "loss": 0.8348,
      "step": 8900
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.5713846153846154,
      "eval_loss": 1.9815243482589722,
      "eval_runtime": 5.0655,
      "eval_samples_per_second": 98.706,
      "eval_steps_per_second": 12.437,
      "step": 8993
    },
    {
      "epoch": 17.0,
      "eval_exact_match": 20.0,
      "eval_f1": 30.670173160173174,
      "step": 8993
    },
    {
      "epoch": 17.01,
      "learning_rate": 3e-05,
      "loss": 0.837,
      "step": 9000
    },
    {
      "epoch": 17.2,
      "learning_rate": 3e-05,
      "loss": 0.7764,
      "step": 9100
    },
    {
      "epoch": 17.39,
      "learning_rate": 3e-05,
      "loss": 0.7817,
      "step": 9200
    },
    {
      "epoch": 17.58,
      "learning_rate": 3e-05,
      "loss": 0.8068,
      "step": 9300
    },
    {
      "epoch": 17.77,
      "learning_rate": 3e-05,
      "loss": 0.7968,
      "step": 9400
    },
    {
      "epoch": 17.96,
      "learning_rate": 3e-05,
      "loss": 0.8106,
      "step": 9500
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.598,
      "eval_loss": 2.038572072982788,
      "eval_runtime": 4.2168,
      "eval_samples_per_second": 118.574,
      "eval_steps_per_second": 14.94,
      "step": 9522
    },
    {
      "epoch": 18.0,
      "eval_exact_match": 19.2,
      "eval_f1": 30.44984126984128,
      "step": 9522
    },
    {
      "epoch": 18.15,
      "learning_rate": 3e-05,
      "loss": 0.7697,
      "step": 9600
    },
    {
      "epoch": 18.34,
      "learning_rate": 3e-05,
      "loss": 0.7429,
      "step": 9700
    },
    {
      "epoch": 18.53,
      "learning_rate": 3e-05,
      "loss": 0.7468,
      "step": 9800
    },
    {
      "epoch": 18.71,
      "learning_rate": 3e-05,
      "loss": 0.7667,
      "step": 9900
    },
    {
      "epoch": 18.9,
      "learning_rate": 3e-05,
      "loss": 0.7848,
      "step": 10000
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.5963589743589743,
      "eval_loss": 2.0627450942993164,
      "eval_runtime": 4.2486,
      "eval_samples_per_second": 117.685,
      "eval_steps_per_second": 14.828,
      "step": 10051
    },
    {
      "epoch": 19.0,
      "eval_exact_match": 19.0,
      "eval_f1": 29.635238095238098,
      "step": 10051
    },
    {
      "epoch": 19.09,
      "learning_rate": 3e-05,
      "loss": 0.7537,
      "step": 10100
    },
    {
      "epoch": 19.28,
      "learning_rate": 3e-05,
      "loss": 0.718,
      "step": 10200
    },
    {
      "epoch": 19.47,
      "learning_rate": 3e-05,
      "loss": 0.7241,
      "step": 10300
    },
    {
      "epoch": 19.66,
      "learning_rate": 3e-05,
      "loss": 0.7421,
      "step": 10400
    },
    {
      "epoch": 19.85,
      "learning_rate": 3e-05,
      "loss": 0.745,
      "step": 10500
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.5965641025641025,
      "eval_loss": 2.0825321674346924,
      "eval_runtime": 4.9023,
      "eval_samples_per_second": 101.993,
      "eval_steps_per_second": 12.851,
      "step": 10580
    },
    {
      "epoch": 20.0,
      "eval_exact_match": 16.0,
      "eval_f1": 25.784563976747563,
      "step": 10580
    },
    {
      "epoch": 20.04,
      "learning_rate": 3e-05,
      "loss": 0.7384,
      "step": 10600
    },
    {
      "epoch": 20.23,
      "learning_rate": 3e-05,
      "loss": 0.6786,
      "step": 10700
    },
    {
      "epoch": 20.42,
      "learning_rate": 3e-05,
      "loss": 0.6921,
      "step": 10800
    },
    {
      "epoch": 20.6,
      "learning_rate": 3e-05,
      "loss": 0.7092,
      "step": 10900
    },
    {
      "epoch": 20.79,
      "learning_rate": 3e-05,
      "loss": 0.7248,
      "step": 11000
    },
    {
      "epoch": 20.98,
      "learning_rate": 3e-05,
      "loss": 0.7208,
      "step": 11100
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.595948717948718,
      "eval_loss": 2.0958657264709473,
      "eval_runtime": 4.2167,
      "eval_samples_per_second": 118.575,
      "eval_steps_per_second": 14.941,
      "step": 11109
    },
    {
      "epoch": 21.0,
      "eval_exact_match": 9.4,
      "eval_f1": 15.48481664400564,
      "step": 11109
    },
    {
      "epoch": 21.17,
      "learning_rate": 3e-05,
      "loss": 0.6604,
      "step": 11200
    },
    {
      "epoch": 21.36,
      "learning_rate": 3e-05,
      "loss": 0.6599,
      "step": 11300
    },
    {
      "epoch": 21.55,
      "learning_rate": 3e-05,
      "loss": 0.6775,
      "step": 11400
    },
    {
      "epoch": 21.74,
      "learning_rate": 3e-05,
      "loss": 0.7001,
      "step": 11500
    },
    {
      "epoch": 21.93,
      "learning_rate": 3e-05,
      "loss": 0.6842,
      "step": 11600
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.5967692307692307,
      "eval_loss": 2.153414487838745,
      "eval_runtime": 4.8531,
      "eval_samples_per_second": 103.026,
      "eval_steps_per_second": 12.981,
      "step": 11638
    },
    {
      "epoch": 22.0,
      "eval_exact_match": 9.2,
      "eval_f1": 17.03231000578938,
      "step": 11638
    },
    {
      "epoch": 22.12,
      "learning_rate": 3e-05,
      "loss": 0.6544,
      "step": 11700
    },
    {
      "epoch": 22.31,
      "learning_rate": 3e-05,
      "loss": 0.641,
      "step": 11800
    },
    {
      "epoch": 22.5,
      "learning_rate": 3e-05,
      "loss": 0.6369,
      "step": 11900
    },
    {
      "epoch": 22.68,
      "learning_rate": 3e-05,
      "loss": 0.6468,
      "step": 12000
    },
    {
      "epoch": 22.87,
      "learning_rate": 3e-05,
      "loss": 0.6661,
      "step": 12100
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.5974871794871794,
      "eval_loss": 2.179178237915039,
      "eval_runtime": 4.8444,
      "eval_samples_per_second": 103.211,
      "eval_steps_per_second": 13.005,
      "step": 12167
    },
    {
      "epoch": 23.0,
      "eval_exact_match": 3.6,
      "eval_f1": 7.6552922676511725,
      "step": 12167
    },
    {
      "epoch": 23.06,
      "learning_rate": 3e-05,
      "loss": 0.6418,
      "step": 12200
    },
    {
      "epoch": 23.25,
      "learning_rate": 3e-05,
      "loss": 0.6012,
      "step": 12300
    },
    {
      "epoch": 23.44,
      "learning_rate": 3e-05,
      "loss": 0.6211,
      "step": 12400
    },
    {
      "epoch": 23.63,
      "learning_rate": 3e-05,
      "loss": 0.6174,
      "step": 12500
    },
    {
      "epoch": 23.82,
      "learning_rate": 3e-05,
      "loss": 0.6193,
      "step": 12600
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.5967179487179487,
      "eval_loss": 2.152991771697998,
      "eval_runtime": 4.429,
      "eval_samples_per_second": 112.891,
      "eval_steps_per_second": 14.224,
      "step": 12696
    },
    {
      "epoch": 24.0,
      "eval_exact_match": 3.2,
      "eval_f1": 7.263414468771945,
      "step": 12696
    },
    {
      "epoch": 24.01,
      "learning_rate": 3e-05,
      "loss": 0.6329,
      "step": 12700
    },
    {
      "epoch": 24.2,
      "learning_rate": 3e-05,
      "loss": 0.572,
      "step": 12800
    },
    {
      "epoch": 24.39,
      "learning_rate": 3e-05,
      "loss": 0.585,
      "step": 12900
    },
    {
      "epoch": 24.57,
      "learning_rate": 3e-05,
      "loss": 0.5894,
      "step": 13000
    },
    {
      "epoch": 24.76,
      "learning_rate": 3e-05,
      "loss": 0.6002,
      "step": 13100
    },
    {
      "epoch": 24.95,
      "learning_rate": 3e-05,
      "loss": 0.6064,
      "step": 13200
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.5957948717948718,
      "eval_loss": 2.1720352172851562,
      "eval_runtime": 4.1244,
      "eval_samples_per_second": 121.23,
      "eval_steps_per_second": 15.275,
      "step": 13225
    },
    {
      "epoch": 25.0,
      "eval_exact_match": 1.0,
      "eval_f1": 2.817526608207056,
      "step": 13225
    },
    {
      "epoch": 25.14,
      "learning_rate": 3e-05,
      "loss": 0.5603,
      "step": 13300
    },
    {
      "epoch": 25.33,
      "learning_rate": 3e-05,
      "loss": 0.5438,
      "step": 13400
    },
    {
      "epoch": 25.52,
      "learning_rate": 3e-05,
      "loss": 0.5718,
      "step": 13500
    },
    {
      "epoch": 25.71,
      "learning_rate": 3e-05,
      "loss": 0.5804,
      "step": 13600
    },
    {
      "epoch": 25.9,
      "learning_rate": 3e-05,
      "loss": 0.5776,
      "step": 13700
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.5965641025641025,
      "eval_loss": 2.216242790222168,
      "eval_runtime": 4.8581,
      "eval_samples_per_second": 102.921,
      "eval_steps_per_second": 12.968,
      "step": 13754
    },
    {
      "epoch": 26.0,
      "eval_exact_match": 0.6,
      "eval_f1": 1.5737055770144102,
      "step": 13754
    },
    {
      "epoch": 26.09,
      "learning_rate": 3e-05,
      "loss": 0.5613,
      "step": 13800
    },
    {
      "epoch": 26.28,
      "learning_rate": 3e-05,
      "loss": 0.5267,
      "step": 13900
    },
    {
      "epoch": 26.47,
      "learning_rate": 3e-05,
      "loss": 0.542,
      "step": 14000
    },
    {
      "epoch": 26.65,
      "learning_rate": 3e-05,
      "loss": 0.5457,
      "step": 14100
    },
    {
      "epoch": 26.84,
      "learning_rate": 3e-05,
      "loss": 0.5492,
      "step": 14200
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.5861538461538461,
      "eval_loss": 2.238172769546509,
      "eval_runtime": 4.6504,
      "eval_samples_per_second": 107.516,
      "eval_steps_per_second": 13.547,
      "step": 14283
    },
    {
      "epoch": 27.0,
      "eval_exact_match": 0.4,
      "eval_f1": 1.9589310673272307,
      "step": 14283
    },
    {
      "epoch": 27.03,
      "learning_rate": 3e-05,
      "loss": 0.5488,
      "step": 14300
    },
    {
      "epoch": 27.22,
      "learning_rate": 3e-05,
      "loss": 0.5016,
      "step": 14400
    },
    {
      "epoch": 27.41,
      "learning_rate": 3e-05,
      "loss": 0.5115,
      "step": 14500
    },
    {
      "epoch": 27.6,
      "learning_rate": 3e-05,
      "loss": 0.5219,
      "step": 14600
    },
    {
      "epoch": 27.79,
      "learning_rate": 3e-05,
      "loss": 0.5388,
      "step": 14700
    },
    {
      "epoch": 27.98,
      "learning_rate": 3e-05,
      "loss": 0.5256,
      "step": 14800
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.5963076923076923,
      "eval_loss": 2.2273213863372803,
      "eval_runtime": 4.4195,
      "eval_samples_per_second": 113.136,
      "eval_steps_per_second": 14.255,
      "step": 14812
    },
    {
      "epoch": 28.0,
      "eval_exact_match": 0.6,
      "eval_f1": 1.254701854861382,
      "step": 14812
    },
    {
      "epoch": 28.17,
      "learning_rate": 3e-05,
      "loss": 0.4814,
      "step": 14900
    },
    {
      "epoch": 28.36,
      "learning_rate": 3e-05,
      "loss": 0.4943,
      "step": 15000
    },
    {
      "epoch": 28.54,
      "learning_rate": 3e-05,
      "loss": 0.4899,
      "step": 15100
    },
    {
      "epoch": 28.73,
      "learning_rate": 3e-05,
      "loss": 0.5047,
      "step": 15200
    },
    {
      "epoch": 28.92,
      "learning_rate": 3e-05,
      "loss": 0.5128,
      "step": 15300
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.5947692307692307,
      "eval_loss": 2.244802713394165,
      "eval_runtime": 4.2174,
      "eval_samples_per_second": 118.556,
      "eval_steps_per_second": 14.938,
      "step": 15341
    },
    {
      "epoch": 29.0,
      "eval_exact_match": 0.0,
      "eval_f1": 0.3342622661004701,
      "step": 15341
    },
    {
      "epoch": 29.11,
      "learning_rate": 3e-05,
      "loss": 0.4776,
      "step": 15400
    },
    {
      "epoch": 29.3,
      "learning_rate": 3e-05,
      "loss": 0.4659,
      "step": 15500
    },
    {
      "epoch": 29.49,
      "learning_rate": 3e-05,
      "loss": 0.4738,
      "step": 15600
    },
    {
      "epoch": 29.68,
      "learning_rate": 3e-05,
      "loss": 0.4833,
      "step": 15700
    },
    {
      "epoch": 29.87,
      "learning_rate": 3e-05,
      "loss": 0.4846,
      "step": 15800
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.5846153846153846,
      "eval_loss": 2.2697417736053467,
      "eval_runtime": 4.1128,
      "eval_samples_per_second": 121.571,
      "eval_steps_per_second": 15.318,
      "step": 15870
    },
    {
      "epoch": 30.0,
      "eval_exact_match": 0.0,
      "eval_f1": 0.17287697257712523,
      "step": 15870
    },
    {
      "epoch": 30.06,
      "learning_rate": 3e-05,
      "loss": 0.4719,
      "step": 15900
    },
    {
      "epoch": 30.25,
      "learning_rate": 3e-05,
      "loss": 0.4404,
      "step": 16000
    },
    {
      "epoch": 30.43,
      "learning_rate": 3e-05,
      "loss": 0.4533,
      "step": 16100
    },
    {
      "epoch": 30.62,
      "learning_rate": 3e-05,
      "loss": 0.4623,
      "step": 16200
    },
    {
      "epoch": 30.81,
      "learning_rate": 3e-05,
      "loss": 0.4623,
      "step": 16300
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.5968205128205128,
      "eval_loss": 2.242527723312378,
      "eval_runtime": 4.221,
      "eval_samples_per_second": 118.456,
      "eval_steps_per_second": 14.925,
      "step": 16399
    },
    {
      "epoch": 31.0,
      "eval_exact_match": 0.0,
      "eval_f1": 0.03156586531586532,
      "step": 16399
    },
    {
      "epoch": 31.0,
      "learning_rate": 3e-05,
      "loss": 0.4683,
      "step": 16400
    },
    {
      "epoch": 31.19,
      "learning_rate": 3e-05,
      "loss": 0.4273,
      "step": 16500
    },
    {
      "epoch": 31.38,
      "learning_rate": 3e-05,
      "loss": 0.4315,
      "step": 16600
    },
    {
      "epoch": 31.57,
      "learning_rate": 3e-05,
      "loss": 0.4442,
      "step": 16700
    },
    {
      "epoch": 31.76,
      "learning_rate": 3e-05,
      "loss": 0.4539,
      "step": 16800
    },
    {
      "epoch": 31.95,
      "learning_rate": 3e-05,
      "loss": 0.4468,
      "step": 16900
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.5936410256410256,
      "eval_loss": 2.265359401702881,
      "eval_runtime": 4.2139,
      "eval_samples_per_second": 118.656,
      "eval_steps_per_second": 14.951,
      "step": 16928
    },
    {
      "epoch": 32.0,
      "eval_exact_match": 0.0,
      "eval_f1": 0.0,
      "step": 16928
    },
    {
      "epoch": 32.14,
      "learning_rate": 3e-05,
      "loss": 0.4321,
      "step": 17000
    },
    {
      "epoch": 32.33,
      "learning_rate": 3e-05,
      "loss": 0.4213,
      "step": 17100
    },
    {
      "epoch": 32.51,
      "learning_rate": 3e-05,
      "loss": 0.4312,
      "step": 17200
    },
    {
      "epoch": 32.7,
      "learning_rate": 3e-05,
      "loss": 0.442,
      "step": 17300
    },
    {
      "epoch": 32.89,
      "learning_rate": 3e-05,
      "loss": 0.4714,
      "step": 17400
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.5956923076923077,
      "eval_loss": 2.1317203044891357,
      "eval_runtime": 4.6149,
      "eval_samples_per_second": 108.344,
      "eval_steps_per_second": 13.651,
      "step": 17457
    },
    {
      "epoch": 33.0,
      "eval_exact_match": 0.0,
      "eval_f1": 0.0,
      "step": 17457
    }
  ],
  "logging_steps": 100,
  "max_steps": 26450,
  "num_train_epochs": 50,
  "save_steps": 500,
  "total_flos": 2.9485155706281656e+18,
  "trial_name": null,
  "trial_params": null
}