{
  "best_metric": 0.7611846765843823,
  "best_model_checkpoint": "./finetuned/wikitext103_roberta-base_v2/checkpoint-123000",
  "epoch": 20.0,
  "global_step": 147800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07,
      "learning_rate": 4.983085250338295e-05,
      "loss": 1.4212,
      "step": 500
    },
    {
      "epoch": 0.07,
      "eval_accuracy": 0.7235698186111409,
      "eval_loss": 1.3007760047912598,
      "eval_runtime": 2.6682,
      "eval_samples_per_second": 185.892,
      "eval_steps_per_second": 5.997,
      "step": 500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.96617050067659e-05,
      "loss": 1.3933,
      "step": 1000
    },
    {
      "epoch": 0.14,
      "eval_accuracy": 0.7226983316766515,
      "eval_loss": 1.2827116250991821,
      "eval_runtime": 2.1995,
      "eval_samples_per_second": 225.505,
      "eval_steps_per_second": 7.274,
      "step": 1000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.949255751014885e-05,
      "loss": 1.3917,
      "step": 1500
    },
    {
      "epoch": 0.2,
      "eval_accuracy": 0.7266257137444863,
      "eval_loss": 1.2815688848495483,
      "eval_runtime": 2.1563,
      "eval_samples_per_second": 230.027,
      "eval_steps_per_second": 7.42,
      "step": 1500
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.93234100135318e-05,
      "loss": 1.3824,
      "step": 2000
    },
    {
      "epoch": 0.27,
      "eval_accuracy": 0.7251124131353045,
      "eval_loss": 1.294681191444397,
      "eval_runtime": 2.1464,
      "eval_samples_per_second": 231.089,
      "eval_steps_per_second": 7.454,
      "step": 2000
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.915426251691475e-05,
      "loss": 1.3835,
      "step": 2500
    },
    {
      "epoch": 0.34,
      "eval_accuracy": 0.7289371440736602,
      "eval_loss": 1.2555147409439087,
      "eval_runtime": 2.2812,
      "eval_samples_per_second": 217.427,
      "eval_steps_per_second": 7.014,
      "step": 2500
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.89851150202977e-05,
      "loss": 1.3758,
      "step": 3000
    },
    {
      "epoch": 0.41,
      "eval_accuracy": 0.7279413775189347,
      "eval_loss": 1.2611732482910156,
      "eval_runtime": 2.2556,
      "eval_samples_per_second": 219.898,
      "eval_steps_per_second": 7.093,
      "step": 3000
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.881596752368065e-05,
      "loss": 1.3745,
      "step": 3500
    },
    {
      "epoch": 0.47,
      "eval_accuracy": 0.7244728228792188,
      "eval_loss": 1.279096007347107,
      "eval_runtime": 1.9103,
      "eval_samples_per_second": 259.647,
      "eval_steps_per_second": 8.376,
      "step": 3500
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.86468200270636e-05,
      "loss": 1.3761,
      "step": 4000
    },
    {
      "epoch": 0.54,
      "eval_accuracy": 0.7286496152595643,
      "eval_loss": 1.2621806859970093,
      "eval_runtime": 2.2565,
      "eval_samples_per_second": 219.811,
      "eval_steps_per_second": 7.091,
      "step": 4000
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.847767253044655e-05,
      "loss": 1.3735,
      "step": 4500
    },
    {
      "epoch": 0.61,
      "eval_accuracy": 0.7359971845474972,
      "eval_loss": 1.231848955154419,
      "eval_runtime": 2.2526,
      "eval_samples_per_second": 220.188,
      "eval_steps_per_second": 7.103,
      "step": 4500
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.83085250338295e-05,
      "loss": 1.3717,
      "step": 5000
    },
    {
      "epoch": 0.68,
      "eval_accuracy": 0.7259761388286334,
      "eval_loss": 1.2777374982833862,
      "eval_runtime": 2.343,
      "eval_samples_per_second": 211.693,
      "eval_steps_per_second": 6.829,
      "step": 5000
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.813937753721245e-05,
      "loss": 1.3675,
      "step": 5500
    },
    {
      "epoch": 0.74,
      "eval_accuracy": 0.7309145880574452,
      "eval_loss": 1.2589675188064575,
      "eval_runtime": 2.0349,
      "eval_samples_per_second": 243.741,
      "eval_steps_per_second": 7.863,
      "step": 5500
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.79702300405954e-05,
      "loss": 1.3585,
      "step": 6000
    },
    {
      "epoch": 0.81,
      "eval_accuracy": 0.7253910822602958,
      "eval_loss": 1.2838590145111084,
      "eval_runtime": 2.2225,
      "eval_samples_per_second": 223.175,
      "eval_steps_per_second": 7.199,
      "step": 6000
    },
    {
      "epoch": 0.88,
      "learning_rate": 4.780108254397835e-05,
      "loss": 1.3579,
      "step": 6500
    },
    {
      "epoch": 0.88,
      "eval_accuracy": 0.7347076623797687,
      "eval_loss": 1.2341055870056152,
      "eval_runtime": 1.8958,
      "eval_samples_per_second": 261.625,
      "eval_steps_per_second": 8.44,
      "step": 6500
    },
    {
      "epoch": 0.95,
      "learning_rate": 4.76319350473613e-05,
      "loss": 1.3588,
      "step": 7000
    },
    {
      "epoch": 0.95,
      "eval_accuracy": 0.7326682357975821,
      "eval_loss": 1.2412930727005005,
      "eval_runtime": 2.1422,
      "eval_samples_per_second": 231.54,
      "eval_steps_per_second": 7.469,
      "step": 7000
    },
    {
      "epoch": 1.01,
      "learning_rate": 4.746278755074425e-05,
      "loss": 1.351,
      "step": 7500
    },
    {
      "epoch": 1.01,
      "eval_accuracy": 0.7317281968967362,
      "eval_loss": 1.2459222078323364,
      "eval_runtime": 2.2341,
      "eval_samples_per_second": 222.016,
      "eval_steps_per_second": 7.162,
      "step": 7500
    },
    {
      "epoch": 1.08,
      "learning_rate": 4.72936400541272e-05,
      "loss": 1.3394,
      "step": 8000
    },
    {
      "epoch": 1.08,
      "eval_accuracy": 0.7314233839745815,
      "eval_loss": 1.242180347442627,
      "eval_runtime": 2.2469,
      "eval_samples_per_second": 220.751,
      "eval_steps_per_second": 7.121,
      "step": 8000
    },
    {
      "epoch": 1.15,
      "learning_rate": 4.712449255751015e-05,
      "loss": 1.3429,
      "step": 8500
    },
    {
      "epoch": 1.15,
      "eval_accuracy": 0.734901599848407,
      "eval_loss": 1.2285393476486206,
      "eval_runtime": 2.1498,
      "eval_samples_per_second": 230.723,
      "eval_steps_per_second": 7.443,
      "step": 8500
    },
    {
      "epoch": 1.22,
      "learning_rate": 4.69553450608931e-05,
      "loss": 1.3393,
      "step": 9000
    },
    {
      "epoch": 1.22,
      "eval_accuracy": 0.7324128503075872,
      "eval_loss": 1.2404521703720093,
      "eval_runtime": 2.2579,
      "eval_samples_per_second": 219.671,
      "eval_steps_per_second": 7.086,
      "step": 9000
    },
    {
      "epoch": 1.29,
      "learning_rate": 4.678619756427605e-05,
      "loss": 1.3421,
      "step": 9500
    },
    {
      "epoch": 1.29,
      "eval_accuracy": 0.735434836099188,
      "eval_loss": 1.2255122661590576,
      "eval_runtime": 2.2664,
      "eval_samples_per_second": 218.847,
      "eval_steps_per_second": 7.06,
      "step": 9500
    },
    {
      "epoch": 1.35,
      "learning_rate": 4.6617050067659e-05,
      "loss": 1.3426,
      "step": 10000
    },
    {
      "epoch": 1.35,
      "eval_accuracy": 0.7333513221802482,
      "eval_loss": 1.2296382188796997,
      "eval_runtime": 2.1344,
      "eval_samples_per_second": 232.385,
      "eval_steps_per_second": 7.496,
      "step": 10000
    },
    {
      "epoch": 1.42,
      "learning_rate": 4.644790257104195e-05,
      "loss": 1.3326,
      "step": 10500
    },
    {
      "epoch": 1.42,
      "eval_accuracy": 0.7351480394040008,
      "eval_loss": 1.2158225774765015,
      "eval_runtime": 2.1342,
      "eval_samples_per_second": 232.406,
      "eval_steps_per_second": 7.497,
      "step": 10500
    },
    {
      "epoch": 1.49,
      "learning_rate": 4.62787550744249e-05,
      "loss": 1.3355,
      "step": 11000
    },
    {
      "epoch": 1.49,
      "eval_accuracy": 0.7364017876607805,
      "eval_loss": 1.2255741357803345,
      "eval_runtime": 2.1391,
      "eval_samples_per_second": 231.876,
      "eval_steps_per_second": 7.48,
      "step": 11000
    },
    {
      "epoch": 1.56,
      "learning_rate": 4.610960757780785e-05,
      "loss": 1.3324,
      "step": 11500
    },
    {
      "epoch": 1.56,
      "eval_accuracy": 0.7355829363706523,
      "eval_loss": 1.2208420038223267,
      "eval_runtime": 2.251,
      "eval_samples_per_second": 220.348,
      "eval_steps_per_second": 7.108,
      "step": 11500
    },
    {
      "epoch": 1.62,
      "learning_rate": 4.59404600811908e-05,
      "loss": 1.3331,
      "step": 12000
    },
    {
      "epoch": 1.62,
      "eval_accuracy": 0.7347190272757148,
      "eval_loss": 1.2230000495910645,
      "eval_runtime": 2.1329,
      "eval_samples_per_second": 232.552,
      "eval_steps_per_second": 7.502,
      "step": 12000
    },
    {
      "epoch": 1.69,
      "learning_rate": 4.577131258457375e-05,
      "loss": 1.3326,
      "step": 12500
    },
    {
      "epoch": 1.69,
      "eval_accuracy": 0.7316047842477829,
      "eval_loss": 1.250501275062561,
      "eval_runtime": 2.2566,
      "eval_samples_per_second": 219.795,
      "eval_steps_per_second": 7.09,
      "step": 12500
    },
    {
      "epoch": 1.76,
      "learning_rate": 4.56021650879567e-05,
      "loss": 1.3339,
      "step": 13000
    },
    {
      "epoch": 1.76,
      "eval_accuracy": 0.7321860715246034,
      "eval_loss": 1.2471247911453247,
      "eval_runtime": 1.8846,
      "eval_samples_per_second": 263.185,
      "eval_steps_per_second": 8.49,
      "step": 13000
    },
    {
      "epoch": 1.83,
      "learning_rate": 4.543301759133965e-05,
      "loss": 1.3286,
      "step": 13500
    },
    {
      "epoch": 1.83,
      "eval_accuracy": 0.7358603599923753,
      "eval_loss": 1.218480110168457,
      "eval_runtime": 2.183,
      "eval_samples_per_second": 227.211,
      "eval_steps_per_second": 7.329,
      "step": 13500
    },
    {
      "epoch": 1.89,
      "learning_rate": 4.52638700947226e-05,
      "loss": 1.3314,
      "step": 14000
    },
    {
      "epoch": 1.89,
      "eval_accuracy": 0.7363198956152989,
      "eval_loss": 1.2333292961120605,
      "eval_runtime": 1.922,
      "eval_samples_per_second": 258.068,
      "eval_steps_per_second": 8.325,
      "step": 14000
    },
    {
      "epoch": 1.96,
      "learning_rate": 4.509472259810555e-05,
      "loss": 1.325,
      "step": 14500
    },
    {
      "epoch": 1.96,
      "eval_accuracy": 0.7320171162387606,
      "eval_loss": 1.2384274005889893,
      "eval_runtime": 2.1484,
      "eval_samples_per_second": 230.871,
      "eval_steps_per_second": 7.447,
      "step": 14500
    },
    {
      "epoch": 2.03,
      "learning_rate": 4.49255751014885e-05,
      "loss": 1.3251,
      "step": 15000
    },
    {
      "epoch": 2.03,
      "eval_accuracy": 0.7332704232946886,
      "eval_loss": 1.2141916751861572,
      "eval_runtime": 2.1498,
      "eval_samples_per_second": 230.723,
      "eval_steps_per_second": 7.443,
      "step": 15000
    },
    {
      "epoch": 2.1,
      "learning_rate": 4.475642760487145e-05,
      "loss": 1.3136,
      "step": 15500
    },
    {
      "epoch": 2.1,
      "eval_accuracy": 0.7346380072100398,
      "eval_loss": 1.2162067890167236,
      "eval_runtime": 2.2669,
      "eval_samples_per_second": 218.8,
      "eval_steps_per_second": 7.058,
      "step": 15500
    },
    {
      "epoch": 2.17,
      "learning_rate": 4.45872801082544e-05,
      "loss": 1.3202,
      "step": 16000
    },
    {
      "epoch": 2.17,
      "eval_accuracy": 0.7368549767669357,
      "eval_loss": 1.220727801322937,
      "eval_runtime": 2.1251,
      "eval_samples_per_second": 233.399,
      "eval_steps_per_second": 7.529,
      "step": 16000
    },
    {
      "epoch": 2.23,
      "learning_rate": 4.441813261163735e-05,
      "loss": 1.3168,
      "step": 16500
    },
    {
      "epoch": 2.23,
      "eval_accuracy": 0.7391136589130195,
      "eval_loss": 1.1931146383285522,
      "eval_runtime": 2.2628,
      "eval_samples_per_second": 219.196,
      "eval_steps_per_second": 7.071,
      "step": 16500
    },
    {
      "epoch": 2.3,
      "learning_rate": 4.42489851150203e-05,
      "loss": 1.3134,
      "step": 17000
    },
    {
      "epoch": 2.3,
      "eval_accuracy": 0.7398447820343461,
      "eval_loss": 1.1856846809387207,
      "eval_runtime": 2.1315,
      "eval_samples_per_second": 232.703,
      "eval_steps_per_second": 7.507,
      "step": 17000
    },
    {
      "epoch": 2.37,
      "learning_rate": 4.407983761840325e-05,
      "loss": 1.3085,
      "step": 17500
    },
    {
      "epoch": 2.37,
      "eval_accuracy": 0.7383094012462748,
      "eval_loss": 1.2111510038375854,
      "eval_runtime": 2.2389,
      "eval_samples_per_second": 221.538,
      "eval_steps_per_second": 7.146,
      "step": 17500
    },
    {
      "epoch": 2.44,
      "learning_rate": 4.39106901217862e-05,
      "loss": 1.3165,
      "step": 18000
    },
    {
      "epoch": 2.44,
      "eval_accuracy": 0.736477152685609,
      "eval_loss": 1.2284483909606934,
      "eval_runtime": 2.2655,
      "eval_samples_per_second": 218.936,
      "eval_steps_per_second": 7.062,
      "step": 18000
    },
    {
      "epoch": 2.5,
      "learning_rate": 4.374154262516915e-05,
      "loss": 1.3144,
      "step": 18500
    },
    {
      "epoch": 2.5,
      "eval_accuracy": 0.7387957989256795,
      "eval_loss": 1.2013208866119385,
      "eval_runtime": 2.1477,
      "eval_samples_per_second": 230.94,
      "eval_steps_per_second": 7.45,
      "step": 18500
    },
    {
      "epoch": 2.57,
      "learning_rate": 4.35723951285521e-05,
      "loss": 1.319,
      "step": 19000
    },
    {
      "epoch": 2.57,
      "eval_accuracy": 0.7355637897925513,
      "eval_loss": 1.217348337173462,
      "eval_runtime": 1.8976,
      "eval_samples_per_second": 261.38,
      "eval_steps_per_second": 8.432,
      "step": 19000
    },
    {
      "epoch": 2.64,
      "learning_rate": 4.340324763193505e-05,
      "loss": 1.3147,
      "step": 19500
    },
    {
      "epoch": 2.64,
      "eval_accuracy": 0.7403712864559268,
      "eval_loss": 1.1786144971847534,
      "eval_runtime": 2.1417,
      "eval_samples_per_second": 231.588,
      "eval_steps_per_second": 7.471,
      "step": 19500
    },
    {
      "epoch": 2.71,
      "learning_rate": 4.3234100135318e-05,
      "loss": 1.311,
      "step": 20000
    },
    {
      "epoch": 2.71,
      "eval_accuracy": 0.7372879017795558,
      "eval_loss": 1.2008836269378662,
      "eval_runtime": 2.2409,
      "eval_samples_per_second": 221.338,
      "eval_steps_per_second": 7.14,
      "step": 20000
    },
    {
      "epoch": 2.77,
      "learning_rate": 4.306495263870095e-05,
      "loss": 1.3131,
      "step": 20500
    },
    {
      "epoch": 2.77,
      "eval_accuracy": 0.7366438077684113,
      "eval_loss": 1.1992290019989014,
      "eval_runtime": 2.3077,
      "eval_samples_per_second": 214.937,
      "eval_steps_per_second": 6.933,
      "step": 20500
    },
    {
      "epoch": 2.84,
      "learning_rate": 4.28958051420839e-05,
      "loss": 1.3036,
      "step": 21000
    },
    {
      "epoch": 2.84,
      "eval_accuracy": 0.7369976679863333,
      "eval_loss": 1.2166584730148315,
      "eval_runtime": 2.1243,
      "eval_samples_per_second": 233.491,
      "eval_steps_per_second": 7.532,
      "step": 21000
    },
    {
      "epoch": 2.91,
      "learning_rate": 4.272665764546685e-05,
      "loss": 1.3122,
      "step": 21500
    },
    {
      "epoch": 2.91,
      "eval_accuracy": 0.7378714413413875,
      "eval_loss": 1.2138844728469849,
      "eval_runtime": 2.155,
      "eval_samples_per_second": 230.165,
      "eval_steps_per_second": 7.425,
      "step": 21500
    },
    {
      "epoch": 2.98,
      "learning_rate": 4.25575101488498e-05,
      "loss": 1.3091,
      "step": 22000
    },
    {
      "epoch": 2.98,
      "eval_accuracy": 0.7364524804942348,
      "eval_loss": 1.2197295427322388,
      "eval_runtime": 2.0278,
      "eval_samples_per_second": 244.602,
      "eval_steps_per_second": 7.89,
      "step": 22000
    },
    {
      "epoch": 3.04,
      "learning_rate": 4.238836265223275e-05,
      "loss": 1.304,
      "step": 22500
    },
    {
      "epoch": 3.04,
      "eval_accuracy": 0.7371755128447044,
      "eval_loss": 1.186427354812622,
      "eval_runtime": 2.0462,
      "eval_samples_per_second": 242.4,
      "eval_steps_per_second": 7.819,
      "step": 22500
    },
    {
      "epoch": 3.11,
      "learning_rate": 4.22192151556157e-05,
      "loss": 1.3015,
      "step": 23000
    },
    {
      "epoch": 3.11,
      "eval_accuracy": 0.7355039424985249,
      "eval_loss": 1.2046276330947876,
      "eval_runtime": 2.0572,
      "eval_samples_per_second": 241.108,
      "eval_steps_per_second": 7.778,
      "step": 23000
    },
    {
      "epoch": 3.18,
      "learning_rate": 4.205006765899865e-05,
      "loss": 1.2916,
      "step": 23500
    },
    {
      "epoch": 3.18,
      "eval_accuracy": 0.7344874591057797,
      "eval_loss": 1.2312067747116089,
      "eval_runtime": 2.3523,
      "eval_samples_per_second": 210.856,
      "eval_steps_per_second": 6.802,
      "step": 23500
    },
    {
      "epoch": 3.25,
      "learning_rate": 4.18809201623816e-05,
      "loss": 1.2966,
      "step": 24000
    },
    {
      "epoch": 3.25,
      "eval_accuracy": 0.7372955288985823,
      "eval_loss": 1.2116466760635376,
      "eval_runtime": 2.306,
      "eval_samples_per_second": 215.094,
      "eval_steps_per_second": 6.939,
      "step": 24000
    },
    {
      "epoch": 3.32,
      "learning_rate": 4.171177266576455e-05,
      "loss": 1.2991,
      "step": 24500
    },
    {
      "epoch": 3.32,
      "eval_accuracy": 0.737794624029042,
      "eval_loss": 1.2262712717056274,
      "eval_runtime": 2.2208,
      "eval_samples_per_second": 223.344,
      "eval_steps_per_second": 7.205,
      "step": 24500
    },
    {
      "epoch": 3.38,
      "learning_rate": 4.15426251691475e-05,
      "loss": 1.3003,
      "step": 25000
    },
    {
      "epoch": 3.38,
      "eval_accuracy": 0.741288193792419,
      "eval_loss": 1.184373378753662,
      "eval_runtime": 2.336,
      "eval_samples_per_second": 212.325,
      "eval_steps_per_second": 6.849,
      "step": 25000
    },
    {
      "epoch": 3.45,
      "learning_rate": 4.137347767253045e-05,
      "loss": 1.2942,
      "step": 25500
    },
    {
      "epoch": 3.45,
      "eval_accuracy": 0.7368591999133871,
      "eval_loss": 1.195932149887085,
      "eval_runtime": 2.1558,
      "eval_samples_per_second": 230.073,
      "eval_steps_per_second": 7.422,
      "step": 25500
    },
    {
      "epoch": 3.52,
      "learning_rate": 4.12043301759134e-05,
      "loss": 1.2988,
      "step": 26000
    },
    {
      "epoch": 3.52,
      "eval_accuracy": 0.7381074306659838,
      "eval_loss": 1.2017642259597778,
      "eval_runtime": 2.1521,
      "eval_samples_per_second": 230.473,
      "eval_steps_per_second": 7.435,
      "step": 26000
    },
    {
      "epoch": 3.59,
      "learning_rate": 4.103518267929635e-05,
      "loss": 1.2936,
      "step": 26500
    },
    {
      "epoch": 3.59,
      "eval_accuracy": 0.7388343788536808,
      "eval_loss": 1.1992815732955933,
      "eval_runtime": 2.3209,
      "eval_samples_per_second": 213.713,
      "eval_steps_per_second": 6.894,
      "step": 26500
    },
    {
      "epoch": 3.65,
      "learning_rate": 4.08660351826793e-05,
      "loss": 1.2937,
      "step": 27000
    },
    {
      "epoch": 3.65,
      "eval_accuracy": 0.7358311660164716,
      "eval_loss": 1.2154779434204102,
      "eval_runtime": 2.1442,
      "eval_samples_per_second": 231.319,
      "eval_steps_per_second": 7.462,
      "step": 27000
    },
    {
      "epoch": 3.72,
      "learning_rate": 4.069688768606225e-05,
      "loss": 1.3021,
      "step": 27500
    },
    {
      "epoch": 3.72,
      "eval_accuracy": 0.7395591959907313,
      "eval_loss": 1.1794347763061523,
      "eval_runtime": 2.2631,
      "eval_samples_per_second": 219.166,
      "eval_steps_per_second": 7.07,
      "step": 27500
    },
    {
      "epoch": 3.79,
      "learning_rate": 4.05277401894452e-05,
      "loss": 1.2937,
      "step": 28000
    },
    {
      "epoch": 3.79,
      "eval_accuracy": 0.7401357600670687,
      "eval_loss": 1.1982717514038086,
      "eval_runtime": 2.0447,
      "eval_samples_per_second": 242.582,
      "eval_steps_per_second": 7.825,
      "step": 28000
    },
    {
      "epoch": 3.86,
      "learning_rate": 4.035859269282815e-05,
      "loss": 1.291,
      "step": 28500
    },
    {
      "epoch": 3.86,
      "eval_accuracy": 0.7448072021259288,
      "eval_loss": 1.1694941520690918,
      "eval_runtime": 2.1453,
      "eval_samples_per_second": 231.207,
      "eval_steps_per_second": 7.458,
      "step": 28500
    },
    {
      "epoch": 3.92,
      "learning_rate": 4.01894451962111e-05,
      "loss": 1.2932,
      "step": 29000
    },
    {
      "epoch": 3.92,
      "eval_accuracy": 0.7410137752905726,
      "eval_loss": 1.1980637311935425,
      "eval_runtime": 2.2686,
      "eval_samples_per_second": 218.634,
      "eval_steps_per_second": 7.053,
      "step": 29000
    },
    {
      "epoch": 3.99,
      "learning_rate": 4.002029769959405e-05,
      "loss": 1.2938,
      "step": 29500
    },
    {
      "epoch": 3.99,
      "eval_accuracy": 0.7382663617554176,
      "eval_loss": 1.1999621391296387,
      "eval_runtime": 2.1418,
      "eval_samples_per_second": 231.579,
      "eval_steps_per_second": 7.47,
      "step": 29500
    },
    {
      "epoch": 4.06,
      "learning_rate": 3.9851150202977e-05,
      "loss": 1.2789,
      "step": 30000
    },
    {
      "epoch": 4.06,
      "eval_accuracy": 0.7402127426252879,
      "eval_loss": 1.1918007135391235,
      "eval_runtime": 2.3184,
      "eval_samples_per_second": 213.944,
      "eval_steps_per_second": 6.901,
      "step": 30000
    },
    {
      "epoch": 4.13,
      "learning_rate": 3.968200270635995e-05,
      "loss": 1.2806,
      "step": 30500
    },
    {
      "epoch": 4.13,
      "eval_accuracy": 0.7368392751519062,
      "eval_loss": 1.2065249681472778,
      "eval_runtime": 2.1671,
      "eval_samples_per_second": 228.872,
      "eval_steps_per_second": 7.383,
      "step": 30500
    },
    {
      "epoch": 4.19,
      "learning_rate": 3.95128552097429e-05,
      "loss": 1.2799,
      "step": 31000
    },
    {
      "epoch": 4.19,
      "eval_accuracy": 0.7374173525839968,
      "eval_loss": 1.2035958766937256,
      "eval_runtime": 2.0293,
      "eval_samples_per_second": 244.417,
      "eval_steps_per_second": 7.884,
      "step": 31000
    },
    {
      "epoch": 4.26,
      "learning_rate": 3.934370771312585e-05,
      "loss": 1.2851,
      "step": 31500
    },
    {
      "epoch": 4.26,
      "eval_accuracy": 0.7374529736652525,
      "eval_loss": 1.2056316137313843,
      "eval_runtime": 2.2747,
      "eval_samples_per_second": 218.047,
      "eval_steps_per_second": 7.034,
      "step": 31500
    },
    {
      "epoch": 4.33,
      "learning_rate": 3.91745602165088e-05,
      "loss": 1.2789,
      "step": 32000
    },
    {
      "epoch": 4.33,
      "eval_accuracy": 0.7414960437229791,
      "eval_loss": 1.185698390007019,
      "eval_runtime": 2.1279,
      "eval_samples_per_second": 233.09,
      "eval_steps_per_second": 7.519,
      "step": 32000
    },
    {
      "epoch": 4.4,
      "learning_rate": 3.900541271989175e-05,
      "loss": 1.2847,
      "step": 32500
    },
    {
      "epoch": 4.4,
      "eval_accuracy": 0.7375549926676443,
      "eval_loss": 1.1947497129440308,
      "eval_runtime": 2.2844,
      "eval_samples_per_second": 217.128,
      "eval_steps_per_second": 7.004,
      "step": 32500
    },
    {
      "epoch": 4.47,
      "learning_rate": 3.88362652232747e-05,
      "loss": 1.2843,
      "step": 33000
    },
    {
      "epoch": 4.47,
      "eval_accuracy": 0.7398512049167071,
      "eval_loss": 1.1868607997894287,
      "eval_runtime": 1.8928,
      "eval_samples_per_second": 262.041,
      "eval_steps_per_second": 8.453,
      "step": 33000
    },
    {
      "epoch": 4.53,
      "learning_rate": 3.866711772665765e-05,
      "loss": 1.2822,
      "step": 33500
    },
    {
      "epoch": 4.53,
      "eval_accuracy": 0.738583059254866,
      "eval_loss": 1.1962590217590332,
      "eval_runtime": 2.3042,
      "eval_samples_per_second": 215.256,
      "eval_steps_per_second": 6.944,
      "step": 33500
    },
    {
      "epoch": 4.6,
      "learning_rate": 3.84979702300406e-05,
      "loss": 1.2755,
      "step": 34000
    },
    {
      "epoch": 4.6,
      "eval_accuracy": 0.7423808354478731,
      "eval_loss": 1.189677357673645,
      "eval_runtime": 2.1343,
      "eval_samples_per_second": 232.399,
      "eval_steps_per_second": 7.497,
      "step": 34000
    },
    {
      "epoch": 4.67,
      "learning_rate": 3.832882273342355e-05,
      "loss": 1.283,
      "step": 34500
    },
    {
      "epoch": 4.67,
      "eval_accuracy": 0.7438030006523157,
      "eval_loss": 1.1673452854156494,
      "eval_runtime": 2.1405,
      "eval_samples_per_second": 231.723,
      "eval_steps_per_second": 7.475,
      "step": 34500
    },
    {
      "epoch": 4.74,
      "learning_rate": 3.81596752368065e-05,
      "loss": 1.2765,
      "step": 35000
    },
    {
      "epoch": 4.74,
      "eval_accuracy": 0.7418567866813223,
      "eval_loss": 1.1855015754699707,
      "eval_runtime": 2.2371,
      "eval_samples_per_second": 221.718,
      "eval_steps_per_second": 7.152,
      "step": 35000
    },
    {
      "epoch": 4.8,
      "learning_rate": 3.799052774018945e-05,
      "loss": 1.2762,
      "step": 35500
    },
    {
      "epoch": 4.8,
      "eval_accuracy": 0.7412275877241228,
      "eval_loss": 1.1773431301116943,
      "eval_runtime": 2.1867,
      "eval_samples_per_second": 226.824,
      "eval_steps_per_second": 7.317,
      "step": 35500
    },
    {
      "epoch": 4.87,
      "learning_rate": 3.7821380243572397e-05,
      "loss": 1.2776,
      "step": 36000
    },
    {
      "epoch": 4.87,
      "eval_accuracy": 0.740787246819894,
      "eval_loss": 1.1897586584091187,
      "eval_runtime": 1.9025,
      "eval_samples_per_second": 260.712,
      "eval_steps_per_second": 8.41,
      "step": 36000
    },
    {
      "epoch": 4.94,
      "learning_rate": 3.7652232746955347e-05,
      "loss": 1.2847,
      "step": 36500
    },
    {
      "epoch": 4.94,
      "eval_accuracy": 0.7437667084947351,
      "eval_loss": 1.1624772548675537,
      "eval_runtime": 1.9202,
      "eval_samples_per_second": 258.302,
      "eval_steps_per_second": 8.332,
      "step": 36500
    },
    {
      "epoch": 5.01,
      "learning_rate": 3.7483085250338296e-05,
      "loss": 1.2732,
      "step": 37000
    },
    {
      "epoch": 5.01,
      "eval_accuracy": 0.7396705597179374,
      "eval_loss": 1.194719672203064,
      "eval_runtime": 2.2563,
      "eval_samples_per_second": 219.831,
      "eval_steps_per_second": 7.091,
      "step": 37000
    },
    {
      "epoch": 5.07,
      "learning_rate": 3.7313937753721246e-05,
      "loss": 1.2667,
      "step": 37500
    },
    {
      "epoch": 5.07,
      "eval_accuracy": 0.7384741591468417,
      "eval_loss": 1.2097489833831787,
      "eval_runtime": 2.0162,
      "eval_samples_per_second": 246.011,
      "eval_steps_per_second": 7.936,
      "step": 37500
    },
    {
      "epoch": 5.14,
      "learning_rate": 3.7144790257104196e-05,
      "loss": 1.2678,
      "step": 38000
    },
    {
      "epoch": 5.14,
      "eval_accuracy": 0.7397711324624852,
      "eval_loss": 1.187340497970581,
      "eval_runtime": 1.9242,
      "eval_samples_per_second": 257.772,
      "eval_steps_per_second": 8.315,
      "step": 38000
    },
    {
      "epoch": 5.21,
      "learning_rate": 3.6975642760487146e-05,
      "loss": 1.2681,
      "step": 38500
    },
    {
      "epoch": 5.21,
      "eval_accuracy": 0.7467894879436467,
      "eval_loss": 1.1681954860687256,
      "eval_runtime": 2.1385,
      "eval_samples_per_second": 231.938,
      "eval_steps_per_second": 7.482,
      "step": 38500
    },
    {
      "epoch": 5.28,
      "learning_rate": 3.6806495263870096e-05,
      "loss": 1.2699,
      "step": 39000
    },
    {
      "epoch": 5.28,
      "eval_accuracy": 0.745684382221014,
      "eval_loss": 1.1739610433578491,
      "eval_runtime": 1.9046,
      "eval_samples_per_second": 260.416,
      "eval_steps_per_second": 8.401,
      "step": 39000
    },
    {
      "epoch": 5.35,
      "learning_rate": 3.6637347767253046e-05,
      "loss": 1.2675,
      "step": 39500
    },
    {
      "epoch": 5.35,
      "eval_accuracy": 0.7378905091781449,
      "eval_loss": 1.212327003479004,
      "eval_runtime": 2.151,
      "eval_samples_per_second": 230.592,
      "eval_steps_per_second": 7.438,
      "step": 39500
    },
    {
      "epoch": 5.41,
      "learning_rate": 3.6468200270635996e-05,
      "loss": 1.2604,
      "step": 40000
    },
    {
      "epoch": 5.41,
      "eval_accuracy": 0.7395626782561456,
      "eval_loss": 1.195254921913147,
      "eval_runtime": 2.1404,
      "eval_samples_per_second": 231.731,
      "eval_steps_per_second": 7.475,
      "step": 40000
    },
    {
      "epoch": 5.48,
      "learning_rate": 3.6299052774018946e-05,
      "loss": 1.2688,
      "step": 40500
    },
    {
      "epoch": 5.48,
      "eval_accuracy": 0.7397589090237662,
      "eval_loss": 1.1849150657653809,
      "eval_runtime": 2.1374,
      "eval_samples_per_second": 232.054,
      "eval_steps_per_second": 7.486,
      "step": 40500
    },
    {
      "epoch": 5.55,
      "learning_rate": 3.6129905277401896e-05,
      "loss": 1.2698,
      "step": 41000
    },
    {
      "epoch": 5.55,
      "eval_accuracy": 0.7413877684508885,
      "eval_loss": 1.1708790063858032,
      "eval_runtime": 2.1318,
      "eval_samples_per_second": 232.668,
      "eval_steps_per_second": 7.505,
      "step": 41000
    },
    {
      "epoch": 5.62,
      "learning_rate": 3.5960757780784846e-05,
      "loss": 1.2689,
      "step": 41500
    },
    {
      "epoch": 5.62,
      "eval_accuracy": 0.7438135277526475,
      "eval_loss": 1.1763643026351929,
      "eval_runtime": 1.9258,
      "eval_samples_per_second": 257.551,
      "eval_steps_per_second": 8.308,
      "step": 41500
    },
    {
      "epoch": 5.68,
      "learning_rate": 3.5791610284167796e-05,
      "loss": 1.269,
      "step": 42000
    },
    {
      "epoch": 5.68,
      "eval_accuracy": 0.7409149325968664,
      "eval_loss": 1.1824229955673218,
      "eval_runtime": 2.2453,
      "eval_samples_per_second": 220.905,
      "eval_steps_per_second": 7.126,
      "step": 42000
    },
    {
      "epoch": 5.75,
      "learning_rate": 3.5622462787550746e-05,
      "loss": 1.2715,
      "step": 42500
    },
    {
      "epoch": 5.75,
      "eval_accuracy": 0.7408733194884687,
      "eval_loss": 1.178514003753662,
      "eval_runtime": 2.0475,
      "eval_samples_per_second": 242.248,
      "eval_steps_per_second": 7.814,
      "step": 42500
    },
    {
      "epoch": 5.82,
      "learning_rate": 3.5453315290933695e-05,
      "loss": 1.2628,
      "step": 43000
    },
    {
      "epoch": 5.82,
      "eval_accuracy": 0.7433914472797822,
      "eval_loss": 1.173943281173706,
      "eval_runtime": 2.1375,
      "eval_samples_per_second": 232.048,
      "eval_steps_per_second": 7.485,
      "step": 43000
    },
    {
      "epoch": 5.89,
      "learning_rate": 3.5284167794316645e-05,
      "loss": 1.2617,
      "step": 43500
    },
    {
      "epoch": 5.89,
      "eval_accuracy": 0.7406168909338969,
      "eval_loss": 1.1814693212509155,
      "eval_runtime": 2.1357,
      "eval_samples_per_second": 232.237,
      "eval_steps_per_second": 7.492,
      "step": 43500
    },
    {
      "epoch": 5.95,
      "learning_rate": 3.5115020297699595e-05,
      "loss": 1.2565,
      "step": 44000
    },
    {
      "epoch": 5.95,
      "eval_accuracy": 0.7414824236191919,
      "eval_loss": 1.1885017156600952,
      "eval_runtime": 2.2461,
      "eval_samples_per_second": 220.826,
      "eval_steps_per_second": 7.123,
      "step": 44000
    },
    {
      "epoch": 6.02,
      "learning_rate": 3.4945872801082545e-05,
      "loss": 1.2639,
      "step": 44500
    },
    {
      "epoch": 6.02,
      "eval_accuracy": 0.741952133873027,
      "eval_loss": 1.1781718730926514,
      "eval_runtime": 2.0174,
      "eval_samples_per_second": 245.859,
      "eval_steps_per_second": 7.931,
      "step": 44500
    },
    {
      "epoch": 6.09,
      "learning_rate": 3.4776725304465495e-05,
      "loss": 1.2557,
      "step": 45000
    },
    {
      "epoch": 6.09,
      "eval_accuracy": 0.7382356866408648,
      "eval_loss": 1.2061494588851929,
      "eval_runtime": 2.2612,
      "eval_samples_per_second": 219.356,
      "eval_steps_per_second": 7.076,
      "step": 45000
    },
    {
      "epoch": 6.16,
      "learning_rate": 3.4607577807848445e-05,
      "loss": 1.2503,
      "step": 45500
    },
    {
      "epoch": 6.16,
      "eval_accuracy": 0.739681675962454,
      "eval_loss": 1.1741236448287964,
      "eval_runtime": 2.1411,
      "eval_samples_per_second": 231.661,
      "eval_steps_per_second": 7.473,
      "step": 45500
    },
    {
      "epoch": 6.22,
      "learning_rate": 3.4438430311231395e-05,
      "loss": 1.2514,
      "step": 46000
    },
    {
      "epoch": 6.22,
      "eval_accuracy": 0.7435828154552824,
      "eval_loss": 1.167312741279602,
      "eval_runtime": 2.0431,
      "eval_samples_per_second": 242.763,
      "eval_steps_per_second": 7.831,
      "step": 46000
    },
    {
      "epoch": 6.29,
      "learning_rate": 3.4269282814614345e-05,
      "loss": 1.254,
      "step": 46500
    },
    {
      "epoch": 6.29,
      "eval_accuracy": 0.7399956502827316,
      "eval_loss": 1.1828943490982056,
      "eval_runtime": 2.2651,
      "eval_samples_per_second": 218.976,
      "eval_steps_per_second": 7.064,
      "step": 46500
    },
    {
      "epoch": 6.36,
      "learning_rate": 3.4100135317997295e-05,
      "loss": 1.2583,
      "step": 47000
    },
    {
      "epoch": 6.36,
      "eval_accuracy": 0.7390757539268417,
      "eval_loss": 1.1776684522628784,
      "eval_runtime": 2.0336,
      "eval_samples_per_second": 243.904,
      "eval_steps_per_second": 7.868,
      "step": 47000
    },
    {
      "epoch": 6.43,
      "learning_rate": 3.3930987821380245e-05,
      "loss": 1.2518,
      "step": 47500
    },
    {
      "epoch": 6.43,
      "eval_accuracy": 0.7411625020238545,
      "eval_loss": 1.1892728805541992,
      "eval_runtime": 2.2474,
      "eval_samples_per_second": 220.698,
      "eval_steps_per_second": 7.119,
      "step": 47500
    },
    {
      "epoch": 6.5,
      "learning_rate": 3.3761840324763195e-05,
      "loss": 1.2519,
      "step": 48000
    },
    {
      "epoch": 6.5,
      "eval_accuracy": 0.7410831524506257,
      "eval_loss": 1.1775306463241577,
      "eval_runtime": 2.127,
      "eval_samples_per_second": 233.19,
      "eval_steps_per_second": 7.522,
      "step": 48000
    },
    {
      "epoch": 6.56,
      "learning_rate": 3.3592692828146145e-05,
      "loss": 1.2477,
      "step": 48500
    },
    {
      "epoch": 6.56,
      "eval_accuracy": 0.7451821862348178,
      "eval_loss": 1.1809273958206177,
      "eval_runtime": 1.902,
      "eval_samples_per_second": 260.776,
      "eval_steps_per_second": 8.412,
      "step": 48500
    },
    {
      "epoch": 6.63,
      "learning_rate": 3.3423545331529095e-05,
      "loss": 1.2546,
      "step": 49000
    },
    {
      "epoch": 6.63,
      "eval_accuracy": 0.7455485978763953,
      "eval_loss": 1.1651870012283325,
      "eval_runtime": 2.1247,
      "eval_samples_per_second": 233.443,
      "eval_steps_per_second": 7.53,
      "step": 49000
    },
    {
      "epoch": 6.7,
      "learning_rate": 3.3254397834912044e-05,
      "loss": 1.2564,
      "step": 49500
    },
    {
      "epoch": 6.7,
      "eval_accuracy": 0.7435488746599247,
      "eval_loss": 1.1729925870895386,
      "eval_runtime": 2.2521,
      "eval_samples_per_second": 220.235,
      "eval_steps_per_second": 7.104,
      "step": 49500
    },
    {
      "epoch": 6.77,
      "learning_rate": 3.3085250338294994e-05,
      "loss": 1.254,
      "step": 50000
    },
    {
      "epoch": 6.77,
      "eval_accuracy": 0.7427022407392571,
      "eval_loss": 1.1740801334381104,
      "eval_runtime": 2.2515,
      "eval_samples_per_second": 220.294,
      "eval_steps_per_second": 7.106,
      "step": 50000
    },
    {
      "epoch": 6.83,
      "learning_rate": 3.2916102841677944e-05,
      "loss": 1.2495,
      "step": 50500
    },
    {
      "epoch": 6.83,
      "eval_accuracy": 0.7475704632944787,
      "eval_loss": 1.1539645195007324,
      "eval_runtime": 2.1379,
      "eval_samples_per_second": 231.999,
      "eval_steps_per_second": 7.484,
      "step": 50500
    },
    {
      "epoch": 6.9,
      "learning_rate": 3.2746955345060894e-05,
      "loss": 1.2502,
      "step": 51000
    },
    {
      "epoch": 6.9,
      "eval_accuracy": 0.7488099797559774,
      "eval_loss": 1.145354151725769,
      "eval_runtime": 2.0467,
      "eval_samples_per_second": 242.344,
      "eval_steps_per_second": 7.818,
      "step": 51000
    },
    {
      "epoch": 6.97,
      "learning_rate": 3.2577807848443844e-05,
      "loss": 1.2527,
      "step": 51500
    },
    {
      "epoch": 6.97,
      "eval_accuracy": 0.7429261278858414,
      "eval_loss": 1.1704862117767334,
      "eval_runtime": 1.8944,
      "eval_samples_per_second": 261.83,
      "eval_steps_per_second": 8.446,
      "step": 51500
    },
    {
      "epoch": 7.04,
      "learning_rate": 3.2408660351826794e-05,
      "loss": 1.2418,
      "step": 52000
    },
    {
      "epoch": 7.04,
      "eval_accuracy": 0.7441042170292774,
      "eval_loss": 1.1714463233947754,
      "eval_runtime": 2.2491,
      "eval_samples_per_second": 220.532,
      "eval_steps_per_second": 7.114,
      "step": 52000
    },
    {
      "epoch": 7.1,
      "learning_rate": 3.2239512855209744e-05,
      "loss": 1.2386,
      "step": 52500
    },
    {
      "epoch": 7.1,
      "eval_accuracy": 0.74550079317324,
      "eval_loss": 1.1619137525558472,
      "eval_runtime": 2.2788,
      "eval_samples_per_second": 217.662,
      "eval_steps_per_second": 7.021,
      "step": 52500
    },
    {
      "epoch": 7.17,
      "learning_rate": 3.2070365358592694e-05,
      "loss": 1.2407,
      "step": 53000
    },
    {
      "epoch": 7.17,
      "eval_accuracy": 0.7428433966802983,
      "eval_loss": 1.1702818870544434,
      "eval_runtime": 2.2482,
      "eval_samples_per_second": 220.624,
      "eval_steps_per_second": 7.117,
      "step": 53000
    },
    {
      "epoch": 7.24,
      "learning_rate": 3.1901217861975644e-05,
      "loss": 1.2429,
      "step": 53500
    },
    {
      "epoch": 7.24,
      "eval_accuracy": 0.7437382207533255,
      "eval_loss": 1.1596566438674927,
      "eval_runtime": 2.0269,
      "eval_samples_per_second": 244.711,
      "eval_steps_per_second": 7.894,
      "step": 53500
    },
    {
      "epoch": 7.31,
      "learning_rate": 3.1732070365358594e-05,
      "loss": 1.2398,
      "step": 54000
    },
    {
      "epoch": 7.31,
      "eval_accuracy": 0.7411157814291173,
      "eval_loss": 1.1802175045013428,
      "eval_runtime": 1.903,
      "eval_samples_per_second": 260.643,
      "eval_steps_per_second": 8.408,
      "step": 54000
    },
    {
      "epoch": 7.37,
      "learning_rate": 3.1562922868741544e-05,
      "loss": 1.2507,
      "step": 54500
    },
    {
      "epoch": 7.37,
      "eval_accuracy": 0.7465291873021028,
      "eval_loss": 1.153898000717163,
      "eval_runtime": 2.134,
      "eval_samples_per_second": 232.429,
      "eval_steps_per_second": 7.498,
      "step": 54500
    },
    {
      "epoch": 7.44,
      "learning_rate": 3.1393775372124494e-05,
      "loss": 1.2369,
      "step": 55000
    },
    {
      "epoch": 7.44,
      "eval_accuracy": 0.7421205732433082,
      "eval_loss": 1.1711477041244507,
      "eval_runtime": 2.2417,
      "eval_samples_per_second": 221.263,
      "eval_steps_per_second": 7.138,
      "step": 55000
    },
    {
      "epoch": 7.51,
      "learning_rate": 3.1224627875507443e-05,
      "loss": 1.2463,
      "step": 55500
    },
    {
      "epoch": 7.51,
      "eval_accuracy": 0.7408580787198625,
      "eval_loss": 1.1848827600479126,
      "eval_runtime": 2.2658,
      "eval_samples_per_second": 218.909,
      "eval_steps_per_second": 7.062,
      "step": 55500
    },
    {
      "epoch": 7.58,
      "learning_rate": 3.1055480378890393e-05,
      "loss": 1.2389,
      "step": 56000
    },
    {
      "epoch": 7.58,
      "eval_accuracy": 0.7447417175239756,
      "eval_loss": 1.172045111656189,
      "eval_runtime": 2.1226,
      "eval_samples_per_second": 233.68,
      "eval_steps_per_second": 7.538,
      "step": 56000
    },
    {
      "epoch": 7.65,
      "learning_rate": 3.088633288227334e-05,
      "loss": 1.2395,
      "step": 56500
    },
    {
      "epoch": 7.65,
      "eval_accuracy": 0.7455846610856063,
      "eval_loss": 1.1613755226135254,
      "eval_runtime": 2.2492,
      "eval_samples_per_second": 220.523,
      "eval_steps_per_second": 7.114,
      "step": 56500
    },
    {
      "epoch": 7.71,
      "learning_rate": 3.071718538565629e-05,
      "loss": 1.2429,
      "step": 57000
    },
    {
      "epoch": 7.71,
      "eval_accuracy": 0.7459984960790633,
      "eval_loss": 1.1604408025741577,
      "eval_runtime": 2.2523,
      "eval_samples_per_second": 220.221,
      "eval_steps_per_second": 7.104,
      "step": 57000
    },
    {
      "epoch": 7.78,
      "learning_rate": 3.054803788903924e-05,
      "loss": 1.2384,
      "step": 57500
    },
    {
      "epoch": 7.78,
      "eval_accuracy": 0.7408438637823945,
      "eval_loss": 1.1852344274520874,
      "eval_runtime": 2.2645,
      "eval_samples_per_second": 219.035,
      "eval_steps_per_second": 7.066,
      "step": 57500
    },
    {
      "epoch": 7.85,
      "learning_rate": 3.0378890392422193e-05,
      "loss": 1.2419,
      "step": 58000
    },
    {
      "epoch": 7.85,
      "eval_accuracy": 0.7460735114607351,
      "eval_loss": 1.1592859029769897,
      "eval_runtime": 2.2667,
      "eval_samples_per_second": 218.824,
      "eval_steps_per_second": 7.059,
      "step": 58000
    },
    {
      "epoch": 7.92,
      "learning_rate": 3.0209742895805143e-05,
      "loss": 1.2381,
      "step": 58500
    },
    {
      "epoch": 7.92,
      "eval_accuracy": 0.7454180674547229,
      "eval_loss": 1.161791205406189,
      "eval_runtime": 2.2508,
      "eval_samples_per_second": 220.362,
      "eval_steps_per_second": 7.108,
      "step": 58500
    },
    {
      "epoch": 7.98,
      "learning_rate": 3.0040595399188093e-05,
      "loss": 1.2384,
      "step": 59000
    },
    {
      "epoch": 7.98,
      "eval_accuracy": 0.7445992935958163,
      "eval_loss": 1.1550912857055664,
      "eval_runtime": 2.2277,
      "eval_samples_per_second": 222.654,
      "eval_steps_per_second": 7.182,
      "step": 59000
    },
    {
      "epoch": 8.05,
      "learning_rate": 2.9871447902571043e-05,
      "loss": 1.2314,
      "step": 59500
    },
    {
      "epoch": 8.05,
      "eval_accuracy": 0.7451252345598434,
      "eval_loss": 1.1473671197891235,
      "eval_runtime": 2.0323,
      "eval_samples_per_second": 244.059,
      "eval_steps_per_second": 7.873,
      "step": 59500
    },
    {
      "epoch": 8.12,
      "learning_rate": 2.9702300405953993e-05,
      "loss": 1.2277,
      "step": 60000
    },
    {
      "epoch": 8.12,
      "eval_accuracy": 0.7435493080290383,
      "eval_loss": 1.1636135578155518,
      "eval_runtime": 2.2565,
      "eval_samples_per_second": 219.81,
      "eval_steps_per_second": 7.091,
      "step": 60000
    },
    {
      "epoch": 8.19,
      "learning_rate": 2.9533152909336943e-05,
      "loss": 1.23,
      "step": 60500
    },
    {
      "epoch": 8.19,
      "eval_accuracy": 0.7482466354355656,
      "eval_loss": 1.1545356512069702,
      "eval_runtime": 2.1398,
      "eval_samples_per_second": 231.799,
      "eval_steps_per_second": 7.477,
      "step": 60500
    },
    {
      "epoch": 8.25,
      "learning_rate": 2.9364005412719893e-05,
      "loss": 1.2292,
      "step": 61000
    },
    {
      "epoch": 8.25,
      "eval_accuracy": 0.7456762809270702,
      "eval_loss": 1.169358730316162,
      "eval_runtime": 2.2505,
      "eval_samples_per_second": 220.392,
      "eval_steps_per_second": 7.109,
      "step": 61000
    },
    {
      "epoch": 8.32,
      "learning_rate": 2.9194857916102843e-05,
      "loss": 1.2337,
      "step": 61500
    },
    {
      "epoch": 8.32,
      "eval_accuracy": 0.7437165882071332,
      "eval_loss": 1.1681973934173584,
      "eval_runtime": 2.2595,
      "eval_samples_per_second": 219.518,
      "eval_steps_per_second": 7.081,
      "step": 61500
    },
    {
      "epoch": 8.39,
      "learning_rate": 2.9025710419485792e-05,
      "loss": 1.2274,
      "step": 62000
    },
    {
      "epoch": 8.39,
      "eval_accuracy": 0.7484281932495036,
      "eval_loss": 1.1518677473068237,
      "eval_runtime": 2.0234,
      "eval_samples_per_second": 245.13,
      "eval_steps_per_second": 7.907,
      "step": 62000
    },
    {
      "epoch": 8.46,
      "learning_rate": 2.885656292286874e-05,
      "loss": 1.232,
      "step": 62500
    },
    {
      "epoch": 8.46,
      "eval_accuracy": 0.7435426377844804,
      "eval_loss": 1.1693381071090698,
      "eval_runtime": 2.153,
      "eval_samples_per_second": 230.381,
      "eval_steps_per_second": 7.432,
      "step": 62500
    },
    {
      "epoch": 8.53,
      "learning_rate": 2.868741542625169e-05,
      "loss": 1.2315,
      "step": 63000
    },
    {
      "epoch": 8.53,
      "eval_accuracy": 0.7434497229246247,
      "eval_loss": 1.1637970209121704,
      "eval_runtime": 2.1389,
      "eval_samples_per_second": 231.9,
      "eval_steps_per_second": 7.481,
      "step": 63000
    },
    {
      "epoch": 8.59,
      "learning_rate": 2.851826792963464e-05,
      "loss": 1.2293,
      "step": 63500
    },
    {
      "epoch": 8.59,
      "eval_accuracy": 0.746056909476852,
      "eval_loss": 1.1639689207077026,
      "eval_runtime": 1.9056,
      "eval_samples_per_second": 260.282,
      "eval_steps_per_second": 8.396,
      "step": 63500
    },
    {
      "epoch": 8.66,
      "learning_rate": 2.8349120433017595e-05,
      "loss": 1.2287,
      "step": 64000
    },
    {
      "epoch": 8.66,
      "eval_accuracy": 0.7519274622651754,
      "eval_loss": 1.146359920501709,
      "eval_runtime": 2.1418,
      "eval_samples_per_second": 231.582,
      "eval_steps_per_second": 7.47,
      "step": 64000
    },
    {
      "epoch": 8.73,
      "learning_rate": 2.8179972936400545e-05,
      "loss": 1.2283,
      "step": 64500
    },
    {
      "epoch": 8.73,
      "eval_accuracy": 0.7480988335904306,
      "eval_loss": 1.1439129114151,
      "eval_runtime": 2.1515,
      "eval_samples_per_second": 230.532,
      "eval_steps_per_second": 7.437,
      "step": 64500
    },
    {
      "epoch": 8.8,
      "learning_rate": 2.8010825439783495e-05,
      "loss": 1.2279,
      "step": 65000
    },
    {
      "epoch": 8.8,
      "eval_accuracy": 0.7476770091832853,
      "eval_loss": 1.1496102809906006,
      "eval_runtime": 2.1443,
      "eval_samples_per_second": 231.311,
      "eval_steps_per_second": 7.462,
      "step": 65000
    },
    {
      "epoch": 8.86,
      "learning_rate": 2.7841677943166445e-05,
      "loss": 1.2276,
      "step": 65500
    },
    {
      "epoch": 8.86,
      "eval_accuracy": 0.7448800151502855,
      "eval_loss": 1.1544512510299683,
      "eval_runtime": 2.1443,
      "eval_samples_per_second": 231.308,
      "eval_steps_per_second": 7.462,
      "step": 65500
    },
    {
      "epoch": 8.93,
      "learning_rate": 2.7672530446549395e-05,
      "loss": 1.2301,
      "step": 66000
    },
    {
      "epoch": 8.93,
      "eval_accuracy": 0.7486796972831709,
      "eval_loss": 1.131188154220581,
      "eval_runtime": 2.2612,
      "eval_samples_per_second": 219.354,
      "eval_steps_per_second": 7.076,
      "step": 66000
    },
    {
      "epoch": 9.0,
      "learning_rate": 2.7503382949932345e-05,
      "loss": 1.2248,
      "step": 66500
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.7464872620949183,
      "eval_loss": 1.1444239616394043,
      "eval_runtime": 1.9117,
      "eval_samples_per_second": 259.451,
      "eval_steps_per_second": 8.369,
      "step": 66500
    },
    {
      "epoch": 9.07,
      "learning_rate": 2.7334235453315295e-05,
      "loss": 1.2266,
      "step": 67000
    },
    {
      "epoch": 9.07,
      "eval_accuracy": 0.7430061513773736,
      "eval_loss": 1.1525160074234009,
      "eval_runtime": 2.256,
      "eval_samples_per_second": 219.857,
      "eval_steps_per_second": 7.092,
      "step": 67000
    },
    {
      "epoch": 9.13,
      "learning_rate": 2.716508795669824e-05,
      "loss": 1.2198,
      "step": 67500
    },
    {
      "epoch": 9.13,
      "eval_accuracy": 0.7462388784038825,
      "eval_loss": 1.1551423072814941,
      "eval_runtime": 2.2513,
      "eval_samples_per_second": 220.317,
      "eval_steps_per_second": 7.107,
      "step": 67500
    },
    {
      "epoch": 9.2,
      "learning_rate": 2.699594046008119e-05,
      "loss": 1.219,
      "step": 68000
    },
    {
      "epoch": 9.2,
      "eval_accuracy": 0.7479334406870639,
      "eval_loss": 1.143385887145996,
      "eval_runtime": 2.2558,
      "eval_samples_per_second": 219.879,
      "eval_steps_per_second": 7.093,
      "step": 68000
    },
    {
      "epoch": 9.27,
      "learning_rate": 2.682679296346414e-05,
      "loss": 1.2212,
      "step": 68500
    },
    {
      "epoch": 9.27,
      "eval_accuracy": 0.7415982885151786,
      "eval_loss": 1.1707236766815186,
      "eval_runtime": 2.2452,
      "eval_samples_per_second": 220.92,
      "eval_steps_per_second": 7.126,
      "step": 68500
    },
    {
      "epoch": 9.34,
      "learning_rate": 2.665764546684709e-05,
      "loss": 1.2265,
      "step": 69000
    },
    {
      "epoch": 9.34,
      "eval_accuracy": 0.7421521035598706,
      "eval_loss": 1.1743712425231934,
      "eval_runtime": 2.1289,
      "eval_samples_per_second": 232.985,
      "eval_steps_per_second": 7.516,
      "step": 69000
    },
    {
      "epoch": 9.4,
      "learning_rate": 2.648849797023004e-05,
      "loss": 1.2216,
      "step": 69500
    },
    {
      "epoch": 9.4,
      "eval_accuracy": 0.7392663666010835,
      "eval_loss": 1.1817814111709595,
      "eval_runtime": 2.1373,
      "eval_samples_per_second": 232.069,
      "eval_steps_per_second": 7.486,
      "step": 69500
    },
    {
      "epoch": 9.47,
      "learning_rate": 2.631935047361299e-05,
      "loss": 1.2226,
      "step": 70000
    },
    {
      "epoch": 9.47,
      "eval_accuracy": 0.7454341644794401,
      "eval_loss": 1.1662167310714722,
      "eval_runtime": 2.1776,
      "eval_samples_per_second": 227.77,
      "eval_steps_per_second": 7.347,
      "step": 70000
    },
    {
      "epoch": 9.54,
      "learning_rate": 2.615020297699594e-05,
      "loss": 1.2224,
      "step": 70500
    },
    {
      "epoch": 9.54,
      "eval_accuracy": 0.7460155894249055,
      "eval_loss": 1.1345940828323364,
      "eval_runtime": 2.131,
      "eval_samples_per_second": 232.753,
      "eval_steps_per_second": 7.508,
      "step": 70500
    },
    {
      "epoch": 9.61,
      "learning_rate": 2.598105548037889e-05,
      "loss": 1.2186,
      "step": 71000
    },
    {
      "epoch": 9.61,
      "eval_accuracy": 0.7462514417531718,
      "eval_loss": 1.153380036354065,
      "eval_runtime": 2.3136,
      "eval_samples_per_second": 214.386,
      "eval_steps_per_second": 6.916,
      "step": 71000
    },
    {
      "epoch": 9.68,
      "learning_rate": 2.581190798376184e-05,
      "loss": 1.2179,
      "step": 71500
    },
    {
      "epoch": 9.68,
      "eval_accuracy": 0.7477791705270042,
      "eval_loss": 1.1399047374725342,
      "eval_runtime": 2.2709,
      "eval_samples_per_second": 218.413,
      "eval_steps_per_second": 7.046,
      "step": 71500
    },
    {
      "epoch": 9.74,
      "learning_rate": 2.564276048714479e-05,
      "loss": 1.2177,
      "step": 72000
    },
    {
      "epoch": 9.74,
      "eval_accuracy": 0.7441804462995666,
      "eval_loss": 1.1545348167419434,
      "eval_runtime": 2.2419,
      "eval_samples_per_second": 221.237,
      "eval_steps_per_second": 7.137,
      "step": 72000
    },
    {
      "epoch": 9.81,
      "learning_rate": 2.547361299052774e-05,
      "loss": 1.2154,
      "step": 72500
    },
    {
      "epoch": 9.81,
      "eval_accuracy": 0.7426768214742224,
      "eval_loss": 1.171052098274231,
      "eval_runtime": 2.1267,
      "eval_samples_per_second": 233.224,
      "eval_steps_per_second": 7.523,
      "step": 72500
    },
    {
      "epoch": 9.88,
      "learning_rate": 2.530446549391069e-05,
      "loss": 1.2179,
      "step": 73000
    },
    {
      "epoch": 9.88,
      "eval_accuracy": 0.7514139509830325,
      "eval_loss": 1.1348686218261719,
      "eval_runtime": 1.8985,
      "eval_samples_per_second": 261.263,
      "eval_steps_per_second": 8.428,
      "step": 73000
    },
    {
      "epoch": 9.95,
      "learning_rate": 2.513531799729364e-05,
      "loss": 1.2184,
      "step": 73500
    },
    {
      "epoch": 9.95,
      "eval_accuracy": 0.749460868615729,
      "eval_loss": 1.1427435874938965,
      "eval_runtime": 2.1257,
      "eval_samples_per_second": 233.336,
      "eval_steps_per_second": 7.527,
      "step": 73500
    },
    {
      "epoch": 10.01,
      "learning_rate": 2.496617050067659e-05,
      "loss": 1.2193,
      "step": 74000
    },
    {
      "epoch": 10.01,
      "eval_accuracy": 0.7494911077780159,
      "eval_loss": 1.1222712993621826,
      "eval_runtime": 2.0347,
      "eval_samples_per_second": 243.77,
      "eval_steps_per_second": 7.864,
      "step": 74000
    },
    {
      "epoch": 10.08,
      "learning_rate": 2.479702300405954e-05,
      "loss": 1.2063,
      "step": 74500
    },
    {
      "epoch": 10.08,
      "eval_accuracy": 0.7488264163021444,
      "eval_loss": 1.1357399225234985,
      "eval_runtime": 1.9046,
      "eval_samples_per_second": 260.423,
      "eval_steps_per_second": 8.401,
      "step": 74500
    },
    {
      "epoch": 10.15,
      "learning_rate": 2.462787550744249e-05,
      "loss": 1.2025,
      "step": 75000
    },
    {
      "epoch": 10.15,
      "eval_accuracy": 0.7486311066000695,
      "eval_loss": 1.1476197242736816,
      "eval_runtime": 2.1786,
      "eval_samples_per_second": 227.67,
      "eval_steps_per_second": 7.344,
      "step": 75000
    },
    {
      "epoch": 10.22,
      "learning_rate": 2.445872801082544e-05,
      "loss": 1.2097,
      "step": 75500
    },
    {
      "epoch": 10.22,
      "eval_accuracy": 0.7492516383053316,
      "eval_loss": 1.1382330656051636,
      "eval_runtime": 2.1295,
      "eval_samples_per_second": 232.922,
      "eval_steps_per_second": 7.514,
      "step": 75500
    },
    {
      "epoch": 10.28,
      "learning_rate": 2.428958051420839e-05,
      "loss": 1.2106,
      "step": 76000
    },
    {
      "epoch": 10.28,
      "eval_accuracy": 0.7500204253928484,
      "eval_loss": 1.1413904428482056,
      "eval_runtime": 2.1753,
      "eval_samples_per_second": 228.019,
      "eval_steps_per_second": 7.355,
      "step": 76000
    },
    {
      "epoch": 10.35,
      "learning_rate": 2.412043301759134e-05,
      "loss": 1.2146,
      "step": 76500
    },
    {
      "epoch": 10.35,
      "eval_accuracy": 0.7533006412674462,
      "eval_loss": 1.113772988319397,
      "eval_runtime": 2.136,
      "eval_samples_per_second": 232.208,
      "eval_steps_per_second": 7.491,
      "step": 76500
    },
    {
      "epoch": 10.42,
      "learning_rate": 2.395128552097429e-05,
      "loss": 1.2129,
      "step": 77000
    },
    {
      "epoch": 10.42,
      "eval_accuracy": 0.7477787948952668,
      "eval_loss": 1.1447216272354126,
      "eval_runtime": 2.2641,
      "eval_samples_per_second": 219.075,
      "eval_steps_per_second": 7.067,
      "step": 77000
    },
    {
      "epoch": 10.49,
      "learning_rate": 2.378213802435724e-05,
      "loss": 1.2078,
      "step": 77500
    },
    {
      "epoch": 10.49,
      "eval_accuracy": 0.7508962988920937,
      "eval_loss": 1.155730128288269,
      "eval_runtime": 2.1359,
      "eval_samples_per_second": 232.221,
      "eval_steps_per_second": 7.491,
      "step": 77500
    },
    {
      "epoch": 10.55,
      "learning_rate": 2.3612990527740193e-05,
      "loss": 1.204,
      "step": 78000
    },
    {
      "epoch": 10.55,
      "eval_accuracy": 0.7537665293735096,
      "eval_loss": 1.1243318319320679,
      "eval_runtime": 2.2543,
      "eval_samples_per_second": 220.027,
      "eval_steps_per_second": 7.098,
      "step": 78000
    },
    {
      "epoch": 10.62,
      "learning_rate": 2.3443843031123143e-05,
      "loss": 1.2101,
      "step": 78500
    },
    {
      "epoch": 10.62,
      "eval_accuracy": 0.7507114399544679,
      "eval_loss": 1.1352229118347168,
      "eval_runtime": 2.1504,
      "eval_samples_per_second": 230.651,
      "eval_steps_per_second": 7.44,
      "step": 78500
    },
    {
      "epoch": 10.69,
      "learning_rate": 2.327469553450609e-05,
      "loss": 1.207,
      "step": 79000
    },
    {
      "epoch": 10.69,
      "eval_accuracy": 0.7526499865482916,
      "eval_loss": 1.1365910768508911,
      "eval_runtime": 2.2554,
      "eval_samples_per_second": 219.92,
      "eval_steps_per_second": 7.094,
      "step": 79000
    },
    {
      "epoch": 10.76,
      "learning_rate": 2.310554803788904e-05,
      "loss": 1.2067,
      "step": 79500
    },
    {
      "epoch": 10.76,
      "eval_accuracy": 0.7482271408617169,
      "eval_loss": 1.145031213760376,
      "eval_runtime": 2.1262,
      "eval_samples_per_second": 233.276,
      "eval_steps_per_second": 7.525,
      "step": 79500
    },
    {
      "epoch": 10.83,
      "learning_rate": 2.293640054127199e-05,
      "loss": 1.1997,
      "step": 80000
    },
    {
      "epoch": 10.83,
      "eval_accuracy": 0.7503758591065293,
      "eval_loss": 1.1333723068237305,
      "eval_runtime": 2.1437,
      "eval_samples_per_second": 231.381,
      "eval_steps_per_second": 7.464,
      "step": 80000
    },
    {
      "epoch": 10.89,
      "learning_rate": 2.276725304465494e-05,
      "loss": 1.2114,
      "step": 80500
    },
    {
      "epoch": 10.89,
      "eval_accuracy": 0.7523950883821346,
      "eval_loss": 1.13480544090271,
      "eval_runtime": 2.256,
      "eval_samples_per_second": 219.855,
      "eval_steps_per_second": 7.092,
      "step": 80500
    },
    {
      "epoch": 10.96,
      "learning_rate": 2.259810554803789e-05,
      "loss": 1.2087,
      "step": 81000
    },
    {
      "epoch": 10.96,
      "eval_accuracy": 0.7507978579542381,
      "eval_loss": 1.1221325397491455,
      "eval_runtime": 2.149,
      "eval_samples_per_second": 230.81,
      "eval_steps_per_second": 7.445,
      "step": 81000
    },
    {
      "epoch": 11.03,
      "learning_rate": 2.242895805142084e-05,
      "loss": 1.2065,
      "step": 81500
    },
    {
      "epoch": 11.03,
      "eval_accuracy": 0.7486237532021583,
      "eval_loss": 1.130583643913269,
      "eval_runtime": 2.2591,
      "eval_samples_per_second": 219.556,
      "eval_steps_per_second": 7.082,
      "step": 81500
    },
    {
      "epoch": 11.1,
      "learning_rate": 2.225981055480379e-05,
      "loss": 1.1985,
      "step": 82000
    },
    {
      "epoch": 11.1,
      "eval_accuracy": 0.7470671686582637,
      "eval_loss": 1.1648321151733398,
      "eval_runtime": 2.2577,
      "eval_samples_per_second": 219.693,
      "eval_steps_per_second": 7.087,
      "step": 82000
    },
    {
      "epoch": 11.16,
      "learning_rate": 2.209066305818674e-05,
      "loss": 1.205,
      "step": 82500
    },
    {
      "epoch": 11.16,
      "eval_accuracy": 0.7526795068095737,
      "eval_loss": 1.1088367700576782,
      "eval_runtime": 2.1263,
      "eval_samples_per_second": 233.267,
      "eval_steps_per_second": 7.525,
      "step": 82500
    },
    {
      "epoch": 11.23,
      "learning_rate": 2.192151556156969e-05,
      "loss": 1.2026,
      "step": 83000
    },
    {
      "epoch": 11.23,
      "eval_accuracy": 0.7512794548290868,
      "eval_loss": 1.1253347396850586,
      "eval_runtime": 2.1489,
      "eval_samples_per_second": 230.816,
      "eval_steps_per_second": 7.446,
      "step": 83000
    },
    {
      "epoch": 11.3,
      "learning_rate": 2.175236806495264e-05,
      "loss": 1.2,
      "step": 83500
    },
    {
      "epoch": 11.3,
      "eval_accuracy": 0.7473735779217244,
      "eval_loss": 1.1330283880233765,
      "eval_runtime": 2.2554,
      "eval_samples_per_second": 219.915,
      "eval_steps_per_second": 7.094,
      "step": 83500
    },
    {
      "epoch": 11.37,
      "learning_rate": 2.1583220568335592e-05,
      "loss": 1.1997,
      "step": 84000
    },
    {
      "epoch": 11.37,
      "eval_accuracy": 0.7493864048660762,
      "eval_loss": 1.1423763036727905,
      "eval_runtime": 2.2628,
      "eval_samples_per_second": 219.193,
      "eval_steps_per_second": 7.071,
      "step": 84000
    },
    {
      "epoch": 11.43,
      "learning_rate": 2.1414073071718542e-05,
      "loss": 1.1989,
      "step": 84500
    },
    {
      "epoch": 11.43,
      "eval_accuracy": 0.7477665276950566,
      "eval_loss": 1.1288686990737915,
      "eval_runtime": 2.2744,
      "eval_samples_per_second": 218.08,
      "eval_steps_per_second": 7.035,
      "step": 84500
    },
    {
      "epoch": 11.5,
      "learning_rate": 2.124492557510149e-05,
      "loss": 1.1956,
      "step": 85000
    },
    {
      "epoch": 11.5,
      "eval_accuracy": 0.75250470912615,
      "eval_loss": 1.1163060665130615,
      "eval_runtime": 2.1424,
      "eval_samples_per_second": 231.521,
      "eval_steps_per_second": 7.468,
      "step": 85000
    },
    {
      "epoch": 11.57,
      "learning_rate": 2.107577807848444e-05,
      "loss": 1.1997,
      "step": 85500
    },
    {
      "epoch": 11.57,
      "eval_accuracy": 0.7502406674510643,
      "eval_loss": 1.135400414466858,
      "eval_runtime": 2.132,
      "eval_samples_per_second": 232.649,
      "eval_steps_per_second": 7.505,
      "step": 85500
    },
    {
      "epoch": 11.64,
      "learning_rate": 2.090663058186739e-05,
      "loss": 1.2011,
      "step": 86000
    },
    {
      "epoch": 11.64,
      "eval_accuracy": 0.7487909354704988,
      "eval_loss": 1.137099027633667,
      "eval_runtime": 2.022,
      "eval_samples_per_second": 245.301,
      "eval_steps_per_second": 7.913,
      "step": 86000
    },
    {
      "epoch": 11.71,
      "learning_rate": 2.073748308525034e-05,
      "loss": 1.1998,
      "step": 86500
    },
    {
      "epoch": 11.71,
      "eval_accuracy": 0.7525347250536846,
      "eval_loss": 1.1276001930236816,
      "eval_runtime": 2.1283,
      "eval_samples_per_second": 233.052,
      "eval_steps_per_second": 7.518,
      "step": 86500
    },
    {
      "epoch": 11.77,
      "learning_rate": 2.056833558863329e-05,
      "loss": 1.1957,
      "step": 87000
    },
    {
      "epoch": 11.77,
      "eval_accuracy": 0.7557962751805397,
      "eval_loss": 1.1078341007232666,
      "eval_runtime": 2.1602,
      "eval_samples_per_second": 229.608,
      "eval_steps_per_second": 7.407,
      "step": 87000
    },
    {
      "epoch": 11.84,
      "learning_rate": 2.039918809201624e-05,
      "loss": 1.2027,
      "step": 87500
    },
    {
      "epoch": 11.84,
      "eval_accuracy": 0.745357875418331,
      "eval_loss": 1.1625709533691406,
      "eval_runtime": 2.1381,
      "eval_samples_per_second": 231.987,
      "eval_steps_per_second": 7.483,
      "step": 87500
    },
    {
      "epoch": 11.91,
      "learning_rate": 2.0230040595399188e-05,
      "loss": 1.2013,
      "step": 88000
    },
    {
      "epoch": 11.91,
      "eval_accuracy": 0.7526884647845145,
      "eval_loss": 1.1228464841842651,
      "eval_runtime": 1.9029,
      "eval_samples_per_second": 260.656,
      "eval_steps_per_second": 8.408,
      "step": 88000
    },
    {
      "epoch": 11.98,
      "learning_rate": 2.0060893098782138e-05,
      "loss": 1.1944,
      "step": 88500
    },
    {
      "epoch": 11.98,
      "eval_accuracy": 0.7478242411377627,
      "eval_loss": 1.1413049697875977,
      "eval_runtime": 2.1489,
      "eval_samples_per_second": 230.819,
      "eval_steps_per_second": 7.446,
      "step": 88500
    },
    {
      "epoch": 12.04,
      "learning_rate": 1.9891745602165088e-05,
      "loss": 1.1946,
      "step": 89000
    },
    {
      "epoch": 12.04,
      "eval_accuracy": 0.7513838877841672,
      "eval_loss": 1.124992847442627,
      "eval_runtime": 2.2528,
      "eval_samples_per_second": 220.169,
      "eval_steps_per_second": 7.102,
      "step": 89000
    },
    {
      "epoch": 12.11,
      "learning_rate": 1.972259810554804e-05,
      "loss": 1.196,
      "step": 89500
    },
    {
      "epoch": 12.11,
      "eval_accuracy": 0.7467797423793904,
      "eval_loss": 1.1447776556015015,
      "eval_runtime": 2.243,
      "eval_samples_per_second": 221.135,
      "eval_steps_per_second": 7.133,
      "step": 89500
    },
    {
      "epoch": 12.18,
      "learning_rate": 1.955345060893099e-05,
      "loss": 1.1893,
      "step": 90000
    },
    {
      "epoch": 12.18,
      "eval_accuracy": 0.7478244470188862,
      "eval_loss": 1.1357169151306152,
      "eval_runtime": 2.1342,
      "eval_samples_per_second": 232.401,
      "eval_steps_per_second": 7.497,
      "step": 90000
    },
    {
      "epoch": 12.25,
      "learning_rate": 1.938430311231394e-05,
      "loss": 1.1865,
      "step": 90500
    },
    {
      "epoch": 12.25,
      "eval_accuracy": 0.7525039957378796,
      "eval_loss": 1.120892882347107,
      "eval_runtime": 2.1457,
      "eval_samples_per_second": 231.161,
      "eval_steps_per_second": 7.457,
      "step": 90500
    },
    {
      "epoch": 12.31,
      "learning_rate": 1.9215155615696888e-05,
      "loss": 1.1921,
      "step": 91000
    },
    {
      "epoch": 12.31,
      "eval_accuracy": 0.7517412799431865,
      "eval_loss": 1.1200112104415894,
      "eval_runtime": 2.2546,
      "eval_samples_per_second": 219.99,
      "eval_steps_per_second": 7.096,
      "step": 91000
    },
    {
      "epoch": 12.38,
      "learning_rate": 1.9046008119079838e-05,
      "loss": 1.1928,
      "step": 91500
    },
    {
      "epoch": 12.38,
      "eval_accuracy": 0.751185221513814,
      "eval_loss": 1.1144980192184448,
      "eval_runtime": 1.9441,
      "eval_samples_per_second": 255.124,
      "eval_steps_per_second": 8.23,
      "step": 91500
    },
    {
      "epoch": 12.45,
      "learning_rate": 1.8876860622462788e-05,
      "loss": 1.1904,
      "step": 92000
    },
    {
      "epoch": 12.45,
      "eval_accuracy": 0.754587343566813,
      "eval_loss": 1.1108394861221313,
      "eval_runtime": 2.252,
      "eval_samples_per_second": 220.248,
      "eval_steps_per_second": 7.105,
      "step": 92000
    },
    {
      "epoch": 12.52,
      "learning_rate": 1.8707713125845738e-05,
      "loss": 1.1955,
      "step": 92500
    },
    {
      "epoch": 12.52,
      "eval_accuracy": 0.7540812503345287,
      "eval_loss": 1.106156826019287,
      "eval_runtime": 2.2623,
      "eval_samples_per_second": 219.243,
      "eval_steps_per_second": 7.072,
      "step": 92500
    },
    {
      "epoch": 12.58,
      "learning_rate": 1.8538565629228687e-05,
      "loss": 1.1898,
      "step": 93000
    },
    {
      "epoch": 12.58,
      "eval_accuracy": 0.7519862396592678,
      "eval_loss": 1.126400351524353,
      "eval_runtime": 2.1347,
      "eval_samples_per_second": 232.346,
      "eval_steps_per_second": 7.495,
      "step": 93000
    },
    {
      "epoch": 12.65,
      "learning_rate": 1.8369418132611637e-05,
      "loss": 1.1917,
      "step": 93500
    },
    {
      "epoch": 12.65,
      "eval_accuracy": 0.7535633076368476,
      "eval_loss": 1.112923502922058,
      "eval_runtime": 2.2569,
      "eval_samples_per_second": 219.772,
      "eval_steps_per_second": 7.089,
      "step": 93500
    },
    {
      "epoch": 12.72,
      "learning_rate": 1.8200270635994587e-05,
      "loss": 1.1895,
      "step": 94000
    },
    {
      "epoch": 12.72,
      "eval_accuracy": 0.7494371965607963,
      "eval_loss": 1.1288461685180664,
      "eval_runtime": 2.1453,
      "eval_samples_per_second": 231.202,
      "eval_steps_per_second": 7.458,
      "step": 94000
    },
    {
      "epoch": 12.79,
      "learning_rate": 1.8031123139377537e-05,
      "loss": 1.1966,
      "step": 94500
    },
    {
      "epoch": 12.79,
      "eval_accuracy": 0.7474297006435763,
      "eval_loss": 1.1435807943344116,
      "eval_runtime": 2.2544,
      "eval_samples_per_second": 220.014,
      "eval_steps_per_second": 7.097,
      "step": 94500
    },
    {
      "epoch": 12.86,
      "learning_rate": 1.7861975642760487e-05,
      "loss": 1.1887,
      "step": 95000
    },
    {
      "epoch": 12.86,
      "eval_accuracy": 0.7530491066652402,
      "eval_loss": 1.1220248937606812,
      "eval_runtime": 2.0377,
      "eval_samples_per_second": 243.414,
      "eval_steps_per_second": 7.852,
      "step": 95000
    },
    {
      "epoch": 12.92,
      "learning_rate": 1.769282814614344e-05,
      "loss": 1.1856,
      "step": 95500
    },
    {
      "epoch": 12.92,
      "eval_accuracy": 0.7499591391991283,
      "eval_loss": 1.1441563367843628,
      "eval_runtime": 2.2428,
      "eval_samples_per_second": 221.15,
      "eval_steps_per_second": 7.134,
      "step": 95500
    },
    {
      "epoch": 12.99,
      "learning_rate": 1.752368064952639e-05,
      "loss": 1.1934,
      "step": 96000
    },
    {
      "epoch": 12.99,
      "eval_accuracy": 0.7487198734618374,
      "eval_loss": 1.134777545928955,
      "eval_runtime": 2.1446,
      "eval_samples_per_second": 231.279,
      "eval_steps_per_second": 7.461,
      "step": 96000
    },
    {
      "epoch": 13.06,
      "learning_rate": 1.7354533152909337e-05,
      "loss": 1.1848,
      "step": 96500
    },
    {
      "epoch": 13.06,
      "eval_accuracy": 0.7521449252264457,
      "eval_loss": 1.1171698570251465,
      "eval_runtime": 2.2564,
      "eval_samples_per_second": 219.819,
      "eval_steps_per_second": 7.091,
      "step": 96500
    },
    {
      "epoch": 13.13,
      "learning_rate": 1.7185385656292287e-05,
      "loss": 1.1821,
      "step": 97000
    },
    {
      "epoch": 13.13,
      "eval_accuracy": 0.7566415837311541,
      "eval_loss": 1.1042215824127197,
      "eval_runtime": 2.1261,
      "eval_samples_per_second": 233.296,
      "eval_steps_per_second": 7.526,
      "step": 97000
    },
    {
      "epoch": 13.19,
      "learning_rate": 1.7016238159675237e-05,
      "loss": 1.1817,
      "step": 97500
    },
    {
      "epoch": 13.19,
      "eval_accuracy": 0.7495432072227,
      "eval_loss": 1.1272791624069214,
      "eval_runtime": 2.029,
      "eval_samples_per_second": 244.45,
      "eval_steps_per_second": 7.885,
      "step": 97500
    },
    {
      "epoch": 13.26,
      "learning_rate": 1.6847090663058187e-05,
      "loss": 1.1773,
      "step": 98000
    },
    {
      "epoch": 13.26,
      "eval_accuracy": 0.7539743031358885,
      "eval_loss": 1.0957542657852173,
      "eval_runtime": 2.193,
      "eval_samples_per_second": 226.174,
      "eval_steps_per_second": 7.296,
      "step": 98000
    },
    {
      "epoch": 13.33,
      "learning_rate": 1.6677943166441137e-05,
      "loss": 1.1774,
      "step": 98500
    },
    {
      "epoch": 13.33,
      "eval_accuracy": 0.7510550791645386,
      "eval_loss": 1.1139615774154663,
      "eval_runtime": 2.0354,
      "eval_samples_per_second": 243.69,
      "eval_steps_per_second": 7.861,
      "step": 98500
    },
    {
      "epoch": 13.4,
      "learning_rate": 1.6508795669824086e-05,
      "loss": 1.1841,
      "step": 99000
    },
    {
      "epoch": 13.4,
      "eval_accuracy": 0.7535410764872521,
      "eval_loss": 1.1085665225982666,
      "eval_runtime": 2.2775,
      "eval_samples_per_second": 217.784,
      "eval_steps_per_second": 7.025,
      "step": 99000
    },
    {
      "epoch": 13.46,
      "learning_rate": 1.6339648173207036e-05,
      "loss": 1.1825,
      "step": 99500
    },
    {
      "epoch": 13.46,
      "eval_accuracy": 0.7575840393550151,
      "eval_loss": 1.0903350114822388,
      "eval_runtime": 2.1352,
      "eval_samples_per_second": 232.293,
      "eval_steps_per_second": 7.493,
      "step": 99500
    },
    {
      "epoch": 13.53,
      "learning_rate": 1.6170500676589986e-05,
      "loss": 1.1845,
      "step": 100000
    },
    {
      "epoch": 13.53,
      "eval_accuracy": 0.7486053092575125,
      "eval_loss": 1.129094123840332,
      "eval_runtime": 2.2564,
      "eval_samples_per_second": 219.823,
      "eval_steps_per_second": 7.091,
      "step": 100000
    },
    {
      "epoch": 13.6,
      "learning_rate": 1.6001353179972936e-05,
      "loss": 1.1853,
      "step": 100500
    },
    {
      "epoch": 13.6,
      "eval_accuracy": 0.7485774103500107,
      "eval_loss": 1.1317797899246216,
      "eval_runtime": 2.2139,
      "eval_samples_per_second": 224.036,
      "eval_steps_per_second": 7.227,
      "step": 100500
    },
    {
      "epoch": 13.67,
      "learning_rate": 1.5832205683355886e-05,
      "loss": 1.1761,
      "step": 101000
    },
    {
      "epoch": 13.67,
      "eval_accuracy": 0.7552630190471166,
      "eval_loss": 1.1218476295471191,
      "eval_runtime": 2.2116,
      "eval_samples_per_second": 224.271,
      "eval_steps_per_second": 7.235,
      "step": 101000
    },
    {
      "epoch": 13.73,
      "learning_rate": 1.566305818673884e-05,
      "loss": 1.1825,
      "step": 101500
    },
    {
      "epoch": 13.73,
      "eval_accuracy": 0.7484677617063006,
      "eval_loss": 1.130650520324707,
      "eval_runtime": 2.1348,
      "eval_samples_per_second": 232.339,
      "eval_steps_per_second": 7.495,
      "step": 101500
    },
    {
      "epoch": 13.8,
      "learning_rate": 1.549391069012179e-05,
      "loss": 1.1849,
      "step": 102000
    },
    {
      "epoch": 13.8,
      "eval_accuracy": 0.7503921250473254,
      "eval_loss": 1.1273096799850464,
      "eval_runtime": 2.1346,
      "eval_samples_per_second": 232.367,
      "eval_steps_per_second": 7.496,
      "step": 102000
    },
    {
      "epoch": 13.87,
      "learning_rate": 1.5324763193504736e-05,
      "loss": 1.1792,
      "step": 102500
    },
    {
      "epoch": 13.87,
      "eval_accuracy": 0.7496725963112518,
      "eval_loss": 1.1290724277496338,
      "eval_runtime": 2.0388,
      "eval_samples_per_second": 243.277,
      "eval_steps_per_second": 7.848,
      "step": 102500
    },
    {
      "epoch": 13.94,
      "learning_rate": 1.5155615696887688e-05,
      "loss": 1.1852,
      "step": 103000
    },
    {
      "epoch": 13.94,
      "eval_accuracy": 0.7521213264014223,
      "eval_loss": 1.1133606433868408,
      "eval_runtime": 2.1407,
      "eval_samples_per_second": 231.702,
      "eval_steps_per_second": 7.474,
      "step": 103000
    },
    {
      "epoch": 14.01,
      "learning_rate": 1.4986468200270637e-05,
      "loss": 1.1745,
      "step": 103500
    },
    {
      "epoch": 14.01,
      "eval_accuracy": 0.7510633656887338,
      "eval_loss": 1.1251685619354248,
      "eval_runtime": 2.2562,
      "eval_samples_per_second": 219.835,
      "eval_steps_per_second": 7.091,
      "step": 103500
    },
    {
      "epoch": 14.07,
      "learning_rate": 1.4817320703653587e-05,
      "loss": 1.1746,
      "step": 104000
    },
    {
      "epoch": 14.07,
      "eval_accuracy": 0.7508518468038707,
      "eval_loss": 1.114823579788208,
      "eval_runtime": 2.1373,
      "eval_samples_per_second": 232.068,
      "eval_steps_per_second": 7.486,
      "step": 104000
    },
    {
      "epoch": 14.14,
      "learning_rate": 1.4648173207036536e-05,
      "loss": 1.1765,
      "step": 104500
    },
    {
      "epoch": 14.14,
      "eval_accuracy": 0.7499047204224969,
      "eval_loss": 1.120153784751892,
      "eval_runtime": 1.9047,
      "eval_samples_per_second": 260.406,
      "eval_steps_per_second": 8.4,
      "step": 104500
    },
    {
      "epoch": 14.21,
      "learning_rate": 1.4479025710419486e-05,
      "loss": 1.1762,
      "step": 105000
    },
    {
      "epoch": 14.21,
      "eval_accuracy": 0.7526651867686152,
      "eval_loss": 1.11342453956604,
      "eval_runtime": 2.1108,
      "eval_samples_per_second": 234.982,
      "eval_steps_per_second": 7.58,
      "step": 105000
    },
    {
      "epoch": 14.28,
      "learning_rate": 1.4309878213802435e-05,
      "loss": 1.1752,
      "step": 105500
    },
    {
      "epoch": 14.28,
      "eval_accuracy": 0.7550594107753242,
      "eval_loss": 1.1170574426651,
      "eval_runtime": 2.0286,
      "eval_samples_per_second": 244.505,
      "eval_steps_per_second": 7.887,
      "step": 105500
    },
    {
      "epoch": 14.34,
      "learning_rate": 1.4140730717185385e-05,
      "loss": 1.176,
      "step": 106000
    },
    {
      "epoch": 14.34,
      "eval_accuracy": 0.7526875882289065,
      "eval_loss": 1.1155229806900024,
      "eval_runtime": 2.2532,
      "eval_samples_per_second": 220.127,
      "eval_steps_per_second": 7.101,
      "step": 106000
    },
    {
      "epoch": 14.41,
      "learning_rate": 1.3971583220568335e-05,
      "loss": 1.1732,
      "step": 106500
    },
    {
      "epoch": 14.41,
      "eval_accuracy": 0.7481485413956945,
      "eval_loss": 1.133280873298645,
      "eval_runtime": 2.1464,
      "eval_samples_per_second": 231.081,
      "eval_steps_per_second": 7.454,
      "step": 106500
    },
    {
      "epoch": 14.48,
      "learning_rate": 1.3802435723951287e-05,
      "loss": 1.1753,
      "step": 107000
    },
    {
      "epoch": 14.48,
      "eval_accuracy": 0.7574028502663674,
      "eval_loss": 1.0981875658035278,
      "eval_runtime": 2.0246,
      "eval_samples_per_second": 244.982,
      "eval_steps_per_second": 7.903,
      "step": 107000
    },
    {
      "epoch": 14.55,
      "learning_rate": 1.3633288227334237e-05,
      "loss": 1.1713,
      "step": 107500
    },
    {
      "epoch": 14.55,
      "eval_accuracy": 0.749116988864623,
      "eval_loss": 1.1342977285385132,
      "eval_runtime": 2.1397,
      "eval_samples_per_second": 231.806,
      "eval_steps_per_second": 7.478,
      "step": 107500
    },
    {
      "epoch": 14.61,
      "learning_rate": 1.3464140730717187e-05,
      "loss": 1.1692,
      "step": 108000
    },
    {
      "epoch": 14.61,
      "eval_accuracy": 0.7548563905532121,
      "eval_loss": 1.1020859479904175,
      "eval_runtime": 2.038,
      "eval_samples_per_second": 243.371,
      "eval_steps_per_second": 7.851,
      "step": 108000
    },
    {
      "epoch": 14.68,
      "learning_rate": 1.3294993234100137e-05,
      "loss": 1.17,
      "step": 108500
    },
    {
      "epoch": 14.68,
      "eval_accuracy": 0.7503776331328444,
      "eval_loss": 1.110732078552246,
      "eval_runtime": 2.2439,
      "eval_samples_per_second": 221.039,
      "eval_steps_per_second": 7.13,
      "step": 108500
    },
    {
      "epoch": 14.75,
      "learning_rate": 1.3125845737483087e-05,
      "loss": 1.1699,
      "step": 109000
    },
    {
      "epoch": 14.75,
      "eval_accuracy": 0.7505413012882971,
      "eval_loss": 1.1227320432662964,
      "eval_runtime": 2.1354,
      "eval_samples_per_second": 232.28,
      "eval_steps_per_second": 7.493,
      "step": 109000
    },
    {
      "epoch": 14.82,
      "learning_rate": 1.2956698240866036e-05,
      "loss": 1.1763,
      "step": 109500
    },
    {
      "epoch": 14.82,
      "eval_accuracy": 0.7523848348960457,
      "eval_loss": 1.1152479648590088,
      "eval_runtime": 2.2475,
      "eval_samples_per_second": 220.693,
      "eval_steps_per_second": 7.119,
      "step": 109500
    },
    {
      "epoch": 14.88,
      "learning_rate": 1.2787550744248986e-05,
      "loss": 1.1729,
      "step": 110000
    },
    {
      "epoch": 14.88,
      "eval_accuracy": 0.7563491422261722,
      "eval_loss": 1.0939308404922485,
      "eval_runtime": 2.0291,
      "eval_samples_per_second": 244.44,
      "eval_steps_per_second": 7.885,
      "step": 110000
    },
    {
      "epoch": 14.95,
      "learning_rate": 1.2618403247631935e-05,
      "loss": 1.1731,
      "step": 110500
    },
    {
      "epoch": 14.95,
      "eval_accuracy": 0.7446182644738601,
      "eval_loss": 1.153084397315979,
      "eval_runtime": 2.1368,
      "eval_samples_per_second": 232.12,
      "eval_steps_per_second": 7.488,
      "step": 110500
    },
    {
      "epoch": 15.02,
      "learning_rate": 1.2449255751014885e-05,
      "loss": 1.1744,
      "step": 111000
    },
    {
      "epoch": 15.02,
      "eval_accuracy": 0.748938913662494,
      "eval_loss": 1.1451458930969238,
      "eval_runtime": 2.2627,
      "eval_samples_per_second": 219.205,
      "eval_steps_per_second": 7.071,
      "step": 111000
    },
    {
      "epoch": 15.09,
      "learning_rate": 1.2280108254397836e-05,
      "loss": 1.169,
      "step": 111500
    },
    {
      "epoch": 15.09,
      "eval_accuracy": 0.7527127355796688,
      "eval_loss": 1.1211124658584595,
      "eval_runtime": 2.254,
      "eval_samples_per_second": 220.058,
      "eval_steps_per_second": 7.099,
      "step": 111500
    },
    {
      "epoch": 15.16,
      "learning_rate": 1.2110960757780786e-05,
      "loss": 1.1644,
      "step": 112000
    },
    {
      "epoch": 15.16,
      "eval_accuracy": 0.7553240179845462,
      "eval_loss": 1.1134895086288452,
      "eval_runtime": 2.1385,
      "eval_samples_per_second": 231.943,
      "eval_steps_per_second": 7.482,
      "step": 112000
    },
    {
      "epoch": 15.22,
      "learning_rate": 1.1941813261163736e-05,
      "loss": 1.1726,
      "step": 112500
    },
    {
      "epoch": 15.22,
      "eval_accuracy": 0.7551064057320073,
      "eval_loss": 1.0903879404067993,
      "eval_runtime": 2.141,
      "eval_samples_per_second": 231.664,
      "eval_steps_per_second": 7.473,
      "step": 112500
    },
    {
      "epoch": 15.29,
      "learning_rate": 1.1772665764546684e-05,
      "loss": 1.1653,
      "step": 113000
    },
    {
      "epoch": 15.29,
      "eval_accuracy": 0.7585871152701898,
      "eval_loss": 1.0806618928909302,
      "eval_runtime": 2.2591,
      "eval_samples_per_second": 219.56,
      "eval_steps_per_second": 7.083,
      "step": 113000
    },
    {
      "epoch": 15.36,
      "learning_rate": 1.1603518267929634e-05,
      "loss": 1.1651,
      "step": 113500
    },
    {
      "epoch": 15.36,
      "eval_accuracy": 0.7487410264652309,
      "eval_loss": 1.1385972499847412,
      "eval_runtime": 2.0137,
      "eval_samples_per_second": 246.318,
      "eval_steps_per_second": 7.946,
      "step": 113500
    },
    {
      "epoch": 15.43,
      "learning_rate": 1.1434370771312584e-05,
      "loss": 1.1663,
      "step": 114000
    },
    {
      "epoch": 15.43,
      "eval_accuracy": 0.7531269501044577,
      "eval_loss": 1.1114603281021118,
      "eval_runtime": 2.038,
      "eval_samples_per_second": 243.378,
      "eval_steps_per_second": 7.851,
      "step": 114000
    },
    {
      "epoch": 15.49,
      "learning_rate": 1.1265223274695536e-05,
      "loss": 1.1635,
      "step": 114500
    },
    {
      "epoch": 15.49,
      "eval_accuracy": 0.7503972421965474,
      "eval_loss": 1.1271893978118896,
      "eval_runtime": 2.2587,
      "eval_samples_per_second": 219.592,
      "eval_steps_per_second": 7.084,
      "step": 114500
    },
    {
      "epoch": 15.56,
      "learning_rate": 1.1096075778078486e-05,
      "loss": 1.1646,
      "step": 115000
    },
    {
      "epoch": 15.56,
      "eval_accuracy": 0.7541348344725908,
      "eval_loss": 1.0982328653335571,
      "eval_runtime": 2.0235,
      "eval_samples_per_second": 245.115,
      "eval_steps_per_second": 7.907,
      "step": 115000
    },
    {
      "epoch": 15.63,
      "learning_rate": 1.0926928281461436e-05,
      "loss": 1.1639,
      "step": 115500
    },
    {
      "epoch": 15.63,
      "eval_accuracy": 0.7544710600476913,
      "eval_loss": 1.1104248762130737,
      "eval_runtime": 2.0141,
      "eval_samples_per_second": 246.267,
      "eval_steps_per_second": 7.944,
      "step": 115500
    },
    {
      "epoch": 15.7,
      "learning_rate": 1.0757780784844384e-05,
      "loss": 1.1598,
      "step": 116000
    },
    {
      "epoch": 15.7,
      "eval_accuracy": 0.7492906747372119,
      "eval_loss": 1.1334669589996338,
      "eval_runtime": 2.1233,
      "eval_samples_per_second": 233.593,
      "eval_steps_per_second": 7.535,
      "step": 116000
    },
    {
      "epoch": 15.76,
      "learning_rate": 1.0588633288227334e-05,
      "loss": 1.1612,
      "step": 116500
    },
    {
      "epoch": 15.76,
      "eval_accuracy": 0.7535777086433112,
      "eval_loss": 1.1088109016418457,
      "eval_runtime": 2.1482,
      "eval_samples_per_second": 230.894,
      "eval_steps_per_second": 7.448,
      "step": 116500
    },
    {
      "epoch": 15.83,
      "learning_rate": 1.0419485791610285e-05,
      "loss": 1.159,
      "step": 117000
    },
    {
      "epoch": 15.83,
      "eval_accuracy": 0.755389401298914,
      "eval_loss": 1.0895658731460571,
      "eval_runtime": 1.8998,
      "eval_samples_per_second": 261.073,
      "eval_steps_per_second": 8.422,
      "step": 117000
    },
    {
      "epoch": 15.9,
      "learning_rate": 1.0250338294993235e-05,
      "loss": 1.1686,
      "step": 117500
    },
    {
      "epoch": 15.9,
      "eval_accuracy": 0.7521880806829505,
      "eval_loss": 1.1212115287780762,
      "eval_runtime": 2.1408,
      "eval_samples_per_second": 231.688,
      "eval_steps_per_second": 7.474,
      "step": 117500
    },
    {
      "epoch": 15.97,
      "learning_rate": 1.0081190798376185e-05,
      "loss": 1.158,
      "step": 118000
    },
    {
      "epoch": 15.97,
      "eval_accuracy": 0.7528032891926527,
      "eval_loss": 1.1104135513305664,
      "eval_runtime": 2.2497,
      "eval_samples_per_second": 220.471,
      "eval_steps_per_second": 7.112,
      "step": 118000
    },
    {
      "epoch": 16.04,
      "learning_rate": 9.912043301759135e-06,
      "loss": 1.1633,
      "step": 118500
    },
    {
      "epoch": 16.04,
      "eval_accuracy": 0.7537655533726261,
      "eval_loss": 1.097953200340271,
      "eval_runtime": 2.0401,
      "eval_samples_per_second": 243.13,
      "eval_steps_per_second": 7.843,
      "step": 118500
    },
    {
      "epoch": 16.1,
      "learning_rate": 9.742895805142083e-06,
      "loss": 1.1622,
      "step": 119000
    },
    {
      "epoch": 16.1,
      "eval_accuracy": 0.750889583782618,
      "eval_loss": 1.1274609565734863,
      "eval_runtime": 2.0243,
      "eval_samples_per_second": 245.026,
      "eval_steps_per_second": 7.904,
      "step": 119000
    },
    {
      "epoch": 16.17,
      "learning_rate": 9.573748308525033e-06,
      "loss": 1.1625,
      "step": 119500
    },
    {
      "epoch": 16.17,
      "eval_accuracy": 0.754607674067687,
      "eval_loss": 1.1065136194229126,
      "eval_runtime": 1.9032,
      "eval_samples_per_second": 260.616,
      "eval_steps_per_second": 8.407,
      "step": 119500
    },
    {
      "epoch": 16.24,
      "learning_rate": 9.404600811907985e-06,
      "loss": 1.1582,
      "step": 120000
    },
    {
      "epoch": 16.24,
      "eval_accuracy": 0.7515266766659524,
      "eval_loss": 1.1181069612503052,
      "eval_runtime": 2.1333,
      "eval_samples_per_second": 232.507,
      "eval_steps_per_second": 7.5,
      "step": 120000
    },
    {
      "epoch": 16.31,
      "learning_rate": 9.235453315290935e-06,
      "loss": 1.1568,
      "step": 120500
    },
    {
      "epoch": 16.31,
      "eval_accuracy": 0.7558363160425237,
      "eval_loss": 1.1019920110702515,
      "eval_runtime": 2.1312,
      "eval_samples_per_second": 232.728,
      "eval_steps_per_second": 7.507,
      "step": 120500
    },
    {
      "epoch": 16.37,
      "learning_rate": 9.066305818673885e-06,
      "loss": 1.1573,
      "step": 121000
    },
    {
      "epoch": 16.37,
      "eval_accuracy": 0.7532534995625547,
      "eval_loss": 1.115644097328186,
      "eval_runtime": 2.1433,
      "eval_samples_per_second": 231.416,
      "eval_steps_per_second": 7.465,
      "step": 121000
    },
    {
      "epoch": 16.44,
      "learning_rate": 8.897158322056835e-06,
      "loss": 1.1549,
      "step": 121500
    },
    {
      "epoch": 16.44,
      "eval_accuracy": 0.7508123310487945,
      "eval_loss": 1.1205765008926392,
      "eval_runtime": 2.2601,
      "eval_samples_per_second": 219.456,
      "eval_steps_per_second": 7.079,
      "step": 121500
    },
    {
      "epoch": 16.51,
      "learning_rate": 8.728010825439783e-06,
      "loss": 1.1592,
      "step": 122000
    },
    {
      "epoch": 16.51,
      "eval_accuracy": 0.7542723559759243,
      "eval_loss": 1.0985246896743774,
      "eval_runtime": 2.2649,
      "eval_samples_per_second": 218.998,
      "eval_steps_per_second": 7.064,
      "step": 122000
    },
    {
      "epoch": 16.58,
      "learning_rate": 8.558863328822733e-06,
      "loss": 1.1584,
      "step": 122500
    },
    {
      "epoch": 16.58,
      "eval_accuracy": 0.7531888104231674,
      "eval_loss": 1.1170583963394165,
      "eval_runtime": 2.028,
      "eval_samples_per_second": 244.575,
      "eval_steps_per_second": 7.89,
      "step": 122500
    },
    {
      "epoch": 16.64,
      "learning_rate": 8.389715832205684e-06,
      "loss": 1.1589,
      "step": 123000
    },
    {
      "epoch": 16.64,
      "eval_accuracy": 0.7611846765843823,
      "eval_loss": 1.0686120986938477,
      "eval_runtime": 2.0269,
      "eval_samples_per_second": 244.714,
      "eval_steps_per_second": 7.894,
      "step": 123000
    },
    {
      "epoch": 16.71,
      "learning_rate": 8.220568335588634e-06,
      "loss": 1.1566,
      "step": 123500
    },
    {
      "epoch": 16.71,
      "eval_accuracy": 0.7563581433672069,
      "eval_loss": 1.094774603843689,
      "eval_runtime": 2.1272,
      "eval_samples_per_second": 233.175,
      "eval_steps_per_second": 7.522,
      "step": 123500
    },
    {
      "epoch": 16.78,
      "learning_rate": 8.051420838971584e-06,
      "loss": 1.157,
      "step": 124000
    },
    {
      "epoch": 16.78,
      "eval_accuracy": 0.7568443220476267,
      "eval_loss": 1.0895816087722778,
      "eval_runtime": 1.8979,
      "eval_samples_per_second": 261.337,
      "eval_steps_per_second": 8.43,
      "step": 124000
    },
    {
      "epoch": 16.85,
      "learning_rate": 7.882273342354534e-06,
      "loss": 1.1598,
      "step": 124500
    },
    {
      "epoch": 16.85,
      "eval_accuracy": 0.7582212358242888,
      "eval_loss": 1.086458683013916,
      "eval_runtime": 2.2441,
      "eval_samples_per_second": 221.026,
      "eval_steps_per_second": 7.13,
      "step": 124500
    },
    {
      "epoch": 16.91,
      "learning_rate": 7.713125845737482e-06,
      "loss": 1.1567,
      "step": 125000
    },
    {
      "epoch": 16.91,
      "eval_accuracy": 0.7565769744554401,
      "eval_loss": 1.1091084480285645,
      "eval_runtime": 2.2461,
      "eval_samples_per_second": 220.83,
      "eval_steps_per_second": 7.124,
      "step": 125000
    },
    {
      "epoch": 16.98,
      "learning_rate": 7.543978349120433e-06,
      "loss": 1.1643,
      "step": 125500
    },
    {
      "epoch": 16.98,
      "eval_accuracy": 0.7521943363306939,
      "eval_loss": 1.1232304573059082,
      "eval_runtime": 1.9345,
      "eval_samples_per_second": 256.4,
      "eval_steps_per_second": 8.271,
      "step": 125500
    },
    {
      "epoch": 17.05,
      "learning_rate": 7.374830852503384e-06,
      "loss": 1.1536,
      "step": 126000
    },
    {
      "epoch": 17.05,
      "eval_accuracy": 0.7583081570996979,
      "eval_loss": 1.0930777788162231,
      "eval_runtime": 2.1324,
      "eval_samples_per_second": 232.599,
      "eval_steps_per_second": 7.503,
      "step": 126000
    },
    {
      "epoch": 17.12,
      "learning_rate": 7.205683355886334e-06,
      "loss": 1.1486,
      "step": 126500
    },
    {
      "epoch": 17.12,
      "eval_accuracy": 0.7540195062318956,
      "eval_loss": 1.1099752187728882,
      "eval_runtime": 1.917,
      "eval_samples_per_second": 258.744,
      "eval_steps_per_second": 8.347,
      "step": 126500
    },
    {
      "epoch": 17.19,
      "learning_rate": 7.036535859269283e-06,
      "loss": 1.1551,
      "step": 127000
    },
    {
      "epoch": 17.19,
      "eval_accuracy": 0.7537926501999014,
      "eval_loss": 1.1018755435943604,
      "eval_runtime": 2.2805,
      "eval_samples_per_second": 217.494,
      "eval_steps_per_second": 7.016,
      "step": 127000
    },
    {
      "epoch": 17.25,
      "learning_rate": 6.867388362652233e-06,
      "loss": 1.1491,
      "step": 127500
    },
    {
      "epoch": 17.25,
      "eval_accuracy": 0.7546221700303138,
      "eval_loss": 1.096489667892456,
      "eval_runtime": 2.0207,
      "eval_samples_per_second": 245.455,
      "eval_steps_per_second": 7.918,
      "step": 127500
    },
    {
      "epoch": 17.32,
      "learning_rate": 6.698240866035183e-06,
      "loss": 1.152,
      "step": 128000
    },
    {
      "epoch": 17.32,
      "eval_accuracy": 0.7590838783208054,
      "eval_loss": 1.0724998712539673,
      "eval_runtime": 2.2748,
      "eval_samples_per_second": 218.043,
      "eval_steps_per_second": 7.034,
      "step": 128000
    },
    {
      "epoch": 17.39,
      "learning_rate": 6.5290933694181334e-06,
      "loss": 1.1521,
      "step": 128500
    },
    {
      "epoch": 17.39,
      "eval_accuracy": 0.7526631431935811,
      "eval_loss": 1.1246150732040405,
      "eval_runtime": 2.2564,
      "eval_samples_per_second": 219.819,
      "eval_steps_per_second": 7.091,
      "step": 128500
    },
    {
      "epoch": 17.46,
      "learning_rate": 6.359945872801083e-06,
      "loss": 1.1518,
      "step": 129000
    },
    {
      "epoch": 17.46,
      "eval_accuracy": 0.7570206230802984,
      "eval_loss": 1.1025118827819824,
      "eval_runtime": 2.2644,
      "eval_samples_per_second": 219.041,
      "eval_steps_per_second": 7.066,
      "step": 129000
    },
    {
      "epoch": 17.52,
      "learning_rate": 6.190798376184033e-06,
      "loss": 1.1525,
      "step": 129500
    },
    {
      "epoch": 17.52,
      "eval_accuracy": 0.7553470100392842,
      "eval_loss": 1.1027612686157227,
      "eval_runtime": 2.2829,
      "eval_samples_per_second": 217.27,
      "eval_steps_per_second": 7.009,
      "step": 129500
    },
    {
      "epoch": 17.59,
      "learning_rate": 6.021650879566982e-06,
      "loss": 1.1509,
      "step": 130000
    },
    {
      "epoch": 17.59,
      "eval_accuracy": 0.753968902322795,
      "eval_loss": 1.1140735149383545,
      "eval_runtime": 2.0112,
      "eval_samples_per_second": 246.621,
      "eval_steps_per_second": 7.956,
      "step": 130000
    },
    {
      "epoch": 17.66,
      "learning_rate": 5.852503382949932e-06,
      "loss": 1.1522,
      "step": 130500
    },
    {
      "epoch": 17.66,
      "eval_accuracy": 0.7523416805483493,
      "eval_loss": 1.1235767602920532,
      "eval_runtime": 2.0162,
      "eval_samples_per_second": 246.006,
      "eval_steps_per_second": 7.936,
      "step": 130500
    },
    {
      "epoch": 17.73,
      "learning_rate": 5.683355886332883e-06,
      "loss": 1.1488,
      "step": 131000
    },
    {
      "epoch": 17.73,
      "eval_accuracy": 0.7589817903428665,
      "eval_loss": 1.0937731266021729,
      "eval_runtime": 2.1303,
      "eval_samples_per_second": 232.835,
      "eval_steps_per_second": 7.511,
      "step": 131000
    },
    {
      "epoch": 17.79,
      "learning_rate": 5.514208389715832e-06,
      "loss": 1.1477,
      "step": 131500
    },
    {
      "epoch": 17.79,
      "eval_accuracy": 0.7519756032882524,
      "eval_loss": 1.1069520711898804,
      "eval_runtime": 2.1341,
      "eval_samples_per_second": 232.421,
      "eval_steps_per_second": 7.497,
      "step": 131500
    },
    {
      "epoch": 17.86,
      "learning_rate": 5.345060893098782e-06,
      "loss": 1.1498,
      "step": 132000
    },
    {
      "epoch": 17.86,
      "eval_accuracy": 0.7560714094247574,
      "eval_loss": 1.0885875225067139,
      "eval_runtime": 2.2647,
      "eval_samples_per_second": 219.014,
      "eval_steps_per_second": 7.065,
      "step": 132000
    },
    {
      "epoch": 17.93,
      "learning_rate": 5.175913396481733e-06,
      "loss": 1.1489,
      "step": 132500
    },
    {
      "epoch": 17.93,
      "eval_accuracy": 0.75788641382883,
      "eval_loss": 1.0874009132385254,
      "eval_runtime": 2.1397,
      "eval_samples_per_second": 231.808,
      "eval_steps_per_second": 7.478,
      "step": 132500
    },
    {
      "epoch": 18.0,
      "learning_rate": 5.006765899864682e-06,
      "loss": 1.1462,
      "step": 133000
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.7556547699093623,
      "eval_loss": 1.1015816926956177,
      "eval_runtime": 2.2706,
      "eval_samples_per_second": 218.448,
      "eval_steps_per_second": 7.047,
      "step": 133000
    },
    {
      "epoch": 18.06,
      "learning_rate": 4.837618403247632e-06,
      "loss": 1.1448,
      "step": 133500
    },
    {
      "epoch": 18.06,
      "eval_accuracy": 0.7546062508530094,
      "eval_loss": 1.0937751531600952,
      "eval_runtime": 2.022,
      "eval_samples_per_second": 245.305,
      "eval_steps_per_second": 7.913,
      "step": 133500
    },
    {
      "epoch": 18.13,
      "learning_rate": 4.6684709066305826e-06,
      "loss": 1.1425,
      "step": 134000
    },
    {
      "epoch": 18.13,
      "eval_accuracy": 0.7552112751822265,
      "eval_loss": 1.0958871841430664,
      "eval_runtime": 2.2598,
      "eval_samples_per_second": 219.486,
      "eval_steps_per_second": 7.08,
      "step": 134000
    },
    {
      "epoch": 18.2,
      "learning_rate": 4.499323410013532e-06,
      "loss": 1.1414,
      "step": 134500
    },
    {
      "epoch": 18.2,
      "eval_accuracy": 0.7558802565930149,
      "eval_loss": 1.0867284536361694,
      "eval_runtime": 2.029,
      "eval_samples_per_second": 244.456,
      "eval_steps_per_second": 7.886,
      "step": 134500
    },
    {
      "epoch": 18.27,
      "learning_rate": 4.330175913396482e-06,
      "loss": 1.1453,
      "step": 135000
    },
    {
      "epoch": 18.27,
      "eval_accuracy": 0.7591597591597592,
      "eval_loss": 1.0756407976150513,
      "eval_runtime": 2.1403,
      "eval_samples_per_second": 231.744,
      "eval_steps_per_second": 7.476,
      "step": 135000
    },
    {
      "epoch": 18.34,
      "learning_rate": 4.161028416779432e-06,
      "loss": 1.1448,
      "step": 135500
    },
    {
      "epoch": 18.34,
      "eval_accuracy": 0.7545405695862439,
      "eval_loss": 1.0937347412109375,
      "eval_runtime": 2.2479,
      "eval_samples_per_second": 220.651,
      "eval_steps_per_second": 7.118,
      "step": 135500
    },
    {
      "epoch": 18.4,
      "learning_rate": 3.991880920162381e-06,
      "loss": 1.1471,
      "step": 136000
    },
    {
      "epoch": 18.4,
      "eval_accuracy": 0.7537506745817593,
      "eval_loss": 1.1153604984283447,
      "eval_runtime": 2.2669,
      "eval_samples_per_second": 218.8,
      "eval_steps_per_second": 7.058,
      "step": 136000
    },
    {
      "epoch": 18.47,
      "learning_rate": 3.822733423545332e-06,
      "loss": 1.1484,
      "step": 136500
    },
    {
      "epoch": 18.47,
      "eval_accuracy": 0.7537701926689208,
      "eval_loss": 1.1114356517791748,
      "eval_runtime": 2.0201,
      "eval_samples_per_second": 245.53,
      "eval_steps_per_second": 7.92,
      "step": 136500
    },
    {
      "epoch": 18.54,
      "learning_rate": 3.6535859269282817e-06,
      "loss": 1.1463,
      "step": 137000
    },
    {
      "epoch": 18.54,
      "eval_accuracy": 0.7513940144923632,
      "eval_loss": 1.1001887321472168,
      "eval_runtime": 2.1485,
      "eval_samples_per_second": 230.858,
      "eval_steps_per_second": 7.447,
      "step": 137000
    },
    {
      "epoch": 18.61,
      "learning_rate": 3.4844384303112316e-06,
      "loss": 1.1512,
      "step": 137500
    },
    {
      "epoch": 18.61,
      "eval_accuracy": 0.7586606950140298,
      "eval_loss": 1.0663777589797974,
      "eval_runtime": 2.1796,
      "eval_samples_per_second": 227.562,
      "eval_steps_per_second": 7.341,
      "step": 137500
    },
    {
      "epoch": 18.67,
      "learning_rate": 3.315290933694182e-06,
      "loss": 1.1464,
      "step": 138000
    },
    {
      "epoch": 18.67,
      "eval_accuracy": 0.7583911006384086,
      "eval_loss": 1.0735660791397095,
      "eval_runtime": 2.251,
      "eval_samples_per_second": 220.348,
      "eval_steps_per_second": 7.108,
      "step": 138000
    },
    {
      "epoch": 18.74,
      "learning_rate": 3.1461434370771314e-06,
      "loss": 1.1457,
      "step": 138500
    },
    {
      "epoch": 18.74,
      "eval_accuracy": 0.7604149648750205,
      "eval_loss": 1.080166220664978,
      "eval_runtime": 2.1301,
      "eval_samples_per_second": 232.857,
      "eval_steps_per_second": 7.512,
      "step": 138500
    },
    {
      "epoch": 18.81,
      "learning_rate": 2.9769959404600813e-06,
      "loss": 1.1464,
      "step": 139000
    },
    {
      "epoch": 18.81,
      "eval_accuracy": 0.75420555676145,
      "eval_loss": 1.1091315746307373,
      "eval_runtime": 2.1281,
      "eval_samples_per_second": 233.067,
      "eval_steps_per_second": 7.518,
      "step": 139000
    },
    {
      "epoch": 18.88,
      "learning_rate": 2.8078484438430312e-06,
      "loss": 1.1415,
      "step": 139500
    },
    {
      "epoch": 18.88,
      "eval_accuracy": 0.7594658329138073,
      "eval_loss": 1.0856248140335083,
      "eval_runtime": 2.2679,
      "eval_samples_per_second": 218.701,
      "eval_steps_per_second": 7.055,
      "step": 139500
    },
    {
      "epoch": 18.94,
      "learning_rate": 2.638700947225981e-06,
      "loss": 1.149,
      "step": 140000
    },
    {
      "epoch": 18.94,
      "eval_accuracy": 0.7557433607017732,
      "eval_loss": 1.0958749055862427,
      "eval_runtime": 2.1355,
      "eval_samples_per_second": 232.263,
      "eval_steps_per_second": 7.492,
      "step": 140000
    },
    {
      "epoch": 19.01,
      "learning_rate": 2.469553450608931e-06,
      "loss": 1.1445,
      "step": 140500
    },
    {
      "epoch": 19.01,
      "eval_accuracy": 0.7600160578081092,
      "eval_loss": 1.0713545083999634,
      "eval_runtime": 2.0458,
      "eval_samples_per_second": 242.449,
      "eval_steps_per_second": 7.821,
      "step": 140500
    },
    {
      "epoch": 19.08,
      "learning_rate": 2.300405953991881e-06,
      "loss": 1.1378,
      "step": 141000
    },
    {
      "epoch": 19.08,
      "eval_accuracy": 0.7528535980148884,
      "eval_loss": 1.1179081201553345,
      "eval_runtime": 2.239,
      "eval_samples_per_second": 221.527,
      "eval_steps_per_second": 7.146,
      "step": 141000
    },
    {
      "epoch": 19.15,
      "learning_rate": 2.131258457374831e-06,
      "loss": 1.143,
      "step": 141500
    },
    {
      "epoch": 19.15,
      "eval_accuracy": 0.7608561044555122,
      "eval_loss": 1.085029125213623,
      "eval_runtime": 2.2698,
      "eval_samples_per_second": 218.525,
      "eval_steps_per_second": 7.049,
      "step": 141500
    },
    {
      "epoch": 19.22,
      "learning_rate": 1.962110960757781e-06,
      "loss": 1.1412,
      "step": 142000
    },
    {
      "epoch": 19.22,
      "eval_accuracy": 0.7571760842796552,
      "eval_loss": 1.1089389324188232,
      "eval_runtime": 2.2591,
      "eval_samples_per_second": 219.56,
      "eval_steps_per_second": 7.083,
      "step": 142000
    },
    {
      "epoch": 19.28,
      "learning_rate": 1.7929634641407306e-06,
      "loss": 1.1393,
      "step": 142500
    },
    {
      "epoch": 19.28,
      "eval_accuracy": 0.7580414678206476,
      "eval_loss": 1.095458984375,
      "eval_runtime": 1.8948,
      "eval_samples_per_second": 261.767,
      "eval_steps_per_second": 8.444,
      "step": 142500
    },
    {
      "epoch": 19.35,
      "learning_rate": 1.6238159675236807e-06,
      "loss": 1.1492,
      "step": 143000
    },
    {
      "epoch": 19.35,
      "eval_accuracy": 0.755947708880288,
      "eval_loss": 1.0982964038848877,
      "eval_runtime": 2.019,
      "eval_samples_per_second": 245.66,
      "eval_steps_per_second": 7.925,
      "step": 143000
    },
    {
      "epoch": 19.42,
      "learning_rate": 1.4546684709066306e-06,
      "loss": 1.1455,
      "step": 143500
    },
    {
      "epoch": 19.42,
      "eval_accuracy": 0.7540966020328801,
      "eval_loss": 1.12480628490448,
      "eval_runtime": 1.9105,
      "eval_samples_per_second": 259.614,
      "eval_steps_per_second": 8.375,
      "step": 143500
    },
    {
      "epoch": 19.49,
      "learning_rate": 1.2855209742895805e-06,
      "loss": 1.1442,
      "step": 144000
    },
    {
      "epoch": 19.49,
      "eval_accuracy": 0.7567218409366169,
      "eval_loss": 1.1033666133880615,
      "eval_runtime": 2.1366,
      "eval_samples_per_second": 232.142,
      "eval_steps_per_second": 7.488,
      "step": 144000
    },
    {
      "epoch": 19.55,
      "learning_rate": 1.1163734776725304e-06,
      "loss": 1.1385,
      "step": 144500
    },
    {
      "epoch": 19.55,
      "eval_accuracy": 0.7598665473187404,
      "eval_loss": 1.0718320608139038,
      "eval_runtime": 2.1421,
      "eval_samples_per_second": 231.551,
      "eval_steps_per_second": 7.469,
      "step": 144500
    },
    {
      "epoch": 19.62,
      "learning_rate": 9.472259810554805e-07,
      "loss": 1.1393,
      "step": 145000
    },
    {
      "epoch": 19.62,
      "eval_accuracy": 0.7511771590321439,
      "eval_loss": 1.1188093423843384,
      "eval_runtime": 1.937,
      "eval_samples_per_second": 256.065,
      "eval_steps_per_second": 8.26,
      "step": 145000
    },
    {
      "epoch": 19.69,
      "learning_rate": 7.780784844384303e-07,
      "loss": 1.1408,
      "step": 145500
    },
    {
      "epoch": 19.69,
      "eval_accuracy": 0.7571148718506829,
      "eval_loss": 1.096737027168274,
      "eval_runtime": 2.128,
      "eval_samples_per_second": 233.085,
      "eval_steps_per_second": 7.519,
      "step": 145500
    },
    {
      "epoch": 19.76,
      "learning_rate": 6.089309878213802e-07,
      "loss": 1.1443,
      "step": 146000
    },
    {
      "epoch": 19.76,
      "eval_accuracy": 0.7525236340330075,
      "eval_loss": 1.115225911140442,
      "eval_runtime": 2.0196,
      "eval_samples_per_second": 245.588,
      "eval_steps_per_second": 7.922,
      "step": 146000
    },
    {
      "epoch": 19.82,
      "learning_rate": 4.397834912043302e-07,
      "loss": 1.1495,
      "step": 146500
    },
    {
      "epoch": 19.82,
      "eval_accuracy": 0.7534898820473974,
      "eval_loss": 1.1063731908798218,
      "eval_runtime": 2.0319,
      "eval_samples_per_second": 244.111,
      "eval_steps_per_second": 7.875,
      "step": 146500
    },
    {
      "epoch": 19.89,
      "learning_rate": 2.7063599458728015e-07,
      "loss": 1.1397,
      "step": 147000
    },
    {
      "epoch": 19.89,
      "eval_accuracy": 0.7602626366768863,
      "eval_loss": 1.0799843072891235,
      "eval_runtime": 2.3196,
      "eval_samples_per_second": 213.833,
      "eval_steps_per_second": 6.898,
      "step": 147000
    },
    {
      "epoch": 19.96,
      "learning_rate": 1.0148849797023004e-07,
      "loss": 1.1399,
      "step": 147500
    },
    {
      "epoch": 19.96,
      "eval_accuracy": 0.7566619534479008,
      "eval_loss": 1.0812491178512573,
      "eval_runtime": 2.2409,
      "eval_samples_per_second": 221.343,
      "eval_steps_per_second": 7.14,
      "step": 147500
    },
    {
      "epoch": 20.0,
      "step": 147800,
      "total_flos": 1.2450139383539958e+18,
      "train_loss": 1.2263236557646922,
      "train_runtime": 47907.234,
      "train_samples_per_second": 98.713,
      "train_steps_per_second": 3.085
    }
  ],
  "max_steps": 147800,
  "num_train_epochs": 20,
  "total_flos": 1.2450139383539958e+18,
  "trial_name": null,
  "trial_params": null
}