{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 20.0,
  "eval_steps": 500,
  "global_step": 744020,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03,
      "learning_rate": 3.125e-05,
      "loss": 6.2858,
      "step": 1000
    },
    {
      "epoch": 0.05,
      "learning_rate": 6.25e-05,
      "loss": 5.118,
      "step": 2000
    },
    {
      "epoch": 0.08,
      "learning_rate": 9.375e-05,
      "loss": 4.8257,
      "step": 3000
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.000125,
      "loss": 4.62,
      "step": 4000
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00015625,
      "loss": 4.4689,
      "step": 5000
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0001875,
      "loss": 4.3516,
      "step": 6000
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00021875,
      "loss": 4.2636,
      "step": 7000
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00025,
      "loss": 4.1906,
      "step": 8000
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00028125000000000003,
      "loss": 4.1354,
      "step": 9000
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0003125,
      "loss": 4.0582,
      "step": 10000
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00034365625,
      "loss": 3.9986,
      "step": 11000
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00037490625,
      "loss": 3.9535,
      "step": 12000
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00040615625,
      "loss": 3.9158,
      "step": 13000
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00043737500000000005,
      "loss": 3.8747,
      "step": 14000
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.000468625,
      "loss": 3.8471,
      "step": 15000
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00049984375,
      "loss": 3.8178,
      "step": 16000
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00053109375,
      "loss": 3.794,
      "step": 17000
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0005623125,
      "loss": 3.7705,
      "step": 18000
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0005935625,
      "loss": 3.757,
      "step": 19000
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00062478125,
      "loss": 3.731,
      "step": 20000
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0006560312499999999,
      "loss": 3.7135,
      "step": 21000
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00068725,
      "loss": 3.6993,
      "step": 22000
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00071846875,
      "loss": 3.6745,
      "step": 23000
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.00074971875,
      "loss": 3.668,
      "step": 24000
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0007809375,
      "loss": 3.6522,
      "step": 25000
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0008121875,
      "loss": 3.6422,
      "step": 26000
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0008434062500000001,
      "loss": 3.6284,
      "step": 27000
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.00087465625,
      "loss": 3.6213,
      "step": 28000
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00090590625,
      "loss": 3.6071,
      "step": 29000
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.000937125,
      "loss": 3.5975,
      "step": 30000
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.000968375,
      "loss": 3.5921,
      "step": 31000
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.00099959375,
      "loss": 3.5862,
      "step": 32000
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0009986138029830622,
      "loss": 3.5652,
      "step": 33000
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.000997209348052021,
      "loss": 3.5558,
      "step": 34000
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0009958048931209798,
      "loss": 3.5398,
      "step": 35000
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0009944018426448695,
      "loss": 3.527,
      "step": 36000
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0009929973877138283,
      "loss": 3.5148,
      "step": 37000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.3670570705333534,
      "eval_loss": 3.7269980907440186,
      "eval_runtime": 147.4611,
      "eval_samples_per_second": 392.781,
      "eval_steps_per_second": 6.137,
      "step": 37201
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.0009915929327827871,
      "loss": 3.4761,
      "step": 38000
    },
    {
      "epoch": 1.05,
      "learning_rate": 0.0009901898823066768,
      "loss": 3.4631,
      "step": 39000
    },
    {
      "epoch": 1.08,
      "learning_rate": 0.0009887854273756356,
      "loss": 3.4614,
      "step": 40000
    },
    {
      "epoch": 1.1,
      "learning_rate": 0.0009873809724445942,
      "loss": 3.4538,
      "step": 41000
    },
    {
      "epoch": 1.13,
      "learning_rate": 0.000985976517513553,
      "loss": 3.4587,
      "step": 42000
    },
    {
      "epoch": 1.16,
      "learning_rate": 0.0009845720625825118,
      "loss": 3.4417,
      "step": 43000
    },
    {
      "epoch": 1.18,
      "learning_rate": 0.0009831690121064015,
      "loss": 3.4351,
      "step": 44000
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.0009817645571753603,
      "loss": 3.4312,
      "step": 45000
    },
    {
      "epoch": 1.24,
      "learning_rate": 0.0009803601022443191,
      "loss": 3.4235,
      "step": 46000
    },
    {
      "epoch": 1.26,
      "learning_rate": 0.0009789570517682088,
      "loss": 3.4191,
      "step": 47000
    },
    {
      "epoch": 1.29,
      "learning_rate": 0.0009775525968371674,
      "loss": 3.4077,
      "step": 48000
    },
    {
      "epoch": 1.32,
      "learning_rate": 0.0009761495463610572,
      "loss": 3.4119,
      "step": 49000
    },
    {
      "epoch": 1.34,
      "learning_rate": 0.000974745091430016,
      "loss": 3.392,
      "step": 50000
    },
    {
      "epoch": 1.37,
      "learning_rate": 0.0009733406364989748,
      "loss": 3.3985,
      "step": 51000
    },
    {
      "epoch": 1.4,
      "learning_rate": 0.0009719361815679335,
      "loss": 3.3884,
      "step": 52000
    },
    {
      "epoch": 1.42,
      "learning_rate": 0.0009705317266368922,
      "loss": 3.3792,
      "step": 53000
    },
    {
      "epoch": 1.45,
      "learning_rate": 0.000969127271705851,
      "loss": 3.3734,
      "step": 54000
    },
    {
      "epoch": 1.48,
      "learning_rate": 0.0009677242212297408,
      "loss": 3.3699,
      "step": 55000
    },
    {
      "epoch": 1.51,
      "learning_rate": 0.0009663197662986994,
      "loss": 3.3721,
      "step": 56000
    },
    {
      "epoch": 1.53,
      "learning_rate": 0.0009649167158225893,
      "loss": 3.3688,
      "step": 57000
    },
    {
      "epoch": 1.56,
      "learning_rate": 0.000963512260891548,
      "loss": 3.3598,
      "step": 58000
    },
    {
      "epoch": 1.59,
      "learning_rate": 0.0009621078059605067,
      "loss": 3.3608,
      "step": 59000
    },
    {
      "epoch": 1.61,
      "learning_rate": 0.0009607047554843966,
      "loss": 3.3529,
      "step": 60000
    },
    {
      "epoch": 1.64,
      "learning_rate": 0.0009593003005533553,
      "loss": 3.3448,
      "step": 61000
    },
    {
      "epoch": 1.67,
      "learning_rate": 0.000957895845622314,
      "loss": 3.3475,
      "step": 62000
    },
    {
      "epoch": 1.69,
      "learning_rate": 0.0009564927951462038,
      "loss": 3.3339,
      "step": 63000
    },
    {
      "epoch": 1.72,
      "learning_rate": 0.0009550883402151626,
      "loss": 3.3342,
      "step": 64000
    },
    {
      "epoch": 1.75,
      "learning_rate": 0.0009536852897390523,
      "loss": 3.3323,
      "step": 65000
    },
    {
      "epoch": 1.77,
      "learning_rate": 0.0009522808348080109,
      "loss": 3.3332,
      "step": 66000
    },
    {
      "epoch": 1.8,
      "learning_rate": 0.0009508763798769697,
      "loss": 3.32,
      "step": 67000
    },
    {
      "epoch": 1.83,
      "learning_rate": 0.0009494733294008595,
      "loss": 3.3214,
      "step": 68000
    },
    {
      "epoch": 1.85,
      "learning_rate": 0.0009480688744698182,
      "loss": 3.3226,
      "step": 69000
    },
    {
      "epoch": 1.88,
      "learning_rate": 0.000946664419538777,
      "loss": 3.3158,
      "step": 70000
    },
    {
      "epoch": 1.91,
      "learning_rate": 0.0009452613690626668,
      "loss": 3.3179,
      "step": 71000
    },
    {
      "epoch": 1.94,
      "learning_rate": 0.0009438569141316255,
      "loss": 3.3089,
      "step": 72000
    },
    {
      "epoch": 1.96,
      "learning_rate": 0.0009424524592005843,
      "loss": 3.3103,
      "step": 73000
    },
    {
      "epoch": 1.99,
      "learning_rate": 0.0009410480042695429,
      "loss": 3.3074,
      "step": 74000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.38968938775071477,
      "eval_loss": 3.484098196029663,
      "eval_runtime": 146.602,
      "eval_samples_per_second": 395.083,
      "eval_steps_per_second": 6.173,
      "step": 74402
    },
    {
      "epoch": 2.02,
      "learning_rate": 0.0009396435493385018,
      "loss": 3.2586,
      "step": 75000
    },
    {
      "epoch": 2.04,
      "learning_rate": 0.0009382419033173227,
      "loss": 3.2401,
      "step": 76000
    },
    {
      "epoch": 2.07,
      "learning_rate": 0.0009368374483862813,
      "loss": 3.2462,
      "step": 77000
    },
    {
      "epoch": 2.1,
      "learning_rate": 0.00093543299345524,
      "loss": 3.2422,
      "step": 78000
    },
    {
      "epoch": 2.12,
      "learning_rate": 0.0009340285385241988,
      "loss": 3.2446,
      "step": 79000
    },
    {
      "epoch": 2.15,
      "learning_rate": 0.0009326254880480886,
      "loss": 3.2477,
      "step": 80000
    },
    {
      "epoch": 2.18,
      "learning_rate": 0.0009312224375719783,
      "loss": 3.2454,
      "step": 81000
    },
    {
      "epoch": 2.2,
      "learning_rate": 0.000929817982640937,
      "loss": 3.2402,
      "step": 82000
    },
    {
      "epoch": 2.23,
      "learning_rate": 0.0009284135277098959,
      "loss": 3.2414,
      "step": 83000
    },
    {
      "epoch": 2.26,
      "learning_rate": 0.0009270104772337856,
      "loss": 3.2409,
      "step": 84000
    },
    {
      "epoch": 2.28,
      "learning_rate": 0.0009256060223027443,
      "loss": 3.2413,
      "step": 85000
    },
    {
      "epoch": 2.31,
      "learning_rate": 0.000924201567371703,
      "loss": 3.2392,
      "step": 86000
    },
    {
      "epoch": 2.34,
      "learning_rate": 0.0009227985168955928,
      "loss": 3.2399,
      "step": 87000
    },
    {
      "epoch": 2.37,
      "learning_rate": 0.0009213940619645515,
      "loss": 3.2404,
      "step": 88000
    },
    {
      "epoch": 2.39,
      "learning_rate": 0.0009199896070335103,
      "loss": 3.2342,
      "step": 89000
    },
    {
      "epoch": 2.42,
      "learning_rate": 0.000918585152102469,
      "loss": 3.2307,
      "step": 90000
    },
    {
      "epoch": 2.45,
      "learning_rate": 0.0009171821016263588,
      "loss": 3.2342,
      "step": 91000
    },
    {
      "epoch": 2.47,
      "learning_rate": 0.0009157790511502487,
      "loss": 3.2372,
      "step": 92000
    },
    {
      "epoch": 2.5,
      "learning_rate": 0.0009143745962192074,
      "loss": 3.2274,
      "step": 93000
    },
    {
      "epoch": 2.53,
      "learning_rate": 0.0009129715457430971,
      "loss": 3.2337,
      "step": 94000
    },
    {
      "epoch": 2.55,
      "learning_rate": 0.000911567090812056,
      "loss": 3.2228,
      "step": 95000
    },
    {
      "epoch": 2.58,
      "learning_rate": 0.0009101626358810146,
      "loss": 3.2285,
      "step": 96000
    },
    {
      "epoch": 2.61,
      "learning_rate": 0.0009087581809499733,
      "loss": 3.2247,
      "step": 97000
    },
    {
      "epoch": 2.63,
      "learning_rate": 0.000907355130473863,
      "loss": 3.2241,
      "step": 98000
    },
    {
      "epoch": 2.66,
      "learning_rate": 0.0009059520799977529,
      "loss": 3.2243,
      "step": 99000
    },
    {
      "epoch": 2.69,
      "learning_rate": 0.0009045476250667116,
      "loss": 3.221,
      "step": 100000
    },
    {
      "epoch": 2.71,
      "learning_rate": 0.0009031431701356703,
      "loss": 3.2195,
      "step": 101000
    },
    {
      "epoch": 2.74,
      "learning_rate": 0.0009017401196595602,
      "loss": 3.2168,
      "step": 102000
    },
    {
      "epoch": 2.77,
      "learning_rate": 0.0009003356647285189,
      "loss": 3.2185,
      "step": 103000
    },
    {
      "epoch": 2.8,
      "learning_rate": 0.0008989326142524087,
      "loss": 3.2177,
      "step": 104000
    },
    {
      "epoch": 2.82,
      "learning_rate": 0.0008975281593213675,
      "loss": 3.2188,
      "step": 105000
    },
    {
      "epoch": 2.85,
      "learning_rate": 0.0008961237043903261,
      "loss": 3.2152,
      "step": 106000
    },
    {
      "epoch": 2.88,
      "learning_rate": 0.0008947192494592848,
      "loss": 3.2146,
      "step": 107000
    },
    {
      "epoch": 2.9,
      "learning_rate": 0.0008933176034381056,
      "loss": 3.2083,
      "step": 108000
    },
    {
      "epoch": 2.93,
      "learning_rate": 0.0008919131485070644,
      "loss": 3.2108,
      "step": 109000
    },
    {
      "epoch": 2.96,
      "learning_rate": 0.0008905086935760231,
      "loss": 3.2138,
      "step": 110000
    },
    {
      "epoch": 2.98,
      "learning_rate": 0.0008891056430999129,
      "loss": 3.1988,
      "step": 111000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.3979050669647656,
      "eval_loss": 3.4299747943878174,
      "eval_runtime": 149.1667,
      "eval_samples_per_second": 388.29,
      "eval_steps_per_second": 6.067,
      "step": 111603
    },
    {
      "epoch": 3.01,
      "learning_rate": 0.0008877011881688717,
      "loss": 3.1786,
      "step": 112000
    },
    {
      "epoch": 3.04,
      "learning_rate": 0.0008862967332378304,
      "loss": 3.14,
      "step": 113000
    },
    {
      "epoch": 3.06,
      "learning_rate": 0.0008848936827617202,
      "loss": 3.1408,
      "step": 114000
    },
    {
      "epoch": 3.09,
      "learning_rate": 0.000883489227830679,
      "loss": 3.1491,
      "step": 115000
    },
    {
      "epoch": 3.12,
      "learning_rate": 0.0008820847728996376,
      "loss": 3.1428,
      "step": 116000
    },
    {
      "epoch": 3.15,
      "learning_rate": 0.0008806803179685963,
      "loss": 3.1515,
      "step": 117000
    },
    {
      "epoch": 3.17,
      "learning_rate": 0.0008792772674924862,
      "loss": 3.1396,
      "step": 118000
    },
    {
      "epoch": 3.2,
      "learning_rate": 0.0008778728125614449,
      "loss": 3.1518,
      "step": 119000
    },
    {
      "epoch": 3.23,
      "learning_rate": 0.0008764683576304036,
      "loss": 3.1464,
      "step": 120000
    },
    {
      "epoch": 3.25,
      "learning_rate": 0.0008750653071542935,
      "loss": 3.1562,
      "step": 121000
    },
    {
      "epoch": 3.28,
      "learning_rate": 0.0008736608522232522,
      "loss": 3.1454,
      "step": 122000
    },
    {
      "epoch": 3.31,
      "learning_rate": 0.0008722563972922109,
      "loss": 3.153,
      "step": 123000
    },
    {
      "epoch": 3.33,
      "learning_rate": 0.0008708547512710317,
      "loss": 3.1608,
      "step": 124000
    },
    {
      "epoch": 3.36,
      "learning_rate": 0.0008694502963399905,
      "loss": 3.1545,
      "step": 125000
    },
    {
      "epoch": 3.39,
      "learning_rate": 0.0008680458414089491,
      "loss": 3.1477,
      "step": 126000
    },
    {
      "epoch": 3.41,
      "learning_rate": 0.0008666427909328389,
      "loss": 3.1499,
      "step": 127000
    },
    {
      "epoch": 3.44,
      "learning_rate": 0.0008652383360017977,
      "loss": 3.1532,
      "step": 128000
    },
    {
      "epoch": 3.47,
      "learning_rate": 0.0008638338810707564,
      "loss": 3.1507,
      "step": 129000
    },
    {
      "epoch": 3.49,
      "learning_rate": 0.0008624308305946462,
      "loss": 3.1545,
      "step": 130000
    },
    {
      "epoch": 3.52,
      "learning_rate": 0.000861026375663605,
      "loss": 3.1478,
      "step": 131000
    },
    {
      "epoch": 3.55,
      "learning_rate": 0.0008596233251874948,
      "loss": 3.157,
      "step": 132000
    },
    {
      "epoch": 3.58,
      "learning_rate": 0.0008582188702564535,
      "loss": 3.1439,
      "step": 133000
    },
    {
      "epoch": 3.6,
      "learning_rate": 0.0008568144153254123,
      "loss": 3.1461,
      "step": 134000
    },
    {
      "epoch": 3.63,
      "learning_rate": 0.0008554099603943709,
      "loss": 3.1467,
      "step": 135000
    },
    {
      "epoch": 3.66,
      "learning_rate": 0.0008540069099182607,
      "loss": 3.1486,
      "step": 136000
    },
    {
      "epoch": 3.68,
      "learning_rate": 0.0008526024549872195,
      "loss": 3.1467,
      "step": 137000
    },
    {
      "epoch": 3.71,
      "learning_rate": 0.0008511994045111093,
      "loss": 3.1482,
      "step": 138000
    },
    {
      "epoch": 3.74,
      "learning_rate": 0.000849794949580068,
      "loss": 3.1508,
      "step": 139000
    },
    {
      "epoch": 3.76,
      "learning_rate": 0.0008483904946490267,
      "loss": 3.1574,
      "step": 140000
    },
    {
      "epoch": 3.79,
      "learning_rate": 0.0008469860397179855,
      "loss": 3.1437,
      "step": 141000
    },
    {
      "epoch": 3.82,
      "learning_rate": 0.0008455815847869442,
      "loss": 3.1427,
      "step": 142000
    },
    {
      "epoch": 3.84,
      "learning_rate": 0.000844178534310834,
      "loss": 3.15,
      "step": 143000
    },
    {
      "epoch": 3.87,
      "learning_rate": 0.0008427740793797927,
      "loss": 3.1489,
      "step": 144000
    },
    {
      "epoch": 3.9,
      "learning_rate": 0.0008413710289036824,
      "loss": 3.1449,
      "step": 145000
    },
    {
      "epoch": 3.92,
      "learning_rate": 0.0008399665739726412,
      "loss": 3.1465,
      "step": 146000
    },
    {
      "epoch": 3.95,
      "learning_rate": 0.0008385621190416,
      "loss": 3.1375,
      "step": 147000
    },
    {
      "epoch": 3.98,
      "learning_rate": 0.0008371576641105587,
      "loss": 3.152,
      "step": 148000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.4049755331384225,
      "eval_loss": 3.3773725032806396,
      "eval_runtime": 149.0965,
      "eval_samples_per_second": 388.473,
      "eval_steps_per_second": 6.07,
      "step": 148804
    },
    {
      "epoch": 4.01,
      "learning_rate": 0.0008357546136344485,
      "loss": 3.1283,
      "step": 149000
    },
    {
      "epoch": 4.03,
      "learning_rate": 0.0008343515631583383,
      "loss": 3.0733,
      "step": 150000
    },
    {
      "epoch": 4.06,
      "learning_rate": 0.000832947108227297,
      "loss": 3.0775,
      "step": 151000
    },
    {
      "epoch": 4.09,
      "learning_rate": 0.0008315426532962557,
      "loss": 3.0746,
      "step": 152000
    },
    {
      "epoch": 4.11,
      "learning_rate": 0.0008301381983652145,
      "loss": 3.0835,
      "step": 153000
    },
    {
      "epoch": 4.14,
      "learning_rate": 0.0008287351478891042,
      "loss": 3.0848,
      "step": 154000
    },
    {
      "epoch": 4.17,
      "learning_rate": 0.0008273306929580629,
      "loss": 3.0851,
      "step": 155000
    },
    {
      "epoch": 4.19,
      "learning_rate": 0.0008259276424819527,
      "loss": 3.0789,
      "step": 156000
    },
    {
      "epoch": 4.22,
      "learning_rate": 0.0008245231875509115,
      "loss": 3.0933,
      "step": 157000
    },
    {
      "epoch": 4.25,
      "learning_rate": 0.0008231201370748013,
      "loss": 3.0864,
      "step": 158000
    },
    {
      "epoch": 4.27,
      "learning_rate": 0.00082171568214376,
      "loss": 3.0948,
      "step": 159000
    },
    {
      "epoch": 4.3,
      "learning_rate": 0.0008203126316676498,
      "loss": 3.0914,
      "step": 160000
    },
    {
      "epoch": 4.33,
      "learning_rate": 0.0008189081767366086,
      "loss": 3.0954,
      "step": 161000
    },
    {
      "epoch": 4.35,
      "learning_rate": 0.0008175037218055673,
      "loss": 3.0923,
      "step": 162000
    },
    {
      "epoch": 4.38,
      "learning_rate": 0.000816099266874526,
      "loss": 3.0964,
      "step": 163000
    },
    {
      "epoch": 4.41,
      "learning_rate": 0.0008146962163984158,
      "loss": 3.0941,
      "step": 164000
    },
    {
      "epoch": 4.44,
      "learning_rate": 0.0008132917614673745,
      "loss": 3.0902,
      "step": 165000
    },
    {
      "epoch": 4.46,
      "learning_rate": 0.0008118887109912643,
      "loss": 3.0969,
      "step": 166000
    },
    {
      "epoch": 4.49,
      "learning_rate": 0.000810484256060223,
      "loss": 3.0948,
      "step": 167000
    },
    {
      "epoch": 4.52,
      "learning_rate": 0.0008090798011291817,
      "loss": 3.0874,
      "step": 168000
    },
    {
      "epoch": 4.54,
      "learning_rate": 0.0008076767506530715,
      "loss": 3.0981,
      "step": 169000
    },
    {
      "epoch": 4.57,
      "learning_rate": 0.0008062722957220303,
      "loss": 3.0934,
      "step": 170000
    },
    {
      "epoch": 4.6,
      "learning_rate": 0.000804867840790989,
      "loss": 3.0974,
      "step": 171000
    },
    {
      "epoch": 4.62,
      "learning_rate": 0.0008034633858599479,
      "loss": 3.0942,
      "step": 172000
    },
    {
      "epoch": 4.65,
      "learning_rate": 0.0008020603353838376,
      "loss": 3.0917,
      "step": 173000
    },
    {
      "epoch": 4.68,
      "learning_rate": 0.0008006558804527962,
      "loss": 3.0974,
      "step": 174000
    },
    {
      "epoch": 4.7,
      "learning_rate": 0.000799252829976686,
      "loss": 3.0948,
      "step": 175000
    },
    {
      "epoch": 4.73,
      "learning_rate": 0.0007978483750456448,
      "loss": 3.099,
      "step": 176000
    },
    {
      "epoch": 4.76,
      "learning_rate": 0.0007964439201146035,
      "loss": 3.1001,
      "step": 177000
    },
    {
      "epoch": 4.78,
      "learning_rate": 0.0007950394651835623,
      "loss": 3.0987,
      "step": 178000
    },
    {
      "epoch": 4.81,
      "learning_rate": 0.0007936364147074521,
      "loss": 3.0925,
      "step": 179000
    },
    {
      "epoch": 4.84,
      "learning_rate": 0.0007922319597764108,
      "loss": 3.0969,
      "step": 180000
    },
    {
      "epoch": 4.87,
      "learning_rate": 0.0007908289093003006,
      "loss": 3.0986,
      "step": 181000
    },
    {
      "epoch": 4.89,
      "learning_rate": 0.0007894244543692594,
      "loss": 3.095,
      "step": 182000
    },
    {
      "epoch": 4.92,
      "learning_rate": 0.000788019999438218,
      "loss": 3.0932,
      "step": 183000
    },
    {
      "epoch": 4.95,
      "learning_rate": 0.0007866169489621078,
      "loss": 3.0919,
      "step": 184000
    },
    {
      "epoch": 4.97,
      "learning_rate": 0.0007852124940310666,
      "loss": 3.0978,
      "step": 185000
    },
    {
      "epoch": 5.0,
      "learning_rate": 0.0007838080391000253,
      "loss": 3.0973,
      "step": 186000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.40901955199174495,
      "eval_loss": 3.346210479736328,
      "eval_runtime": 147.9489,
      "eval_samples_per_second": 391.487,
      "eval_steps_per_second": 6.117,
      "step": 186005
    },
    {
      "epoch": 5.03,
      "learning_rate": 0.000782403584168984,
      "loss": 3.021,
      "step": 187000
    },
    {
      "epoch": 5.05,
      "learning_rate": 0.0007810005336928739,
      "loss": 3.0218,
      "step": 188000
    },
    {
      "epoch": 5.08,
      "learning_rate": 0.0007795960787618326,
      "loss": 3.0321,
      "step": 189000
    },
    {
      "epoch": 5.11,
      "learning_rate": 0.0007781930282857223,
      "loss": 3.0359,
      "step": 190000
    },
    {
      "epoch": 5.13,
      "learning_rate": 0.0007767885733546812,
      "loss": 3.0365,
      "step": 191000
    },
    {
      "epoch": 5.16,
      "learning_rate": 0.0007753855228785709,
      "loss": 3.0411,
      "step": 192000
    },
    {
      "epoch": 5.19,
      "learning_rate": 0.0007739810679475295,
      "loss": 3.0414,
      "step": 193000
    },
    {
      "epoch": 5.21,
      "learning_rate": 0.0007725766130164883,
      "loss": 3.0395,
      "step": 194000
    },
    {
      "epoch": 5.24,
      "learning_rate": 0.0007711721580854471,
      "loss": 3.042,
      "step": 195000
    },
    {
      "epoch": 5.27,
      "learning_rate": 0.0007697691076093368,
      "loss": 3.0454,
      "step": 196000
    },
    {
      "epoch": 5.3,
      "learning_rate": 0.0007683646526782956,
      "loss": 3.0444,
      "step": 197000
    },
    {
      "epoch": 5.32,
      "learning_rate": 0.0007669601977472544,
      "loss": 3.0452,
      "step": 198000
    },
    {
      "epoch": 5.35,
      "learning_rate": 0.0007655557428162131,
      "loss": 3.0496,
      "step": 199000
    },
    {
      "epoch": 5.38,
      "learning_rate": 0.0007641526923401028,
      "loss": 3.0454,
      "step": 200000
    },
    {
      "epoch": 5.4,
      "learning_rate": 0.0007627482374090615,
      "loss": 3.048,
      "step": 201000
    },
    {
      "epoch": 5.43,
      "learning_rate": 0.0007613451869329513,
      "loss": 3.0478,
      "step": 202000
    },
    {
      "epoch": 5.46,
      "learning_rate": 0.00075994073200191,
      "loss": 3.0495,
      "step": 203000
    },
    {
      "epoch": 5.48,
      "learning_rate": 0.0007585376815257999,
      "loss": 3.0498,
      "step": 204000
    },
    {
      "epoch": 5.51,
      "learning_rate": 0.0007571332265947586,
      "loss": 3.0483,
      "step": 205000
    },
    {
      "epoch": 5.54,
      "learning_rate": 0.0007557301761186483,
      "loss": 3.0534,
      "step": 206000
    },
    {
      "epoch": 5.56,
      "learning_rate": 0.0007543257211876072,
      "loss": 3.0583,
      "step": 207000
    },
    {
      "epoch": 5.59,
      "learning_rate": 0.0007529212662565659,
      "loss": 3.0512,
      "step": 208000
    },
    {
      "epoch": 5.62,
      "learning_rate": 0.0007515182157804556,
      "loss": 3.0507,
      "step": 209000
    },
    {
      "epoch": 5.65,
      "learning_rate": 0.0007501137608494145,
      "loss": 3.0499,
      "step": 210000
    },
    {
      "epoch": 5.67,
      "learning_rate": 0.0007487107103733042,
      "loss": 3.0572,
      "step": 211000
    },
    {
      "epoch": 5.7,
      "learning_rate": 0.0007473062554422628,
      "loss": 3.0519,
      "step": 212000
    },
    {
      "epoch": 5.73,
      "learning_rate": 0.0007459018005112215,
      "loss": 3.0495,
      "step": 213000
    },
    {
      "epoch": 5.75,
      "learning_rate": 0.0007444987500351114,
      "loss": 3.0612,
      "step": 214000
    },
    {
      "epoch": 5.78,
      "learning_rate": 0.0007430956995590012,
      "loss": 3.0547,
      "step": 215000
    },
    {
      "epoch": 5.81,
      "learning_rate": 0.0007416912446279599,
      "loss": 3.054,
      "step": 216000
    },
    {
      "epoch": 5.83,
      "learning_rate": 0.0007402867896969187,
      "loss": 3.0547,
      "step": 217000
    },
    {
      "epoch": 5.86,
      "learning_rate": 0.0007388823347658774,
      "loss": 3.0588,
      "step": 218000
    },
    {
      "epoch": 5.89,
      "learning_rate": 0.0007374792842897672,
      "loss": 3.0531,
      "step": 219000
    },
    {
      "epoch": 5.91,
      "learning_rate": 0.0007360762338136569,
      "loss": 3.0585,
      "step": 220000
    },
    {
      "epoch": 5.94,
      "learning_rate": 0.0007346717788826157,
      "loss": 3.0522,
      "step": 221000
    },
    {
      "epoch": 5.97,
      "learning_rate": 0.0007332673239515743,
      "loss": 3.0604,
      "step": 222000
    },
    {
      "epoch": 5.99,
      "learning_rate": 0.0007318628690205332,
      "loss": 3.0543,
      "step": 223000
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.4064327960745534,
      "eval_loss": 3.3686516284942627,
      "eval_runtime": 149.1251,
      "eval_samples_per_second": 388.399,
      "eval_steps_per_second": 6.069,
      "step": 223206
    },
    {
      "epoch": 6.02,
      "learning_rate": 0.0007304598185444229,
      "loss": 3.0023,
      "step": 224000
    },
    {
      "epoch": 6.05,
      "learning_rate": 0.0007290553636133816,
      "loss": 2.9878,
      "step": 225000
    },
    {
      "epoch": 6.08,
      "learning_rate": 0.0007276509086823405,
      "loss": 2.9862,
      "step": 226000
    },
    {
      "epoch": 6.1,
      "learning_rate": 0.0007262464537512992,
      "loss": 2.993,
      "step": 227000
    },
    {
      "epoch": 6.13,
      "learning_rate": 0.0007248434032751889,
      "loss": 2.9986,
      "step": 228000
    },
    {
      "epoch": 6.16,
      "learning_rate": 0.0007234389483441476,
      "loss": 2.9984,
      "step": 229000
    },
    {
      "epoch": 6.18,
      "learning_rate": 0.0007220344934131064,
      "loss": 2.9975,
      "step": 230000
    },
    {
      "epoch": 6.21,
      "learning_rate": 0.0007206314429369961,
      "loss": 3.0058,
      "step": 231000
    },
    {
      "epoch": 6.24,
      "learning_rate": 0.0007192269880059548,
      "loss": 3.003,
      "step": 232000
    },
    {
      "epoch": 6.26,
      "learning_rate": 0.0007178239375298447,
      "loss": 3.0059,
      "step": 233000
    },
    {
      "epoch": 6.29,
      "learning_rate": 0.0007164194825988034,
      "loss": 3.0085,
      "step": 234000
    },
    {
      "epoch": 6.32,
      "learning_rate": 0.0007150150276677621,
      "loss": 3.0067,
      "step": 235000
    },
    {
      "epoch": 6.34,
      "learning_rate": 0.000713611977191652,
      "loss": 3.0048,
      "step": 236000
    },
    {
      "epoch": 6.37,
      "learning_rate": 0.0007122075222606107,
      "loss": 3.007,
      "step": 237000
    },
    {
      "epoch": 6.4,
      "learning_rate": 0.0007108044717845005,
      "loss": 3.0163,
      "step": 238000
    },
    {
      "epoch": 6.42,
      "learning_rate": 0.0007094000168534593,
      "loss": 3.0104,
      "step": 239000
    },
    {
      "epoch": 6.45,
      "learning_rate": 0.0007079955619224179,
      "loss": 3.0145,
      "step": 240000
    },
    {
      "epoch": 6.48,
      "learning_rate": 0.0007065939159012388,
      "loss": 3.0145,
      "step": 241000
    },
    {
      "epoch": 6.51,
      "learning_rate": 0.0007051894609701974,
      "loss": 3.0127,
      "step": 242000
    },
    {
      "epoch": 6.53,
      "learning_rate": 0.0007037850060391562,
      "loss": 3.0159,
      "step": 243000
    },
    {
      "epoch": 6.56,
      "learning_rate": 0.0007023805511081149,
      "loss": 3.0151,
      "step": 244000
    },
    {
      "epoch": 6.59,
      "learning_rate": 0.0007009760961770736,
      "loss": 3.02,
      "step": 245000
    },
    {
      "epoch": 6.61,
      "learning_rate": 0.0006995730457009635,
      "loss": 3.019,
      "step": 246000
    },
    {
      "epoch": 6.64,
      "learning_rate": 0.0006981685907699222,
      "loss": 3.0139,
      "step": 247000
    },
    {
      "epoch": 6.67,
      "learning_rate": 0.000696765540293812,
      "loss": 3.0183,
      "step": 248000
    },
    {
      "epoch": 6.69,
      "learning_rate": 0.0006953610853627708,
      "loss": 3.0203,
      "step": 249000
    },
    {
      "epoch": 6.72,
      "learning_rate": 0.0006939566304317294,
      "loss": 3.024,
      "step": 250000
    },
    {
      "epoch": 6.75,
      "learning_rate": 0.0006925535799556192,
      "loss": 3.0248,
      "step": 251000
    },
    {
      "epoch": 6.77,
      "learning_rate": 0.000691149125024578,
      "loss": 3.0249,
      "step": 252000
    },
    {
      "epoch": 6.8,
      "learning_rate": 0.0006897460745484677,
      "loss": 3.0181,
      "step": 253000
    },
    {
      "epoch": 6.83,
      "learning_rate": 0.0006883416196174265,
      "loss": 3.0196,
      "step": 254000
    },
    {
      "epoch": 6.85,
      "learning_rate": 0.0006869371646863853,
      "loss": 3.0244,
      "step": 255000
    },
    {
      "epoch": 6.88,
      "learning_rate": 0.000685534114210275,
      "loss": 3.0251,
      "step": 256000
    },
    {
      "epoch": 6.91,
      "learning_rate": 0.0006841296592792338,
      "loss": 3.0219,
      "step": 257000
    },
    {
      "epoch": 6.94,
      "learning_rate": 0.0006827266088031235,
      "loss": 3.0203,
      "step": 258000
    },
    {
      "epoch": 6.96,
      "learning_rate": 0.0006813221538720823,
      "loss": 3.0225,
      "step": 259000
    },
    {
      "epoch": 6.99,
      "learning_rate": 0.0006799176989410409,
      "loss": 3.0161,
      "step": 260000
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.4113539808027173,
      "eval_loss": 3.339113473892212,
      "eval_runtime": 148.8983,
      "eval_samples_per_second": 388.99,
      "eval_steps_per_second": 6.078,
      "step": 260407
    },
    {
      "epoch": 7.02,
      "learning_rate": 0.0006785132440099997,
      "loss": 2.9764,
      "step": 261000
    },
    {
      "epoch": 7.04,
      "learning_rate": 0.0006771101935338895,
      "loss": 2.9576,
      "step": 262000
    },
    {
      "epoch": 7.07,
      "learning_rate": 0.0006757057386028482,
      "loss": 2.9529,
      "step": 263000
    },
    {
      "epoch": 7.1,
      "learning_rate": 0.0006743012836718069,
      "loss": 2.9603,
      "step": 264000
    },
    {
      "epoch": 7.12,
      "learning_rate": 0.0006728968287407658,
      "loss": 2.9641,
      "step": 265000
    },
    {
      "epoch": 7.15,
      "learning_rate": 0.0006714937782646555,
      "loss": 2.9675,
      "step": 266000
    },
    {
      "epoch": 7.18,
      "learning_rate": 0.0006700907277885453,
      "loss": 2.9641,
      "step": 267000
    },
    {
      "epoch": 7.2,
      "learning_rate": 0.0006686862728575041,
      "loss": 2.9672,
      "step": 268000
    },
    {
      "epoch": 7.23,
      "learning_rate": 0.0006672818179264628,
      "loss": 2.9774,
      "step": 269000
    },
    {
      "epoch": 7.26,
      "learning_rate": 0.0006658773629954214,
      "loss": 2.9753,
      "step": 270000
    },
    {
      "epoch": 7.28,
      "learning_rate": 0.0006644743125193112,
      "loss": 2.9674,
      "step": 271000
    },
    {
      "epoch": 7.31,
      "learning_rate": 0.00066306985758827,
      "loss": 2.9716,
      "step": 272000
    },
    {
      "epoch": 7.34,
      "learning_rate": 0.0006616654026572287,
      "loss": 2.9788,
      "step": 273000
    },
    {
      "epoch": 7.37,
      "learning_rate": 0.0006602623521811185,
      "loss": 2.9791,
      "step": 274000
    },
    {
      "epoch": 7.39,
      "learning_rate": 0.0006588593017050083,
      "loss": 2.9821,
      "step": 275000
    },
    {
      "epoch": 7.42,
      "learning_rate": 0.000657454846773967,
      "loss": 2.9828,
      "step": 276000
    },
    {
      "epoch": 7.45,
      "learning_rate": 0.0006560503918429258,
      "loss": 2.9802,
      "step": 277000
    },
    {
      "epoch": 7.47,
      "learning_rate": 0.0006546459369118846,
      "loss": 2.9858,
      "step": 278000
    },
    {
      "epoch": 7.5,
      "learning_rate": 0.0006532428864357743,
      "loss": 2.9814,
      "step": 279000
    },
    {
      "epoch": 7.53,
      "learning_rate": 0.0006518398359596641,
      "loss": 2.9865,
      "step": 280000
    },
    {
      "epoch": 7.55,
      "learning_rate": 0.0006504353810286228,
      "loss": 2.9894,
      "step": 281000
    },
    {
      "epoch": 7.58,
      "learning_rate": 0.0006490309260975815,
      "loss": 2.9832,
      "step": 282000
    },
    {
      "epoch": 7.61,
      "learning_rate": 0.0006476264711665402,
      "loss": 2.986,
      "step": 283000
    },
    {
      "epoch": 7.63,
      "learning_rate": 0.0006462234206904301,
      "loss": 2.9924,
      "step": 284000
    },
    {
      "epoch": 7.66,
      "learning_rate": 0.0006448189657593888,
      "loss": 2.9838,
      "step": 285000
    },
    {
      "epoch": 7.69,
      "learning_rate": 0.0006434145108283475,
      "loss": 2.99,
      "step": 286000
    },
    {
      "epoch": 7.71,
      "learning_rate": 0.0006420100558973064,
      "loss": 2.9873,
      "step": 287000
    },
    {
      "epoch": 7.74,
      "learning_rate": 0.0006406070054211961,
      "loss": 2.9866,
      "step": 288000
    },
    {
      "epoch": 7.77,
      "learning_rate": 0.0006392025504901547,
      "loss": 2.9869,
      "step": 289000
    },
    {
      "epoch": 7.8,
      "learning_rate": 0.0006377995000140445,
      "loss": 2.9881,
      "step": 290000
    },
    {
      "epoch": 7.82,
      "learning_rate": 0.0006363964495379343,
      "loss": 2.9825,
      "step": 291000
    },
    {
      "epoch": 7.85,
      "learning_rate": 0.000634991994606893,
      "loss": 2.9951,
      "step": 292000
    },
    {
      "epoch": 7.88,
      "learning_rate": 0.0006335875396758518,
      "loss": 2.9958,
      "step": 293000
    },
    {
      "epoch": 7.9,
      "learning_rate": 0.0006321830847448106,
      "loss": 2.997,
      "step": 294000
    },
    {
      "epoch": 7.93,
      "learning_rate": 0.0006307800342687003,
      "loss": 2.9886,
      "step": 295000
    },
    {
      "epoch": 7.96,
      "learning_rate": 0.0006293755793376591,
      "loss": 3.0001,
      "step": 296000
    },
    {
      "epoch": 7.98,
      "learning_rate": 0.0006279725288615489,
      "loss": 2.9858,
      "step": 297000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.4104764790291721,
      "eval_loss": 3.347707748413086,
      "eval_runtime": 148.9691,
      "eval_samples_per_second": 388.806,
      "eval_steps_per_second": 6.075,
      "step": 297608
    },
    {
      "epoch": 8.01,
      "learning_rate": 0.0006265680739305076,
      "loss": 2.9621,
      "step": 298000
    },
    {
      "epoch": 8.04,
      "learning_rate": 0.0006251650234543974,
      "loss": 2.9243,
      "step": 299000
    },
    {
      "epoch": 8.06,
      "learning_rate": 0.000623760568523356,
      "loss": 2.9237,
      "step": 300000
    },
    {
      "epoch": 8.09,
      "learning_rate": 0.0006223575180472459,
      "loss": 2.9296,
      "step": 301000
    },
    {
      "epoch": 8.12,
      "learning_rate": 0.0006209530631162046,
      "loss": 2.9321,
      "step": 302000
    },
    {
      "epoch": 8.14,
      "learning_rate": 0.0006195486081851633,
      "loss": 2.9411,
      "step": 303000
    },
    {
      "epoch": 8.17,
      "learning_rate": 0.0006181441532541221,
      "loss": 2.9375,
      "step": 304000
    },
    {
      "epoch": 8.2,
      "learning_rate": 0.0006167396983230808,
      "loss": 2.9463,
      "step": 305000
    },
    {
      "epoch": 8.23,
      "learning_rate": 0.0006153366478469706,
      "loss": 2.9421,
      "step": 306000
    },
    {
      "epoch": 8.25,
      "learning_rate": 0.0006139321929159294,
      "loss": 2.9412,
      "step": 307000
    },
    {
      "epoch": 8.28,
      "learning_rate": 0.0006125291424398192,
      "loss": 2.9451,
      "step": 308000
    },
    {
      "epoch": 8.31,
      "learning_rate": 0.0006111246875087778,
      "loss": 2.9487,
      "step": 309000
    },
    {
      "epoch": 8.33,
      "learning_rate": 0.0006097216370326676,
      "loss": 2.9474,
      "step": 310000
    },
    {
      "epoch": 8.36,
      "learning_rate": 0.0006083171821016264,
      "loss": 2.9504,
      "step": 311000
    },
    {
      "epoch": 8.39,
      "learning_rate": 0.0006069127271705851,
      "loss": 2.9526,
      "step": 312000
    },
    {
      "epoch": 8.41,
      "learning_rate": 0.0006055096766944749,
      "loss": 2.948,
      "step": 313000
    },
    {
      "epoch": 8.44,
      "learning_rate": 0.0006041066262183647,
      "loss": 2.954,
      "step": 314000
    },
    {
      "epoch": 8.47,
      "learning_rate": 0.0006027021712873234,
      "loss": 2.9529,
      "step": 315000
    },
    {
      "epoch": 8.49,
      "learning_rate": 0.0006012977163562821,
      "loss": 2.9531,
      "step": 316000
    },
    {
      "epoch": 8.52,
      "learning_rate": 0.0005998932614252409,
      "loss": 2.9572,
      "step": 317000
    },
    {
      "epoch": 8.55,
      "learning_rate": 0.0005984902109491307,
      "loss": 2.9579,
      "step": 318000
    },
    {
      "epoch": 8.58,
      "learning_rate": 0.0005970857560180893,
      "loss": 2.9599,
      "step": 319000
    },
    {
      "epoch": 8.6,
      "learning_rate": 0.0005956827055419792,
      "loss": 2.9537,
      "step": 320000
    },
    {
      "epoch": 8.63,
      "learning_rate": 0.0005942782506109379,
      "loss": 2.9554,
      "step": 321000
    },
    {
      "epoch": 8.66,
      "learning_rate": 0.0005928737956798966,
      "loss": 2.9589,
      "step": 322000
    },
    {
      "epoch": 8.68,
      "learning_rate": 0.0005914707452037865,
      "loss": 2.9607,
      "step": 323000
    },
    {
      "epoch": 8.71,
      "learning_rate": 0.0005900662902727452,
      "loss": 2.958,
      "step": 324000
    },
    {
      "epoch": 8.74,
      "learning_rate": 0.0005886632397966349,
      "loss": 2.9597,
      "step": 325000
    },
    {
      "epoch": 8.76,
      "learning_rate": 0.0005872587848655937,
      "loss": 2.9666,
      "step": 326000
    },
    {
      "epoch": 8.79,
      "learning_rate": 0.0005858557343894835,
      "loss": 2.9572,
      "step": 327000
    },
    {
      "epoch": 8.82,
      "learning_rate": 0.0005844512794584422,
      "loss": 2.9654,
      "step": 328000
    },
    {
      "epoch": 8.84,
      "learning_rate": 0.000583048228982332,
      "loss": 2.9631,
      "step": 329000
    },
    {
      "epoch": 8.87,
      "learning_rate": 0.0005816437740512907,
      "loss": 2.9666,
      "step": 330000
    },
    {
      "epoch": 8.9,
      "learning_rate": 0.0005802393191202494,
      "loss": 2.9719,
      "step": 331000
    },
    {
      "epoch": 8.92,
      "learning_rate": 0.0005788348641892081,
      "loss": 2.9649,
      "step": 332000
    },
    {
      "epoch": 8.95,
      "learning_rate": 0.0005774332181680289,
      "loss": 2.9659,
      "step": 333000
    },
    {
      "epoch": 8.98,
      "learning_rate": 0.0005760287632369877,
      "loss": 2.9718,
      "step": 334000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.41122177107294106,
      "eval_loss": 3.343648672103882,
      "eval_runtime": 147.5276,
      "eval_samples_per_second": 392.604,
      "eval_steps_per_second": 6.134,
      "step": 334809
    },
    {
      "epoch": 9.01,
      "learning_rate": 0.0005746243083059465,
      "loss": 2.9542,
      "step": 335000
    },
    {
      "epoch": 9.03,
      "learning_rate": 0.0005732212578298362,
      "loss": 2.891,
      "step": 336000
    },
    {
      "epoch": 9.06,
      "learning_rate": 0.000571816802898795,
      "loss": 2.9009,
      "step": 337000
    },
    {
      "epoch": 9.09,
      "learning_rate": 0.0005704123479677537,
      "loss": 2.8991,
      "step": 338000
    },
    {
      "epoch": 9.11,
      "learning_rate": 0.0005690078930367125,
      "loss": 2.9084,
      "step": 339000
    },
    {
      "epoch": 9.14,
      "learning_rate": 0.0005676048425606023,
      "loss": 2.91,
      "step": 340000
    },
    {
      "epoch": 9.17,
      "learning_rate": 0.0005662003876295609,
      "loss": 2.9123,
      "step": 341000
    },
    {
      "epoch": 9.19,
      "learning_rate": 0.0005647973371534507,
      "loss": 2.9128,
      "step": 342000
    },
    {
      "epoch": 9.22,
      "learning_rate": 0.0005633942866773404,
      "loss": 2.9138,
      "step": 343000
    },
    {
      "epoch": 9.25,
      "learning_rate": 0.0005619898317462993,
      "loss": 2.9208,
      "step": 344000
    },
    {
      "epoch": 9.27,
      "learning_rate": 0.000560585376815258,
      "loss": 2.9197,
      "step": 345000
    },
    {
      "epoch": 9.3,
      "learning_rate": 0.0005591809218842168,
      "loss": 2.919,
      "step": 346000
    },
    {
      "epoch": 9.33,
      "learning_rate": 0.0005577778714081066,
      "loss": 2.9241,
      "step": 347000
    },
    {
      "epoch": 9.35,
      "learning_rate": 0.0005563734164770653,
      "loss": 2.9236,
      "step": 348000
    },
    {
      "epoch": 9.38,
      "learning_rate": 0.000554970366000955,
      "loss": 2.9224,
      "step": 349000
    },
    {
      "epoch": 9.41,
      "learning_rate": 0.0005535673155248449,
      "loss": 2.9247,
      "step": 350000
    },
    {
      "epoch": 9.44,
      "learning_rate": 0.0005521628605938036,
      "loss": 2.9262,
      "step": 351000
    },
    {
      "epoch": 9.46,
      "learning_rate": 0.0005507584056627622,
      "loss": 2.9309,
      "step": 352000
    },
    {
      "epoch": 9.49,
      "learning_rate": 0.000549353950731721,
      "loss": 2.9299,
      "step": 353000
    },
    {
      "epoch": 9.52,
      "learning_rate": 0.0005479509002556108,
      "loss": 2.9349,
      "step": 354000
    },
    {
      "epoch": 9.54,
      "learning_rate": 0.0005465464453245695,
      "loss": 2.9367,
      "step": 355000
    },
    {
      "epoch": 9.57,
      "learning_rate": 0.0005451433948484594,
      "loss": 2.933,
      "step": 356000
    },
    {
      "epoch": 9.6,
      "learning_rate": 0.0005437389399174181,
      "loss": 2.9336,
      "step": 357000
    },
    {
      "epoch": 9.62,
      "learning_rate": 0.0005423344849863768,
      "loss": 2.9349,
      "step": 358000
    },
    {
      "epoch": 9.65,
      "learning_rate": 0.0005409314345102666,
      "loss": 2.9415,
      "step": 359000
    },
    {
      "epoch": 9.68,
      "learning_rate": 0.0005395269795792254,
      "loss": 2.9328,
      "step": 360000
    },
    {
      "epoch": 9.7,
      "learning_rate": 0.0005381239291031151,
      "loss": 2.9346,
      "step": 361000
    },
    {
      "epoch": 9.73,
      "learning_rate": 0.0005367194741720737,
      "loss": 2.9391,
      "step": 362000
    },
    {
      "epoch": 9.76,
      "learning_rate": 0.0005353150192410326,
      "loss": 2.9393,
      "step": 363000
    },
    {
      "epoch": 9.78,
      "learning_rate": 0.0005339119687649223,
      "loss": 2.9419,
      "step": 364000
    },
    {
      "epoch": 9.81,
      "learning_rate": 0.000532507513833881,
      "loss": 2.9377,
      "step": 365000
    },
    {
      "epoch": 9.84,
      "learning_rate": 0.0005311058678127018,
      "loss": 2.9373,
      "step": 366000
    },
    {
      "epoch": 9.87,
      "learning_rate": 0.0005297014128816607,
      "loss": 2.9416,
      "step": 367000
    },
    {
      "epoch": 9.89,
      "learning_rate": 0.0005282969579506194,
      "loss": 2.9433,
      "step": 368000
    },
    {
      "epoch": 9.92,
      "learning_rate": 0.0005268925030195782,
      "loss": 2.9406,
      "step": 369000
    },
    {
      "epoch": 9.95,
      "learning_rate": 0.000525489452543468,
      "loss": 2.9419,
      "step": 370000
    },
    {
      "epoch": 9.97,
      "learning_rate": 0.0005240849976124267,
      "loss": 2.9411,
      "step": 371000
    },
    {
      "epoch": 10.0,
      "learning_rate": 0.0005226805426813853,
      "loss": 2.9399,
      "step": 372000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.41210269901326396,
      "eval_loss": 3.345149278640747,
      "eval_runtime": 148.3396,
      "eval_samples_per_second": 390.455,
      "eval_steps_per_second": 6.101,
      "step": 372010
    },
    {
      "epoch": 10.03,
      "learning_rate": 0.0005212774922052751,
      "loss": 2.8712,
      "step": 373000
    },
    {
      "epoch": 10.05,
      "learning_rate": 0.0005198730372742338,
      "loss": 2.8767,
      "step": 374000
    },
    {
      "epoch": 10.08,
      "learning_rate": 0.0005184699867981236,
      "loss": 2.8784,
      "step": 375000
    },
    {
      "epoch": 10.11,
      "learning_rate": 0.0005170655318670824,
      "loss": 2.8827,
      "step": 376000
    },
    {
      "epoch": 10.13,
      "learning_rate": 0.0005156624813909722,
      "loss": 2.8869,
      "step": 377000
    },
    {
      "epoch": 10.16,
      "learning_rate": 0.0005142594309148619,
      "loss": 2.8899,
      "step": 378000
    },
    {
      "epoch": 10.19,
      "learning_rate": 0.0005128549759838207,
      "loss": 2.8921,
      "step": 379000
    },
    {
      "epoch": 10.21,
      "learning_rate": 0.0005114505210527795,
      "loss": 2.8914,
      "step": 380000
    },
    {
      "epoch": 10.24,
      "learning_rate": 0.0005100460661217382,
      "loss": 2.8919,
      "step": 381000
    },
    {
      "epoch": 10.27,
      "learning_rate": 0.0005086430156456279,
      "loss": 2.9003,
      "step": 382000
    },
    {
      "epoch": 10.3,
      "learning_rate": 0.0005072385607145867,
      "loss": 2.8972,
      "step": 383000
    },
    {
      "epoch": 10.32,
      "learning_rate": 0.0005058355102384764,
      "loss": 2.8954,
      "step": 384000
    },
    {
      "epoch": 10.35,
      "learning_rate": 0.0005044310553074351,
      "loss": 2.9014,
      "step": 385000
    },
    {
      "epoch": 10.38,
      "learning_rate": 0.000503026600376394,
      "loss": 2.903,
      "step": 386000
    },
    {
      "epoch": 10.4,
      "learning_rate": 0.0005016235499002837,
      "loss": 2.9039,
      "step": 387000
    },
    {
      "epoch": 10.43,
      "learning_rate": 0.0005002190949692424,
      "loss": 2.8998,
      "step": 388000
    },
    {
      "epoch": 10.46,
      "learning_rate": 0.0004988160444931322,
      "loss": 2.9079,
      "step": 389000
    },
    {
      "epoch": 10.48,
      "learning_rate": 0.000497412994017022,
      "loss": 2.9058,
      "step": 390000
    },
    {
      "epoch": 10.51,
      "learning_rate": 0.0004960085390859808,
      "loss": 2.9025,
      "step": 391000
    },
    {
      "epoch": 10.54,
      "learning_rate": 0.0004946040841549395,
      "loss": 2.9084,
      "step": 392000
    },
    {
      "epoch": 10.56,
      "learning_rate": 0.0004931996292238982,
      "loss": 2.9051,
      "step": 393000
    },
    {
      "epoch": 10.59,
      "learning_rate": 0.0004917965787477879,
      "loss": 2.9119,
      "step": 394000
    },
    {
      "epoch": 10.62,
      "learning_rate": 0.0004903921238167468,
      "loss": 2.909,
      "step": 395000
    },
    {
      "epoch": 10.64,
      "learning_rate": 0.0004889876688857055,
      "loss": 2.9127,
      "step": 396000
    },
    {
      "epoch": 10.67,
      "learning_rate": 0.00048758461840959523,
      "loss": 2.9129,
      "step": 397000
    },
    {
      "epoch": 10.7,
      "learning_rate": 0.000486180163478554,
      "loss": 2.9112,
      "step": 398000
    },
    {
      "epoch": 10.73,
      "learning_rate": 0.00048477711300244376,
      "loss": 2.9202,
      "step": 399000
    },
    {
      "epoch": 10.75,
      "learning_rate": 0.0004833726580714025,
      "loss": 2.9161,
      "step": 400000
    },
    {
      "epoch": 10.78,
      "learning_rate": 0.00048196820314036124,
      "loss": 2.9211,
      "step": 401000
    },
    {
      "epoch": 10.81,
      "learning_rate": 0.00048056374820931995,
      "loss": 2.9192,
      "step": 402000
    },
    {
      "epoch": 10.83,
      "learning_rate": 0.00047916069773320976,
      "loss": 2.9145,
      "step": 403000
    },
    {
      "epoch": 10.86,
      "learning_rate": 0.00047775624280216853,
      "loss": 2.9171,
      "step": 404000
    },
    {
      "epoch": 10.89,
      "learning_rate": 0.0004763517878711272,
      "loss": 2.9132,
      "step": 405000
    },
    {
      "epoch": 10.91,
      "learning_rate": 0.00047495014184994805,
      "loss": 2.9178,
      "step": 406000
    },
    {
      "epoch": 10.94,
      "learning_rate": 0.00047354568691890676,
      "loss": 2.9177,
      "step": 407000
    },
    {
      "epoch": 10.97,
      "learning_rate": 0.00047214123198786553,
      "loss": 2.9154,
      "step": 408000
    },
    {
      "epoch": 10.99,
      "learning_rate": 0.0004707367770568243,
      "loss": 2.9207,
      "step": 409000
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.4129671679171056,
      "eval_loss": 3.358556032180786,
      "eval_runtime": 148.219,
      "eval_samples_per_second": 390.773,
      "eval_steps_per_second": 6.106,
      "step": 409211
    },
    {
      "epoch": 11.02,
      "learning_rate": 0.00046933232212578296,
      "loss": 2.8685,
      "step": 410000
    },
    {
      "epoch": 11.05,
      "learning_rate": 0.00046792927164967277,
      "loss": 2.8573,
      "step": 411000
    },
    {
      "epoch": 11.07,
      "learning_rate": 0.0004665248167186315,
      "loss": 2.8612,
      "step": 412000
    },
    {
      "epoch": 11.1,
      "learning_rate": 0.0004651217662425213,
      "loss": 2.862,
      "step": 413000
    },
    {
      "epoch": 11.13,
      "learning_rate": 0.00046371871576641105,
      "loss": 2.8641,
      "step": 414000
    },
    {
      "epoch": 11.16,
      "learning_rate": 0.0004623142608353698,
      "loss": 2.8669,
      "step": 415000
    },
    {
      "epoch": 11.18,
      "learning_rate": 0.00046090980590432853,
      "loss": 2.8682,
      "step": 416000
    },
    {
      "epoch": 11.21,
      "learning_rate": 0.0004595053509732873,
      "loss": 2.8753,
      "step": 417000
    },
    {
      "epoch": 11.24,
      "learning_rate": 0.00045810230049717705,
      "loss": 2.8688,
      "step": 418000
    },
    {
      "epoch": 11.26,
      "learning_rate": 0.0004566978455661358,
      "loss": 2.8752,
      "step": 419000
    },
    {
      "epoch": 11.29,
      "learning_rate": 0.0004552947950900256,
      "loss": 2.8755,
      "step": 420000
    },
    {
      "epoch": 11.32,
      "learning_rate": 0.0004538903401589843,
      "loss": 2.8753,
      "step": 421000
    },
    {
      "epoch": 11.34,
      "learning_rate": 0.00045248728968287405,
      "loss": 2.8777,
      "step": 422000
    },
    {
      "epoch": 11.37,
      "learning_rate": 0.0004510828347518328,
      "loss": 2.8822,
      "step": 423000
    },
    {
      "epoch": 11.4,
      "learning_rate": 0.00044968118873065367,
      "loss": 2.8774,
      "step": 424000
    },
    {
      "epoch": 11.42,
      "learning_rate": 0.0004482767337996124,
      "loss": 2.8873,
      "step": 425000
    },
    {
      "epoch": 11.45,
      "learning_rate": 0.0004468722788685711,
      "loss": 2.8866,
      "step": 426000
    },
    {
      "epoch": 11.48,
      "learning_rate": 0.00044546782393752987,
      "loss": 2.8853,
      "step": 427000
    },
    {
      "epoch": 11.51,
      "learning_rate": 0.0004440647734614197,
      "loss": 2.8821,
      "step": 428000
    },
    {
      "epoch": 11.53,
      "learning_rate": 0.00044266031853037834,
      "loss": 2.8884,
      "step": 429000
    },
    {
      "epoch": 11.56,
      "learning_rate": 0.0004412558635993371,
      "loss": 2.8865,
      "step": 430000
    },
    {
      "epoch": 11.59,
      "learning_rate": 0.0004398528131232269,
      "loss": 2.8887,
      "step": 431000
    },
    {
      "epoch": 11.61,
      "learning_rate": 0.00043844835819218563,
      "loss": 2.8915,
      "step": 432000
    },
    {
      "epoch": 11.64,
      "learning_rate": 0.00043704530771607544,
      "loss": 2.8884,
      "step": 433000
    },
    {
      "epoch": 11.67,
      "learning_rate": 0.0004356408527850341,
      "loss": 2.8851,
      "step": 434000
    },
    {
      "epoch": 11.69,
      "learning_rate": 0.0004342378023089239,
      "loss": 2.8882,
      "step": 435000
    },
    {
      "epoch": 11.72,
      "learning_rate": 0.0004328333473778827,
      "loss": 2.8893,
      "step": 436000
    },
    {
      "epoch": 11.75,
      "learning_rate": 0.00043143029690177244,
      "loss": 2.8898,
      "step": 437000
    },
    {
      "epoch": 11.77,
      "learning_rate": 0.0004300258419707312,
      "loss": 2.8875,
      "step": 438000
    },
    {
      "epoch": 11.8,
      "learning_rate": 0.0004286213870396899,
      "loss": 2.8952,
      "step": 439000
    },
    {
      "epoch": 11.83,
      "learning_rate": 0.0004272183365635797,
      "loss": 2.8938,
      "step": 440000
    },
    {
      "epoch": 11.85,
      "learning_rate": 0.00042581388163253844,
      "loss": 2.8965,
      "step": 441000
    },
    {
      "epoch": 11.88,
      "learning_rate": 0.00042440942670149716,
      "loss": 2.8929,
      "step": 442000
    },
    {
      "epoch": 11.91,
      "learning_rate": 0.00042300637622538697,
      "loss": 2.9017,
      "step": 443000
    },
    {
      "epoch": 11.94,
      "learning_rate": 0.0004216019212943457,
      "loss": 2.895,
      "step": 444000
    },
    {
      "epoch": 11.96,
      "learning_rate": 0.00042019887081823544,
      "loss": 2.892,
      "step": 445000
    },
    {
      "epoch": 11.99,
      "learning_rate": 0.0004187944158871942,
      "loss": 2.8987,
      "step": 446000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.4122773663391878,
      "eval_loss": 3.355417013168335,
      "eval_runtime": 147.56,
      "eval_samples_per_second": 392.518,
      "eval_steps_per_second": 6.133,
      "step": 446412
    },
    {
      "epoch": 12.02,
      "learning_rate": 0.000417389960956153,
      "loss": 2.8605,
      "step": 447000
    },
    {
      "epoch": 12.04,
      "learning_rate": 0.0004159883149349737,
      "loss": 2.8334,
      "step": 448000
    },
    {
      "epoch": 12.07,
      "learning_rate": 0.0004145838600039325,
      "loss": 2.8413,
      "step": 449000
    },
    {
      "epoch": 12.1,
      "learning_rate": 0.0004131794050728912,
      "loss": 2.8457,
      "step": 450000
    },
    {
      "epoch": 12.12,
      "learning_rate": 0.00041177495014184997,
      "loss": 2.8426,
      "step": 451000
    },
    {
      "epoch": 12.15,
      "learning_rate": 0.0004103718996657397,
      "loss": 2.8498,
      "step": 452000
    },
    {
      "epoch": 12.18,
      "learning_rate": 0.0004089674447346985,
      "loss": 2.8513,
      "step": 453000
    },
    {
      "epoch": 12.2,
      "learning_rate": 0.0004075629898036572,
      "loss": 2.8469,
      "step": 454000
    },
    {
      "epoch": 12.23,
      "learning_rate": 0.0004061585348726159,
      "loss": 2.8472,
      "step": 455000
    },
    {
      "epoch": 12.26,
      "learning_rate": 0.00040475548439650573,
      "loss": 2.8486,
      "step": 456000
    },
    {
      "epoch": 12.28,
      "learning_rate": 0.0004033510294654645,
      "loss": 2.8561,
      "step": 457000
    },
    {
      "epoch": 12.31,
      "learning_rate": 0.00040194797898935426,
      "loss": 2.8519,
      "step": 458000
    },
    {
      "epoch": 12.34,
      "learning_rate": 0.00040054352405831297,
      "loss": 2.8522,
      "step": 459000
    },
    {
      "epoch": 12.37,
      "learning_rate": 0.00039913906912727174,
      "loss": 2.8585,
      "step": 460000
    },
    {
      "epoch": 12.39,
      "learning_rate": 0.00039773461419623045,
      "loss": 2.8596,
      "step": 461000
    },
    {
      "epoch": 12.42,
      "learning_rate": 0.00039633156372012026,
      "loss": 2.8608,
      "step": 462000
    },
    {
      "epoch": 12.45,
      "learning_rate": 0.00039492851324401,
      "loss": 2.8572,
      "step": 463000
    },
    {
      "epoch": 12.47,
      "learning_rate": 0.00039352405831296873,
      "loss": 2.8622,
      "step": 464000
    },
    {
      "epoch": 12.5,
      "learning_rate": 0.0003921196033819275,
      "loss": 2.8632,
      "step": 465000
    },
    {
      "epoch": 12.53,
      "learning_rate": 0.00039071655290581726,
      "loss": 2.8635,
      "step": 466000
    },
    {
      "epoch": 12.55,
      "learning_rate": 0.000389312097974776,
      "loss": 2.8693,
      "step": 467000
    },
    {
      "epoch": 12.58,
      "learning_rate": 0.00038790764304373474,
      "loss": 2.8685,
      "step": 468000
    },
    {
      "epoch": 12.61,
      "learning_rate": 0.00038650318811269345,
      "loss": 2.863,
      "step": 469000
    },
    {
      "epoch": 12.63,
      "learning_rate": 0.00038510013763658327,
      "loss": 2.8722,
      "step": 470000
    },
    {
      "epoch": 12.66,
      "learning_rate": 0.000383695682705542,
      "loss": 2.8671,
      "step": 471000
    },
    {
      "epoch": 12.69,
      "learning_rate": 0.0003822912277745007,
      "loss": 2.8703,
      "step": 472000
    },
    {
      "epoch": 12.71,
      "learning_rate": 0.0003808881772983905,
      "loss": 2.8754,
      "step": 473000
    },
    {
      "epoch": 12.74,
      "learning_rate": 0.0003794837223673492,
      "loss": 2.8687,
      "step": 474000
    },
    {
      "epoch": 12.77,
      "learning_rate": 0.00037808067189123903,
      "loss": 2.8734,
      "step": 475000
    },
    {
      "epoch": 12.8,
      "learning_rate": 0.0003766762169601978,
      "loss": 2.8748,
      "step": 476000
    },
    {
      "epoch": 12.82,
      "learning_rate": 0.00037527316648408755,
      "loss": 2.8773,
      "step": 477000
    },
    {
      "epoch": 12.85,
      "learning_rate": 0.00037386871155304627,
      "loss": 2.8739,
      "step": 478000
    },
    {
      "epoch": 12.88,
      "learning_rate": 0.000372465661076936,
      "loss": 2.8759,
      "step": 479000
    },
    {
      "epoch": 12.9,
      "learning_rate": 0.0003710612061458948,
      "loss": 2.8762,
      "step": 480000
    },
    {
      "epoch": 12.93,
      "learning_rate": 0.00036965675121485356,
      "loss": 2.8766,
      "step": 481000
    },
    {
      "epoch": 12.96,
      "learning_rate": 0.0003682522962838122,
      "loss": 2.8768,
      "step": 482000
    },
    {
      "epoch": 12.98,
      "learning_rate": 0.000366847841352771,
      "loss": 2.8779,
      "step": 483000
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.41304986617795647,
      "eval_loss": 3.3615658283233643,
      "eval_runtime": 148.2115,
      "eval_samples_per_second": 390.793,
      "eval_steps_per_second": 6.106,
      "step": 483613
    },
    {
      "epoch": 13.01,
      "learning_rate": 0.00036544479087666074,
      "loss": 2.8498,
      "step": 484000
    },
    {
      "epoch": 13.04,
      "learning_rate": 0.00036404174040055055,
      "loss": 2.8192,
      "step": 485000
    },
    {
      "epoch": 13.06,
      "learning_rate": 0.0003626372854695093,
      "loss": 2.8181,
      "step": 486000
    },
    {
      "epoch": 13.09,
      "learning_rate": 0.000361232830538468,
      "loss": 2.8195,
      "step": 487000
    },
    {
      "epoch": 13.12,
      "learning_rate": 0.00035982837560742675,
      "loss": 2.8275,
      "step": 488000
    },
    {
      "epoch": 13.14,
      "learning_rate": 0.0003584239206763855,
      "loss": 2.8255,
      "step": 489000
    },
    {
      "epoch": 13.17,
      "learning_rate": 0.0003570208702002753,
      "loss": 2.8286,
      "step": 490000
    },
    {
      "epoch": 13.2,
      "learning_rate": 0.000355616415269234,
      "loss": 2.8343,
      "step": 491000
    },
    {
      "epoch": 13.23,
      "learning_rate": 0.00035421336479312375,
      "loss": 2.8334,
      "step": 492000
    },
    {
      "epoch": 13.25,
      "learning_rate": 0.0003528089098620825,
      "loss": 2.8299,
      "step": 493000
    },
    {
      "epoch": 13.28,
      "learning_rate": 0.0003514044549310413,
      "loss": 2.8365,
      "step": 494000
    },
    {
      "epoch": 13.31,
      "learning_rate": 0.00035,
      "loss": 2.8353,
      "step": 495000
    },
    {
      "epoch": 13.33,
      "learning_rate": 0.00034859694952388975,
      "loss": 2.8377,
      "step": 496000
    },
    {
      "epoch": 13.36,
      "learning_rate": 0.0003471924945928485,
      "loss": 2.8407,
      "step": 497000
    },
    {
      "epoch": 13.39,
      "learning_rate": 0.0003457880396618073,
      "loss": 2.8428,
      "step": 498000
    },
    {
      "epoch": 13.41,
      "learning_rate": 0.00034438498918569705,
      "loss": 2.8405,
      "step": 499000
    },
    {
      "epoch": 13.44,
      "learning_rate": 0.00034298053425465576,
      "loss": 2.8419,
      "step": 500000
    },
    {
      "epoch": 13.47,
      "learning_rate": 0.0003415774837785455,
      "loss": 2.8469,
      "step": 501000
    },
    {
      "epoch": 13.49,
      "learning_rate": 0.0003401730288475043,
      "loss": 2.8488,
      "step": 502000
    },
    {
      "epoch": 13.52,
      "learning_rate": 0.00033876997837139404,
      "loss": 2.8434,
      "step": 503000
    },
    {
      "epoch": 13.55,
      "learning_rate": 0.0003373655234403528,
      "loss": 2.8472,
      "step": 504000
    },
    {
      "epoch": 13.57,
      "learning_rate": 0.0003359610685093115,
      "loss": 2.8471,
      "step": 505000
    },
    {
      "epoch": 13.6,
      "learning_rate": 0.0003345566135782703,
      "loss": 2.8512,
      "step": 506000
    },
    {
      "epoch": 13.63,
      "learning_rate": 0.00033315496755709114,
      "loss": 2.8477,
      "step": 507000
    },
    {
      "epoch": 13.66,
      "learning_rate": 0.0003317505126260498,
      "loss": 2.8482,
      "step": 508000
    },
    {
      "epoch": 13.68,
      "learning_rate": 0.00033034605769500857,
      "loss": 2.8487,
      "step": 509000
    },
    {
      "epoch": 13.71,
      "learning_rate": 0.0003289416027639673,
      "loss": 2.8496,
      "step": 510000
    },
    {
      "epoch": 13.74,
      "learning_rate": 0.0003275385522878571,
      "loss": 2.8543,
      "step": 511000
    },
    {
      "epoch": 13.76,
      "learning_rate": 0.0003261355018117469,
      "loss": 2.851,
      "step": 512000
    },
    {
      "epoch": 13.79,
      "learning_rate": 0.00032473104688070557,
      "loss": 2.853,
      "step": 513000
    },
    {
      "epoch": 13.82,
      "learning_rate": 0.0003233279964045954,
      "loss": 2.8558,
      "step": 514000
    },
    {
      "epoch": 13.84,
      "learning_rate": 0.00032192354147355415,
      "loss": 2.8448,
      "step": 515000
    },
    {
      "epoch": 13.87,
      "learning_rate": 0.00032051908654251286,
      "loss": 2.8517,
      "step": 516000
    },
    {
      "epoch": 13.9,
      "learning_rate": 0.0003191146316114716,
      "loss": 2.8543,
      "step": 517000
    },
    {
      "epoch": 13.92,
      "learning_rate": 0.0003177115811353614,
      "loss": 2.8519,
      "step": 518000
    },
    {
      "epoch": 13.95,
      "learning_rate": 0.0003163071262043201,
      "loss": 2.8479,
      "step": 519000
    },
    {
      "epoch": 13.98,
      "learning_rate": 0.00031490267127327887,
      "loss": 2.8519,
      "step": 520000
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.41285833673710687,
      "eval_loss": 3.369619846343994,
      "eval_runtime": 147.964,
      "eval_samples_per_second": 391.446,
      "eval_steps_per_second": 6.116,
      "step": 520814
    },
    {
      "epoch": 14.0,
      "learning_rate": 0.0003134982163422376,
      "loss": 2.8511,
      "step": 521000
    },
    {
      "epoch": 14.03,
      "learning_rate": 0.00031209376141119635,
      "loss": 2.802,
      "step": 522000
    },
    {
      "epoch": 14.06,
      "learning_rate": 0.0003106907109350861,
      "loss": 2.7993,
      "step": 523000
    },
    {
      "epoch": 14.09,
      "learning_rate": 0.0003092862560040449,
      "loss": 2.8106,
      "step": 524000
    },
    {
      "epoch": 14.11,
      "learning_rate": 0.0003078818010730036,
      "loss": 2.8026,
      "step": 525000
    },
    {
      "epoch": 14.14,
      "learning_rate": 0.00030647875059689334,
      "loss": 2.8074,
      "step": 526000
    },
    {
      "epoch": 14.17,
      "learning_rate": 0.0003050742956658521,
      "loss": 2.8076,
      "step": 527000
    },
    {
      "epoch": 14.19,
      "learning_rate": 0.00030367124518974187,
      "loss": 2.8154,
      "step": 528000
    },
    {
      "epoch": 14.22,
      "learning_rate": 0.00030226679025870064,
      "loss": 2.8121,
      "step": 529000
    },
    {
      "epoch": 14.25,
      "learning_rate": 0.0003008637397825904,
      "loss": 2.816,
      "step": 530000
    },
    {
      "epoch": 14.27,
      "learning_rate": 0.0002994592848515491,
      "loss": 2.8158,
      "step": 531000
    },
    {
      "epoch": 14.3,
      "learning_rate": 0.00029805623437543886,
      "loss": 2.8182,
      "step": 532000
    },
    {
      "epoch": 14.33,
      "learning_rate": 0.0002966531838993287,
      "loss": 2.8169,
      "step": 533000
    },
    {
      "epoch": 14.35,
      "learning_rate": 0.00029524872896828744,
      "loss": 2.8197,
      "step": 534000
    },
    {
      "epoch": 14.38,
      "learning_rate": 0.00029384427403724616,
      "loss": 2.818,
      "step": 535000
    },
    {
      "epoch": 14.41,
      "learning_rate": 0.00029243981910620487,
      "loss": 2.821,
      "step": 536000
    },
    {
      "epoch": 14.44,
      "learning_rate": 0.0002910367686300946,
      "loss": 2.8227,
      "step": 537000
    },
    {
      "epoch": 14.46,
      "learning_rate": 0.0002896323136990534,
      "loss": 2.8222,
      "step": 538000
    },
    {
      "epoch": 14.49,
      "learning_rate": 0.0002882292632229432,
      "loss": 2.8308,
      "step": 539000
    },
    {
      "epoch": 14.52,
      "learning_rate": 0.0002868248082919019,
      "loss": 2.8315,
      "step": 540000
    },
    {
      "epoch": 14.54,
      "learning_rate": 0.00028542035336086063,
      "loss": 2.8244,
      "step": 541000
    },
    {
      "epoch": 14.57,
      "learning_rate": 0.0002840173028847504,
      "loss": 2.8245,
      "step": 542000
    },
    {
      "epoch": 14.6,
      "learning_rate": 0.00028261284795370916,
      "loss": 2.8289,
      "step": 543000
    },
    {
      "epoch": 14.62,
      "learning_rate": 0.00028120979747759897,
      "loss": 2.8252,
      "step": 544000
    },
    {
      "epoch": 14.65,
      "learning_rate": 0.0002798053425465577,
      "loss": 2.8265,
      "step": 545000
    },
    {
      "epoch": 14.68,
      "learning_rate": 0.0002784022920704475,
      "loss": 2.8309,
      "step": 546000
    },
    {
      "epoch": 14.7,
      "learning_rate": 0.00027699924159433725,
      "loss": 2.8286,
      "step": 547000
    },
    {
      "epoch": 14.73,
      "learning_rate": 0.00027559478666329596,
      "loss": 2.8289,
      "step": 548000
    },
    {
      "epoch": 14.76,
      "learning_rate": 0.00027419033173225473,
      "loss": 2.8297,
      "step": 549000
    },
    {
      "epoch": 14.78,
      "learning_rate": 0.00027278587680121345,
      "loss": 2.8295,
      "step": 550000
    },
    {
      "epoch": 14.81,
      "learning_rate": 0.00027138282632510326,
      "loss": 2.8369,
      "step": 551000
    },
    {
      "epoch": 14.84,
      "learning_rate": 0.000269979775848993,
      "loss": 2.8354,
      "step": 552000
    },
    {
      "epoch": 14.87,
      "learning_rate": 0.00026857532091795173,
      "loss": 2.8305,
      "step": 553000
    },
    {
      "epoch": 14.89,
      "learning_rate": 0.0002671708659869105,
      "loss": 2.8355,
      "step": 554000
    },
    {
      "epoch": 14.92,
      "learning_rate": 0.00026576641105586926,
      "loss": 2.8353,
      "step": 555000
    },
    {
      "epoch": 14.95,
      "learning_rate": 0.000264363360579759,
      "loss": 2.8427,
      "step": 556000
    },
    {
      "epoch": 14.97,
      "learning_rate": 0.00026295890564871773,
      "loss": 2.8361,
      "step": 557000
    },
    {
      "epoch": 15.0,
      "learning_rate": 0.00026155445071767645,
      "loss": 2.8395,
      "step": 558000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.41281084066040374,
      "eval_loss": 3.3729231357574463,
      "eval_runtime": 147.9664,
      "eval_samples_per_second": 391.44,
      "eval_steps_per_second": 6.116,
      "step": 558015
    },
    {
      "epoch": 15.03,
      "learning_rate": 0.00026015140024156626,
      "loss": 2.7847,
      "step": 559000
    },
    {
      "epoch": 15.05,
      "learning_rate": 0.000258746945310525,
      "loss": 2.7891,
      "step": 560000
    },
    {
      "epoch": 15.08,
      "learning_rate": 0.0002573424903794837,
      "loss": 2.788,
      "step": 561000
    },
    {
      "epoch": 15.11,
      "learning_rate": 0.0002559394399033735,
      "loss": 2.7885,
      "step": 562000
    },
    {
      "epoch": 15.13,
      "learning_rate": 0.00025453498497233227,
      "loss": 2.7939,
      "step": 563000
    },
    {
      "epoch": 15.16,
      "learning_rate": 0.000253133338951153,
      "loss": 2.7933,
      "step": 564000
    },
    {
      "epoch": 15.19,
      "learning_rate": 0.0002517288840201118,
      "loss": 2.7946,
      "step": 565000
    },
    {
      "epoch": 15.21,
      "learning_rate": 0.00025032442908907055,
      "loss": 2.7977,
      "step": 566000
    },
    {
      "epoch": 15.24,
      "learning_rate": 0.0002489213786129603,
      "loss": 2.7946,
      "step": 567000
    },
    {
      "epoch": 15.27,
      "learning_rate": 0.00024751692368191907,
      "loss": 2.7985,
      "step": 568000
    },
    {
      "epoch": 15.3,
      "learning_rate": 0.0002461124687508778,
      "loss": 2.7984,
      "step": 569000
    },
    {
      "epoch": 15.32,
      "learning_rate": 0.00024470801381983655,
      "loss": 2.7972,
      "step": 570000
    },
    {
      "epoch": 15.35,
      "learning_rate": 0.0002433049633437263,
      "loss": 2.7978,
      "step": 571000
    },
    {
      "epoch": 15.38,
      "learning_rate": 0.00024190050841268505,
      "loss": 2.8039,
      "step": 572000
    },
    {
      "epoch": 15.4,
      "learning_rate": 0.00024049605348164377,
      "loss": 2.8002,
      "step": 573000
    },
    {
      "epoch": 15.43,
      "learning_rate": 0.00023909300300553355,
      "loss": 2.8051,
      "step": 574000
    },
    {
      "epoch": 15.46,
      "learning_rate": 0.00023768854807449232,
      "loss": 2.8069,
      "step": 575000
    },
    {
      "epoch": 15.48,
      "learning_rate": 0.00023628409314345103,
      "loss": 2.8039,
      "step": 576000
    },
    {
      "epoch": 15.51,
      "learning_rate": 0.00023488104266734081,
      "loss": 2.8068,
      "step": 577000
    },
    {
      "epoch": 15.54,
      "learning_rate": 0.00023347658773629953,
      "loss": 2.8093,
      "step": 578000
    },
    {
      "epoch": 15.56,
      "learning_rate": 0.0002320735372601893,
      "loss": 2.8067,
      "step": 579000
    },
    {
      "epoch": 15.59,
      "learning_rate": 0.00023066908232914808,
      "loss": 2.8073,
      "step": 580000
    },
    {
      "epoch": 15.62,
      "learning_rate": 0.0002292646273981068,
      "loss": 2.8129,
      "step": 581000
    },
    {
      "epoch": 15.64,
      "learning_rate": 0.00022786017246706554,
      "loss": 2.8102,
      "step": 582000
    },
    {
      "epoch": 15.67,
      "learning_rate": 0.00022645712199095532,
      "loss": 2.812,
      "step": 583000
    },
    {
      "epoch": 15.7,
      "learning_rate": 0.00022505266705991406,
      "loss": 2.8093,
      "step": 584000
    },
    {
      "epoch": 15.73,
      "learning_rate": 0.00022364961658380384,
      "loss": 2.8139,
      "step": 585000
    },
    {
      "epoch": 15.75,
      "learning_rate": 0.00022224516165276256,
      "loss": 2.8115,
      "step": 586000
    },
    {
      "epoch": 15.78,
      "learning_rate": 0.0002208407067217213,
      "loss": 2.8157,
      "step": 587000
    },
    {
      "epoch": 15.81,
      "learning_rate": 0.00021943765624561108,
      "loss": 2.8138,
      "step": 588000
    },
    {
      "epoch": 15.83,
      "learning_rate": 0.00021803320131456982,
      "loss": 2.8146,
      "step": 589000
    },
    {
      "epoch": 15.86,
      "learning_rate": 0.0002166301508384596,
      "loss": 2.8138,
      "step": 590000
    },
    {
      "epoch": 15.89,
      "learning_rate": 0.00021522569590741835,
      "loss": 2.8195,
      "step": 591000
    },
    {
      "epoch": 15.91,
      "learning_rate": 0.0002138226454313081,
      "loss": 2.8192,
      "step": 592000
    },
    {
      "epoch": 15.94,
      "learning_rate": 0.00021241819050026685,
      "loss": 2.8169,
      "step": 593000
    },
    {
      "epoch": 15.97,
      "learning_rate": 0.00021101373556922559,
      "loss": 2.8174,
      "step": 594000
    },
    {
      "epoch": 15.99,
      "learning_rate": 0.00020961068509311537,
      "loss": 2.8151,
      "step": 595000
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.4140438576219447,
      "eval_loss": 3.3717539310455322,
      "eval_runtime": 148.2583,
      "eval_samples_per_second": 390.669,
      "eval_steps_per_second": 6.104,
      "step": 595216
    },
    {
      "epoch": 16.02,
      "learning_rate": 0.0002082062301620741,
      "loss": 2.7799,
      "step": 596000
    },
    {
      "epoch": 16.05,
      "learning_rate": 0.00020680177523103282,
      "loss": 2.7671,
      "step": 597000
    },
    {
      "epoch": 16.07,
      "learning_rate": 0.0002053987247549226,
      "loss": 2.772,
      "step": 598000
    },
    {
      "epoch": 16.1,
      "learning_rate": 0.00020399426982388135,
      "loss": 2.7732,
      "step": 599000
    },
    {
      "epoch": 16.13,
      "learning_rate": 0.00020259121934777113,
      "loss": 2.7791,
      "step": 600000
    },
    {
      "epoch": 16.16,
      "learning_rate": 0.00020118676441672987,
      "loss": 2.7742,
      "step": 601000
    },
    {
      "epoch": 16.18,
      "learning_rate": 0.0001997823094856886,
      "loss": 2.7786,
      "step": 602000
    },
    {
      "epoch": 16.21,
      "learning_rate": 0.0001983792590095784,
      "loss": 2.7834,
      "step": 603000
    },
    {
      "epoch": 16.24,
      "learning_rate": 0.00019697620853346818,
      "loss": 2.7824,
      "step": 604000
    },
    {
      "epoch": 16.26,
      "learning_rate": 0.0001955717536024269,
      "loss": 2.7857,
      "step": 605000
    },
    {
      "epoch": 16.29,
      "learning_rate": 0.00019416729867138564,
      "loss": 2.7824,
      "step": 606000
    },
    {
      "epoch": 16.32,
      "learning_rate": 0.00019276284374034438,
      "loss": 2.7849,
      "step": 607000
    },
    {
      "epoch": 16.34,
      "learning_rate": 0.00019135838880930312,
      "loss": 2.7853,
      "step": 608000
    },
    {
      "epoch": 16.37,
      "learning_rate": 0.0001899553383331929,
      "loss": 2.7886,
      "step": 609000
    },
    {
      "epoch": 16.4,
      "learning_rate": 0.00018855088340215162,
      "loss": 2.7843,
      "step": 610000
    },
    {
      "epoch": 16.42,
      "learning_rate": 0.0001871478329260414,
      "loss": 2.7929,
      "step": 611000
    },
    {
      "epoch": 16.45,
      "learning_rate": 0.00018574337799500017,
      "loss": 2.7879,
      "step": 612000
    },
    {
      "epoch": 16.48,
      "learning_rate": 0.00018434032751888993,
      "loss": 2.7893,
      "step": 613000
    },
    {
      "epoch": 16.5,
      "learning_rate": 0.0001829372770427797,
      "loss": 2.791,
      "step": 614000
    },
    {
      "epoch": 16.53,
      "learning_rate": 0.00018153282211173845,
      "loss": 2.7879,
      "step": 615000
    },
    {
      "epoch": 16.56,
      "learning_rate": 0.0001801297716356282,
      "loss": 2.7904,
      "step": 616000
    },
    {
      "epoch": 16.59,
      "learning_rate": 0.00017872531670458695,
      "loss": 2.7892,
      "step": 617000
    },
    {
      "epoch": 16.61,
      "learning_rate": 0.0001773208617735457,
      "loss": 2.7929,
      "step": 618000
    },
    {
      "epoch": 16.64,
      "learning_rate": 0.00017591640684250443,
      "loss": 2.7952,
      "step": 619000
    },
    {
      "epoch": 16.67,
      "learning_rate": 0.00017451195191146317,
      "loss": 2.7835,
      "step": 620000
    },
    {
      "epoch": 16.69,
      "learning_rate": 0.00017311030589028397,
      "loss": 2.793,
      "step": 621000
    },
    {
      "epoch": 16.72,
      "learning_rate": 0.0001717058509592427,
      "loss": 2.7948,
      "step": 622000
    },
    {
      "epoch": 16.75,
      "learning_rate": 0.00017030139602820148,
      "loss": 2.7917,
      "step": 623000
    },
    {
      "epoch": 16.77,
      "learning_rate": 0.0001688969410971602,
      "loss": 2.7938,
      "step": 624000
    },
    {
      "epoch": 16.8,
      "learning_rate": 0.00016749248616611893,
      "loss": 2.7978,
      "step": 625000
    },
    {
      "epoch": 16.83,
      "learning_rate": 0.0001660894356900087,
      "loss": 2.7945,
      "step": 626000
    },
    {
      "epoch": 16.85,
      "learning_rate": 0.00016468498075896746,
      "loss": 2.7943,
      "step": 627000
    },
    {
      "epoch": 16.88,
      "learning_rate": 0.00016328193028285724,
      "loss": 2.7918,
      "step": 628000
    },
    {
      "epoch": 16.91,
      "learning_rate": 0.00016187747535181596,
      "loss": 2.7988,
      "step": 629000
    },
    {
      "epoch": 16.94,
      "learning_rate": 0.00016047442487570574,
      "loss": 2.7968,
      "step": 630000
    },
    {
      "epoch": 16.96,
      "learning_rate": 0.00015906996994466445,
      "loss": 2.7929,
      "step": 631000
    },
    {
      "epoch": 16.99,
      "learning_rate": 0.00015766551501362322,
      "loss": 2.798,
      "step": 632000
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.41277355590429304,
      "eval_loss": 3.385791063308716,
      "eval_runtime": 147.8055,
      "eval_samples_per_second": 391.866,
      "eval_steps_per_second": 6.123,
      "step": 632417
    },
    {
      "epoch": 17.02,
      "learning_rate": 0.000156262464537513,
      "loss": 2.7792,
      "step": 633000
    },
    {
      "epoch": 17.04,
      "learning_rate": 0.00015485800960647172,
      "loss": 2.7608,
      "step": 634000
    },
    {
      "epoch": 17.07,
      "learning_rate": 0.0001534549591303615,
      "loss": 2.7645,
      "step": 635000
    },
    {
      "epoch": 17.1,
      "learning_rate": 0.00015205050419932024,
      "loss": 2.7656,
      "step": 636000
    },
    {
      "epoch": 17.12,
      "learning_rate": 0.00015064604926827898,
      "loss": 2.7604,
      "step": 637000
    },
    {
      "epoch": 17.15,
      "learning_rate": 0.00014924299879216877,
      "loss": 2.7683,
      "step": 638000
    },
    {
      "epoch": 17.18,
      "learning_rate": 0.00014783854386112748,
      "loss": 2.7652,
      "step": 639000
    },
    {
      "epoch": 17.2,
      "learning_rate": 0.00014643408893008622,
      "loss": 2.7589,
      "step": 640000
    },
    {
      "epoch": 17.23,
      "learning_rate": 0.000145029633999045,
      "loss": 2.7709,
      "step": 641000
    },
    {
      "epoch": 17.26,
      "learning_rate": 0.00014362658352293475,
      "loss": 2.7638,
      "step": 642000
    },
    {
      "epoch": 17.28,
      "learning_rate": 0.00014222353304682453,
      "loss": 2.7667,
      "step": 643000
    },
    {
      "epoch": 17.31,
      "learning_rate": 0.00014081907811578327,
      "loss": 2.7637,
      "step": 644000
    },
    {
      "epoch": 17.34,
      "learning_rate": 0.00013941462318474201,
      "loss": 2.7752,
      "step": 645000
    },
    {
      "epoch": 17.37,
      "learning_rate": 0.0001380115727086318,
      "loss": 2.7716,
      "step": 646000
    },
    {
      "epoch": 17.39,
      "learning_rate": 0.0001366071177775905,
      "loss": 2.7665,
      "step": 647000
    },
    {
      "epoch": 17.42,
      "learning_rate": 0.00013520266284654925,
      "loss": 2.7669,
      "step": 648000
    },
    {
      "epoch": 17.45,
      "learning_rate": 0.00013379820791550802,
      "loss": 2.7743,
      "step": 649000
    },
    {
      "epoch": 17.47,
      "learning_rate": 0.00013239375298446673,
      "loss": 2.7733,
      "step": 650000
    },
    {
      "epoch": 17.5,
      "learning_rate": 0.00013099070250835652,
      "loss": 2.7713,
      "step": 651000
    },
    {
      "epoch": 17.53,
      "learning_rate": 0.0001295876520322463,
      "loss": 2.7694,
      "step": 652000
    },
    {
      "epoch": 17.55,
      "learning_rate": 0.00012818319710120502,
      "loss": 2.767,
      "step": 653000
    },
    {
      "epoch": 17.58,
      "learning_rate": 0.00012677874217016378,
      "loss": 2.7736,
      "step": 654000
    },
    {
      "epoch": 17.61,
      "learning_rate": 0.0001253742872391225,
      "loss": 2.7743,
      "step": 655000
    },
    {
      "epoch": 17.63,
      "learning_rate": 0.00012396983230808124,
      "loss": 2.7739,
      "step": 656000
    },
    {
      "epoch": 17.66,
      "learning_rate": 0.000122566781831971,
      "loss": 2.7722,
      "step": 657000
    },
    {
      "epoch": 17.69,
      "learning_rate": 0.00012116232690092975,
      "loss": 2.776,
      "step": 658000
    },
    {
      "epoch": 17.71,
      "learning_rate": 0.00011975787196988849,
      "loss": 2.7807,
      "step": 659000
    },
    {
      "epoch": 17.74,
      "learning_rate": 0.00011835482149377827,
      "loss": 2.7719,
      "step": 660000
    },
    {
      "epoch": 17.77,
      "learning_rate": 0.000116950366562737,
      "loss": 2.7747,
      "step": 661000
    },
    {
      "epoch": 17.8,
      "learning_rate": 0.00011554731608662679,
      "loss": 2.7782,
      "step": 662000
    },
    {
      "epoch": 17.82,
      "learning_rate": 0.00011414286115558551,
      "loss": 2.7738,
      "step": 663000
    },
    {
      "epoch": 17.85,
      "learning_rate": 0.0001127398106794753,
      "loss": 2.7756,
      "step": 664000
    },
    {
      "epoch": 17.88,
      "learning_rate": 0.00011133535574843404,
      "loss": 2.7715,
      "step": 665000
    },
    {
      "epoch": 17.9,
      "learning_rate": 0.00010993090081739278,
      "loss": 2.7809,
      "step": 666000
    },
    {
      "epoch": 17.93,
      "learning_rate": 0.00010852785034128255,
      "loss": 2.7813,
      "step": 667000
    },
    {
      "epoch": 17.96,
      "learning_rate": 0.00010712339541024129,
      "loss": 2.7748,
      "step": 668000
    },
    {
      "epoch": 17.98,
      "learning_rate": 0.00010571894047920003,
      "loss": 2.7738,
      "step": 669000
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.41297422178988324,
      "eval_loss": 3.407961368560791,
      "eval_runtime": 148.1896,
      "eval_samples_per_second": 390.851,
      "eval_steps_per_second": 6.107,
      "step": 669618
    },
    {
      "epoch": 18.01,
      "learning_rate": 0.0001043158900030898,
      "loss": 2.7651,
      "step": 670000
    },
    {
      "epoch": 18.04,
      "learning_rate": 0.00010291143507204854,
      "loss": 2.7487,
      "step": 671000
    },
    {
      "epoch": 18.06,
      "learning_rate": 0.00010150838459593833,
      "loss": 2.7489,
      "step": 672000
    },
    {
      "epoch": 18.09,
      "learning_rate": 0.00010010392966489705,
      "loss": 2.7467,
      "step": 673000
    },
    {
      "epoch": 18.12,
      "learning_rate": 9.870087918878684e-05,
      "loss": 2.7491,
      "step": 674000
    },
    {
      "epoch": 18.14,
      "learning_rate": 9.729642425774556e-05,
      "loss": 2.7511,
      "step": 675000
    },
    {
      "epoch": 18.17,
      "learning_rate": 9.58919693267043e-05,
      "loss": 2.745,
      "step": 676000
    },
    {
      "epoch": 18.2,
      "learning_rate": 9.448891885059409e-05,
      "loss": 2.7478,
      "step": 677000
    },
    {
      "epoch": 18.23,
      "learning_rate": 9.308446391955282e-05,
      "loss": 2.755,
      "step": 678000
    },
    {
      "epoch": 18.25,
      "learning_rate": 9.168000898851156e-05,
      "loss": 2.7538,
      "step": 679000
    },
    {
      "epoch": 18.28,
      "learning_rate": 9.027695851240134e-05,
      "loss": 2.755,
      "step": 680000
    },
    {
      "epoch": 18.31,
      "learning_rate": 8.887250358136008e-05,
      "loss": 2.7577,
      "step": 681000
    },
    {
      "epoch": 18.33,
      "learning_rate": 8.746945310524985e-05,
      "loss": 2.7505,
      "step": 682000
    },
    {
      "epoch": 18.36,
      "learning_rate": 8.60649981742086e-05,
      "loss": 2.7591,
      "step": 683000
    },
    {
      "epoch": 18.39,
      "learning_rate": 8.466194769809838e-05,
      "loss": 2.7601,
      "step": 684000
    },
    {
      "epoch": 18.41,
      "learning_rate": 8.32574927670571e-05,
      "loss": 2.7567,
      "step": 685000
    },
    {
      "epoch": 18.44,
      "learning_rate": 8.185444229094687e-05,
      "loss": 2.7547,
      "step": 686000
    },
    {
      "epoch": 18.47,
      "learning_rate": 8.044998735990562e-05,
      "loss": 2.7584,
      "step": 687000
    },
    {
      "epoch": 18.49,
      "learning_rate": 7.904553242886437e-05,
      "loss": 2.7554,
      "step": 688000
    },
    {
      "epoch": 18.52,
      "learning_rate": 7.764388640768517e-05,
      "loss": 2.756,
      "step": 689000
    },
    {
      "epoch": 18.55,
      "learning_rate": 7.623943147664391e-05,
      "loss": 2.7581,
      "step": 690000
    },
    {
      "epoch": 18.57,
      "learning_rate": 7.483497654560266e-05,
      "loss": 2.7593,
      "step": 691000
    },
    {
      "epoch": 18.6,
      "learning_rate": 7.343192606949243e-05,
      "loss": 2.7549,
      "step": 692000
    },
    {
      "epoch": 18.63,
      "learning_rate": 7.202747113845116e-05,
      "loss": 2.761,
      "step": 693000
    },
    {
      "epoch": 18.66,
      "learning_rate": 7.06230162074099e-05,
      "loss": 2.7556,
      "step": 694000
    },
    {
      "epoch": 18.68,
      "learning_rate": 6.921856127636864e-05,
      "loss": 2.7513,
      "step": 695000
    },
    {
      "epoch": 18.71,
      "learning_rate": 6.781410634532737e-05,
      "loss": 2.7577,
      "step": 696000
    },
    {
      "epoch": 18.74,
      "learning_rate": 6.641105586921716e-05,
      "loss": 2.759,
      "step": 697000
    },
    {
      "epoch": 18.76,
      "learning_rate": 6.50066009381759e-05,
      "loss": 2.7603,
      "step": 698000
    },
    {
      "epoch": 18.79,
      "learning_rate": 6.360355046206568e-05,
      "loss": 2.7598,
      "step": 699000
    },
    {
      "epoch": 18.82,
      "learning_rate": 6.219909553102441e-05,
      "loss": 2.7545,
      "step": 700000
    },
    {
      "epoch": 18.84,
      "learning_rate": 6.079464059998314e-05,
      "loss": 2.7603,
      "step": 701000
    },
    {
      "epoch": 18.87,
      "learning_rate": 5.939018566894189e-05,
      "loss": 2.7558,
      "step": 702000
    },
    {
      "epoch": 18.9,
      "learning_rate": 5.798713519283167e-05,
      "loss": 2.7559,
      "step": 703000
    },
    {
      "epoch": 18.92,
      "learning_rate": 5.65826802617904e-05,
      "loss": 2.7584,
      "step": 704000
    },
    {
      "epoch": 18.95,
      "learning_rate": 5.5178225330749135e-05,
      "loss": 2.7614,
      "step": 705000
    },
    {
      "epoch": 18.98,
      "learning_rate": 5.377517485463892e-05,
      "loss": 2.7555,
      "step": 706000
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.41307418524410433,
      "eval_loss": 3.4066617488861084,
      "eval_runtime": 148.4411,
      "eval_samples_per_second": 390.189,
      "eval_steps_per_second": 6.097,
      "step": 706819
    },
    {
      "epoch": 19.0,
      "learning_rate": 5.237071992359765e-05,
      "loss": 2.7536,
      "step": 707000
    },
    {
      "epoch": 19.03,
      "learning_rate": 5.096766944748743e-05,
      "loss": 2.7341,
      "step": 708000
    },
    {
      "epoch": 19.06,
      "learning_rate": 4.956461897137721e-05,
      "loss": 2.7413,
      "step": 709000
    },
    {
      "epoch": 19.09,
      "learning_rate": 4.816016404033595e-05,
      "loss": 2.7406,
      "step": 710000
    },
    {
      "epoch": 19.11,
      "learning_rate": 4.675570910929468e-05,
      "loss": 2.7417,
      "step": 711000
    },
    {
      "epoch": 19.14,
      "learning_rate": 4.535265863318446e-05,
      "loss": 2.7401,
      "step": 712000
    },
    {
      "epoch": 19.17,
      "learning_rate": 4.39482037021432e-05,
      "loss": 2.741,
      "step": 713000
    },
    {
      "epoch": 19.19,
      "learning_rate": 4.254374877110194e-05,
      "loss": 2.7379,
      "step": 714000
    },
    {
      "epoch": 19.22,
      "learning_rate": 4.1139293840060675e-05,
      "loss": 2.7369,
      "step": 715000
    },
    {
      "epoch": 19.25,
      "learning_rate": 3.973483890901941e-05,
      "loss": 2.7397,
      "step": 716000
    },
    {
      "epoch": 19.27,
      "learning_rate": 3.8330383977978144e-05,
      "loss": 2.7431,
      "step": 717000
    },
    {
      "epoch": 19.3,
      "learning_rate": 3.692873795679897e-05,
      "loss": 2.7404,
      "step": 718000
    },
    {
      "epoch": 19.33,
      "learning_rate": 3.5524283025757704e-05,
      "loss": 2.7413,
      "step": 719000
    },
    {
      "epoch": 19.35,
      "learning_rate": 3.411982809471644e-05,
      "loss": 2.7379,
      "step": 720000
    },
    {
      "epoch": 19.38,
      "learning_rate": 3.271537316367518e-05,
      "loss": 2.7436,
      "step": 721000
    },
    {
      "epoch": 19.41,
      "learning_rate": 3.1312322687564956e-05,
      "loss": 2.7363,
      "step": 722000
    },
    {
      "epoch": 19.43,
      "learning_rate": 2.9907867756523694e-05,
      "loss": 2.7387,
      "step": 723000
    },
    {
      "epoch": 19.46,
      "learning_rate": 2.850481728041347e-05,
      "loss": 2.7431,
      "step": 724000
    },
    {
      "epoch": 19.49,
      "learning_rate": 2.710036234937221e-05,
      "loss": 2.7458,
      "step": 725000
    },
    {
      "epoch": 19.52,
      "learning_rate": 2.569731187326199e-05,
      "loss": 2.7419,
      "step": 726000
    },
    {
      "epoch": 19.54,
      "learning_rate": 2.4292856942220723e-05,
      "loss": 2.7415,
      "step": 727000
    },
    {
      "epoch": 19.57,
      "learning_rate": 2.2888402011179464e-05,
      "loss": 2.7392,
      "step": 728000
    },
    {
      "epoch": 19.6,
      "learning_rate": 2.1485351535069238e-05,
      "loss": 2.7467,
      "step": 729000
    },
    {
      "epoch": 19.62,
      "learning_rate": 2.008089660402798e-05,
      "loss": 2.7393,
      "step": 730000
    },
    {
      "epoch": 19.65,
      "learning_rate": 1.8677846127917755e-05,
      "loss": 2.7378,
      "step": 731000
    },
    {
      "epoch": 19.68,
      "learning_rate": 1.7273391196876493e-05,
      "loss": 2.747,
      "step": 732000
    },
    {
      "epoch": 19.7,
      "learning_rate": 1.587034072076627e-05,
      "loss": 2.7419,
      "step": 733000
    },
    {
      "epoch": 19.73,
      "learning_rate": 1.4465885789725008e-05,
      "loss": 2.7466,
      "step": 734000
    },
    {
      "epoch": 19.76,
      "learning_rate": 1.3062835313614786e-05,
      "loss": 2.7354,
      "step": 735000
    },
    {
      "epoch": 19.78,
      "learning_rate": 1.1658380382573524e-05,
      "loss": 2.7457,
      "step": 736000
    },
    {
      "epoch": 19.81,
      "learning_rate": 1.025392545153226e-05,
      "loss": 2.7398,
      "step": 737000
    },
    {
      "epoch": 19.84,
      "learning_rate": 8.850874975422038e-06,
      "loss": 2.7415,
      "step": 738000
    },
    {
      "epoch": 19.87,
      "learning_rate": 7.446420044380776e-06,
      "loss": 2.7381,
      "step": 739000
    },
    {
      "epoch": 19.89,
      "learning_rate": 6.043369568270554e-06,
      "loss": 2.7407,
      "step": 740000
    },
    {
      "epoch": 19.92,
      "learning_rate": 4.638914637229291e-06,
      "loss": 2.7397,
      "step": 741000
    },
    {
      "epoch": 19.95,
      "learning_rate": 3.2344597061880285e-06,
      "loss": 2.7412,
      "step": 742000
    },
    {
      "epoch": 19.97,
      "learning_rate": 1.831409230077807e-06,
      "loss": 2.7409,
      "step": 743000
    },
    {
      "epoch": 20.0,
      "learning_rate": 4.2695429903654394e-07,
      "loss": 2.7434,
      "step": 744000
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.41252109443859236,
      "eval_loss": 3.417576313018799,
      "eval_runtime": 148.878,
      "eval_samples_per_second": 389.043,
      "eval_steps_per_second": 6.079,
      "step": 744020
    },
    {
      "epoch": 20.0,
      "step": 744020,
      "total_flos": 1.56740238729216e+18,
      "train_loss": 2.994195082282441,
      "train_runtime": 55239.7487,
      "train_samples_per_second": 215.503,
      "train_steps_per_second": 13.469
    }
  ],
  "logging_steps": 1000,
  "max_steps": 744020,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 5000,
  "total_flos": 1.56740238729216e+18,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}