{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 20.0,
  "eval_steps": 500,
  "global_step": 371860,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05378368203087183,
      "grad_norm": 1.0489896535873413,
      "learning_rate": 3.125e-06,
      "loss": 7.5484,
      "step": 1000
    },
    {
      "epoch": 0.10756736406174366,
      "grad_norm": 0.7405256628990173,
      "learning_rate": 6.25e-06,
      "loss": 5.8085,
      "step": 2000
    },
    {
      "epoch": 0.1613510460926155,
      "grad_norm": 0.8219595551490784,
      "learning_rate": 9.375000000000001e-06,
      "loss": 5.3802,
      "step": 3000
    },
    {
      "epoch": 0.21513472812348733,
      "grad_norm": 0.9044649600982666,
      "learning_rate": 1.25e-05,
      "loss": 5.1583,
      "step": 4000
    },
    {
      "epoch": 0.2689184101543592,
      "grad_norm": 1.00751793384552,
      "learning_rate": 1.5625e-05,
      "loss": 5.0035,
      "step": 5000
    },
    {
      "epoch": 0.322702092185231,
      "grad_norm": 1.116739273071289,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 4.8663,
      "step": 6000
    },
    {
      "epoch": 0.37648577421610285,
      "grad_norm": 1.1231814622879028,
      "learning_rate": 2.1875e-05,
      "loss": 4.7541,
      "step": 7000
    },
    {
      "epoch": 0.43026945624697466,
      "grad_norm": 1.0907611846923828,
      "learning_rate": 2.5e-05,
      "loss": 4.6488,
      "step": 8000
    },
    {
      "epoch": 0.4840531382778465,
      "grad_norm": 1.113344669342041,
      "learning_rate": 2.8125000000000003e-05,
      "loss": 4.5619,
      "step": 9000
    },
    {
      "epoch": 0.5378368203087184,
      "grad_norm": 1.0354745388031006,
      "learning_rate": 3.125e-05,
      "loss": 4.4881,
      "step": 10000
    },
    {
      "epoch": 0.5916205023395902,
      "grad_norm": 1.5056177377700806,
      "learning_rate": 3.4371875e-05,
      "loss": 4.4158,
      "step": 11000
    },
    {
      "epoch": 0.645404184370462,
      "grad_norm": 0.9814821481704712,
      "learning_rate": 3.7496875e-05,
      "loss": 4.3495,
      "step": 12000
    },
    {
      "epoch": 0.6991878664013338,
      "grad_norm": 1.0727801322937012,
      "learning_rate": 4.0621875e-05,
      "loss": 4.2913,
      "step": 13000
    },
    {
      "epoch": 0.7529715484322057,
      "grad_norm": 1.0662927627563477,
      "learning_rate": 4.374375e-05,
      "loss": 4.2355,
      "step": 14000
    },
    {
      "epoch": 0.8067552304630775,
      "grad_norm": 1.030743956565857,
      "learning_rate": 4.686875e-05,
      "loss": 4.1862,
      "step": 15000
    },
    {
      "epoch": 0.8605389124939493,
      "grad_norm": 1.0385651588439941,
      "learning_rate": 4.9990625000000004e-05,
      "loss": 4.1341,
      "step": 16000
    },
    {
      "epoch": 0.9143225945248211,
      "grad_norm": 0.9680750966072083,
      "learning_rate": 5.3115625000000005e-05,
      "loss": 4.0955,
      "step": 17000
    },
    {
      "epoch": 0.968106276555693,
      "grad_norm": 1.0905612707138062,
      "learning_rate": 5.6240625e-05,
      "loss": 4.0555,
      "step": 18000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.30862948193360185,
      "eval_loss": 4.260831832885742,
      "eval_runtime": 152.7708,
      "eval_samples_per_second": 379.117,
      "eval_steps_per_second": 5.924,
      "step": 18593
    },
    {
      "epoch": 1.0218899585865648,
      "grad_norm": 0.9744522571563721,
      "learning_rate": 5.93625e-05,
      "loss": 4.02,
      "step": 19000
    },
    {
      "epoch": 1.0756736406174368,
      "grad_norm": 0.952312707901001,
      "learning_rate": 6.24875e-05,
      "loss": 3.9723,
      "step": 20000
    },
    {
      "epoch": 1.1294573226483084,
      "grad_norm": 0.9960818290710449,
      "learning_rate": 6.56125e-05,
      "loss": 3.9319,
      "step": 21000
    },
    {
      "epoch": 1.1832410046791804,
      "grad_norm": 1.0043728351593018,
      "learning_rate": 6.8734375e-05,
      "loss": 3.8906,
      "step": 22000
    },
    {
      "epoch": 1.2370246867100523,
      "grad_norm": 0.9806647300720215,
      "learning_rate": 7.185937500000001e-05,
      "loss": 3.8556,
      "step": 23000
    },
    {
      "epoch": 1.290808368740924,
      "grad_norm": 0.9609583020210266,
      "learning_rate": 7.4978125e-05,
      "loss": 3.8292,
      "step": 24000
    },
    {
      "epoch": 1.3445920507717959,
      "grad_norm": 0.9188491106033325,
      "learning_rate": 7.8103125e-05,
      "loss": 3.8004,
      "step": 25000
    },
    {
      "epoch": 1.3983757328026676,
      "grad_norm": 0.932732880115509,
      "learning_rate": 8.122500000000001e-05,
      "loss": 3.769,
      "step": 26000
    },
    {
      "epoch": 1.4521594148335395,
      "grad_norm": 0.8833909034729004,
      "learning_rate": 8.435e-05,
      "loss": 3.748,
      "step": 27000
    },
    {
      "epoch": 1.5059430968644114,
      "grad_norm": 0.9042672514915466,
      "learning_rate": 8.746875e-05,
      "loss": 3.7239,
      "step": 28000
    },
    {
      "epoch": 1.5597267788952833,
      "grad_norm": 0.9524121880531311,
      "learning_rate": 9.059375e-05,
      "loss": 3.7076,
      "step": 29000
    },
    {
      "epoch": 1.613510460926155,
      "grad_norm": 0.8914125561714172,
      "learning_rate": 9.3715625e-05,
      "loss": 3.6853,
      "step": 30000
    },
    {
      "epoch": 1.6672941429570267,
      "grad_norm": 0.8666671514511108,
      "learning_rate": 9.68375e-05,
      "loss": 3.6694,
      "step": 31000
    },
    {
      "epoch": 1.7210778249878986,
      "grad_norm": 0.8737355470657349,
      "learning_rate": 9.99625e-05,
      "loss": 3.6462,
      "step": 32000
    },
    {
      "epoch": 1.7748615070187705,
      "grad_norm": 0.8654928803443909,
      "learning_rate": 9.970929206143706e-05,
      "loss": 3.6316,
      "step": 33000
    },
    {
      "epoch": 1.8286451890496425,
      "grad_norm": 0.8172135949134827,
      "learning_rate": 9.941505325722356e-05,
      "loss": 3.616,
      "step": 34000
    },
    {
      "epoch": 1.8824288710805142,
      "grad_norm": 0.8614993691444397,
      "learning_rate": 9.912110869181429e-05,
      "loss": 3.5943,
      "step": 35000
    },
    {
      "epoch": 1.9362125531113858,
      "grad_norm": 0.8271329998970032,
      "learning_rate": 9.882716412640499e-05,
      "loss": 3.5805,
      "step": 36000
    },
    {
      "epoch": 1.9899962351422578,
      "grad_norm": 0.8484081029891968,
      "learning_rate": 9.85329253221915e-05,
      "loss": 3.5626,
      "step": 37000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.3633626394917919,
      "eval_loss": 3.7489588260650635,
      "eval_runtime": 153.9094,
      "eval_samples_per_second": 376.312,
      "eval_steps_per_second": 5.88,
      "step": 37186
    },
    {
      "epoch": 2.0437799171731297,
      "grad_norm": 0.834202766418457,
      "learning_rate": 9.8238686517978e-05,
      "loss": 3.5259,
      "step": 38000
    },
    {
      "epoch": 2.0975635992040016,
      "grad_norm": 0.8602707982063293,
      "learning_rate": 9.79444477137645e-05,
      "loss": 3.514,
      "step": 39000
    },
    {
      "epoch": 2.1513472812348735,
      "grad_norm": 0.7993927001953125,
      "learning_rate": 9.765050314835522e-05,
      "loss": 3.4999,
      "step": 40000
    },
    {
      "epoch": 2.205130963265745,
      "grad_norm": 0.8245725035667419,
      "learning_rate": 9.735626434414172e-05,
      "loss": 3.4915,
      "step": 41000
    },
    {
      "epoch": 2.258914645296617,
      "grad_norm": 0.8083192110061646,
      "learning_rate": 9.706261401753663e-05,
      "loss": 3.4863,
      "step": 42000
    },
    {
      "epoch": 2.312698327327489,
      "grad_norm": 0.8514248728752136,
      "learning_rate": 9.676837521332313e-05,
      "loss": 3.4754,
      "step": 43000
    },
    {
      "epoch": 2.3664820093583607,
      "grad_norm": 0.8821371793746948,
      "learning_rate": 9.647413640910963e-05,
      "loss": 3.468,
      "step": 44000
    },
    {
      "epoch": 2.4202656913892326,
      "grad_norm": 0.8014013767242432,
      "learning_rate": 9.617989760489615e-05,
      "loss": 3.4582,
      "step": 45000
    },
    {
      "epoch": 2.4740493734201046,
      "grad_norm": 0.8032485246658325,
      "learning_rate": 9.588565880068265e-05,
      "loss": 3.4497,
      "step": 46000
    },
    {
      "epoch": 2.527833055450976,
      "grad_norm": 0.8060674667358398,
      "learning_rate": 9.559171423527336e-05,
      "loss": 3.4412,
      "step": 47000
    },
    {
      "epoch": 2.581616737481848,
      "grad_norm": 0.7642372250556946,
      "learning_rate": 9.529747543105986e-05,
      "loss": 3.4374,
      "step": 48000
    },
    {
      "epoch": 2.63540041951272,
      "grad_norm": 0.8085050582885742,
      "learning_rate": 9.500382510445478e-05,
      "loss": 3.4257,
      "step": 49000
    },
    {
      "epoch": 2.6891841015435918,
      "grad_norm": 0.7765064239501953,
      "learning_rate": 9.470958630024128e-05,
      "loss": 3.4264,
      "step": 50000
    },
    {
      "epoch": 2.7429677835744632,
      "grad_norm": 0.7633680105209351,
      "learning_rate": 9.441534749602779e-05,
      "loss": 3.4157,
      "step": 51000
    },
    {
      "epoch": 2.796751465605335,
      "grad_norm": 0.7525299191474915,
      "learning_rate": 9.412140293061849e-05,
      "loss": 3.4093,
      "step": 52000
    },
    {
      "epoch": 2.850535147636207,
      "grad_norm": 0.8231662511825562,
      "learning_rate": 9.3827164126405e-05,
      "loss": 3.4054,
      "step": 53000
    },
    {
      "epoch": 2.904318829667079,
      "grad_norm": 0.7820568084716797,
      "learning_rate": 9.35329253221915e-05,
      "loss": 3.3949,
      "step": 54000
    },
    {
      "epoch": 2.958102511697951,
      "grad_norm": 0.7471756935119629,
      "learning_rate": 9.323898075678222e-05,
      "loss": 3.3926,
      "step": 55000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.38042721878496405,
      "eval_loss": 3.5728847980499268,
      "eval_runtime": 153.8413,
      "eval_samples_per_second": 376.479,
      "eval_steps_per_second": 5.883,
      "step": 55779
    },
    {
      "epoch": 3.011886193728823,
      "grad_norm": 0.7675151824951172,
      "learning_rate": 9.294474195256872e-05,
      "loss": 3.373,
      "step": 56000
    },
    {
      "epoch": 3.0656698757596943,
      "grad_norm": 0.8319113850593567,
      "learning_rate": 9.26505031483552e-05,
      "loss": 3.3312,
      "step": 57000
    },
    {
      "epoch": 3.119453557790566,
      "grad_norm": 0.745871365070343,
      "learning_rate": 9.23562643441417e-05,
      "loss": 3.3325,
      "step": 58000
    },
    {
      "epoch": 3.173237239821438,
      "grad_norm": 0.7976841926574707,
      "learning_rate": 9.206231977873242e-05,
      "loss": 3.3371,
      "step": 59000
    },
    {
      "epoch": 3.22702092185231,
      "grad_norm": 0.7604719996452332,
      "learning_rate": 9.176808097451893e-05,
      "loss": 3.3258,
      "step": 60000
    },
    {
      "epoch": 3.280804603883182,
      "grad_norm": 0.7433556318283081,
      "learning_rate": 9.147413640910963e-05,
      "loss": 3.329,
      "step": 61000
    },
    {
      "epoch": 3.3345882859140534,
      "grad_norm": 0.7537267804145813,
      "learning_rate": 9.117989760489613e-05,
      "loss": 3.3206,
      "step": 62000
    },
    {
      "epoch": 3.3883719679449253,
      "grad_norm": 0.7688448429107666,
      "learning_rate": 9.088595303948685e-05,
      "loss": 3.3202,
      "step": 63000
    },
    {
      "epoch": 3.4421556499757973,
      "grad_norm": 0.7358716726303101,
      "learning_rate": 9.059171423527336e-05,
      "loss": 3.3166,
      "step": 64000
    },
    {
      "epoch": 3.495939332006669,
      "grad_norm": 0.7672792673110962,
      "learning_rate": 9.029747543105986e-05,
      "loss": 3.317,
      "step": 65000
    },
    {
      "epoch": 3.549723014037541,
      "grad_norm": 0.7670078873634338,
      "learning_rate": 9.000353086565056e-05,
      "loss": 3.3139,
      "step": 66000
    },
    {
      "epoch": 3.603506696068413,
      "grad_norm": 0.7238633632659912,
      "learning_rate": 8.970929206143706e-05,
      "loss": 3.3109,
      "step": 67000
    },
    {
      "epoch": 3.657290378099285,
      "grad_norm": 0.6910108923912048,
      "learning_rate": 8.941505325722357e-05,
      "loss": 3.31,
      "step": 68000
    },
    {
      "epoch": 3.7110740601301564,
      "grad_norm": 0.7354035973548889,
      "learning_rate": 8.912110869181429e-05,
      "loss": 3.3028,
      "step": 69000
    },
    {
      "epoch": 3.7648577421610283,
      "grad_norm": 0.7346329092979431,
      "learning_rate": 8.882686988760079e-05,
      "loss": 3.3016,
      "step": 70000
    },
    {
      "epoch": 3.8186414241919002,
      "grad_norm": 0.7276666164398193,
      "learning_rate": 8.85329253221915e-05,
      "loss": 3.2962,
      "step": 71000
    },
    {
      "epoch": 3.872425106222772,
      "grad_norm": 0.7881675958633423,
      "learning_rate": 8.823927499558642e-05,
      "loss": 3.2929,
      "step": 72000
    },
    {
      "epoch": 3.9262087882536436,
      "grad_norm": 0.731143593788147,
      "learning_rate": 8.794503619137292e-05,
      "loss": 3.2931,
      "step": 73000
    },
    {
      "epoch": 3.9799924702845155,
      "grad_norm": 0.7707085013389587,
      "learning_rate": 8.765079738715942e-05,
      "loss": 3.2863,
      "step": 74000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.38832393254759884,
      "eval_loss": 3.512221574783325,
      "eval_runtime": 153.8816,
      "eval_samples_per_second": 376.38,
      "eval_steps_per_second": 5.881,
      "step": 74372
    },
    {
      "epoch": 4.033776152315387,
      "grad_norm": 0.8132415413856506,
      "learning_rate": 8.735655858294592e-05,
      "loss": 3.2565,
      "step": 75000
    },
    {
      "epoch": 4.087559834346259,
      "grad_norm": 0.7561783790588379,
      "learning_rate": 8.706231977873243e-05,
      "loss": 3.2326,
      "step": 76000
    },
    {
      "epoch": 4.141343516377131,
      "grad_norm": 0.757048487663269,
      "learning_rate": 8.676808097451893e-05,
      "loss": 3.2321,
      "step": 77000
    },
    {
      "epoch": 4.195127198408003,
      "grad_norm": 0.7583024501800537,
      "learning_rate": 8.647384217030541e-05,
      "loss": 3.2371,
      "step": 78000
    },
    {
      "epoch": 4.248910880438875,
      "grad_norm": 0.7448434233665466,
      "learning_rate": 8.617989760489615e-05,
      "loss": 3.2365,
      "step": 79000
    },
    {
      "epoch": 4.302694562469747,
      "grad_norm": 0.7461341619491577,
      "learning_rate": 8.588565880068264e-05,
      "loss": 3.2369,
      "step": 80000
    },
    {
      "epoch": 4.356478244500618,
      "grad_norm": 0.7581353187561035,
      "learning_rate": 8.559141999646914e-05,
      "loss": 3.2349,
      "step": 81000
    },
    {
      "epoch": 4.41026192653149,
      "grad_norm": 0.7130771279335022,
      "learning_rate": 8.529718119225564e-05,
      "loss": 3.2389,
      "step": 82000
    },
    {
      "epoch": 4.464045608562362,
      "grad_norm": 0.7467326521873474,
      "learning_rate": 8.500323662684634e-05,
      "loss": 3.2338,
      "step": 83000
    },
    {
      "epoch": 4.517829290593234,
      "grad_norm": 0.7349050641059875,
      "learning_rate": 8.470929206143707e-05,
      "loss": 3.231,
      "step": 84000
    },
    {
      "epoch": 4.571612972624106,
      "grad_norm": 0.7301473021507263,
      "learning_rate": 8.441505325722357e-05,
      "loss": 3.2323,
      "step": 85000
    },
    {
      "epoch": 4.625396654654978,
      "grad_norm": 0.7459990978240967,
      "learning_rate": 8.412110869181427e-05,
      "loss": 3.2319,
      "step": 86000
    },
    {
      "epoch": 4.6791803366858495,
      "grad_norm": 0.7310500144958496,
      "learning_rate": 8.382686988760077e-05,
      "loss": 3.2316,
      "step": 87000
    },
    {
      "epoch": 4.7329640187167215,
      "grad_norm": 0.7355625033378601,
      "learning_rate": 8.35329253221915e-05,
      "loss": 3.2298,
      "step": 88000
    },
    {
      "epoch": 4.786747700747593,
      "grad_norm": 0.7653241157531738,
      "learning_rate": 8.3238686517978e-05,
      "loss": 3.2223,
      "step": 89000
    },
    {
      "epoch": 4.840531382778465,
      "grad_norm": 0.7360557913780212,
      "learning_rate": 8.29447419525687e-05,
      "loss": 3.2246,
      "step": 90000
    },
    {
      "epoch": 4.894315064809337,
      "grad_norm": 0.726395308971405,
      "learning_rate": 8.26505031483552e-05,
      "loss": 3.2265,
      "step": 91000
    },
    {
      "epoch": 4.948098746840209,
      "grad_norm": 0.7324568033218384,
      "learning_rate": 8.23562643441417e-05,
      "loss": 3.2223,
      "step": 92000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.3931525087864058,
      "eval_loss": 3.470435857772827,
      "eval_runtime": 153.6492,
      "eval_samples_per_second": 376.95,
      "eval_steps_per_second": 5.89,
      "step": 92965
    },
    {
      "epoch": 5.00188242887108,
      "grad_norm": 0.7105480432510376,
      "learning_rate": 8.20620255399282e-05,
      "loss": 3.2157,
      "step": 93000
    },
    {
      "epoch": 5.055666110901952,
      "grad_norm": 0.77333664894104,
      "learning_rate": 8.176778673571471e-05,
      "loss": 3.167,
      "step": 94000
    },
    {
      "epoch": 5.109449792932824,
      "grad_norm": 0.7714924812316895,
      "learning_rate": 8.147384217030543e-05,
      "loss": 3.1654,
      "step": 95000
    },
    {
      "epoch": 5.163233474963696,
      "grad_norm": 0.7432717084884644,
      "learning_rate": 8.117960336609193e-05,
      "loss": 3.1702,
      "step": 96000
    },
    {
      "epoch": 5.217017156994568,
      "grad_norm": 0.7248101830482483,
      "learning_rate": 8.088536456187843e-05,
      "loss": 3.1683,
      "step": 97000
    },
    {
      "epoch": 5.27080083902544,
      "grad_norm": 0.7558987140655518,
      "learning_rate": 8.059112575766492e-05,
      "loss": 3.1737,
      "step": 98000
    },
    {
      "epoch": 5.324584521056312,
      "grad_norm": 0.7432435750961304,
      "learning_rate": 8.029718119225564e-05,
      "loss": 3.1774,
      "step": 99000
    },
    {
      "epoch": 5.3783682030871836,
      "grad_norm": 0.7622554898262024,
      "learning_rate": 8.000323662684636e-05,
      "loss": 3.1746,
      "step": 100000
    },
    {
      "epoch": 5.4321518851180555,
      "grad_norm": 0.742205798625946,
      "learning_rate": 7.970899782263285e-05,
      "loss": 3.1724,
      "step": 101000
    },
    {
      "epoch": 5.485935567148927,
      "grad_norm": 0.7343482971191406,
      "learning_rate": 7.941475901841935e-05,
      "loss": 3.1735,
      "step": 102000
    },
    {
      "epoch": 5.539719249179798,
      "grad_norm": 0.7449206709861755,
      "learning_rate": 7.912052021420585e-05,
      "loss": 3.1736,
      "step": 103000
    },
    {
      "epoch": 5.59350293121067,
      "grad_norm": 0.7648908495903015,
      "learning_rate": 7.882628140999235e-05,
      "loss": 3.1748,
      "step": 104000
    },
    {
      "epoch": 5.647286613241542,
      "grad_norm": 0.706194281578064,
      "learning_rate": 7.853233684458307e-05,
      "loss": 3.1724,
      "step": 105000
    },
    {
      "epoch": 5.701070295272414,
      "grad_norm": 0.7112085819244385,
      "learning_rate": 7.823839227917378e-05,
      "loss": 3.173,
      "step": 106000
    },
    {
      "epoch": 5.754853977303286,
      "grad_norm": 0.7374659776687622,
      "learning_rate": 7.794415347496028e-05,
      "loss": 3.174,
      "step": 107000
    },
    {
      "epoch": 5.808637659334158,
      "grad_norm": 0.7422733902931213,
      "learning_rate": 7.764991467074678e-05,
      "loss": 3.1727,
      "step": 108000
    },
    {
      "epoch": 5.86242134136503,
      "grad_norm": 0.7205289602279663,
      "learning_rate": 7.735567586653328e-05,
      "loss": 3.1717,
      "step": 109000
    },
    {
      "epoch": 5.916205023395902,
      "grad_norm": 0.7607922554016113,
      "learning_rate": 7.706143706231978e-05,
      "loss": 3.1679,
      "step": 110000
    },
    {
      "epoch": 5.969988705426774,
      "grad_norm": 0.7205678224563599,
      "learning_rate": 7.67674924969105e-05,
      "loss": 3.1687,
      "step": 111000
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.39598443418529594,
      "eval_loss": 3.4542243480682373,
      "eval_runtime": 154.6543,
      "eval_samples_per_second": 374.5,
      "eval_steps_per_second": 5.852,
      "step": 111558
    },
    {
      "epoch": 6.023772387457646,
      "grad_norm": 0.7311733365058899,
      "learning_rate": 7.6473253692697e-05,
      "loss": 3.143,
      "step": 112000
    },
    {
      "epoch": 6.077556069488518,
      "grad_norm": 0.7482650876045227,
      "learning_rate": 7.617930912728771e-05,
      "loss": 3.1172,
      "step": 113000
    },
    {
      "epoch": 6.131339751519389,
      "grad_norm": 0.768342912197113,
      "learning_rate": 7.588507032307421e-05,
      "loss": 3.1151,
      "step": 114000
    },
    {
      "epoch": 6.1851234335502605,
      "grad_norm": 0.769808828830719,
      "learning_rate": 7.559112575766493e-05,
      "loss": 3.1213,
      "step": 115000
    },
    {
      "epoch": 6.238907115581132,
      "grad_norm": 0.7565628290176392,
      "learning_rate": 7.529688695345143e-05,
      "loss": 3.1255,
      "step": 116000
    },
    {
      "epoch": 6.292690797612004,
      "grad_norm": 0.7597582340240479,
      "learning_rate": 7.500264814923792e-05,
      "loss": 3.1226,
      "step": 117000
    },
    {
      "epoch": 6.346474479642876,
      "grad_norm": 0.7350876331329346,
      "learning_rate": 7.470840934502442e-05,
      "loss": 3.1263,
      "step": 118000
    },
    {
      "epoch": 6.400258161673748,
      "grad_norm": 0.734434962272644,
      "learning_rate": 7.441475901841936e-05,
      "loss": 3.1267,
      "step": 119000
    },
    {
      "epoch": 6.45404184370462,
      "grad_norm": 0.7643101215362549,
      "learning_rate": 7.412052021420586e-05,
      "loss": 3.13,
      "step": 120000
    },
    {
      "epoch": 6.507825525735492,
      "grad_norm": 0.7487729787826538,
      "learning_rate": 7.382628140999235e-05,
      "loss": 3.1309,
      "step": 121000
    },
    {
      "epoch": 6.561609207766364,
      "grad_norm": 0.7111514806747437,
      "learning_rate": 7.353204260577885e-05,
      "loss": 3.1298,
      "step": 122000
    },
    {
      "epoch": 6.615392889797236,
      "grad_norm": 0.7280795574188232,
      "learning_rate": 7.323780380156535e-05,
      "loss": 3.1316,
      "step": 123000
    },
    {
      "epoch": 6.669176571828107,
      "grad_norm": 0.7801093459129333,
      "learning_rate": 7.294385923615607e-05,
      "loss": 3.1235,
      "step": 124000
    },
    {
      "epoch": 6.722960253858979,
      "grad_norm": 0.7695817351341248,
      "learning_rate": 7.264962043194257e-05,
      "loss": 3.1298,
      "step": 125000
    },
    {
      "epoch": 6.776743935889851,
      "grad_norm": 0.7277592420578003,
      "learning_rate": 7.235538162772907e-05,
      "loss": 3.1337,
      "step": 126000
    },
    {
      "epoch": 6.830527617920723,
      "grad_norm": 0.7386214137077332,
      "learning_rate": 7.206143706231978e-05,
      "loss": 3.1248,
      "step": 127000
    },
    {
      "epoch": 6.8843112999515945,
      "grad_norm": 0.7697268128395081,
      "learning_rate": 7.176719825810628e-05,
      "loss": 3.1267,
      "step": 128000
    },
    {
      "epoch": 6.938094981982466,
      "grad_norm": 0.7416918873786926,
      "learning_rate": 7.147325369269699e-05,
      "loss": 3.1255,
      "step": 129000
    },
    {
      "epoch": 6.991878664013338,
      "grad_norm": 0.7437503933906555,
      "learning_rate": 7.11790148884835e-05,
      "loss": 3.1265,
      "step": 130000
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.3987135038494649,
      "eval_loss": 3.430708169937134,
      "eval_runtime": 154.0366,
      "eval_samples_per_second": 376.001,
      "eval_steps_per_second": 5.875,
      "step": 130151
    },
    {
      "epoch": 7.04566234604421,
      "grad_norm": 0.7688168883323669,
      "learning_rate": 7.088507032307421e-05,
      "loss": 3.0768,
      "step": 131000
    },
    {
      "epoch": 7.099446028075082,
      "grad_norm": 0.7706940174102783,
      "learning_rate": 7.059083151886071e-05,
      "loss": 3.0727,
      "step": 132000
    },
    {
      "epoch": 7.153229710105954,
      "grad_norm": 0.7756544947624207,
      "learning_rate": 7.029688695345142e-05,
      "loss": 3.0784,
      "step": 133000
    },
    {
      "epoch": 7.207013392136826,
      "grad_norm": 0.7629918456077576,
      "learning_rate": 7.000264814923792e-05,
      "loss": 3.0812,
      "step": 134000
    },
    {
      "epoch": 7.260797074167698,
      "grad_norm": 0.7643315196037292,
      "learning_rate": 6.970840934502443e-05,
      "loss": 3.0791,
      "step": 135000
    },
    {
      "epoch": 7.314580756198569,
      "grad_norm": 0.7508428692817688,
      "learning_rate": 6.941417054081093e-05,
      "loss": 3.0904,
      "step": 136000
    },
    {
      "epoch": 7.368364438229441,
      "grad_norm": 0.749332070350647,
      "learning_rate": 6.912022597540164e-05,
      "loss": 3.0907,
      "step": 137000
    },
    {
      "epoch": 7.422148120260313,
      "grad_norm": 0.7576011419296265,
      "learning_rate": 6.882598717118814e-05,
      "loss": 3.0874,
      "step": 138000
    },
    {
      "epoch": 7.475931802291185,
      "grad_norm": 0.7459414601325989,
      "learning_rate": 6.853174836697463e-05,
      "loss": 3.0893,
      "step": 139000
    },
    {
      "epoch": 7.529715484322057,
      "grad_norm": 0.7699885964393616,
      "learning_rate": 6.823750956276113e-05,
      "loss": 3.0894,
      "step": 140000
    },
    {
      "epoch": 7.5834991663529285,
      "grad_norm": 0.7432721853256226,
      "learning_rate": 6.794327075854765e-05,
      "loss": 3.0884,
      "step": 141000
    },
    {
      "epoch": 7.6372828483838004,
      "grad_norm": 0.7425631880760193,
      "learning_rate": 6.764903195433415e-05,
      "loss": 3.0955,
      "step": 142000
    },
    {
      "epoch": 7.691066530414672,
      "grad_norm": 0.7397525906562805,
      "learning_rate": 6.735508738892485e-05,
      "loss": 3.0927,
      "step": 143000
    },
    {
      "epoch": 7.744850212445544,
      "grad_norm": 0.8293583989143372,
      "learning_rate": 6.706084858471135e-05,
      "loss": 3.0944,
      "step": 144000
    },
    {
      "epoch": 7.798633894476416,
      "grad_norm": 0.7823474407196045,
      "learning_rate": 6.676690401930206e-05,
      "loss": 3.092,
      "step": 145000
    },
    {
      "epoch": 7.852417576507287,
      "grad_norm": 0.7494142651557922,
      "learning_rate": 6.647266521508858e-05,
      "loss": 3.0927,
      "step": 146000
    },
    {
      "epoch": 7.906201258538159,
      "grad_norm": 0.7707638144493103,
      "learning_rate": 6.617872064967928e-05,
      "loss": 3.0927,
      "step": 147000
    },
    {
      "epoch": 7.959984940569031,
      "grad_norm": 0.7771040797233582,
      "learning_rate": 6.588448184546578e-05,
      "loss": 3.0955,
      "step": 148000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.4013845282133079,
      "eval_loss": 3.4010231494903564,
      "eval_runtime": 154.2403,
      "eval_samples_per_second": 375.505,
      "eval_steps_per_second": 5.867,
      "step": 148744
    },
    {
      "epoch": 8.013768622599903,
      "grad_norm": 0.7500186562538147,
      "learning_rate": 6.559024304125229e-05,
      "loss": 3.0751,
      "step": 149000
    },
    {
      "epoch": 8.067552304630775,
      "grad_norm": 0.7857389450073242,
      "learning_rate": 6.529600423703879e-05,
      "loss": 3.038,
      "step": 150000
    },
    {
      "epoch": 8.121335986661647,
      "grad_norm": 0.7659834027290344,
      "learning_rate": 6.500205967162951e-05,
      "loss": 3.0429,
      "step": 151000
    },
    {
      "epoch": 8.175119668692519,
      "grad_norm": 0.7773808240890503,
      "learning_rate": 6.470811510622021e-05,
      "loss": 3.0451,
      "step": 152000
    },
    {
      "epoch": 8.22890335072339,
      "grad_norm": 0.7654848694801331,
      "learning_rate": 6.441387630200672e-05,
      "loss": 3.0463,
      "step": 153000
    },
    {
      "epoch": 8.282687032754263,
      "grad_norm": 0.7545380592346191,
      "learning_rate": 6.411963749779322e-05,
      "loss": 3.0458,
      "step": 154000
    },
    {
      "epoch": 8.336470714785134,
      "grad_norm": 0.7594432830810547,
      "learning_rate": 6.382569293238392e-05,
      "loss": 3.0503,
      "step": 155000
    },
    {
      "epoch": 8.390254396816006,
      "grad_norm": 0.7385092973709106,
      "learning_rate": 6.353145412817044e-05,
      "loss": 3.0529,
      "step": 156000
    },
    {
      "epoch": 8.444038078846878,
      "grad_norm": 0.7623139023780823,
      "learning_rate": 6.323750956276114e-05,
      "loss": 3.056,
      "step": 157000
    },
    {
      "epoch": 8.49782176087775,
      "grad_norm": 0.7708114385604858,
      "learning_rate": 6.294327075854765e-05,
      "loss": 3.0551,
      "step": 158000
    },
    {
      "epoch": 8.551605442908622,
      "grad_norm": 0.7581725120544434,
      "learning_rate": 6.264903195433413e-05,
      "loss": 3.0606,
      "step": 159000
    },
    {
      "epoch": 8.605389124939494,
      "grad_norm": 0.7970029711723328,
      "learning_rate": 6.235479315012063e-05,
      "loss": 3.0621,
      "step": 160000
    },
    {
      "epoch": 8.659172806970366,
      "grad_norm": 0.759104311466217,
      "learning_rate": 6.206084858471135e-05,
      "loss": 3.0587,
      "step": 161000
    },
    {
      "epoch": 8.712956489001236,
      "grad_norm": 0.7619072794914246,
      "learning_rate": 6.176660978049786e-05,
      "loss": 3.0615,
      "step": 162000
    },
    {
      "epoch": 8.766740171032108,
      "grad_norm": 0.7338131070137024,
      "learning_rate": 6.147266521508856e-05,
      "loss": 3.0647,
      "step": 163000
    },
    {
      "epoch": 8.82052385306298,
      "grad_norm": 0.7602887153625488,
      "learning_rate": 6.117872064967928e-05,
      "loss": 3.0653,
      "step": 164000
    },
    {
      "epoch": 8.874307535093852,
      "grad_norm": 0.7433264255523682,
      "learning_rate": 6.088448184546578e-05,
      "loss": 3.0627,
      "step": 165000
    },
    {
      "epoch": 8.928091217124724,
      "grad_norm": 0.7426097989082336,
      "learning_rate": 6.059024304125228e-05,
      "loss": 3.0664,
      "step": 166000
    },
    {
      "epoch": 8.981874899155596,
      "grad_norm": 0.7173585891723633,
      "learning_rate": 6.0296004237038787e-05,
      "loss": 3.0614,
      "step": 167000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.4025592065422428,
      "eval_loss": 3.394737958908081,
      "eval_runtime": 154.2459,
      "eval_samples_per_second": 375.491,
      "eval_steps_per_second": 5.867,
      "step": 167337
    },
    {
      "epoch": 9.035658581186468,
      "grad_norm": 0.8185796141624451,
      "learning_rate": 6.000176543282529e-05,
      "loss": 3.0225,
      "step": 168000
    },
    {
      "epoch": 9.08944226321734,
      "grad_norm": 0.7936908602714539,
      "learning_rate": 5.970752662861179e-05,
      "loss": 3.0087,
      "step": 169000
    },
    {
      "epoch": 9.143225945248211,
      "grad_norm": 0.7915844321250916,
      "learning_rate": 5.94135820632025e-05,
      "loss": 3.0149,
      "step": 170000
    },
    {
      "epoch": 9.197009627279083,
      "grad_norm": 0.7934896945953369,
      "learning_rate": 5.9119343258989e-05,
      "loss": 3.0156,
      "step": 171000
    },
    {
      "epoch": 9.250793309309955,
      "grad_norm": 0.7754538059234619,
      "learning_rate": 5.882539869357972e-05,
      "loss": 3.0215,
      "step": 172000
    },
    {
      "epoch": 9.304576991340827,
      "grad_norm": 0.7899085879325867,
      "learning_rate": 5.853115988936622e-05,
      "loss": 3.0223,
      "step": 173000
    },
    {
      "epoch": 9.358360673371699,
      "grad_norm": 0.7922378182411194,
      "learning_rate": 5.823750956276114e-05,
      "loss": 3.0266,
      "step": 174000
    },
    {
      "epoch": 9.412144355402571,
      "grad_norm": 0.8085660338401794,
      "learning_rate": 5.794327075854764e-05,
      "loss": 3.0204,
      "step": 175000
    },
    {
      "epoch": 9.465928037433443,
      "grad_norm": 0.8308489322662354,
      "learning_rate": 5.764903195433414e-05,
      "loss": 3.0297,
      "step": 176000
    },
    {
      "epoch": 9.519711719464315,
      "grad_norm": 0.7885105609893799,
      "learning_rate": 5.735479315012065e-05,
      "loss": 3.0309,
      "step": 177000
    },
    {
      "epoch": 9.573495401495187,
      "grad_norm": 0.7959656715393066,
      "learning_rate": 5.7060554345907135e-05,
      "loss": 3.0299,
      "step": 178000
    },
    {
      "epoch": 9.627279083526059,
      "grad_norm": 0.8052105903625488,
      "learning_rate": 5.6766609780497856e-05,
      "loss": 3.0341,
      "step": 179000
    },
    {
      "epoch": 9.68106276555693,
      "grad_norm": 0.77768474817276,
      "learning_rate": 5.647237097628435e-05,
      "loss": 3.0311,
      "step": 180000
    },
    {
      "epoch": 9.734846447587802,
      "grad_norm": 0.7868794202804565,
      "learning_rate": 5.617842641087507e-05,
      "loss": 3.037,
      "step": 181000
    },
    {
      "epoch": 9.788630129618674,
      "grad_norm": 0.7672579884529114,
      "learning_rate": 5.5884187606661565e-05,
      "loss": 3.0332,
      "step": 182000
    },
    {
      "epoch": 9.842413811649546,
      "grad_norm": 0.7784843444824219,
      "learning_rate": 5.5589948802448066e-05,
      "loss": 3.0331,
      "step": 183000
    },
    {
      "epoch": 9.896197493680418,
      "grad_norm": 0.8073210120201111,
      "learning_rate": 5.529600423703878e-05,
      "loss": 3.0338,
      "step": 184000
    },
    {
      "epoch": 9.949981175711288,
      "grad_norm": 0.7723698616027832,
      "learning_rate": 5.500176543282528e-05,
      "loss": 3.0346,
      "step": 185000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.40372259828500323,
      "eval_loss": 3.386077642440796,
      "eval_runtime": 153.8424,
      "eval_samples_per_second": 376.476,
      "eval_steps_per_second": 5.883,
      "step": 185930
    },
    {
      "epoch": 10.00376485774216,
      "grad_norm": 0.7879741191864014,
      "learning_rate": 5.470752662861178e-05,
      "loss": 3.035,
      "step": 186000
    },
    {
      "epoch": 10.057548539773032,
      "grad_norm": 0.7588198781013489,
      "learning_rate": 5.441328782439828e-05,
      "loss": 2.9797,
      "step": 187000
    },
    {
      "epoch": 10.111332221803904,
      "grad_norm": 0.7911401987075806,
      "learning_rate": 5.4119343258989e-05,
      "loss": 2.9867,
      "step": 188000
    },
    {
      "epoch": 10.165115903834776,
      "grad_norm": 0.834837794303894,
      "learning_rate": 5.38251044547755e-05,
      "loss": 2.9866,
      "step": 189000
    },
    {
      "epoch": 10.218899585865648,
      "grad_norm": 0.785953938961029,
      "learning_rate": 5.353115988936621e-05,
      "loss": 2.9908,
      "step": 190000
    },
    {
      "epoch": 10.27268326789652,
      "grad_norm": 0.7968313694000244,
      "learning_rate": 5.323692108515271e-05,
      "loss": 2.9986,
      "step": 191000
    },
    {
      "epoch": 10.326466949927392,
      "grad_norm": 0.815880298614502,
      "learning_rate": 5.294297651974343e-05,
      "loss": 2.9967,
      "step": 192000
    },
    {
      "epoch": 10.380250631958264,
      "grad_norm": 0.8155861496925354,
      "learning_rate": 5.264873771552993e-05,
      "loss": 3.0001,
      "step": 193000
    },
    {
      "epoch": 10.434034313989136,
      "grad_norm": 0.8102470636367798,
      "learning_rate": 5.235479315012064e-05,
      "loss": 3.0023,
      "step": 194000
    },
    {
      "epoch": 10.487817996020008,
      "grad_norm": 0.8228176832199097,
      "learning_rate": 5.206055434590714e-05,
      "loss": 3.0047,
      "step": 195000
    },
    {
      "epoch": 10.54160167805088,
      "grad_norm": 0.810368537902832,
      "learning_rate": 5.1766315541693643e-05,
      "loss": 3.0041,
      "step": 196000
    },
    {
      "epoch": 10.595385360081751,
      "grad_norm": 0.8073120713233948,
      "learning_rate": 5.1472076737480144e-05,
      "loss": 3.0071,
      "step": 197000
    },
    {
      "epoch": 10.649169042112623,
      "grad_norm": 0.7942905426025391,
      "learning_rate": 5.117813217207086e-05,
      "loss": 3.0055,
      "step": 198000
    },
    {
      "epoch": 10.702952724143495,
      "grad_norm": 0.8009095788002014,
      "learning_rate": 5.088389336785736e-05,
      "loss": 3.0065,
      "step": 199000
    },
    {
      "epoch": 10.756736406174367,
      "grad_norm": 0.7769667506217957,
      "learning_rate": 5.0589654563643853e-05,
      "loss": 3.0097,
      "step": 200000
    },
    {
      "epoch": 10.810520088205239,
      "grad_norm": 0.7919924259185791,
      "learning_rate": 5.0295415759430354e-05,
      "loss": 3.0101,
      "step": 201000
    },
    {
      "epoch": 10.864303770236111,
      "grad_norm": 0.7941082715988159,
      "learning_rate": 5.000147119402107e-05,
      "loss": 3.0089,
      "step": 202000
    },
    {
      "epoch": 10.918087452266983,
      "grad_norm": 0.764107346534729,
      "learning_rate": 4.970752662861178e-05,
      "loss": 3.0077,
      "step": 203000
    },
    {
      "epoch": 10.971871134297855,
      "grad_norm": 0.7957196235656738,
      "learning_rate": 4.941328782439828e-05,
      "loss": 3.0121,
      "step": 204000
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.40473771922010227,
      "eval_loss": 3.37876033782959,
      "eval_runtime": 154.4072,
      "eval_samples_per_second": 375.099,
      "eval_steps_per_second": 5.861,
      "step": 204523
    },
    {
      "epoch": 11.025654816328727,
      "grad_norm": 0.826215922832489,
      "learning_rate": 4.9119049020184784e-05,
      "loss": 2.9851,
      "step": 205000
    },
    {
      "epoch": 11.079438498359597,
      "grad_norm": 0.8113217353820801,
      "learning_rate": 4.88251044547755e-05,
      "loss": 2.9589,
      "step": 206000
    },
    {
      "epoch": 11.133222180390469,
      "grad_norm": 0.8072004318237305,
      "learning_rate": 4.8530865650562e-05,
      "loss": 2.9636,
      "step": 207000
    },
    {
      "epoch": 11.18700586242134,
      "grad_norm": 0.8238457441329956,
      "learning_rate": 4.82366268463485e-05,
      "loss": 2.969,
      "step": 208000
    },
    {
      "epoch": 11.240789544452213,
      "grad_norm": 0.8087642788887024,
      "learning_rate": 4.7942388042135e-05,
      "loss": 2.9709,
      "step": 209000
    },
    {
      "epoch": 11.294573226483084,
      "grad_norm": 0.7844156622886658,
      "learning_rate": 4.764873771552993e-05,
      "loss": 2.9751,
      "step": 210000
    },
    {
      "epoch": 11.348356908513956,
      "grad_norm": 0.8092362284660339,
      "learning_rate": 4.735449891131642e-05,
      "loss": 2.9723,
      "step": 211000
    },
    {
      "epoch": 11.402140590544828,
      "grad_norm": 0.833483874797821,
      "learning_rate": 4.706055434590714e-05,
      "loss": 2.9742,
      "step": 212000
    },
    {
      "epoch": 11.4559242725757,
      "grad_norm": 0.8131833672523499,
      "learning_rate": 4.676631554169364e-05,
      "loss": 2.981,
      "step": 213000
    },
    {
      "epoch": 11.509707954606572,
      "grad_norm": 0.8103277683258057,
      "learning_rate": 4.647207673748014e-05,
      "loss": 2.98,
      "step": 214000
    },
    {
      "epoch": 11.563491636637444,
      "grad_norm": 0.8259956240653992,
      "learning_rate": 4.6177837933266646e-05,
      "loss": 2.9833,
      "step": 215000
    },
    {
      "epoch": 11.617275318668316,
      "grad_norm": 0.8347487449645996,
      "learning_rate": 4.588389336785735e-05,
      "loss": 2.978,
      "step": 216000
    },
    {
      "epoch": 11.671059000699188,
      "grad_norm": 0.8020747303962708,
      "learning_rate": 4.558965456364386e-05,
      "loss": 2.9826,
      "step": 217000
    },
    {
      "epoch": 11.72484268273006,
      "grad_norm": 0.7874395251274109,
      "learning_rate": 4.529570999823457e-05,
      "loss": 2.9874,
      "step": 218000
    },
    {
      "epoch": 11.778626364760932,
      "grad_norm": 0.816592812538147,
      "learning_rate": 4.500147119402107e-05,
      "loss": 2.9812,
      "step": 219000
    },
    {
      "epoch": 11.832410046791804,
      "grad_norm": 0.8037729263305664,
      "learning_rate": 4.470752662861178e-05,
      "loss": 2.9872,
      "step": 220000
    },
    {
      "epoch": 11.886193728822676,
      "grad_norm": 0.7837305068969727,
      "learning_rate": 4.44135820632025e-05,
      "loss": 2.9866,
      "step": 221000
    },
    {
      "epoch": 11.939977410853547,
      "grad_norm": 0.7976572513580322,
      "learning_rate": 4.4119343258989e-05,
      "loss": 2.9896,
      "step": 222000
    },
    {
      "epoch": 11.99376109288442,
      "grad_norm": 0.802457869052887,
      "learning_rate": 4.382539869357971e-05,
      "loss": 2.9917,
      "step": 223000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.40500792546768455,
      "eval_loss": 3.3736560344696045,
      "eval_runtime": 154.2381,
      "eval_samples_per_second": 375.51,
      "eval_steps_per_second": 5.868,
      "step": 223116
    },
    {
      "epoch": 12.047544774915291,
      "grad_norm": 0.8179975748062134,
      "learning_rate": 4.353115988936621e-05,
      "loss": 2.9436,
      "step": 224000
    },
    {
      "epoch": 12.101328456946163,
      "grad_norm": 0.8451590538024902,
      "learning_rate": 4.323692108515271e-05,
      "loss": 2.9435,
      "step": 225000
    },
    {
      "epoch": 12.155112138977035,
      "grad_norm": 0.8380730748176575,
      "learning_rate": 4.2942682280939214e-05,
      "loss": 2.9481,
      "step": 226000
    },
    {
      "epoch": 12.208895821007907,
      "grad_norm": 0.8392196297645569,
      "learning_rate": 4.264873771552992e-05,
      "loss": 2.9472,
      "step": 227000
    },
    {
      "epoch": 12.262679503038777,
      "grad_norm": 0.8227624893188477,
      "learning_rate": 4.235449891131642e-05,
      "loss": 2.9494,
      "step": 228000
    },
    {
      "epoch": 12.316463185069649,
      "grad_norm": 0.824691653251648,
      "learning_rate": 4.206026010710293e-05,
      "loss": 2.9491,
      "step": 229000
    },
    {
      "epoch": 12.370246867100521,
      "grad_norm": 0.829526960849762,
      "learning_rate": 4.176631554169364e-05,
      "loss": 2.957,
      "step": 230000
    },
    {
      "epoch": 12.424030549131393,
      "grad_norm": 0.8544576168060303,
      "learning_rate": 4.1472076737480145e-05,
      "loss": 2.9542,
      "step": 231000
    },
    {
      "epoch": 12.477814231162265,
      "grad_norm": 0.8392364978790283,
      "learning_rate": 4.117813217207085e-05,
      "loss": 2.9559,
      "step": 232000
    },
    {
      "epoch": 12.531597913193137,
      "grad_norm": 0.8318558931350708,
      "learning_rate": 4.0883893367857353e-05,
      "loss": 2.9587,
      "step": 233000
    },
    {
      "epoch": 12.585381595224009,
      "grad_norm": 0.8154683709144592,
      "learning_rate": 4.0589654563643854e-05,
      "loss": 2.9603,
      "step": 234000
    },
    {
      "epoch": 12.63916527725488,
      "grad_norm": 0.8392585515975952,
      "learning_rate": 4.0295415759430355e-05,
      "loss": 2.9579,
      "step": 235000
    },
    {
      "epoch": 12.692948959285753,
      "grad_norm": 0.8337314128875732,
      "learning_rate": 4.0001176955216856e-05,
      "loss": 2.9643,
      "step": 236000
    },
    {
      "epoch": 12.746732641316624,
      "grad_norm": 0.8414183259010315,
      "learning_rate": 3.970752662861178e-05,
      "loss": 2.9609,
      "step": 237000
    },
    {
      "epoch": 12.800516323347496,
      "grad_norm": 0.8429349064826965,
      "learning_rate": 3.9413287824398284e-05,
      "loss": 2.9656,
      "step": 238000
    },
    {
      "epoch": 12.854300005378368,
      "grad_norm": 0.8262794613838196,
      "learning_rate": 3.9119049020184785e-05,
      "loss": 2.9668,
      "step": 239000
    },
    {
      "epoch": 12.90808368740924,
      "grad_norm": 0.8269763588905334,
      "learning_rate": 3.88251044547755e-05,
      "loss": 2.9689,
      "step": 240000
    },
    {
      "epoch": 12.961867369440112,
      "grad_norm": 0.8158543109893799,
      "learning_rate": 3.8530865650562e-05,
      "loss": 2.968,
      "step": 241000
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.4055080959085722,
      "eval_loss": 3.3828203678131104,
      "eval_runtime": 154.2308,
      "eval_samples_per_second": 375.528,
      "eval_steps_per_second": 5.868,
      "step": 241709
    },
    {
      "epoch": 13.015651051470984,
      "grad_norm": 0.8760387897491455,
      "learning_rate": 3.82366268463485e-05,
      "loss": 2.9507,
      "step": 242000
    },
    {
      "epoch": 13.069434733501856,
      "grad_norm": 0.8574272394180298,
      "learning_rate": 3.7942388042134995e-05,
      "loss": 2.9228,
      "step": 243000
    },
    {
      "epoch": 13.123218415532728,
      "grad_norm": 0.8364537358283997,
      "learning_rate": 3.7648443476725716e-05,
      "loss": 2.9249,
      "step": 244000
    },
    {
      "epoch": 13.1770020975636,
      "grad_norm": 0.8717691898345947,
      "learning_rate": 3.735420467251221e-05,
      "loss": 2.9258,
      "step": 245000
    },
    {
      "epoch": 13.230785779594472,
      "grad_norm": 0.8629365563392639,
      "learning_rate": 3.705996586829871e-05,
      "loss": 2.9303,
      "step": 246000
    },
    {
      "epoch": 13.284569461625344,
      "grad_norm": 0.8226146101951599,
      "learning_rate": 3.6766021302889425e-05,
      "loss": 2.9324,
      "step": 247000
    },
    {
      "epoch": 13.338353143656215,
      "grad_norm": 0.8641866445541382,
      "learning_rate": 3.6471782498675926e-05,
      "loss": 2.9361,
      "step": 248000
    },
    {
      "epoch": 13.392136825687086,
      "grad_norm": 0.8602815866470337,
      "learning_rate": 3.6177543694462427e-05,
      "loss": 2.9348,
      "step": 249000
    },
    {
      "epoch": 13.445920507717958,
      "grad_norm": 0.8341040015220642,
      "learning_rate": 3.588359912905314e-05,
      "loss": 2.9366,
      "step": 250000
    },
    {
      "epoch": 13.49970418974883,
      "grad_norm": 0.8433042764663696,
      "learning_rate": 3.558936032483964e-05,
      "loss": 2.9371,
      "step": 251000
    },
    {
      "epoch": 13.553487871779701,
      "grad_norm": 0.8445100784301758,
      "learning_rate": 3.529512152062614e-05,
      "loss": 2.937,
      "step": 252000
    },
    {
      "epoch": 13.607271553810573,
      "grad_norm": 0.8464850783348083,
      "learning_rate": 3.5001176955216856e-05,
      "loss": 2.939,
      "step": 253000
    },
    {
      "epoch": 13.661055235841445,
      "grad_norm": 0.8083788156509399,
      "learning_rate": 3.470693815100336e-05,
      "loss": 2.9434,
      "step": 254000
    },
    {
      "epoch": 13.714838917872317,
      "grad_norm": 0.8728957176208496,
      "learning_rate": 3.441269934678986e-05,
      "loss": 2.941,
      "step": 255000
    },
    {
      "epoch": 13.768622599903189,
      "grad_norm": 0.8241551518440247,
      "learning_rate": 3.411846054257636e-05,
      "loss": 2.9452,
      "step": 256000
    },
    {
      "epoch": 13.822406281934061,
      "grad_norm": 0.8384578227996826,
      "learning_rate": 3.382451597716707e-05,
      "loss": 2.9448,
      "step": 257000
    },
    {
      "epoch": 13.876189963964933,
      "grad_norm": 0.810941219329834,
      "learning_rate": 3.3530277172953574e-05,
      "loss": 2.9405,
      "step": 258000
    },
    {
      "epoch": 13.929973645995805,
      "grad_norm": 0.8232195973396301,
      "learning_rate": 3.323603836874007e-05,
      "loss": 2.9492,
      "step": 259000
    },
    {
      "epoch": 13.983757328026677,
      "grad_norm": 0.8487170338630676,
      "learning_rate": 3.294179956452657e-05,
      "loss": 2.9462,
      "step": 260000
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.4059775641477828,
      "eval_loss": 3.392092227935791,
      "eval_runtime": 154.2386,
      "eval_samples_per_second": 375.509,
      "eval_steps_per_second": 5.868,
      "step": 260302
    },
    {
      "epoch": 14.037541010057549,
      "grad_norm": 0.8577378988265991,
      "learning_rate": 3.264785499911728e-05,
      "loss": 2.9154,
      "step": 261000
    },
    {
      "epoch": 14.09132469208842,
      "grad_norm": 0.868270993232727,
      "learning_rate": 3.2353910433708004e-05,
      "loss": 2.9065,
      "step": 262000
    },
    {
      "epoch": 14.145108374119292,
      "grad_norm": 0.8782519102096558,
      "learning_rate": 3.20596716294945e-05,
      "loss": 2.9078,
      "step": 263000
    },
    {
      "epoch": 14.198892056150164,
      "grad_norm": 0.8726826906204224,
      "learning_rate": 3.1765432825281e-05,
      "loss": 2.9074,
      "step": 264000
    },
    {
      "epoch": 14.252675738181036,
      "grad_norm": 0.8613258600234985,
      "learning_rate": 3.14711940210675e-05,
      "loss": 2.9139,
      "step": 265000
    },
    {
      "epoch": 14.306459420211908,
      "grad_norm": 0.8485667109489441,
      "learning_rate": 3.1177249455658214e-05,
      "loss": 2.9174,
      "step": 266000
    },
    {
      "epoch": 14.36024310224278,
      "grad_norm": 0.9009717702865601,
      "learning_rate": 3.0883010651444715e-05,
      "loss": 2.9158,
      "step": 267000
    },
    {
      "epoch": 14.414026784273652,
      "grad_norm": 0.8538597822189331,
      "learning_rate": 3.058936032483964e-05,
      "loss": 2.9185,
      "step": 268000
    },
    {
      "epoch": 14.467810466304524,
      "grad_norm": 0.856895387172699,
      "learning_rate": 3.029512152062614e-05,
      "loss": 2.9169,
      "step": 269000
    },
    {
      "epoch": 14.521594148335396,
      "grad_norm": 0.8506320714950562,
      "learning_rate": 3.0000882716412644e-05,
      "loss": 2.9192,
      "step": 270000
    },
    {
      "epoch": 14.575377830366268,
      "grad_norm": 0.8925907611846924,
      "learning_rate": 2.9706643912199145e-05,
      "loss": 2.918,
      "step": 271000
    },
    {
      "epoch": 14.629161512397138,
      "grad_norm": 0.8765429854393005,
      "learning_rate": 2.941269934678986e-05,
      "loss": 2.9245,
      "step": 272000
    },
    {
      "epoch": 14.68294519442801,
      "grad_norm": 0.8704999089241028,
      "learning_rate": 2.911875478138057e-05,
      "loss": 2.9222,
      "step": 273000
    },
    {
      "epoch": 14.736728876458882,
      "grad_norm": 0.8442783951759338,
      "learning_rate": 2.882451597716707e-05,
      "loss": 2.921,
      "step": 274000
    },
    {
      "epoch": 14.790512558489754,
      "grad_norm": 0.8700312376022339,
      "learning_rate": 2.8530277172953568e-05,
      "loss": 2.9234,
      "step": 275000
    },
    {
      "epoch": 14.844296240520626,
      "grad_norm": 0.8738580346107483,
      "learning_rate": 2.823603836874007e-05,
      "loss": 2.9259,
      "step": 276000
    },
    {
      "epoch": 14.898079922551497,
      "grad_norm": 0.8423880934715271,
      "learning_rate": 2.7941799564526573e-05,
      "loss": 2.9253,
      "step": 277000
    },
    {
      "epoch": 14.95186360458237,
      "grad_norm": 0.8413381576538086,
      "learning_rate": 2.7647560760313074e-05,
      "loss": 2.9308,
      "step": 278000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.40731603234036906,
      "eval_loss": 3.384235382080078,
      "eval_runtime": 153.8779,
      "eval_samples_per_second": 376.389,
      "eval_steps_per_second": 5.881,
      "step": 278895
    },
    {
      "epoch": 15.005647286613241,
      "grad_norm": 0.8703798651695251,
      "learning_rate": 2.7353616194903788e-05,
      "loss": 2.925,
      "step": 279000
    },
    {
      "epoch": 15.059430968644113,
      "grad_norm": 0.8850764036178589,
      "learning_rate": 2.705937739069029e-05,
      "loss": 2.8835,
      "step": 280000
    },
    {
      "epoch": 15.113214650674985,
      "grad_norm": 0.8852105140686035,
      "learning_rate": 2.6765138586476786e-05,
      "loss": 2.8864,
      "step": 281000
    },
    {
      "epoch": 15.166998332705857,
      "grad_norm": 0.9038397669792175,
      "learning_rate": 2.6470899782263287e-05,
      "loss": 2.8946,
      "step": 282000
    },
    {
      "epoch": 15.220782014736729,
      "grad_norm": 0.8719667792320251,
      "learning_rate": 2.6176955216853998e-05,
      "loss": 2.894,
      "step": 283000
    },
    {
      "epoch": 15.274565696767601,
      "grad_norm": 0.8941630125045776,
      "learning_rate": 2.5882716412640502e-05,
      "loss": 2.8992,
      "step": 284000
    },
    {
      "epoch": 15.328349378798473,
      "grad_norm": 0.8849285840988159,
      "learning_rate": 2.5588771847231213e-05,
      "loss": 2.8982,
      "step": 285000
    },
    {
      "epoch": 15.382133060829345,
      "grad_norm": 0.916803240776062,
      "learning_rate": 2.5294533043017717e-05,
      "loss": 2.8998,
      "step": 286000
    },
    {
      "epoch": 15.435916742860217,
      "grad_norm": 0.871529757976532,
      "learning_rate": 2.5000882716412644e-05,
      "loss": 2.9004,
      "step": 287000
    },
    {
      "epoch": 15.489700424891089,
      "grad_norm": 0.8877633213996887,
      "learning_rate": 2.470664391219914e-05,
      "loss": 2.9036,
      "step": 288000
    },
    {
      "epoch": 15.54348410692196,
      "grad_norm": 0.8539232015609741,
      "learning_rate": 2.4412405107985643e-05,
      "loss": 2.901,
      "step": 289000
    },
    {
      "epoch": 15.597267788952832,
      "grad_norm": 0.8996196985244751,
      "learning_rate": 2.4118460542576357e-05,
      "loss": 2.9012,
      "step": 290000
    },
    {
      "epoch": 15.651051470983704,
      "grad_norm": 0.9288415908813477,
      "learning_rate": 2.3824221738362857e-05,
      "loss": 2.9059,
      "step": 291000
    },
    {
      "epoch": 15.704835153014574,
      "grad_norm": 0.83979731798172,
      "learning_rate": 2.3529982934149355e-05,
      "loss": 2.9078,
      "step": 292000
    },
    {
      "epoch": 15.758618835045446,
      "grad_norm": 0.871395468711853,
      "learning_rate": 2.3235744129935856e-05,
      "loss": 2.905,
      "step": 293000
    },
    {
      "epoch": 15.812402517076318,
      "grad_norm": 0.8687715530395508,
      "learning_rate": 2.294179956452657e-05,
      "loss": 2.9092,
      "step": 294000
    },
    {
      "epoch": 15.86618619910719,
      "grad_norm": 0.8818358778953552,
      "learning_rate": 2.2647854999117284e-05,
      "loss": 2.9087,
      "step": 295000
    },
    {
      "epoch": 15.919969881138062,
      "grad_norm": 0.8488963842391968,
      "learning_rate": 2.2353910433707998e-05,
      "loss": 2.9098,
      "step": 296000
    },
    {
      "epoch": 15.973753563168934,
      "grad_norm": 0.8631708025932312,
      "learning_rate": 2.20596716294945e-05,
      "loss": 2.9096,
      "step": 297000
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.4075240279998705,
      "eval_loss": 3.3800442218780518,
      "eval_runtime": 154.4151,
      "eval_samples_per_second": 375.08,
      "eval_steps_per_second": 5.861,
      "step": 297488
    },
    {
      "epoch": 16.027537245199806,
      "grad_norm": 0.9190370440483093,
      "learning_rate": 2.1765432825281e-05,
      "loss": 2.8902,
      "step": 298000
    },
    {
      "epoch": 16.081320927230678,
      "grad_norm": 0.9171285033226013,
      "learning_rate": 2.14711940210675e-05,
      "loss": 2.8722,
      "step": 299000
    },
    {
      "epoch": 16.13510460926155,
      "grad_norm": 0.8986324071884155,
      "learning_rate": 2.1176955216853998e-05,
      "loss": 2.8795,
      "step": 300000
    },
    {
      "epoch": 16.18888829129242,
      "grad_norm": 0.9201930165290833,
      "learning_rate": 2.08827164126405e-05,
      "loss": 2.8797,
      "step": 301000
    },
    {
      "epoch": 16.242671973323294,
      "grad_norm": 0.9046939611434937,
      "learning_rate": 2.0588771847231213e-05,
      "loss": 2.8811,
      "step": 302000
    },
    {
      "epoch": 16.296455655354166,
      "grad_norm": 0.9016453623771667,
      "learning_rate": 2.0294533043017714e-05,
      "loss": 2.8794,
      "step": 303000
    },
    {
      "epoch": 16.350239337385037,
      "grad_norm": 0.9240383505821228,
      "learning_rate": 2.0000294238804215e-05,
      "loss": 2.8855,
      "step": 304000
    },
    {
      "epoch": 16.40402301941591,
      "grad_norm": 0.9093482494354248,
      "learning_rate": 1.9706055434590716e-05,
      "loss": 2.8801,
      "step": 305000
    },
    {
      "epoch": 16.45780670144678,
      "grad_norm": 0.8959923386573792,
      "learning_rate": 1.941211086918143e-05,
      "loss": 2.8851,
      "step": 306000
    },
    {
      "epoch": 16.511590383477653,
      "grad_norm": 0.9291424751281738,
      "learning_rate": 1.9117872064967927e-05,
      "loss": 2.8823,
      "step": 307000
    },
    {
      "epoch": 16.565374065508525,
      "grad_norm": 0.9166994094848633,
      "learning_rate": 1.8823633260754428e-05,
      "loss": 2.8914,
      "step": 308000
    },
    {
      "epoch": 16.619157747539397,
      "grad_norm": 0.9259293675422668,
      "learning_rate": 1.852939445654093e-05,
      "loss": 2.8881,
      "step": 309000
    },
    {
      "epoch": 16.67294142957027,
      "grad_norm": 0.9145235419273376,
      "learning_rate": 1.8235449891131643e-05,
      "loss": 2.8876,
      "step": 310000
    },
    {
      "epoch": 16.72672511160114,
      "grad_norm": 0.926196813583374,
      "learning_rate": 1.7941211086918144e-05,
      "loss": 2.8875,
      "step": 311000
    },
    {
      "epoch": 16.780508793632013,
      "grad_norm": 0.8985670208930969,
      "learning_rate": 1.7647266521508858e-05,
      "loss": 2.8897,
      "step": 312000
    },
    {
      "epoch": 16.834292475662885,
      "grad_norm": 0.9112594723701477,
      "learning_rate": 1.735302771729536e-05,
      "loss": 2.891,
      "step": 313000
    },
    {
      "epoch": 16.888076157693757,
      "grad_norm": 0.9346410036087036,
      "learning_rate": 1.705908315188607e-05,
      "loss": 2.8916,
      "step": 314000
    },
    {
      "epoch": 16.94185983972463,
      "grad_norm": 0.9073229432106018,
      "learning_rate": 1.6764844347672574e-05,
      "loss": 2.8898,
      "step": 315000
    },
    {
      "epoch": 16.9956435217555,
      "grad_norm": 0.8861480951309204,
      "learning_rate": 1.647060554345907e-05,
      "loss": 2.889,
      "step": 316000
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.4077118018591426,
      "eval_loss": 3.384974479675293,
      "eval_runtime": 154.1381,
      "eval_samples_per_second": 375.754,
      "eval_steps_per_second": 5.871,
      "step": 316081
    },
    {
      "epoch": 17.049427203786372,
      "grad_norm": 0.9185024499893188,
      "learning_rate": 1.6176660978049785e-05,
      "loss": 2.8642,
      "step": 317000
    },
    {
      "epoch": 17.103210885817244,
      "grad_norm": 0.8915971517562866,
      "learning_rate": 1.5882422173836286e-05,
      "loss": 2.8621,
      "step": 318000
    },
    {
      "epoch": 17.156994567848116,
      "grad_norm": 0.9077499508857727,
      "learning_rate": 1.5588183369622787e-05,
      "loss": 2.8628,
      "step": 319000
    },
    {
      "epoch": 17.210778249878988,
      "grad_norm": 0.9534841775894165,
      "learning_rate": 1.5294533043017714e-05,
      "loss": 2.8685,
      "step": 320000
    },
    {
      "epoch": 17.26456193190986,
      "grad_norm": 0.924517035484314,
      "learning_rate": 1.5000294238804214e-05,
      "loss": 2.8611,
      "step": 321000
    },
    {
      "epoch": 17.318345613940732,
      "grad_norm": 0.9032144546508789,
      "learning_rate": 1.4706055434590716e-05,
      "loss": 2.8672,
      "step": 322000
    },
    {
      "epoch": 17.372129295971604,
      "grad_norm": 0.9569965600967407,
      "learning_rate": 1.4411816630377215e-05,
      "loss": 2.8669,
      "step": 323000
    },
    {
      "epoch": 17.425912978002476,
      "grad_norm": 0.9252744913101196,
      "learning_rate": 1.4117577826163716e-05,
      "loss": 2.8681,
      "step": 324000
    },
    {
      "epoch": 17.479696660033348,
      "grad_norm": 0.9229059815406799,
      "learning_rate": 1.3823633260754429e-05,
      "loss": 2.8733,
      "step": 325000
    },
    {
      "epoch": 17.533480342064216,
      "grad_norm": 0.9757437705993652,
      "learning_rate": 1.3529394456540928e-05,
      "loss": 2.873,
      "step": 326000
    },
    {
      "epoch": 17.587264024095088,
      "grad_norm": 0.9332020878791809,
      "learning_rate": 1.323515565232743e-05,
      "loss": 2.8693,
      "step": 327000
    },
    {
      "epoch": 17.64104770612596,
      "grad_norm": 0.9381711483001709,
      "learning_rate": 1.294091684811393e-05,
      "loss": 2.8694,
      "step": 328000
    },
    {
      "epoch": 17.69483138815683,
      "grad_norm": 0.9215328693389893,
      "learning_rate": 1.2646972282704644e-05,
      "loss": 2.8712,
      "step": 329000
    },
    {
      "epoch": 17.748615070187704,
      "grad_norm": 0.9105529189109802,
      "learning_rate": 1.2353027717295358e-05,
      "loss": 2.873,
      "step": 330000
    },
    {
      "epoch": 17.802398752218576,
      "grad_norm": 0.9045984148979187,
      "learning_rate": 1.2058788913081857e-05,
      "loss": 2.8739,
      "step": 331000
    },
    {
      "epoch": 17.856182434249448,
      "grad_norm": 0.8981735110282898,
      "learning_rate": 1.1764550108868358e-05,
      "loss": 2.8732,
      "step": 332000
    },
    {
      "epoch": 17.90996611628032,
      "grad_norm": 0.9405637383460999,
      "learning_rate": 1.1470311304654859e-05,
      "loss": 2.8759,
      "step": 333000
    },
    {
      "epoch": 17.96374979831119,
      "grad_norm": 0.880014955997467,
      "learning_rate": 1.1176366739245573e-05,
      "loss": 2.8779,
      "step": 334000
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.407625137001017,
      "eval_loss": 3.392023801803589,
      "eval_runtime": 154.3691,
      "eval_samples_per_second": 375.192,
      "eval_steps_per_second": 5.863,
      "step": 334674
    },
    {
      "epoch": 18.017533480342063,
      "grad_norm": 0.9213481545448303,
      "learning_rate": 1.0882127935032074e-05,
      "loss": 2.8646,
      "step": 335000
    },
    {
      "epoch": 18.071317162372935,
      "grad_norm": 0.926913321018219,
      "learning_rate": 1.0587889130818573e-05,
      "loss": 2.8498,
      "step": 336000
    },
    {
      "epoch": 18.125100844403807,
      "grad_norm": 0.953425943851471,
      "learning_rate": 1.0293650326605072e-05,
      "loss": 2.8487,
      "step": 337000
    },
    {
      "epoch": 18.17888452643468,
      "grad_norm": 0.9122514724731445,
      "learning_rate": 9.999705761195786e-06,
      "loss": 2.8491,
      "step": 338000
    },
    {
      "epoch": 18.23266820846555,
      "grad_norm": 0.9349797964096069,
      "learning_rate": 9.7057611957865e-06,
      "loss": 2.8526,
      "step": 339000
    },
    {
      "epoch": 18.286451890496423,
      "grad_norm": 0.9712046384811401,
      "learning_rate": 9.411522391573001e-06,
      "loss": 2.8535,
      "step": 340000
    },
    {
      "epoch": 18.340235572527295,
      "grad_norm": 0.9234364628791809,
      "learning_rate": 9.117577826163715e-06,
      "loss": 2.857,
      "step": 341000
    },
    {
      "epoch": 18.394019254558167,
      "grad_norm": 0.9454054832458496,
      "learning_rate": 8.823339021950216e-06,
      "loss": 2.8539,
      "step": 342000
    },
    {
      "epoch": 18.44780293658904,
      "grad_norm": 0.9207014441490173,
      "learning_rate": 8.529100217736715e-06,
      "loss": 2.8589,
      "step": 343000
    },
    {
      "epoch": 18.50158661861991,
      "grad_norm": 0.895506739616394,
      "learning_rate": 8.235155652327429e-06,
      "loss": 2.8582,
      "step": 344000
    },
    {
      "epoch": 18.555370300650782,
      "grad_norm": 0.9252230525016785,
      "learning_rate": 7.941211086918143e-06,
      "loss": 2.8572,
      "step": 345000
    },
    {
      "epoch": 18.609153982681654,
      "grad_norm": 0.954779863357544,
      "learning_rate": 7.646972282704644e-06,
      "loss": 2.8593,
      "step": 346000
    },
    {
      "epoch": 18.662937664712526,
      "grad_norm": 0.9090393781661987,
      "learning_rate": 7.352733478491143e-06,
      "loss": 2.8606,
      "step": 347000
    },
    {
      "epoch": 18.716721346743398,
      "grad_norm": 0.9491481184959412,
      "learning_rate": 7.058494674277644e-06,
      "loss": 2.8569,
      "step": 348000
    },
    {
      "epoch": 18.77050502877427,
      "grad_norm": 0.9368701577186584,
      "learning_rate": 6.764255870064144e-06,
      "loss": 2.857,
      "step": 349000
    },
    {
      "epoch": 18.824288710805142,
      "grad_norm": 0.9315699934959412,
      "learning_rate": 6.470017065850645e-06,
      "loss": 2.8571,
      "step": 350000
    },
    {
      "epoch": 18.878072392836014,
      "grad_norm": 0.9450963735580444,
      "learning_rate": 6.176366739245571e-06,
      "loss": 2.8616,
      "step": 351000
    },
    {
      "epoch": 18.931856074866886,
      "grad_norm": 0.958202064037323,
      "learning_rate": 5.882127935032072e-06,
      "loss": 2.8551,
      "step": 352000
    },
    {
      "epoch": 18.985639756897758,
      "grad_norm": 0.916106104850769,
      "learning_rate": 5.587889130818573e-06,
      "loss": 2.8585,
      "step": 353000
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.4083989399745756,
      "eval_loss": 3.389803171157837,
      "eval_runtime": 154.6817,
      "eval_samples_per_second": 374.433,
      "eval_steps_per_second": 5.851,
      "step": 353267
    },
    {
      "epoch": 19.03942343892863,
      "grad_norm": 0.9335721731185913,
      "learning_rate": 5.293944565409286e-06,
      "loss": 2.8473,
      "step": 354000
    },
    {
      "epoch": 19.0932071209595,
      "grad_norm": 0.9438668489456177,
      "learning_rate": 4.999705761195786e-06,
      "loss": 2.8388,
      "step": 355000
    },
    {
      "epoch": 19.146990802990373,
      "grad_norm": 0.9449619054794312,
      "learning_rate": 4.705466956982287e-06,
      "loss": 2.842,
      "step": 356000
    },
    {
      "epoch": 19.200774485021245,
      "grad_norm": 0.9449966549873352,
      "learning_rate": 4.411522391573001e-06,
      "loss": 2.8438,
      "step": 357000
    },
    {
      "epoch": 19.254558167052117,
      "grad_norm": 0.9282692074775696,
      "learning_rate": 4.1172835873595005e-06,
      "loss": 2.8424,
      "step": 358000
    },
    {
      "epoch": 19.30834184908299,
      "grad_norm": 0.9687463641166687,
      "learning_rate": 3.823044783146001e-06,
      "loss": 2.8429,
      "step": 359000
    },
    {
      "epoch": 19.36212553111386,
      "grad_norm": 0.9648985862731934,
      "learning_rate": 3.528805978932502e-06,
      "loss": 2.8414,
      "step": 360000
    },
    {
      "epoch": 19.415909213144733,
      "grad_norm": 0.933380126953125,
      "learning_rate": 3.234567174719002e-06,
      "loss": 2.844,
      "step": 361000
    },
    {
      "epoch": 19.469692895175605,
      "grad_norm": 0.9169676303863525,
      "learning_rate": 2.940622609309716e-06,
      "loss": 2.8437,
      "step": 362000
    },
    {
      "epoch": 19.523476577206477,
      "grad_norm": 0.9346097707748413,
      "learning_rate": 2.6463838050962164e-06,
      "loss": 2.844,
      "step": 363000
    },
    {
      "epoch": 19.57726025923735,
      "grad_norm": 0.9195376634597778,
      "learning_rate": 2.35243923968693e-06,
      "loss": 2.8418,
      "step": 364000
    },
    {
      "epoch": 19.63104394126822,
      "grad_norm": 0.9312041401863098,
      "learning_rate": 2.0582004354734305e-06,
      "loss": 2.8455,
      "step": 365000
    },
    {
      "epoch": 19.684827623299093,
      "grad_norm": 0.9278233647346497,
      "learning_rate": 1.7639616312599305e-06,
      "loss": 2.8454,
      "step": 366000
    },
    {
      "epoch": 19.738611305329965,
      "grad_norm": 0.9816317558288574,
      "learning_rate": 1.4700170658506446e-06,
      "loss": 2.8422,
      "step": 367000
    },
    {
      "epoch": 19.792394987360836,
      "grad_norm": 0.9713099002838135,
      "learning_rate": 1.1760725004413582e-06,
      "loss": 2.8441,
      "step": 368000
    },
    {
      "epoch": 19.846178669391705,
      "grad_norm": 0.9396886825561523,
      "learning_rate": 8.818336962278584e-07,
      "loss": 2.844,
      "step": 369000
    },
    {
      "epoch": 19.899962351422577,
      "grad_norm": 0.9674928784370422,
      "learning_rate": 5.875948920143589e-07,
      "loss": 2.8451,
      "step": 370000
    },
    {
      "epoch": 19.95374603345345,
      "grad_norm": 0.9253866076469421,
      "learning_rate": 2.933560878008592e-07,
      "loss": 2.8469,
      "step": 371000
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.4080815719204785,
      "eval_loss": 3.3971192836761475,
      "eval_runtime": 154.407,
      "eval_samples_per_second": 375.1,
      "eval_steps_per_second": 5.861,
      "step": 371860
    },
    {
      "epoch": 20.0,
      "step": 371860,
      "total_flos": 1.5667414205184e+18,
      "train_loss": 3.1547193204799435,
      "train_runtime": 81066.2548,
      "train_samples_per_second": 146.785,
      "train_steps_per_second": 4.587
    }
  ],
  "logging_steps": 1000,
  "max_steps": 371860,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 5000,
  "total_flos": 1.5667414205184e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}