{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 20.0,
  "eval_steps": 500,
  "global_step": 371860,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05,
      "grad_norm": 0.8312104344367981,
      "learning_rate": 3.125e-05,
      "loss": 6.2257,
      "step": 1000
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9502728581428528,
      "learning_rate": 6.25e-05,
      "loss": 5.0089,
      "step": 2000
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8591319918632507,
      "learning_rate": 9.375e-05,
      "loss": 4.6758,
      "step": 3000
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8401712775230408,
      "learning_rate": 0.000125,
      "loss": 4.4571,
      "step": 4000
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8191812038421631,
      "learning_rate": 0.00015625,
      "loss": 4.3036,
      "step": 5000
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7224918007850647,
      "learning_rate": 0.0001875,
      "loss": 4.1874,
      "step": 6000
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6912359595298767,
      "learning_rate": 0.00021875,
      "loss": 4.0754,
      "step": 7000
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6749542951583862,
      "learning_rate": 0.00025,
      "loss": 3.9858,
      "step": 8000
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.59529709815979,
      "learning_rate": 0.00028125000000000003,
      "loss": 3.9131,
      "step": 9000
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6068610548973083,
      "learning_rate": 0.0003125,
      "loss": 3.8547,
      "step": 10000
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6108985543251038,
      "learning_rate": 0.00034368749999999997,
      "loss": 3.8106,
      "step": 11000
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5286092758178711,
      "learning_rate": 0.0003749375,
      "loss": 3.7601,
      "step": 12000
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.510732889175415,
      "learning_rate": 0.00040615625,
      "loss": 3.7376,
      "step": 13000
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4611998200416565,
      "learning_rate": 0.00043740625,
      "loss": 3.7014,
      "step": 14000
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4421904385089874,
      "learning_rate": 0.000468625,
      "loss": 3.6774,
      "step": 15000
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4315645694732666,
      "learning_rate": 0.00049984375,
      "loss": 3.6459,
      "step": 16000
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39755091071128845,
      "learning_rate": 0.00053109375,
      "loss": 3.6289,
      "step": 17000
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3569364547729492,
      "learning_rate": 0.00056234375,
      "loss": 3.6058,
      "step": 18000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.3583219694877892,
      "eval_loss": 3.759089469909668,
      "eval_runtime": 153.1894,
      "eval_samples_per_second": 378.081,
      "eval_steps_per_second": 5.908,
      "step": 18593
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.35596030950546265,
      "learning_rate": 0.00059359375,
      "loss": 3.575,
      "step": 19000
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.34496042132377625,
      "learning_rate": 0.0006248125,
      "loss": 3.5448,
      "step": 20000
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.3091937005519867,
      "learning_rate": 0.0006560625,
      "loss": 3.5428,
      "step": 21000
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.29641395807266235,
      "learning_rate": 0.00068728125,
      "loss": 3.5271,
      "step": 22000
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.3143785893917084,
      "learning_rate": 0.00071853125,
      "loss": 3.5207,
      "step": 23000
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.2784711420536041,
      "learning_rate": 0.00074978125,
      "loss": 3.5101,
      "step": 24000
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2753349840641022,
      "learning_rate": 0.0007810312499999999,
      "loss": 3.4952,
      "step": 25000
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.26271969079971313,
      "learning_rate": 0.00081225,
      "loss": 3.4876,
      "step": 26000
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.2381388247013092,
      "learning_rate": 0.0008435000000000001,
      "loss": 3.4799,
      "step": 27000
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2527729570865631,
      "learning_rate": 0.0008747500000000001,
      "loss": 3.4734,
      "step": 28000
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2576155960559845,
      "learning_rate": 0.000906,
      "loss": 3.4585,
      "step": 29000
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.24814070761203766,
      "learning_rate": 0.0009371875,
      "loss": 3.4471,
      "step": 30000
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.24141082167625427,
      "learning_rate": 0.0009684062500000001,
      "loss": 3.4452,
      "step": 31000
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.22506552934646606,
      "learning_rate": 0.0009996562500000001,
      "loss": 3.4337,
      "step": 32000
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.24841339886188507,
      "learning_rate": 0.0009970899782263285,
      "loss": 3.4287,
      "step": 33000
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.22890250384807587,
      "learning_rate": 0.0009941475901841935,
      "loss": 3.417,
      "step": 34000
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.24054209887981415,
      "learning_rate": 0.0009912081445301007,
      "loss": 3.4048,
      "step": 35000
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.22243231534957886,
      "learning_rate": 0.0009882657564879657,
      "loss": 3.3938,
      "step": 36000
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.24782834947109222,
      "learning_rate": 0.0009853233684458307,
      "loss": 3.3838,
      "step": 37000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.3823840978450279,
      "eval_loss": 3.562626600265503,
      "eval_runtime": 154.448,
      "eval_samples_per_second": 375.0,
      "eval_steps_per_second": 5.86,
      "step": 37186
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.21779261529445648,
      "learning_rate": 0.0009823809804036957,
      "loss": 3.339,
      "step": 38000
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.20343604683876038,
      "learning_rate": 0.0009794415347496028,
      "loss": 3.3251,
      "step": 39000
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.21567633748054504,
      "learning_rate": 0.00097650208909551,
      "loss": 3.3263,
      "step": 40000
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.2065410614013672,
      "learning_rate": 0.000973559701053375,
      "loss": 3.3163,
      "step": 41000
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.21967165172100067,
      "learning_rate": 0.0009706202553992821,
      "loss": 3.3185,
      "step": 42000
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.21518032252788544,
      "learning_rate": 0.0009676778673571472,
      "loss": 3.3087,
      "step": 43000
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.20184220373630524,
      "learning_rate": 0.0009647413640910963,
      "loss": 3.3039,
      "step": 44000
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.20664459466934204,
      "learning_rate": 0.0009617989760489614,
      "loss": 3.3023,
      "step": 45000
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.2078685164451599,
      "learning_rate": 0.0009588565880068264,
      "loss": 3.2934,
      "step": 46000
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.19454820454120636,
      "learning_rate": 0.0009559141999646913,
      "loss": 3.292,
      "step": 47000
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.21420347690582275,
      "learning_rate": 0.0009529718119225564,
      "loss": 3.2854,
      "step": 48000
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.22202090919017792,
      "learning_rate": 0.0009500294238804213,
      "loss": 3.2824,
      "step": 49000
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.18978945910930634,
      "learning_rate": 0.0009470899782263285,
      "loss": 3.2824,
      "step": 50000
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.2037171721458435,
      "learning_rate": 0.0009441475901841935,
      "loss": 3.2741,
      "step": 51000
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.18513046205043793,
      "learning_rate": 0.0009412052021420585,
      "loss": 3.2708,
      "step": 52000
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.19343778491020203,
      "learning_rate": 0.0009382686988760078,
      "loss": 3.265,
      "step": 53000
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.19230955839157104,
      "learning_rate": 0.0009353263108338727,
      "loss": 3.2572,
      "step": 54000
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.2253035008907318,
      "learning_rate": 0.0009323839227917378,
      "loss": 3.2578,
      "step": 55000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.3922567703729263,
      "eval_loss": 3.470010995864868,
      "eval_runtime": 153.8194,
      "eval_samples_per_second": 376.532,
      "eval_steps_per_second": 5.884,
      "step": 55779
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.20600128173828125,
      "learning_rate": 0.0009294415347496028,
      "loss": 3.2403,
      "step": 56000
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.21167024970054626,
      "learning_rate": 0.0009265020890955099,
      "loss": 3.1914,
      "step": 57000
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.2366885393857956,
      "learning_rate": 0.000923559701053375,
      "loss": 3.1965,
      "step": 58000
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.20737504959106445,
      "learning_rate": 0.00092061731301124,
      "loss": 3.1951,
      "step": 59000
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.20787447690963745,
      "learning_rate": 0.0009176808097451892,
      "loss": 3.1943,
      "step": 60000
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.18728815019130707,
      "learning_rate": 0.0009147384217030542,
      "loss": 3.1945,
      "step": 61000
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.21601532399654388,
      "learning_rate": 0.0009117960336609192,
      "loss": 3.1918,
      "step": 62000
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1906283050775528,
      "learning_rate": 0.0009088536456187843,
      "loss": 3.197,
      "step": 63000
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.21691660583019257,
      "learning_rate": 0.0009059112575766493,
      "loss": 3.1935,
      "step": 64000
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.19494643807411194,
      "learning_rate": 0.0009029688695345141,
      "loss": 3.1977,
      "step": 65000
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.17809908092021942,
      "learning_rate": 0.0009000294238804214,
      "loss": 3.1943,
      "step": 66000
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.19838228821754456,
      "learning_rate": 0.0008970899782263285,
      "loss": 3.1857,
      "step": 67000
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.2003040611743927,
      "learning_rate": 0.0008941475901841936,
      "loss": 3.1867,
      "step": 68000
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.19367261230945587,
      "learning_rate": 0.0008912052021420585,
      "loss": 3.1856,
      "step": 69000
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.21115286648273468,
      "learning_rate": 0.0008882686988760078,
      "loss": 3.1853,
      "step": 70000
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.20090192556381226,
      "learning_rate": 0.0008853263108338728,
      "loss": 3.1836,
      "step": 71000
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.19658184051513672,
      "learning_rate": 0.0008823839227917378,
      "loss": 3.1812,
      "step": 72000
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.2290799617767334,
      "learning_rate": 0.0008794415347496028,
      "loss": 3.1789,
      "step": 73000
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.20442788302898407,
      "learning_rate": 0.0008764991467074678,
      "loss": 3.1777,
      "step": 74000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.3992264388818594,
      "eval_loss": 3.4089791774749756,
      "eval_runtime": 153.9209,
      "eval_samples_per_second": 376.284,
      "eval_steps_per_second": 5.88,
      "step": 74372
    },
    {
      "epoch": 4.03,
      "grad_norm": 0.2247774302959442,
      "learning_rate": 0.0008735597010533748,
      "loss": 3.1325,
      "step": 75000
    },
    {
      "epoch": 4.09,
      "grad_norm": 0.21651485562324524,
      "learning_rate": 0.0008706173130112399,
      "loss": 3.115,
      "step": 76000
    },
    {
      "epoch": 4.14,
      "grad_norm": 0.17504039406776428,
      "learning_rate": 0.000867677867357147,
      "loss": 3.1171,
      "step": 77000
    },
    {
      "epoch": 4.2,
      "grad_norm": 0.18688605725765228,
      "learning_rate": 0.0008647354793150121,
      "loss": 3.1233,
      "step": 78000
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.22956781089305878,
      "learning_rate": 0.0008617960336609192,
      "loss": 3.1208,
      "step": 79000
    },
    {
      "epoch": 4.3,
      "grad_norm": 0.21130318939685822,
      "learning_rate": 0.0008588536456187842,
      "loss": 3.1265,
      "step": 80000
    },
    {
      "epoch": 4.36,
      "grad_norm": 0.2048238217830658,
      "learning_rate": 0.0008559141999646913,
      "loss": 3.124,
      "step": 81000
    },
    {
      "epoch": 4.41,
      "grad_norm": 0.2129676640033722,
      "learning_rate": 0.0008529718119225563,
      "loss": 3.1263,
      "step": 82000
    },
    {
      "epoch": 4.46,
      "grad_norm": 0.18450549244880676,
      "learning_rate": 0.0008500323662684635,
      "loss": 3.1278,
      "step": 83000
    },
    {
      "epoch": 4.52,
      "grad_norm": 0.19969293475151062,
      "learning_rate": 0.0008470899782263285,
      "loss": 3.126,
      "step": 84000
    },
    {
      "epoch": 4.57,
      "grad_norm": 0.21337586641311646,
      "learning_rate": 0.0008441475901841935,
      "loss": 3.1233,
      "step": 85000
    },
    {
      "epoch": 4.63,
      "grad_norm": 0.23035766184329987,
      "learning_rate": 0.0008412052021420586,
      "loss": 3.1218,
      "step": 86000
    },
    {
      "epoch": 4.68,
      "grad_norm": 0.20081737637519836,
      "learning_rate": 0.0008382657564879656,
      "loss": 3.1295,
      "step": 87000
    },
    {
      "epoch": 4.73,
      "grad_norm": 0.20288433134555817,
      "learning_rate": 0.0008353233684458307,
      "loss": 3.1273,
      "step": 88000
    },
    {
      "epoch": 4.79,
      "grad_norm": 0.21951287984848022,
      "learning_rate": 0.0008323809804036957,
      "loss": 3.1233,
      "step": 89000
    },
    {
      "epoch": 4.84,
      "grad_norm": 0.23518647253513336,
      "learning_rate": 0.0008294385923615606,
      "loss": 3.1216,
      "step": 90000
    },
    {
      "epoch": 4.89,
      "grad_norm": 0.19344407320022583,
      "learning_rate": 0.0008264991467074679,
      "loss": 3.1185,
      "step": 91000
    },
    {
      "epoch": 4.95,
      "grad_norm": 0.2080138623714447,
      "learning_rate": 0.0008235567586653327,
      "loss": 3.1262,
      "step": 92000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.4021268228004627,
      "eval_loss": 3.4091908931732178,
      "eval_runtime": 153.8968,
      "eval_samples_per_second": 376.343,
      "eval_steps_per_second": 5.881,
      "step": 92965
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.219606414437294,
      "learning_rate": 0.0008206143706231978,
      "loss": 3.1222,
      "step": 93000
    },
    {
      "epoch": 5.06,
      "grad_norm": 0.2691947817802429,
      "learning_rate": 0.0008176719825810628,
      "loss": 3.0498,
      "step": 94000
    },
    {
      "epoch": 5.11,
      "grad_norm": 0.20439419150352478,
      "learning_rate": 0.0008147325369269699,
      "loss": 3.0629,
      "step": 95000
    },
    {
      "epoch": 5.16,
      "grad_norm": 0.19887258112430573,
      "learning_rate": 0.000811790148884835,
      "loss": 3.0626,
      "step": 96000
    },
    {
      "epoch": 5.22,
      "grad_norm": 0.20340527594089508,
      "learning_rate": 0.0008088477608427,
      "loss": 3.068,
      "step": 97000
    },
    {
      "epoch": 5.27,
      "grad_norm": 0.20021183788776398,
      "learning_rate": 0.0008059083151886071,
      "loss": 3.0732,
      "step": 98000
    },
    {
      "epoch": 5.32,
      "grad_norm": 0.20147942006587982,
      "learning_rate": 0.0008029659271464721,
      "loss": 3.0746,
      "step": 99000
    },
    {
      "epoch": 5.38,
      "grad_norm": 0.21692225337028503,
      "learning_rate": 0.0008000235391043371,
      "loss": 3.0748,
      "step": 100000
    },
    {
      "epoch": 5.43,
      "grad_norm": 0.21817108988761902,
      "learning_rate": 0.0007970840934502443,
      "loss": 3.074,
      "step": 101000
    },
    {
      "epoch": 5.49,
      "grad_norm": 0.19129902124404907,
      "learning_rate": 0.0007941417054081093,
      "loss": 3.0742,
      "step": 102000
    },
    {
      "epoch": 5.54,
      "grad_norm": 0.22475874423980713,
      "learning_rate": 0.0007912022597540164,
      "loss": 3.0743,
      "step": 103000
    },
    {
      "epoch": 5.59,
      "grad_norm": 0.20011954009532928,
      "learning_rate": 0.0007882598717118814,
      "loss": 3.078,
      "step": 104000
    },
    {
      "epoch": 5.65,
      "grad_norm": 0.23358415067195892,
      "learning_rate": 0.0007853174836697464,
      "loss": 3.0803,
      "step": 105000
    },
    {
      "epoch": 5.7,
      "grad_norm": 0.25769877433776855,
      "learning_rate": 0.0007823780380156536,
      "loss": 3.0773,
      "step": 106000
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.19384749233722687,
      "learning_rate": 0.0007794356499735186,
      "loss": 3.076,
      "step": 107000
    },
    {
      "epoch": 5.81,
      "grad_norm": 0.2200847864151001,
      "learning_rate": 0.0007764932619313834,
      "loss": 3.0814,
      "step": 108000
    },
    {
      "epoch": 5.86,
      "grad_norm": 0.20478276908397675,
      "learning_rate": 0.0007735538162772907,
      "loss": 3.0824,
      "step": 109000
    },
    {
      "epoch": 5.92,
      "grad_norm": 0.20803511142730713,
      "learning_rate": 0.0007706114282351556,
      "loss": 3.0819,
      "step": 110000
    },
    {
      "epoch": 5.97,
      "grad_norm": 0.20873361825942993,
      "learning_rate": 0.0007676719825810629,
      "loss": 3.0786,
      "step": 111000
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.40734639863174327,
      "eval_loss": 3.3685643672943115,
      "eval_runtime": 154.3372,
      "eval_samples_per_second": 375.269,
      "eval_steps_per_second": 5.864,
      "step": 111558
    },
    {
      "epoch": 6.02,
      "grad_norm": 0.1934431493282318,
      "learning_rate": 0.0007647295945389278,
      "loss": 3.053,
      "step": 112000
    },
    {
      "epoch": 6.08,
      "grad_norm": 0.21110905706882477,
      "learning_rate": 0.0007617872064967927,
      "loss": 3.0139,
      "step": 113000
    },
    {
      "epoch": 6.13,
      "grad_norm": 0.21048736572265625,
      "learning_rate": 0.0007588477608426999,
      "loss": 3.0181,
      "step": 114000
    },
    {
      "epoch": 6.19,
      "grad_norm": 0.2148706465959549,
      "learning_rate": 0.0007559053728005649,
      "loss": 3.0279,
      "step": 115000
    },
    {
      "epoch": 6.24,
      "grad_norm": 0.19867485761642456,
      "learning_rate": 0.00075296298475843,
      "loss": 3.0276,
      "step": 116000
    },
    {
      "epoch": 6.29,
      "grad_norm": 0.21621841192245483,
      "learning_rate": 0.0007500235391043371,
      "loss": 3.0288,
      "step": 117000
    },
    {
      "epoch": 6.35,
      "grad_norm": 0.19812580943107605,
      "learning_rate": 0.000747081151062202,
      "loss": 3.033,
      "step": 118000
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.20920614898204803,
      "learning_rate": 0.0007441417054081092,
      "loss": 3.0361,
      "step": 119000
    },
    {
      "epoch": 6.45,
      "grad_norm": 0.21000561118125916,
      "learning_rate": 0.0007411993173659742,
      "loss": 3.0334,
      "step": 120000
    },
    {
      "epoch": 6.51,
      "grad_norm": 0.2547498345375061,
      "learning_rate": 0.0007382569293238393,
      "loss": 3.0358,
      "step": 121000
    },
    {
      "epoch": 6.56,
      "grad_norm": 0.20749124884605408,
      "learning_rate": 0.0007353145412817043,
      "loss": 3.0365,
      "step": 122000
    },
    {
      "epoch": 6.62,
      "grad_norm": 0.237258642911911,
      "learning_rate": 0.0007323750956276114,
      "loss": 3.0401,
      "step": 123000
    },
    {
      "epoch": 6.67,
      "grad_norm": 0.25023993849754333,
      "learning_rate": 0.0007294327075854764,
      "loss": 3.0402,
      "step": 124000
    },
    {
      "epoch": 6.72,
      "grad_norm": 0.20605266094207764,
      "learning_rate": 0.0007264932619313835,
      "loss": 3.0419,
      "step": 125000
    },
    {
      "epoch": 6.78,
      "grad_norm": 0.21135370433330536,
      "learning_rate": 0.0007235508738892486,
      "loss": 3.0385,
      "step": 126000
    },
    {
      "epoch": 6.83,
      "grad_norm": 0.22333766520023346,
      "learning_rate": 0.0007206114282351557,
      "loss": 3.045,
      "step": 127000
    },
    {
      "epoch": 6.88,
      "grad_norm": 0.24394270777702332,
      "learning_rate": 0.0007176719825810628,
      "loss": 3.0434,
      "step": 128000
    },
    {
      "epoch": 6.94,
      "grad_norm": 0.21755318343639374,
      "learning_rate": 0.0007147295945389278,
      "loss": 3.0439,
      "step": 129000
    },
    {
      "epoch": 6.99,
      "grad_norm": 0.23268872499465942,
      "learning_rate": 0.0007117872064967928,
      "loss": 3.0425,
      "step": 130000
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.4099298175886128,
      "eval_loss": 3.3362903594970703,
      "eval_runtime": 154.0245,
      "eval_samples_per_second": 376.031,
      "eval_steps_per_second": 5.876,
      "step": 130151
    },
    {
      "epoch": 7.05,
      "grad_norm": 0.2110925167798996,
      "learning_rate": 0.0007088448184546579,
      "loss": 2.9879,
      "step": 131000
    },
    {
      "epoch": 7.1,
      "grad_norm": 0.22126556932926178,
      "learning_rate": 0.000705905372800565,
      "loss": 2.981,
      "step": 132000
    },
    {
      "epoch": 7.15,
      "grad_norm": 0.22157453000545502,
      "learning_rate": 0.0007029629847584299,
      "loss": 2.9876,
      "step": 133000
    },
    {
      "epoch": 7.21,
      "grad_norm": 0.21576203405857086,
      "learning_rate": 0.000700020596716295,
      "loss": 2.9922,
      "step": 134000
    },
    {
      "epoch": 7.26,
      "grad_norm": 0.2592271864414215,
      "learning_rate": 0.0006970782086741599,
      "loss": 2.9909,
      "step": 135000
    },
    {
      "epoch": 7.31,
      "grad_norm": 0.2377893477678299,
      "learning_rate": 0.0006941358206320249,
      "loss": 2.9988,
      "step": 136000
    },
    {
      "epoch": 7.37,
      "grad_norm": 0.23037472367286682,
      "learning_rate": 0.0006911963749779321,
      "loss": 2.9992,
      "step": 137000
    },
    {
      "epoch": 7.42,
      "grad_norm": 0.21334344148635864,
      "learning_rate": 0.0006882569293238392,
      "loss": 2.9997,
      "step": 138000
    },
    {
      "epoch": 7.48,
      "grad_norm": 0.2124759554862976,
      "learning_rate": 0.0006853145412817043,
      "loss": 3.0031,
      "step": 139000
    },
    {
      "epoch": 7.53,
      "grad_norm": 0.25670570135116577,
      "learning_rate": 0.0006823721532395692,
      "loss": 3.005,
      "step": 140000
    },
    {
      "epoch": 7.58,
      "grad_norm": 0.22313950955867767,
      "learning_rate": 0.0006794297651974342,
      "loss": 3.0053,
      "step": 141000
    },
    {
      "epoch": 7.64,
      "grad_norm": 0.2379012405872345,
      "learning_rate": 0.0006764873771552993,
      "loss": 3.0058,
      "step": 142000
    },
    {
      "epoch": 7.69,
      "grad_norm": 0.20937615633010864,
      "learning_rate": 0.0006735449891131643,
      "loss": 3.0094,
      "step": 143000
    },
    {
      "epoch": 7.74,
      "grad_norm": 0.20886410772800446,
      "learning_rate": 0.0006706055434590715,
      "loss": 3.0062,
      "step": 144000
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.22851799428462982,
      "learning_rate": 0.0006676631554169365,
      "loss": 3.0093,
      "step": 145000
    },
    {
      "epoch": 7.85,
      "grad_norm": 0.20537161827087402,
      "learning_rate": 0.0006647207673748013,
      "loss": 3.0115,
      "step": 146000
    },
    {
      "epoch": 7.91,
      "grad_norm": 0.23766294121742249,
      "learning_rate": 0.0006617813217207086,
      "loss": 3.0124,
      "step": 147000
    },
    {
      "epoch": 7.96,
      "grad_norm": 0.22742018103599548,
      "learning_rate": 0.0006588389336785735,
      "loss": 3.0098,
      "step": 148000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.40923952191633334,
      "eval_loss": 3.350663900375366,
      "eval_runtime": 153.7327,
      "eval_samples_per_second": 376.745,
      "eval_steps_per_second": 5.887,
      "step": 148744
    },
    {
      "epoch": 8.01,
      "grad_norm": 0.21903790533542633,
      "learning_rate": 0.0006558965456364385,
      "loss": 2.9926,
      "step": 149000
    },
    {
      "epoch": 8.07,
      "grad_norm": 0.20988741517066956,
      "learning_rate": 0.0006529570999823457,
      "loss": 2.9448,
      "step": 150000
    },
    {
      "epoch": 8.12,
      "grad_norm": 0.2950041592121124,
      "learning_rate": 0.0006500147119402106,
      "loss": 2.9555,
      "step": 151000
    },
    {
      "epoch": 8.18,
      "grad_norm": 0.29450491070747375,
      "learning_rate": 0.0006470752662861178,
      "loss": 2.9565,
      "step": 152000
    },
    {
      "epoch": 8.23,
      "grad_norm": 0.20490312576293945,
      "learning_rate": 0.0006441328782439828,
      "loss": 2.9627,
      "step": 153000
    },
    {
      "epoch": 8.28,
      "grad_norm": 0.23909521102905273,
      "learning_rate": 0.0006411904902018478,
      "loss": 2.9642,
      "step": 154000
    },
    {
      "epoch": 8.34,
      "grad_norm": 0.21682307124137878,
      "learning_rate": 0.0006382481021597129,
      "loss": 2.9675,
      "step": 155000
    },
    {
      "epoch": 8.39,
      "grad_norm": 0.21195299923419952,
      "learning_rate": 0.00063530865650562,
      "loss": 2.9693,
      "step": 156000
    },
    {
      "epoch": 8.44,
      "grad_norm": 0.23492495715618134,
      "learning_rate": 0.000632366268463485,
      "loss": 2.9674,
      "step": 157000
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.23849956691265106,
      "learning_rate": 0.0006294268228093921,
      "loss": 2.9701,
      "step": 158000
    },
    {
      "epoch": 8.55,
      "grad_norm": 0.25188374519348145,
      "learning_rate": 0.0006264873771552993,
      "loss": 2.9825,
      "step": 159000
    },
    {
      "epoch": 8.61,
      "grad_norm": 0.2530730664730072,
      "learning_rate": 0.0006235449891131643,
      "loss": 2.9809,
      "step": 160000
    },
    {
      "epoch": 8.66,
      "grad_norm": 0.23667292296886444,
      "learning_rate": 0.0006206026010710293,
      "loss": 2.9783,
      "step": 161000
    },
    {
      "epoch": 8.71,
      "grad_norm": 0.24218669533729553,
      "learning_rate": 0.0006176631554169364,
      "loss": 2.9798,
      "step": 162000
    },
    {
      "epoch": 8.77,
      "grad_norm": 0.2382335215806961,
      "learning_rate": 0.0006147207673748014,
      "loss": 2.9798,
      "step": 163000
    },
    {
      "epoch": 8.82,
      "grad_norm": 0.23527012765407562,
      "learning_rate": 0.0006117783793326664,
      "loss": 2.9809,
      "step": 164000
    },
    {
      "epoch": 8.87,
      "grad_norm": 0.22996819019317627,
      "learning_rate": 0.0006088389336785736,
      "loss": 2.9868,
      "step": 165000
    },
    {
      "epoch": 8.93,
      "grad_norm": 0.2324855476617813,
      "learning_rate": 0.0006058965456364386,
      "loss": 2.9863,
      "step": 166000
    },
    {
      "epoch": 8.98,
      "grad_norm": 0.22988879680633545,
      "learning_rate": 0.0006029541575943035,
      "loss": 2.9845,
      "step": 167000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.41129065740736637,
      "eval_loss": 3.3482728004455566,
      "eval_runtime": 154.0306,
      "eval_samples_per_second": 376.016,
      "eval_steps_per_second": 5.875,
      "step": 167337
    },
    {
      "epoch": 9.04,
      "grad_norm": 0.2297317385673523,
      "learning_rate": 0.0006000117695521685,
      "loss": 2.9388,
      "step": 168000
    },
    {
      "epoch": 9.09,
      "grad_norm": 0.23250137269496918,
      "learning_rate": 0.0005970693815100335,
      "loss": 2.9229,
      "step": 169000
    },
    {
      "epoch": 9.14,
      "grad_norm": 0.2257017344236374,
      "learning_rate": 0.0005941299358559407,
      "loss": 2.9264,
      "step": 170000
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.2848641276359558,
      "learning_rate": 0.0005911875478138057,
      "loss": 2.9337,
      "step": 171000
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.25495216250419617,
      "learning_rate": 0.0005882481021597129,
      "loss": 2.9368,
      "step": 172000
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.2235710471868515,
      "learning_rate": 0.0005853057141175778,
      "loss": 2.937,
      "step": 173000
    },
    {
      "epoch": 9.36,
      "grad_norm": 0.23283004760742188,
      "learning_rate": 0.0005823662684634849,
      "loss": 2.9422,
      "step": 174000
    },
    {
      "epoch": 9.41,
      "grad_norm": 0.22400903701782227,
      "learning_rate": 0.00057942388042135,
      "loss": 2.942,
      "step": 175000
    },
    {
      "epoch": 9.47,
      "grad_norm": 0.28096896409988403,
      "learning_rate": 0.000576481492379215,
      "loss": 2.945,
      "step": 176000
    },
    {
      "epoch": 9.52,
      "grad_norm": 0.2264271378517151,
      "learning_rate": 0.0005735420467251222,
      "loss": 2.9522,
      "step": 177000
    },
    {
      "epoch": 9.57,
      "grad_norm": 0.24392622709274292,
      "learning_rate": 0.0005705996586829871,
      "loss": 2.9497,
      "step": 178000
    },
    {
      "epoch": 9.63,
      "grad_norm": 0.2549942433834076,
      "learning_rate": 0.0005676602130288942,
      "loss": 2.953,
      "step": 179000
    },
    {
      "epoch": 9.68,
      "grad_norm": 0.21871516108512878,
      "learning_rate": 0.0005647178249867593,
      "loss": 2.9562,
      "step": 180000
    },
    {
      "epoch": 9.73,
      "grad_norm": 0.25268951058387756,
      "learning_rate": 0.0005617754369446243,
      "loss": 2.9565,
      "step": 181000
    },
    {
      "epoch": 9.79,
      "grad_norm": 0.23433713614940643,
      "learning_rate": 0.0005588359912905315,
      "loss": 2.9578,
      "step": 182000
    },
    {
      "epoch": 9.84,
      "grad_norm": 0.23419669270515442,
      "learning_rate": 0.0005558936032483965,
      "loss": 2.9551,
      "step": 183000
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.22905708849430084,
      "learning_rate": 0.0005529541575943035,
      "loss": 2.9596,
      "step": 184000
    },
    {
      "epoch": 9.95,
      "grad_norm": 0.23876738548278809,
      "learning_rate": 0.0005500117695521686,
      "loss": 2.9554,
      "step": 185000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.4122498156860169,
      "eval_loss": 3.336944341659546,
      "eval_runtime": 154.0311,
      "eval_samples_per_second": 376.015,
      "eval_steps_per_second": 5.875,
      "step": 185930
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.24441593885421753,
      "learning_rate": 0.0005470693815100336,
      "loss": 2.9564,
      "step": 186000
    },
    {
      "epoch": 10.06,
      "grad_norm": 0.2440199851989746,
      "learning_rate": 0.0005441299358559408,
      "loss": 2.8919,
      "step": 187000
    },
    {
      "epoch": 10.11,
      "grad_norm": 0.23010103404521942,
      "learning_rate": 0.0005411875478138058,
      "loss": 2.901,
      "step": 188000
    },
    {
      "epoch": 10.17,
      "grad_norm": 0.23733960092067719,
      "learning_rate": 0.0005382451597716706,
      "loss": 2.9061,
      "step": 189000
    },
    {
      "epoch": 10.22,
      "grad_norm": 0.22888825833797455,
      "learning_rate": 0.0005353057141175779,
      "loss": 2.9086,
      "step": 190000
    },
    {
      "epoch": 10.27,
      "grad_norm": 0.2507685720920563,
      "learning_rate": 0.0005323633260754428,
      "loss": 2.9122,
      "step": 191000
    },
    {
      "epoch": 10.33,
      "grad_norm": 0.2326771318912506,
      "learning_rate": 0.00052942388042135,
      "loss": 2.9165,
      "step": 192000
    },
    {
      "epoch": 10.38,
      "grad_norm": 0.22225552797317505,
      "learning_rate": 0.0005264844347672572,
      "loss": 2.921,
      "step": 193000
    },
    {
      "epoch": 10.43,
      "grad_norm": 0.2435818612575531,
      "learning_rate": 0.000523542046725122,
      "loss": 2.9209,
      "step": 194000
    },
    {
      "epoch": 10.49,
      "grad_norm": 0.28486397862434387,
      "learning_rate": 0.0005205996586829871,
      "loss": 2.923,
      "step": 195000
    },
    {
      "epoch": 10.54,
      "grad_norm": 0.22869859635829926,
      "learning_rate": 0.0005176572706408521,
      "loss": 2.927,
      "step": 196000
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.23878014087677002,
      "learning_rate": 0.0005147148825987171,
      "loss": 2.928,
      "step": 197000
    },
    {
      "epoch": 10.65,
      "grad_norm": 0.24142974615097046,
      "learning_rate": 0.0005117724945565822,
      "loss": 2.9258,
      "step": 198000
    },
    {
      "epoch": 10.7,
      "grad_norm": 0.22321057319641113,
      "learning_rate": 0.0005088330489024892,
      "loss": 2.9312,
      "step": 199000
    },
    {
      "epoch": 10.76,
      "grad_norm": 0.2523132264614105,
      "learning_rate": 0.0005058906608603543,
      "loss": 2.9311,
      "step": 200000
    },
    {
      "epoch": 10.81,
      "grad_norm": 0.2508733868598938,
      "learning_rate": 0.0005029541575943035,
      "loss": 2.9303,
      "step": 201000
    },
    {
      "epoch": 10.86,
      "grad_norm": 0.23713907599449158,
      "learning_rate": 0.0005000117695521686,
      "loss": 2.9337,
      "step": 202000
    },
    {
      "epoch": 10.92,
      "grad_norm": 0.23553961515426636,
      "learning_rate": 0.0004970693815100336,
      "loss": 2.9379,
      "step": 203000
    },
    {
      "epoch": 10.97,
      "grad_norm": 0.21825040876865387,
      "learning_rate": 0.0004941299358559406,
      "loss": 2.9372,
      "step": 204000
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.41437370934863904,
      "eval_loss": 3.321012496948242,
      "eval_runtime": 154.4374,
      "eval_samples_per_second": 375.026,
      "eval_steps_per_second": 5.86,
      "step": 204523
    },
    {
      "epoch": 11.03,
      "grad_norm": 0.26671475172042847,
      "learning_rate": 0.0004911875478138057,
      "loss": 2.9066,
      "step": 205000
    },
    {
      "epoch": 11.08,
      "grad_norm": 0.2612106204032898,
      "learning_rate": 0.0004882451597716707,
      "loss": 2.8756,
      "step": 206000
    },
    {
      "epoch": 11.13,
      "grad_norm": 0.22722426056861877,
      "learning_rate": 0.0004853027717295357,
      "loss": 2.8833,
      "step": 207000
    },
    {
      "epoch": 11.19,
      "grad_norm": 0.23622776567935944,
      "learning_rate": 0.0004823633260754429,
      "loss": 2.8881,
      "step": 208000
    },
    {
      "epoch": 11.24,
      "grad_norm": 0.2652033567428589,
      "learning_rate": 0.0004794209380333078,
      "loss": 2.8919,
      "step": 209000
    },
    {
      "epoch": 11.29,
      "grad_norm": 0.28054356575012207,
      "learning_rate": 0.00047648149237921494,
      "loss": 2.8927,
      "step": 210000
    },
    {
      "epoch": 11.35,
      "grad_norm": 0.25273242592811584,
      "learning_rate": 0.00047353910433707997,
      "loss": 2.8943,
      "step": 211000
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.25114232301712036,
      "learning_rate": 0.000470596716294945,
      "loss": 2.9006,
      "step": 212000
    },
    {
      "epoch": 11.46,
      "grad_norm": 0.2624213397502899,
      "learning_rate": 0.00046765727064085213,
      "loss": 2.9013,
      "step": 213000
    },
    {
      "epoch": 11.51,
      "grad_norm": 0.2672816812992096,
      "learning_rate": 0.0004647148825987171,
      "loss": 2.8988,
      "step": 214000
    },
    {
      "epoch": 11.56,
      "grad_norm": 0.24824631214141846,
      "learning_rate": 0.00046177543694462424,
      "loss": 2.9042,
      "step": 215000
    },
    {
      "epoch": 11.62,
      "grad_norm": 0.23572318255901337,
      "learning_rate": 0.0004588330489024893,
      "loss": 2.9008,
      "step": 216000
    },
    {
      "epoch": 11.67,
      "grad_norm": 0.2625464200973511,
      "learning_rate": 0.0004558906608603543,
      "loss": 2.9056,
      "step": 217000
    },
    {
      "epoch": 11.72,
      "grad_norm": 0.2674199640750885,
      "learning_rate": 0.00045295415759430353,
      "loss": 2.9101,
      "step": 218000
    },
    {
      "epoch": 11.78,
      "grad_norm": 0.24866561591625214,
      "learning_rate": 0.00045001176955216857,
      "loss": 2.9049,
      "step": 219000
    },
    {
      "epoch": 11.83,
      "grad_norm": 0.24389897286891937,
      "learning_rate": 0.00044706938151003355,
      "loss": 2.9121,
      "step": 220000
    },
    {
      "epoch": 11.89,
      "grad_norm": 0.24480506777763367,
      "learning_rate": 0.00044412699346789853,
      "loss": 2.9162,
      "step": 221000
    },
    {
      "epoch": 11.94,
      "grad_norm": 0.2638656795024872,
      "learning_rate": 0.00044118460542576357,
      "loss": 2.9112,
      "step": 222000
    },
    {
      "epoch": 11.99,
      "grad_norm": 0.25639745593070984,
      "learning_rate": 0.00043824221738362855,
      "loss": 2.9131,
      "step": 223000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.4121014776962949,
      "eval_loss": 3.3488454818725586,
      "eval_runtime": 154.6215,
      "eval_samples_per_second": 374.579,
      "eval_steps_per_second": 5.853,
      "step": 223116
    },
    {
      "epoch": 12.05,
      "grad_norm": 0.23550355434417725,
      "learning_rate": 0.0004353057141175779,
      "loss": 2.8599,
      "step": 224000
    },
    {
      "epoch": 12.1,
      "grad_norm": 0.26492688059806824,
      "learning_rate": 0.000432366268463485,
      "loss": 2.8576,
      "step": 225000
    },
    {
      "epoch": 12.16,
      "grad_norm": 0.27841565012931824,
      "learning_rate": 0.00042942388042135,
      "loss": 2.8607,
      "step": 226000
    },
    {
      "epoch": 12.21,
      "grad_norm": 0.25784963369369507,
      "learning_rate": 0.00042648149237921497,
      "loss": 2.8652,
      "step": 227000
    },
    {
      "epoch": 12.26,
      "grad_norm": 0.25181886553764343,
      "learning_rate": 0.00042353910433708,
      "loss": 2.8707,
      "step": 228000
    },
    {
      "epoch": 12.32,
      "grad_norm": 0.27354782819747925,
      "learning_rate": 0.000420596716294945,
      "loss": 2.8732,
      "step": 229000
    },
    {
      "epoch": 12.37,
      "grad_norm": 0.26317164301872253,
      "learning_rate": 0.0004176572706408521,
      "loss": 2.8761,
      "step": 230000
    },
    {
      "epoch": 12.42,
      "grad_norm": 0.282073050737381,
      "learning_rate": 0.00041471488259871715,
      "loss": 2.8795,
      "step": 231000
    },
    {
      "epoch": 12.48,
      "grad_norm": 0.26673638820648193,
      "learning_rate": 0.0004117754369446243,
      "loss": 2.878,
      "step": 232000
    },
    {
      "epoch": 12.53,
      "grad_norm": 0.26395583152770996,
      "learning_rate": 0.0004088330489024893,
      "loss": 2.8864,
      "step": 233000
    },
    {
      "epoch": 12.59,
      "grad_norm": 0.2504903972148895,
      "learning_rate": 0.00040589066086035424,
      "loss": 2.8825,
      "step": 234000
    },
    {
      "epoch": 12.64,
      "grad_norm": 0.2693316340446472,
      "learning_rate": 0.0004029512152062614,
      "loss": 2.8862,
      "step": 235000
    },
    {
      "epoch": 12.69,
      "grad_norm": 0.2795375883579254,
      "learning_rate": 0.0004000088271641264,
      "loss": 2.8892,
      "step": 236000
    },
    {
      "epoch": 12.75,
      "grad_norm": 0.2554890811443329,
      "learning_rate": 0.0003970693815100336,
      "loss": 2.887,
      "step": 237000
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.2727624475955963,
      "learning_rate": 0.00039412699346789856,
      "loss": 2.8867,
      "step": 238000
    },
    {
      "epoch": 12.85,
      "grad_norm": 0.23171763122081757,
      "learning_rate": 0.0003911875478138057,
      "loss": 2.8902,
      "step": 239000
    },
    {
      "epoch": 12.91,
      "grad_norm": 0.267898291349411,
      "learning_rate": 0.0003882451597716707,
      "loss": 2.8933,
      "step": 240000
    },
    {
      "epoch": 12.96,
      "grad_norm": 0.24343810975551605,
      "learning_rate": 0.0003853027717295357,
      "loss": 2.8914,
      "step": 241000
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.41390168819112705,
      "eval_loss": 3.3448071479797363,
      "eval_runtime": 154.8209,
      "eval_samples_per_second": 374.097,
      "eval_steps_per_second": 5.845,
      "step": 241709
    },
    {
      "epoch": 13.02,
      "grad_norm": 0.28259170055389404,
      "learning_rate": 0.00038236332607544284,
      "loss": 2.8746,
      "step": 242000
    },
    {
      "epoch": 13.07,
      "grad_norm": 0.2891630530357361,
      "learning_rate": 0.00037942093803330787,
      "loss": 2.8353,
      "step": 243000
    },
    {
      "epoch": 13.12,
      "grad_norm": 0.2557585835456848,
      "learning_rate": 0.000376481492379215,
      "loss": 2.8381,
      "step": 244000
    },
    {
      "epoch": 13.18,
      "grad_norm": 0.2668263018131256,
      "learning_rate": 0.00037353910433708,
      "loss": 2.8467,
      "step": 245000
    },
    {
      "epoch": 13.23,
      "grad_norm": 0.2884666919708252,
      "learning_rate": 0.0003705996586829871,
      "loss": 2.8461,
      "step": 246000
    },
    {
      "epoch": 13.28,
      "grad_norm": 0.2707601487636566,
      "learning_rate": 0.00036765727064085214,
      "loss": 2.8541,
      "step": 247000
    },
    {
      "epoch": 13.34,
      "grad_norm": 0.28444987535476685,
      "learning_rate": 0.00036471782498675927,
      "loss": 2.856,
      "step": 248000
    },
    {
      "epoch": 13.39,
      "grad_norm": 0.279291570186615,
      "learning_rate": 0.0003617754369446243,
      "loss": 2.857,
      "step": 249000
    },
    {
      "epoch": 13.45,
      "grad_norm": 0.26351043581962585,
      "learning_rate": 0.00035883304890248923,
      "loss": 2.8572,
      "step": 250000
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.2742626965045929,
      "learning_rate": 0.00035589066086035427,
      "loss": 2.8608,
      "step": 251000
    },
    {
      "epoch": 13.55,
      "grad_norm": 0.2538454532623291,
      "learning_rate": 0.0003529512152062614,
      "loss": 2.8621,
      "step": 252000
    },
    {
      "epoch": 13.61,
      "grad_norm": 0.2646264433860779,
      "learning_rate": 0.00035000882716412643,
      "loss": 2.8661,
      "step": 253000
    },
    {
      "epoch": 13.66,
      "grad_norm": 0.2787437438964844,
      "learning_rate": 0.0003470664391219914,
      "loss": 2.8674,
      "step": 254000
    },
    {
      "epoch": 13.71,
      "grad_norm": 0.2481764405965805,
      "learning_rate": 0.00034412699346789854,
      "loss": 2.8662,
      "step": 255000
    },
    {
      "epoch": 13.77,
      "grad_norm": 0.26535162329673767,
      "learning_rate": 0.0003411846054257636,
      "loss": 2.8681,
      "step": 256000
    },
    {
      "epoch": 13.82,
      "grad_norm": 0.25756606459617615,
      "learning_rate": 0.0003382451597716707,
      "loss": 2.8723,
      "step": 257000
    },
    {
      "epoch": 13.88,
      "grad_norm": 0.2464747577905655,
      "learning_rate": 0.00033530277172953574,
      "loss": 2.8691,
      "step": 258000
    },
    {
      "epoch": 13.93,
      "grad_norm": 0.24994932115077972,
      "learning_rate": 0.00033236038368740067,
      "loss": 2.8691,
      "step": 259000
    },
    {
      "epoch": 13.98,
      "grad_norm": 0.2967372238636017,
      "learning_rate": 0.00032942093803330785,
      "loss": 2.8744,
      "step": 260000
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.41300574823146585,
      "eval_loss": 3.347288131713867,
      "eval_runtime": 154.6571,
      "eval_samples_per_second": 374.493,
      "eval_steps_per_second": 5.852,
      "step": 260302
    },
    {
      "epoch": 14.04,
      "grad_norm": 0.27246642112731934,
      "learning_rate": 0.000326481492379215,
      "loss": 2.832,
      "step": 261000
    },
    {
      "epoch": 14.09,
      "grad_norm": 0.28543972969055176,
      "learning_rate": 0.00032353910433708,
      "loss": 2.8198,
      "step": 262000
    },
    {
      "epoch": 14.15,
      "grad_norm": 0.27782052755355835,
      "learning_rate": 0.000320596716294945,
      "loss": 2.8291,
      "step": 263000
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.26279476284980774,
      "learning_rate": 0.00031765432825281,
      "loss": 2.8311,
      "step": 264000
    },
    {
      "epoch": 14.25,
      "grad_norm": 0.2705569565296173,
      "learning_rate": 0.000314711940210675,
      "loss": 2.8313,
      "step": 265000
    },
    {
      "epoch": 14.31,
      "grad_norm": 0.2571966350078583,
      "learning_rate": 0.00031176955216854,
      "loss": 2.833,
      "step": 266000
    },
    {
      "epoch": 14.36,
      "grad_norm": 0.2746477723121643,
      "learning_rate": 0.0003088301065144472,
      "loss": 2.8325,
      "step": 267000
    },
    {
      "epoch": 14.41,
      "grad_norm": 0.2623528242111206,
      "learning_rate": 0.0003058877184723121,
      "loss": 2.8382,
      "step": 268000
    },
    {
      "epoch": 14.47,
      "grad_norm": 0.27472519874572754,
      "learning_rate": 0.0003029482728182193,
      "loss": 2.8392,
      "step": 269000
    },
    {
      "epoch": 14.52,
      "grad_norm": 0.2549327611923218,
      "learning_rate": 0.0003000088271641264,
      "loss": 2.8451,
      "step": 270000
    },
    {
      "epoch": 14.58,
      "grad_norm": 0.2688373327255249,
      "learning_rate": 0.00029706643912199145,
      "loss": 2.8461,
      "step": 271000
    },
    {
      "epoch": 14.63,
      "grad_norm": 0.27812880277633667,
      "learning_rate": 0.00029412405107985643,
      "loss": 2.8452,
      "step": 272000
    },
    {
      "epoch": 14.68,
      "grad_norm": 0.26750364899635315,
      "learning_rate": 0.0002911846054257636,
      "loss": 2.8483,
      "step": 273000
    },
    {
      "epoch": 14.74,
      "grad_norm": 0.2893409729003906,
      "learning_rate": 0.00028824221738362854,
      "loss": 2.8509,
      "step": 274000
    },
    {
      "epoch": 14.79,
      "grad_norm": 0.2636180818080902,
      "learning_rate": 0.00028529982934149357,
      "loss": 2.8457,
      "step": 275000
    },
    {
      "epoch": 14.84,
      "grad_norm": 0.2692042291164398,
      "learning_rate": 0.0002823603836874007,
      "loss": 2.8514,
      "step": 276000
    },
    {
      "epoch": 14.9,
      "grad_norm": 0.26541298627853394,
      "learning_rate": 0.00027941799564526574,
      "loss": 2.8502,
      "step": 277000
    },
    {
      "epoch": 14.95,
      "grad_norm": 0.26864826679229736,
      "learning_rate": 0.0002764756076031307,
      "loss": 2.8505,
      "step": 278000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.41349100425490865,
      "eval_loss": 3.355186939239502,
      "eval_runtime": 154.9324,
      "eval_samples_per_second": 373.827,
      "eval_steps_per_second": 5.841,
      "step": 278895
    },
    {
      "epoch": 15.01,
      "grad_norm": 0.300113707780838,
      "learning_rate": 0.0002735332195609957,
      "loss": 2.8462,
      "step": 279000
    },
    {
      "epoch": 15.06,
      "grad_norm": 0.2711370587348938,
      "learning_rate": 0.00027059083151886073,
      "loss": 2.7995,
      "step": 280000
    },
    {
      "epoch": 15.11,
      "grad_norm": 0.27073654532432556,
      "learning_rate": 0.00026765138586476786,
      "loss": 2.8073,
      "step": 281000
    },
    {
      "epoch": 15.17,
      "grad_norm": 0.26877540349960327,
      "learning_rate": 0.00026470899782263284,
      "loss": 2.8066,
      "step": 282000
    },
    {
      "epoch": 15.22,
      "grad_norm": 0.2738332450389862,
      "learning_rate": 0.0002617666097804979,
      "loss": 2.8139,
      "step": 283000
    },
    {
      "epoch": 15.27,
      "grad_norm": 0.267721563577652,
      "learning_rate": 0.000258827164126405,
      "loss": 2.815,
      "step": 284000
    },
    {
      "epoch": 15.33,
      "grad_norm": 0.2721811532974243,
      "learning_rate": 0.00025588477608427004,
      "loss": 2.8212,
      "step": 285000
    },
    {
      "epoch": 15.38,
      "grad_norm": 0.2772006690502167,
      "learning_rate": 0.00025294238804213497,
      "loss": 2.8223,
      "step": 286000
    },
    {
      "epoch": 15.44,
      "grad_norm": 0.2847917973995209,
      "learning_rate": 0.00025,
      "loss": 2.8209,
      "step": 287000
    },
    {
      "epoch": 15.49,
      "grad_norm": 0.2789832055568695,
      "learning_rate": 0.00024706055434590713,
      "loss": 2.8265,
      "step": 288000
    },
    {
      "epoch": 15.54,
      "grad_norm": 0.3025285303592682,
      "learning_rate": 0.00024411816630377214,
      "loss": 2.8271,
      "step": 289000
    },
    {
      "epoch": 15.6,
      "grad_norm": 0.3192894458770752,
      "learning_rate": 0.00024117872064967927,
      "loss": 2.8262,
      "step": 290000
    },
    {
      "epoch": 15.65,
      "grad_norm": 0.266355961561203,
      "learning_rate": 0.0002382363326075443,
      "loss": 2.8231,
      "step": 291000
    },
    {
      "epoch": 15.7,
      "grad_norm": 0.29449743032455444,
      "learning_rate": 0.0002352968869534514,
      "loss": 2.8292,
      "step": 292000
    },
    {
      "epoch": 15.76,
      "grad_norm": 0.31087446212768555,
      "learning_rate": 0.00023235449891131644,
      "loss": 2.8266,
      "step": 293000
    },
    {
      "epoch": 15.81,
      "grad_norm": 0.2474478930234909,
      "learning_rate": 0.00022941211086918142,
      "loss": 2.8291,
      "step": 294000
    },
    {
      "epoch": 15.87,
      "grad_norm": 0.29096895456314087,
      "learning_rate": 0.00022647266521508858,
      "loss": 2.8311,
      "step": 295000
    },
    {
      "epoch": 15.92,
      "grad_norm": 0.31605252623558044,
      "learning_rate": 0.00022353027717295358,
      "loss": 2.8336,
      "step": 296000
    },
    {
      "epoch": 15.97,
      "grad_norm": 0.2702459692955017,
      "learning_rate": 0.00022058788913081857,
      "loss": 2.8346,
      "step": 297000
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.4134515012032979,
      "eval_loss": 3.3626303672790527,
      "eval_runtime": 154.1935,
      "eval_samples_per_second": 375.619,
      "eval_steps_per_second": 5.869,
      "step": 297488
    },
    {
      "epoch": 16.03,
      "grad_norm": 0.279230535030365,
      "learning_rate": 0.00021764844347672572,
      "loss": 2.8088,
      "step": 298000
    },
    {
      "epoch": 16.08,
      "grad_norm": 0.2994919717311859,
      "learning_rate": 0.0002147060554345907,
      "loss": 2.7885,
      "step": 299000
    },
    {
      "epoch": 16.14,
      "grad_norm": 0.272666335105896,
      "learning_rate": 0.00021176660978049786,
      "loss": 2.792,
      "step": 300000
    },
    {
      "epoch": 16.19,
      "grad_norm": 0.25281834602355957,
      "learning_rate": 0.00020882716412640498,
      "loss": 2.7948,
      "step": 301000
    },
    {
      "epoch": 16.24,
      "grad_norm": 0.3037826418876648,
      "learning_rate": 0.00020588477608427,
      "loss": 2.7963,
      "step": 302000
    },
    {
      "epoch": 16.3,
      "grad_norm": 0.26912906765937805,
      "learning_rate": 0.00020294533043017712,
      "loss": 2.7996,
      "step": 303000
    },
    {
      "epoch": 16.35,
      "grad_norm": 0.28024283051490784,
      "learning_rate": 0.00020000294238804216,
      "loss": 2.804,
      "step": 304000
    },
    {
      "epoch": 16.4,
      "grad_norm": 0.29872554540634155,
      "learning_rate": 0.00019706055434590714,
      "loss": 2.8018,
      "step": 305000
    },
    {
      "epoch": 16.46,
      "grad_norm": 0.2802595794200897,
      "learning_rate": 0.0001941211086918143,
      "loss": 2.8042,
      "step": 306000
    },
    {
      "epoch": 16.51,
      "grad_norm": 0.2984708547592163,
      "learning_rate": 0.00019117872064967927,
      "loss": 2.8072,
      "step": 307000
    },
    {
      "epoch": 16.57,
      "grad_norm": 0.2819213271141052,
      "learning_rate": 0.00018823633260754428,
      "loss": 2.8056,
      "step": 308000
    },
    {
      "epoch": 16.62,
      "grad_norm": 0.2959015369415283,
      "learning_rate": 0.0001852939445654093,
      "loss": 2.8093,
      "step": 309000
    },
    {
      "epoch": 16.67,
      "grad_norm": 0.32288116216659546,
      "learning_rate": 0.0001823515565232743,
      "loss": 2.8105,
      "step": 310000
    },
    {
      "epoch": 16.73,
      "grad_norm": 0.28436875343322754,
      "learning_rate": 0.0001794091684811393,
      "loss": 2.8103,
      "step": 311000
    },
    {
      "epoch": 16.78,
      "grad_norm": 0.2971264123916626,
      "learning_rate": 0.00017646972282704643,
      "loss": 2.8112,
      "step": 312000
    },
    {
      "epoch": 16.83,
      "grad_norm": 0.2841607630252838,
      "learning_rate": 0.0001735302771729536,
      "loss": 2.8134,
      "step": 313000
    },
    {
      "epoch": 16.89,
      "grad_norm": 0.30298343300819397,
      "learning_rate": 0.00017058788913081857,
      "loss": 2.8138,
      "step": 314000
    },
    {
      "epoch": 16.94,
      "grad_norm": 0.3319740891456604,
      "learning_rate": 0.00016764550108868358,
      "loss": 2.8166,
      "step": 315000
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.2685829699039459,
      "learning_rate": 0.0001647031130465486,
      "loss": 2.8113,
      "step": 316000
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.4128244238500077,
      "eval_loss": 3.373412609100342,
      "eval_runtime": 154.0178,
      "eval_samples_per_second": 376.047,
      "eval_steps_per_second": 5.876,
      "step": 316081
    },
    {
      "epoch": 17.05,
      "grad_norm": 0.2806856632232666,
      "learning_rate": 0.00016176366739245572,
      "loss": 2.7768,
      "step": 317000
    },
    {
      "epoch": 17.1,
      "grad_norm": 0.29051268100738525,
      "learning_rate": 0.00015882127935032072,
      "loss": 2.7803,
      "step": 318000
    },
    {
      "epoch": 17.16,
      "grad_norm": 0.24986517429351807,
      "learning_rate": 0.00015587889130818573,
      "loss": 2.7805,
      "step": 319000
    },
    {
      "epoch": 17.21,
      "grad_norm": 0.31808218359947205,
      "learning_rate": 0.00015293650326605074,
      "loss": 2.7797,
      "step": 320000
    },
    {
      "epoch": 17.26,
      "grad_norm": 0.30179545283317566,
      "learning_rate": 0.00014999411522391572,
      "loss": 2.7833,
      "step": 321000
    },
    {
      "epoch": 17.32,
      "grad_norm": 0.2718439996242523,
      "learning_rate": 0.00014705466956982285,
      "loss": 2.7856,
      "step": 322000
    },
    {
      "epoch": 17.37,
      "grad_norm": 0.27165907621383667,
      "learning_rate": 0.00014411228152768789,
      "loss": 2.7875,
      "step": 323000
    },
    {
      "epoch": 17.43,
      "grad_norm": 0.29120558500289917,
      "learning_rate": 0.00014116989348555287,
      "loss": 2.7872,
      "step": 324000
    },
    {
      "epoch": 17.48,
      "grad_norm": 0.3389894664287567,
      "learning_rate": 0.00013823339021950214,
      "loss": 2.7894,
      "step": 325000
    },
    {
      "epoch": 17.53,
      "grad_norm": 0.2816118001937866,
      "learning_rate": 0.00013529100217736715,
      "loss": 2.7848,
      "step": 326000
    },
    {
      "epoch": 17.59,
      "grad_norm": 0.2810894250869751,
      "learning_rate": 0.00013234861413523216,
      "loss": 2.79,
      "step": 327000
    },
    {
      "epoch": 17.64,
      "grad_norm": 0.2832818329334259,
      "learning_rate": 0.00012940622609309717,
      "loss": 2.7917,
      "step": 328000
    },
    {
      "epoch": 17.69,
      "grad_norm": 0.3005315959453583,
      "learning_rate": 0.00012646678043900432,
      "loss": 2.7915,
      "step": 329000
    },
    {
      "epoch": 17.75,
      "grad_norm": 0.36783453822135925,
      "learning_rate": 0.0001235243923968693,
      "loss": 2.7942,
      "step": 330000
    },
    {
      "epoch": 17.8,
      "grad_norm": 0.2816983759403229,
      "learning_rate": 0.00012058200435473431,
      "loss": 2.7953,
      "step": 331000
    },
    {
      "epoch": 17.86,
      "grad_norm": 0.2820190489292145,
      "learning_rate": 0.00011764255870064144,
      "loss": 2.7951,
      "step": 332000
    },
    {
      "epoch": 17.91,
      "grad_norm": 0.28254348039627075,
      "learning_rate": 0.00011470017065850645,
      "loss": 2.7929,
      "step": 333000
    },
    {
      "epoch": 17.96,
      "grad_norm": 0.2881273925304413,
      "learning_rate": 0.00011175778261637146,
      "loss": 2.7967,
      "step": 334000
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.41321723735811655,
      "eval_loss": 3.372004747390747,
      "eval_runtime": 156.2681,
      "eval_samples_per_second": 370.632,
      "eval_steps_per_second": 5.791,
      "step": 334674
    },
    {
      "epoch": 18.02,
      "grad_norm": 0.32569971680641174,
      "learning_rate": 0.00010881539457423645,
      "loss": 2.7826,
      "step": 335000
    },
    {
      "epoch": 18.07,
      "grad_norm": 0.2817680537700653,
      "learning_rate": 0.00010587889130818574,
      "loss": 2.7643,
      "step": 336000
    },
    {
      "epoch": 18.13,
      "grad_norm": 0.286174476146698,
      "learning_rate": 0.00010293650326605072,
      "loss": 2.7679,
      "step": 337000
    },
    {
      "epoch": 18.18,
      "grad_norm": 0.2984076738357544,
      "learning_rate": 9.999705761195786e-05,
      "loss": 2.7659,
      "step": 338000
    },
    {
      "epoch": 18.23,
      "grad_norm": 0.28926950693130493,
      "learning_rate": 9.705466956982287e-05,
      "loss": 2.7671,
      "step": 339000
    },
    {
      "epoch": 18.29,
      "grad_norm": 0.30765944719314575,
      "learning_rate": 9.411522391573001e-05,
      "loss": 2.7688,
      "step": 340000
    },
    {
      "epoch": 18.34,
      "grad_norm": 0.29662463068962097,
      "learning_rate": 9.117283587359502e-05,
      "loss": 2.7706,
      "step": 341000
    },
    {
      "epoch": 18.39,
      "grad_norm": 0.30905914306640625,
      "learning_rate": 8.823339021950214e-05,
      "loss": 2.7711,
      "step": 342000
    },
    {
      "epoch": 18.45,
      "grad_norm": 0.31136560440063477,
      "learning_rate": 8.529394456540929e-05,
      "loss": 2.7736,
      "step": 343000
    },
    {
      "epoch": 18.5,
      "grad_norm": 0.2981349527835846,
      "learning_rate": 8.23515565232743e-05,
      "loss": 2.7751,
      "step": 344000
    },
    {
      "epoch": 18.56,
      "grad_norm": 0.27946677803993225,
      "learning_rate": 7.94091684811393e-05,
      "loss": 2.7693,
      "step": 345000
    },
    {
      "epoch": 18.61,
      "grad_norm": 0.2690936028957367,
      "learning_rate": 7.646678043900428e-05,
      "loss": 2.771,
      "step": 346000
    },
    {
      "epoch": 18.66,
      "grad_norm": 0.3094717860221863,
      "learning_rate": 7.352733478491143e-05,
      "loss": 2.7736,
      "step": 347000
    },
    {
      "epoch": 18.72,
      "grad_norm": 0.30405235290527344,
      "learning_rate": 7.058494674277643e-05,
      "loss": 2.7751,
      "step": 348000
    },
    {
      "epoch": 18.77,
      "grad_norm": 0.2856433093547821,
      "learning_rate": 6.764255870064144e-05,
      "loss": 2.7788,
      "step": 349000
    },
    {
      "epoch": 18.82,
      "grad_norm": 0.2982241213321686,
      "learning_rate": 6.470605543459072e-05,
      "loss": 2.7789,
      "step": 350000
    },
    {
      "epoch": 18.88,
      "grad_norm": 0.2777280807495117,
      "learning_rate": 6.176366739245571e-05,
      "loss": 2.7753,
      "step": 351000
    },
    {
      "epoch": 18.93,
      "grad_norm": 0.2767978012561798,
      "learning_rate": 5.882127935032072e-05,
      "loss": 2.7802,
      "step": 352000
    },
    {
      "epoch": 18.99,
      "grad_norm": 0.28310200572013855,
      "learning_rate": 5.587889130818573e-05,
      "loss": 2.7775,
      "step": 353000
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.41323309232440925,
      "eval_loss": 3.3847789764404297,
      "eval_runtime": 155.587,
      "eval_samples_per_second": 372.255,
      "eval_steps_per_second": 5.817,
      "step": 353267
    },
    {
      "epoch": 19.04,
      "grad_norm": 0.2833561897277832,
      "learning_rate": 5.293650326605073e-05,
      "loss": 2.7636,
      "step": 354000
    },
    {
      "epoch": 19.09,
      "grad_norm": 0.2780832052230835,
      "learning_rate": 4.9997057611957864e-05,
      "loss": 2.7551,
      "step": 355000
    },
    {
      "epoch": 19.15,
      "grad_norm": 0.29931026697158813,
      "learning_rate": 4.7057611957865004e-05,
      "loss": 2.758,
      "step": 356000
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.324330598115921,
      "learning_rate": 4.4115223915730006e-05,
      "loss": 2.7598,
      "step": 357000
    },
    {
      "epoch": 19.25,
      "grad_norm": 0.2759532332420349,
      "learning_rate": 4.117577826163715e-05,
      "loss": 2.756,
      "step": 358000
    },
    {
      "epoch": 19.31,
      "grad_norm": 0.32273638248443604,
      "learning_rate": 3.823339021950214e-05,
      "loss": 2.7586,
      "step": 359000
    },
    {
      "epoch": 19.36,
      "grad_norm": 0.291922003030777,
      "learning_rate": 3.529100217736715e-05,
      "loss": 2.7574,
      "step": 360000
    },
    {
      "epoch": 19.42,
      "grad_norm": 0.31032082438468933,
      "learning_rate": 3.234861413523216e-05,
      "loss": 2.7566,
      "step": 361000
    },
    {
      "epoch": 19.47,
      "grad_norm": 0.30796414613723755,
      "learning_rate": 2.940916848113929e-05,
      "loss": 2.7592,
      "step": 362000
    },
    {
      "epoch": 19.52,
      "grad_norm": 0.3091883063316345,
      "learning_rate": 2.6469722827046434e-05,
      "loss": 2.7581,
      "step": 363000
    },
    {
      "epoch": 19.58,
      "grad_norm": 0.28463998436927795,
      "learning_rate": 2.3527334784911436e-05,
      "loss": 2.7596,
      "step": 364000
    },
    {
      "epoch": 19.63,
      "grad_norm": 0.2810904383659363,
      "learning_rate": 2.0584946742776438e-05,
      "loss": 2.7591,
      "step": 365000
    },
    {
      "epoch": 19.68,
      "grad_norm": 0.29315516352653503,
      "learning_rate": 1.764255870064144e-05,
      "loss": 2.7593,
      "step": 366000
    },
    {
      "epoch": 19.74,
      "grad_norm": 0.2825530767440796,
      "learning_rate": 1.470311304654858e-05,
      "loss": 2.7588,
      "step": 367000
    },
    {
      "epoch": 19.79,
      "grad_norm": 0.2952137291431427,
      "learning_rate": 1.1760725004413583e-05,
      "loss": 2.7609,
      "step": 368000
    },
    {
      "epoch": 19.85,
      "grad_norm": 0.27451884746551514,
      "learning_rate": 8.82127935032072e-06,
      "loss": 2.7575,
      "step": 369000
    },
    {
      "epoch": 19.9,
      "grad_norm": 0.2963246703147888,
      "learning_rate": 5.878891308185724e-06,
      "loss": 2.758,
      "step": 370000
    },
    {
      "epoch": 19.95,
      "grad_norm": 0.2996101379394531,
      "learning_rate": 2.9365032660507266e-06,
      "loss": 2.7551,
      "step": 371000
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.41341864917568283,
      "eval_loss": 3.388533353805542,
      "eval_runtime": 154.6626,
      "eval_samples_per_second": 374.48,
      "eval_steps_per_second": 5.851,
      "step": 371860
    },
    {
      "epoch": 20.0,
      "step": 371860,
      "total_flos": 1.5667414205184e+18,
      "train_loss": 3.0275218559236,
      "train_runtime": 81427.5193,
      "train_samples_per_second": 146.134,
      "train_steps_per_second": 4.567
    }
  ],
  "logging_steps": 1000,
  "max_steps": 371860,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 5000,
  "total_flos": 1.5667414205184e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}