{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 28.5,
  "global_step": 2786844,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1,
      "learning_rate": 0.020000000000000004,
      "loss": 5.3687,
      "step": 10000
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.04000000000000001,
      "loss": 4.0531,
      "step": 20000
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.04993567245443037,
      "loss": 3.8149,
      "step": 30000
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0498070173632911,
      "loss": 3.6549,
      "step": 40000
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.04967836227215183,
      "loss": 3.5544,
      "step": 50000
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.049549707181012564,
      "loss": 3.4935,
      "step": 60000
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0494210520898733,
      "loss": 3.447,
      "step": 70000
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.049292396998734035,
      "loss": 3.4134,
      "step": 80000
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.04916374190759477,
      "loss": 3.3861,
      "step": 90000
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.049035086816455506,
      "loss": 3.3523,
      "step": 100000
    },
    {
      "epoch": 1.12,
      "learning_rate": 0.04890643172531624,
      "loss": 3.3063,
      "step": 110000
    },
    {
      "epoch": 1.23,
      "learning_rate": 0.04877777663417697,
      "loss": 3.2983,
      "step": 120000
    },
    {
      "epoch": 1.33,
      "learning_rate": 0.0486491215430377,
      "loss": 3.2874,
      "step": 130000
    },
    {
      "epoch": 1.43,
      "learning_rate": 0.04852046645189844,
      "loss": 3.2785,
      "step": 140000
    },
    {
      "epoch": 1.53,
      "learning_rate": 0.04839181136075917,
      "loss": 3.2698,
      "step": 150000
    },
    {
      "epoch": 1.64,
      "learning_rate": 0.048263156269619904,
      "loss": 3.2599,
      "step": 160000
    },
    {
      "epoch": 1.74,
      "learning_rate": 0.04813450117848064,
      "loss": 3.2503,
      "step": 170000
    },
    {
      "epoch": 1.84,
      "learning_rate": 0.048005846087341375,
      "loss": 3.2432,
      "step": 180000
    },
    {
      "epoch": 1.94,
      "learning_rate": 0.04787719099620211,
      "loss": 3.2347,
      "step": 190000
    },
    {
      "epoch": 2.05,
      "learning_rate": 0.04774853590506284,
      "loss": 3.1812,
      "step": 200000
    },
    {
      "epoch": 2.15,
      "learning_rate": 0.04761988081392357,
      "loss": 3.1865,
      "step": 210000
    },
    {
      "epoch": 2.25,
      "learning_rate": 0.0474912257227843,
      "loss": 3.1873,
      "step": 220000
    },
    {
      "epoch": 2.35,
      "learning_rate": 0.047362570631645035,
      "loss": 3.1842,
      "step": 230000
    },
    {
      "epoch": 2.45,
      "learning_rate": 0.047233915540505766,
      "loss": 3.1824,
      "step": 240000
    },
    {
      "epoch": 2.56,
      "learning_rate": 0.047105260449366505,
      "loss": 3.1806,
      "step": 250000
    },
    {
      "epoch": 2.66,
      "learning_rate": 0.04697660535822724,
      "loss": 3.177,
      "step": 260000
    },
    {
      "epoch": 2.76,
      "learning_rate": 0.04684795026708797,
      "loss": 3.1741,
      "step": 270000
    },
    {
      "epoch": 2.86,
      "learning_rate": 0.04671929517594871,
      "loss": 3.1709,
      "step": 280000
    },
    {
      "epoch": 2.97,
      "learning_rate": 0.04659064008480944,
      "loss": 3.1682,
      "step": 290000
    },
    {
      "epoch": 3.07,
      "learning_rate": 0.04646198499367017,
      "loss": 3.1382,
      "step": 300000
    },
    {
      "epoch": 3.17,
      "learning_rate": 0.046333329902530904,
      "loss": 3.1283,
      "step": 310000
    },
    {
      "epoch": 3.27,
      "learning_rate": 0.04620467481139164,
      "loss": 3.1318,
      "step": 320000
    },
    {
      "epoch": 3.37,
      "learning_rate": 0.046076019720252374,
      "loss": 3.1319,
      "step": 330000
    },
    {
      "epoch": 3.48,
      "learning_rate": 0.045947364629113106,
      "loss": 3.1335,
      "step": 340000
    },
    {
      "epoch": 3.58,
      "learning_rate": 0.04581870953797384,
      "loss": 3.1326,
      "step": 350000
    },
    {
      "epoch": 3.68,
      "learning_rate": 0.04569005444683458,
      "loss": 3.1306,
      "step": 360000
    },
    {
      "epoch": 3.78,
      "learning_rate": 0.04556139935569531,
      "loss": 3.1289,
      "step": 370000
    },
    {
      "epoch": 3.89,
      "learning_rate": 0.04543274426455604,
      "loss": 3.1275,
      "step": 380000
    },
    {
      "epoch": 3.99,
      "learning_rate": 0.04530408917341677,
      "loss": 3.1259,
      "step": 390000
    },
    {
      "epoch": 4.09,
      "learning_rate": 0.045175434082277505,
      "loss": 3.0882,
      "step": 400000
    },
    {
      "epoch": 4.19,
      "learning_rate": 0.04504677899113824,
      "loss": 3.094,
      "step": 410000
    },
    {
      "epoch": 4.3,
      "learning_rate": 0.04491812389999897,
      "loss": 3.0958,
      "step": 420000
    },
    {
      "epoch": 4.4,
      "learning_rate": 0.04478946880885971,
      "loss": 3.0976,
      "step": 430000
    },
    {
      "epoch": 4.5,
      "learning_rate": 0.04466081371772044,
      "loss": 3.0996,
      "step": 440000
    },
    {
      "epoch": 4.6,
      "learning_rate": 0.04453215862658117,
      "loss": 3.099,
      "step": 450000
    },
    {
      "epoch": 4.7,
      "learning_rate": 0.04440350353544191,
      "loss": 3.1,
      "step": 460000
    },
    {
      "epoch": 4.81,
      "learning_rate": 0.04427484844430264,
      "loss": 3.0993,
      "step": 470000
    },
    {
      "epoch": 4.91,
      "learning_rate": 0.044146193353163374,
      "loss": 3.0985,
      "step": 480000
    },
    {
      "epoch": 5.01,
      "learning_rate": 0.044017538262024106,
      "loss": 3.094,
      "step": 490000
    },
    {
      "epoch": 5.11,
      "learning_rate": 0.043888883170884845,
      "loss": 3.0646,
      "step": 500000
    },
    {
      "epoch": 5.22,
      "learning_rate": 0.043760228079745576,
      "loss": 3.0694,
      "step": 510000
    },
    {
      "epoch": 5.32,
      "learning_rate": 0.04363157298860631,
      "loss": 3.0712,
      "step": 520000
    },
    {
      "epoch": 5.42,
      "learning_rate": 0.04350291789746704,
      "loss": 3.0736,
      "step": 530000
    },
    {
      "epoch": 5.52,
      "learning_rate": 0.04337426280632778,
      "loss": 3.0752,
      "step": 540000
    },
    {
      "epoch": 5.62,
      "learning_rate": 0.04324560771518851,
      "loss": 3.0759,
      "step": 550000
    },
    {
      "epoch": 5.73,
      "learning_rate": 0.04311695262404924,
      "loss": 3.0762,
      "step": 560000
    },
    {
      "epoch": 5.83,
      "learning_rate": 0.042988297532909975,
      "loss": 3.0756,
      "step": 570000
    },
    {
      "epoch": 5.93,
      "learning_rate": 0.04285964244177071,
      "loss": 3.076,
      "step": 580000
    },
    {
      "epoch": 6.03,
      "learning_rate": 0.04273098735063144,
      "loss": 3.0412,
      "step": 590000
    },
    {
      "epoch": 6.14,
      "learning_rate": 0.04260233225949217,
      "loss": 3.0464,
      "step": 600000
    },
    {
      "epoch": 6.24,
      "learning_rate": 0.04247367716835291,
      "loss": 3.05,
      "step": 610000
    },
    {
      "epoch": 6.34,
      "learning_rate": 0.04234502207721364,
      "loss": 3.0539,
      "step": 620000
    },
    {
      "epoch": 6.44,
      "learning_rate": 0.04221636698607437,
      "loss": 3.0554,
      "step": 630000
    },
    {
      "epoch": 6.55,
      "learning_rate": 0.042087711894935105,
      "loss": 3.0558,
      "step": 640000
    },
    {
      "epoch": 6.65,
      "learning_rate": 0.041959056803795844,
      "loss": 3.057,
      "step": 650000
    },
    {
      "epoch": 6.75,
      "learning_rate": 0.041830401712656576,
      "loss": 3.0584,
      "step": 660000
    },
    {
      "epoch": 6.85,
      "learning_rate": 0.04170174662151731,
      "loss": 3.0585,
      "step": 670000
    },
    {
      "epoch": 6.95,
      "learning_rate": 0.04157309153037805,
      "loss": 3.0593,
      "step": 680000
    },
    {
      "epoch": 7.06,
      "learning_rate": 0.04144443643923878,
      "loss": 3.0408,
      "step": 690000
    },
    {
      "epoch": 7.16,
      "learning_rate": 0.04131578134809951,
      "loss": 3.0325,
      "step": 700000
    },
    {
      "epoch": 7.26,
      "learning_rate": 0.04118712625696024,
      "loss": 3.035,
      "step": 710000
    },
    {
      "epoch": 7.36,
      "learning_rate": 0.04105847116582098,
      "loss": 3.0373,
      "step": 720000
    },
    {
      "epoch": 7.47,
      "learning_rate": 0.04092981607468171,
      "loss": 3.0405,
      "step": 730000
    },
    {
      "epoch": 7.57,
      "learning_rate": 0.040801160983542445,
      "loss": 3.0403,
      "step": 740000
    },
    {
      "epoch": 7.67,
      "learning_rate": 0.04067250589240318,
      "loss": 3.0431,
      "step": 750000
    },
    {
      "epoch": 7.77,
      "learning_rate": 0.04054385080126391,
      "loss": 3.0444,
      "step": 760000
    },
    {
      "epoch": 7.87,
      "learning_rate": 0.04041519571012464,
      "loss": 3.0445,
      "step": 770000
    },
    {
      "epoch": 7.98,
      "learning_rate": 0.04028654061898537,
      "loss": 3.0452,
      "step": 780000
    },
    {
      "epoch": 8.08,
      "learning_rate": 0.04015788552784611,
      "loss": 3.0217,
      "step": 790000
    },
    {
      "epoch": 8.18,
      "learning_rate": 0.04002923043670684,
      "loss": 3.02,
      "step": 800000
    },
    {
      "epoch": 8.28,
      "learning_rate": 0.039900575345567575,
      "loss": 3.0233,
      "step": 810000
    },
    {
      "epoch": 8.39,
      "learning_rate": 0.03977192025442831,
      "loss": 3.0259,
      "step": 820000
    },
    {
      "epoch": 8.49,
      "learning_rate": 0.039643265163289046,
      "loss": 3.0271,
      "step": 830000
    },
    {
      "epoch": 8.59,
      "learning_rate": 0.03951461007214978,
      "loss": 3.0121,
      "step": 840000
    },
    {
      "epoch": 8.69,
      "learning_rate": 0.03938595498101051,
      "loss": 3.0161,
      "step": 850000
    },
    {
      "epoch": 8.79,
      "learning_rate": 0.03925729988987125,
      "loss": 3.0195,
      "step": 860000
    },
    {
      "epoch": 8.9,
      "learning_rate": 0.03912864479873198,
      "loss": 3.021,
      "step": 870000
    },
    {
      "epoch": 9.0,
      "learning_rate": 0.03899998970759271,
      "loss": 3.0228,
      "step": 880000
    },
    {
      "epoch": 9.1,
      "learning_rate": 0.038871334616453444,
      "loss": 3.0073,
      "step": 890000
    },
    {
      "epoch": 9.2,
      "learning_rate": 0.03874267952531418,
      "loss": 3.0114,
      "step": 900000
    },
    {
      "epoch": 9.31,
      "learning_rate": 0.038614024434174915,
      "loss": 3.0151,
      "step": 910000
    },
    {
      "epoch": 9.41,
      "learning_rate": 0.03848536934303565,
      "loss": 3.0175,
      "step": 920000
    },
    {
      "epoch": 9.51,
      "learning_rate": 0.03835671425189638,
      "loss": 3.0193,
      "step": 930000
    },
    {
      "epoch": 9.61,
      "learning_rate": 0.03822805916075711,
      "loss": 3.0185,
      "step": 940000
    },
    {
      "epoch": 9.72,
      "learning_rate": 0.03809940406961784,
      "loss": 3.0228,
      "step": 950000
    },
    {
      "epoch": 9.82,
      "learning_rate": 0.037970748978478575,
      "loss": 3.0226,
      "step": 960000
    },
    {
      "epoch": 9.92,
      "learning_rate": 0.03784209388733931,
      "loss": 3.0227,
      "step": 970000
    },
    {
      "epoch": 10.02,
      "learning_rate": 0.037713438796200045,
      "loss": 3.017,
      "step": 980000
    },
    {
      "epoch": 10.12,
      "learning_rate": 0.03758478370506078,
      "loss": 2.9992,
      "step": 990000
    },
    {
      "epoch": 10.23,
      "learning_rate": 0.03745612861392151,
      "loss": 3.0007,
      "step": 1000000
    },
    {
      "epoch": 10.33,
      "learning_rate": 0.03732747352278225,
      "loss": 3.0047,
      "step": 1010000
    },
    {
      "epoch": 10.43,
      "learning_rate": 0.03719881843164298,
      "loss": 3.0075,
      "step": 1020000
    },
    {
      "epoch": 10.53,
      "learning_rate": 0.03707016334050371,
      "loss": 3.0095,
      "step": 1030000
    },
    {
      "epoch": 10.64,
      "learning_rate": 0.03694150824936445,
      "loss": 3.0101,
      "step": 1040000
    },
    {
      "epoch": 10.74,
      "learning_rate": 0.03681285315822518,
      "loss": 3.0123,
      "step": 1050000
    },
    {
      "epoch": 10.84,
      "learning_rate": 0.036684198067085914,
      "loss": 3.013,
      "step": 1060000
    },
    {
      "epoch": 10.94,
      "learning_rate": 0.036555542975946646,
      "loss": 3.0121,
      "step": 1070000
    },
    {
      "epoch": 11.04,
      "learning_rate": 0.03642688788480738,
      "loss": 2.9892,
      "step": 1080000
    },
    {
      "epoch": 11.15,
      "learning_rate": 0.03629823279366811,
      "loss": 2.9908,
      "step": 1090000
    },
    {
      "epoch": 11.25,
      "learning_rate": 0.03616957770252884,
      "loss": 2.9941,
      "step": 1100000
    },
    {
      "epoch": 11.35,
      "learning_rate": 0.036040922611389574,
      "loss": 2.9976,
      "step": 1110000
    },
    {
      "epoch": 11.45,
      "learning_rate": 0.03591226752025031,
      "loss": 2.9992,
      "step": 1120000
    },
    {
      "epoch": 11.56,
      "learning_rate": 0.035783612429111045,
      "loss": 3.0007,
      "step": 1130000
    },
    {
      "epoch": 11.66,
      "learning_rate": 0.03565495733797178,
      "loss": 3.0021,
      "step": 1140000
    },
    {
      "epoch": 11.76,
      "learning_rate": 0.035526302246832515,
      "loss": 3.0032,
      "step": 1150000
    },
    {
      "epoch": 11.86,
      "learning_rate": 0.03539764715569325,
      "loss": 3.0057,
      "step": 1160000
    },
    {
      "epoch": 11.97,
      "learning_rate": 0.03526899206455398,
      "loss": 3.0053,
      "step": 1170000
    },
    {
      "epoch": 12.07,
      "learning_rate": 0.03514033697341471,
      "loss": 2.9898,
      "step": 1180000
    },
    {
      "epoch": 12.17,
      "learning_rate": 0.03501168188227545,
      "loss": 2.9848,
      "step": 1190000
    },
    {
      "epoch": 12.27,
      "learning_rate": 0.03488302679113618,
      "loss": 2.9871,
      "step": 1200000
    },
    {
      "epoch": 12.37,
      "learning_rate": 0.034754371699996914,
      "loss": 2.9903,
      "step": 1210000
    },
    {
      "epoch": 12.48,
      "learning_rate": 0.03462571660885765,
      "loss": 2.9918,
      "step": 1220000
    },
    {
      "epoch": 12.58,
      "learning_rate": 0.034497061517718385,
      "loss": 2.9948,
      "step": 1230000
    },
    {
      "epoch": 12.68,
      "learning_rate": 0.034368406426579116,
      "loss": 2.9955,
      "step": 1240000
    },
    {
      "epoch": 12.78,
      "learning_rate": 0.03423975133543985,
      "loss": 2.9971,
      "step": 1250000
    },
    {
      "epoch": 12.89,
      "learning_rate": 0.03411109624430058,
      "loss": 2.9978,
      "step": 1260000
    },
    {
      "epoch": 12.99,
      "learning_rate": 0.03398244115316131,
      "loss": 2.9985,
      "step": 1270000
    },
    {
      "epoch": 13.09,
      "learning_rate": 0.033853786062022044,
      "loss": 2.9789,
      "step": 1280000
    },
    {
      "epoch": 13.19,
      "learning_rate": 0.033725130970882776,
      "loss": 2.9795,
      "step": 1290000
    },
    {
      "epoch": 13.29,
      "learning_rate": 0.033596475879743515,
      "loss": 2.9835,
      "step": 1300000
    },
    {
      "epoch": 13.4,
      "learning_rate": 0.03346782078860425,
      "loss": 2.9829,
      "step": 1310000
    },
    {
      "epoch": 13.5,
      "learning_rate": 0.03333916569746498,
      "loss": 2.9869,
      "step": 1320000
    },
    {
      "epoch": 13.6,
      "learning_rate": 0.03321051060632572,
      "loss": 2.9755,
      "step": 1330000
    },
    {
      "epoch": 13.7,
      "learning_rate": 0.03308185551518645,
      "loss": 2.978,
      "step": 1340000
    },
    {
      "epoch": 13.81,
      "learning_rate": 0.03295320042404718,
      "loss": 2.9811,
      "step": 1350000
    },
    {
      "epoch": 13.91,
      "learning_rate": 0.03282454533290791,
      "loss": 2.9824,
      "step": 1360000
    },
    {
      "epoch": 14.01,
      "learning_rate": 0.03269589024176865,
      "loss": 2.9832,
      "step": 1370000
    },
    {
      "epoch": 14.11,
      "learning_rate": 0.032567235150629384,
      "loss": 2.9726,
      "step": 1380000
    },
    {
      "epoch": 14.22,
      "learning_rate": 0.032438580059490116,
      "loss": 2.9762,
      "step": 1390000
    },
    {
      "epoch": 14.32,
      "learning_rate": 0.03230992496835085,
      "loss": 2.9786,
      "step": 1400000
    },
    {
      "epoch": 14.42,
      "learning_rate": 0.03218126987721159,
      "loss": 2.9804,
      "step": 1410000
    },
    {
      "epoch": 14.52,
      "learning_rate": 0.03205261478607232,
      "loss": 2.9821,
      "step": 1420000
    },
    {
      "epoch": 14.62,
      "learning_rate": 0.03192395969493305,
      "loss": 2.9825,
      "step": 1430000
    },
    {
      "epoch": 14.73,
      "learning_rate": 0.03179530460379378,
      "loss": 2.985,
      "step": 1440000
    },
    {
      "epoch": 14.83,
      "learning_rate": 0.031666649512654514,
      "loss": 2.9851,
      "step": 1450000
    },
    {
      "epoch": 14.93,
      "learning_rate": 0.031537994421515246,
      "loss": 2.9859,
      "step": 1460000
    },
    {
      "epoch": 15.03,
      "learning_rate": 0.03140933933037598,
      "loss": 2.9795,
      "step": 1470000
    },
    {
      "epoch": 15.14,
      "learning_rate": 0.03128068423923672,
      "loss": 2.9681,
      "step": 1480000
    },
    {
      "epoch": 15.24,
      "learning_rate": 0.03115202914809745,
      "loss": 2.9707,
      "step": 1490000
    },
    {
      "epoch": 15.34,
      "learning_rate": 0.03102337405695818,
      "loss": 2.9727,
      "step": 1500000
    },
    {
      "epoch": 15.44,
      "learning_rate": 0.03089471896581892,
      "loss": 2.9747,
      "step": 1510000
    },
    {
      "epoch": 15.54,
      "learning_rate": 0.03076606387467965,
      "loss": 2.9769,
      "step": 1520000
    },
    {
      "epoch": 15.65,
      "learning_rate": 0.030637408783540383,
      "loss": 2.9778,
      "step": 1530000
    },
    {
      "epoch": 15.75,
      "learning_rate": 0.030508753692401115,
      "loss": 2.9788,
      "step": 1540000
    },
    {
      "epoch": 15.85,
      "learning_rate": 0.030380098601261854,
      "loss": 2.9789,
      "step": 1550000
    },
    {
      "epoch": 15.95,
      "learning_rate": 0.030251443510122586,
      "loss": 2.9807,
      "step": 1560000
    },
    {
      "epoch": 16.06,
      "learning_rate": 0.030122788418983318,
      "loss": 2.9619,
      "step": 1570000
    },
    {
      "epoch": 16.16,
      "learning_rate": 0.02999413332784405,
      "loss": 2.9638,
      "step": 1580000
    },
    {
      "epoch": 16.26,
      "learning_rate": 0.029865478236704785,
      "loss": 2.9654,
      "step": 1590000
    },
    {
      "epoch": 16.36,
      "learning_rate": 0.029736823145565517,
      "loss": 2.9679,
      "step": 1600000
    },
    {
      "epoch": 16.46,
      "learning_rate": 0.02960816805442625,
      "loss": 2.9704,
      "step": 1610000
    },
    {
      "epoch": 16.57,
      "learning_rate": 0.029479512963286988,
      "loss": 2.9726,
      "step": 1620000
    },
    {
      "epoch": 16.67,
      "learning_rate": 0.02935085787214772,
      "loss": 2.9725,
      "step": 1630000
    },
    {
      "epoch": 16.77,
      "learning_rate": 0.02922220278100845,
      "loss": 2.9738,
      "step": 1640000
    },
    {
      "epoch": 16.87,
      "learning_rate": 0.029093547689869183,
      "loss": 2.9747,
      "step": 1650000
    },
    {
      "epoch": 16.98,
      "learning_rate": 0.02896489259872992,
      "loss": 2.9763,
      "step": 1660000
    },
    {
      "epoch": 17.08,
      "learning_rate": 0.02883623750759065,
      "loss": 2.9617,
      "step": 1670000
    },
    {
      "epoch": 17.18,
      "learning_rate": 0.028707582416451383,
      "loss": 2.9618,
      "step": 1680000
    },
    {
      "epoch": 17.28,
      "learning_rate": 0.028578927325312115,
      "loss": 2.9612,
      "step": 1690000
    },
    {
      "epoch": 17.39,
      "learning_rate": 0.028450272234172853,
      "loss": 2.9632,
      "step": 1700000
    },
    {
      "epoch": 17.49,
      "learning_rate": 0.028321617143033585,
      "loss": 2.9655,
      "step": 1710000
    },
    {
      "epoch": 17.59,
      "learning_rate": 0.028192962051894317,
      "loss": 2.9672,
      "step": 1720000
    },
    {
      "epoch": 17.69,
      "learning_rate": 0.028064306960755056,
      "loss": 2.9691,
      "step": 1730000
    },
    {
      "epoch": 17.79,
      "learning_rate": 0.027935651869615788,
      "loss": 2.9698,
      "step": 1740000
    },
    {
      "epoch": 17.9,
      "learning_rate": 0.02780699677847652,
      "loss": 2.9702,
      "step": 1750000
    },
    {
      "epoch": 18.0,
      "learning_rate": 0.027678341687337252,
      "loss": 2.9719,
      "step": 1760000
    },
    {
      "epoch": 18.1,
      "learning_rate": 0.027549686596197987,
      "loss": 2.9546,
      "step": 1770000
    },
    {
      "epoch": 18.2,
      "learning_rate": 0.02742103150505872,
      "loss": 2.9567,
      "step": 1780000
    },
    {
      "epoch": 18.31,
      "learning_rate": 0.02729237641391945,
      "loss": 2.9586,
      "step": 1790000
    },
    {
      "epoch": 18.41,
      "learning_rate": 0.02716372132278019,
      "loss": 2.9606,
      "step": 1800000
    },
    {
      "epoch": 18.51,
      "learning_rate": 0.02703506623164092,
      "loss": 2.9506,
      "step": 1810000
    },
    {
      "epoch": 18.61,
      "learning_rate": 0.026906411140501654,
      "loss": 2.9518,
      "step": 1820000
    },
    {
      "epoch": 18.71,
      "learning_rate": 0.026777756049362385,
      "loss": 2.9575,
      "step": 1830000
    },
    {
      "epoch": 18.82,
      "learning_rate": 0.02664910095822312,
      "loss": 2.9584,
      "step": 1840000
    },
    {
      "epoch": 18.92,
      "learning_rate": 0.026520445867083853,
      "loss": 2.9594,
      "step": 1850000
    },
    {
      "epoch": 19.02,
      "learning_rate": 0.026391790775944585,
      "loss": 2.9578,
      "step": 1860000
    },
    {
      "epoch": 19.12,
      "learning_rate": 0.026263135684805317,
      "loss": 2.9535,
      "step": 1870000
    },
    {
      "epoch": 19.23,
      "learning_rate": 0.026134480593666055,
      "loss": 2.9552,
      "step": 1880000
    },
    {
      "epoch": 19.33,
      "learning_rate": 0.026005825502526787,
      "loss": 2.9568,
      "step": 1890000
    },
    {
      "epoch": 19.43,
      "learning_rate": 0.02587717041138752,
      "loss": 2.9583,
      "step": 1900000
    },
    {
      "epoch": 19.53,
      "learning_rate": 0.025748515320248258,
      "loss": 2.9596,
      "step": 1910000
    },
    {
      "epoch": 19.64,
      "learning_rate": 0.02561986022910899,
      "loss": 2.9599,
      "step": 1920000
    },
    {
      "epoch": 19.74,
      "learning_rate": 0.025491205137969722,
      "loss": 2.9615,
      "step": 1930000
    },
    {
      "epoch": 19.84,
      "learning_rate": 0.025362550046830454,
      "loss": 2.9622,
      "step": 1940000
    },
    {
      "epoch": 19.94,
      "learning_rate": 0.02523389495569119,
      "loss": 2.9637,
      "step": 1950000
    },
    {
      "epoch": 20.04,
      "learning_rate": 0.02510523986455192,
      "loss": 2.9559,
      "step": 1960000
    },
    {
      "epoch": 20.15,
      "learning_rate": 0.024976584773412653,
      "loss": 2.9496,
      "step": 1970000
    },
    {
      "epoch": 20.25,
      "learning_rate": 0.02484792968227339,
      "loss": 2.9516,
      "step": 1980000
    },
    {
      "epoch": 20.35,
      "learning_rate": 0.024719274591134124,
      "loss": 2.9522,
      "step": 1990000
    },
    {
      "epoch": 20.45,
      "learning_rate": 0.024590619499994856,
      "loss": 2.9538,
      "step": 2000000
    },
    {
      "epoch": 20.56,
      "learning_rate": 0.02446196440885559,
      "loss": 2.9552,
      "step": 2010000
    },
    {
      "epoch": 20.66,
      "learning_rate": 0.024333309317716323,
      "loss": 2.957,
      "step": 2020000
    },
    {
      "epoch": 20.76,
      "learning_rate": 0.024204654226577055,
      "loss": 2.9572,
      "step": 2030000
    },
    {
      "epoch": 20.86,
      "learning_rate": 0.024075999135437787,
      "loss": 2.9586,
      "step": 2040000
    },
    {
      "epoch": 20.96,
      "learning_rate": 0.023947344044298522,
      "loss": 2.9609,
      "step": 2050000
    },
    {
      "epoch": 21.07,
      "learning_rate": 0.023818688953159254,
      "loss": 2.9429,
      "step": 2060000
    },
    {
      "epoch": 21.17,
      "learning_rate": 0.02369003386201999,
      "loss": 2.947,
      "step": 2070000
    },
    {
      "epoch": 21.27,
      "learning_rate": 0.023561378770880725,
      "loss": 2.9488,
      "step": 2080000
    },
    {
      "epoch": 21.37,
      "learning_rate": 0.023432723679741457,
      "loss": 2.9491,
      "step": 2090000
    },
    {
      "epoch": 21.48,
      "learning_rate": 0.023304068588602192,
      "loss": 2.9514,
      "step": 2100000
    },
    {
      "epoch": 21.58,
      "learning_rate": 0.023175413497462924,
      "loss": 2.9513,
      "step": 2110000
    },
    {
      "epoch": 21.68,
      "learning_rate": 0.023046758406323656,
      "loss": 2.9537,
      "step": 2120000
    },
    {
      "epoch": 21.78,
      "learning_rate": 0.022918103315184388,
      "loss": 2.9548,
      "step": 2130000
    },
    {
      "epoch": 21.88,
      "learning_rate": 0.022789448224045123,
      "loss": 2.9573,
      "step": 2140000
    },
    {
      "epoch": 21.99,
      "learning_rate": 0.022660793132905855,
      "loss": 2.9565,
      "step": 2150000
    },
    {
      "epoch": 22.09,
      "learning_rate": 0.02253213804176659,
      "loss": 2.9432,
      "step": 2160000
    },
    {
      "epoch": 22.19,
      "learning_rate": 0.022403482950627322,
      "loss": 2.9445,
      "step": 2170000
    },
    {
      "epoch": 22.29,
      "learning_rate": 0.022274827859488058,
      "loss": 2.9465,
      "step": 2180000
    },
    {
      "epoch": 22.4,
      "learning_rate": 0.022146172768348793,
      "loss": 2.9478,
      "step": 2190000
    },
    {
      "epoch": 22.5,
      "learning_rate": 0.022017517677209525,
      "loss": 2.9474,
      "step": 2200000
    },
    {
      "epoch": 22.6,
      "learning_rate": 0.021888862586070257,
      "loss": 2.9497,
      "step": 2210000
    },
    {
      "epoch": 22.7,
      "learning_rate": 0.02176020749493099,
      "loss": 2.9507,
      "step": 2220000
    },
    {
      "epoch": 22.81,
      "learning_rate": 0.021631552403791724,
      "loss": 2.9518,
      "step": 2230000
    },
    {
      "epoch": 22.91,
      "learning_rate": 0.021502897312652456,
      "loss": 2.9523,
      "step": 2240000
    },
    {
      "epoch": 23.01,
      "learning_rate": 0.02137424222151319,
      "loss": 2.951,
      "step": 2250000
    },
    {
      "epoch": 23.11,
      "learning_rate": 0.021245587130373923,
      "loss": 2.9394,
      "step": 2260000
    },
    {
      "epoch": 23.21,
      "learning_rate": 0.02111693203923466,
      "loss": 2.9426,
      "step": 2270000
    },
    {
      "epoch": 23.32,
      "learning_rate": 0.020988276948095394,
      "loss": 2.9425,
      "step": 2280000
    },
    {
      "epoch": 23.42,
      "learning_rate": 0.020859621856956126,
      "loss": 2.9449,
      "step": 2290000
    },
    {
      "epoch": 23.52,
      "learning_rate": 0.020730966765816858,
      "loss": 2.939,
      "step": 2300000
    },
    {
      "epoch": 23.62,
      "learning_rate": 0.02060231167467759,
      "loss": 2.939,
      "step": 2310000
    },
    {
      "epoch": 23.73,
      "learning_rate": 0.020473656583538325,
      "loss": 2.9414,
      "step": 2320000
    },
    {
      "epoch": 23.83,
      "learning_rate": 0.020345001492399057,
      "loss": 2.9433,
      "step": 2330000
    },
    {
      "epoch": 23.93,
      "learning_rate": 0.020216346401259792,
      "loss": 2.9436,
      "step": 2340000
    },
    {
      "epoch": 24.03,
      "learning_rate": 0.020087691310120524,
      "loss": 2.9421,
      "step": 2350000
    },
    {
      "epoch": 24.13,
      "learning_rate": 0.01995903621898126,
      "loss": 2.9385,
      "step": 2360000
    },
    {
      "epoch": 24.24,
      "learning_rate": 0.019830381127841995,
      "loss": 2.9413,
      "step": 2370000
    },
    {
      "epoch": 24.34,
      "learning_rate": 0.019701726036702727,
      "loss": 2.9426,
      "step": 2380000
    },
    {
      "epoch": 24.44,
      "learning_rate": 0.01957307094556346,
      "loss": 2.9423,
      "step": 2390000
    },
    {
      "epoch": 24.54,
      "learning_rate": 0.01944441585442419,
      "loss": 2.9442,
      "step": 2400000
    },
    {
      "epoch": 24.65,
      "learning_rate": 0.019315760763284926,
      "loss": 2.9457,
      "step": 2410000
    },
    {
      "epoch": 24.75,
      "learning_rate": 0.019187105672145658,
      "loss": 2.9455,
      "step": 2420000
    },
    {
      "epoch": 24.85,
      "learning_rate": 0.019058450581006393,
      "loss": 2.947,
      "step": 2430000
    },
    {
      "epoch": 24.95,
      "learning_rate": 0.018929795489867125,
      "loss": 2.9464,
      "step": 2440000
    },
    {
      "epoch": 25.06,
      "learning_rate": 0.01880114039872786,
      "loss": 2.9411,
      "step": 2450000
    },
    {
      "epoch": 25.16,
      "learning_rate": 0.018672485307588593,
      "loss": 2.9362,
      "step": 2460000
    },
    {
      "epoch": 25.26,
      "learning_rate": 0.018543830216449324,
      "loss": 2.9373,
      "step": 2470000
    },
    {
      "epoch": 25.36,
      "learning_rate": 0.01841517512531006,
      "loss": 2.9395,
      "step": 2480000
    },
    {
      "epoch": 25.46,
      "learning_rate": 0.018286520034170792,
      "loss": 2.9404,
      "step": 2490000
    },
    {
      "epoch": 25.57,
      "learning_rate": 0.018157864943031527,
      "loss": 2.9412,
      "step": 2500000
    },
    {
      "epoch": 25.67,
      "learning_rate": 0.01802920985189226,
      "loss": 2.9425,
      "step": 2510000
    },
    {
      "epoch": 25.77,
      "learning_rate": 0.017900554760752994,
      "loss": 2.943,
      "step": 2520000
    },
    {
      "epoch": 25.87,
      "learning_rate": 0.017771899669613726,
      "loss": 2.9446,
      "step": 2530000
    },
    {
      "epoch": 25.98,
      "learning_rate": 0.01764324457847446,
      "loss": 2.945,
      "step": 2540000
    },
    {
      "epoch": 26.08,
      "learning_rate": 0.017514589487335194,
      "loss": 2.9327,
      "step": 2550000
    },
    {
      "epoch": 26.18,
      "learning_rate": 0.017385934396195925,
      "loss": 2.9341,
      "step": 2560000
    },
    {
      "epoch": 26.28,
      "learning_rate": 0.01725727930505666,
      "loss": 2.9366,
      "step": 2570000
    },
    {
      "epoch": 26.38,
      "learning_rate": 0.017128624213917393,
      "loss": 2.9376,
      "step": 2580000
    },
    {
      "epoch": 26.49,
      "learning_rate": 0.016999969122778128,
      "loss": 2.9373,
      "step": 2590000
    },
    {
      "epoch": 26.59,
      "learning_rate": 0.01687131403163886,
      "loss": 2.9388,
      "step": 2600000
    },
    {
      "epoch": 26.69,
      "learning_rate": 0.016742658940499595,
      "loss": 2.9404,
      "step": 2610000
    },
    {
      "epoch": 26.79,
      "learning_rate": 0.016614003849360327,
      "loss": 2.9411,
      "step": 2620000
    },
    {
      "epoch": 26.9,
      "learning_rate": 0.016485348758221063,
      "loss": 2.943,
      "step": 2630000
    },
    {
      "epoch": 27.0,
      "learning_rate": 0.016356693667081795,
      "loss": 2.9421,
      "step": 2640000
    },
    {
      "epoch": 27.1,
      "learning_rate": 0.016228038575942526,
      "loss": 2.9313,
      "step": 2650000
    },
    {
      "epoch": 27.2,
      "learning_rate": 0.016099383484803262,
      "loss": 2.9337,
      "step": 2660000
    },
    {
      "epoch": 27.31,
      "learning_rate": 0.015970728393663994,
      "loss": 2.9341,
      "step": 2670000
    },
    {
      "epoch": 27.41,
      "learning_rate": 0.01584207330252473,
      "loss": 2.9353,
      "step": 2680000
    },
    {
      "epoch": 27.51,
      "learning_rate": 0.01571341821138546,
      "loss": 2.9359,
      "step": 2690000
    },
    {
      "epoch": 27.61,
      "learning_rate": 0.015584763120246196,
      "loss": 2.9363,
      "step": 2700000
    },
    {
      "epoch": 27.71,
      "learning_rate": 0.015456108029106928,
      "loss": 2.9387,
      "step": 2710000
    },
    {
      "epoch": 27.82,
      "learning_rate": 0.015327452937967662,
      "loss": 2.9388,
      "step": 2720000
    },
    {
      "epoch": 27.92,
      "learning_rate": 0.015198797846828394,
      "loss": 2.9399,
      "step": 2730000
    },
    {
      "epoch": 28.02,
      "learning_rate": 0.01507014275568913,
      "loss": 2.9384,
      "step": 2740000
    },
    {
      "epoch": 28.12,
      "learning_rate": 0.014941487664549863,
      "loss": 2.9305,
      "step": 2750000
    },
    {
      "epoch": 28.23,
      "learning_rate": 0.014812832573410595,
      "loss": 2.9325,
      "step": 2760000
    },
    {
      "epoch": 28.33,
      "learning_rate": 0.01468417748227133,
      "loss": 2.9332,
      "step": 2770000
    },
    {
      "epoch": 28.43,
      "learning_rate": 0.014555522391132062,
      "loss": 2.9339,
      "step": 2780000
    }
  ],
  "max_steps": 3911360,
  "num_train_epochs": 40,
  "total_flos": 1.8137583487197538e+20,
  "trial_name": null,
  "trial_params": null
}