{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.896817068905212,
  "eval_steps": 500,
  "global_step": 21000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.023318176518596245,
      "grad_norm": 0.3708130121231079,
      "learning_rate": 0.0002,
      "loss": 1.1701,
      "step": 100
    },
    {
      "epoch": 0.04663635303719249,
      "grad_norm": 0.7055436968803406,
      "learning_rate": 0.0002,
      "loss": 0.9527,
      "step": 200
    },
    {
      "epoch": 0.06995452955578874,
      "grad_norm": 0.310996949672699,
      "learning_rate": 0.0002,
      "loss": 0.871,
      "step": 300
    },
    {
      "epoch": 0.09327270607438498,
      "grad_norm": 0.34611570835113525,
      "learning_rate": 0.0002,
      "loss": 0.8128,
      "step": 400
    },
    {
      "epoch": 0.11659088259298123,
      "grad_norm": 0.2793200612068176,
      "learning_rate": 0.0002,
      "loss": 0.8008,
      "step": 500
    },
    {
      "epoch": 0.13990905911157747,
      "grad_norm": 0.2440558820962906,
      "learning_rate": 0.0002,
      "loss": 0.7364,
      "step": 600
    },
    {
      "epoch": 0.16322723563017372,
      "grad_norm": 0.20660006999969482,
      "learning_rate": 0.0002,
      "loss": 0.7016,
      "step": 700
    },
    {
      "epoch": 0.18654541214876996,
      "grad_norm": 0.3151717782020569,
      "learning_rate": 0.0002,
      "loss": 0.6986,
      "step": 800
    },
    {
      "epoch": 0.2098635886673662,
      "grad_norm": 0.4207448363304138,
      "learning_rate": 0.0002,
      "loss": 0.649,
      "step": 900
    },
    {
      "epoch": 0.23318176518596245,
      "grad_norm": 0.43152570724487305,
      "learning_rate": 0.0002,
      "loss": 0.6725,
      "step": 1000
    },
    {
      "epoch": 0.2564999417045587,
      "grad_norm": 0.31539487838745117,
      "learning_rate": 0.0002,
      "loss": 0.6395,
      "step": 1100
    },
    {
      "epoch": 0.27981811822315494,
      "grad_norm": 0.3349384665489197,
      "learning_rate": 0.0002,
      "loss": 0.6033,
      "step": 1200
    },
    {
      "epoch": 0.3031362947417512,
      "grad_norm": 0.2724147140979767,
      "learning_rate": 0.0002,
      "loss": 0.6076,
      "step": 1300
    },
    {
      "epoch": 0.32645447126034743,
      "grad_norm": 0.2925530970096588,
      "learning_rate": 0.0002,
      "loss": 0.585,
      "step": 1400
    },
    {
      "epoch": 0.3497726477789437,
      "grad_norm": 0.4674293100833893,
      "learning_rate": 0.0002,
      "loss": 0.5657,
      "step": 1500
    },
    {
      "epoch": 0.3730908242975399,
      "grad_norm": 0.3915441930294037,
      "learning_rate": 0.0002,
      "loss": 0.5453,
      "step": 1600
    },
    {
      "epoch": 0.39640900081613617,
      "grad_norm": 0.24304556846618652,
      "learning_rate": 0.0002,
      "loss": 0.5198,
      "step": 1700
    },
    {
      "epoch": 0.4197271773347324,
      "grad_norm": 0.5447902679443359,
      "learning_rate": 0.0002,
      "loss": 0.5427,
      "step": 1800
    },
    {
      "epoch": 0.44304535385332866,
      "grad_norm": 0.4133426547050476,
      "learning_rate": 0.0002,
      "loss": 0.5204,
      "step": 1900
    },
    {
      "epoch": 0.4663635303719249,
      "grad_norm": 0.41733473539352417,
      "learning_rate": 0.0002,
      "loss": 0.5204,
      "step": 2000
    },
    {
      "epoch": 0.48968170689052115,
      "grad_norm": 0.3181161880493164,
      "learning_rate": 0.0002,
      "loss": 0.4698,
      "step": 2100
    },
    {
      "epoch": 0.5129998834091174,
      "grad_norm": 0.34142622351646423,
      "learning_rate": 0.0002,
      "loss": 0.4871,
      "step": 2200
    },
    {
      "epoch": 0.5363180599277136,
      "grad_norm": 0.1926470398902893,
      "learning_rate": 0.0002,
      "loss": 0.4649,
      "step": 2300
    },
    {
      "epoch": 0.5596362364463099,
      "grad_norm": 0.30340591073036194,
      "learning_rate": 0.0002,
      "loss": 0.4665,
      "step": 2400
    },
    {
      "epoch": 0.5829544129649061,
      "grad_norm": 0.3195839524269104,
      "learning_rate": 0.0002,
      "loss": 0.4667,
      "step": 2500
    },
    {
      "epoch": 0.6062725894835024,
      "grad_norm": 0.2145429104566574,
      "learning_rate": 0.0002,
      "loss": 0.4463,
      "step": 2600
    },
    {
      "epoch": 0.6295907660020986,
      "grad_norm": 0.15962275862693787,
      "learning_rate": 0.0002,
      "loss": 0.429,
      "step": 2700
    },
    {
      "epoch": 0.6529089425206949,
      "grad_norm": 0.3597501516342163,
      "learning_rate": 0.0002,
      "loss": 0.4277,
      "step": 2800
    },
    {
      "epoch": 0.6762271190392911,
      "grad_norm": 0.44612497091293335,
      "learning_rate": 0.0002,
      "loss": 0.4123,
      "step": 2900
    },
    {
      "epoch": 0.6995452955578874,
      "grad_norm": 0.21562007069587708,
      "learning_rate": 0.0002,
      "loss": 0.4074,
      "step": 3000
    },
    {
      "epoch": 0.7228634720764836,
      "grad_norm": 0.23217037320137024,
      "learning_rate": 0.0002,
      "loss": 0.4037,
      "step": 3100
    },
    {
      "epoch": 0.7461816485950798,
      "grad_norm": 0.3096787631511688,
      "learning_rate": 0.0002,
      "loss": 0.401,
      "step": 3200
    },
    {
      "epoch": 0.7694998251136761,
      "grad_norm": 0.18558426201343536,
      "learning_rate": 0.0002,
      "loss": 0.3983,
      "step": 3300
    },
    {
      "epoch": 0.7928180016322723,
      "grad_norm": 0.2520066797733307,
      "learning_rate": 0.0002,
      "loss": 0.4056,
      "step": 3400
    },
    {
      "epoch": 0.8161361781508686,
      "grad_norm": 0.41013041138648987,
      "learning_rate": 0.0002,
      "loss": 0.3706,
      "step": 3500
    },
    {
      "epoch": 0.8394543546694648,
      "grad_norm": 0.14811871945858002,
      "learning_rate": 0.0002,
      "loss": 0.3829,
      "step": 3600
    },
    {
      "epoch": 0.8627725311880611,
      "grad_norm": 0.36381468176841736,
      "learning_rate": 0.0002,
      "loss": 0.3744,
      "step": 3700
    },
    {
      "epoch": 0.8860907077066573,
      "grad_norm": 0.28783467411994934,
      "learning_rate": 0.0002,
      "loss": 0.3538,
      "step": 3800
    },
    {
      "epoch": 0.9094088842252536,
      "grad_norm": 0.23508860170841217,
      "learning_rate": 0.0002,
      "loss": 0.3277,
      "step": 3900
    },
    {
      "epoch": 0.9327270607438498,
      "grad_norm": 0.3819214403629303,
      "learning_rate": 0.0002,
      "loss": 0.3317,
      "step": 4000
    },
    {
      "epoch": 0.9560452372624461,
      "grad_norm": 0.298714816570282,
      "learning_rate": 0.0002,
      "loss": 0.3329,
      "step": 4100
    },
    {
      "epoch": 0.9793634137810423,
      "grad_norm": 0.17287446558475494,
      "learning_rate": 0.0002,
      "loss": 0.3418,
      "step": 4200
    },
    {
      "epoch": 1.0026815902996387,
      "grad_norm": 0.3725602328777313,
      "learning_rate": 0.0002,
      "loss": 0.3224,
      "step": 4300
    },
    {
      "epoch": 1.0259997668182348,
      "grad_norm": 0.6124657988548279,
      "learning_rate": 0.0002,
      "loss": 0.2589,
      "step": 4400
    },
    {
      "epoch": 1.0493179433368311,
      "grad_norm": 0.5308946371078491,
      "learning_rate": 0.0002,
      "loss": 0.2718,
      "step": 4500
    },
    {
      "epoch": 1.0726361198554273,
      "grad_norm": 0.3070002496242523,
      "learning_rate": 0.0002,
      "loss": 0.2662,
      "step": 4600
    },
    {
      "epoch": 1.0959542963740236,
      "grad_norm": 0.44111424684524536,
      "learning_rate": 0.0002,
      "loss": 0.2516,
      "step": 4700
    },
    {
      "epoch": 1.1192724728926198,
      "grad_norm": 0.32735341787338257,
      "learning_rate": 0.0002,
      "loss": 0.2652,
      "step": 4800
    },
    {
      "epoch": 1.1425906494112161,
      "grad_norm": 0.3475642800331116,
      "learning_rate": 0.0002,
      "loss": 0.2498,
      "step": 4900
    },
    {
      "epoch": 1.1659088259298123,
      "grad_norm": 0.41938111186027527,
      "learning_rate": 0.0002,
      "loss": 0.2577,
      "step": 5000
    },
    {
      "epoch": 1.1892270024484086,
      "grad_norm": 0.47618812322616577,
      "learning_rate": 0.0002,
      "loss": 0.251,
      "step": 5100
    },
    {
      "epoch": 1.2125451789670048,
      "grad_norm": 0.27327144145965576,
      "learning_rate": 0.0002,
      "loss": 0.2511,
      "step": 5200
    },
    {
      "epoch": 1.2358633554856011,
      "grad_norm": 0.3251878321170807,
      "learning_rate": 0.0002,
      "loss": 0.2264,
      "step": 5300
    },
    {
      "epoch": 1.2591815320041972,
      "grad_norm": 0.5156410336494446,
      "learning_rate": 0.0002,
      "loss": 0.2617,
      "step": 5400
    },
    {
      "epoch": 1.2824997085227934,
      "grad_norm": 0.30861613154411316,
      "learning_rate": 0.0002,
      "loss": 0.2441,
      "step": 5500
    },
    {
      "epoch": 1.3058178850413897,
      "grad_norm": 0.43310919404029846,
      "learning_rate": 0.0002,
      "loss": 0.2331,
      "step": 5600
    },
    {
      "epoch": 1.329136061559986,
      "grad_norm": 0.36176246404647827,
      "learning_rate": 0.0002,
      "loss": 0.2431,
      "step": 5700
    },
    {
      "epoch": 1.3524542380785822,
      "grad_norm": 0.3790377974510193,
      "learning_rate": 0.0002,
      "loss": 0.2458,
      "step": 5800
    },
    {
      "epoch": 1.3757724145971786,
      "grad_norm": 0.4052121341228485,
      "learning_rate": 0.0002,
      "loss": 0.2446,
      "step": 5900
    },
    {
      "epoch": 1.3990905911157747,
      "grad_norm": 0.35783982276916504,
      "learning_rate": 0.0002,
      "loss": 0.2465,
      "step": 6000
    },
    {
      "epoch": 1.422408767634371,
      "grad_norm": 0.35436511039733887,
      "learning_rate": 0.0002,
      "loss": 0.2569,
      "step": 6100
    },
    {
      "epoch": 1.4457269441529672,
      "grad_norm": 0.2950509488582611,
      "learning_rate": 0.0002,
      "loss": 0.22,
      "step": 6200
    },
    {
      "epoch": 1.4690451206715636,
      "grad_norm": 0.36950767040252686,
      "learning_rate": 0.0002,
      "loss": 0.2433,
      "step": 6300
    },
    {
      "epoch": 1.4923632971901597,
      "grad_norm": 0.35253265500068665,
      "learning_rate": 0.0002,
      "loss": 0.2269,
      "step": 6400
    },
    {
      "epoch": 1.515681473708756,
      "grad_norm": 0.3378414213657379,
      "learning_rate": 0.0002,
      "loss": 0.2329,
      "step": 6500
    },
    {
      "epoch": 1.5389996502273522,
      "grad_norm": 0.4102073311805725,
      "learning_rate": 0.0002,
      "loss": 0.2404,
      "step": 6600
    },
    {
      "epoch": 1.5623178267459483,
      "grad_norm": 0.4430312216281891,
      "learning_rate": 0.0002,
      "loss": 0.235,
      "step": 6700
    },
    {
      "epoch": 1.5856360032645447,
      "grad_norm": 0.3363936245441437,
      "learning_rate": 0.0002,
      "loss": 0.2288,
      "step": 6800
    },
    {
      "epoch": 1.608954179783141,
      "grad_norm": 0.3177776634693146,
      "learning_rate": 0.0002,
      "loss": 0.2443,
      "step": 6900
    },
    {
      "epoch": 1.6322723563017372,
      "grad_norm": 0.33283111453056335,
      "learning_rate": 0.0002,
      "loss": 0.2267,
      "step": 7000
    },
    {
      "epoch": 1.6555905328203333,
      "grad_norm": 0.4799099564552307,
      "learning_rate": 0.0002,
      "loss": 0.2355,
      "step": 7100
    },
    {
      "epoch": 1.6789087093389297,
      "grad_norm": 0.38987642526626587,
      "learning_rate": 0.0002,
      "loss": 0.2268,
      "step": 7200
    },
    {
      "epoch": 1.702226885857526,
      "grad_norm": 0.32820141315460205,
      "learning_rate": 0.0002,
      "loss": 0.2098,
      "step": 7300
    },
    {
      "epoch": 1.7255450623761222,
      "grad_norm": 0.4211929142475128,
      "learning_rate": 0.0002,
      "loss": 0.2291,
      "step": 7400
    },
    {
      "epoch": 1.7488632388947183,
      "grad_norm": 0.42743125557899475,
      "learning_rate": 0.0002,
      "loss": 0.2192,
      "step": 7500
    },
    {
      "epoch": 1.7721814154133146,
      "grad_norm": 0.33759135007858276,
      "learning_rate": 0.0002,
      "loss": 0.2301,
      "step": 7600
    },
    {
      "epoch": 1.795499591931911,
      "grad_norm": 0.24578171968460083,
      "learning_rate": 0.0002,
      "loss": 0.2233,
      "step": 7700
    },
    {
      "epoch": 1.8188177684505071,
      "grad_norm": 0.3331544101238251,
      "learning_rate": 0.0002,
      "loss": 0.2308,
      "step": 7800
    },
    {
      "epoch": 1.8421359449691033,
      "grad_norm": 0.4028831720352173,
      "learning_rate": 0.0002,
      "loss": 0.2112,
      "step": 7900
    },
    {
      "epoch": 1.8654541214876996,
      "grad_norm": 0.3874329924583435,
      "learning_rate": 0.0002,
      "loss": 0.1998,
      "step": 8000
    },
    {
      "epoch": 1.888772298006296,
      "grad_norm": 0.30130070447921753,
      "learning_rate": 0.0002,
      "loss": 0.203,
      "step": 8100
    },
    {
      "epoch": 1.9120904745248921,
      "grad_norm": 0.41124048829078674,
      "learning_rate": 0.0002,
      "loss": 0.2184,
      "step": 8200
    },
    {
      "epoch": 1.9354086510434882,
      "grad_norm": 0.3104913532733917,
      "learning_rate": 0.0002,
      "loss": 0.2211,
      "step": 8300
    },
    {
      "epoch": 1.9587268275620846,
      "grad_norm": 0.30567994713783264,
      "learning_rate": 0.0002,
      "loss": 0.2039,
      "step": 8400
    },
    {
      "epoch": 1.982045004080681,
      "grad_norm": 0.3126045763492584,
      "learning_rate": 0.0002,
      "loss": 0.2107,
      "step": 8500
    },
    {
      "epoch": 2.0053631805992773,
      "grad_norm": 0.29460686445236206,
      "learning_rate": 0.0002,
      "loss": 0.1901,
      "step": 8600
    },
    {
      "epoch": 2.0286813571178732,
      "grad_norm": 0.4113939106464386,
      "learning_rate": 0.0002,
      "loss": 0.1621,
      "step": 8700
    },
    {
      "epoch": 2.0519995336364696,
      "grad_norm": 0.33105671405792236,
      "learning_rate": 0.0002,
      "loss": 0.1657,
      "step": 8800
    },
    {
      "epoch": 2.075317710155066,
      "grad_norm": 0.33191269636154175,
      "learning_rate": 0.0002,
      "loss": 0.1773,
      "step": 8900
    },
    {
      "epoch": 2.0986358866736623,
      "grad_norm": 0.3344513475894928,
      "learning_rate": 0.0002,
      "loss": 0.1654,
      "step": 9000
    },
    {
      "epoch": 2.121954063192258,
      "grad_norm": 0.31760096549987793,
      "learning_rate": 0.0002,
      "loss": 0.1677,
      "step": 9100
    },
    {
      "epoch": 2.1452722397108546,
      "grad_norm": 0.32853373885154724,
      "learning_rate": 0.0002,
      "loss": 0.1775,
      "step": 9200
    },
    {
      "epoch": 2.168590416229451,
      "grad_norm": 0.38260915875434875,
      "learning_rate": 0.0002,
      "loss": 0.1644,
      "step": 9300
    },
    {
      "epoch": 2.1919085927480473,
      "grad_norm": 0.3272022604942322,
      "learning_rate": 0.0002,
      "loss": 0.1632,
      "step": 9400
    },
    {
      "epoch": 2.215226769266643,
      "grad_norm": 0.40181514620780945,
      "learning_rate": 0.0002,
      "loss": 0.1672,
      "step": 9500
    },
    {
      "epoch": 2.2385449457852395,
      "grad_norm": 0.285182923078537,
      "learning_rate": 0.0002,
      "loss": 0.1695,
      "step": 9600
    },
    {
      "epoch": 2.261863122303836,
      "grad_norm": 0.3401045799255371,
      "learning_rate": 0.0002,
      "loss": 0.1658,
      "step": 9700
    },
    {
      "epoch": 2.2851812988224323,
      "grad_norm": 0.45088696479797363,
      "learning_rate": 0.0002,
      "loss": 0.173,
      "step": 9800
    },
    {
      "epoch": 2.308499475341028,
      "grad_norm": 0.09891465306282043,
      "learning_rate": 0.0002,
      "loss": 0.1725,
      "step": 9900
    },
    {
      "epoch": 2.3318176518596245,
      "grad_norm": 0.3077000081539154,
      "learning_rate": 0.0002,
      "loss": 0.1777,
      "step": 10000
    },
    {
      "epoch": 2.355135828378221,
      "grad_norm": 0.2650957703590393,
      "learning_rate": 0.0002,
      "loss": 0.1606,
      "step": 10100
    },
    {
      "epoch": 2.3784540048968172,
      "grad_norm": 0.2967466413974762,
      "learning_rate": 0.0002,
      "loss": 0.1626,
      "step": 10200
    },
    {
      "epoch": 2.401772181415413,
      "grad_norm": 0.21177765727043152,
      "learning_rate": 0.0002,
      "loss": 0.1762,
      "step": 10300
    },
    {
      "epoch": 2.4250903579340095,
      "grad_norm": 0.34562838077545166,
      "learning_rate": 0.0002,
      "loss": 0.1653,
      "step": 10400
    },
    {
      "epoch": 2.448408534452606,
      "grad_norm": 0.2537182569503784,
      "learning_rate": 0.0002,
      "loss": 0.1722,
      "step": 10500
    },
    {
      "epoch": 2.4717267109712022,
      "grad_norm": 0.22955211997032166,
      "learning_rate": 0.0002,
      "loss": 0.1713,
      "step": 10600
    },
    {
      "epoch": 2.495044887489798,
      "grad_norm": 0.3709162175655365,
      "learning_rate": 0.0002,
      "loss": 0.1679,
      "step": 10700
    },
    {
      "epoch": 2.5183630640083945,
      "grad_norm": 0.24581150710582733,
      "learning_rate": 0.0002,
      "loss": 0.1604,
      "step": 10800
    },
    {
      "epoch": 2.541681240526991,
      "grad_norm": 0.20854513347148895,
      "learning_rate": 0.0002,
      "loss": 0.1687,
      "step": 10900
    },
    {
      "epoch": 2.5649994170455868,
      "grad_norm": 0.2496633380651474,
      "learning_rate": 0.0002,
      "loss": 0.163,
      "step": 11000
    },
    {
      "epoch": 2.588317593564183,
      "grad_norm": 0.23603980243206024,
      "learning_rate": 0.0002,
      "loss": 0.1748,
      "step": 11100
    },
    {
      "epoch": 2.6116357700827795,
      "grad_norm": 0.36322489380836487,
      "learning_rate": 0.0002,
      "loss": 0.1798,
      "step": 11200
    },
    {
      "epoch": 2.634953946601376,
      "grad_norm": 0.32981303334236145,
      "learning_rate": 0.0002,
      "loss": 0.1588,
      "step": 11300
    },
    {
      "epoch": 2.658272123119972,
      "grad_norm": 0.4760492742061615,
      "learning_rate": 0.0002,
      "loss": 0.1723,
      "step": 11400
    },
    {
      "epoch": 2.681590299638568,
      "grad_norm": 0.22435927391052246,
      "learning_rate": 0.0002,
      "loss": 0.1742,
      "step": 11500
    },
    {
      "epoch": 2.7049084761571645,
      "grad_norm": 0.2695131003856659,
      "learning_rate": 0.0002,
      "loss": 0.1602,
      "step": 11600
    },
    {
      "epoch": 2.728226652675761,
      "grad_norm": 0.16897708177566528,
      "learning_rate": 0.0002,
      "loss": 0.1698,
      "step": 11700
    },
    {
      "epoch": 2.751544829194357,
      "grad_norm": 0.2540949881076813,
      "learning_rate": 0.0002,
      "loss": 0.1641,
      "step": 11800
    },
    {
      "epoch": 2.7748630057129535,
      "grad_norm": 0.40854746103286743,
      "learning_rate": 0.0002,
      "loss": 0.1747,
      "step": 11900
    },
    {
      "epoch": 2.7981811822315494,
      "grad_norm": 0.3012579679489136,
      "learning_rate": 0.0002,
      "loss": 0.1619,
      "step": 12000
    },
    {
      "epoch": 2.821499358750146,
      "grad_norm": 0.18468593060970306,
      "learning_rate": 0.0002,
      "loss": 0.1686,
      "step": 12100
    },
    {
      "epoch": 2.844817535268742,
      "grad_norm": 0.3668818175792694,
      "learning_rate": 0.0002,
      "loss": 0.1588,
      "step": 12200
    },
    {
      "epoch": 2.868135711787338,
      "grad_norm": 0.5856422185897827,
      "learning_rate": 0.0002,
      "loss": 0.1784,
      "step": 12300
    },
    {
      "epoch": 2.8914538883059344,
      "grad_norm": 0.37487712502479553,
      "learning_rate": 0.0002,
      "loss": 0.1701,
      "step": 12400
    },
    {
      "epoch": 2.9147720648245308,
      "grad_norm": 0.29282090067863464,
      "learning_rate": 0.0002,
      "loss": 0.1613,
      "step": 12500
    },
    {
      "epoch": 2.938090241343127,
      "grad_norm": 0.306607186794281,
      "learning_rate": 0.0002,
      "loss": 0.1655,
      "step": 12600
    },
    {
      "epoch": 2.9614084178617235,
      "grad_norm": 0.1990358531475067,
      "learning_rate": 0.0002,
      "loss": 0.17,
      "step": 12700
    },
    {
      "epoch": 2.9847265943803194,
      "grad_norm": 0.4855429232120514,
      "learning_rate": 0.0002,
      "loss": 0.1722,
      "step": 12800
    },
    {
      "epoch": 3.0080447708989158,
      "grad_norm": 0.39795544743537903,
      "learning_rate": 0.0002,
      "loss": 0.1548,
      "step": 12900
    },
    {
      "epoch": 3.031362947417512,
      "grad_norm": 0.3113553524017334,
      "learning_rate": 0.0002,
      "loss": 0.1396,
      "step": 13000
    },
    {
      "epoch": 3.054681123936108,
      "grad_norm": 0.3086554706096649,
      "learning_rate": 0.0002,
      "loss": 0.1364,
      "step": 13100
    },
    {
      "epoch": 3.0779993004547044,
      "grad_norm": 0.24818335473537445,
      "learning_rate": 0.0002,
      "loss": 0.1414,
      "step": 13200
    },
    {
      "epoch": 3.1013174769733007,
      "grad_norm": 0.37954941391944885,
      "learning_rate": 0.0002,
      "loss": 0.1388,
      "step": 13300
    },
    {
      "epoch": 3.124635653491897,
      "grad_norm": 0.2943727672100067,
      "learning_rate": 0.0002,
      "loss": 0.1408,
      "step": 13400
    },
    {
      "epoch": 3.147953830010493,
      "grad_norm": 0.35590696334838867,
      "learning_rate": 0.0002,
      "loss": 0.1363,
      "step": 13500
    },
    {
      "epoch": 3.1712720065290894,
      "grad_norm": 0.19578373432159424,
      "learning_rate": 0.0002,
      "loss": 0.137,
      "step": 13600
    },
    {
      "epoch": 3.1945901830476857,
      "grad_norm": 0.25028303265571594,
      "learning_rate": 0.0002,
      "loss": 0.1348,
      "step": 13700
    },
    {
      "epoch": 3.217908359566282,
      "grad_norm": 0.18405300378799438,
      "learning_rate": 0.0002,
      "loss": 0.1372,
      "step": 13800
    },
    {
      "epoch": 3.241226536084878,
      "grad_norm": 0.31417056918144226,
      "learning_rate": 0.0002,
      "loss": 0.1428,
      "step": 13900
    },
    {
      "epoch": 3.2645447126034743,
      "grad_norm": 0.22496923804283142,
      "learning_rate": 0.0002,
      "loss": 0.1378,
      "step": 14000
    },
    {
      "epoch": 3.2878628891220707,
      "grad_norm": 0.23862232267856598,
      "learning_rate": 0.0002,
      "loss": 0.1362,
      "step": 14100
    },
    {
      "epoch": 3.311181065640667,
      "grad_norm": 0.2142096310853958,
      "learning_rate": 0.0002,
      "loss": 0.139,
      "step": 14200
    },
    {
      "epoch": 3.334499242159263,
      "grad_norm": 0.2794269025325775,
      "learning_rate": 0.0002,
      "loss": 0.1376,
      "step": 14300
    },
    {
      "epoch": 3.3578174186778593,
      "grad_norm": 0.14498618245124817,
      "learning_rate": 0.0002,
      "loss": 0.1416,
      "step": 14400
    },
    {
      "epoch": 3.3811355951964557,
      "grad_norm": 0.2895399332046509,
      "learning_rate": 0.0002,
      "loss": 0.1379,
      "step": 14500
    },
    {
      "epoch": 3.404453771715052,
      "grad_norm": 0.2537992000579834,
      "learning_rate": 0.0002,
      "loss": 0.1356,
      "step": 14600
    },
    {
      "epoch": 3.427771948233648,
      "grad_norm": 0.20395183563232422,
      "learning_rate": 0.0002,
      "loss": 0.1424,
      "step": 14700
    },
    {
      "epoch": 3.4510901247522443,
      "grad_norm": 0.15283405780792236,
      "learning_rate": 0.0002,
      "loss": 0.1395,
      "step": 14800
    },
    {
      "epoch": 3.4744083012708407,
      "grad_norm": 0.4268224537372589,
      "learning_rate": 0.0002,
      "loss": 0.1359,
      "step": 14900
    },
    {
      "epoch": 3.497726477789437,
      "grad_norm": 0.22292669117450714,
      "learning_rate": 0.0002,
      "loss": 0.1386,
      "step": 15000
    },
    {
      "epoch": 3.5210446543080334,
      "grad_norm": 0.11900927871465683,
      "learning_rate": 0.0002,
      "loss": 0.1442,
      "step": 15100
    },
    {
      "epoch": 3.5443628308266293,
      "grad_norm": 0.45133286714553833,
      "learning_rate": 0.0002,
      "loss": 0.1365,
      "step": 15200
    },
    {
      "epoch": 3.5676810073452256,
      "grad_norm": 0.30186957120895386,
      "learning_rate": 0.0002,
      "loss": 0.1416,
      "step": 15300
    },
    {
      "epoch": 3.590999183863822,
      "grad_norm": 0.31408384442329407,
      "learning_rate": 0.0002,
      "loss": 0.1387,
      "step": 15400
    },
    {
      "epoch": 3.614317360382418,
      "grad_norm": 0.36072710156440735,
      "learning_rate": 0.0002,
      "loss": 0.1428,
      "step": 15500
    },
    {
      "epoch": 3.6376355369010143,
      "grad_norm": 0.28984448313713074,
      "learning_rate": 0.0002,
      "loss": 0.1393,
      "step": 15600
    },
    {
      "epoch": 3.6609537134196106,
      "grad_norm": 0.2014656662940979,
      "learning_rate": 0.0002,
      "loss": 0.1435,
      "step": 15700
    },
    {
      "epoch": 3.684271889938207,
      "grad_norm": 0.41273656487464905,
      "learning_rate": 0.0002,
      "loss": 0.1369,
      "step": 15800
    },
    {
      "epoch": 3.7075900664568033,
      "grad_norm": 0.48672163486480713,
      "learning_rate": 0.0002,
      "loss": 0.1433,
      "step": 15900
    },
    {
      "epoch": 3.7309082429753992,
      "grad_norm": 0.19120950996875763,
      "learning_rate": 0.0002,
      "loss": 0.1405,
      "step": 16000
    },
    {
      "epoch": 3.7542264194939956,
      "grad_norm": 0.19792740046977997,
      "learning_rate": 0.0002,
      "loss": 0.1451,
      "step": 16100
    },
    {
      "epoch": 3.777544596012592,
      "grad_norm": 0.14919213950634003,
      "learning_rate": 0.0002,
      "loss": 0.1382,
      "step": 16200
    },
    {
      "epoch": 3.800862772531188,
      "grad_norm": 0.4650104343891144,
      "learning_rate": 0.0002,
      "loss": 0.1339,
      "step": 16300
    },
    {
      "epoch": 3.8241809490497842,
      "grad_norm": 0.3627985417842865,
      "learning_rate": 0.0002,
      "loss": 0.1422,
      "step": 16400
    },
    {
      "epoch": 3.8474991255683806,
      "grad_norm": 0.7782896161079407,
      "learning_rate": 0.0002,
      "loss": 0.1432,
      "step": 16500
    },
    {
      "epoch": 3.870817302086977,
      "grad_norm": 0.2858645021915436,
      "learning_rate": 0.0002,
      "loss": 0.1413,
      "step": 16600
    },
    {
      "epoch": 3.8941354786055733,
      "grad_norm": 0.22150644659996033,
      "learning_rate": 0.0002,
      "loss": 0.1437,
      "step": 16700
    },
    {
      "epoch": 3.917453655124169,
      "grad_norm": 0.3596114218235016,
      "learning_rate": 0.0002,
      "loss": 0.1463,
      "step": 16800
    },
    {
      "epoch": 3.9407718316427656,
      "grad_norm": 0.14949366450309753,
      "learning_rate": 0.0002,
      "loss": 0.1449,
      "step": 16900
    },
    {
      "epoch": 3.964090008161362,
      "grad_norm": 0.32889851927757263,
      "learning_rate": 0.0002,
      "loss": 0.1396,
      "step": 17000
    },
    {
      "epoch": 3.987408184679958,
      "grad_norm": 0.1940721869468689,
      "learning_rate": 0.0002,
      "loss": 0.14,
      "step": 17100
    },
    {
      "epoch": 4.010726361198555,
      "grad_norm": 0.1328798085451126,
      "learning_rate": 0.0002,
      "loss": 0.1316,
      "step": 17200
    },
    {
      "epoch": 4.0340445377171505,
      "grad_norm": 0.09979192912578583,
      "learning_rate": 0.0002,
      "loss": 0.1224,
      "step": 17300
    },
    {
      "epoch": 4.0573627142357465,
      "grad_norm": 0.22828274965286255,
      "learning_rate": 0.0002,
      "loss": 0.1184,
      "step": 17400
    },
    {
      "epoch": 4.080680890754343,
      "grad_norm": 0.1396108716726303,
      "learning_rate": 0.0002,
      "loss": 0.1189,
      "step": 17500
    },
    {
      "epoch": 4.103999067272939,
      "grad_norm": 0.1849929839372635,
      "learning_rate": 0.0002,
      "loss": 0.1231,
      "step": 17600
    },
    {
      "epoch": 4.127317243791535,
      "grad_norm": 0.14947502315044403,
      "learning_rate": 0.0002,
      "loss": 0.1158,
      "step": 17700
    },
    {
      "epoch": 4.150635420310132,
      "grad_norm": 0.3471536934375763,
      "learning_rate": 0.0002,
      "loss": 0.1204,
      "step": 17800
    },
    {
      "epoch": 4.173953596828728,
      "grad_norm": 0.23290419578552246,
      "learning_rate": 0.0002,
      "loss": 0.1175,
      "step": 17900
    },
    {
      "epoch": 4.197271773347325,
      "grad_norm": 0.17477743327617645,
      "learning_rate": 0.0002,
      "loss": 0.1205,
      "step": 18000
    },
    {
      "epoch": 4.2205899498659205,
      "grad_norm": 0.1214243695139885,
      "learning_rate": 0.0002,
      "loss": 0.1188,
      "step": 18100
    },
    {
      "epoch": 4.243908126384516,
      "grad_norm": 0.12706777453422546,
      "learning_rate": 0.0002,
      "loss": 0.1196,
      "step": 18200
    },
    {
      "epoch": 4.267226302903113,
      "grad_norm": 0.18115375936031342,
      "learning_rate": 0.0002,
      "loss": 0.1179,
      "step": 18300
    },
    {
      "epoch": 4.290544479421709,
      "grad_norm": 0.05149231478571892,
      "learning_rate": 0.0002,
      "loss": 0.1224,
      "step": 18400
    },
    {
      "epoch": 4.313862655940305,
      "grad_norm": 0.47274354100227356,
      "learning_rate": 0.0002,
      "loss": 0.1192,
      "step": 18500
    },
    {
      "epoch": 4.337180832458902,
      "grad_norm": 0.218338742852211,
      "learning_rate": 0.0002,
      "loss": 0.1244,
      "step": 18600
    },
    {
      "epoch": 4.360499008977498,
      "grad_norm": 0.1247347891330719,
      "learning_rate": 0.0002,
      "loss": 0.1267,
      "step": 18700
    },
    {
      "epoch": 4.383817185496095,
      "grad_norm": 0.2586764991283417,
      "learning_rate": 0.0002,
      "loss": 0.1236,
      "step": 18800
    },
    {
      "epoch": 4.4071353620146905,
      "grad_norm": 0.11474807560443878,
      "learning_rate": 0.0002,
      "loss": 0.1252,
      "step": 18900
    },
    {
      "epoch": 4.430453538533286,
      "grad_norm": 0.34646329283714294,
      "learning_rate": 0.0002,
      "loss": 0.1237,
      "step": 19000
    },
    {
      "epoch": 4.453771715051883,
      "grad_norm": 0.17445826530456543,
      "learning_rate": 0.0002,
      "loss": 0.1183,
      "step": 19100
    },
    {
      "epoch": 4.477089891570479,
      "grad_norm": 0.3867531716823578,
      "learning_rate": 0.0002,
      "loss": 0.1248,
      "step": 19200
    },
    {
      "epoch": 4.500408068089076,
      "grad_norm": 0.15927106142044067,
      "learning_rate": 0.0002,
      "loss": 0.1258,
      "step": 19300
    },
    {
      "epoch": 4.523726244607672,
      "grad_norm": 0.2284346967935562,
      "learning_rate": 0.0002,
      "loss": 0.1244,
      "step": 19400
    },
    {
      "epoch": 4.547044421126268,
      "grad_norm": 0.3231777250766754,
      "learning_rate": 0.0002,
      "loss": 0.1257,
      "step": 19500
    },
    {
      "epoch": 4.5703625976448645,
      "grad_norm": 0.10116703063249588,
      "learning_rate": 0.0002,
      "loss": 0.1293,
      "step": 19600
    },
    {
      "epoch": 4.59368077416346,
      "grad_norm": 0.2922173738479614,
      "learning_rate": 0.0002,
      "loss": 0.1262,
      "step": 19700
    },
    {
      "epoch": 4.616998950682056,
      "grad_norm": 0.1958065629005432,
      "learning_rate": 0.0002,
      "loss": 0.1258,
      "step": 19800
    },
    {
      "epoch": 4.640317127200653,
      "grad_norm": 0.08755222707986832,
      "learning_rate": 0.0002,
      "loss": 0.1293,
      "step": 19900
    },
    {
      "epoch": 4.663635303719249,
      "grad_norm": 0.1416950523853302,
      "learning_rate": 0.0002,
      "loss": 0.1227,
      "step": 20000
    },
    {
      "epoch": 4.686953480237845,
      "grad_norm": 0.21383579075336456,
      "learning_rate": 0.0002,
      "loss": 0.1272,
      "step": 20100
    },
    {
      "epoch": 4.710271656756442,
      "grad_norm": 0.27910149097442627,
      "learning_rate": 0.0002,
      "loss": 0.1298,
      "step": 20200
    },
    {
      "epoch": 4.733589833275038,
      "grad_norm": 0.07715137302875519,
      "learning_rate": 0.0002,
      "loss": 0.1266,
      "step": 20300
    },
    {
      "epoch": 4.7569080097936345,
      "grad_norm": 0.08127077668905258,
      "learning_rate": 0.0002,
      "loss": 0.1269,
      "step": 20400
    },
    {
      "epoch": 4.78022618631223,
      "grad_norm": 0.3075973391532898,
      "learning_rate": 0.0002,
      "loss": 0.1308,
      "step": 20500
    },
    {
      "epoch": 4.803544362830826,
      "grad_norm": 0.23989351093769073,
      "learning_rate": 0.0002,
      "loss": 0.1217,
      "step": 20600
    },
    {
      "epoch": 4.826862539349423,
      "grad_norm": 0.1361120343208313,
      "learning_rate": 0.0002,
      "loss": 0.1237,
      "step": 20700
    },
    {
      "epoch": 4.850180715868019,
      "grad_norm": 0.3711351156234741,
      "learning_rate": 0.0002,
      "loss": 0.1248,
      "step": 20800
    },
    {
      "epoch": 4.873498892386616,
      "grad_norm": 0.3196912109851837,
      "learning_rate": 0.0002,
      "loss": 0.1236,
      "step": 20900
    },
    {
      "epoch": 4.896817068905212,
      "grad_norm": 0.10089880973100662,
      "learning_rate": 0.0002,
      "loss": 0.1248,
      "step": 21000
    }
  ],
  "logging_steps": 100,
  "max_steps": 21440,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 3000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.9056254817400013e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}