Upload 12 files

3e3bad9 verified 9 months ago

476 kB

	{
	"best_global_step": 758667,
	"best_metric": 0.06412914395332336,
	"best_model_checkpoint": "/media/user/Expansion1/multilingual-e5-small-aligned-v2-text-quality-v3/checkpoint-758667",
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 1083810,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004613354739299324,
	"grad_norm": 0.9464718699455261,
	"learning_rate": 4.99769793598509e-05,
	"loss": 0.2108,
	"num_input_tokens_seen": 512000,
	"step": 500
	},
	{
	"epoch": 0.009226709478598648,
	"grad_norm": 1.6402217149734497,
	"learning_rate": 4.99539125861544e-05,
	"loss": 0.1148,
	"num_input_tokens_seen": 1024000,
	"step": 1000
	},
	{
	"epoch": 0.013840064217897971,
	"grad_norm": 2.3964197635650635,
	"learning_rate": 4.9930845812457905e-05,
	"loss": 0.115,
	"num_input_tokens_seen": 1536000,
	"step": 1500
	},
	{
	"epoch": 0.018453418957197296,
	"grad_norm": 1.5508780479431152,
	"learning_rate": 4.990777903876141e-05,
	"loss": 0.0986,
	"num_input_tokens_seen": 2048000,
	"step": 2000
	},
	{
	"epoch": 0.02306677369649662,
	"grad_norm": 1.0917489528656006,
	"learning_rate": 4.9884712265064913e-05,
	"loss": 0.1006,
	"num_input_tokens_seen": 2560000,
	"step": 2500
	},
	{
	"epoch": 0.027680128435795943,
	"grad_norm": 3.2608118057250977,
	"learning_rate": 4.9861645491368414e-05,
	"loss": 0.0966,
	"num_input_tokens_seen": 3072000,
	"step": 3000
	},
	{
	"epoch": 0.03229348317509526,
	"grad_norm": 0.6695080995559692,
	"learning_rate": 4.983857871767192e-05,
	"loss": 0.0966,
	"num_input_tokens_seen": 3584000,
	"step": 3500
	},
	{
	"epoch": 0.03690683791439459,
	"grad_norm": 0.9232053756713867,
	"learning_rate": 4.981551194397542e-05,
	"loss": 0.0937,
	"num_input_tokens_seen": 4096000,
	"step": 4000
	},
	{
	"epoch": 0.041520192653693916,
	"grad_norm": 1.5442851781845093,
	"learning_rate": 4.979244517027893e-05,
	"loss": 0.0966,
	"num_input_tokens_seen": 4608000,
	"step": 4500
	},
	{
	"epoch": 0.04613354739299324,
	"grad_norm": 1.1777746677398682,
	"learning_rate": 4.976937839658243e-05,
	"loss": 0.0928,
	"num_input_tokens_seen": 5120000,
	"step": 5000
	},
	{
	"epoch": 0.05074690213229256,
	"grad_norm": 1.1882743835449219,
	"learning_rate": 4.974631162288593e-05,
	"loss": 0.0982,
	"num_input_tokens_seen": 5632000,
	"step": 5500
	},
	{
	"epoch": 0.055360256871591886,
	"grad_norm": 1.9017492532730103,
	"learning_rate": 4.972324484918944e-05,
	"loss": 0.0968,
	"num_input_tokens_seen": 6144000,
	"step": 6000
	},
	{
	"epoch": 0.05997361161089121,
	"grad_norm": 0.9373461008071899,
	"learning_rate": 4.970017807549294e-05,
	"loss": 0.0942,
	"num_input_tokens_seen": 6656000,
	"step": 6500
	},
	{
	"epoch": 0.06458696635019053,
	"grad_norm": 1.4917376041412354,
	"learning_rate": 4.967711130179644e-05,
	"loss": 0.0935,
	"num_input_tokens_seen": 7168000,
	"step": 7000
	},
	{
	"epoch": 0.06920032108948986,
	"grad_norm": 0.534630298614502,
	"learning_rate": 4.9654044528099946e-05,
	"loss": 0.0879,
	"num_input_tokens_seen": 7680000,
	"step": 7500
	},
	{
	"epoch": 0.07381367582878919,
	"grad_norm": 1.9700461626052856,
	"learning_rate": 4.9630977754403454e-05,
	"loss": 0.0913,
	"num_input_tokens_seen": 8192000,
	"step": 8000
	},
	{
	"epoch": 0.0784270305680885,
	"grad_norm": 2.11916446685791,
	"learning_rate": 4.960791098070695e-05,
	"loss": 0.0929,
	"num_input_tokens_seen": 8704000,
	"step": 8500
	},
	{
	"epoch": 0.08304038530738783,
	"grad_norm": 1.961242437362671,
	"learning_rate": 4.9584844207010455e-05,
	"loss": 0.0883,
	"num_input_tokens_seen": 9216000,
	"step": 9000
	},
	{
	"epoch": 0.08765374004668715,
	"grad_norm": 1.5819107294082642,
	"learning_rate": 4.956177743331396e-05,
	"loss": 0.0849,
	"num_input_tokens_seen": 9728000,
	"step": 9500
	},
	{
	"epoch": 0.09226709478598648,
	"grad_norm": 0.8099465370178223,
	"learning_rate": 4.953871065961746e-05,
	"loss": 0.0925,
	"num_input_tokens_seen": 10240000,
	"step": 10000
	},
	{
	"epoch": 0.0968804495252858,
	"grad_norm": 0.8762685656547546,
	"learning_rate": 4.9515643885920963e-05,
	"loss": 0.0867,
	"num_input_tokens_seen": 10752000,
	"step": 10500
	},
	{
	"epoch": 0.10149380426458512,
	"grad_norm": 2.166046142578125,
	"learning_rate": 4.949257711222447e-05,
	"loss": 0.0906,
	"num_input_tokens_seen": 11264000,
	"step": 11000
	},
	{
	"epoch": 0.10610715900388444,
	"grad_norm": 0.9908414483070374,
	"learning_rate": 4.946951033852797e-05,
	"loss": 0.0989,
	"num_input_tokens_seen": 11776000,
	"step": 11500
	},
	{
	"epoch": 0.11072051374318377,
	"grad_norm": 0.9543777704238892,
	"learning_rate": 4.944644356483147e-05,
	"loss": 0.0917,
	"num_input_tokens_seen": 12288000,
	"step": 12000
	},
	{
	"epoch": 0.11533386848248309,
	"grad_norm": 2.302893877029419,
	"learning_rate": 4.942337679113498e-05,
	"loss": 0.0906,
	"num_input_tokens_seen": 12800000,
	"step": 12500
	},
	{
	"epoch": 0.11994722322178242,
	"grad_norm": 1.214758038520813,
	"learning_rate": 4.940031001743849e-05,
	"loss": 0.0831,
	"num_input_tokens_seen": 13312000,
	"step": 13000
	},
	{
	"epoch": 0.12456057796108173,
	"grad_norm": 1.4494785070419312,
	"learning_rate": 4.937724324374199e-05,
	"loss": 0.0949,
	"num_input_tokens_seen": 13824000,
	"step": 13500
	},
	{
	"epoch": 0.12917393270038105,
	"grad_norm": 1.3759499788284302,
	"learning_rate": 4.935417647004549e-05,
	"loss": 0.0775,
	"num_input_tokens_seen": 14336000,
	"step": 14000
	},
	{
	"epoch": 0.13378728743968038,
	"grad_norm": 1.4409326314926147,
	"learning_rate": 4.9331109696348995e-05,
	"loss": 0.0874,
	"num_input_tokens_seen": 14848000,
	"step": 14500
	},
	{
	"epoch": 0.1384006421789797,
	"grad_norm": 0.6916935443878174,
	"learning_rate": 4.9308042922652496e-05,
	"loss": 0.0888,
	"num_input_tokens_seen": 15360000,
	"step": 15000
	},
	{
	"epoch": 0.14301399691827904,
	"grad_norm": 2.6819546222686768,
	"learning_rate": 4.9284976148956e-05,
	"loss": 0.0866,
	"num_input_tokens_seen": 15872000,
	"step": 15500
	},
	{
	"epoch": 0.14762735165757837,
	"grad_norm": 2.243403434753418,
	"learning_rate": 4.9261909375259504e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 16384000,
	"step": 16000
	},
	{
	"epoch": 0.15224070639687767,
	"grad_norm": 0.6077441573143005,
	"learning_rate": 4.9238842601563004e-05,
	"loss": 0.0829,
	"num_input_tokens_seen": 16896000,
	"step": 16500
	},
	{
	"epoch": 0.156854061136177,
	"grad_norm": 0.7938207387924194,
	"learning_rate": 4.921577582786651e-05,
	"loss": 0.0807,
	"num_input_tokens_seen": 17408000,
	"step": 17000
	},
	{
	"epoch": 0.16146741587547633,
	"grad_norm": 1.7776683568954468,
	"learning_rate": 4.919270905417002e-05,
	"loss": 0.0801,
	"num_input_tokens_seen": 17920000,
	"step": 17500
	},
	{
	"epoch": 0.16608077061477566,
	"grad_norm": 0.9043099880218506,
	"learning_rate": 4.916964228047351e-05,
	"loss": 0.0806,
	"num_input_tokens_seen": 18432000,
	"step": 18000
	},
	{
	"epoch": 0.17069412535407497,
	"grad_norm": 3.0099849700927734,
	"learning_rate": 4.914657550677702e-05,
	"loss": 0.0801,
	"num_input_tokens_seen": 18944000,
	"step": 18500
	},
	{
	"epoch": 0.1753074800933743,
	"grad_norm": 1.3632686138153076,
	"learning_rate": 4.912350873308053e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 19456000,
	"step": 19000
	},
	{
	"epoch": 0.17992083483267363,
	"grad_norm": 1.3890104293823242,
	"learning_rate": 4.910044195938403e-05,
	"loss": 0.0807,
	"num_input_tokens_seen": 19968000,
	"step": 19500
	},
	{
	"epoch": 0.18453418957197296,
	"grad_norm": 1.393978476524353,
	"learning_rate": 4.907737518568753e-05,
	"loss": 0.09,
	"num_input_tokens_seen": 20480000,
	"step": 20000
	},
	{
	"epoch": 0.18914754431127226,
	"grad_norm": 0.9538819193840027,
	"learning_rate": 4.9054308411991036e-05,
	"loss": 0.0862,
	"num_input_tokens_seen": 20992000,
	"step": 20500
	},
	{
	"epoch": 0.1937608990505716,
	"grad_norm": 1.6974983215332031,
	"learning_rate": 4.903124163829454e-05,
	"loss": 0.0778,
	"num_input_tokens_seen": 21504000,
	"step": 21000
	},
	{
	"epoch": 0.19837425378987092,
	"grad_norm": 0.43043065071105957,
	"learning_rate": 4.900817486459804e-05,
	"loss": 0.0927,
	"num_input_tokens_seen": 22016000,
	"step": 21500
	},
	{
	"epoch": 0.20298760852917025,
	"grad_norm": 0.9475088119506836,
	"learning_rate": 4.8985108090901545e-05,
	"loss": 0.0813,
	"num_input_tokens_seen": 22528000,
	"step": 22000
	},
	{
	"epoch": 0.20760096326846958,
	"grad_norm": 3.547081470489502,
	"learning_rate": 4.8962041317205045e-05,
	"loss": 0.0849,
	"num_input_tokens_seen": 23040000,
	"step": 22500
	},
	{
	"epoch": 0.21221431800776888,
	"grad_norm": 1.2342774868011475,
	"learning_rate": 4.893897454350855e-05,
	"loss": 0.0831,
	"num_input_tokens_seen": 23552000,
	"step": 23000
	},
	{
	"epoch": 0.2168276727470682,
	"grad_norm": 2.133857488632202,
	"learning_rate": 4.891590776981205e-05,
	"loss": 0.0774,
	"num_input_tokens_seen": 24064000,
	"step": 23500
	},
	{
	"epoch": 0.22144102748636754,
	"grad_norm": 2.0566883087158203,
	"learning_rate": 4.889284099611556e-05,
	"loss": 0.0778,
	"num_input_tokens_seen": 24576000,
	"step": 24000
	},
	{
	"epoch": 0.22605438222566687,
	"grad_norm": 0.5913178324699402,
	"learning_rate": 4.886977422241906e-05,
	"loss": 0.0811,
	"num_input_tokens_seen": 25088000,
	"step": 24500
	},
	{
	"epoch": 0.23066773696496617,
	"grad_norm": 1.9674791097640991,
	"learning_rate": 4.884670744872256e-05,
	"loss": 0.0743,
	"num_input_tokens_seen": 25600000,
	"step": 25000
	},
	{
	"epoch": 0.2352810917042655,
	"grad_norm": 0.5584122538566589,
	"learning_rate": 4.882364067502607e-05,
	"loss": 0.0852,
	"num_input_tokens_seen": 26112000,
	"step": 25500
	},
	{
	"epoch": 0.23989444644356483,
	"grad_norm": 1.9229296445846558,
	"learning_rate": 4.880057390132957e-05,
	"loss": 0.0828,
	"num_input_tokens_seen": 26624000,
	"step": 26000
	},
	{
	"epoch": 0.24450780118286417,
	"grad_norm": 1.968058466911316,
	"learning_rate": 4.877750712763308e-05,
	"loss": 0.0822,
	"num_input_tokens_seen": 27136000,
	"step": 26500
	},
	{
	"epoch": 0.24912115592216347,
	"grad_norm": 1.6034080982208252,
	"learning_rate": 4.875444035393658e-05,
	"loss": 0.0822,
	"num_input_tokens_seen": 27648000,
	"step": 27000
	},
	{
	"epoch": 0.2537345106614628,
	"grad_norm": 1.7301759719848633,
	"learning_rate": 4.873137358024008e-05,
	"loss": 0.0833,
	"num_input_tokens_seen": 28160000,
	"step": 27500
	},
	{
	"epoch": 0.2583478654007621,
	"grad_norm": 2.2902233600616455,
	"learning_rate": 4.8708306806543585e-05,
	"loss": 0.0904,
	"num_input_tokens_seen": 28672000,
	"step": 28000
	},
	{
	"epoch": 0.26296122014006146,
	"grad_norm": 2.805758476257324,
	"learning_rate": 4.868524003284709e-05,
	"loss": 0.0854,
	"num_input_tokens_seen": 29184000,
	"step": 28500
	},
	{
	"epoch": 0.26757457487936076,
	"grad_norm": 1.0350342988967896,
	"learning_rate": 4.8662173259150587e-05,
	"loss": 0.0806,
	"num_input_tokens_seen": 29696000,
	"step": 29000
	},
	{
	"epoch": 0.2721879296186601,
	"grad_norm": 0.6509085893630981,
	"learning_rate": 4.8639106485454094e-05,
	"loss": 0.0846,
	"num_input_tokens_seen": 30208000,
	"step": 29500
	},
	{
	"epoch": 0.2768012843579594,
	"grad_norm": 1.2850301265716553,
	"learning_rate": 4.86160397117576e-05,
	"loss": 0.0857,
	"num_input_tokens_seen": 30720000,
	"step": 30000
	},
	{
	"epoch": 0.2814146390972587,
	"grad_norm": 1.7259219884872437,
	"learning_rate": 4.85929729380611e-05,
	"loss": 0.0839,
	"num_input_tokens_seen": 31232000,
	"step": 30500
	},
	{
	"epoch": 0.2860279938365581,
	"grad_norm": 1.7700318098068237,
	"learning_rate": 4.85699061643646e-05,
	"loss": 0.0768,
	"num_input_tokens_seen": 31744000,
	"step": 31000
	},
	{
	"epoch": 0.2906413485758574,
	"grad_norm": 1.1451270580291748,
	"learning_rate": 4.854683939066811e-05,
	"loss": 0.0824,
	"num_input_tokens_seen": 32256000,
	"step": 31500
	},
	{
	"epoch": 0.29525470331515674,
	"grad_norm": 1.772096872329712,
	"learning_rate": 4.852377261697161e-05,
	"loss": 0.0847,
	"num_input_tokens_seen": 32768000,
	"step": 32000
	},
	{
	"epoch": 0.29986805805445604,
	"grad_norm": 1.671513557434082,
	"learning_rate": 4.850070584327511e-05,
	"loss": 0.0838,
	"num_input_tokens_seen": 33280000,
	"step": 32500
	},
	{
	"epoch": 0.30448141279375535,
	"grad_norm": 0.9703548550605774,
	"learning_rate": 4.847763906957862e-05,
	"loss": 0.08,
	"num_input_tokens_seen": 33792000,
	"step": 33000
	},
	{
	"epoch": 0.3090947675330547,
	"grad_norm": 0.7928164601325989,
	"learning_rate": 4.8454572295882126e-05,
	"loss": 0.08,
	"num_input_tokens_seen": 34304000,
	"step": 33500
	},
	{
	"epoch": 0.313708122272354,
	"grad_norm": 1.1138111352920532,
	"learning_rate": 4.8431505522185626e-05,
	"loss": 0.0733,
	"num_input_tokens_seen": 34816000,
	"step": 34000
	},
	{
	"epoch": 0.3183214770116533,
	"grad_norm": 0.89890056848526,
	"learning_rate": 4.840843874848913e-05,
	"loss": 0.0828,
	"num_input_tokens_seen": 35328000,
	"step": 34500
	},
	{
	"epoch": 0.32293483175095267,
	"grad_norm": 2.127382516860962,
	"learning_rate": 4.8385371974792634e-05,
	"loss": 0.0818,
	"num_input_tokens_seen": 35840000,
	"step": 35000
	},
	{
	"epoch": 0.32754818649025197,
	"grad_norm": 1.0730081796646118,
	"learning_rate": 4.8362305201096135e-05,
	"loss": 0.0776,
	"num_input_tokens_seen": 36352000,
	"step": 35500
	},
	{
	"epoch": 0.3321615412295513,
	"grad_norm": 0.5055031180381775,
	"learning_rate": 4.833923842739964e-05,
	"loss": 0.085,
	"num_input_tokens_seen": 36864000,
	"step": 36000
	},
	{
	"epoch": 0.33677489596885063,
	"grad_norm": 2.764418601989746,
	"learning_rate": 4.831617165370314e-05,
	"loss": 0.0795,
	"num_input_tokens_seen": 37376000,
	"step": 36500
	},
	{
	"epoch": 0.34138825070814993,
	"grad_norm": 2.272135019302368,
	"learning_rate": 4.829310488000664e-05,
	"loss": 0.0757,
	"num_input_tokens_seen": 37888000,
	"step": 37000
	},
	{
	"epoch": 0.3460016054474493,
	"grad_norm": 2.2221481800079346,
	"learning_rate": 4.827003810631015e-05,
	"loss": 0.0881,
	"num_input_tokens_seen": 38400000,
	"step": 37500
	},
	{
	"epoch": 0.3506149601867486,
	"grad_norm": 1.7147547006607056,
	"learning_rate": 4.824697133261365e-05,
	"loss": 0.0805,
	"num_input_tokens_seen": 38912000,
	"step": 38000
	},
	{
	"epoch": 0.35522831492604795,
	"grad_norm": 2.031804084777832,
	"learning_rate": 4.822390455891715e-05,
	"loss": 0.0762,
	"num_input_tokens_seen": 39424000,
	"step": 38500
	},
	{
	"epoch": 0.35984166966534725,
	"grad_norm": 0.8008927702903748,
	"learning_rate": 4.820083778522066e-05,
	"loss": 0.0794,
	"num_input_tokens_seen": 39936000,
	"step": 39000
	},
	{
	"epoch": 0.36445502440464655,
	"grad_norm": 1.5696818828582764,
	"learning_rate": 4.8177771011524167e-05,
	"loss": 0.0821,
	"num_input_tokens_seen": 40448000,
	"step": 39500
	},
	{
	"epoch": 0.3690683791439459,
	"grad_norm": 0.7710667252540588,
	"learning_rate": 4.815470423782766e-05,
	"loss": 0.0776,
	"num_input_tokens_seen": 40960000,
	"step": 40000
	},
	{
	"epoch": 0.3736817338832452,
	"grad_norm": 1.0794172286987305,
	"learning_rate": 4.813163746413117e-05,
	"loss": 0.0781,
	"num_input_tokens_seen": 41472000,
	"step": 40500
	},
	{
	"epoch": 0.3782950886225445,
	"grad_norm": 2.43756365776062,
	"learning_rate": 4.8108570690434675e-05,
	"loss": 0.0787,
	"num_input_tokens_seen": 41984000,
	"step": 41000
	},
	{
	"epoch": 0.3829084433618439,
	"grad_norm": 0.6750785112380981,
	"learning_rate": 4.8085503916738176e-05,
	"loss": 0.081,
	"num_input_tokens_seen": 42496000,
	"step": 41500
	},
	{
	"epoch": 0.3875217981011432,
	"grad_norm": 0.7780609726905823,
	"learning_rate": 4.8062437143041676e-05,
	"loss": 0.0791,
	"num_input_tokens_seen": 43008000,
	"step": 42000
	},
	{
	"epoch": 0.39213515284044254,
	"grad_norm": 1.1585677862167358,
	"learning_rate": 4.8039370369345184e-05,
	"loss": 0.0811,
	"num_input_tokens_seen": 43520000,
	"step": 42500
	},
	{
	"epoch": 0.39674850757974184,
	"grad_norm": 2.7044448852539062,
	"learning_rate": 4.8016303595648684e-05,
	"loss": 0.0775,
	"num_input_tokens_seen": 44032000,
	"step": 43000
	},
	{
	"epoch": 0.40136186231904114,
	"grad_norm": 2.9311044216156006,
	"learning_rate": 4.799323682195219e-05,
	"loss": 0.0739,
	"num_input_tokens_seen": 44544000,
	"step": 43500
	},
	{
	"epoch": 0.4059752170583405,
	"grad_norm": 2.255924940109253,
	"learning_rate": 4.797017004825569e-05,
	"loss": 0.0814,
	"num_input_tokens_seen": 45056000,
	"step": 44000
	},
	{
	"epoch": 0.4105885717976398,
	"grad_norm": 3.5307369232177734,
	"learning_rate": 4.79471032745592e-05,
	"loss": 0.0773,
	"num_input_tokens_seen": 45568000,
	"step": 44500
	},
	{
	"epoch": 0.41520192653693916,
	"grad_norm": 0.7721351385116577,
	"learning_rate": 4.79240365008627e-05,
	"loss": 0.074,
	"num_input_tokens_seen": 46080000,
	"step": 45000
	},
	{
	"epoch": 0.41981528127623846,
	"grad_norm": 1.668393611907959,
	"learning_rate": 4.79009697271662e-05,
	"loss": 0.0763,
	"num_input_tokens_seen": 46592000,
	"step": 45500
	},
	{
	"epoch": 0.42442863601553776,
	"grad_norm": 2.3824353218078613,
	"learning_rate": 4.787790295346971e-05,
	"loss": 0.0772,
	"num_input_tokens_seen": 47104000,
	"step": 46000
	},
	{
	"epoch": 0.4290419907548371,
	"grad_norm": 2.127598762512207,
	"learning_rate": 4.785483617977321e-05,
	"loss": 0.0803,
	"num_input_tokens_seen": 47616000,
	"step": 46500
	},
	{
	"epoch": 0.4336553454941364,
	"grad_norm": 2.958203077316284,
	"learning_rate": 4.7831769406076716e-05,
	"loss": 0.0781,
	"num_input_tokens_seen": 48128000,
	"step": 47000
	},
	{
	"epoch": 0.4382687002334357,
	"grad_norm": 0.7533183693885803,
	"learning_rate": 4.7808702632380217e-05,
	"loss": 0.0793,
	"num_input_tokens_seen": 48640000,
	"step": 47500
	},
	{
	"epoch": 0.4428820549727351,
	"grad_norm": 1.3638031482696533,
	"learning_rate": 4.778563585868372e-05,
	"loss": 0.081,
	"num_input_tokens_seen": 49152000,
	"step": 48000
	},
	{
	"epoch": 0.4474954097120344,
	"grad_norm": 1.3746527433395386,
	"learning_rate": 4.7762569084987225e-05,
	"loss": 0.0863,
	"num_input_tokens_seen": 49664000,
	"step": 48500
	},
	{
	"epoch": 0.45210876445133374,
	"grad_norm": 1.5628637075424194,
	"learning_rate": 4.773950231129073e-05,
	"loss": 0.0799,
	"num_input_tokens_seen": 50176000,
	"step": 49000
	},
	{
	"epoch": 0.45672211919063305,
	"grad_norm": 1.8787376880645752,
	"learning_rate": 4.7716435537594226e-05,
	"loss": 0.0782,
	"num_input_tokens_seen": 50688000,
	"step": 49500
	},
	{
	"epoch": 0.46133547392993235,
	"grad_norm": 1.3804419040679932,
	"learning_rate": 4.769336876389773e-05,
	"loss": 0.0833,
	"num_input_tokens_seen": 51200000,
	"step": 50000
	},
	{
	"epoch": 0.4659488286692317,
	"grad_norm": 1.6135491132736206,
	"learning_rate": 4.767030199020124e-05,
	"loss": 0.0762,
	"num_input_tokens_seen": 51712000,
	"step": 50500
	},
	{
	"epoch": 0.470562183408531,
	"grad_norm": 2.186791181564331,
	"learning_rate": 4.7647235216504734e-05,
	"loss": 0.0797,
	"num_input_tokens_seen": 52224000,
	"step": 51000
	},
	{
	"epoch": 0.4751755381478303,
	"grad_norm": 1.6921688318252563,
	"learning_rate": 4.762416844280824e-05,
	"loss": 0.0812,
	"num_input_tokens_seen": 52736000,
	"step": 51500
	},
	{
	"epoch": 0.47978889288712967,
	"grad_norm": 0.95241379737854,
	"learning_rate": 4.760110166911175e-05,
	"loss": 0.0788,
	"num_input_tokens_seen": 53248000,
	"step": 52000
	},
	{
	"epoch": 0.484402247626429,
	"grad_norm": 3.2142257690429688,
	"learning_rate": 4.757803489541525e-05,
	"loss": 0.0776,
	"num_input_tokens_seen": 53760000,
	"step": 52500
	},
	{
	"epoch": 0.48901560236572833,
	"grad_norm": 3.2678260803222656,
	"learning_rate": 4.755496812171875e-05,
	"loss": 0.0753,
	"num_input_tokens_seen": 54272000,
	"step": 53000
	},
	{
	"epoch": 0.49362895710502763,
	"grad_norm": 2.8343145847320557,
	"learning_rate": 4.753190134802226e-05,
	"loss": 0.0784,
	"num_input_tokens_seen": 54784000,
	"step": 53500
	},
	{
	"epoch": 0.49824231184432693,
	"grad_norm": 1.4818017482757568,
	"learning_rate": 4.750883457432576e-05,
	"loss": 0.0752,
	"num_input_tokens_seen": 55296000,
	"step": 54000
	},
	{
	"epoch": 0.5028556665836262,
	"grad_norm": 1.2139348983764648,
	"learning_rate": 4.7485767800629265e-05,
	"loss": 0.0734,
	"num_input_tokens_seen": 55808000,
	"step": 54500
	},
	{
	"epoch": 0.5074690213229256,
	"grad_norm": 1.3937476873397827,
	"learning_rate": 4.7462701026932766e-05,
	"loss": 0.0759,
	"num_input_tokens_seen": 56320000,
	"step": 55000
	},
	{
	"epoch": 0.512082376062225,
	"grad_norm": 1.7801790237426758,
	"learning_rate": 4.743963425323627e-05,
	"loss": 0.0799,
	"num_input_tokens_seen": 56832000,
	"step": 55500
	},
	{
	"epoch": 0.5166957308015242,
	"grad_norm": 0.9710603952407837,
	"learning_rate": 4.7416567479539774e-05,
	"loss": 0.0705,
	"num_input_tokens_seen": 57344000,
	"step": 56000
	},
	{
	"epoch": 0.5213090855408236,
	"grad_norm": 1.3923077583312988,
	"learning_rate": 4.739350070584328e-05,
	"loss": 0.0778,
	"num_input_tokens_seen": 57856000,
	"step": 56500
	},
	{
	"epoch": 0.5259224402801229,
	"grad_norm": 0.5901740193367004,
	"learning_rate": 4.737043393214678e-05,
	"loss": 0.0729,
	"num_input_tokens_seen": 58368000,
	"step": 57000
	},
	{
	"epoch": 0.5305357950194223,
	"grad_norm": 1.3465195894241333,
	"learning_rate": 4.734736715845028e-05,
	"loss": 0.0797,
	"num_input_tokens_seen": 58880000,
	"step": 57500
	},
	{
	"epoch": 0.5351491497587215,
	"grad_norm": 0.48033392429351807,
	"learning_rate": 4.732430038475379e-05,
	"loss": 0.0736,
	"num_input_tokens_seen": 59392000,
	"step": 58000
	},
	{
	"epoch": 0.5397625044980209,
	"grad_norm": 1.3446660041809082,
	"learning_rate": 4.730123361105729e-05,
	"loss": 0.0778,
	"num_input_tokens_seen": 59904000,
	"step": 58500
	},
	{
	"epoch": 0.5443758592373202,
	"grad_norm": 0.895521342754364,
	"learning_rate": 4.727816683736079e-05,
	"loss": 0.0754,
	"num_input_tokens_seen": 60416000,
	"step": 59000
	},
	{
	"epoch": 0.5489892139766195,
	"grad_norm": 1.3843989372253418,
	"learning_rate": 4.72551000636643e-05,
	"loss": 0.0817,
	"num_input_tokens_seen": 60928000,
	"step": 59500
	},
	{
	"epoch": 0.5536025687159188,
	"grad_norm": 1.5670028924942017,
	"learning_rate": 4.7232033289967806e-05,
	"loss": 0.0742,
	"num_input_tokens_seen": 61440000,
	"step": 60000
	},
	{
	"epoch": 0.5582159234552182,
	"grad_norm": 1.4761849641799927,
	"learning_rate": 4.72089665162713e-05,
	"loss": 0.0688,
	"num_input_tokens_seen": 61952000,
	"step": 60500
	},
	{
	"epoch": 0.5628292781945174,
	"grad_norm": 6.005481719970703,
	"learning_rate": 4.718589974257481e-05,
	"loss": 0.0836,
	"num_input_tokens_seen": 62464000,
	"step": 61000
	},
	{
	"epoch": 0.5674426329338168,
	"grad_norm": 1.2835499048233032,
	"learning_rate": 4.7162832968878314e-05,
	"loss": 0.0731,
	"num_input_tokens_seen": 62976000,
	"step": 61500
	},
	{
	"epoch": 0.5720559876731162,
	"grad_norm": 1.769403338432312,
	"learning_rate": 4.7139766195181815e-05,
	"loss": 0.079,
	"num_input_tokens_seen": 63488000,
	"step": 62000
	},
	{
	"epoch": 0.5766693424124154,
	"grad_norm": 1.8391185998916626,
	"learning_rate": 4.7116699421485315e-05,
	"loss": 0.082,
	"num_input_tokens_seen": 64000000,
	"step": 62500
	},
	{
	"epoch": 0.5812826971517148,
	"grad_norm": 1.3075145483016968,
	"learning_rate": 4.709363264778882e-05,
	"loss": 0.0753,
	"num_input_tokens_seen": 64512000,
	"step": 63000
	},
	{
	"epoch": 0.5858960518910141,
	"grad_norm": 2.2406928539276123,
	"learning_rate": 4.707056587409232e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 65024000,
	"step": 63500
	},
	{
	"epoch": 0.5905094066303135,
	"grad_norm": 2.2750511169433594,
	"learning_rate": 4.7047499100395824e-05,
	"loss": 0.077,
	"num_input_tokens_seen": 65536000,
	"step": 64000
	},
	{
	"epoch": 0.5951227613696127,
	"grad_norm": 1.7060987949371338,
	"learning_rate": 4.702443232669933e-05,
	"loss": 0.0764,
	"num_input_tokens_seen": 66048000,
	"step": 64500
	},
	{
	"epoch": 0.5997361161089121,
	"grad_norm": 1.3420023918151855,
	"learning_rate": 4.700136555300283e-05,
	"loss": 0.0803,
	"num_input_tokens_seen": 66560000,
	"step": 65000
	},
	{
	"epoch": 0.6043494708482114,
	"grad_norm": 0.8915556073188782,
	"learning_rate": 4.697829877930634e-05,
	"loss": 0.0765,
	"num_input_tokens_seen": 67072000,
	"step": 65500
	},
	{
	"epoch": 0.6089628255875107,
	"grad_norm": 2.3567070960998535,
	"learning_rate": 4.695523200560984e-05,
	"loss": 0.0739,
	"num_input_tokens_seen": 67584000,
	"step": 66000
	},
	{
	"epoch": 0.61357618032681,
	"grad_norm": 1.8976528644561768,
	"learning_rate": 4.693216523191335e-05,
	"loss": 0.0738,
	"num_input_tokens_seen": 68096000,
	"step": 66500
	},
	{
	"epoch": 0.6181895350661094,
	"grad_norm": 2.0413930416107178,
	"learning_rate": 4.690909845821685e-05,
	"loss": 0.0826,
	"num_input_tokens_seen": 68608000,
	"step": 67000
	},
	{
	"epoch": 0.6228028898054087,
	"grad_norm": 4.672994613647461,
	"learning_rate": 4.6886031684520355e-05,
	"loss": 0.0773,
	"num_input_tokens_seen": 69120000,
	"step": 67500
	},
	{
	"epoch": 0.627416244544708,
	"grad_norm": 1.1743087768554688,
	"learning_rate": 4.6862964910823856e-05,
	"loss": 0.0745,
	"num_input_tokens_seen": 69632000,
	"step": 68000
	},
	{
	"epoch": 0.6320295992840074,
	"grad_norm": 0.7749766707420349,
	"learning_rate": 4.6839898137127356e-05,
	"loss": 0.0738,
	"num_input_tokens_seen": 70144000,
	"step": 68500
	},
	{
	"epoch": 0.6366429540233066,
	"grad_norm": 0.5075979232788086,
	"learning_rate": 4.6816831363430864e-05,
	"loss": 0.0747,
	"num_input_tokens_seen": 70656000,
	"step": 69000
	},
	{
	"epoch": 0.641256308762606,
	"grad_norm": 2.802272081375122,
	"learning_rate": 4.679376458973437e-05,
	"loss": 0.0825,
	"num_input_tokens_seen": 71168000,
	"step": 69500
	},
	{
	"epoch": 0.6458696635019053,
	"grad_norm": 1.798438549041748,
	"learning_rate": 4.6770697816037865e-05,
	"loss": 0.0766,
	"num_input_tokens_seen": 71680000,
	"step": 70000
	},
	{
	"epoch": 0.6504830182412047,
	"grad_norm": 1.7648403644561768,
	"learning_rate": 4.674763104234137e-05,
	"loss": 0.077,
	"num_input_tokens_seen": 72192000,
	"step": 70500
	},
	{
	"epoch": 0.6550963729805039,
	"grad_norm": 2.0195560455322266,
	"learning_rate": 4.672456426864488e-05,
	"loss": 0.0767,
	"num_input_tokens_seen": 72704000,
	"step": 71000
	},
	{
	"epoch": 0.6597097277198033,
	"grad_norm": 3.9862349033355713,
	"learning_rate": 4.670149749494837e-05,
	"loss": 0.0745,
	"num_input_tokens_seen": 73216000,
	"step": 71500
	},
	{
	"epoch": 0.6643230824591027,
	"grad_norm": 2.7226781845092773,
	"learning_rate": 4.667843072125188e-05,
	"loss": 0.0703,
	"num_input_tokens_seen": 73728000,
	"step": 72000
	},
	{
	"epoch": 0.6689364371984019,
	"grad_norm": 2.0484044551849365,
	"learning_rate": 4.665536394755539e-05,
	"loss": 0.0765,
	"num_input_tokens_seen": 74240000,
	"step": 72500
	},
	{
	"epoch": 0.6735497919377013,
	"grad_norm": 0.4825538694858551,
	"learning_rate": 4.663229717385889e-05,
	"loss": 0.0823,
	"num_input_tokens_seen": 74752000,
	"step": 73000
	},
	{
	"epoch": 0.6781631466770006,
	"grad_norm": 1.2127926349639893,
	"learning_rate": 4.660923040016239e-05,
	"loss": 0.0754,
	"num_input_tokens_seen": 75264000,
	"step": 73500
	},
	{
	"epoch": 0.6827765014162999,
	"grad_norm": 3.139049768447876,
	"learning_rate": 4.6586163626465897e-05,
	"loss": 0.0749,
	"num_input_tokens_seen": 75776000,
	"step": 74000
	},
	{
	"epoch": 0.6873898561555992,
	"grad_norm": 2.038872480392456,
	"learning_rate": 4.65630968527694e-05,
	"loss": 0.0753,
	"num_input_tokens_seen": 76288000,
	"step": 74500
	},
	{
	"epoch": 0.6920032108948986,
	"grad_norm": 4.1413469314575195,
	"learning_rate": 4.6540030079072904e-05,
	"loss": 0.0761,
	"num_input_tokens_seen": 76800000,
	"step": 75000
	},
	{
	"epoch": 0.6966165656341978,
	"grad_norm": 1.3078006505966187,
	"learning_rate": 4.6516963305376405e-05,
	"loss": 0.0766,
	"num_input_tokens_seen": 77312000,
	"step": 75500
	},
	{
	"epoch": 0.7012299203734972,
	"grad_norm": 1.2052334547042847,
	"learning_rate": 4.649389653167991e-05,
	"loss": 0.0749,
	"num_input_tokens_seen": 77824000,
	"step": 76000
	},
	{
	"epoch": 0.7058432751127965,
	"grad_norm": 1.5266985893249512,
	"learning_rate": 4.647082975798341e-05,
	"loss": 0.0768,
	"num_input_tokens_seen": 78336000,
	"step": 76500
	},
	{
	"epoch": 0.7104566298520959,
	"grad_norm": 13.878520011901855,
	"learning_rate": 4.6447762984286914e-05,
	"loss": 0.0813,
	"num_input_tokens_seen": 78848000,
	"step": 77000
	},
	{
	"epoch": 0.7150699845913951,
	"grad_norm": 0.8548376560211182,
	"learning_rate": 4.642469621059042e-05,
	"loss": 0.0693,
	"num_input_tokens_seen": 79360000,
	"step": 77500
	},
	{
	"epoch": 0.7196833393306945,
	"grad_norm": 1.8979346752166748,
	"learning_rate": 4.640162943689392e-05,
	"loss": 0.0795,
	"num_input_tokens_seen": 79872000,
	"step": 78000
	},
	{
	"epoch": 0.7242966940699939,
	"grad_norm": 0.6193153262138367,
	"learning_rate": 4.637856266319743e-05,
	"loss": 0.0776,
	"num_input_tokens_seen": 80384000,
	"step": 78500
	},
	{
	"epoch": 0.7289100488092931,
	"grad_norm": 1.736380934715271,
	"learning_rate": 4.635549588950093e-05,
	"loss": 0.079,
	"num_input_tokens_seen": 80896000,
	"step": 79000
	},
	{
	"epoch": 0.7335234035485925,
	"grad_norm": 3.559295415878296,
	"learning_rate": 4.633242911580443e-05,
	"loss": 0.0792,
	"num_input_tokens_seen": 81408000,
	"step": 79500
	},
	{
	"epoch": 0.7381367582878918,
	"grad_norm": 1.017986536026001,
	"learning_rate": 4.630936234210794e-05,
	"loss": 0.0782,
	"num_input_tokens_seen": 81920000,
	"step": 80000
	},
	{
	"epoch": 0.7427501130271911,
	"grad_norm": 1.2457808256149292,
	"learning_rate": 4.6286295568411445e-05,
	"loss": 0.0766,
	"num_input_tokens_seen": 82432000,
	"step": 80500
	},
	{
	"epoch": 0.7473634677664904,
	"grad_norm": 0.6746057271957397,
	"learning_rate": 4.626322879471494e-05,
	"loss": 0.0728,
	"num_input_tokens_seen": 82944000,
	"step": 81000
	},
	{
	"epoch": 0.7519768225057898,
	"grad_norm": 1.1048623323440552,
	"learning_rate": 4.6240162021018446e-05,
	"loss": 0.0763,
	"num_input_tokens_seen": 83456000,
	"step": 81500
	},
	{
	"epoch": 0.756590177245089,
	"grad_norm": 2.0804615020751953,
	"learning_rate": 4.621709524732195e-05,
	"loss": 0.0736,
	"num_input_tokens_seen": 83968000,
	"step": 82000
	},
	{
	"epoch": 0.7612035319843884,
	"grad_norm": 0.7726876735687256,
	"learning_rate": 4.6194028473625454e-05,
	"loss": 0.0756,
	"num_input_tokens_seen": 84480000,
	"step": 82500
	},
	{
	"epoch": 0.7658168867236878,
	"grad_norm": 1.618414044380188,
	"learning_rate": 4.6170961699928954e-05,
	"loss": 0.0736,
	"num_input_tokens_seen": 84992000,
	"step": 83000
	},
	{
	"epoch": 0.7704302414629871,
	"grad_norm": 0.2806508243083954,
	"learning_rate": 4.614789492623246e-05,
	"loss": 0.0757,
	"num_input_tokens_seen": 85504000,
	"step": 83500
	},
	{
	"epoch": 0.7750435962022864,
	"grad_norm": 1.093205451965332,
	"learning_rate": 4.612482815253596e-05,
	"loss": 0.0746,
	"num_input_tokens_seen": 86016000,
	"step": 84000
	},
	{
	"epoch": 0.7796569509415857,
	"grad_norm": 0.8395510911941528,
	"learning_rate": 4.610176137883946e-05,
	"loss": 0.0728,
	"num_input_tokens_seen": 86528000,
	"step": 84500
	},
	{
	"epoch": 0.7842703056808851,
	"grad_norm": 5.429121017456055,
	"learning_rate": 4.607869460514297e-05,
	"loss": 0.0752,
	"num_input_tokens_seen": 87040000,
	"step": 85000
	},
	{
	"epoch": 0.7888836604201843,
	"grad_norm": 1.0684977769851685,
	"learning_rate": 4.605562783144647e-05,
	"loss": 0.0734,
	"num_input_tokens_seen": 87552000,
	"step": 85500
	},
	{
	"epoch": 0.7934970151594837,
	"grad_norm": 4.412910461425781,
	"learning_rate": 4.603256105774998e-05,
	"loss": 0.0724,
	"num_input_tokens_seen": 88064000,
	"step": 86000
	},
	{
	"epoch": 0.798110369898783,
	"grad_norm": 1.352186918258667,
	"learning_rate": 4.600949428405348e-05,
	"loss": 0.0752,
	"num_input_tokens_seen": 88576000,
	"step": 86500
	},
	{
	"epoch": 0.8027237246380823,
	"grad_norm": 3.716979742050171,
	"learning_rate": 4.5986427510356986e-05,
	"loss": 0.0712,
	"num_input_tokens_seen": 89088000,
	"step": 87000
	},
	{
	"epoch": 0.8073370793773816,
	"grad_norm": 1.6584104299545288,
	"learning_rate": 4.596336073666049e-05,
	"loss": 0.0733,
	"num_input_tokens_seen": 89600000,
	"step": 87500
	},
	{
	"epoch": 0.811950434116681,
	"grad_norm": 2.3811452388763428,
	"learning_rate": 4.5940293962963994e-05,
	"loss": 0.0763,
	"num_input_tokens_seen": 90112000,
	"step": 88000
	},
	{
	"epoch": 0.8165637888559802,
	"grad_norm": 1.4352256059646606,
	"learning_rate": 4.5917227189267495e-05,
	"loss": 0.0696,
	"num_input_tokens_seen": 90624000,
	"step": 88500
	},
	{
	"epoch": 0.8211771435952796,
	"grad_norm": 2.95996356010437,
	"learning_rate": 4.5894160415570995e-05,
	"loss": 0.0675,
	"num_input_tokens_seen": 91136000,
	"step": 89000
	},
	{
	"epoch": 0.825790498334579,
	"grad_norm": 1.790480375289917,
	"learning_rate": 4.58710936418745e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 91648000,
	"step": 89500
	},
	{
	"epoch": 0.8304038530738783,
	"grad_norm": 2.4636244773864746,
	"learning_rate": 4.5848026868178e-05,
	"loss": 0.0725,
	"num_input_tokens_seen": 92160000,
	"step": 90000
	},
	{
	"epoch": 0.8350172078131776,
	"grad_norm": 1.4085214138031006,
	"learning_rate": 4.5824960094481504e-05,
	"loss": 0.0801,
	"num_input_tokens_seen": 92672000,
	"step": 90500
	},
	{
	"epoch": 0.8396305625524769,
	"grad_norm": 1.5080194473266602,
	"learning_rate": 4.580189332078501e-05,
	"loss": 0.0707,
	"num_input_tokens_seen": 93184000,
	"step": 91000
	},
	{
	"epoch": 0.8442439172917763,
	"grad_norm": 0.8035141229629517,
	"learning_rate": 4.577882654708852e-05,
	"loss": 0.0775,
	"num_input_tokens_seen": 93696000,
	"step": 91500
	},
	{
	"epoch": 0.8488572720310755,
	"grad_norm": 1.832581639289856,
	"learning_rate": 4.575575977339201e-05,
	"loss": 0.076,
	"num_input_tokens_seen": 94208000,
	"step": 92000
	},
	{
	"epoch": 0.8534706267703749,
	"grad_norm": 0.5887289047241211,
	"learning_rate": 4.573269299969552e-05,
	"loss": 0.0752,
	"num_input_tokens_seen": 94720000,
	"step": 92500
	},
	{
	"epoch": 0.8580839815096742,
	"grad_norm": 0.7849867939949036,
	"learning_rate": 4.570962622599903e-05,
	"loss": 0.0815,
	"num_input_tokens_seen": 95232000,
	"step": 93000
	},
	{
	"epoch": 0.8626973362489735,
	"grad_norm": 2.76053524017334,
	"learning_rate": 4.568655945230253e-05,
	"loss": 0.0696,
	"num_input_tokens_seen": 95744000,
	"step": 93500
	},
	{
	"epoch": 0.8673106909882728,
	"grad_norm": 0.608044445514679,
	"learning_rate": 4.566349267860603e-05,
	"loss": 0.0764,
	"num_input_tokens_seen": 96256000,
	"step": 94000
	},
	{
	"epoch": 0.8719240457275722,
	"grad_norm": 2.4751555919647217,
	"learning_rate": 4.5640425904909536e-05,
	"loss": 0.0706,
	"num_input_tokens_seen": 96768000,
	"step": 94500
	},
	{
	"epoch": 0.8765374004668715,
	"grad_norm": 0.5605325698852539,
	"learning_rate": 4.5617359131213036e-05,
	"loss": 0.074,
	"num_input_tokens_seen": 97280000,
	"step": 95000
	},
	{
	"epoch": 0.8811507552061708,
	"grad_norm": 2.0805656909942627,
	"learning_rate": 4.5594292357516544e-05,
	"loss": 0.0723,
	"num_input_tokens_seen": 97792000,
	"step": 95500
	},
	{
	"epoch": 0.8857641099454702,
	"grad_norm": 0.8538010120391846,
	"learning_rate": 4.5571225583820044e-05,
	"loss": 0.0755,
	"num_input_tokens_seen": 98304000,
	"step": 96000
	},
	{
	"epoch": 0.8903774646847694,
	"grad_norm": 0.7344834804534912,
	"learning_rate": 4.5548158810123545e-05,
	"loss": 0.0722,
	"num_input_tokens_seen": 98816000,
	"step": 96500
	},
	{
	"epoch": 0.8949908194240688,
	"grad_norm": 0.9666327238082886,
	"learning_rate": 4.552509203642705e-05,
	"loss": 0.0777,
	"num_input_tokens_seen": 99328000,
	"step": 97000
	},
	{
	"epoch": 0.8996041741633681,
	"grad_norm": 1.5512099266052246,
	"learning_rate": 4.550202526273055e-05,
	"loss": 0.0751,
	"num_input_tokens_seen": 99840000,
	"step": 97500
	},
	{
	"epoch": 0.9042175289026675,
	"grad_norm": 0.9923927187919617,
	"learning_rate": 4.547895848903406e-05,
	"loss": 0.073,
	"num_input_tokens_seen": 100352000,
	"step": 98000
	},
	{
	"epoch": 0.9088308836419667,
	"grad_norm": 1.5789976119995117,
	"learning_rate": 4.545589171533756e-05,
	"loss": 0.068,
	"num_input_tokens_seen": 100864000,
	"step": 98500
	},
	{
	"epoch": 0.9134442383812661,
	"grad_norm": 0.3622562885284424,
	"learning_rate": 4.543282494164107e-05,
	"loss": 0.0711,
	"num_input_tokens_seen": 101376000,
	"step": 99000
	},
	{
	"epoch": 0.9180575931205655,
	"grad_norm": 1.9762753248214722,
	"learning_rate": 4.540975816794457e-05,
	"loss": 0.0678,
	"num_input_tokens_seen": 101888000,
	"step": 99500
	},
	{
	"epoch": 0.9226709478598647,
	"grad_norm": 2.144947052001953,
	"learning_rate": 4.538669139424807e-05,
	"loss": 0.0705,
	"num_input_tokens_seen": 102400000,
	"step": 100000
	},
	{
	"epoch": 0.9272843025991641,
	"grad_norm": 0.5793939232826233,
	"learning_rate": 4.5363624620551576e-05,
	"loss": 0.0798,
	"num_input_tokens_seen": 102912000,
	"step": 100500
	},
	{
	"epoch": 0.9318976573384634,
	"grad_norm": 1.8652976751327515,
	"learning_rate": 4.5340557846855084e-05,
	"loss": 0.0723,
	"num_input_tokens_seen": 103424000,
	"step": 101000
	},
	{
	"epoch": 0.9365110120777627,
	"grad_norm": 1.8371716737747192,
	"learning_rate": 4.531749107315858e-05,
	"loss": 0.0752,
	"num_input_tokens_seen": 103936000,
	"step": 101500
	},
	{
	"epoch": 0.941124366817062,
	"grad_norm": 1.0695359706878662,
	"learning_rate": 4.5294424299462085e-05,
	"loss": 0.0786,
	"num_input_tokens_seen": 104448000,
	"step": 102000
	},
	{
	"epoch": 0.9457377215563614,
	"grad_norm": 1.6259958744049072,
	"learning_rate": 4.527135752576559e-05,
	"loss": 0.0726,
	"num_input_tokens_seen": 104960000,
	"step": 102500
	},
	{
	"epoch": 0.9503510762956606,
	"grad_norm": 2.0838193893432617,
	"learning_rate": 4.5248290752069086e-05,
	"loss": 0.0729,
	"num_input_tokens_seen": 105472000,
	"step": 103000
	},
	{
	"epoch": 0.95496443103496,
	"grad_norm": 1.8072469234466553,
	"learning_rate": 4.5225223978372593e-05,
	"loss": 0.0725,
	"num_input_tokens_seen": 105984000,
	"step": 103500
	},
	{
	"epoch": 0.9595777857742593,
	"grad_norm": 1.4469674825668335,
	"learning_rate": 4.52021572046761e-05,
	"loss": 0.0762,
	"num_input_tokens_seen": 106496000,
	"step": 104000
	},
	{
	"epoch": 0.9641911405135587,
	"grad_norm": 0.8151160478591919,
	"learning_rate": 4.51790904309796e-05,
	"loss": 0.0713,
	"num_input_tokens_seen": 107008000,
	"step": 104500
	},
	{
	"epoch": 0.968804495252858,
	"grad_norm": 2.5363306999206543,
	"learning_rate": 4.51560236572831e-05,
	"loss": 0.0717,
	"num_input_tokens_seen": 107520000,
	"step": 105000
	},
	{
	"epoch": 0.9734178499921573,
	"grad_norm": 2.3089513778686523,
	"learning_rate": 4.513295688358661e-05,
	"loss": 0.075,
	"num_input_tokens_seen": 108032000,
	"step": 105500
	},
	{
	"epoch": 0.9780312047314567,
	"grad_norm": 1.2738145589828491,
	"learning_rate": 4.510989010989011e-05,
	"loss": 0.0739,
	"num_input_tokens_seen": 108544000,
	"step": 106000
	},
	{
	"epoch": 0.9826445594707559,
	"grad_norm": 0.9310311675071716,
	"learning_rate": 4.508682333619362e-05,
	"loss": 0.0715,
	"num_input_tokens_seen": 109056000,
	"step": 106500
	},
	{
	"epoch": 0.9872579142100553,
	"grad_norm": 1.332413911819458,
	"learning_rate": 4.506375656249712e-05,
	"loss": 0.0762,
	"num_input_tokens_seen": 109568000,
	"step": 107000
	},
	{
	"epoch": 0.9918712689493546,
	"grad_norm": 1.171770691871643,
	"learning_rate": 4.504068978880062e-05,
	"loss": 0.0682,
	"num_input_tokens_seen": 110080000,
	"step": 107500
	},
	{
	"epoch": 0.9964846236886539,
	"grad_norm": 1.318642497062683,
	"learning_rate": 4.5017623015104126e-05,
	"loss": 0.0725,
	"num_input_tokens_seen": 110592000,
	"step": 108000
	},
	{
	"epoch": 1.0,
	"eval_combined_score": 0.07267016709729579,
	"eval_loss": 0.07267016172409058,
	"eval_mse": 0.07267016501992041,
	"eval_runtime": 46.4186,
	"eval_samples_per_second": 2075.42,
	"eval_steps_per_second": 259.444,
	"num_input_tokens_seen": 110981376,
	"step": 108381
	},
	{
	"epoch": 1.0010979784279532,
	"grad_norm": 2.0301551818847656,
	"learning_rate": 4.499455624140763e-05,
	"loss": 0.0723,
	"num_input_tokens_seen": 111103232,
	"step": 108500
	},
	{
	"epoch": 1.0057113331672525,
	"grad_norm": 0.46064960956573486,
	"learning_rate": 4.4971489467711134e-05,
	"loss": 0.066,
	"num_input_tokens_seen": 111615232,
	"step": 109000
	},
	{
	"epoch": 1.010324687906552,
	"grad_norm": 2.481804132461548,
	"learning_rate": 4.4948422694014634e-05,
	"loss": 0.0567,
	"num_input_tokens_seen": 112127232,
	"step": 109500
	},
	{
	"epoch": 1.0149380426458512,
	"grad_norm": 1.0883979797363281,
	"learning_rate": 4.492535592031814e-05,
	"loss": 0.0591,
	"num_input_tokens_seen": 112639232,
	"step": 110000
	},
	{
	"epoch": 1.0195513973851504,
	"grad_norm": 1.5821534395217896,
	"learning_rate": 4.490228914662164e-05,
	"loss": 0.0575,
	"num_input_tokens_seen": 113151232,
	"step": 110500
	},
	{
	"epoch": 1.02416475212445,
	"grad_norm": 1.1834355592727661,
	"learning_rate": 4.487922237292514e-05,
	"loss": 0.0643,
	"num_input_tokens_seen": 113663232,
	"step": 111000
	},
	{
	"epoch": 1.0287781068637492,
	"grad_norm": 0.5016165375709534,
	"learning_rate": 4.485615559922865e-05,
	"loss": 0.0598,
	"num_input_tokens_seen": 114175232,
	"step": 111500
	},
	{
	"epoch": 1.0333914616030484,
	"grad_norm": 2.372044086456299,
	"learning_rate": 4.483308882553216e-05,
	"loss": 0.0608,
	"num_input_tokens_seen": 114687232,
	"step": 112000
	},
	{
	"epoch": 1.0380048163423479,
	"grad_norm": 1.4434441328048706,
	"learning_rate": 4.481002205183565e-05,
	"loss": 0.059,
	"num_input_tokens_seen": 115199232,
	"step": 112500
	},
	{
	"epoch": 1.0426181710816471,
	"grad_norm": 1.329825520515442,
	"learning_rate": 4.478695527813916e-05,
	"loss": 0.061,
	"num_input_tokens_seen": 115711232,
	"step": 113000
	},
	{
	"epoch": 1.0472315258209464,
	"grad_norm": 0.6627879738807678,
	"learning_rate": 4.4763888504442666e-05,
	"loss": 0.0562,
	"num_input_tokens_seen": 116223232,
	"step": 113500
	},
	{
	"epoch": 1.0518448805602458,
	"grad_norm": 1.4965338706970215,
	"learning_rate": 4.474082173074617e-05,
	"loss": 0.0614,
	"num_input_tokens_seen": 116735232,
	"step": 114000
	},
	{
	"epoch": 1.056458235299545,
	"grad_norm": 4.595455646514893,
	"learning_rate": 4.471775495704967e-05,
	"loss": 0.0569,
	"num_input_tokens_seen": 117247232,
	"step": 114500
	},
	{
	"epoch": 1.0610715900388445,
	"grad_norm": 1.5899192094802856,
	"learning_rate": 4.4694688183353175e-05,
	"loss": 0.058,
	"num_input_tokens_seen": 117759232,
	"step": 115000
	},
	{
	"epoch": 1.0656849447781438,
	"grad_norm": 1.812812328338623,
	"learning_rate": 4.4671621409656675e-05,
	"loss": 0.0564,
	"num_input_tokens_seen": 118271232,
	"step": 115500
	},
	{
	"epoch": 1.070298299517443,
	"grad_norm": 1.8089003562927246,
	"learning_rate": 4.4648554635960176e-05,
	"loss": 0.0664,
	"num_input_tokens_seen": 118783232,
	"step": 116000
	},
	{
	"epoch": 1.0749116542567425,
	"grad_norm": 2.216608762741089,
	"learning_rate": 4.462548786226368e-05,
	"loss": 0.0599,
	"num_input_tokens_seen": 119295232,
	"step": 116500
	},
	{
	"epoch": 1.0795250089960418,
	"grad_norm": 2.6362509727478027,
	"learning_rate": 4.4602421088567184e-05,
	"loss": 0.0585,
	"num_input_tokens_seen": 119807232,
	"step": 117000
	},
	{
	"epoch": 1.084138363735341,
	"grad_norm": 0.8326151371002197,
	"learning_rate": 4.457935431487069e-05,
	"loss": 0.0593,
	"num_input_tokens_seen": 120319232,
	"step": 117500
	},
	{
	"epoch": 1.0887517184746405,
	"grad_norm": 1.3363105058670044,
	"learning_rate": 4.455628754117419e-05,
	"loss": 0.056,
	"num_input_tokens_seen": 120831232,
	"step": 118000
	},
	{
	"epoch": 1.0933650732139397,
	"grad_norm": 2.2342283725738525,
	"learning_rate": 4.45332207674777e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 121343232,
	"step": 118500
	},
	{
	"epoch": 1.097978427953239,
	"grad_norm": 1.9718506336212158,
	"learning_rate": 4.45101539937812e-05,
	"loss": 0.0625,
	"num_input_tokens_seen": 121855232,
	"step": 119000
	},
	{
	"epoch": 1.1025917826925384,
	"grad_norm": 0.7142735123634338,
	"learning_rate": 4.448708722008471e-05,
	"loss": 0.0565,
	"num_input_tokens_seen": 122367232,
	"step": 119500
	},
	{
	"epoch": 1.1072051374318377,
	"grad_norm": 1.1628931760787964,
	"learning_rate": 4.446402044638821e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 122879232,
	"step": 120000
	},
	{
	"epoch": 1.111818492171137,
	"grad_norm": 1.8776410818099976,
	"learning_rate": 4.444095367269171e-05,
	"loss": 0.0642,
	"num_input_tokens_seen": 123391232,
	"step": 120500
	},
	{
	"epoch": 1.1164318469104364,
	"grad_norm": 1.5755925178527832,
	"learning_rate": 4.4417886898995216e-05,
	"loss": 0.0631,
	"num_input_tokens_seen": 123903232,
	"step": 121000
	},
	{
	"epoch": 1.1210452016497356,
	"grad_norm": 1.7925944328308105,
	"learning_rate": 4.4394820125298716e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 124415232,
	"step": 121500
	},
	{
	"epoch": 1.125658556389035,
	"grad_norm": 2.4041876792907715,
	"learning_rate": 4.437175335160222e-05,
	"loss": 0.0552,
	"num_input_tokens_seen": 124927232,
	"step": 122000
	},
	{
	"epoch": 1.1302719111283344,
	"grad_norm": 2.1456570625305176,
	"learning_rate": 4.4348686577905724e-05,
	"loss": 0.065,
	"num_input_tokens_seen": 125439232,
	"step": 122500
	},
	{
	"epoch": 1.1348852658676336,
	"grad_norm": 1.278905987739563,
	"learning_rate": 4.432561980420923e-05,
	"loss": 0.0648,
	"num_input_tokens_seen": 125951232,
	"step": 123000
	},
	{
	"epoch": 1.1394986206069329,
	"grad_norm": 1.4145876169204712,
	"learning_rate": 4.4302553030512725e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 126463232,
	"step": 123500
	},
	{
	"epoch": 1.1441119753462323,
	"grad_norm": 1.247292160987854,
	"learning_rate": 4.427948625681623e-05,
	"loss": 0.0616,
	"num_input_tokens_seen": 126975232,
	"step": 124000
	},
	{
	"epoch": 1.1487253300855316,
	"grad_norm": 1.0648530721664429,
	"learning_rate": 4.425641948311974e-05,
	"loss": 0.0577,
	"num_input_tokens_seen": 127487232,
	"step": 124500
	},
	{
	"epoch": 1.1533386848248308,
	"grad_norm": 2.285616874694824,
	"learning_rate": 4.423335270942324e-05,
	"loss": 0.0574,
	"num_input_tokens_seen": 127999232,
	"step": 125000
	},
	{
	"epoch": 1.1579520395641303,
	"grad_norm": 1.124847173690796,
	"learning_rate": 4.421028593572674e-05,
	"loss": 0.0599,
	"num_input_tokens_seen": 128511232,
	"step": 125500
	},
	{
	"epoch": 1.1625653943034295,
	"grad_norm": 2.4443585872650146,
	"learning_rate": 4.418721916203025e-05,
	"loss": 0.0568,
	"num_input_tokens_seen": 129023232,
	"step": 126000
	},
	{
	"epoch": 1.167178749042729,
	"grad_norm": 0.8579834699630737,
	"learning_rate": 4.416415238833375e-05,
	"loss": 0.0628,
	"num_input_tokens_seen": 129535232,
	"step": 126500
	},
	{
	"epoch": 1.1717921037820282,
	"grad_norm": 3.7771518230438232,
	"learning_rate": 4.4141085614637256e-05,
	"loss": 0.0618,
	"num_input_tokens_seen": 130047232,
	"step": 127000
	},
	{
	"epoch": 1.1764054585213275,
	"grad_norm": 1.2302302122116089,
	"learning_rate": 4.411801884094076e-05,
	"loss": 0.0569,
	"num_input_tokens_seen": 130559232,
	"step": 127500
	},
	{
	"epoch": 1.1810188132606267,
	"grad_norm": 5.366886615753174,
	"learning_rate": 4.409495206724426e-05,
	"loss": 0.0581,
	"num_input_tokens_seen": 131071232,
	"step": 128000
	},
	{
	"epoch": 1.1856321679999262,
	"grad_norm": 1.6237967014312744,
	"learning_rate": 4.4071885293547765e-05,
	"loss": 0.0564,
	"num_input_tokens_seen": 131583232,
	"step": 128500
	},
	{
	"epoch": 1.1902455227392255,
	"grad_norm": 1.025489091873169,
	"learning_rate": 4.4048818519851265e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 132095232,
	"step": 129000
	},
	{
	"epoch": 1.194858877478525,
	"grad_norm": 3.0035746097564697,
	"learning_rate": 4.402575174615477e-05,
	"loss": 0.0567,
	"num_input_tokens_seen": 132607232,
	"step": 129500
	},
	{
	"epoch": 1.1994722322178242,
	"grad_norm": 0.4716099202632904,
	"learning_rate": 4.4002684972458273e-05,
	"loss": 0.0594,
	"num_input_tokens_seen": 133119232,
	"step": 130000
	},
	{
	"epoch": 1.2040855869571234,
	"grad_norm": 1.073433756828308,
	"learning_rate": 4.397961819876178e-05,
	"loss": 0.0638,
	"num_input_tokens_seen": 133631232,
	"step": 130500
	},
	{
	"epoch": 1.208698941696423,
	"grad_norm": 1.676879644393921,
	"learning_rate": 4.395655142506528e-05,
	"loss": 0.0665,
	"num_input_tokens_seen": 134143232,
	"step": 131000
	},
	{
	"epoch": 1.2133122964357221,
	"grad_norm": 1.4313554763793945,
	"learning_rate": 4.393348465136878e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 134655232,
	"step": 131500
	},
	{
	"epoch": 1.2179256511750214,
	"grad_norm": 1.8880019187927246,
	"learning_rate": 4.391041787767229e-05,
	"loss": 0.0568,
	"num_input_tokens_seen": 135167232,
	"step": 132000
	},
	{
	"epoch": 1.2225390059143209,
	"grad_norm": 1.572786569595337,
	"learning_rate": 4.38873511039758e-05,
	"loss": 0.0581,
	"num_input_tokens_seen": 135679232,
	"step": 132500
	},
	{
	"epoch": 1.22715236065362,
	"grad_norm": 1.1069833040237427,
	"learning_rate": 4.386428433027929e-05,
	"loss": 0.0567,
	"num_input_tokens_seen": 136191232,
	"step": 133000
	},
	{
	"epoch": 1.2317657153929193,
	"grad_norm": 1.1832222938537598,
	"learning_rate": 4.38412175565828e-05,
	"loss": 0.0589,
	"num_input_tokens_seen": 136703232,
	"step": 133500
	},
	{
	"epoch": 1.2363790701322188,
	"grad_norm": 0.8395095467567444,
	"learning_rate": 4.3818150782886305e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 137215232,
	"step": 134000
	},
	{
	"epoch": 1.240992424871518,
	"grad_norm": 1.2240726947784424,
	"learning_rate": 4.3795084009189806e-05,
	"loss": 0.0639,
	"num_input_tokens_seen": 137727232,
	"step": 134500
	},
	{
	"epoch": 1.2456057796108173,
	"grad_norm": 0.596113383769989,
	"learning_rate": 4.3772017235493306e-05,
	"loss": 0.0622,
	"num_input_tokens_seen": 138239232,
	"step": 135000
	},
	{
	"epoch": 1.2502191343501168,
	"grad_norm": 1.9236828088760376,
	"learning_rate": 4.3748950461796814e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 138751232,
	"step": 135500
	},
	{
	"epoch": 1.254832489089416,
	"grad_norm": 0.9456164836883545,
	"learning_rate": 4.3725883688100314e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 139263232,
	"step": 136000
	},
	{
	"epoch": 1.2594458438287153,
	"grad_norm": 3.4136688709259033,
	"learning_rate": 4.3702816914403815e-05,
	"loss": 0.0638,
	"num_input_tokens_seen": 139775232,
	"step": 136500
	},
	{
	"epoch": 1.2640591985680147,
	"grad_norm": 1.01094388961792,
	"learning_rate": 4.367975014070732e-05,
	"loss": 0.0598,
	"num_input_tokens_seen": 140287232,
	"step": 137000
	},
	{
	"epoch": 1.268672553307314,
	"grad_norm": 1.1260863542556763,
	"learning_rate": 4.365668336701082e-05,
	"loss": 0.0586,
	"num_input_tokens_seen": 140799232,
	"step": 137500
	},
	{
	"epoch": 1.2732859080466135,
	"grad_norm": 3.8169174194335938,
	"learning_rate": 4.363361659331433e-05,
	"loss": 0.0616,
	"num_input_tokens_seen": 141311232,
	"step": 138000
	},
	{
	"epoch": 1.2778992627859127,
	"grad_norm": 0.5968789458274841,
	"learning_rate": 4.361054981961783e-05,
	"loss": 0.0586,
	"num_input_tokens_seen": 141823232,
	"step": 138500
	},
	{
	"epoch": 1.282512617525212,
	"grad_norm": 1.5847851037979126,
	"learning_rate": 4.358748304592133e-05,
	"loss": 0.0531,
	"num_input_tokens_seen": 142335232,
	"step": 139000
	},
	{
	"epoch": 1.2871259722645112,
	"grad_norm": 1.6152338981628418,
	"learning_rate": 4.356441627222484e-05,
	"loss": 0.0621,
	"num_input_tokens_seen": 142847232,
	"step": 139500
	},
	{
	"epoch": 1.2917393270038107,
	"grad_norm": 1.3131306171417236,
	"learning_rate": 4.3541349498528346e-05,
	"loss": 0.0596,
	"num_input_tokens_seen": 143359232,
	"step": 140000
	},
	{
	"epoch": 1.29635268174311,
	"grad_norm": 1.424111247062683,
	"learning_rate": 4.351828272483185e-05,
	"loss": 0.0606,
	"num_input_tokens_seen": 143871232,
	"step": 140500
	},
	{
	"epoch": 1.3009660364824094,
	"grad_norm": 0.8023368716239929,
	"learning_rate": 4.349521595113535e-05,
	"loss": 0.0644,
	"num_input_tokens_seen": 144383232,
	"step": 141000
	},
	{
	"epoch": 1.3055793912217086,
	"grad_norm": 1.9093987941741943,
	"learning_rate": 4.3472149177438855e-05,
	"loss": 0.063,
	"num_input_tokens_seen": 144895232,
	"step": 141500
	},
	{
	"epoch": 1.3101927459610079,
	"grad_norm": 2.1738569736480713,
	"learning_rate": 4.3449082403742355e-05,
	"loss": 0.0627,
	"num_input_tokens_seen": 145407232,
	"step": 142000
	},
	{
	"epoch": 1.3148061007003071,
	"grad_norm": 2.2907350063323975,
	"learning_rate": 4.3426015630045856e-05,
	"loss": 0.0628,
	"num_input_tokens_seen": 145919232,
	"step": 142500
	},
	{
	"epoch": 1.3194194554396066,
	"grad_norm": 1.2344714403152466,
	"learning_rate": 4.340294885634936e-05,
	"loss": 0.0589,
	"num_input_tokens_seen": 146431232,
	"step": 143000
	},
	{
	"epoch": 1.3240328101789058,
	"grad_norm": 2.3011679649353027,
	"learning_rate": 4.337988208265287e-05,
	"loss": 0.0639,
	"num_input_tokens_seen": 146943232,
	"step": 143500
	},
	{
	"epoch": 1.3286461649182053,
	"grad_norm": 1.3081352710723877,
	"learning_rate": 4.3356815308956364e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 147455232,
	"step": 144000
	},
	{
	"epoch": 1.3332595196575046,
	"grad_norm": 1.5605255365371704,
	"learning_rate": 4.333374853525987e-05,
	"loss": 0.0619,
	"num_input_tokens_seen": 147967232,
	"step": 144500
	},
	{
	"epoch": 1.3378728743968038,
	"grad_norm": 1.3698718547821045,
	"learning_rate": 4.331068176156338e-05,
	"loss": 0.0592,
	"num_input_tokens_seen": 148479232,
	"step": 145000
	},
	{
	"epoch": 1.3424862291361033,
	"grad_norm": 0.7845633029937744,
	"learning_rate": 4.328761498786688e-05,
	"loss": 0.0649,
	"num_input_tokens_seen": 148991232,
	"step": 145500
	},
	{
	"epoch": 1.3470995838754025,
	"grad_norm": 2.0420374870300293,
	"learning_rate": 4.326454821417038e-05,
	"loss": 0.0598,
	"num_input_tokens_seen": 149503232,
	"step": 146000
	},
	{
	"epoch": 1.3517129386147018,
	"grad_norm": 2.2831552028656006,
	"learning_rate": 4.324148144047389e-05,
	"loss": 0.0614,
	"num_input_tokens_seen": 150015232,
	"step": 146500
	},
	{
	"epoch": 1.3563262933540012,
	"grad_norm": 0.9809445738792419,
	"learning_rate": 4.321841466677739e-05,
	"loss": 0.0588,
	"num_input_tokens_seen": 150527232,
	"step": 147000
	},
	{
	"epoch": 1.3609396480933005,
	"grad_norm": 1.6517871618270874,
	"learning_rate": 4.3195347893080895e-05,
	"loss": 0.061,
	"num_input_tokens_seen": 151039232,
	"step": 147500
	},
	{
	"epoch": 1.3655530028325997,
	"grad_norm": 0.8756200075149536,
	"learning_rate": 4.3172281119384396e-05,
	"loss": 0.0601,
	"num_input_tokens_seen": 151551232,
	"step": 148000
	},
	{
	"epoch": 1.3701663575718992,
	"grad_norm": 4.2246317863464355,
	"learning_rate": 4.31492143456879e-05,
	"loss": 0.0559,
	"num_input_tokens_seen": 152063232,
	"step": 148500
	},
	{
	"epoch": 1.3747797123111984,
	"grad_norm": 3.220839738845825,
	"learning_rate": 4.3126147571991404e-05,
	"loss": 0.0572,
	"num_input_tokens_seen": 152575232,
	"step": 149000
	},
	{
	"epoch": 1.379393067050498,
	"grad_norm": 1.6114301681518555,
	"learning_rate": 4.3103080798294905e-05,
	"loss": 0.0593,
	"num_input_tokens_seen": 153087232,
	"step": 149500
	},
	{
	"epoch": 1.3840064217897972,
	"grad_norm": 0.6551116108894348,
	"learning_rate": 4.3080014024598405e-05,
	"loss": 0.0626,
	"num_input_tokens_seen": 153599232,
	"step": 150000
	},
	{
	"epoch": 1.3886197765290964,
	"grad_norm": 2.2895658016204834,
	"learning_rate": 4.305694725090191e-05,
	"loss": 0.064,
	"num_input_tokens_seen": 154111232,
	"step": 150500
	},
	{
	"epoch": 1.3932331312683957,
	"grad_norm": 2.927482843399048,
	"learning_rate": 4.303388047720542e-05,
	"loss": 0.0625,
	"num_input_tokens_seen": 154623232,
	"step": 151000
	},
	{
	"epoch": 1.3978464860076951,
	"grad_norm": 1.2749851942062378,
	"learning_rate": 4.301081370350892e-05,
	"loss": 0.0579,
	"num_input_tokens_seen": 155135232,
	"step": 151500
	},
	{
	"epoch": 1.4024598407469944,
	"grad_norm": 1.7866413593292236,
	"learning_rate": 4.298774692981242e-05,
	"loss": 0.0574,
	"num_input_tokens_seen": 155647232,
	"step": 152000
	},
	{
	"epoch": 1.4070731954862938,
	"grad_norm": 2.288804292678833,
	"learning_rate": 4.296468015611593e-05,
	"loss": 0.0631,
	"num_input_tokens_seen": 156159232,
	"step": 152500
	},
	{
	"epoch": 1.411686550225593,
	"grad_norm": 1.509840965270996,
	"learning_rate": 4.294161338241943e-05,
	"loss": 0.0585,
	"num_input_tokens_seen": 156671232,
	"step": 153000
	},
	{
	"epoch": 1.4162999049648923,
	"grad_norm": 0.8478446006774902,
	"learning_rate": 4.291854660872293e-05,
	"loss": 0.0593,
	"num_input_tokens_seen": 157183232,
	"step": 153500
	},
	{
	"epoch": 1.4209132597041916,
	"grad_norm": 1.4515230655670166,
	"learning_rate": 4.289547983502644e-05,
	"loss": 0.0599,
	"num_input_tokens_seen": 157695232,
	"step": 154000
	},
	{
	"epoch": 1.425526614443491,
	"grad_norm": 0.7513217926025391,
	"learning_rate": 4.2872413061329944e-05,
	"loss": 0.0602,
	"num_input_tokens_seen": 158207232,
	"step": 154500
	},
	{
	"epoch": 1.4301399691827903,
	"grad_norm": 2.4477181434631348,
	"learning_rate": 4.284934628763344e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 158719232,
	"step": 155000
	},
	{
	"epoch": 1.4347533239220898,
	"grad_norm": 1.2855825424194336,
	"learning_rate": 4.2826279513936945e-05,
	"loss": 0.0653,
	"num_input_tokens_seen": 159231232,
	"step": 155500
	},
	{
	"epoch": 1.439366678661389,
	"grad_norm": 0.5422343611717224,
	"learning_rate": 4.280321274024045e-05,
	"loss": 0.0601,
	"num_input_tokens_seen": 159743232,
	"step": 156000
	},
	{
	"epoch": 1.4439800334006883,
	"grad_norm": 1.519142746925354,
	"learning_rate": 4.278014596654395e-05,
	"loss": 0.0558,
	"num_input_tokens_seen": 160255232,
	"step": 156500
	},
	{
	"epoch": 1.4485933881399875,
	"grad_norm": 1.936989426612854,
	"learning_rate": 4.2757079192847454e-05,
	"loss": 0.0572,
	"num_input_tokens_seen": 160767232,
	"step": 157000
	},
	{
	"epoch": 1.453206742879287,
	"grad_norm": 2.0965301990509033,
	"learning_rate": 4.273401241915096e-05,
	"loss": 0.0655,
	"num_input_tokens_seen": 161279232,
	"step": 157500
	},
	{
	"epoch": 1.4578200976185862,
	"grad_norm": 1.300350308418274,
	"learning_rate": 4.271094564545446e-05,
	"loss": 0.0606,
	"num_input_tokens_seen": 161791232,
	"step": 158000
	},
	{
	"epoch": 1.4624334523578857,
	"grad_norm": 2.8612143993377686,
	"learning_rate": 4.268787887175797e-05,
	"loss": 0.0587,
	"num_input_tokens_seen": 162303232,
	"step": 158500
	},
	{
	"epoch": 1.467046807097185,
	"grad_norm": 1.869927167892456,
	"learning_rate": 4.266481209806147e-05,
	"loss": 0.0626,
	"num_input_tokens_seen": 162815232,
	"step": 159000
	},
	{
	"epoch": 1.4716601618364842,
	"grad_norm": 0.6784268617630005,
	"learning_rate": 4.264174532436497e-05,
	"loss": 0.0587,
	"num_input_tokens_seen": 163327232,
	"step": 159500
	},
	{
	"epoch": 1.4762735165757837,
	"grad_norm": 1.315468192100525,
	"learning_rate": 4.261867855066848e-05,
	"loss": 0.0558,
	"num_input_tokens_seen": 163839232,
	"step": 160000
	},
	{
	"epoch": 1.480886871315083,
	"grad_norm": 0.5266712307929993,
	"learning_rate": 4.2595611776971985e-05,
	"loss": 0.0601,
	"num_input_tokens_seen": 164351232,
	"step": 160500
	},
	{
	"epoch": 1.4855002260543821,
	"grad_norm": 0.976466178894043,
	"learning_rate": 4.2572545003275486e-05,
	"loss": 0.059,
	"num_input_tokens_seen": 164863232,
	"step": 161000
	},
	{
	"epoch": 1.4901135807936816,
	"grad_norm": 2.195340633392334,
	"learning_rate": 4.2549478229578986e-05,
	"loss": 0.0618,
	"num_input_tokens_seen": 165375232,
	"step": 161500
	},
	{
	"epoch": 1.4947269355329809,
	"grad_norm": 0.6188003420829773,
	"learning_rate": 4.2526411455882494e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 165887232,
	"step": 162000
	},
	{
	"epoch": 1.49934029027228,
	"grad_norm": 1.496407389640808,
	"learning_rate": 4.2503344682185994e-05,
	"loss": 0.0591,
	"num_input_tokens_seen": 166399232,
	"step": 162500
	},
	{
	"epoch": 1.5039536450115794,
	"grad_norm": 0.94919753074646,
	"learning_rate": 4.2480277908489495e-05,
	"loss": 0.06,
	"num_input_tokens_seen": 166911232,
	"step": 163000
	},
	{
	"epoch": 1.5085669997508788,
	"grad_norm": 1.6207939386367798,
	"learning_rate": 4.2457211134793e-05,
	"loss": 0.0599,
	"num_input_tokens_seen": 167423232,
	"step": 163500
	},
	{
	"epoch": 1.5131803544901783,
	"grad_norm": 1.1205254793167114,
	"learning_rate": 4.24341443610965e-05,
	"loss": 0.0617,
	"num_input_tokens_seen": 167935232,
	"step": 164000
	},
	{
	"epoch": 1.5177937092294775,
	"grad_norm": 1.0323721170425415,
	"learning_rate": 4.24110775874e-05,
	"loss": 0.0601,
	"num_input_tokens_seen": 168447232,
	"step": 164500
	},
	{
	"epoch": 1.5224070639687768,
	"grad_norm": 0.6799350380897522,
	"learning_rate": 4.238801081370351e-05,
	"loss": 0.0631,
	"num_input_tokens_seen": 168959232,
	"step": 165000
	},
	{
	"epoch": 1.527020418708076,
	"grad_norm": 1.2749136686325073,
	"learning_rate": 4.236494404000702e-05,
	"loss": 0.058,
	"num_input_tokens_seen": 169471232,
	"step": 165500
	},
	{
	"epoch": 1.5316337734473755,
	"grad_norm": 2.35078763961792,
	"learning_rate": 4.234187726631052e-05,
	"loss": 0.066,
	"num_input_tokens_seen": 169983232,
	"step": 166000
	},
	{
	"epoch": 1.5362471281866747,
	"grad_norm": 1.8924311399459839,
	"learning_rate": 4.231881049261402e-05,
	"loss": 0.0591,
	"num_input_tokens_seen": 170495232,
	"step": 166500
	},
	{
	"epoch": 1.5408604829259742,
	"grad_norm": 2.8488757610321045,
	"learning_rate": 4.2295743718917527e-05,
	"loss": 0.0584,
	"num_input_tokens_seen": 171007232,
	"step": 167000
	},
	{
	"epoch": 1.5454738376652735,
	"grad_norm": 1.7758262157440186,
	"learning_rate": 4.227267694522103e-05,
	"loss": 0.0661,
	"num_input_tokens_seen": 171519232,
	"step": 167500
	},
	{
	"epoch": 1.5500871924045727,
	"grad_norm": 0.7893622517585754,
	"learning_rate": 4.224961017152453e-05,
	"loss": 0.0594,
	"num_input_tokens_seen": 172031232,
	"step": 168000
	},
	{
	"epoch": 1.554700547143872,
	"grad_norm": 1.069485068321228,
	"learning_rate": 4.2226543397828035e-05,
	"loss": 0.0656,
	"num_input_tokens_seen": 172543232,
	"step": 168500
	},
	{
	"epoch": 1.5593139018831714,
	"grad_norm": 2.2371785640716553,
	"learning_rate": 4.2203476624131536e-05,
	"loss": 0.058,
	"num_input_tokens_seen": 173055232,
	"step": 169000
	},
	{
	"epoch": 1.5639272566224707,
	"grad_norm": 1.76310396194458,
	"learning_rate": 4.218040985043504e-05,
	"loss": 0.0623,
	"num_input_tokens_seen": 173567232,
	"step": 169500
	},
	{
	"epoch": 1.5685406113617701,
	"grad_norm": 2.7890520095825195,
	"learning_rate": 4.2157343076738544e-05,
	"loss": 0.0582,
	"num_input_tokens_seen": 174079232,
	"step": 170000
	},
	{
	"epoch": 1.5731539661010694,
	"grad_norm": 2.2342007160186768,
	"learning_rate": 4.2134276303042044e-05,
	"loss": 0.0645,
	"num_input_tokens_seen": 174591232,
	"step": 170500
	},
	{
	"epoch": 1.5777673208403686,
	"grad_norm": 1.6538183689117432,
	"learning_rate": 4.211120952934555e-05,
	"loss": 0.0578,
	"num_input_tokens_seen": 175103232,
	"step": 171000
	},
	{
	"epoch": 1.5823806755796679,
	"grad_norm": 6.509249687194824,
	"learning_rate": 4.208814275564906e-05,
	"loss": 0.0638,
	"num_input_tokens_seen": 175615232,
	"step": 171500
	},
	{
	"epoch": 1.5869940303189674,
	"grad_norm": 2.7748773097991943,
	"learning_rate": 4.206507598195256e-05,
	"loss": 0.0646,
	"num_input_tokens_seen": 176127232,
	"step": 172000
	},
	{
	"epoch": 1.5916073850582668,
	"grad_norm": 4.16091251373291,
	"learning_rate": 4.204200920825606e-05,
	"loss": 0.0653,
	"num_input_tokens_seen": 176639232,
	"step": 172500
	},
	{
	"epoch": 1.596220739797566,
	"grad_norm": 1.4821609258651733,
	"learning_rate": 4.201894243455957e-05,
	"loss": 0.0642,
	"num_input_tokens_seen": 177151232,
	"step": 173000
	},
	{
	"epoch": 1.6008340945368653,
	"grad_norm": 0.9436431527137756,
	"learning_rate": 4.199587566086307e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 177663232,
	"step": 173500
	},
	{
	"epoch": 1.6054474492761646,
	"grad_norm": 1.735992193222046,
	"learning_rate": 4.197280888716657e-05,
	"loss": 0.0596,
	"num_input_tokens_seen": 178175232,
	"step": 174000
	},
	{
	"epoch": 1.6100608040154638,
	"grad_norm": 1.1625646352767944,
	"learning_rate": 4.1949742113470076e-05,
	"loss": 0.0601,
	"num_input_tokens_seen": 178687232,
	"step": 174500
	},
	{
	"epoch": 1.6146741587547633,
	"grad_norm": 1.0174745321273804,
	"learning_rate": 4.192667533977358e-05,
	"loss": 0.058,
	"num_input_tokens_seen": 179199232,
	"step": 175000
	},
	{
	"epoch": 1.6192875134940627,
	"grad_norm": 1.141682744026184,
	"learning_rate": 4.190360856607708e-05,
	"loss": 0.0622,
	"num_input_tokens_seen": 179711232,
	"step": 175500
	},
	{
	"epoch": 1.623900868233362,
	"grad_norm": 1.165004014968872,
	"learning_rate": 4.1880541792380585e-05,
	"loss": 0.0627,
	"num_input_tokens_seen": 180223232,
	"step": 176000
	},
	{
	"epoch": 1.6285142229726612,
	"grad_norm": 2.1781582832336426,
	"learning_rate": 4.185747501868409e-05,
	"loss": 0.0631,
	"num_input_tokens_seen": 180735232,
	"step": 176500
	},
	{
	"epoch": 1.6331275777119605,
	"grad_norm": 1.5659372806549072,
	"learning_rate": 4.183440824498759e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 181247232,
	"step": 177000
	},
	{
	"epoch": 1.63774093245126,
	"grad_norm": 1.9345473051071167,
	"learning_rate": 4.181134147129109e-05,
	"loss": 0.0567,
	"num_input_tokens_seen": 181759232,
	"step": 177500
	},
	{
	"epoch": 1.6423542871905592,
	"grad_norm": 0.8415033221244812,
	"learning_rate": 4.17882746975946e-05,
	"loss": 0.06,
	"num_input_tokens_seen": 182271232,
	"step": 178000
	},
	{
	"epoch": 1.6469676419298587,
	"grad_norm": 0.4496413767337799,
	"learning_rate": 4.17652079238981e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 182783232,
	"step": 178500
	},
	{
	"epoch": 1.651580996669158,
	"grad_norm": 1.1432942152023315,
	"learning_rate": 4.174214115020161e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 183295232,
	"step": 179000
	},
	{
	"epoch": 1.6561943514084572,
	"grad_norm": 0.4867847263813019,
	"learning_rate": 4.171907437650511e-05,
	"loss": 0.0653,
	"num_input_tokens_seen": 183807232,
	"step": 179500
	},
	{
	"epoch": 1.6608077061477564,
	"grad_norm": 3.039292335510254,
	"learning_rate": 4.169600760280861e-05,
	"loss": 0.0578,
	"num_input_tokens_seen": 184319232,
	"step": 180000
	},
	{
	"epoch": 1.6654210608870559,
	"grad_norm": 2.18542218208313,
	"learning_rate": 4.167294082911212e-05,
	"loss": 0.064,
	"num_input_tokens_seen": 184831232,
	"step": 180500
	},
	{
	"epoch": 1.6700344156263551,
	"grad_norm": 0.9734911918640137,
	"learning_rate": 4.164987405541562e-05,
	"loss": 0.0578,
	"num_input_tokens_seen": 185343232,
	"step": 181000
	},
	{
	"epoch": 1.6746477703656546,
	"grad_norm": 0.8751457929611206,
	"learning_rate": 4.162680728171912e-05,
	"loss": 0.0593,
	"num_input_tokens_seen": 185855232,
	"step": 181500
	},
	{
	"epoch": 1.6792611251049538,
	"grad_norm": 1.0533229112625122,
	"learning_rate": 4.1603740508022625e-05,
	"loss": 0.0601,
	"num_input_tokens_seen": 186367232,
	"step": 182000
	},
	{
	"epoch": 1.683874479844253,
	"grad_norm": 0.742938220500946,
	"learning_rate": 4.158067373432613e-05,
	"loss": 0.0589,
	"num_input_tokens_seen": 186879232,
	"step": 182500
	},
	{
	"epoch": 1.6884878345835523,
	"grad_norm": 1.432569146156311,
	"learning_rate": 4.155760696062963e-05,
	"loss": 0.061,
	"num_input_tokens_seen": 187391232,
	"step": 183000
	},
	{
	"epoch": 1.6931011893228518,
	"grad_norm": 2.900394916534424,
	"learning_rate": 4.1534540186933134e-05,
	"loss": 0.058,
	"num_input_tokens_seen": 187903232,
	"step": 183500
	},
	{
	"epoch": 1.6977145440621513,
	"grad_norm": 1.1864616870880127,
	"learning_rate": 4.151147341323664e-05,
	"loss": 0.0594,
	"num_input_tokens_seen": 188415232,
	"step": 184000
	},
	{
	"epoch": 1.7023278988014505,
	"grad_norm": 2.3834102153778076,
	"learning_rate": 4.148840663954014e-05,
	"loss": 0.0623,
	"num_input_tokens_seen": 188927232,
	"step": 184500
	},
	{
	"epoch": 1.7069412535407498,
	"grad_norm": 2.183478355407715,
	"learning_rate": 4.146533986584364e-05,
	"loss": 0.0621,
	"num_input_tokens_seen": 189439232,
	"step": 185000
	},
	{
	"epoch": 1.711554608280049,
	"grad_norm": 1.4946995973587036,
	"learning_rate": 4.144227309214715e-05,
	"loss": 0.0585,
	"num_input_tokens_seen": 189951232,
	"step": 185500
	},
	{
	"epoch": 1.7161679630193483,
	"grad_norm": 2.6389856338500977,
	"learning_rate": 4.141920631845066e-05,
	"loss": 0.0641,
	"num_input_tokens_seen": 190463232,
	"step": 186000
	},
	{
	"epoch": 1.7207813177586477,
	"grad_norm": 1.5870720148086548,
	"learning_rate": 4.139613954475416e-05,
	"loss": 0.0622,
	"num_input_tokens_seen": 190975232,
	"step": 186500
	},
	{
	"epoch": 1.7253946724979472,
	"grad_norm": 1.0115468502044678,
	"learning_rate": 4.137307277105766e-05,
	"loss": 0.0602,
	"num_input_tokens_seen": 191487232,
	"step": 187000
	},
	{
	"epoch": 1.7300080272372464,
	"grad_norm": 2.0021095275878906,
	"learning_rate": 4.1350005997361166e-05,
	"loss": 0.0585,
	"num_input_tokens_seen": 191999232,
	"step": 187500
	},
	{
	"epoch": 1.7346213819765457,
	"grad_norm": 1.7288790941238403,
	"learning_rate": 4.1326939223664666e-05,
	"loss": 0.064,
	"num_input_tokens_seen": 192511232,
	"step": 188000
	},
	{
	"epoch": 1.739234736715845,
	"grad_norm": 2.1877362728118896,
	"learning_rate": 4.130387244996817e-05,
	"loss": 0.061,
	"num_input_tokens_seen": 193023232,
	"step": 188500
	},
	{
	"epoch": 1.7438480914551442,
	"grad_norm": 2.1723220348358154,
	"learning_rate": 4.1280805676271674e-05,
	"loss": 0.0611,
	"num_input_tokens_seen": 193535232,
	"step": 189000
	},
	{
	"epoch": 1.7484614461944437,
	"grad_norm": 1.1203595399856567,
	"learning_rate": 4.1257738902575175e-05,
	"loss": 0.0587,
	"num_input_tokens_seen": 194047232,
	"step": 189500
	},
	{
	"epoch": 1.7530748009337431,
	"grad_norm": 1.7950832843780518,
	"learning_rate": 4.123467212887868e-05,
	"loss": 0.0619,
	"num_input_tokens_seen": 194559232,
	"step": 190000
	},
	{
	"epoch": 1.7576881556730424,
	"grad_norm": 0.8511695265769958,
	"learning_rate": 4.121160535518218e-05,
	"loss": 0.0587,
	"num_input_tokens_seen": 195071232,
	"step": 190500
	},
	{
	"epoch": 1.7623015104123416,
	"grad_norm": 0.49872857332229614,
	"learning_rate": 4.118853858148568e-05,
	"loss": 0.0586,
	"num_input_tokens_seen": 195583232,
	"step": 191000
	},
	{
	"epoch": 1.7669148651516409,
	"grad_norm": 1.272387981414795,
	"learning_rate": 4.116547180778919e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 196095232,
	"step": 191500
	},
	{
	"epoch": 1.7715282198909403,
	"grad_norm": 3.0328872203826904,
	"learning_rate": 4.11424050340927e-05,
	"loss": 0.0561,
	"num_input_tokens_seen": 196607232,
	"step": 192000
	},
	{
	"epoch": 1.7761415746302396,
	"grad_norm": 1.1026365756988525,
	"learning_rate": 4.111933826039619e-05,
	"loss": 0.061,
	"num_input_tokens_seen": 197119232,
	"step": 192500
	},
	{
	"epoch": 1.780754929369539,
	"grad_norm": 1.523284673690796,
	"learning_rate": 4.10962714866997e-05,
	"loss": 0.0647,
	"num_input_tokens_seen": 197631232,
	"step": 193000
	},
	{
	"epoch": 1.7853682841088383,
	"grad_norm": 2.571349859237671,
	"learning_rate": 4.1073204713003207e-05,
	"loss": 0.0572,
	"num_input_tokens_seen": 198143232,
	"step": 193500
	},
	{
	"epoch": 1.7899816388481375,
	"grad_norm": 1.1206070184707642,
	"learning_rate": 4.105013793930671e-05,
	"loss": 0.065,
	"num_input_tokens_seen": 198655232,
	"step": 194000
	},
	{
	"epoch": 1.7945949935874368,
	"grad_norm": 1.2172856330871582,
	"learning_rate": 4.102707116561021e-05,
	"loss": 0.0624,
	"num_input_tokens_seen": 199167232,
	"step": 194500
	},
	{
	"epoch": 1.7992083483267363,
	"grad_norm": 1.3785135746002197,
	"learning_rate": 4.1004004391913715e-05,
	"loss": 0.0619,
	"num_input_tokens_seen": 199679232,
	"step": 195000
	},
	{
	"epoch": 1.8038217030660355,
	"grad_norm": 1.8791236877441406,
	"learning_rate": 4.0980937618217216e-05,
	"loss": 0.0594,
	"num_input_tokens_seen": 200191232,
	"step": 195500
	},
	{
	"epoch": 1.808435057805335,
	"grad_norm": 1.4721789360046387,
	"learning_rate": 4.0957870844520716e-05,
	"loss": 0.0584,
	"num_input_tokens_seen": 200703232,
	"step": 196000
	},
	{
	"epoch": 1.8130484125446342,
	"grad_norm": 2.4450087547302246,
	"learning_rate": 4.0934804070824224e-05,
	"loss": 0.0622,
	"num_input_tokens_seen": 201215232,
	"step": 196500
	},
	{
	"epoch": 1.8176617672839335,
	"grad_norm": 2.5776455402374268,
	"learning_rate": 4.091173729712773e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 201727232,
	"step": 197000
	},
	{
	"epoch": 1.8222751220232327,
	"grad_norm": 0.703079104423523,
	"learning_rate": 4.088867052343123e-05,
	"loss": 0.063,
	"num_input_tokens_seen": 202239232,
	"step": 197500
	},
	{
	"epoch": 1.8268884767625322,
	"grad_norm": 3.7383570671081543,
	"learning_rate": 4.086560374973473e-05,
	"loss": 0.0621,
	"num_input_tokens_seen": 202751232,
	"step": 198000
	},
	{
	"epoch": 1.8315018315018317,
	"grad_norm": 1.2119007110595703,
	"learning_rate": 4.084253697603824e-05,
	"loss": 0.0638,
	"num_input_tokens_seen": 203263232,
	"step": 198500
	},
	{
	"epoch": 1.836115186241131,
	"grad_norm": 1.6069977283477783,
	"learning_rate": 4.081947020234174e-05,
	"loss": 0.0594,
	"num_input_tokens_seen": 203775232,
	"step": 199000
	},
	{
	"epoch": 1.8407285409804302,
	"grad_norm": 0.5176113843917847,
	"learning_rate": 4.079640342864525e-05,
	"loss": 0.0565,
	"num_input_tokens_seen": 204287232,
	"step": 199500
	},
	{
	"epoch": 1.8453418957197294,
	"grad_norm": 1.78886878490448,
	"learning_rate": 4.077333665494875e-05,
	"loss": 0.0599,
	"num_input_tokens_seen": 204799232,
	"step": 200000
	},
	{
	"epoch": 1.8499552504590286,
	"grad_norm": 0.8037757277488708,
	"learning_rate": 4.075026988125225e-05,
	"loss": 0.0584,
	"num_input_tokens_seen": 205311232,
	"step": 200500
	},
	{
	"epoch": 1.8545686051983281,
	"grad_norm": 0.8422955274581909,
	"learning_rate": 4.0727203107555756e-05,
	"loss": 0.0626,
	"num_input_tokens_seen": 205823232,
	"step": 201000
	},
	{
	"epoch": 1.8591819599376276,
	"grad_norm": 3.384787082672119,
	"learning_rate": 4.0704136333859257e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 206335232,
	"step": 201500
	},
	{
	"epoch": 1.8637953146769268,
	"grad_norm": 1.103167176246643,
	"learning_rate": 4.068106956016276e-05,
	"loss": 0.0608,
	"num_input_tokens_seen": 206847232,
	"step": 202000
	},
	{
	"epoch": 1.868408669416226,
	"grad_norm": 0.9550286531448364,
	"learning_rate": 4.0658002786466264e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 207359232,
	"step": 202500
	},
	{
	"epoch": 1.8730220241555253,
	"grad_norm": 1.2629748582839966,
	"learning_rate": 4.063493601276977e-05,
	"loss": 0.0599,
	"num_input_tokens_seen": 207871232,
	"step": 203000
	},
	{
	"epoch": 1.8776353788948248,
	"grad_norm": 1.8319883346557617,
	"learning_rate": 4.061186923907327e-05,
	"loss": 0.0557,
	"num_input_tokens_seen": 208383232,
	"step": 203500
	},
	{
	"epoch": 1.882248733634124,
	"grad_norm": 0.8122320175170898,
	"learning_rate": 4.058880246537677e-05,
	"loss": 0.0631,
	"num_input_tokens_seen": 208895232,
	"step": 204000
	},
	{
	"epoch": 1.8868620883734235,
	"grad_norm": 1.0240248441696167,
	"learning_rate": 4.056573569168028e-05,
	"loss": 0.0571,
	"num_input_tokens_seen": 209407232,
	"step": 204500
	},
	{
	"epoch": 1.8914754431127228,
	"grad_norm": 1.0079154968261719,
	"learning_rate": 4.054266891798378e-05,
	"loss": 0.0591,
	"num_input_tokens_seen": 209919232,
	"step": 205000
	},
	{
	"epoch": 1.896088797852022,
	"grad_norm": 0.7955754399299622,
	"learning_rate": 4.051960214428728e-05,
	"loss": 0.0579,
	"num_input_tokens_seen": 210431232,
	"step": 205500
	},
	{
	"epoch": 1.9007021525913212,
	"grad_norm": 2.3598215579986572,
	"learning_rate": 4.049653537059079e-05,
	"loss": 0.0578,
	"num_input_tokens_seen": 210943232,
	"step": 206000
	},
	{
	"epoch": 1.9053155073306207,
	"grad_norm": 2.217241048812866,
	"learning_rate": 4.047346859689429e-05,
	"loss": 0.0615,
	"num_input_tokens_seen": 211455232,
	"step": 206500
	},
	{
	"epoch": 1.90992886206992,
	"grad_norm": 0.9427639245986938,
	"learning_rate": 4.045040182319779e-05,
	"loss": 0.0654,
	"num_input_tokens_seen": 211967232,
	"step": 207000
	},
	{
	"epoch": 1.9145422168092194,
	"grad_norm": 2.3182663917541504,
	"learning_rate": 4.04273350495013e-05,
	"loss": 0.0605,
	"num_input_tokens_seen": 212479232,
	"step": 207500
	},
	{
	"epoch": 1.9191555715485187,
	"grad_norm": 2.283663272857666,
	"learning_rate": 4.0404268275804805e-05,
	"loss": 0.059,
	"num_input_tokens_seen": 212991232,
	"step": 208000
	},
	{
	"epoch": 1.923768926287818,
	"grad_norm": 0.8118070960044861,
	"learning_rate": 4.0381201502108305e-05,
	"loss": 0.0606,
	"num_input_tokens_seen": 213503232,
	"step": 208500
	},
	{
	"epoch": 1.9283822810271172,
	"grad_norm": 1.4257065057754517,
	"learning_rate": 4.0358134728411806e-05,
	"loss": 0.0619,
	"num_input_tokens_seen": 214015232,
	"step": 209000
	},
	{
	"epoch": 1.9329956357664166,
	"grad_norm": 1.2044384479522705,
	"learning_rate": 4.033506795471531e-05,
	"loss": 0.0554,
	"num_input_tokens_seen": 214527232,
	"step": 209500
	},
	{
	"epoch": 1.9376089905057161,
	"grad_norm": 1.2655075788497925,
	"learning_rate": 4.0312001181018814e-05,
	"loss": 0.0569,
	"num_input_tokens_seen": 215039232,
	"step": 210000
	},
	{
	"epoch": 1.9422223452450154,
	"grad_norm": 1.7089818716049194,
	"learning_rate": 4.028893440732232e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 215551232,
	"step": 210500
	},
	{
	"epoch": 1.9468356999843146,
	"grad_norm": 1.0826196670532227,
	"learning_rate": 4.026586763362582e-05,
	"loss": 0.0611,
	"num_input_tokens_seen": 216063232,
	"step": 211000
	},
	{
	"epoch": 1.9514490547236139,
	"grad_norm": 0.5117043852806091,
	"learning_rate": 4.024280085992932e-05,
	"loss": 0.0618,
	"num_input_tokens_seen": 216575232,
	"step": 211500
	},
	{
	"epoch": 1.956062409462913,
	"grad_norm": 0.4635091722011566,
	"learning_rate": 4.021973408623283e-05,
	"loss": 0.0617,
	"num_input_tokens_seen": 217087232,
	"step": 212000
	},
	{
	"epoch": 1.9606757642022126,
	"grad_norm": 2.1524128913879395,
	"learning_rate": 4.019666731253634e-05,
	"loss": 0.0614,
	"num_input_tokens_seen": 217599232,
	"step": 212500
	},
	{
	"epoch": 1.965289118941512,
	"grad_norm": 1.02557373046875,
	"learning_rate": 4.017360053883983e-05,
	"loss": 0.0552,
	"num_input_tokens_seen": 218111232,
	"step": 213000
	},
	{
	"epoch": 1.9699024736808113,
	"grad_norm": 2.18851375579834,
	"learning_rate": 4.015053376514334e-05,
	"loss": 0.0597,
	"num_input_tokens_seen": 218623232,
	"step": 213500
	},
	{
	"epoch": 1.9745158284201105,
	"grad_norm": 2.4914391040802,
	"learning_rate": 4.0127466991446846e-05,
	"loss": 0.0616,
	"num_input_tokens_seen": 219135232,
	"step": 214000
	},
	{
	"epoch": 1.9791291831594098,
	"grad_norm": 1.8353182077407837,
	"learning_rate": 4.0104400217750346e-05,
	"loss": 0.0675,
	"num_input_tokens_seen": 219647232,
	"step": 214500
	},
	{
	"epoch": 1.983742537898709,
	"grad_norm": 5.431290149688721,
	"learning_rate": 4.008133344405385e-05,
	"loss": 0.0568,
	"num_input_tokens_seen": 220159232,
	"step": 215000
	},
	{
	"epoch": 1.9883558926380085,
	"grad_norm": 0.523113489151001,
	"learning_rate": 4.0058266670357354e-05,
	"loss": 0.0596,
	"num_input_tokens_seen": 220671232,
	"step": 215500
	},
	{
	"epoch": 1.992969247377308,
	"grad_norm": 0.5525696277618408,
	"learning_rate": 4.0035199896660855e-05,
	"loss": 0.0589,
	"num_input_tokens_seen": 221183232,
	"step": 216000
	},
	{
	"epoch": 1.9975826021166072,
	"grad_norm": 2.0920755863189697,
	"learning_rate": 4.0012133122964355e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 221695232,
	"step": 216500
	},
	{
	"epoch": 2.0,
	"eval_combined_score": 0.06747195769945506,
	"eval_loss": 0.0674719586968422,
	"eval_mse": 0.06747195670206793,
	"eval_runtime": 46.4608,
	"eval_samples_per_second": 2073.535,
	"eval_steps_per_second": 259.208,
	"num_input_tokens_seen": 221962752,
	"step": 216762
	},
	{
	"epoch": 2.0021959568559065,
	"grad_norm": 2.938506841659546,
	"learning_rate": 3.998906634926786e-05,
	"loss": 0.0546,
	"num_input_tokens_seen": 222206464,
	"step": 217000
	},
	{
	"epoch": 2.0068093115952057,
	"grad_norm": 1.5632978677749634,
	"learning_rate": 3.996599957557137e-05,
	"loss": 0.0497,
	"num_input_tokens_seen": 222718464,
	"step": 217500
	},
	{
	"epoch": 2.011422666334505,
	"grad_norm": 2.7584619522094727,
	"learning_rate": 3.994293280187487e-05,
	"loss": 0.0504,
	"num_input_tokens_seen": 223230464,
	"step": 218000
	},
	{
	"epoch": 2.0160360210738046,
	"grad_norm": 0.7712005972862244,
	"learning_rate": 3.991986602817837e-05,
	"loss": 0.0498,
	"num_input_tokens_seen": 223742464,
	"step": 218500
	},
	{
	"epoch": 2.020649375813104,
	"grad_norm": 2.087860584259033,
	"learning_rate": 3.989679925448188e-05,
	"loss": 0.0514,
	"num_input_tokens_seen": 224254464,
	"step": 219000
	},
	{
	"epoch": 2.025262730552403,
	"grad_norm": 1.5292513370513916,
	"learning_rate": 3.987373248078538e-05,
	"loss": 0.046,
	"num_input_tokens_seen": 224766464,
	"step": 219500
	},
	{
	"epoch": 2.0298760852917024,
	"grad_norm": 2.2876648902893066,
	"learning_rate": 3.985066570708888e-05,
	"loss": 0.0514,
	"num_input_tokens_seen": 225278464,
	"step": 220000
	},
	{
	"epoch": 2.0344894400310016,
	"grad_norm": 1.1318377256393433,
	"learning_rate": 3.982759893339239e-05,
	"loss": 0.0466,
	"num_input_tokens_seen": 225790464,
	"step": 220500
	},
	{
	"epoch": 2.039102794770301,
	"grad_norm": 0.5960507988929749,
	"learning_rate": 3.980453215969589e-05,
	"loss": 0.0484,
	"num_input_tokens_seen": 226302464,
	"step": 221000
	},
	{
	"epoch": 2.0437161495096006,
	"grad_norm": 1.8446494340896606,
	"learning_rate": 3.9781465385999395e-05,
	"loss": 0.0458,
	"num_input_tokens_seen": 226814464,
	"step": 221500
	},
	{
	"epoch": 2.0483295042489,
	"grad_norm": 1.8140873908996582,
	"learning_rate": 3.9758398612302896e-05,
	"loss": 0.0496,
	"num_input_tokens_seen": 227326464,
	"step": 222000
	},
	{
	"epoch": 2.052942858988199,
	"grad_norm": 0.29578447341918945,
	"learning_rate": 3.9735331838606396e-05,
	"loss": 0.0447,
	"num_input_tokens_seen": 227838464,
	"step": 222500
	},
	{
	"epoch": 2.0575562137274983,
	"grad_norm": 1.8332575559616089,
	"learning_rate": 3.9712265064909904e-05,
	"loss": 0.042,
	"num_input_tokens_seen": 228350464,
	"step": 223000
	},
	{
	"epoch": 2.0621695684667976,
	"grad_norm": 1.091813325881958,
	"learning_rate": 3.968919829121341e-05,
	"loss": 0.0526,
	"num_input_tokens_seen": 228862464,
	"step": 223500
	},
	{
	"epoch": 2.066782923206097,
	"grad_norm": 0.7884387373924255,
	"learning_rate": 3.9666131517516905e-05,
	"loss": 0.0455,
	"num_input_tokens_seen": 229374464,
	"step": 224000
	},
	{
	"epoch": 2.0713962779453965,
	"grad_norm": 2.7083017826080322,
	"learning_rate": 3.964306474382041e-05,
	"loss": 0.0457,
	"num_input_tokens_seen": 229886464,
	"step": 224500
	},
	{
	"epoch": 2.0760096326846957,
	"grad_norm": 3.8200302124023438,
	"learning_rate": 3.961999797012392e-05,
	"loss": 0.0459,
	"num_input_tokens_seen": 230398464,
	"step": 225000
	},
	{
	"epoch": 2.080622987423995,
	"grad_norm": 1.0111039876937866,
	"learning_rate": 3.959693119642742e-05,
	"loss": 0.0464,
	"num_input_tokens_seen": 230910464,
	"step": 225500
	},
	{
	"epoch": 2.0852363421632942,
	"grad_norm": 0.7892510890960693,
	"learning_rate": 3.957386442273092e-05,
	"loss": 0.0527,
	"num_input_tokens_seen": 231422464,
	"step": 226000
	},
	{
	"epoch": 2.0898496969025935,
	"grad_norm": 0.9745638370513916,
	"learning_rate": 3.955079764903443e-05,
	"loss": 0.0446,
	"num_input_tokens_seen": 231934464,
	"step": 226500
	},
	{
	"epoch": 2.0944630516418927,
	"grad_norm": 1.1187430620193481,
	"learning_rate": 3.952773087533793e-05,
	"loss": 0.0505,
	"num_input_tokens_seen": 232446464,
	"step": 227000
	},
	{
	"epoch": 2.0990764063811924,
	"grad_norm": 1.3649568557739258,
	"learning_rate": 3.950466410164143e-05,
	"loss": 0.0494,
	"num_input_tokens_seen": 232958464,
	"step": 227500
	},
	{
	"epoch": 2.1036897611204917,
	"grad_norm": 1.2664381265640259,
	"learning_rate": 3.9481597327944936e-05,
	"loss": 0.0425,
	"num_input_tokens_seen": 233470464,
	"step": 228000
	},
	{
	"epoch": 2.108303115859791,
	"grad_norm": 2.6382997035980225,
	"learning_rate": 3.9458530554248444e-05,
	"loss": 0.0469,
	"num_input_tokens_seen": 233982464,
	"step": 228500
	},
	{
	"epoch": 2.11291647059909,
	"grad_norm": 1.4181214570999146,
	"learning_rate": 3.9435463780551944e-05,
	"loss": 0.0465,
	"num_input_tokens_seen": 234494464,
	"step": 229000
	},
	{
	"epoch": 2.1175298253383894,
	"grad_norm": 1.2546645402908325,
	"learning_rate": 3.9412397006855445e-05,
	"loss": 0.0502,
	"num_input_tokens_seen": 235006464,
	"step": 229500
	},
	{
	"epoch": 2.122143180077689,
	"grad_norm": 3.3777077198028564,
	"learning_rate": 3.938933023315895e-05,
	"loss": 0.0513,
	"num_input_tokens_seen": 235518464,
	"step": 230000
	},
	{
	"epoch": 2.1267565348169883,
	"grad_norm": 1.0438088178634644,
	"learning_rate": 3.936626345946245e-05,
	"loss": 0.0452,
	"num_input_tokens_seen": 236030464,
	"step": 230500
	},
	{
	"epoch": 2.1313698895562876,
	"grad_norm": 3.252018928527832,
	"learning_rate": 3.934319668576596e-05,
	"loss": 0.0463,
	"num_input_tokens_seen": 236542464,
	"step": 231000
	},
	{
	"epoch": 2.135983244295587,
	"grad_norm": 0.6309357285499573,
	"learning_rate": 3.932012991206946e-05,
	"loss": 0.0456,
	"num_input_tokens_seen": 237054464,
	"step": 231500
	},
	{
	"epoch": 2.140596599034886,
	"grad_norm": 0.6404411196708679,
	"learning_rate": 3.929706313837296e-05,
	"loss": 0.0469,
	"num_input_tokens_seen": 237566464,
	"step": 232000
	},
	{
	"epoch": 2.1452099537741853,
	"grad_norm": 2.673940896987915,
	"learning_rate": 3.927399636467647e-05,
	"loss": 0.0495,
	"num_input_tokens_seen": 238078464,
	"step": 232500
	},
	{
	"epoch": 2.149823308513485,
	"grad_norm": 0.5295352935791016,
	"learning_rate": 3.9250929590979976e-05,
	"loss": 0.0488,
	"num_input_tokens_seen": 238590464,
	"step": 233000
	},
	{
	"epoch": 2.1544366632527843,
	"grad_norm": 2.1107120513916016,
	"learning_rate": 3.922786281728347e-05,
	"loss": 0.0471,
	"num_input_tokens_seen": 239102464,
	"step": 233500
	},
	{
	"epoch": 2.1590500179920835,
	"grad_norm": 0.7328481674194336,
	"learning_rate": 3.920479604358698e-05,
	"loss": 0.0482,
	"num_input_tokens_seen": 239614464,
	"step": 234000
	},
	{
	"epoch": 2.1636633727313828,
	"grad_norm": 0.5566291213035583,
	"learning_rate": 3.9181729269890485e-05,
	"loss": 0.0449,
	"num_input_tokens_seen": 240126464,
	"step": 234500
	},
	{
	"epoch": 2.168276727470682,
	"grad_norm": 2.311140537261963,
	"learning_rate": 3.915866249619398e-05,
	"loss": 0.0453,
	"num_input_tokens_seen": 240638464,
	"step": 235000
	},
	{
	"epoch": 2.1728900822099813,
	"grad_norm": 0.43719959259033203,
	"learning_rate": 3.9135595722497486e-05,
	"loss": 0.0484,
	"num_input_tokens_seen": 241150464,
	"step": 235500
	},
	{
	"epoch": 2.177503436949281,
	"grad_norm": 1.3434603214263916,
	"learning_rate": 3.911252894880099e-05,
	"loss": 0.0471,
	"num_input_tokens_seen": 241662464,
	"step": 236000
	},
	{
	"epoch": 2.18211679168858,
	"grad_norm": 1.4311593770980835,
	"learning_rate": 3.9089462175104494e-05,
	"loss": 0.0466,
	"num_input_tokens_seen": 242174464,
	"step": 236500
	},
	{
	"epoch": 2.1867301464278794,
	"grad_norm": 1.6135164499282837,
	"learning_rate": 3.9066395401407994e-05,
	"loss": 0.0459,
	"num_input_tokens_seen": 242686464,
	"step": 237000
	},
	{
	"epoch": 2.1913435011671787,
	"grad_norm": 0.8135620951652527,
	"learning_rate": 3.90433286277115e-05,
	"loss": 0.0484,
	"num_input_tokens_seen": 243198464,
	"step": 237500
	},
	{
	"epoch": 2.195956855906478,
	"grad_norm": 2.1880440711975098,
	"learning_rate": 3.9020261854015e-05,
	"loss": 0.0493,
	"num_input_tokens_seen": 243710464,
	"step": 238000
	},
	{
	"epoch": 2.200570210645777,
	"grad_norm": 1.676583170890808,
	"learning_rate": 3.899719508031851e-05,
	"loss": 0.0505,
	"num_input_tokens_seen": 244222464,
	"step": 238500
	},
	{
	"epoch": 2.205183565385077,
	"grad_norm": 2.2629077434539795,
	"learning_rate": 3.897412830662201e-05,
	"loss": 0.0501,
	"num_input_tokens_seen": 244734464,
	"step": 239000
	},
	{
	"epoch": 2.209796920124376,
	"grad_norm": 2.8751511573791504,
	"learning_rate": 3.895106153292552e-05,
	"loss": 0.0446,
	"num_input_tokens_seen": 245246464,
	"step": 239500
	},
	{
	"epoch": 2.2144102748636754,
	"grad_norm": 2.8819162845611572,
	"learning_rate": 3.892799475922902e-05,
	"loss": 0.05,
	"num_input_tokens_seen": 245758464,
	"step": 240000
	},
	{
	"epoch": 2.2190236296029746,
	"grad_norm": 2.6944236755371094,
	"learning_rate": 3.890492798553252e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 246270464,
	"step": 240500
	},
	{
	"epoch": 2.223636984342274,
	"grad_norm": 1.2675094604492188,
	"learning_rate": 3.8881861211836026e-05,
	"loss": 0.054,
	"num_input_tokens_seen": 246782464,
	"step": 241000
	},
	{
	"epoch": 2.2282503390815736,
	"grad_norm": 3.3482534885406494,
	"learning_rate": 3.885879443813953e-05,
	"loss": 0.0436,
	"num_input_tokens_seen": 247294464,
	"step": 241500
	},
	{
	"epoch": 2.232863693820873,
	"grad_norm": 4.079286575317383,
	"learning_rate": 3.8835727664443034e-05,
	"loss": 0.0451,
	"num_input_tokens_seen": 247806464,
	"step": 242000
	},
	{
	"epoch": 2.237477048560172,
	"grad_norm": 1.210747480392456,
	"learning_rate": 3.8812660890746535e-05,
	"loss": 0.0474,
	"num_input_tokens_seen": 248318464,
	"step": 242500
	},
	{
	"epoch": 2.2420904032994713,
	"grad_norm": 0.7511959671974182,
	"learning_rate": 3.8789594117050035e-05,
	"loss": 0.0548,
	"num_input_tokens_seen": 248830464,
	"step": 243000
	},
	{
	"epoch": 2.2467037580387705,
	"grad_norm": 2.5810165405273438,
	"learning_rate": 3.876652734335354e-05,
	"loss": 0.0501,
	"num_input_tokens_seen": 249342464,
	"step": 243500
	},
	{
	"epoch": 2.25131711277807,
	"grad_norm": 1.060328722000122,
	"learning_rate": 3.874346056965705e-05,
	"loss": 0.0473,
	"num_input_tokens_seen": 249854464,
	"step": 244000
	},
	{
	"epoch": 2.255930467517369,
	"grad_norm": 0.6183954477310181,
	"learning_rate": 3.8720393795960544e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 250366464,
	"step": 244500
	},
	{
	"epoch": 2.2605438222566687,
	"grad_norm": 1.4669181108474731,
	"learning_rate": 3.869732702226405e-05,
	"loss": 0.046,
	"num_input_tokens_seen": 250878464,
	"step": 245000
	},
	{
	"epoch": 2.265157176995968,
	"grad_norm": 0.44876328110694885,
	"learning_rate": 3.867426024856756e-05,
	"loss": 0.0494,
	"num_input_tokens_seen": 251390464,
	"step": 245500
	},
	{
	"epoch": 2.269770531735267,
	"grad_norm": 1.458533763885498,
	"learning_rate": 3.865119347487106e-05,
	"loss": 0.0514,
	"num_input_tokens_seen": 251902464,
	"step": 246000
	},
	{
	"epoch": 2.2743838864745665,
	"grad_norm": 1.5308929681777954,
	"learning_rate": 3.862812670117456e-05,
	"loss": 0.0482,
	"num_input_tokens_seen": 252414464,
	"step": 246500
	},
	{
	"epoch": 2.2789972412138657,
	"grad_norm": 2.227228879928589,
	"learning_rate": 3.860505992747807e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 252926464,
	"step": 247000
	},
	{
	"epoch": 2.2836105959531654,
	"grad_norm": 0.44453561305999756,
	"learning_rate": 3.858199315378157e-05,
	"loss": 0.0494,
	"num_input_tokens_seen": 253438464,
	"step": 247500
	},
	{
	"epoch": 2.2882239506924646,
	"grad_norm": 1.6029125452041626,
	"learning_rate": 3.855892638008507e-05,
	"loss": 0.0512,
	"num_input_tokens_seen": 253950464,
	"step": 248000
	},
	{
	"epoch": 2.292837305431764,
	"grad_norm": 0.9729604125022888,
	"learning_rate": 3.8535859606388576e-05,
	"loss": 0.0479,
	"num_input_tokens_seen": 254462464,
	"step": 248500
	},
	{
	"epoch": 2.297450660171063,
	"grad_norm": 2.042520046234131,
	"learning_rate": 3.8512792832692076e-05,
	"loss": 0.0505,
	"num_input_tokens_seen": 254974464,
	"step": 249000
	},
	{
	"epoch": 2.3020640149103624,
	"grad_norm": 0.6108492016792297,
	"learning_rate": 3.8489726058995583e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 255486464,
	"step": 249500
	},
	{
	"epoch": 2.3066773696496616,
	"grad_norm": 3.030125379562378,
	"learning_rate": 3.8466659285299084e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 255998464,
	"step": 250000
	},
	{
	"epoch": 2.3112907243889613,
	"grad_norm": 1.440781831741333,
	"learning_rate": 3.844359251160259e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 256510464,
	"step": 250500
	},
	{
	"epoch": 2.3159040791282606,
	"grad_norm": 2.0030038356781006,
	"learning_rate": 3.842052573790609e-05,
	"loss": 0.051,
	"num_input_tokens_seen": 257022464,
	"step": 251000
	},
	{
	"epoch": 2.32051743386756,
	"grad_norm": 0.7390642166137695,
	"learning_rate": 3.83974589642096e-05,
	"loss": 0.0524,
	"num_input_tokens_seen": 257534464,
	"step": 251500
	},
	{
	"epoch": 2.325130788606859,
	"grad_norm": 1.2793288230895996,
	"learning_rate": 3.83743921905131e-05,
	"loss": 0.0511,
	"num_input_tokens_seen": 258046464,
	"step": 252000
	},
	{
	"epoch": 2.3297441433461583,
	"grad_norm": 0.9258439540863037,
	"learning_rate": 3.83513254168166e-05,
	"loss": 0.0452,
	"num_input_tokens_seen": 258558464,
	"step": 252500
	},
	{
	"epoch": 2.334357498085458,
	"grad_norm": 1.6350897550582886,
	"learning_rate": 3.832825864312011e-05,
	"loss": 0.0512,
	"num_input_tokens_seen": 259070464,
	"step": 253000
	},
	{
	"epoch": 2.3389708528247573,
	"grad_norm": 0.529399037361145,
	"learning_rate": 3.830519186942361e-05,
	"loss": 0.0508,
	"num_input_tokens_seen": 259582464,
	"step": 253500
	},
	{
	"epoch": 2.3435842075640565,
	"grad_norm": 1.1488155126571655,
	"learning_rate": 3.828212509572711e-05,
	"loss": 0.0507,
	"num_input_tokens_seen": 260094464,
	"step": 254000
	},
	{
	"epoch": 2.3481975623033557,
	"grad_norm": 1.7055829763412476,
	"learning_rate": 3.8259058322030616e-05,
	"loss": 0.0512,
	"num_input_tokens_seen": 260606464,
	"step": 254500
	},
	{
	"epoch": 2.352810917042655,
	"grad_norm": 1.6156001091003418,
	"learning_rate": 3.8235991548334124e-05,
	"loss": 0.0475,
	"num_input_tokens_seen": 261118464,
	"step": 255000
	},
	{
	"epoch": 2.3574242717819542,
	"grad_norm": 1.6147477626800537,
	"learning_rate": 3.821292477463762e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 261630464,
	"step": 255500
	},
	{
	"epoch": 2.3620376265212535,
	"grad_norm": 2.267575979232788,
	"learning_rate": 3.8189858000941125e-05,
	"loss": 0.0531,
	"num_input_tokens_seen": 262142464,
	"step": 256000
	},
	{
	"epoch": 2.366650981260553,
	"grad_norm": 4.673060417175293,
	"learning_rate": 3.816679122724463e-05,
	"loss": 0.0482,
	"num_input_tokens_seen": 262654464,
	"step": 256500
	},
	{
	"epoch": 2.3712643359998524,
	"grad_norm": 0.9855422377586365,
	"learning_rate": 3.814372445354813e-05,
	"loss": 0.0513,
	"num_input_tokens_seen": 263166464,
	"step": 257000
	},
	{
	"epoch": 2.3758776907391517,
	"grad_norm": 2.0277483463287354,
	"learning_rate": 3.8120657679851633e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 263678464,
	"step": 257500
	},
	{
	"epoch": 2.380491045478451,
	"grad_norm": 2.461817979812622,
	"learning_rate": 3.809759090615514e-05,
	"loss": 0.0467,
	"num_input_tokens_seen": 264190464,
	"step": 258000
	},
	{
	"epoch": 2.38510440021775,
	"grad_norm": 1.2786630392074585,
	"learning_rate": 3.807452413245864e-05,
	"loss": 0.0449,
	"num_input_tokens_seen": 264702464,
	"step": 258500
	},
	{
	"epoch": 2.38971775495705,
	"grad_norm": 0.7494092583656311,
	"learning_rate": 3.805145735876215e-05,
	"loss": 0.0444,
	"num_input_tokens_seen": 265214464,
	"step": 259000
	},
	{
	"epoch": 2.394331109696349,
	"grad_norm": 0.7989722490310669,
	"learning_rate": 3.802839058506565e-05,
	"loss": 0.0474,
	"num_input_tokens_seen": 265726464,
	"step": 259500
	},
	{
	"epoch": 2.3989444644356483,
	"grad_norm": 1.17472505569458,
	"learning_rate": 3.800532381136916e-05,
	"loss": 0.0508,
	"num_input_tokens_seen": 266238464,
	"step": 260000
	},
	{
	"epoch": 2.4035578191749476,
	"grad_norm": 4.456437587738037,
	"learning_rate": 3.798225703767266e-05,
	"loss": 0.0536,
	"num_input_tokens_seen": 266750464,
	"step": 260500
	},
	{
	"epoch": 2.408171173914247,
	"grad_norm": 1.390002727508545,
	"learning_rate": 3.795919026397616e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 267262464,
	"step": 261000
	},
	{
	"epoch": 2.412784528653546,
	"grad_norm": 3.4362330436706543,
	"learning_rate": 3.7936123490279665e-05,
	"loss": 0.0455,
	"num_input_tokens_seen": 267774464,
	"step": 261500
	},
	{
	"epoch": 2.417397883392846,
	"grad_norm": 3.1407535076141357,
	"learning_rate": 3.7913056716583166e-05,
	"loss": 0.0488,
	"num_input_tokens_seen": 268286464,
	"step": 262000
	},
	{
	"epoch": 2.422011238132145,
	"grad_norm": 5.290740966796875,
	"learning_rate": 3.788998994288667e-05,
	"loss": 0.0529,
	"num_input_tokens_seen": 268798464,
	"step": 262500
	},
	{
	"epoch": 2.4266245928714443,
	"grad_norm": 0.8178442716598511,
	"learning_rate": 3.7866923169190174e-05,
	"loss": 0.0488,
	"num_input_tokens_seen": 269310464,
	"step": 263000
	},
	{
	"epoch": 2.4312379476107435,
	"grad_norm": 1.9484672546386719,
	"learning_rate": 3.7843856395493674e-05,
	"loss": 0.047,
	"num_input_tokens_seen": 269822464,
	"step": 263500
	},
	{
	"epoch": 2.4358513023500428,
	"grad_norm": 3.035595178604126,
	"learning_rate": 3.782078962179718e-05,
	"loss": 0.0465,
	"num_input_tokens_seen": 270334464,
	"step": 264000
	},
	{
	"epoch": 2.4404646570893425,
	"grad_norm": 1.731019377708435,
	"learning_rate": 3.779772284810069e-05,
	"loss": 0.0458,
	"num_input_tokens_seen": 270846464,
	"step": 264500
	},
	{
	"epoch": 2.4450780118286417,
	"grad_norm": 1.4459056854248047,
	"learning_rate": 3.777465607440418e-05,
	"loss": 0.0469,
	"num_input_tokens_seen": 271358464,
	"step": 265000
	},
	{
	"epoch": 2.449691366567941,
	"grad_norm": 1.475520372390747,
	"learning_rate": 3.775158930070769e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 271870464,
	"step": 265500
	},
	{
	"epoch": 2.45430472130724,
	"grad_norm": 1.0083856582641602,
	"learning_rate": 3.77285225270112e-05,
	"loss": 0.0474,
	"num_input_tokens_seen": 272382464,
	"step": 266000
	},
	{
	"epoch": 2.4589180760465394,
	"grad_norm": 1.0660340785980225,
	"learning_rate": 3.770545575331469e-05,
	"loss": 0.0531,
	"num_input_tokens_seen": 272894464,
	"step": 266500
	},
	{
	"epoch": 2.4635314307858387,
	"grad_norm": 2.4508252143859863,
	"learning_rate": 3.76823889796182e-05,
	"loss": 0.0484,
	"num_input_tokens_seen": 273406464,
	"step": 267000
	},
	{
	"epoch": 2.468144785525138,
	"grad_norm": 1.2447962760925293,
	"learning_rate": 3.7659322205921706e-05,
	"loss": 0.0543,
	"num_input_tokens_seen": 273918464,
	"step": 267500
	},
	{
	"epoch": 2.4727581402644376,
	"grad_norm": 0.9269862174987793,
	"learning_rate": 3.763625543222521e-05,
	"loss": 0.047,
	"num_input_tokens_seen": 274430464,
	"step": 268000
	},
	{
	"epoch": 2.477371495003737,
	"grad_norm": 1.8680906295776367,
	"learning_rate": 3.761318865852871e-05,
	"loss": 0.0488,
	"num_input_tokens_seen": 274942464,
	"step": 268500
	},
	{
	"epoch": 2.481984849743036,
	"grad_norm": 2.0206573009490967,
	"learning_rate": 3.7590121884832215e-05,
	"loss": 0.0481,
	"num_input_tokens_seen": 275454464,
	"step": 269000
	},
	{
	"epoch": 2.4865982044823354,
	"grad_norm": 1.7884100675582886,
	"learning_rate": 3.7567055111135715e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 275966464,
	"step": 269500
	},
	{
	"epoch": 2.4912115592216346,
	"grad_norm": 0.8701728582382202,
	"learning_rate": 3.754398833743922e-05,
	"loss": 0.0482,
	"num_input_tokens_seen": 276478464,
	"step": 270000
	},
	{
	"epoch": 2.4958249139609343,
	"grad_norm": 1.0109634399414062,
	"learning_rate": 3.752092156374272e-05,
	"loss": 0.0501,
	"num_input_tokens_seen": 276990464,
	"step": 270500
	},
	{
	"epoch": 2.5004382687002336,
	"grad_norm": 2.7722220420837402,
	"learning_rate": 3.749785479004623e-05,
	"loss": 0.0521,
	"num_input_tokens_seen": 277502464,
	"step": 271000
	},
	{
	"epoch": 2.505051623439533,
	"grad_norm": 0.6980007886886597,
	"learning_rate": 3.747478801634973e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 278014464,
	"step": 271500
	},
	{
	"epoch": 2.509664978178832,
	"grad_norm": 1.2792749404907227,
	"learning_rate": 3.745172124265324e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 278526464,
	"step": 272000
	},
	{
	"epoch": 2.5142783329181313,
	"grad_norm": 2.294569969177246,
	"learning_rate": 3.742865446895674e-05,
	"loss": 0.0499,
	"num_input_tokens_seen": 279038464,
	"step": 272500
	},
	{
	"epoch": 2.5188916876574305,
	"grad_norm": 0.667633593082428,
	"learning_rate": 3.740558769526024e-05,
	"loss": 0.0493,
	"num_input_tokens_seen": 279550464,
	"step": 273000
	},
	{
	"epoch": 2.52350504239673,
	"grad_norm": 1.3469390869140625,
	"learning_rate": 3.738252092156375e-05,
	"loss": 0.0495,
	"num_input_tokens_seen": 280062464,
	"step": 273500
	},
	{
	"epoch": 2.5281183971360295,
	"grad_norm": 1.247475266456604,
	"learning_rate": 3.735945414786725e-05,
	"loss": 0.0511,
	"num_input_tokens_seen": 280574464,
	"step": 274000
	},
	{
	"epoch": 2.5327317518753287,
	"grad_norm": 0.4033117890357971,
	"learning_rate": 3.733638737417075e-05,
	"loss": 0.0535,
	"num_input_tokens_seen": 281086464,
	"step": 274500
	},
	{
	"epoch": 2.537345106614628,
	"grad_norm": 1.1649394035339355,
	"learning_rate": 3.7313320600474255e-05,
	"loss": 0.0532,
	"num_input_tokens_seen": 281598464,
	"step": 275000
	},
	{
	"epoch": 2.5419584613539272,
	"grad_norm": 2.126436710357666,
	"learning_rate": 3.729025382677776e-05,
	"loss": 0.0485,
	"num_input_tokens_seen": 282110464,
	"step": 275500
	},
	{
	"epoch": 2.546571816093227,
	"grad_norm": 0.8005649447441101,
	"learning_rate": 3.726718705308126e-05,
	"loss": 0.0506,
	"num_input_tokens_seen": 282622464,
	"step": 276000
	},
	{
	"epoch": 2.551185170832526,
	"grad_norm": 2.3989765644073486,
	"learning_rate": 3.7244120279384764e-05,
	"loss": 0.0513,
	"num_input_tokens_seen": 283134464,
	"step": 276500
	},
	{
	"epoch": 2.5557985255718254,
	"grad_norm": 0.7040809988975525,
	"learning_rate": 3.722105350568827e-05,
	"loss": 0.0496,
	"num_input_tokens_seen": 283646464,
	"step": 277000
	},
	{
	"epoch": 2.5604118803111247,
	"grad_norm": 1.1335313320159912,
	"learning_rate": 3.719798673199177e-05,
	"loss": 0.0546,
	"num_input_tokens_seen": 284158464,
	"step": 277500
	},
	{
	"epoch": 2.565025235050424,
	"grad_norm": 0.9312555193901062,
	"learning_rate": 3.717491995829527e-05,
	"loss": 0.0516,
	"num_input_tokens_seen": 284670464,
	"step": 278000
	},
	{
	"epoch": 2.569638589789723,
	"grad_norm": 0.7695990800857544,
	"learning_rate": 3.715185318459878e-05,
	"loss": 0.0521,
	"num_input_tokens_seen": 285182464,
	"step": 278500
	},
	{
	"epoch": 2.5742519445290224,
	"grad_norm": 1.258518934249878,
	"learning_rate": 3.712878641090228e-05,
	"loss": 0.0499,
	"num_input_tokens_seen": 285694464,
	"step": 279000
	},
	{
	"epoch": 2.578865299268322,
	"grad_norm": 2.346951961517334,
	"learning_rate": 3.710571963720578e-05,
	"loss": 0.0472,
	"num_input_tokens_seen": 286206464,
	"step": 279500
	},
	{
	"epoch": 2.5834786540076213,
	"grad_norm": 0.8598672747612,
	"learning_rate": 3.708265286350929e-05,
	"loss": 0.0526,
	"num_input_tokens_seen": 286718464,
	"step": 280000
	},
	{
	"epoch": 2.5880920087469206,
	"grad_norm": 1.0490000247955322,
	"learning_rate": 3.705958608981279e-05,
	"loss": 0.0441,
	"num_input_tokens_seen": 287230464,
	"step": 280500
	},
	{
	"epoch": 2.59270536348622,
	"grad_norm": 0.49518364667892456,
	"learning_rate": 3.7036519316116296e-05,
	"loss": 0.0474,
	"num_input_tokens_seen": 287742464,
	"step": 281000
	},
	{
	"epoch": 2.597318718225519,
	"grad_norm": 1.5736312866210938,
	"learning_rate": 3.70134525424198e-05,
	"loss": 0.0509,
	"num_input_tokens_seen": 288254464,
	"step": 281500
	},
	{
	"epoch": 2.6019320729648188,
	"grad_norm": 2.511143445968628,
	"learning_rate": 3.6990385768723304e-05,
	"loss": 0.047,
	"num_input_tokens_seen": 288766464,
	"step": 282000
	},
	{
	"epoch": 2.606545427704118,
	"grad_norm": 0.9060021638870239,
	"learning_rate": 3.6967318995026805e-05,
	"loss": 0.053,
	"num_input_tokens_seen": 289278464,
	"step": 282500
	},
	{
	"epoch": 2.6111587824434173,
	"grad_norm": 1.4283766746520996,
	"learning_rate": 3.694425222133031e-05,
	"loss": 0.0476,
	"num_input_tokens_seen": 289790464,
	"step": 283000
	},
	{
	"epoch": 2.6157721371827165,
	"grad_norm": 1.5333555936813354,
	"learning_rate": 3.692118544763381e-05,
	"loss": 0.0538,
	"num_input_tokens_seen": 290302464,
	"step": 283500
	},
	{
	"epoch": 2.6203854919220158,
	"grad_norm": 1.615579605102539,
	"learning_rate": 3.689811867393731e-05,
	"loss": 0.0475,
	"num_input_tokens_seen": 290814464,
	"step": 284000
	},
	{
	"epoch": 2.624998846661315,
	"grad_norm": 1.5331679582595825,
	"learning_rate": 3.687505190024082e-05,
	"loss": 0.0471,
	"num_input_tokens_seen": 291326464,
	"step": 284500
	},
	{
	"epoch": 2.6296122014006142,
	"grad_norm": 2.3747360706329346,
	"learning_rate": 3.685198512654433e-05,
	"loss": 0.0477,
	"num_input_tokens_seen": 291838464,
	"step": 285000
	},
	{
	"epoch": 2.634225556139914,
	"grad_norm": 2.0471205711364746,
	"learning_rate": 3.682891835284782e-05,
	"loss": 0.0493,
	"num_input_tokens_seen": 292350464,
	"step": 285500
	},
	{
	"epoch": 2.638838910879213,
	"grad_norm": 1.0454156398773193,
	"learning_rate": 3.680585157915133e-05,
	"loss": 0.0467,
	"num_input_tokens_seen": 292862464,
	"step": 286000
	},
	{
	"epoch": 2.6434522656185124,
	"grad_norm": 2.0174975395202637,
	"learning_rate": 3.678278480545484e-05,
	"loss": 0.0526,
	"num_input_tokens_seen": 293374464,
	"step": 286500
	},
	{
	"epoch": 2.6480656203578117,
	"grad_norm": 1.8630324602127075,
	"learning_rate": 3.675971803175833e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 293886464,
	"step": 287000
	},
	{
	"epoch": 2.6526789750971114,
	"grad_norm": 2.270232915878296,
	"learning_rate": 3.673665125806184e-05,
	"loss": 0.0509,
	"num_input_tokens_seen": 294398464,
	"step": 287500
	},
	{
	"epoch": 2.6572923298364106,
	"grad_norm": 1.7369494438171387,
	"learning_rate": 3.6713584484365345e-05,
	"loss": 0.0504,
	"num_input_tokens_seen": 294910464,
	"step": 288000
	},
	{
	"epoch": 2.66190568457571,
	"grad_norm": 0.9229201078414917,
	"learning_rate": 3.6690517710668846e-05,
	"loss": 0.0467,
	"num_input_tokens_seen": 295422464,
	"step": 288500
	},
	{
	"epoch": 2.666519039315009,
	"grad_norm": 1.377439260482788,
	"learning_rate": 3.6667450936972346e-05,
	"loss": 0.0515,
	"num_input_tokens_seen": 295934464,
	"step": 289000
	},
	{
	"epoch": 2.6711323940543084,
	"grad_norm": 1.9601995944976807,
	"learning_rate": 3.6644384163275854e-05,
	"loss": 0.0527,
	"num_input_tokens_seen": 296446464,
	"step": 289500
	},
	{
	"epoch": 2.6757457487936076,
	"grad_norm": 1.4592013359069824,
	"learning_rate": 3.6621317389579354e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 296958464,
	"step": 290000
	},
	{
	"epoch": 2.680359103532907,
	"grad_norm": 0.35405218601226807,
	"learning_rate": 3.659825061588286e-05,
	"loss": 0.0472,
	"num_input_tokens_seen": 297470464,
	"step": 290500
	},
	{
	"epoch": 2.6849724582722065,
	"grad_norm": 1.9252680540084839,
	"learning_rate": 3.657518384218636e-05,
	"loss": 0.0469,
	"num_input_tokens_seen": 297982464,
	"step": 291000
	},
	{
	"epoch": 2.689585813011506,
	"grad_norm": 1.1235663890838623,
	"learning_rate": 3.655211706848987e-05,
	"loss": 0.0485,
	"num_input_tokens_seen": 298494464,
	"step": 291500
	},
	{
	"epoch": 2.694199167750805,
	"grad_norm": 0.9481515884399414,
	"learning_rate": 3.652905029479337e-05,
	"loss": 0.049,
	"num_input_tokens_seen": 299006464,
	"step": 292000
	},
	{
	"epoch": 2.6988125224901043,
	"grad_norm": 0.37934771180152893,
	"learning_rate": 3.650598352109687e-05,
	"loss": 0.052,
	"num_input_tokens_seen": 299518464,
	"step": 292500
	},
	{
	"epoch": 2.7034258772294035,
	"grad_norm": 1.1855201721191406,
	"learning_rate": 3.648291674740038e-05,
	"loss": 0.0492,
	"num_input_tokens_seen": 300030464,
	"step": 293000
	},
	{
	"epoch": 2.708039231968703,
	"grad_norm": 1.4538213014602661,
	"learning_rate": 3.645984997370388e-05,
	"loss": 0.0503,
	"num_input_tokens_seen": 300542464,
	"step": 293500
	},
	{
	"epoch": 2.7126525867080025,
	"grad_norm": 2.1017704010009766,
	"learning_rate": 3.6436783200007386e-05,
	"loss": 0.0458,
	"num_input_tokens_seen": 301054464,
	"step": 294000
	},
	{
	"epoch": 2.7172659414473017,
	"grad_norm": 0.6946723461151123,
	"learning_rate": 3.6413716426310887e-05,
	"loss": 0.0524,
	"num_input_tokens_seen": 301566464,
	"step": 294500
	},
	{
	"epoch": 2.721879296186601,
	"grad_norm": 3.0771243572235107,
	"learning_rate": 3.639064965261439e-05,
	"loss": 0.0518,
	"num_input_tokens_seen": 302078464,
	"step": 295000
	},
	{
	"epoch": 2.7264926509259,
	"grad_norm": 1.259162425994873,
	"learning_rate": 3.6367582878917895e-05,
	"loss": 0.0532,
	"num_input_tokens_seen": 302590464,
	"step": 295500
	},
	{
	"epoch": 2.7311060056651995,
	"grad_norm": 1.8771902322769165,
	"learning_rate": 3.63445161052214e-05,
	"loss": 0.0487,
	"num_input_tokens_seen": 303102464,
	"step": 296000
	},
	{
	"epoch": 2.7357193604044987,
	"grad_norm": 1.765956997871399,
	"learning_rate": 3.6321449331524896e-05,
	"loss": 0.0437,
	"num_input_tokens_seen": 303614464,
	"step": 296500
	},
	{
	"epoch": 2.7403327151437984,
	"grad_norm": 1.2610450983047485,
	"learning_rate": 3.62983825578284e-05,
	"loss": 0.044,
	"num_input_tokens_seen": 304126464,
	"step": 297000
	},
	{
	"epoch": 2.7449460698830976,
	"grad_norm": 4.452374458312988,
	"learning_rate": 3.627531578413191e-05,
	"loss": 0.0507,
	"num_input_tokens_seen": 304638464,
	"step": 297500
	},
	{
	"epoch": 2.749559424622397,
	"grad_norm": 1.082930088043213,
	"learning_rate": 3.625224901043541e-05,
	"loss": 0.0518,
	"num_input_tokens_seen": 305150464,
	"step": 298000
	},
	{
	"epoch": 2.754172779361696,
	"grad_norm": 0.708118200302124,
	"learning_rate": 3.622918223673891e-05,
	"loss": 0.0483,
	"num_input_tokens_seen": 305662464,
	"step": 298500
	},
	{
	"epoch": 2.758786134100996,
	"grad_norm": 1.1710622310638428,
	"learning_rate": 3.620611546304242e-05,
	"loss": 0.051,
	"num_input_tokens_seen": 306174464,
	"step": 299000
	},
	{
	"epoch": 2.763399488840295,
	"grad_norm": 2.388134002685547,
	"learning_rate": 3.618304868934592e-05,
	"loss": 0.0506,
	"num_input_tokens_seen": 306686464,
	"step": 299500
	},
	{
	"epoch": 2.7680128435795943,
	"grad_norm": 2.3141307830810547,
	"learning_rate": 3.615998191564942e-05,
	"loss": 0.0464,
	"num_input_tokens_seen": 307198464,
	"step": 300000
	},
	{
	"epoch": 2.7726261983188936,
	"grad_norm": 1.966213345527649,
	"learning_rate": 3.613691514195293e-05,
	"loss": 0.0501,
	"num_input_tokens_seen": 307710464,
	"step": 300500
	},
	{
	"epoch": 2.777239553058193,
	"grad_norm": 3.948702573776245,
	"learning_rate": 3.611384836825643e-05,
	"loss": 0.0495,
	"num_input_tokens_seen": 308222464,
	"step": 301000
	},
	{
	"epoch": 2.781852907797492,
	"grad_norm": 1.3868130445480347,
	"learning_rate": 3.6090781594559935e-05,
	"loss": 0.0471,
	"num_input_tokens_seen": 308734464,
	"step": 301500
	},
	{
	"epoch": 2.7864662625367913,
	"grad_norm": 1.42705500125885,
	"learning_rate": 3.6067714820863436e-05,
	"loss": 0.0474,
	"num_input_tokens_seen": 309246464,
	"step": 302000
	},
	{
	"epoch": 2.7910796172760906,
	"grad_norm": 1.4073491096496582,
	"learning_rate": 3.604464804716694e-05,
	"loss": 0.0459,
	"num_input_tokens_seen": 309758464,
	"step": 302500
	},
	{
	"epoch": 2.7956929720153902,
	"grad_norm": 1.990958333015442,
	"learning_rate": 3.6021581273470444e-05,
	"loss": 0.0461,
	"num_input_tokens_seen": 310270464,
	"step": 303000
	},
	{
	"epoch": 2.8003063267546895,
	"grad_norm": 2.2346065044403076,
	"learning_rate": 3.599851449977395e-05,
	"loss": 0.0534,
	"num_input_tokens_seen": 310782464,
	"step": 303500
	},
	{
	"epoch": 2.8049196814939887,
	"grad_norm": 1.1180897951126099,
	"learning_rate": 3.597544772607745e-05,
	"loss": 0.0459,
	"num_input_tokens_seen": 311294464,
	"step": 304000
	},
	{
	"epoch": 2.809533036233288,
	"grad_norm": 1.765995979309082,
	"learning_rate": 3.595238095238095e-05,
	"loss": 0.0443,
	"num_input_tokens_seen": 311806464,
	"step": 304500
	},
	{
	"epoch": 2.8141463909725877,
	"grad_norm": 0.6811426877975464,
	"learning_rate": 3.592931417868446e-05,
	"loss": 0.0488,
	"num_input_tokens_seen": 312318464,
	"step": 305000
	},
	{
	"epoch": 2.818759745711887,
	"grad_norm": 2.811584234237671,
	"learning_rate": 3.590624740498796e-05,
	"loss": 0.0517,
	"num_input_tokens_seen": 312830464,
	"step": 305500
	},
	{
	"epoch": 2.823373100451186,
	"grad_norm": 2.9501793384552,
	"learning_rate": 3.588318063129146e-05,
	"loss": 0.0537,
	"num_input_tokens_seen": 313342464,
	"step": 306000
	},
	{
	"epoch": 2.8279864551904854,
	"grad_norm": 0.9767802357673645,
	"learning_rate": 3.586011385759497e-05,
	"loss": 0.0473,
	"num_input_tokens_seen": 313854464,
	"step": 306500
	},
	{
	"epoch": 2.8325998099297847,
	"grad_norm": 1.463254451751709,
	"learning_rate": 3.5837047083898476e-05,
	"loss": 0.0498,
	"num_input_tokens_seen": 314366464,
	"step": 307000
	},
	{
	"epoch": 2.837213164669084,
	"grad_norm": 1.6375666856765747,
	"learning_rate": 3.581398031020197e-05,
	"loss": 0.0494,
	"num_input_tokens_seen": 314878464,
	"step": 307500
	},
	{
	"epoch": 2.841826519408383,
	"grad_norm": 6.093188285827637,
	"learning_rate": 3.579091353650548e-05,
	"loss": 0.0505,
	"num_input_tokens_seen": 315390464,
	"step": 308000
	},
	{
	"epoch": 2.846439874147683,
	"grad_norm": 1.2764623165130615,
	"learning_rate": 3.5767846762808984e-05,
	"loss": 0.0529,
	"num_input_tokens_seen": 315902464,
	"step": 308500
	},
	{
	"epoch": 2.851053228886982,
	"grad_norm": 0.9110862612724304,
	"learning_rate": 3.5744779989112485e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 316414464,
	"step": 309000
	},
	{
	"epoch": 2.8556665836262813,
	"grad_norm": 1.6029491424560547,
	"learning_rate": 3.5721713215415985e-05,
	"loss": 0.0524,
	"num_input_tokens_seen": 316926464,
	"step": 309500
	},
	{
	"epoch": 2.8602799383655806,
	"grad_norm": 1.162832498550415,
	"learning_rate": 3.569864644171949e-05,
	"loss": 0.0497,
	"num_input_tokens_seen": 317438464,
	"step": 310000
	},
	{
	"epoch": 2.8648932931048803,
	"grad_norm": 0.8766358494758606,
	"learning_rate": 3.567557966802299e-05,
	"loss": 0.0529,
	"num_input_tokens_seen": 317950464,
	"step": 310500
	},
	{
	"epoch": 2.8695066478441795,
	"grad_norm": 1.384810209274292,
	"learning_rate": 3.56525128943265e-05,
	"loss": 0.0495,
	"num_input_tokens_seen": 318462464,
	"step": 311000
	},
	{
	"epoch": 2.8741200025834788,
	"grad_norm": 3.1389269828796387,
	"learning_rate": 3.562944612063e-05,
	"loss": 0.0495,
	"num_input_tokens_seen": 318974464,
	"step": 311500
	},
	{
	"epoch": 2.878733357322778,
	"grad_norm": 2.004563570022583,
	"learning_rate": 3.56063793469335e-05,
	"loss": 0.0498,
	"num_input_tokens_seen": 319486464,
	"step": 312000
	},
	{
	"epoch": 2.8833467120620773,
	"grad_norm": 2.8419971466064453,
	"learning_rate": 3.558331257323701e-05,
	"loss": 0.0497,
	"num_input_tokens_seen": 319998464,
	"step": 312500
	},
	{
	"epoch": 2.8879600668013765,
	"grad_norm": 1.0195252895355225,
	"learning_rate": 3.556024579954051e-05,
	"loss": 0.0496,
	"num_input_tokens_seen": 320510464,
	"step": 313000
	},
	{
	"epoch": 2.8925734215406758,
	"grad_norm": 1.6460163593292236,
	"learning_rate": 3.553717902584402e-05,
	"loss": 0.0465,
	"num_input_tokens_seen": 321022464,
	"step": 313500
	},
	{
	"epoch": 2.897186776279975,
	"grad_norm": 0.9986339211463928,
	"learning_rate": 3.551411225214752e-05,
	"loss": 0.0494,
	"num_input_tokens_seen": 321534464,
	"step": 314000
	},
	{
	"epoch": 2.9018001310192747,
	"grad_norm": 0.7910524606704712,
	"learning_rate": 3.5491045478451025e-05,
	"loss": 0.0488,
	"num_input_tokens_seen": 322046464,
	"step": 314500
	},
	{
	"epoch": 2.906413485758574,
	"grad_norm": 0.8609081506729126,
	"learning_rate": 3.5467978704754526e-05,
	"loss": 0.0522,
	"num_input_tokens_seen": 322558464,
	"step": 315000
	},
	{
	"epoch": 2.911026840497873,
	"grad_norm": 0.49892082810401917,
	"learning_rate": 3.5444911931058026e-05,
	"loss": 0.0471,
	"num_input_tokens_seen": 323070464,
	"step": 315500
	},
	{
	"epoch": 2.9156401952371724,
	"grad_norm": 1.161789894104004,
	"learning_rate": 3.5421845157361534e-05,
	"loss": 0.0519,
	"num_input_tokens_seen": 323582464,
	"step": 316000
	},
	{
	"epoch": 2.920253549976472,
	"grad_norm": 2.9082627296447754,
	"learning_rate": 3.539877838366504e-05,
	"loss": 0.0517,
	"num_input_tokens_seen": 324094464,
	"step": 316500
	},
	{
	"epoch": 2.9248669047157714,
	"grad_norm": 2.1669368743896484,
	"learning_rate": 3.5375711609968535e-05,
	"loss": 0.0506,
	"num_input_tokens_seen": 324606464,
	"step": 317000
	},
	{
	"epoch": 2.9294802594550706,
	"grad_norm": 0.955956220626831,
	"learning_rate": 3.535264483627204e-05,
	"loss": 0.0508,
	"num_input_tokens_seen": 325118464,
	"step": 317500
	},
	{
	"epoch": 2.93409361419437,
	"grad_norm": 1.6256439685821533,
	"learning_rate": 3.532957806257555e-05,
	"loss": 0.0468,
	"num_input_tokens_seen": 325630464,
	"step": 318000
	},
	{
	"epoch": 2.938706968933669,
	"grad_norm": 1.479632019996643,
	"learning_rate": 3.530651128887904e-05,
	"loss": 0.0468,
	"num_input_tokens_seen": 326142464,
	"step": 318500
	},
	{
	"epoch": 2.9433203236729684,
	"grad_norm": 0.8990212082862854,
	"learning_rate": 3.528344451518255e-05,
	"loss": 0.0515,
	"num_input_tokens_seen": 326654464,
	"step": 319000
	},
	{
	"epoch": 2.9479336784122676,
	"grad_norm": 0.5225000381469727,
	"learning_rate": 3.526037774148606e-05,
	"loss": 0.0474,
	"num_input_tokens_seen": 327166464,
	"step": 319500
	},
	{
	"epoch": 2.9525470331515673,
	"grad_norm": 0.6462964415550232,
	"learning_rate": 3.523731096778956e-05,
	"loss": 0.0523,
	"num_input_tokens_seen": 327678464,
	"step": 320000
	},
	{
	"epoch": 2.9571603878908665,
	"grad_norm": 1.1759368181228638,
	"learning_rate": 3.521424419409306e-05,
	"loss": 0.0485,
	"num_input_tokens_seen": 328190464,
	"step": 320500
	},
	{
	"epoch": 2.961773742630166,
	"grad_norm": 0.6114454865455627,
	"learning_rate": 3.5191177420396567e-05,
	"loss": 0.0522,
	"num_input_tokens_seen": 328702464,
	"step": 321000
	},
	{
	"epoch": 2.966387097369465,
	"grad_norm": 0.8368657231330872,
	"learning_rate": 3.516811064670007e-05,
	"loss": 0.0468,
	"num_input_tokens_seen": 329214464,
	"step": 321500
	},
	{
	"epoch": 2.9710004521087643,
	"grad_norm": 0.39750799536705017,
	"learning_rate": 3.5145043873003574e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 329726464,
	"step": 322000
	},
	{
	"epoch": 2.975613806848064,
	"grad_norm": 1.4396777153015137,
	"learning_rate": 3.5121977099307075e-05,
	"loss": 0.0486,
	"num_input_tokens_seen": 330238464,
	"step": 322500
	},
	{
	"epoch": 2.9802271615873632,
	"grad_norm": 6.470019817352295,
	"learning_rate": 3.5098910325610576e-05,
	"loss": 0.0466,
	"num_input_tokens_seen": 330750464,
	"step": 323000
	},
	{
	"epoch": 2.9848405163266625,
	"grad_norm": 0.8978260159492493,
	"learning_rate": 3.507584355191408e-05,
	"loss": 0.051,
	"num_input_tokens_seen": 331262464,
	"step": 323500
	},
	{
	"epoch": 2.9894538710659617,
	"grad_norm": 1.2832305431365967,
	"learning_rate": 3.505277677821759e-05,
	"loss": 0.05,
	"num_input_tokens_seen": 331774464,
	"step": 324000
	},
	{
	"epoch": 2.994067225805261,
	"grad_norm": 1.4465861320495605,
	"learning_rate": 3.502971000452109e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 332286464,
	"step": 324500
	},
	{
	"epoch": 2.99868058054456,
	"grad_norm": 0.7884268164634705,
	"learning_rate": 3.500664323082459e-05,
	"loss": 0.0559,
	"num_input_tokens_seen": 332798464,
	"step": 325000
	},
	{
	"epoch": 3.0,
	"eval_combined_score": 0.07028037235137267,
	"eval_loss": 0.07028037309646606,
	"eval_mse": 0.07028037160627928,
	"eval_runtime": 46.6351,
	"eval_samples_per_second": 2065.784,
	"eval_steps_per_second": 258.239,
	"num_input_tokens_seen": 332944128,
	"step": 325143
	},
	{
	"epoch": 3.00329393528386,
	"grad_norm": 1.5264211893081665,
	"learning_rate": 3.49835764571281e-05,
	"loss": 0.0458,
	"num_input_tokens_seen": 333309696,
	"step": 325500
	},
	{
	"epoch": 3.007907290023159,
	"grad_norm": 0.4709686040878296,
	"learning_rate": 3.49605096834316e-05,
	"loss": 0.0373,
	"num_input_tokens_seen": 333821696,
	"step": 326000
	},
	{
	"epoch": 3.0125206447624584,
	"grad_norm": 1.1726654767990112,
	"learning_rate": 3.49374429097351e-05,
	"loss": 0.0367,
	"num_input_tokens_seen": 334333696,
	"step": 326500
	},
	{
	"epoch": 3.0171339995017576,
	"grad_norm": 0.5303038358688354,
	"learning_rate": 3.491437613603861e-05,
	"loss": 0.0398,
	"num_input_tokens_seen": 334845696,
	"step": 327000
	},
	{
	"epoch": 3.021747354241057,
	"grad_norm": 1.8502370119094849,
	"learning_rate": 3.4891309362342115e-05,
	"loss": 0.0344,
	"num_input_tokens_seen": 335357696,
	"step": 327500
	},
	{
	"epoch": 3.026360708980356,
	"grad_norm": 0.6410061120986938,
	"learning_rate": 3.486824258864561e-05,
	"loss": 0.0387,
	"num_input_tokens_seen": 335869696,
	"step": 328000
	},
	{
	"epoch": 3.030974063719656,
	"grad_norm": 2.9425787925720215,
	"learning_rate": 3.4845175814949116e-05,
	"loss": 0.0408,
	"num_input_tokens_seen": 336381696,
	"step": 328500
	},
	{
	"epoch": 3.035587418458955,
	"grad_norm": 3.2158591747283936,
	"learning_rate": 3.482210904125262e-05,
	"loss": 0.039,
	"num_input_tokens_seen": 336893696,
	"step": 329000
	},
	{
	"epoch": 3.0402007731982543,
	"grad_norm": 1.0993469953536987,
	"learning_rate": 3.4799042267556124e-05,
	"loss": 0.0427,
	"num_input_tokens_seen": 337405696,
	"step": 329500
	},
	{
	"epoch": 3.0448141279375536,
	"grad_norm": 0.733238697052002,
	"learning_rate": 3.4775975493859624e-05,
	"loss": 0.0364,
	"num_input_tokens_seen": 337917696,
	"step": 330000
	},
	{
	"epoch": 3.049427482676853,
	"grad_norm": 1.7866772413253784,
	"learning_rate": 3.475290872016313e-05,
	"loss": 0.0367,
	"num_input_tokens_seen": 338429696,
	"step": 330500
	},
	{
	"epoch": 3.054040837416152,
	"grad_norm": 2.1485824584960938,
	"learning_rate": 3.472984194646663e-05,
	"loss": 0.0375,
	"num_input_tokens_seen": 338941696,
	"step": 331000
	},
	{
	"epoch": 3.0586541921554518,
	"grad_norm": 0.9480071663856506,
	"learning_rate": 3.470677517277013e-05,
	"loss": 0.0361,
	"num_input_tokens_seen": 339453696,
	"step": 331500
	},
	{
	"epoch": 3.063267546894751,
	"grad_norm": 1.3875316381454468,
	"learning_rate": 3.468370839907364e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 339965696,
	"step": 332000
	},
	{
	"epoch": 3.0678809016340503,
	"grad_norm": 1.2781360149383545,
	"learning_rate": 3.466064162537714e-05,
	"loss": 0.0407,
	"num_input_tokens_seen": 340477696,
	"step": 332500
	},
	{
	"epoch": 3.0724942563733495,
	"grad_norm": 1.129167079925537,
	"learning_rate": 3.463757485168065e-05,
	"loss": 0.0386,
	"num_input_tokens_seen": 340989696,
	"step": 333000
	},
	{
	"epoch": 3.0771076111126487,
	"grad_norm": 1.3005669116973877,
	"learning_rate": 3.461450807798415e-05,
	"loss": 0.0389,
	"num_input_tokens_seen": 341501696,
	"step": 333500
	},
	{
	"epoch": 3.0817209658519484,
	"grad_norm": 1.7916690111160278,
	"learning_rate": 3.4591441304287656e-05,
	"loss": 0.0357,
	"num_input_tokens_seen": 342013696,
	"step": 334000
	},
	{
	"epoch": 3.0863343205912477,
	"grad_norm": 0.6907594799995422,
	"learning_rate": 3.456837453059116e-05,
	"loss": 0.0408,
	"num_input_tokens_seen": 342525696,
	"step": 334500
	},
	{
	"epoch": 3.090947675330547,
	"grad_norm": 1.9678852558135986,
	"learning_rate": 3.4545307756894664e-05,
	"loss": 0.0394,
	"num_input_tokens_seen": 343037696,
	"step": 335000
	},
	{
	"epoch": 3.095561030069846,
	"grad_norm": 2.437412977218628,
	"learning_rate": 3.4522240983198165e-05,
	"loss": 0.0374,
	"num_input_tokens_seen": 343549696,
	"step": 335500
	},
	{
	"epoch": 3.1001743848091454,
	"grad_norm": 0.7736024260520935,
	"learning_rate": 3.4499174209501665e-05,
	"loss": 0.0398,
	"num_input_tokens_seen": 344061696,
	"step": 336000
	},
	{
	"epoch": 3.1047877395484447,
	"grad_norm": 1.619535207748413,
	"learning_rate": 3.447610743580517e-05,
	"loss": 0.0407,
	"num_input_tokens_seen": 344573696,
	"step": 336500
	},
	{
	"epoch": 3.1094010942877444,
	"grad_norm": 0.7229686975479126,
	"learning_rate": 3.445304066210867e-05,
	"loss": 0.035,
	"num_input_tokens_seen": 345085696,
	"step": 337000
	},
	{
	"epoch": 3.1140144490270436,
	"grad_norm": 0.757798433303833,
	"learning_rate": 3.4429973888412174e-05,
	"loss": 0.0356,
	"num_input_tokens_seen": 345597696,
	"step": 337500
	},
	{
	"epoch": 3.118627803766343,
	"grad_norm": 1.478723168373108,
	"learning_rate": 3.440690711471568e-05,
	"loss": 0.0375,
	"num_input_tokens_seen": 346109696,
	"step": 338000
	},
	{
	"epoch": 3.123241158505642,
	"grad_norm": 1.482269525527954,
	"learning_rate": 3.438384034101919e-05,
	"loss": 0.0382,
	"num_input_tokens_seen": 346621696,
	"step": 338500
	},
	{
	"epoch": 3.1278545132449413,
	"grad_norm": 1.0418490171432495,
	"learning_rate": 3.436077356732268e-05,
	"loss": 0.0364,
	"num_input_tokens_seen": 347133696,
	"step": 339000
	},
	{
	"epoch": 3.1324678679842406,
	"grad_norm": 0.8459765911102295,
	"learning_rate": 3.433770679362619e-05,
	"loss": 0.0355,
	"num_input_tokens_seen": 347645696,
	"step": 339500
	},
	{
	"epoch": 3.1370812227235403,
	"grad_norm": 0.91368168592453,
	"learning_rate": 3.43146400199297e-05,
	"loss": 0.0384,
	"num_input_tokens_seen": 348157696,
	"step": 340000
	},
	{
	"epoch": 3.1416945774628395,
	"grad_norm": 1.1992415189743042,
	"learning_rate": 3.42915732462332e-05,
	"loss": 0.0402,
	"num_input_tokens_seen": 348669696,
	"step": 340500
	},
	{
	"epoch": 3.146307932202139,
	"grad_norm": 1.1619198322296143,
	"learning_rate": 3.42685064725367e-05,
	"loss": 0.0401,
	"num_input_tokens_seen": 349181696,
	"step": 341000
	},
	{
	"epoch": 3.150921286941438,
	"grad_norm": 0.8243937492370605,
	"learning_rate": 3.4245439698840206e-05,
	"loss": 0.039,
	"num_input_tokens_seen": 349693696,
	"step": 341500
	},
	{
	"epoch": 3.1555346416807373,
	"grad_norm": 1.217475175857544,
	"learning_rate": 3.4222372925143706e-05,
	"loss": 0.0392,
	"num_input_tokens_seen": 350205696,
	"step": 342000
	},
	{
	"epoch": 3.1601479964200365,
	"grad_norm": 1.7150335311889648,
	"learning_rate": 3.4199306151447214e-05,
	"loss": 0.0352,
	"num_input_tokens_seen": 350717696,
	"step": 342500
	},
	{
	"epoch": 3.164761351159336,
	"grad_norm": 0.892362117767334,
	"learning_rate": 3.4176239377750714e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 351229696,
	"step": 343000
	},
	{
	"epoch": 3.1693747058986355,
	"grad_norm": 0.5353464484214783,
	"learning_rate": 3.4153172604054215e-05,
	"loss": 0.0378,
	"num_input_tokens_seen": 351741696,
	"step": 343500
	},
	{
	"epoch": 3.1739880606379347,
	"grad_norm": 1.603272557258606,
	"learning_rate": 3.413010583035772e-05,
	"loss": 0.0401,
	"num_input_tokens_seen": 352253696,
	"step": 344000
	},
	{
	"epoch": 3.178601415377234,
	"grad_norm": 1.0198638439178467,
	"learning_rate": 3.410703905666122e-05,
	"loss": 0.0364,
	"num_input_tokens_seen": 352765696,
	"step": 344500
	},
	{
	"epoch": 3.183214770116533,
	"grad_norm": 0.7820620536804199,
	"learning_rate": 3.408397228296473e-05,
	"loss": 0.038,
	"num_input_tokens_seen": 353277696,
	"step": 345000
	},
	{
	"epoch": 3.187828124855833,
	"grad_norm": 1.567887306213379,
	"learning_rate": 3.406090550926823e-05,
	"loss": 0.0368,
	"num_input_tokens_seen": 353789696,
	"step": 345500
	},
	{
	"epoch": 3.192441479595132,
	"grad_norm": 1.5703437328338623,
	"learning_rate": 3.403783873557174e-05,
	"loss": 0.0385,
	"num_input_tokens_seen": 354301696,
	"step": 346000
	},
	{
	"epoch": 3.1970548343344314,
	"grad_norm": 0.5745303630828857,
	"learning_rate": 3.401477196187524e-05,
	"loss": 0.0368,
	"num_input_tokens_seen": 354813696,
	"step": 346500
	},
	{
	"epoch": 3.2016681890737306,
	"grad_norm": 0.9760965704917908,
	"learning_rate": 3.399170518817874e-05,
	"loss": 0.0414,
	"num_input_tokens_seen": 355325696,
	"step": 347000
	},
	{
	"epoch": 3.20628154381303,
	"grad_norm": 1.1067168712615967,
	"learning_rate": 3.3968638414482246e-05,
	"loss": 0.0379,
	"num_input_tokens_seen": 355837696,
	"step": 347500
	},
	{
	"epoch": 3.210894898552329,
	"grad_norm": 1.1161097288131714,
	"learning_rate": 3.3945571640785754e-05,
	"loss": 0.0384,
	"num_input_tokens_seen": 356349696,
	"step": 348000
	},
	{
	"epoch": 3.2155082532916284,
	"grad_norm": 2.1467411518096924,
	"learning_rate": 3.392250486708925e-05,
	"loss": 0.0387,
	"num_input_tokens_seen": 356861696,
	"step": 348500
	},
	{
	"epoch": 3.220121608030928,
	"grad_norm": 1.2950456142425537,
	"learning_rate": 3.3899438093392755e-05,
	"loss": 0.0362,
	"num_input_tokens_seen": 357373696,
	"step": 349000
	},
	{
	"epoch": 3.2247349627702273,
	"grad_norm": 1.0559481382369995,
	"learning_rate": 3.387637131969626e-05,
	"loss": 0.0395,
	"num_input_tokens_seen": 357885696,
	"step": 349500
	},
	{
	"epoch": 3.2293483175095266,
	"grad_norm": 1.2557491064071655,
	"learning_rate": 3.385330454599976e-05,
	"loss": 0.0409,
	"num_input_tokens_seen": 358397696,
	"step": 350000
	},
	{
	"epoch": 3.233961672248826,
	"grad_norm": 0.9372035264968872,
	"learning_rate": 3.3830237772303264e-05,
	"loss": 0.0404,
	"num_input_tokens_seen": 358909696,
	"step": 350500
	},
	{
	"epoch": 3.238575026988125,
	"grad_norm": 0.6541593670845032,
	"learning_rate": 3.380717099860677e-05,
	"loss": 0.0376,
	"num_input_tokens_seen": 359421696,
	"step": 351000
	},
	{
	"epoch": 3.2431883817274247,
	"grad_norm": 0.9174505472183228,
	"learning_rate": 3.378410422491027e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 359933696,
	"step": 351500
	},
	{
	"epoch": 3.247801736466724,
	"grad_norm": 0.9051727056503296,
	"learning_rate": 3.376103745121377e-05,
	"loss": 0.0375,
	"num_input_tokens_seen": 360445696,
	"step": 352000
	},
	{
	"epoch": 3.2524150912060232,
	"grad_norm": 1.1875522136688232,
	"learning_rate": 3.373797067751728e-05,
	"loss": 0.0431,
	"num_input_tokens_seen": 360957696,
	"step": 352500
	},
	{
	"epoch": 3.2570284459453225,
	"grad_norm": 0.1862681657075882,
	"learning_rate": 3.371490390382078e-05,
	"loss": 0.0385,
	"num_input_tokens_seen": 361469696,
	"step": 353000
	},
	{
	"epoch": 3.2616418006846217,
	"grad_norm": 1.5912601947784424,
	"learning_rate": 3.369183713012429e-05,
	"loss": 0.0371,
	"num_input_tokens_seen": 361981696,
	"step": 353500
	},
	{
	"epoch": 3.266255155423921,
	"grad_norm": 1.4725751876831055,
	"learning_rate": 3.366877035642779e-05,
	"loss": 0.0417,
	"num_input_tokens_seen": 362493696,
	"step": 354000
	},
	{
	"epoch": 3.2708685101632207,
	"grad_norm": 0.7821846604347229,
	"learning_rate": 3.364570358273129e-05,
	"loss": 0.0371,
	"num_input_tokens_seen": 363005696,
	"step": 354500
	},
	{
	"epoch": 3.27548186490252,
	"grad_norm": 1.3403239250183105,
	"learning_rate": 3.3622636809034796e-05,
	"loss": 0.0437,
	"num_input_tokens_seen": 363517696,
	"step": 355000
	},
	{
	"epoch": 3.280095219641819,
	"grad_norm": 1.3142443895339966,
	"learning_rate": 3.35995700353383e-05,
	"loss": 0.0424,
	"num_input_tokens_seen": 364029696,
	"step": 355500
	},
	{
	"epoch": 3.2847085743811184,
	"grad_norm": 0.7003629207611084,
	"learning_rate": 3.3576503261641804e-05,
	"loss": 0.038,
	"num_input_tokens_seen": 364541696,
	"step": 356000
	},
	{
	"epoch": 3.2893219291204177,
	"grad_norm": 2.1016480922698975,
	"learning_rate": 3.3553436487945304e-05,
	"loss": 0.0389,
	"num_input_tokens_seen": 365053696,
	"step": 356500
	},
	{
	"epoch": 3.2939352838597173,
	"grad_norm": 0.9255128502845764,
	"learning_rate": 3.353036971424881e-05,
	"loss": 0.0414,
	"num_input_tokens_seen": 365565696,
	"step": 357000
	},
	{
	"epoch": 3.2985486385990166,
	"grad_norm": 2.0615665912628174,
	"learning_rate": 3.350730294055231e-05,
	"loss": 0.0376,
	"num_input_tokens_seen": 366077696,
	"step": 357500
	},
	{
	"epoch": 3.303161993338316,
	"grad_norm": 0.5057035088539124,
	"learning_rate": 3.348423616685581e-05,
	"loss": 0.0441,
	"num_input_tokens_seen": 366589696,
	"step": 358000
	},
	{
	"epoch": 3.307775348077615,
	"grad_norm": 2.8129680156707764,
	"learning_rate": 3.346116939315932e-05,
	"loss": 0.0368,
	"num_input_tokens_seen": 367101696,
	"step": 358500
	},
	{
	"epoch": 3.3123887028169143,
	"grad_norm": 2.223184823989868,
	"learning_rate": 3.343810261946283e-05,
	"loss": 0.0423,
	"num_input_tokens_seen": 367613696,
	"step": 359000
	},
	{
	"epoch": 3.3170020575562136,
	"grad_norm": 1.127394199371338,
	"learning_rate": 3.341503584576632e-05,
	"loss": 0.0397,
	"num_input_tokens_seen": 368125696,
	"step": 359500
	},
	{
	"epoch": 3.321615412295513,
	"grad_norm": 2.887812376022339,
	"learning_rate": 3.339196907206983e-05,
	"loss": 0.0379,
	"num_input_tokens_seen": 368637696,
	"step": 360000
	},
	{
	"epoch": 3.3262287670348125,
	"grad_norm": 1.08502197265625,
	"learning_rate": 3.3368902298373336e-05,
	"loss": 0.0421,
	"num_input_tokens_seen": 369149696,
	"step": 360500
	},
	{
	"epoch": 3.3308421217741118,
	"grad_norm": 1.0474424362182617,
	"learning_rate": 3.334583552467684e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 369661696,
	"step": 361000
	},
	{
	"epoch": 3.335455476513411,
	"grad_norm": 0.7261756658554077,
	"learning_rate": 3.332276875098034e-05,
	"loss": 0.0409,
	"num_input_tokens_seen": 370173696,
	"step": 361500
	},
	{
	"epoch": 3.3400688312527103,
	"grad_norm": 0.6790010929107666,
	"learning_rate": 3.3299701977283845e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 370685696,
	"step": 362000
	},
	{
	"epoch": 3.3446821859920095,
	"grad_norm": 1.7215800285339355,
	"learning_rate": 3.3276635203587345e-05,
	"loss": 0.0411,
	"num_input_tokens_seen": 371197696,
	"step": 362500
	},
	{
	"epoch": 3.349295540731309,
	"grad_norm": 1.112464189529419,
	"learning_rate": 3.325356842989085e-05,
	"loss": 0.0421,
	"num_input_tokens_seen": 371709696,
	"step": 363000
	},
	{
	"epoch": 3.3539088954706084,
	"grad_norm": 1.0138994455337524,
	"learning_rate": 3.323050165619435e-05,
	"loss": 0.0369,
	"num_input_tokens_seen": 372221696,
	"step": 363500
	},
	{
	"epoch": 3.3585222502099077,
	"grad_norm": 0.584247887134552,
	"learning_rate": 3.3207434882497854e-05,
	"loss": 0.0402,
	"num_input_tokens_seen": 372733696,
	"step": 364000
	},
	{
	"epoch": 3.363135604949207,
	"grad_norm": 1.9375905990600586,
	"learning_rate": 3.318436810880136e-05,
	"loss": 0.0359,
	"num_input_tokens_seen": 373245696,
	"step": 364500
	},
	{
	"epoch": 3.367748959688506,
	"grad_norm": 1.225064992904663,
	"learning_rate": 3.316130133510486e-05,
	"loss": 0.0378,
	"num_input_tokens_seen": 373757696,
	"step": 365000
	},
	{
	"epoch": 3.3723623144278054,
	"grad_norm": 1.0532304048538208,
	"learning_rate": 3.313823456140836e-05,
	"loss": 0.0422,
	"num_input_tokens_seen": 374269696,
	"step": 365500
	},
	{
	"epoch": 3.376975669167105,
	"grad_norm": 0.950737714767456,
	"learning_rate": 3.311516778771187e-05,
	"loss": 0.0385,
	"num_input_tokens_seen": 374781696,
	"step": 366000
	},
	{
	"epoch": 3.3815890239064044,
	"grad_norm": 0.340679794549942,
	"learning_rate": 3.309210101401538e-05,
	"loss": 0.0364,
	"num_input_tokens_seen": 375293696,
	"step": 366500
	},
	{
	"epoch": 3.3862023786457036,
	"grad_norm": 4.747739791870117,
	"learning_rate": 3.306903424031888e-05,
	"loss": 0.0354,
	"num_input_tokens_seen": 375805696,
	"step": 367000
	},
	{
	"epoch": 3.390815733385003,
	"grad_norm": 1.7227208614349365,
	"learning_rate": 3.304596746662238e-05,
	"loss": 0.0413,
	"num_input_tokens_seen": 376317696,
	"step": 367500
	},
	{
	"epoch": 3.395429088124302,
	"grad_norm": 1.4410547018051147,
	"learning_rate": 3.3022900692925886e-05,
	"loss": 0.0359,
	"num_input_tokens_seen": 376829696,
	"step": 368000
	},
	{
	"epoch": 3.400042442863602,
	"grad_norm": 0.847284197807312,
	"learning_rate": 3.2999833919229386e-05,
	"loss": 0.0437,
	"num_input_tokens_seen": 377341696,
	"step": 368500
	},
	{
	"epoch": 3.404655797602901,
	"grad_norm": 1.7439848184585571,
	"learning_rate": 3.297676714553289e-05,
	"loss": 0.0362,
	"num_input_tokens_seen": 377853696,
	"step": 369000
	},
	{
	"epoch": 3.4092691523422003,
	"grad_norm": 0.6023704409599304,
	"learning_rate": 3.2953700371836394e-05,
	"loss": 0.0418,
	"num_input_tokens_seen": 378365696,
	"step": 369500
	},
	{
	"epoch": 3.4138825070814995,
	"grad_norm": 0.3590753972530365,
	"learning_rate": 3.29306335981399e-05,
	"loss": 0.0402,
	"num_input_tokens_seen": 378877696,
	"step": 370000
	},
	{
	"epoch": 3.418495861820799,
	"grad_norm": 1.0211530923843384,
	"learning_rate": 3.2907566824443395e-05,
	"loss": 0.0374,
	"num_input_tokens_seen": 379389696,
	"step": 370500
	},
	{
	"epoch": 3.423109216560098,
	"grad_norm": 0.9513002038002014,
	"learning_rate": 3.28845000507469e-05,
	"loss": 0.0401,
	"num_input_tokens_seen": 379901696,
	"step": 371000
	},
	{
	"epoch": 3.4277225712993973,
	"grad_norm": 1.0161465406417847,
	"learning_rate": 3.286143327705041e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 380413696,
	"step": 371500
	},
	{
	"epoch": 3.432335926038697,
	"grad_norm": 1.2249014377593994,
	"learning_rate": 3.283836650335391e-05,
	"loss": 0.0401,
	"num_input_tokens_seen": 380925696,
	"step": 372000
	},
	{
	"epoch": 3.436949280777996,
	"grad_norm": 1.3249224424362183,
	"learning_rate": 3.281529972965741e-05,
	"loss": 0.0414,
	"num_input_tokens_seen": 381437696,
	"step": 372500
	},
	{
	"epoch": 3.4415626355172955,
	"grad_norm": 3.6392204761505127,
	"learning_rate": 3.279223295596092e-05,
	"loss": 0.0367,
	"num_input_tokens_seen": 381949696,
	"step": 373000
	},
	{
	"epoch": 3.4461759902565947,
	"grad_norm": 0.9922639727592468,
	"learning_rate": 3.276916618226442e-05,
	"loss": 0.0418,
	"num_input_tokens_seen": 382461696,
	"step": 373500
	},
	{
	"epoch": 3.450789344995894,
	"grad_norm": 2.1645193099975586,
	"learning_rate": 3.2746099408567926e-05,
	"loss": 0.0382,
	"num_input_tokens_seen": 382973696,
	"step": 374000
	},
	{
	"epoch": 3.4554026997351937,
	"grad_norm": 2.5222291946411133,
	"learning_rate": 3.272303263487143e-05,
	"loss": 0.0399,
	"num_input_tokens_seen": 383485696,
	"step": 374500
	},
	{
	"epoch": 3.460016054474493,
	"grad_norm": 2.2609009742736816,
	"learning_rate": 3.269996586117493e-05,
	"loss": 0.0395,
	"num_input_tokens_seen": 383997696,
	"step": 375000
	},
	{
	"epoch": 3.464629409213792,
	"grad_norm": 3.2856132984161377,
	"learning_rate": 3.2676899087478435e-05,
	"loss": 0.0391,
	"num_input_tokens_seen": 384509696,
	"step": 375500
	},
	{
	"epoch": 3.4692427639530914,
	"grad_norm": 0.6138939261436462,
	"learning_rate": 3.265383231378194e-05,
	"loss": 0.0398,
	"num_input_tokens_seen": 385021696,
	"step": 376000
	},
	{
	"epoch": 3.4738561186923906,
	"grad_norm": 1.3824810981750488,
	"learning_rate": 3.263076554008544e-05,
	"loss": 0.0374,
	"num_input_tokens_seen": 385533696,
	"step": 376500
	},
	{
	"epoch": 3.47846947343169,
	"grad_norm": 1.539600133895874,
	"learning_rate": 3.2607698766388943e-05,
	"loss": 0.0397,
	"num_input_tokens_seen": 386045696,
	"step": 377000
	},
	{
	"epoch": 3.483082828170989,
	"grad_norm": 0.7915021181106567,
	"learning_rate": 3.258463199269245e-05,
	"loss": 0.0408,
	"num_input_tokens_seen": 386557696,
	"step": 377500
	},
	{
	"epoch": 3.487696182910289,
	"grad_norm": 1.5975933074951172,
	"learning_rate": 3.256156521899595e-05,
	"loss": 0.0382,
	"num_input_tokens_seen": 387069696,
	"step": 378000
	},
	{
	"epoch": 3.492309537649588,
	"grad_norm": 1.8749665021896362,
	"learning_rate": 3.253849844529945e-05,
	"loss": 0.0407,
	"num_input_tokens_seen": 387581696,
	"step": 378500
	},
	{
	"epoch": 3.4969228923888873,
	"grad_norm": 1.7674627304077148,
	"learning_rate": 3.251543167160296e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 388093696,
	"step": 379000
	},
	{
	"epoch": 3.5015362471281866,
	"grad_norm": 0.8147306442260742,
	"learning_rate": 3.249236489790646e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 388605696,
	"step": 379500
	},
	{
	"epoch": 3.5061496018674863,
	"grad_norm": 0.7411497235298157,
	"learning_rate": 3.246929812420996e-05,
	"loss": 0.0394,
	"num_input_tokens_seen": 389117696,
	"step": 380000
	},
	{
	"epoch": 3.5107629566067855,
	"grad_norm": 1.145559549331665,
	"learning_rate": 3.244623135051347e-05,
	"loss": 0.0432,
	"num_input_tokens_seen": 389629696,
	"step": 380500
	},
	{
	"epoch": 3.5153763113460847,
	"grad_norm": 1.1018445491790771,
	"learning_rate": 3.2423164576816975e-05,
	"loss": 0.0426,
	"num_input_tokens_seen": 390141696,
	"step": 381000
	},
	{
	"epoch": 3.519989666085384,
	"grad_norm": 5.711886882781982,
	"learning_rate": 3.2400097803120476e-05,
	"loss": 0.0362,
	"num_input_tokens_seen": 390653696,
	"step": 381500
	},
	{
	"epoch": 3.5246030208246832,
	"grad_norm": 5.521966934204102,
	"learning_rate": 3.2377031029423976e-05,
	"loss": 0.0445,
	"num_input_tokens_seen": 391165696,
	"step": 382000
	},
	{
	"epoch": 3.5292163755639825,
	"grad_norm": 1.7097331285476685,
	"learning_rate": 3.2353964255727484e-05,
	"loss": 0.0394,
	"num_input_tokens_seen": 391677696,
	"step": 382500
	},
	{
	"epoch": 3.5338297303032817,
	"grad_norm": 2.794013023376465,
	"learning_rate": 3.2330897482030984e-05,
	"loss": 0.0418,
	"num_input_tokens_seen": 392189696,
	"step": 383000
	},
	{
	"epoch": 3.5384430850425814,
	"grad_norm": 0.8009048700332642,
	"learning_rate": 3.2307830708334485e-05,
	"loss": 0.0402,
	"num_input_tokens_seen": 392701696,
	"step": 383500
	},
	{
	"epoch": 3.5430564397818807,
	"grad_norm": 1.5974643230438232,
	"learning_rate": 3.228476393463799e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 393213696,
	"step": 384000
	},
	{
	"epoch": 3.54766979452118,
	"grad_norm": 2.538250207901001,
	"learning_rate": 3.226169716094149e-05,
	"loss": 0.0401,
	"num_input_tokens_seen": 393725696,
	"step": 384500
	},
	{
	"epoch": 3.552283149260479,
	"grad_norm": 1.2976337671279907,
	"learning_rate": 3.2238630387245e-05,
	"loss": 0.0379,
	"num_input_tokens_seen": 394237696,
	"step": 385000
	},
	{
	"epoch": 3.5568965039997784,
	"grad_norm": 1.1865109205245972,
	"learning_rate": 3.22155636135485e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 394749696,
	"step": 385500
	},
	{
	"epoch": 3.561509858739078,
	"grad_norm": 0.36470434069633484,
	"learning_rate": 3.2192496839852e-05,
	"loss": 0.0399,
	"num_input_tokens_seen": 395261696,
	"step": 386000
	},
	{
	"epoch": 3.5661232134783774,
	"grad_norm": 2.1635212898254395,
	"learning_rate": 3.216943006615551e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 395773696,
	"step": 386500
	},
	{
	"epoch": 3.5707365682176766,
	"grad_norm": 1.7805256843566895,
	"learning_rate": 3.2146363292459016e-05,
	"loss": 0.0391,
	"num_input_tokens_seen": 396285696,
	"step": 387000
	},
	{
	"epoch": 3.575349922956976,
	"grad_norm": 1.5320919752120972,
	"learning_rate": 3.212329651876252e-05,
	"loss": 0.0417,
	"num_input_tokens_seen": 396797696,
	"step": 387500
	},
	{
	"epoch": 3.579963277696275,
	"grad_norm": 3.523890733718872,
	"learning_rate": 3.210022974506602e-05,
	"loss": 0.0394,
	"num_input_tokens_seen": 397309696,
	"step": 388000
	},
	{
	"epoch": 3.5845766324355743,
	"grad_norm": 1.2910226583480835,
	"learning_rate": 3.2077162971369525e-05,
	"loss": 0.0397,
	"num_input_tokens_seen": 397821696,
	"step": 388500
	},
	{
	"epoch": 3.5891899871748736,
	"grad_norm": 1.5501660108566284,
	"learning_rate": 3.2054096197673025e-05,
	"loss": 0.0396,
	"num_input_tokens_seen": 398333696,
	"step": 389000
	},
	{
	"epoch": 3.5938033419141733,
	"grad_norm": 1.1182091236114502,
	"learning_rate": 3.2031029423976526e-05,
	"loss": 0.0421,
	"num_input_tokens_seen": 398845696,
	"step": 389500
	},
	{
	"epoch": 3.5984166966534725,
	"grad_norm": 1.5010899305343628,
	"learning_rate": 3.200796265028003e-05,
	"loss": 0.038,
	"num_input_tokens_seen": 399357696,
	"step": 390000
	},
	{
	"epoch": 3.6030300513927718,
	"grad_norm": 0.4965997040271759,
	"learning_rate": 3.198489587658354e-05,
	"loss": 0.0392,
	"num_input_tokens_seen": 399869696,
	"step": 390500
	},
	{
	"epoch": 3.607643406132071,
	"grad_norm": 0.735758364200592,
	"learning_rate": 3.1961829102887034e-05,
	"loss": 0.0375,
	"num_input_tokens_seen": 400381696,
	"step": 391000
	},
	{
	"epoch": 3.6122567608713707,
	"grad_norm": 0.9119324684143066,
	"learning_rate": 3.193876232919054e-05,
	"loss": 0.0397,
	"num_input_tokens_seen": 400893696,
	"step": 391500
	},
	{
	"epoch": 3.61687011561067,
	"grad_norm": 1.0355151891708374,
	"learning_rate": 3.191569555549405e-05,
	"loss": 0.0379,
	"num_input_tokens_seen": 401405696,
	"step": 392000
	},
	{
	"epoch": 3.621483470349969,
	"grad_norm": 1.574038028717041,
	"learning_rate": 3.189262878179755e-05,
	"loss": 0.0398,
	"num_input_tokens_seen": 401917696,
	"step": 392500
	},
	{
	"epoch": 3.6260968250892684,
	"grad_norm": 1.9339407682418823,
	"learning_rate": 3.186956200810105e-05,
	"loss": 0.0366,
	"num_input_tokens_seen": 402429696,
	"step": 393000
	},
	{
	"epoch": 3.6307101798285677,
	"grad_norm": 1.808971643447876,
	"learning_rate": 3.184649523440456e-05,
	"loss": 0.0433,
	"num_input_tokens_seen": 402941696,
	"step": 393500
	},
	{
	"epoch": 3.635323534567867,
	"grad_norm": 0.8877146244049072,
	"learning_rate": 3.182342846070806e-05,
	"loss": 0.0402,
	"num_input_tokens_seen": 403453696,
	"step": 394000
	},
	{
	"epoch": 3.639936889307166,
	"grad_norm": 1.4622044563293457,
	"learning_rate": 3.1800361687011566e-05,
	"loss": 0.0429,
	"num_input_tokens_seen": 403965696,
	"step": 394500
	},
	{
	"epoch": 3.6445502440464654,
	"grad_norm": 1.1509592533111572,
	"learning_rate": 3.1777294913315066e-05,
	"loss": 0.0378,
	"num_input_tokens_seen": 404477696,
	"step": 395000
	},
	{
	"epoch": 3.649163598785765,
	"grad_norm": 1.6934188604354858,
	"learning_rate": 3.175422813961857e-05,
	"loss": 0.0395,
	"num_input_tokens_seen": 404989696,
	"step": 395500
	},
	{
	"epoch": 3.6537769535250644,
	"grad_norm": 2.861666202545166,
	"learning_rate": 3.1731161365922074e-05,
	"loss": 0.0382,
	"num_input_tokens_seen": 405501696,
	"step": 396000
	},
	{
	"epoch": 3.6583903082643636,
	"grad_norm": 1.3087468147277832,
	"learning_rate": 3.1708094592225575e-05,
	"loss": 0.0387,
	"num_input_tokens_seen": 406013696,
	"step": 396500
	},
	{
	"epoch": 3.663003663003663,
	"grad_norm": 0.8184057474136353,
	"learning_rate": 3.1685027818529075e-05,
	"loss": 0.0436,
	"num_input_tokens_seen": 406525696,
	"step": 397000
	},
	{
	"epoch": 3.6676170177429626,
	"grad_norm": 1.3447506427764893,
	"learning_rate": 3.166196104483258e-05,
	"loss": 0.0387,
	"num_input_tokens_seen": 407037696,
	"step": 397500
	},
	{
	"epoch": 3.672230372482262,
	"grad_norm": 1.8640304803848267,
	"learning_rate": 3.163889427113609e-05,
	"loss": 0.0427,
	"num_input_tokens_seen": 407549696,
	"step": 398000
	},
	{
	"epoch": 3.676843727221561,
	"grad_norm": 6.683871746063232,
	"learning_rate": 3.161582749743959e-05,
	"loss": 0.0413,
	"num_input_tokens_seen": 408061696,
	"step": 398500
	},
	{
	"epoch": 3.6814570819608603,
	"grad_norm": 0.6029996275901794,
	"learning_rate": 3.159276072374309e-05,
	"loss": 0.0428,
	"num_input_tokens_seen": 408573696,
	"step": 399000
	},
	{
	"epoch": 3.6860704367001595,
	"grad_norm": 0.6650155782699585,
	"learning_rate": 3.15696939500466e-05,
	"loss": 0.0376,
	"num_input_tokens_seen": 409085696,
	"step": 399500
	},
	{
	"epoch": 3.690683791439459,
	"grad_norm": 0.6915871500968933,
	"learning_rate": 3.15466271763501e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 409597696,
	"step": 400000
	},
	{
	"epoch": 3.695297146178758,
	"grad_norm": 0.9651739597320557,
	"learning_rate": 3.15235604026536e-05,
	"loss": 0.0388,
	"num_input_tokens_seen": 410109696,
	"step": 400500
	},
	{
	"epoch": 3.6999105009180577,
	"grad_norm": 1.2852321863174438,
	"learning_rate": 3.150049362895711e-05,
	"loss": 0.0436,
	"num_input_tokens_seen": 410621696,
	"step": 401000
	},
	{
	"epoch": 3.704523855657357,
	"grad_norm": 1.250339150428772,
	"learning_rate": 3.1477426855260614e-05,
	"loss": 0.0371,
	"num_input_tokens_seen": 411133696,
	"step": 401500
	},
	{
	"epoch": 3.7091372103966562,
	"grad_norm": 0.9992502927780151,
	"learning_rate": 3.1454360081564115e-05,
	"loss": 0.0413,
	"num_input_tokens_seen": 411645696,
	"step": 402000
	},
	{
	"epoch": 3.7137505651359555,
	"grad_norm": 3.6451685428619385,
	"learning_rate": 3.1431293307867615e-05,
	"loss": 0.0425,
	"num_input_tokens_seen": 412157696,
	"step": 402500
	},
	{
	"epoch": 3.718363919875255,
	"grad_norm": 0.49393585324287415,
	"learning_rate": 3.140822653417112e-05,
	"loss": 0.0414,
	"num_input_tokens_seen": 412669696,
	"step": 403000
	},
	{
	"epoch": 3.7229772746145544,
	"grad_norm": 1.5764920711517334,
	"learning_rate": 3.1385159760474623e-05,
	"loss": 0.0373,
	"num_input_tokens_seen": 413181696,
	"step": 403500
	},
	{
	"epoch": 3.7275906293538537,
	"grad_norm": 2.7465178966522217,
	"learning_rate": 3.1362092986778124e-05,
	"loss": 0.0418,
	"num_input_tokens_seen": 413693696,
	"step": 404000
	},
	{
	"epoch": 3.732203984093153,
	"grad_norm": 2.4784648418426514,
	"learning_rate": 3.133902621308163e-05,
	"loss": 0.0373,
	"num_input_tokens_seen": 414205696,
	"step": 404500
	},
	{
	"epoch": 3.736817338832452,
	"grad_norm": 1.1435418128967285,
	"learning_rate": 3.131595943938513e-05,
	"loss": 0.0393,
	"num_input_tokens_seen": 414717696,
	"step": 405000
	},
	{
	"epoch": 3.7414306935717514,
	"grad_norm": 3.1641488075256348,
	"learning_rate": 3.129289266568864e-05,
	"loss": 0.0378,
	"num_input_tokens_seen": 415229696,
	"step": 405500
	},
	{
	"epoch": 3.7460440483110506,
	"grad_norm": 1.299619436264038,
	"learning_rate": 3.126982589199214e-05,
	"loss": 0.0376,
	"num_input_tokens_seen": 415741696,
	"step": 406000
	},
	{
	"epoch": 3.75065740305035,
	"grad_norm": 1.7014168500900269,
	"learning_rate": 3.124675911829564e-05,
	"loss": 0.0448,
	"num_input_tokens_seen": 416253696,
	"step": 406500
	},
	{
	"epoch": 3.7552707577896496,
	"grad_norm": 1.5592892169952393,
	"learning_rate": 3.122369234459915e-05,
	"loss": 0.038,
	"num_input_tokens_seen": 416765696,
	"step": 407000
	},
	{
	"epoch": 3.759884112528949,
	"grad_norm": 0.6049352884292603,
	"learning_rate": 3.1200625570902655e-05,
	"loss": 0.039,
	"num_input_tokens_seen": 417277696,
	"step": 407500
	},
	{
	"epoch": 3.764497467268248,
	"grad_norm": 0.6392286419868469,
	"learning_rate": 3.117755879720615e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 417789696,
	"step": 408000
	},
	{
	"epoch": 3.7691108220075473,
	"grad_norm": 3.689347505569458,
	"learning_rate": 3.1154492023509656e-05,
	"loss": 0.0385,
	"num_input_tokens_seen": 418301696,
	"step": 408500
	},
	{
	"epoch": 3.773724176746847,
	"grad_norm": 0.8414890766143799,
	"learning_rate": 3.1131425249813164e-05,
	"loss": 0.0366,
	"num_input_tokens_seen": 418813696,
	"step": 409000
	},
	{
	"epoch": 3.7783375314861463,
	"grad_norm": 5.263124465942383,
	"learning_rate": 3.1108358476116664e-05,
	"loss": 0.0406,
	"num_input_tokens_seen": 419325696,
	"step": 409500
	},
	{
	"epoch": 3.7829508862254455,
	"grad_norm": 1.395107626914978,
	"learning_rate": 3.1085291702420165e-05,
	"loss": 0.0375,
	"num_input_tokens_seen": 419837696,
	"step": 410000
	},
	{
	"epoch": 3.7875642409647448,
	"grad_norm": 1.189859390258789,
	"learning_rate": 3.106222492872367e-05,
	"loss": 0.0373,
	"num_input_tokens_seen": 420349696,
	"step": 410500
	},
	{
	"epoch": 3.792177595704044,
	"grad_norm": 0.5523993372917175,
	"learning_rate": 3.103915815502717e-05,
	"loss": 0.0386,
	"num_input_tokens_seen": 420861696,
	"step": 411000
	},
	{
	"epoch": 3.7967909504433432,
	"grad_norm": 0.6239033341407776,
	"learning_rate": 3.1016091381330673e-05,
	"loss": 0.0369,
	"num_input_tokens_seen": 421373696,
	"step": 411500
	},
	{
	"epoch": 3.8014043051826425,
	"grad_norm": 2.072326421737671,
	"learning_rate": 3.099302460763418e-05,
	"loss": 0.0435,
	"num_input_tokens_seen": 421885696,
	"step": 412000
	},
	{
	"epoch": 3.806017659921942,
	"grad_norm": 2.074704647064209,
	"learning_rate": 3.096995783393769e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 422397696,
	"step": 412500
	},
	{
	"epoch": 3.8106310146612414,
	"grad_norm": 1.9311884641647339,
	"learning_rate": 3.094689106024119e-05,
	"loss": 0.0428,
	"num_input_tokens_seen": 422909696,
	"step": 413000
	},
	{
	"epoch": 3.8152443694005407,
	"grad_norm": 1.3210355043411255,
	"learning_rate": 3.092382428654469e-05,
	"loss": 0.0429,
	"num_input_tokens_seen": 423421696,
	"step": 413500
	},
	{
	"epoch": 3.81985772413984,
	"grad_norm": 3.048222064971924,
	"learning_rate": 3.09007575128482e-05,
	"loss": 0.0418,
	"num_input_tokens_seen": 423933696,
	"step": 414000
	},
	{
	"epoch": 3.824471078879139,
	"grad_norm": 0.8300300240516663,
	"learning_rate": 3.08776907391517e-05,
	"loss": 0.0408,
	"num_input_tokens_seen": 424445696,
	"step": 414500
	},
	{
	"epoch": 3.829084433618439,
	"grad_norm": 0.6099697947502136,
	"learning_rate": 3.0854623965455205e-05,
	"loss": 0.0453,
	"num_input_tokens_seen": 424957696,
	"step": 415000
	},
	{
	"epoch": 3.833697788357738,
	"grad_norm": 1.205819845199585,
	"learning_rate": 3.0831557191758705e-05,
	"loss": 0.0379,
	"num_input_tokens_seen": 425469696,
	"step": 415500
	},
	{
	"epoch": 3.8383111430970374,
	"grad_norm": 2.9948160648345947,
	"learning_rate": 3.0808490418062206e-05,
	"loss": 0.0406,
	"num_input_tokens_seen": 425981696,
	"step": 416000
	},
	{
	"epoch": 3.8429244978363366,
	"grad_norm": 1.0202473402023315,
	"learning_rate": 3.078542364436571e-05,
	"loss": 0.0446,
	"num_input_tokens_seen": 426493696,
	"step": 416500
	},
	{
	"epoch": 3.847537852575636,
	"grad_norm": 1.2540485858917236,
	"learning_rate": 3.0762356870669214e-05,
	"loss": 0.0431,
	"num_input_tokens_seen": 427005696,
	"step": 417000
	},
	{
	"epoch": 3.852151207314935,
	"grad_norm": 1.10784113407135,
	"learning_rate": 3.0739290096972714e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 427517696,
	"step": 417500
	},
	{
	"epoch": 3.8567645620542343,
	"grad_norm": 1.326798439025879,
	"learning_rate": 3.071622332327622e-05,
	"loss": 0.0392,
	"num_input_tokens_seen": 428029696,
	"step": 418000
	},
	{
	"epoch": 3.861377916793534,
	"grad_norm": 0.7203147411346436,
	"learning_rate": 3.069315654957973e-05,
	"loss": 0.0412,
	"num_input_tokens_seen": 428541696,
	"step": 418500
	},
	{
	"epoch": 3.8659912715328333,
	"grad_norm": 2.017019510269165,
	"learning_rate": 3.067008977588323e-05,
	"loss": 0.0397,
	"num_input_tokens_seen": 429053696,
	"step": 419000
	},
	{
	"epoch": 3.8706046262721325,
	"grad_norm": 1.9709299802780151,
	"learning_rate": 3.064702300218673e-05,
	"loss": 0.0382,
	"num_input_tokens_seen": 429565696,
	"step": 419500
	},
	{
	"epoch": 3.875217981011432,
	"grad_norm": 3.0947420597076416,
	"learning_rate": 3.062395622849024e-05,
	"loss": 0.037,
	"num_input_tokens_seen": 430077696,
	"step": 420000
	},
	{
	"epoch": 3.8798313357507315,
	"grad_norm": 1.6916519403457642,
	"learning_rate": 3.060088945479374e-05,
	"loss": 0.038,
	"num_input_tokens_seen": 430589696,
	"step": 420500
	},
	{
	"epoch": 3.8844446904900307,
	"grad_norm": 2.846257209777832,
	"learning_rate": 3.057782268109724e-05,
	"loss": 0.0415,
	"num_input_tokens_seen": 431101696,
	"step": 421000
	},
	{
	"epoch": 3.88905804522933,
	"grad_norm": 0.8271204233169556,
	"learning_rate": 3.0554755907400746e-05,
	"loss": 0.0428,
	"num_input_tokens_seen": 431613696,
	"step": 421500
	},
	{
	"epoch": 3.893671399968629,
	"grad_norm": 1.4244275093078613,
	"learning_rate": 3.0531689133704247e-05,
	"loss": 0.042,
	"num_input_tokens_seen": 432125696,
	"step": 422000
	},
	{
	"epoch": 3.8982847547079285,
	"grad_norm": 1.629799485206604,
	"learning_rate": 3.050862236000775e-05,
	"loss": 0.038,
	"num_input_tokens_seen": 432637696,
	"step": 422500
	},
	{
	"epoch": 3.9028981094472277,
	"grad_norm": 1.1674317121505737,
	"learning_rate": 3.0485555586311255e-05,
	"loss": 0.0408,
	"num_input_tokens_seen": 433149696,
	"step": 423000
	},
	{
	"epoch": 3.907511464186527,
	"grad_norm": 0.816435694694519,
	"learning_rate": 3.046248881261476e-05,
	"loss": 0.0395,
	"num_input_tokens_seen": 433661696,
	"step": 423500
	},
	{
	"epoch": 3.9121248189258266,
	"grad_norm": 0.8461304903030396,
	"learning_rate": 3.0439422038918262e-05,
	"loss": 0.0414,
	"num_input_tokens_seen": 434173696,
	"step": 424000
	},
	{
	"epoch": 3.916738173665126,
	"grad_norm": 1.0469881296157837,
	"learning_rate": 3.0416355265221763e-05,
	"loss": 0.0403,
	"num_input_tokens_seen": 434685696,
	"step": 424500
	},
	{
	"epoch": 3.921351528404425,
	"grad_norm": 2.0151569843292236,
	"learning_rate": 3.0393288491525267e-05,
	"loss": 0.0411,
	"num_input_tokens_seen": 435197696,
	"step": 425000
	},
	{
	"epoch": 3.9259648831437244,
	"grad_norm": 1.178753137588501,
	"learning_rate": 3.0370221717828774e-05,
	"loss": 0.0415,
	"num_input_tokens_seen": 435709696,
	"step": 425500
	},
	{
	"epoch": 3.9305782378830236,
	"grad_norm": 0.6420595049858093,
	"learning_rate": 3.034715494413228e-05,
	"loss": 0.0433,
	"num_input_tokens_seen": 436221696,
	"step": 426000
	},
	{
	"epoch": 3.9351915926223233,
	"grad_norm": 1.1695127487182617,
	"learning_rate": 3.0324088170435776e-05,
	"loss": 0.0415,
	"num_input_tokens_seen": 436733696,
	"step": 426500
	},
	{
	"epoch": 3.9398049473616226,
	"grad_norm": 0.9923868179321289,
	"learning_rate": 3.0301021396739283e-05,
	"loss": 0.0412,
	"num_input_tokens_seen": 437245696,
	"step": 427000
	},
	{
	"epoch": 3.944418302100922,
	"grad_norm": 0.8079075217247009,
	"learning_rate": 3.0277954623042787e-05,
	"loss": 0.0401,
	"num_input_tokens_seen": 437757696,
	"step": 427500
	},
	{
	"epoch": 3.949031656840221,
	"grad_norm": 2.699918746948242,
	"learning_rate": 3.025488784934629e-05,
	"loss": 0.04,
	"num_input_tokens_seen": 438269696,
	"step": 428000
	},
	{
	"epoch": 3.9536450115795203,
	"grad_norm": 0.577458381652832,
	"learning_rate": 3.023182107564979e-05,
	"loss": 0.0404,
	"num_input_tokens_seen": 438781696,
	"step": 428500
	},
	{
	"epoch": 3.9582583663188196,
	"grad_norm": 0.6960185170173645,
	"learning_rate": 3.0208754301953295e-05,
	"loss": 0.0393,
	"num_input_tokens_seen": 439293696,
	"step": 429000
	},
	{
	"epoch": 3.962871721058119,
	"grad_norm": 1.2610116004943848,
	"learning_rate": 3.01856875282568e-05,
	"loss": 0.0385,
	"num_input_tokens_seen": 439805696,
	"step": 429500
	},
	{
	"epoch": 3.9674850757974185,
	"grad_norm": 1.0515618324279785,
	"learning_rate": 3.01626207545603e-05,
	"loss": 0.0386,
	"num_input_tokens_seen": 440317696,
	"step": 430000
	},
	{
	"epoch": 3.9720984305367177,
	"grad_norm": 0.9695286154747009,
	"learning_rate": 3.0139553980863804e-05,
	"loss": 0.0425,
	"num_input_tokens_seen": 440829696,
	"step": 430500
	},
	{
	"epoch": 3.976711785276017,
	"grad_norm": 1.542039155960083,
	"learning_rate": 3.011648720716731e-05,
	"loss": 0.0392,
	"num_input_tokens_seen": 441341696,
	"step": 431000
	},
	{
	"epoch": 3.9813251400153162,
	"grad_norm": 1.2009466886520386,
	"learning_rate": 3.0093420433470815e-05,
	"loss": 0.043,
	"num_input_tokens_seen": 441853696,
	"step": 431500
	},
	{
	"epoch": 3.985938494754616,
	"grad_norm": 1.8694528341293335,
	"learning_rate": 3.0070353659774312e-05,
	"loss": 0.0396,
	"num_input_tokens_seen": 442365696,
	"step": 432000
	},
	{
	"epoch": 3.990551849493915,
	"grad_norm": 1.2931849956512451,
	"learning_rate": 3.004728688607782e-05,
	"loss": 0.0382,
	"num_input_tokens_seen": 442877696,
	"step": 432500
	},
	{
	"epoch": 3.9951652042332144,
	"grad_norm": 0.953074038028717,
	"learning_rate": 3.0024220112381324e-05,
	"loss": 0.0429,
	"num_input_tokens_seen": 443389696,
	"step": 433000
	},
	{
	"epoch": 3.9997785589725137,
	"grad_norm": 2.807677745819092,
	"learning_rate": 3.0001153338684828e-05,
	"loss": 0.0387,
	"num_input_tokens_seen": 443901696,
	"step": 433500
	},
	{
	"epoch": 4.0,
	"eval_combined_score": 0.06748922723897993,
	"eval_loss": 0.06748922914266586,
	"eval_mse": 0.06748922533529399,
	"eval_runtime": 49.5025,
	"eval_samples_per_second": 1946.123,
	"eval_steps_per_second": 243.281,
	"num_input_tokens_seen": 443925504,
	"step": 433524
	},
	{
	"epoch": 4.004391913711813,
	"grad_norm": 0.2404492050409317,
	"learning_rate": 2.997808656498833e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 444412928,
	"step": 434000
	},
	{
	"epoch": 4.009005268451112,
	"grad_norm": 1.2364345788955688,
	"learning_rate": 2.9955019791291832e-05,
	"loss": 0.0297,
	"num_input_tokens_seen": 444924928,
	"step": 434500
	},
	{
	"epoch": 4.013618623190411,
	"grad_norm": 0.9113791584968567,
	"learning_rate": 2.9931953017595336e-05,
	"loss": 0.0287,
	"num_input_tokens_seen": 445436928,
	"step": 435000
	},
	{
	"epoch": 4.018231977929711,
	"grad_norm": 1.880218267440796,
	"learning_rate": 2.9908886243898837e-05,
	"loss": 0.0294,
	"num_input_tokens_seen": 445948928,
	"step": 435500
	},
	{
	"epoch": 4.02284533266901,
	"grad_norm": 1.7842798233032227,
	"learning_rate": 2.988581947020234e-05,
	"loss": 0.0288,
	"num_input_tokens_seen": 446460928,
	"step": 436000
	},
	{
	"epoch": 4.027458687408309,
	"grad_norm": 0.5358702540397644,
	"learning_rate": 2.9862752696505848e-05,
	"loss": 0.0305,
	"num_input_tokens_seen": 446972928,
	"step": 436500
	},
	{
	"epoch": 4.032072042147609,
	"grad_norm": 0.7529350519180298,
	"learning_rate": 2.9839685922809352e-05,
	"loss": 0.029,
	"num_input_tokens_seen": 447484928,
	"step": 437000
	},
	{
	"epoch": 4.0366853968869085,
	"grad_norm": 0.6187124848365784,
	"learning_rate": 2.981661914911285e-05,
	"loss": 0.0303,
	"num_input_tokens_seen": 447996928,
	"step": 437500
	},
	{
	"epoch": 4.041298751626208,
	"grad_norm": 1.1267274618148804,
	"learning_rate": 2.9793552375416357e-05,
	"loss": 0.0292,
	"num_input_tokens_seen": 448508928,
	"step": 438000
	},
	{
	"epoch": 4.045912106365507,
	"grad_norm": 1.6049976348876953,
	"learning_rate": 2.977048560171986e-05,
	"loss": 0.0292,
	"num_input_tokens_seen": 449020928,
	"step": 438500
	},
	{
	"epoch": 4.050525461104806,
	"grad_norm": 3.9203622341156006,
	"learning_rate": 2.9747418828023365e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 449532928,
	"step": 439000
	},
	{
	"epoch": 4.0551388158441055,
	"grad_norm": 0.6487706899642944,
	"learning_rate": 2.9724352054326865e-05,
	"loss": 0.029,
	"num_input_tokens_seen": 450044928,
	"step": 439500
	},
	{
	"epoch": 4.059752170583405,
	"grad_norm": 0.9871296882629395,
	"learning_rate": 2.970128528063037e-05,
	"loss": 0.0299,
	"num_input_tokens_seen": 450556928,
	"step": 440000
	},
	{
	"epoch": 4.064365525322704,
	"grad_norm": 0.4027337431907654,
	"learning_rate": 2.9678218506933873e-05,
	"loss": 0.0287,
	"num_input_tokens_seen": 451068928,
	"step": 440500
	},
	{
	"epoch": 4.068978880062003,
	"grad_norm": 1.1440553665161133,
	"learning_rate": 2.965515173323738e-05,
	"loss": 0.0313,
	"num_input_tokens_seen": 451580928,
	"step": 441000
	},
	{
	"epoch": 4.0735922348013025,
	"grad_norm": 0.5619149208068848,
	"learning_rate": 2.9632084959540878e-05,
	"loss": 0.0334,
	"num_input_tokens_seen": 452092928,
	"step": 441500
	},
	{
	"epoch": 4.078205589540602,
	"grad_norm": 3.5681047439575195,
	"learning_rate": 2.9609018185844385e-05,
	"loss": 0.0301,
	"num_input_tokens_seen": 452604928,
	"step": 442000
	},
	{
	"epoch": 4.082818944279902,
	"grad_norm": 1.2567273378372192,
	"learning_rate": 2.958595141214789e-05,
	"loss": 0.0317,
	"num_input_tokens_seen": 453116928,
	"step": 442500
	},
	{
	"epoch": 4.087432299019201,
	"grad_norm": 1.553036093711853,
	"learning_rate": 2.956288463845139e-05,
	"loss": 0.0296,
	"num_input_tokens_seen": 453628928,
	"step": 443000
	},
	{
	"epoch": 4.0920456537585,
	"grad_norm": 0.8509573340415955,
	"learning_rate": 2.9539817864754894e-05,
	"loss": 0.0325,
	"num_input_tokens_seen": 454140928,
	"step": 443500
	},
	{
	"epoch": 4.0966590084978,
	"grad_norm": 1.0355197191238403,
	"learning_rate": 2.9516751091058398e-05,
	"loss": 0.0346,
	"num_input_tokens_seen": 454652928,
	"step": 444000
	},
	{
	"epoch": 4.101272363237099,
	"grad_norm": 1.49540376663208,
	"learning_rate": 2.94936843173619e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 455164928,
	"step": 444500
	},
	{
	"epoch": 4.105885717976398,
	"grad_norm": 1.6079996824264526,
	"learning_rate": 2.9470617543665402e-05,
	"loss": 0.0311,
	"num_input_tokens_seen": 455676928,
	"step": 445000
	},
	{
	"epoch": 4.110499072715697,
	"grad_norm": 0.5073397159576416,
	"learning_rate": 2.9447550769968906e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 456188928,
	"step": 445500
	},
	{
	"epoch": 4.115112427454997,
	"grad_norm": 1.6608948707580566,
	"learning_rate": 2.942448399627241e-05,
	"loss": 0.0302,
	"num_input_tokens_seen": 456700928,
	"step": 446000
	},
	{
	"epoch": 4.119725782194296,
	"grad_norm": 0.9647392630577087,
	"learning_rate": 2.9401417222575917e-05,
	"loss": 0.0311,
	"num_input_tokens_seen": 457212928,
	"step": 446500
	},
	{
	"epoch": 4.124339136933595,
	"grad_norm": 0.6390677690505981,
	"learning_rate": 2.9378350448879415e-05,
	"loss": 0.0305,
	"num_input_tokens_seen": 457724928,
	"step": 447000
	},
	{
	"epoch": 4.128952491672894,
	"grad_norm": 1.7215697765350342,
	"learning_rate": 2.9355283675182922e-05,
	"loss": 0.0328,
	"num_input_tokens_seen": 458236928,
	"step": 447500
	},
	{
	"epoch": 4.133565846412194,
	"grad_norm": 1.1551854610443115,
	"learning_rate": 2.9332216901486426e-05,
	"loss": 0.0313,
	"num_input_tokens_seen": 458748928,
	"step": 448000
	},
	{
	"epoch": 4.138179201151494,
	"grad_norm": 1.6345293521881104,
	"learning_rate": 2.9309150127789927e-05,
	"loss": 0.0311,
	"num_input_tokens_seen": 459260928,
	"step": 448500
	},
	{
	"epoch": 4.142792555890793,
	"grad_norm": 1.5224887132644653,
	"learning_rate": 2.928608335409343e-05,
	"loss": 0.0307,
	"num_input_tokens_seen": 459772928,
	"step": 449000
	},
	{
	"epoch": 4.147405910630092,
	"grad_norm": 1.6716899871826172,
	"learning_rate": 2.9263016580396934e-05,
	"loss": 0.0346,
	"num_input_tokens_seen": 460284928,
	"step": 449500
	},
	{
	"epoch": 4.1520192653693915,
	"grad_norm": 2.299623489379883,
	"learning_rate": 2.923994980670044e-05,
	"loss": 0.0301,
	"num_input_tokens_seen": 460796928,
	"step": 450000
	},
	{
	"epoch": 4.156632620108691,
	"grad_norm": 0.7651464343070984,
	"learning_rate": 2.921688303300394e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 461308928,
	"step": 450500
	},
	{
	"epoch": 4.16124597484799,
	"grad_norm": 1.1913387775421143,
	"learning_rate": 2.9193816259307443e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 461820928,
	"step": 451000
	},
	{
	"epoch": 4.165859329587289,
	"grad_norm": 1.0334786176681519,
	"learning_rate": 2.9170749485610947e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 462332928,
	"step": 451500
	},
	{
	"epoch": 4.1704726843265885,
	"grad_norm": 1.9780852794647217,
	"learning_rate": 2.9147682711914454e-05,
	"loss": 0.0344,
	"num_input_tokens_seen": 462844928,
	"step": 452000
	},
	{
	"epoch": 4.175086039065888,
	"grad_norm": 0.8200696706771851,
	"learning_rate": 2.912461593821795e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 463356928,
	"step": 452500
	},
	{
	"epoch": 4.179699393805187,
	"grad_norm": 1.0019230842590332,
	"learning_rate": 2.910154916452146e-05,
	"loss": 0.0303,
	"num_input_tokens_seen": 463868928,
	"step": 453000
	},
	{
	"epoch": 4.184312748544486,
	"grad_norm": 2.18719744682312,
	"learning_rate": 2.9078482390824963e-05,
	"loss": 0.03,
	"num_input_tokens_seen": 464380928,
	"step": 453500
	},
	{
	"epoch": 4.1889261032837855,
	"grad_norm": 1.2453852891921997,
	"learning_rate": 2.9055415617128467e-05,
	"loss": 0.0306,
	"num_input_tokens_seen": 464892928,
	"step": 454000
	},
	{
	"epoch": 4.193539458023086,
	"grad_norm": 2.0544652938842773,
	"learning_rate": 2.9032348843431967e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 465404928,
	"step": 454500
	},
	{
	"epoch": 4.198152812762385,
	"grad_norm": 5.509039878845215,
	"learning_rate": 2.900928206973547e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 465916928,
	"step": 455000
	},
	{
	"epoch": 4.202766167501684,
	"grad_norm": 0.6365485787391663,
	"learning_rate": 2.8986215296038975e-05,
	"loss": 0.0322,
	"num_input_tokens_seen": 466428928,
	"step": 455500
	},
	{
	"epoch": 4.207379522240983,
	"grad_norm": 0.8369764685630798,
	"learning_rate": 2.8963148522342476e-05,
	"loss": 0.0311,
	"num_input_tokens_seen": 466940928,
	"step": 456000
	},
	{
	"epoch": 4.211992876980283,
	"grad_norm": 1.3454687595367432,
	"learning_rate": 2.894008174864598e-05,
	"loss": 0.0317,
	"num_input_tokens_seen": 467452928,
	"step": 456500
	},
	{
	"epoch": 4.216606231719582,
	"grad_norm": 1.042900800704956,
	"learning_rate": 2.8917014974949487e-05,
	"loss": 0.0304,
	"num_input_tokens_seen": 467964928,
	"step": 457000
	},
	{
	"epoch": 4.221219586458881,
	"grad_norm": 2.2044434547424316,
	"learning_rate": 2.889394820125299e-05,
	"loss": 0.0309,
	"num_input_tokens_seen": 468476928,
	"step": 457500
	},
	{
	"epoch": 4.22583294119818,
	"grad_norm": 1.4156602621078491,
	"learning_rate": 2.887088142755649e-05,
	"loss": 0.0325,
	"num_input_tokens_seen": 468988928,
	"step": 458000
	},
	{
	"epoch": 4.23044629593748,
	"grad_norm": 1.4290229082107544,
	"learning_rate": 2.8847814653859996e-05,
	"loss": 0.034,
	"num_input_tokens_seen": 469500928,
	"step": 458500
	},
	{
	"epoch": 4.235059650676779,
	"grad_norm": 0.8856704235076904,
	"learning_rate": 2.88247478801635e-05,
	"loss": 0.0301,
	"num_input_tokens_seen": 470012928,
	"step": 459000
	},
	{
	"epoch": 4.239673005416078,
	"grad_norm": 1.0637128353118896,
	"learning_rate": 2.8801681106467004e-05,
	"loss": 0.0315,
	"num_input_tokens_seen": 470524928,
	"step": 459500
	},
	{
	"epoch": 4.244286360155378,
	"grad_norm": 0.9506544470787048,
	"learning_rate": 2.8778614332770504e-05,
	"loss": 0.0298,
	"num_input_tokens_seen": 471036928,
	"step": 460000
	},
	{
	"epoch": 4.248899714894677,
	"grad_norm": 1.05034339427948,
	"learning_rate": 2.8755547559074008e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 471548928,
	"step": 460500
	},
	{
	"epoch": 4.253513069633977,
	"grad_norm": 1.1537014245986938,
	"learning_rate": 2.8732480785377512e-05,
	"loss": 0.0309,
	"num_input_tokens_seen": 472060928,
	"step": 461000
	},
	{
	"epoch": 4.258126424373276,
	"grad_norm": 0.42139768600463867,
	"learning_rate": 2.8709414011681013e-05,
	"loss": 0.032,
	"num_input_tokens_seen": 472572928,
	"step": 461500
	},
	{
	"epoch": 4.262739779112575,
	"grad_norm": 2.2188069820404053,
	"learning_rate": 2.8686347237984517e-05,
	"loss": 0.0301,
	"num_input_tokens_seen": 473084928,
	"step": 462000
	},
	{
	"epoch": 4.267353133851874,
	"grad_norm": 1.293926477432251,
	"learning_rate": 2.8663280464288024e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 473596928,
	"step": 462500
	},
	{
	"epoch": 4.271966488591174,
	"grad_norm": 1.7295567989349365,
	"learning_rate": 2.8640213690591528e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 474108928,
	"step": 463000
	},
	{
	"epoch": 4.276579843330473,
	"grad_norm": 1.3442994356155396,
	"learning_rate": 2.8617146916895025e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 474620928,
	"step": 463500
	},
	{
	"epoch": 4.281193198069772,
	"grad_norm": 1.4000321626663208,
	"learning_rate": 2.8594080143198533e-05,
	"loss": 0.0326,
	"num_input_tokens_seen": 475132928,
	"step": 464000
	},
	{
	"epoch": 4.285806552809071,
	"grad_norm": 1.4646140336990356,
	"learning_rate": 2.8571013369502037e-05,
	"loss": 0.0316,
	"num_input_tokens_seen": 475644928,
	"step": 464500
	},
	{
	"epoch": 4.290419907548371,
	"grad_norm": 1.296420931816101,
	"learning_rate": 2.854794659580554e-05,
	"loss": 0.0328,
	"num_input_tokens_seen": 476156928,
	"step": 465000
	},
	{
	"epoch": 4.295033262287671,
	"grad_norm": 0.947172999382019,
	"learning_rate": 2.852487982210904e-05,
	"loss": 0.031,
	"num_input_tokens_seen": 476668928,
	"step": 465500
	},
	{
	"epoch": 4.29964661702697,
	"grad_norm": 0.6631402969360352,
	"learning_rate": 2.8501813048412545e-05,
	"loss": 0.0291,
	"num_input_tokens_seen": 477180928,
	"step": 466000
	},
	{
	"epoch": 4.304259971766269,
	"grad_norm": 0.5878441333770752,
	"learning_rate": 2.847874627471605e-05,
	"loss": 0.0316,
	"num_input_tokens_seen": 477692928,
	"step": 466500
	},
	{
	"epoch": 4.3088733265055685,
	"grad_norm": 1.32041335105896,
	"learning_rate": 2.8455679501019557e-05,
	"loss": 0.0296,
	"num_input_tokens_seen": 478204928,
	"step": 467000
	},
	{
	"epoch": 4.313486681244868,
	"grad_norm": 0.7355374097824097,
	"learning_rate": 2.8432612727323054e-05,
	"loss": 0.0322,
	"num_input_tokens_seen": 478716928,
	"step": 467500
	},
	{
	"epoch": 4.318100035984167,
	"grad_norm": 0.5715786218643188,
	"learning_rate": 2.840954595362656e-05,
	"loss": 0.0345,
	"num_input_tokens_seen": 479228928,
	"step": 468000
	},
	{
	"epoch": 4.322713390723466,
	"grad_norm": 0.873299777507782,
	"learning_rate": 2.8386479179930065e-05,
	"loss": 0.0341,
	"num_input_tokens_seen": 479740928,
	"step": 468500
	},
	{
	"epoch": 4.3273267454627655,
	"grad_norm": 0.4993022382259369,
	"learning_rate": 2.8363412406233562e-05,
	"loss": 0.0347,
	"num_input_tokens_seen": 480252928,
	"step": 469000
	},
	{
	"epoch": 4.331940100202065,
	"grad_norm": 1.0970638990402222,
	"learning_rate": 2.834034563253707e-05,
	"loss": 0.0297,
	"num_input_tokens_seen": 480764928,
	"step": 469500
	},
	{
	"epoch": 4.336553454941364,
	"grad_norm": 1.030454158782959,
	"learning_rate": 2.8317278858840574e-05,
	"loss": 0.0309,
	"num_input_tokens_seen": 481276928,
	"step": 470000
	},
	{
	"epoch": 4.341166809680663,
	"grad_norm": 2.224727153778076,
	"learning_rate": 2.8294212085144078e-05,
	"loss": 0.0319,
	"num_input_tokens_seen": 481788928,
	"step": 470500
	},
	{
	"epoch": 4.3457801644199625,
	"grad_norm": 0.8922818899154663,
	"learning_rate": 2.8271145311447578e-05,
	"loss": 0.0324,
	"num_input_tokens_seen": 482300928,
	"step": 471000
	},
	{
	"epoch": 4.350393519159263,
	"grad_norm": 1.355394721031189,
	"learning_rate": 2.8248078537751082e-05,
	"loss": 0.0322,
	"num_input_tokens_seen": 482812928,
	"step": 471500
	},
	{
	"epoch": 4.355006873898562,
	"grad_norm": 1.3697582483291626,
	"learning_rate": 2.8225011764054586e-05,
	"loss": 0.0307,
	"num_input_tokens_seen": 483324928,
	"step": 472000
	},
	{
	"epoch": 4.359620228637861,
	"grad_norm": 0.8543123006820679,
	"learning_rate": 2.8201944990358093e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 483836928,
	"step": 472500
	},
	{
	"epoch": 4.36423358337716,
	"grad_norm": 1.2586286067962646,
	"learning_rate": 2.817887821666159e-05,
	"loss": 0.0334,
	"num_input_tokens_seen": 484348928,
	"step": 473000
	},
	{
	"epoch": 4.36884693811646,
	"grad_norm": 1.0295668840408325,
	"learning_rate": 2.8155811442965098e-05,
	"loss": 0.0324,
	"num_input_tokens_seen": 484860928,
	"step": 473500
	},
	{
	"epoch": 4.373460292855759,
	"grad_norm": 1.3368573188781738,
	"learning_rate": 2.8132744669268602e-05,
	"loss": 0.0303,
	"num_input_tokens_seen": 485372928,
	"step": 474000
	},
	{
	"epoch": 4.378073647595058,
	"grad_norm": 0.5129613280296326,
	"learning_rate": 2.81096778955721e-05,
	"loss": 0.031,
	"num_input_tokens_seen": 485884928,
	"step": 474500
	},
	{
	"epoch": 4.382687002334357,
	"grad_norm": 0.7094746828079224,
	"learning_rate": 2.8086611121875606e-05,
	"loss": 0.0305,
	"num_input_tokens_seen": 486396928,
	"step": 475000
	},
	{
	"epoch": 4.387300357073657,
	"grad_norm": 1.2379733324050903,
	"learning_rate": 2.806354434817911e-05,
	"loss": 0.035,
	"num_input_tokens_seen": 486908928,
	"step": 475500
	},
	{
	"epoch": 4.391913711812956,
	"grad_norm": 0.9573284387588501,
	"learning_rate": 2.8040477574482614e-05,
	"loss": 0.0321,
	"num_input_tokens_seen": 487420928,
	"step": 476000
	},
	{
	"epoch": 4.396527066552255,
	"grad_norm": 0.8460474014282227,
	"learning_rate": 2.8017410800786115e-05,
	"loss": 0.032,
	"num_input_tokens_seen": 487932928,
	"step": 476500
	},
	{
	"epoch": 4.401140421291554,
	"grad_norm": 0.5795192122459412,
	"learning_rate": 2.799434402708962e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 488444928,
	"step": 477000
	},
	{
	"epoch": 4.4057537760308545,
	"grad_norm": 2.4742841720581055,
	"learning_rate": 2.7971277253393123e-05,
	"loss": 0.0287,
	"num_input_tokens_seen": 488956928,
	"step": 477500
	},
	{
	"epoch": 4.410367130770154,
	"grad_norm": 2.2295806407928467,
	"learning_rate": 2.794821047969663e-05,
	"loss": 0.0343,
	"num_input_tokens_seen": 489468928,
	"step": 478000
	},
	{
	"epoch": 4.414980485509453,
	"grad_norm": 1.4073495864868164,
	"learning_rate": 2.7925143706000128e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 489980928,
	"step": 478500
	},
	{
	"epoch": 4.419593840248752,
	"grad_norm": 1.378461480140686,
	"learning_rate": 2.7902076932303635e-05,
	"loss": 0.0343,
	"num_input_tokens_seen": 490492928,
	"step": 479000
	},
	{
	"epoch": 4.4242071949880515,
	"grad_norm": 0.6204975247383118,
	"learning_rate": 2.787901015860714e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 491004928,
	"step": 479500
	},
	{
	"epoch": 4.428820549727351,
	"grad_norm": 1.0409677028656006,
	"learning_rate": 2.7855943384910643e-05,
	"loss": 0.0325,
	"num_input_tokens_seen": 491516928,
	"step": 480000
	},
	{
	"epoch": 4.43343390446665,
	"grad_norm": 1.2104921340942383,
	"learning_rate": 2.7832876611214143e-05,
	"loss": 0.0339,
	"num_input_tokens_seen": 492028928,
	"step": 480500
	},
	{
	"epoch": 4.438047259205949,
	"grad_norm": 2.0074825286865234,
	"learning_rate": 2.7809809837517647e-05,
	"loss": 0.0322,
	"num_input_tokens_seen": 492540928,
	"step": 481000
	},
	{
	"epoch": 4.4426606139452485,
	"grad_norm": 0.8541880249977112,
	"learning_rate": 2.778674306382115e-05,
	"loss": 0.0299,
	"num_input_tokens_seen": 493052928,
	"step": 481500
	},
	{
	"epoch": 4.447273968684548,
	"grad_norm": 2.382373332977295,
	"learning_rate": 2.7763676290124652e-05,
	"loss": 0.0303,
	"num_input_tokens_seen": 493564928,
	"step": 482000
	},
	{
	"epoch": 4.451887323423847,
	"grad_norm": 0.8820599317550659,
	"learning_rate": 2.7740609516428156e-05,
	"loss": 0.0306,
	"num_input_tokens_seen": 494076928,
	"step": 482500
	},
	{
	"epoch": 4.456500678163147,
	"grad_norm": 0.6329056620597839,
	"learning_rate": 2.771754274273166e-05,
	"loss": 0.0313,
	"num_input_tokens_seen": 494588928,
	"step": 483000
	},
	{
	"epoch": 4.461114032902446,
	"grad_norm": 0.7391223311424255,
	"learning_rate": 2.7694475969035167e-05,
	"loss": 0.0342,
	"num_input_tokens_seen": 495100928,
	"step": 483500
	},
	{
	"epoch": 4.465727387641746,
	"grad_norm": 0.6143118143081665,
	"learning_rate": 2.7671409195338664e-05,
	"loss": 0.0324,
	"num_input_tokens_seen": 495612928,
	"step": 484000
	},
	{
	"epoch": 4.470340742381045,
	"grad_norm": 2.01242733001709,
	"learning_rate": 2.7648342421642172e-05,
	"loss": 0.029,
	"num_input_tokens_seen": 496124928,
	"step": 484500
	},
	{
	"epoch": 4.474954097120344,
	"grad_norm": 0.9278964996337891,
	"learning_rate": 2.7625275647945676e-05,
	"loss": 0.0362,
	"num_input_tokens_seen": 496636928,
	"step": 485000
	},
	{
	"epoch": 4.479567451859643,
	"grad_norm": 1.0499247312545776,
	"learning_rate": 2.760220887424918e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 497148928,
	"step": 485500
	},
	{
	"epoch": 4.484180806598943,
	"grad_norm": 1.7017521858215332,
	"learning_rate": 2.757914210055268e-05,
	"loss": 0.0304,
	"num_input_tokens_seen": 497660928,
	"step": 486000
	},
	{
	"epoch": 4.488794161338242,
	"grad_norm": 2.3478429317474365,
	"learning_rate": 2.7556075326856184e-05,
	"loss": 0.0329,
	"num_input_tokens_seen": 498172928,
	"step": 486500
	},
	{
	"epoch": 4.493407516077541,
	"grad_norm": 3.133190155029297,
	"learning_rate": 2.7533008553159688e-05,
	"loss": 0.0341,
	"num_input_tokens_seen": 498684928,
	"step": 487000
	},
	{
	"epoch": 4.49802087081684,
	"grad_norm": 0.5625250339508057,
	"learning_rate": 2.750994177946319e-05,
	"loss": 0.0328,
	"num_input_tokens_seen": 499196928,
	"step": 487500
	},
	{
	"epoch": 4.50263422555614,
	"grad_norm": 1.0259020328521729,
	"learning_rate": 2.7486875005766693e-05,
	"loss": 0.0318,
	"num_input_tokens_seen": 499708928,
	"step": 488000
	},
	{
	"epoch": 4.50724758029544,
	"grad_norm": 0.48490577936172485,
	"learning_rate": 2.7463808232070197e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 500220928,
	"step": 488500
	},
	{
	"epoch": 4.511860935034738,
	"grad_norm": 0.40793031454086304,
	"learning_rate": 2.7440741458373704e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 500732928,
	"step": 489000
	},
	{
	"epoch": 4.516474289774038,
	"grad_norm": 1.1319341659545898,
	"learning_rate": 2.74176746846772e-05,
	"loss": 0.0327,
	"num_input_tokens_seen": 501244928,
	"step": 489500
	},
	{
	"epoch": 4.5210876445133374,
	"grad_norm": 1.9659985303878784,
	"learning_rate": 2.739460791098071e-05,
	"loss": 0.0338,
	"num_input_tokens_seen": 501756928,
	"step": 490000
	},
	{
	"epoch": 4.525700999252637,
	"grad_norm": 0.5315821766853333,
	"learning_rate": 2.7371541137284213e-05,
	"loss": 0.0336,
	"num_input_tokens_seen": 502268928,
	"step": 490500
	},
	{
	"epoch": 4.530314353991936,
	"grad_norm": 0.47908708453178406,
	"learning_rate": 2.7348474363587717e-05,
	"loss": 0.0295,
	"num_input_tokens_seen": 502780928,
	"step": 491000
	},
	{
	"epoch": 4.534927708731235,
	"grad_norm": 0.9557788968086243,
	"learning_rate": 2.7325407589891217e-05,
	"loss": 0.0314,
	"num_input_tokens_seen": 503292928,
	"step": 491500
	},
	{
	"epoch": 4.539541063470534,
	"grad_norm": 1.229929804801941,
	"learning_rate": 2.730234081619472e-05,
	"loss": 0.03,
	"num_input_tokens_seen": 503804928,
	"step": 492000
	},
	{
	"epoch": 4.544154418209834,
	"grad_norm": 2.0131001472473145,
	"learning_rate": 2.7279274042498225e-05,
	"loss": 0.0334,
	"num_input_tokens_seen": 504316928,
	"step": 492500
	},
	{
	"epoch": 4.548767772949133,
	"grad_norm": 1.8093568086624146,
	"learning_rate": 2.7256207268801732e-05,
	"loss": 0.0315,
	"num_input_tokens_seen": 504828928,
	"step": 493000
	},
	{
	"epoch": 4.553381127688432,
	"grad_norm": 3.043375253677368,
	"learning_rate": 2.723314049510523e-05,
	"loss": 0.0336,
	"num_input_tokens_seen": 505340928,
	"step": 493500
	},
	{
	"epoch": 4.557994482427731,
	"grad_norm": 1.5375556945800781,
	"learning_rate": 2.7210073721408734e-05,
	"loss": 0.0334,
	"num_input_tokens_seen": 505852928,
	"step": 494000
	},
	{
	"epoch": 4.562607837167031,
	"grad_norm": 1.2980600595474243,
	"learning_rate": 2.718700694771224e-05,
	"loss": 0.0315,
	"num_input_tokens_seen": 506364928,
	"step": 494500
	},
	{
	"epoch": 4.567221191906331,
	"grad_norm": 1.3334441184997559,
	"learning_rate": 2.7163940174015738e-05,
	"loss": 0.0345,
	"num_input_tokens_seen": 506876928,
	"step": 495000
	},
	{
	"epoch": 4.57183454664563,
	"grad_norm": 10.070221900939941,
	"learning_rate": 2.7140873400319246e-05,
	"loss": 0.034,
	"num_input_tokens_seen": 507388928,
	"step": 495500
	},
	{
	"epoch": 4.576447901384929,
	"grad_norm": 9.152368545532227,
	"learning_rate": 2.711780662662275e-05,
	"loss": 0.0316,
	"num_input_tokens_seen": 507900928,
	"step": 496000
	},
	{
	"epoch": 4.5810612561242285,
	"grad_norm": 2.569089651107788,
	"learning_rate": 2.7094739852926254e-05,
	"loss": 0.0336,
	"num_input_tokens_seen": 508412928,
	"step": 496500
	},
	{
	"epoch": 4.585674610863528,
	"grad_norm": 0.7014693021774292,
	"learning_rate": 2.7071673079229754e-05,
	"loss": 0.0316,
	"num_input_tokens_seen": 508924928,
	"step": 497000
	},
	{
	"epoch": 4.590287965602827,
	"grad_norm": 1.182787537574768,
	"learning_rate": 2.7048606305533258e-05,
	"loss": 0.0315,
	"num_input_tokens_seen": 509436928,
	"step": 497500
	},
	{
	"epoch": 4.594901320342126,
	"grad_norm": 0.6506703495979309,
	"learning_rate": 2.7025539531836762e-05,
	"loss": 0.0328,
	"num_input_tokens_seen": 509948928,
	"step": 498000
	},
	{
	"epoch": 4.5995146750814255,
	"grad_norm": 0.5681861639022827,
	"learning_rate": 2.700247275814027e-05,
	"loss": 0.0343,
	"num_input_tokens_seen": 510460928,
	"step": 498500
	},
	{
	"epoch": 4.604128029820725,
	"grad_norm": 1.2895385026931763,
	"learning_rate": 2.6979405984443767e-05,
	"loss": 0.0332,
	"num_input_tokens_seen": 510972928,
	"step": 499000
	},
	{
	"epoch": 4.608741384560024,
	"grad_norm": 1.2549630403518677,
	"learning_rate": 2.6956339210747274e-05,
	"loss": 0.032,
	"num_input_tokens_seen": 511484928,
	"step": 499500
	},
	{
	"epoch": 4.613354739299323,
	"grad_norm": 1.486061692237854,
	"learning_rate": 2.6933272437050778e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 511996928,
	"step": 500000
	},
	{
	"epoch": 4.617968094038623,
	"grad_norm": 1.0897846221923828,
	"learning_rate": 2.6910205663354275e-05,
	"loss": 0.0327,
	"num_input_tokens_seen": 512508928,
	"step": 500500
	},
	{
	"epoch": 4.622581448777923,
	"grad_norm": 0.9600527286529541,
	"learning_rate": 2.6887138889657782e-05,
	"loss": 0.0326,
	"num_input_tokens_seen": 513020928,
	"step": 501000
	},
	{
	"epoch": 4.627194803517222,
	"grad_norm": 3.943963050842285,
	"learning_rate": 2.6864072115961286e-05,
	"loss": 0.0283,
	"num_input_tokens_seen": 513532928,
	"step": 501500
	},
	{
	"epoch": 4.631808158256521,
	"grad_norm": 1.1537055969238281,
	"learning_rate": 2.684100534226479e-05,
	"loss": 0.0353,
	"num_input_tokens_seen": 514044928,
	"step": 502000
	},
	{
	"epoch": 4.63642151299582,
	"grad_norm": 2.200751543045044,
	"learning_rate": 2.681793856856829e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 514556928,
	"step": 502500
	},
	{
	"epoch": 4.64103486773512,
	"grad_norm": 1.1844205856323242,
	"learning_rate": 2.6794871794871795e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 515068928,
	"step": 503000
	},
	{
	"epoch": 4.645648222474419,
	"grad_norm": 4.328240871429443,
	"learning_rate": 2.67718050211753e-05,
	"loss": 0.0337,
	"num_input_tokens_seen": 515580928,
	"step": 503500
	},
	{
	"epoch": 4.650261577213718,
	"grad_norm": 1.1905447244644165,
	"learning_rate": 2.6748738247478806e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 516092928,
	"step": 504000
	},
	{
	"epoch": 4.654874931953017,
	"grad_norm": 0.4069402813911438,
	"learning_rate": 2.6725671473782303e-05,
	"loss": 0.034,
	"num_input_tokens_seen": 516604928,
	"step": 504500
	},
	{
	"epoch": 4.659488286692317,
	"grad_norm": 0.7860555648803711,
	"learning_rate": 2.670260470008581e-05,
	"loss": 0.034,
	"num_input_tokens_seen": 517116928,
	"step": 505000
	},
	{
	"epoch": 4.664101641431616,
	"grad_norm": 0.5769841074943542,
	"learning_rate": 2.6679537926389315e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 517628928,
	"step": 505500
	},
	{
	"epoch": 4.668714996170916,
	"grad_norm": 1.5153945684432983,
	"learning_rate": 2.665647115269282e-05,
	"loss": 0.031,
	"num_input_tokens_seen": 518140928,
	"step": 506000
	},
	{
	"epoch": 4.673328350910215,
	"grad_norm": 1.6713037490844727,
	"learning_rate": 2.663340437899632e-05,
	"loss": 0.037,
	"num_input_tokens_seen": 518652928,
	"step": 506500
	},
	{
	"epoch": 4.6779417056495145,
	"grad_norm": 1.2307850122451782,
	"learning_rate": 2.6610337605299823e-05,
	"loss": 0.0318,
	"num_input_tokens_seen": 519164928,
	"step": 507000
	},
	{
	"epoch": 4.682555060388814,
	"grad_norm": 1.2771391868591309,
	"learning_rate": 2.6587270831603327e-05,
	"loss": 0.0292,
	"num_input_tokens_seen": 519676928,
	"step": 507500
	},
	{
	"epoch": 4.687168415128113,
	"grad_norm": 1.468724012374878,
	"learning_rate": 2.6564204057906828e-05,
	"loss": 0.0314,
	"num_input_tokens_seen": 520188928,
	"step": 508000
	},
	{
	"epoch": 4.691781769867412,
	"grad_norm": 0.9526101350784302,
	"learning_rate": 2.6541137284210332e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 520700928,
	"step": 508500
	},
	{
	"epoch": 4.6963951246067115,
	"grad_norm": 0.8857848048210144,
	"learning_rate": 2.6518070510513836e-05,
	"loss": 0.0333,
	"num_input_tokens_seen": 521212928,
	"step": 509000
	},
	{
	"epoch": 4.701008479346011,
	"grad_norm": 1.5435466766357422,
	"learning_rate": 2.6495003736817343e-05,
	"loss": 0.0319,
	"num_input_tokens_seen": 521724928,
	"step": 509500
	},
	{
	"epoch": 4.70562183408531,
	"grad_norm": 0.6249234676361084,
	"learning_rate": 2.647193696312084e-05,
	"loss": 0.0307,
	"num_input_tokens_seen": 522236928,
	"step": 510000
	},
	{
	"epoch": 4.710235188824609,
	"grad_norm": 0.7634549140930176,
	"learning_rate": 2.6448870189424348e-05,
	"loss": 0.0325,
	"num_input_tokens_seen": 522748928,
	"step": 510500
	},
	{
	"epoch": 4.7148485435639085,
	"grad_norm": 0.8510231375694275,
	"learning_rate": 2.6425803415727852e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 523260928,
	"step": 511000
	},
	{
	"epoch": 4.719461898303209,
	"grad_norm": 0.797269344329834,
	"learning_rate": 2.6402736642031356e-05,
	"loss": 0.035,
	"num_input_tokens_seen": 523772928,
	"step": 511500
	},
	{
	"epoch": 4.724075253042507,
	"grad_norm": 1.6006139516830444,
	"learning_rate": 2.6379669868334856e-05,
	"loss": 0.0311,
	"num_input_tokens_seen": 524284928,
	"step": 512000
	},
	{
	"epoch": 4.728688607781807,
	"grad_norm": 0.5628824234008789,
	"learning_rate": 2.635660309463836e-05,
	"loss": 0.0298,
	"num_input_tokens_seen": 524796928,
	"step": 512500
	},
	{
	"epoch": 4.733301962521106,
	"grad_norm": 1.2842258214950562,
	"learning_rate": 2.6333536320941864e-05,
	"loss": 0.0329,
	"num_input_tokens_seen": 525308928,
	"step": 513000
	},
	{
	"epoch": 4.737915317260406,
	"grad_norm": 1.3331750631332397,
	"learning_rate": 2.6310469547245365e-05,
	"loss": 0.0346,
	"num_input_tokens_seen": 525820928,
	"step": 513500
	},
	{
	"epoch": 4.742528671999705,
	"grad_norm": 2.3819310665130615,
	"learning_rate": 2.628740277354887e-05,
	"loss": 0.0339,
	"num_input_tokens_seen": 526332928,
	"step": 514000
	},
	{
	"epoch": 4.747142026739004,
	"grad_norm": 0.8976543545722961,
	"learning_rate": 2.6264335999852373e-05,
	"loss": 0.035,
	"num_input_tokens_seen": 526844928,
	"step": 514500
	},
	{
	"epoch": 4.751755381478303,
	"grad_norm": 2.7922868728637695,
	"learning_rate": 2.624126922615588e-05,
	"loss": 0.0344,
	"num_input_tokens_seen": 527356928,
	"step": 515000
	},
	{
	"epoch": 4.756368736217603,
	"grad_norm": 1.2664451599121094,
	"learning_rate": 2.6218202452459377e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 527868928,
	"step": 515500
	},
	{
	"epoch": 4.760982090956902,
	"grad_norm": 1.8173182010650635,
	"learning_rate": 2.6195135678762885e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 528380928,
	"step": 516000
	},
	{
	"epoch": 4.765595445696201,
	"grad_norm": 1.2038295269012451,
	"learning_rate": 2.617206890506639e-05,
	"loss": 0.0329,
	"num_input_tokens_seen": 528892928,
	"step": 516500
	},
	{
	"epoch": 4.7702088004355,
	"grad_norm": 1.3875302076339722,
	"learning_rate": 2.6149002131369893e-05,
	"loss": 0.0337,
	"num_input_tokens_seen": 529404928,
	"step": 517000
	},
	{
	"epoch": 4.7748221551748,
	"grad_norm": 0.6060103178024292,
	"learning_rate": 2.6125935357673393e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 529916928,
	"step": 517500
	},
	{
	"epoch": 4.7794355099141,
	"grad_norm": 3.217010259628296,
	"learning_rate": 2.6102868583976897e-05,
	"loss": 0.0365,
	"num_input_tokens_seen": 530428928,
	"step": 518000
	},
	{
	"epoch": 4.784048864653399,
	"grad_norm": 1.3630263805389404,
	"learning_rate": 2.60798018102804e-05,
	"loss": 0.0352,
	"num_input_tokens_seen": 530940928,
	"step": 518500
	},
	{
	"epoch": 4.788662219392698,
	"grad_norm": 1.875205397605896,
	"learning_rate": 2.605673503658391e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 531452928,
	"step": 519000
	},
	{
	"epoch": 4.7932755741319975,
	"grad_norm": 1.0889365673065186,
	"learning_rate": 2.6033668262887406e-05,
	"loss": 0.032,
	"num_input_tokens_seen": 531964928,
	"step": 519500
	},
	{
	"epoch": 4.797888928871297,
	"grad_norm": 1.8945229053497314,
	"learning_rate": 2.601060148919091e-05,
	"loss": 0.0318,
	"num_input_tokens_seen": 532476928,
	"step": 520000
	},
	{
	"epoch": 4.802502283610596,
	"grad_norm": 0.8704883456230164,
	"learning_rate": 2.5987534715494417e-05,
	"loss": 0.0353,
	"num_input_tokens_seen": 532988928,
	"step": 520500
	},
	{
	"epoch": 4.807115638349895,
	"grad_norm": 0.5920878052711487,
	"learning_rate": 2.5964467941797914e-05,
	"loss": 0.0352,
	"num_input_tokens_seen": 533500928,
	"step": 521000
	},
	{
	"epoch": 4.811728993089194,
	"grad_norm": 1.7447361946105957,
	"learning_rate": 2.594140116810142e-05,
	"loss": 0.0333,
	"num_input_tokens_seen": 534012928,
	"step": 521500
	},
	{
	"epoch": 4.816342347828494,
	"grad_norm": 2.5715444087982178,
	"learning_rate": 2.5918334394404926e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 534524928,
	"step": 522000
	},
	{
	"epoch": 4.820955702567793,
	"grad_norm": 1.5223846435546875,
	"learning_rate": 2.589526762070843e-05,
	"loss": 0.0326,
	"num_input_tokens_seen": 535036928,
	"step": 522500
	},
	{
	"epoch": 4.825569057307092,
	"grad_norm": 1.0512726306915283,
	"learning_rate": 2.587220084701193e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 535548928,
	"step": 523000
	},
	{
	"epoch": 4.830182412046392,
	"grad_norm": 1.2424243688583374,
	"learning_rate": 2.5849134073315434e-05,
	"loss": 0.0356,
	"num_input_tokens_seen": 536060928,
	"step": 523500
	},
	{
	"epoch": 4.834795766785692,
	"grad_norm": 1.2689915895462036,
	"learning_rate": 2.5826067299618938e-05,
	"loss": 0.0317,
	"num_input_tokens_seen": 536572928,
	"step": 524000
	},
	{
	"epoch": 4.839409121524991,
	"grad_norm": 0.5996227860450745,
	"learning_rate": 2.5803000525922445e-05,
	"loss": 0.0318,
	"num_input_tokens_seen": 537084928,
	"step": 524500
	},
	{
	"epoch": 4.84402247626429,
	"grad_norm": 1.7113879919052124,
	"learning_rate": 2.5779933752225943e-05,
	"loss": 0.0322,
	"num_input_tokens_seen": 537596928,
	"step": 525000
	},
	{
	"epoch": 4.848635831003589,
	"grad_norm": 5.173702239990234,
	"learning_rate": 2.5756866978529447e-05,
	"loss": 0.0338,
	"num_input_tokens_seen": 538108928,
	"step": 525500
	},
	{
	"epoch": 4.8532491857428885,
	"grad_norm": 2.208484172821045,
	"learning_rate": 2.5733800204832954e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 538620928,
	"step": 526000
	},
	{
	"epoch": 4.857862540482188,
	"grad_norm": 0.7695846557617188,
	"learning_rate": 2.571073343113645e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 539132928,
	"step": 526500
	},
	{
	"epoch": 4.862475895221487,
	"grad_norm": 0.6419717073440552,
	"learning_rate": 2.568766665743996e-05,
	"loss": 0.0313,
	"num_input_tokens_seen": 539644928,
	"step": 527000
	},
	{
	"epoch": 4.867089249960786,
	"grad_norm": 0.4510629177093506,
	"learning_rate": 2.5664599883743462e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 540156928,
	"step": 527500
	},
	{
	"epoch": 4.8717026047000855,
	"grad_norm": 0.6697828769683838,
	"learning_rate": 2.5641533110046966e-05,
	"loss": 0.0306,
	"num_input_tokens_seen": 540668928,
	"step": 528000
	},
	{
	"epoch": 4.876315959439385,
	"grad_norm": 0.30349186062812805,
	"learning_rate": 2.5618466336350467e-05,
	"loss": 0.0354,
	"num_input_tokens_seen": 541180928,
	"step": 528500
	},
	{
	"epoch": 4.880929314178685,
	"grad_norm": 0.9010013937950134,
	"learning_rate": 2.559539956265397e-05,
	"loss": 0.0334,
	"num_input_tokens_seen": 541692928,
	"step": 529000
	},
	{
	"epoch": 4.885542668917984,
	"grad_norm": 5.212312698364258,
	"learning_rate": 2.5572332788957475e-05,
	"loss": 0.0338,
	"num_input_tokens_seen": 542204928,
	"step": 529500
	},
	{
	"epoch": 4.890156023657283,
	"grad_norm": 0.5742513537406921,
	"learning_rate": 2.5549266015260982e-05,
	"loss": 0.0331,
	"num_input_tokens_seen": 542716928,
	"step": 530000
	},
	{
	"epoch": 4.894769378396583,
	"grad_norm": 1.1083173751831055,
	"learning_rate": 2.552619924156448e-05,
	"loss": 0.0332,
	"num_input_tokens_seen": 543228928,
	"step": 530500
	},
	{
	"epoch": 4.899382733135882,
	"grad_norm": 2.323056697845459,
	"learning_rate": 2.5503132467867983e-05,
	"loss": 0.0316,
	"num_input_tokens_seen": 543740928,
	"step": 531000
	},
	{
	"epoch": 4.903996087875181,
	"grad_norm": 0.8404493927955627,
	"learning_rate": 2.548006569417149e-05,
	"loss": 0.0325,
	"num_input_tokens_seen": 544252928,
	"step": 531500
	},
	{
	"epoch": 4.90860944261448,
	"grad_norm": 0.7807884216308594,
	"learning_rate": 2.5456998920474995e-05,
	"loss": 0.034,
	"num_input_tokens_seen": 544764928,
	"step": 532000
	},
	{
	"epoch": 4.91322279735378,
	"grad_norm": 1.5149301290512085,
	"learning_rate": 2.5433932146778495e-05,
	"loss": 0.0329,
	"num_input_tokens_seen": 545276928,
	"step": 532500
	},
	{
	"epoch": 4.917836152093079,
	"grad_norm": 2.3330907821655273,
	"learning_rate": 2.5410865373082e-05,
	"loss": 0.0315,
	"num_input_tokens_seen": 545788928,
	"step": 533000
	},
	{
	"epoch": 4.922449506832378,
	"grad_norm": 0.9304101467132568,
	"learning_rate": 2.5387798599385503e-05,
	"loss": 0.0316,
	"num_input_tokens_seen": 546300928,
	"step": 533500
	},
	{
	"epoch": 4.927062861571677,
	"grad_norm": 1.3839999437332153,
	"learning_rate": 2.5364731825689004e-05,
	"loss": 0.0339,
	"num_input_tokens_seen": 546812928,
	"step": 534000
	},
	{
	"epoch": 4.931676216310977,
	"grad_norm": 1.3032892942428589,
	"learning_rate": 2.5341665051992508e-05,
	"loss": 0.0377,
	"num_input_tokens_seen": 547324928,
	"step": 534500
	},
	{
	"epoch": 4.936289571050276,
	"grad_norm": 0.5184182524681091,
	"learning_rate": 2.5318598278296012e-05,
	"loss": 0.0327,
	"num_input_tokens_seen": 547836928,
	"step": 535000
	},
	{
	"epoch": 4.940902925789576,
	"grad_norm": 4.176392078399658,
	"learning_rate": 2.529553150459952e-05,
	"loss": 0.0311,
	"num_input_tokens_seen": 548348928,
	"step": 535500
	},
	{
	"epoch": 4.945516280528875,
	"grad_norm": 1.8942577838897705,
	"learning_rate": 2.5272464730903016e-05,
	"loss": 0.0312,
	"num_input_tokens_seen": 548860928,
	"step": 536000
	},
	{
	"epoch": 4.9501296352681745,
	"grad_norm": 0.4011167585849762,
	"learning_rate": 2.524939795720652e-05,
	"loss": 0.0297,
	"num_input_tokens_seen": 549372928,
	"step": 536500
	},
	{
	"epoch": 4.954742990007474,
	"grad_norm": 1.2499672174453735,
	"learning_rate": 2.5226331183510028e-05,
	"loss": 0.0351,
	"num_input_tokens_seen": 549884928,
	"step": 537000
	},
	{
	"epoch": 4.959356344746773,
	"grad_norm": 1.7503982782363892,
	"learning_rate": 2.520326440981353e-05,
	"loss": 0.0346,
	"num_input_tokens_seen": 550396928,
	"step": 537500
	},
	{
	"epoch": 4.963969699486072,
	"grad_norm": 0.9771599173545837,
	"learning_rate": 2.5180197636117032e-05,
	"loss": 0.0344,
	"num_input_tokens_seen": 550908928,
	"step": 538000
	},
	{
	"epoch": 4.9685830542253715,
	"grad_norm": 1.7374619245529175,
	"learning_rate": 2.5157130862420536e-05,
	"loss": 0.0328,
	"num_input_tokens_seen": 551420928,
	"step": 538500
	},
	{
	"epoch": 4.973196408964671,
	"grad_norm": 2.459627866744995,
	"learning_rate": 2.513406408872404e-05,
	"loss": 0.0304,
	"num_input_tokens_seen": 551932928,
	"step": 539000
	},
	{
	"epoch": 4.97780976370397,
	"grad_norm": 1.0150238275527954,
	"learning_rate": 2.511099731502754e-05,
	"loss": 0.0341,
	"num_input_tokens_seen": 552444928,
	"step": 539500
	},
	{
	"epoch": 4.982423118443269,
	"grad_norm": 0.5386485457420349,
	"learning_rate": 2.5087930541331045e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 552956928,
	"step": 540000
	},
	{
	"epoch": 4.9870364731825685,
	"grad_norm": 2.0339949131011963,
	"learning_rate": 2.506486376763455e-05,
	"loss": 0.0308,
	"num_input_tokens_seen": 553468928,
	"step": 540500
	},
	{
	"epoch": 4.991649827921869,
	"grad_norm": 0.7838632464408875,
	"learning_rate": 2.5041796993938056e-05,
	"loss": 0.0335,
	"num_input_tokens_seen": 553980928,
	"step": 541000
	},
	{
	"epoch": 4.996263182661168,
	"grad_norm": 1.2253855466842651,
	"learning_rate": 2.5018730220241553e-05,
	"loss": 0.0325,
	"num_input_tokens_seen": 554492928,
	"step": 541500
	},
	{
	"epoch": 5.0,
	"eval_combined_score": 0.0704431934497777,
	"eval_loss": 0.07044319063425064,
	"eval_mse": 0.07044319626530475,
	"eval_runtime": 45.8855,
	"eval_samples_per_second": 2099.529,
	"eval_steps_per_second": 262.457,
	"num_input_tokens_seen": 554906880,
	"step": 541905
	},
	{
	"epoch": 5.000876537400467,
	"grad_norm": 1.9685852527618408,
	"learning_rate": 2.499566344654506e-05,
	"loss": 0.0352,
	"num_input_tokens_seen": 555004160,
	"step": 542000
	},
	{
	"epoch": 5.005489892139766,
	"grad_norm": 1.419827938079834,
	"learning_rate": 2.4972596672848565e-05,
	"loss": 0.0302,
	"num_input_tokens_seen": 555516160,
	"step": 542500
	},
	{
	"epoch": 5.010103246879066,
	"grad_norm": 3.999183177947998,
	"learning_rate": 2.4949529899152065e-05,
	"loss": 0.0242,
	"num_input_tokens_seen": 556028160,
	"step": 543000
	},
	{
	"epoch": 5.014716601618365,
	"grad_norm": 1.758694052696228,
	"learning_rate": 2.4926463125455573e-05,
	"loss": 0.0261,
	"num_input_tokens_seen": 556540160,
	"step": 543500
	},
	{
	"epoch": 5.019329956357664,
	"grad_norm": 1.1982614994049072,
	"learning_rate": 2.4903396351759073e-05,
	"loss": 0.0245,
	"num_input_tokens_seen": 557052160,
	"step": 544000
	},
	{
	"epoch": 5.023943311096963,
	"grad_norm": 0.8155698180198669,
	"learning_rate": 2.4880329578062577e-05,
	"loss": 0.0252,
	"num_input_tokens_seen": 557564160,
	"step": 544500
	},
	{
	"epoch": 5.028556665836263,
	"grad_norm": 0.5454326272010803,
	"learning_rate": 2.485726280436608e-05,
	"loss": 0.0243,
	"num_input_tokens_seen": 558076160,
	"step": 545000
	},
	{
	"epoch": 5.033170020575562,
	"grad_norm": 0.35681942105293274,
	"learning_rate": 2.4834196030669585e-05,
	"loss": 0.0259,
	"num_input_tokens_seen": 558588160,
	"step": 545500
	},
	{
	"epoch": 5.037783375314861,
	"grad_norm": 1.3723911046981812,
	"learning_rate": 2.4811129256973086e-05,
	"loss": 0.0254,
	"num_input_tokens_seen": 559100160,
	"step": 546000
	},
	{
	"epoch": 5.042396730054161,
	"grad_norm": 2.3160240650177,
	"learning_rate": 2.478806248327659e-05,
	"loss": 0.0238,
	"num_input_tokens_seen": 559612160,
	"step": 546500
	},
	{
	"epoch": 5.0470100847934605,
	"grad_norm": 0.447410523891449,
	"learning_rate": 2.4764995709580094e-05,
	"loss": 0.0245,
	"num_input_tokens_seen": 560124160,
	"step": 547000
	},
	{
	"epoch": 5.05162343953276,
	"grad_norm": 1.798653483390808,
	"learning_rate": 2.4741928935883598e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 560636160,
	"step": 547500
	},
	{
	"epoch": 5.056236794272059,
	"grad_norm": 0.5568801164627075,
	"learning_rate": 2.47188621621871e-05,
	"loss": 0.0262,
	"num_input_tokens_seen": 561148160,
	"step": 548000
	},
	{
	"epoch": 5.060850149011358,
	"grad_norm": 0.5296237468719482,
	"learning_rate": 2.4695795388490602e-05,
	"loss": 0.0257,
	"num_input_tokens_seen": 561660160,
	"step": 548500
	},
	{
	"epoch": 5.0654635037506575,
	"grad_norm": 1.8144594430923462,
	"learning_rate": 2.467272861479411e-05,
	"loss": 0.0244,
	"num_input_tokens_seen": 562172160,
	"step": 549000
	},
	{
	"epoch": 5.070076858489957,
	"grad_norm": 1.125553846359253,
	"learning_rate": 2.464966184109761e-05,
	"loss": 0.0278,
	"num_input_tokens_seen": 562684160,
	"step": 549500
	},
	{
	"epoch": 5.074690213229256,
	"grad_norm": 1.2279289960861206,
	"learning_rate": 2.4626595067401114e-05,
	"loss": 0.0254,
	"num_input_tokens_seen": 563196160,
	"step": 550000
	},
	{
	"epoch": 5.079303567968555,
	"grad_norm": 1.1253972053527832,
	"learning_rate": 2.4603528293704618e-05,
	"loss": 0.0273,
	"num_input_tokens_seen": 563708160,
	"step": 550500
	},
	{
	"epoch": 5.0839169227078544,
	"grad_norm": 1.958179235458374,
	"learning_rate": 2.4580461520008122e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 564220160,
	"step": 551000
	},
	{
	"epoch": 5.088530277447154,
	"grad_norm": 1.6592975854873657,
	"learning_rate": 2.4557394746311622e-05,
	"loss": 0.0265,
	"num_input_tokens_seen": 564732160,
	"step": 551500
	},
	{
	"epoch": 5.093143632186453,
	"grad_norm": 0.9499948024749756,
	"learning_rate": 2.453432797261513e-05,
	"loss": 0.0257,
	"num_input_tokens_seen": 565244160,
	"step": 552000
	},
	{
	"epoch": 5.097756986925753,
	"grad_norm": 0.7857697606086731,
	"learning_rate": 2.451126119891863e-05,
	"loss": 0.0256,
	"num_input_tokens_seen": 565756160,
	"step": 552500
	},
	{
	"epoch": 5.102370341665052,
	"grad_norm": 1.4605727195739746,
	"learning_rate": 2.4488194425222134e-05,
	"loss": 0.0241,
	"num_input_tokens_seen": 566268160,
	"step": 553000
	},
	{
	"epoch": 5.106983696404352,
	"grad_norm": 1.2469509840011597,
	"learning_rate": 2.446512765152564e-05,
	"loss": 0.0248,
	"num_input_tokens_seen": 566780160,
	"step": 553500
	},
	{
	"epoch": 5.111597051143651,
	"grad_norm": 1.826318383216858,
	"learning_rate": 2.444206087782914e-05,
	"loss": 0.0288,
	"num_input_tokens_seen": 567292160,
	"step": 554000
	},
	{
	"epoch": 5.11621040588295,
	"grad_norm": 4.358790397644043,
	"learning_rate": 2.4418994104132646e-05,
	"loss": 0.0248,
	"num_input_tokens_seen": 567804160,
	"step": 554500
	},
	{
	"epoch": 5.120823760622249,
	"grad_norm": 1.07144033908844,
	"learning_rate": 2.4395927330436147e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 568316160,
	"step": 555000
	},
	{
	"epoch": 5.125437115361549,
	"grad_norm": 1.7916905879974365,
	"learning_rate": 2.437286055673965e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 568828160,
	"step": 555500
	},
	{
	"epoch": 5.130050470100848,
	"grad_norm": 0.9158410429954529,
	"learning_rate": 2.4349793783043155e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 569340160,
	"step": 556000
	},
	{
	"epoch": 5.134663824840147,
	"grad_norm": 0.7724267244338989,
	"learning_rate": 2.432672700934666e-05,
	"loss": 0.0244,
	"num_input_tokens_seen": 569852160,
	"step": 556500
	},
	{
	"epoch": 5.139277179579446,
	"grad_norm": 0.48507311940193176,
	"learning_rate": 2.430366023565016e-05,
	"loss": 0.0274,
	"num_input_tokens_seen": 570364160,
	"step": 557000
	},
	{
	"epoch": 5.1438905343187455,
	"grad_norm": 0.6313498616218567,
	"learning_rate": 2.4280593461953667e-05,
	"loss": 0.0239,
	"num_input_tokens_seen": 570876160,
	"step": 557500
	},
	{
	"epoch": 5.148503889058045,
	"grad_norm": 0.987579345703125,
	"learning_rate": 2.4257526688257167e-05,
	"loss": 0.0255,
	"num_input_tokens_seen": 571388160,
	"step": 558000
	},
	{
	"epoch": 5.153117243797345,
	"grad_norm": 1.7795839309692383,
	"learning_rate": 2.423445991456067e-05,
	"loss": 0.0245,
	"num_input_tokens_seen": 571900160,
	"step": 558500
	},
	{
	"epoch": 5.157730598536644,
	"grad_norm": 1.233028531074524,
	"learning_rate": 2.4211393140864175e-05,
	"loss": 0.0272,
	"num_input_tokens_seen": 572412160,
	"step": 559000
	},
	{
	"epoch": 5.162343953275943,
	"grad_norm": 0.9197332262992859,
	"learning_rate": 2.4188326367167676e-05,
	"loss": 0.0243,
	"num_input_tokens_seen": 572924160,
	"step": 559500
	},
	{
	"epoch": 5.166957308015243,
	"grad_norm": 5.717777252197266,
	"learning_rate": 2.4165259593471183e-05,
	"loss": 0.024,
	"num_input_tokens_seen": 573436160,
	"step": 560000
	},
	{
	"epoch": 5.171570662754542,
	"grad_norm": 0.8062294721603394,
	"learning_rate": 2.4142192819774684e-05,
	"loss": 0.025,
	"num_input_tokens_seen": 573948160,
	"step": 560500
	},
	{
	"epoch": 5.176184017493841,
	"grad_norm": 1.5993818044662476,
	"learning_rate": 2.4119126046078188e-05,
	"loss": 0.0276,
	"num_input_tokens_seen": 574460160,
	"step": 561000
	},
	{
	"epoch": 5.18079737223314,
	"grad_norm": 1.086608648300171,
	"learning_rate": 2.4096059272381692e-05,
	"loss": 0.0237,
	"num_input_tokens_seen": 574972160,
	"step": 561500
	},
	{
	"epoch": 5.18541072697244,
	"grad_norm": 0.5633468627929688,
	"learning_rate": 2.4072992498685196e-05,
	"loss": 0.0267,
	"num_input_tokens_seen": 575484160,
	"step": 562000
	},
	{
	"epoch": 5.190024081711739,
	"grad_norm": 0.9681257605552673,
	"learning_rate": 2.4049925724988696e-05,
	"loss": 0.0247,
	"num_input_tokens_seen": 575996160,
	"step": 562500
	},
	{
	"epoch": 5.194637436451038,
	"grad_norm": 0.5693821907043457,
	"learning_rate": 2.4026858951292204e-05,
	"loss": 0.0262,
	"num_input_tokens_seen": 576508160,
	"step": 563000
	},
	{
	"epoch": 5.199250791190337,
	"grad_norm": 0.5459065437316895,
	"learning_rate": 2.4003792177595704e-05,
	"loss": 0.0246,
	"num_input_tokens_seen": 577020160,
	"step": 563500
	},
	{
	"epoch": 5.2038641459296375,
	"grad_norm": 0.8124216198921204,
	"learning_rate": 2.3980725403899208e-05,
	"loss": 0.0261,
	"num_input_tokens_seen": 577532160,
	"step": 564000
	},
	{
	"epoch": 5.208477500668937,
	"grad_norm": 2.0479400157928467,
	"learning_rate": 2.3957658630202712e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 578044160,
	"step": 564500
	},
	{
	"epoch": 5.213090855408236,
	"grad_norm": 0.4062500596046448,
	"learning_rate": 2.3934591856506216e-05,
	"loss": 0.0293,
	"num_input_tokens_seen": 578556160,
	"step": 565000
	},
	{
	"epoch": 5.217704210147535,
	"grad_norm": 0.6792827844619751,
	"learning_rate": 2.391152508280972e-05,
	"loss": 0.0243,
	"num_input_tokens_seen": 579068160,
	"step": 565500
	},
	{
	"epoch": 5.2223175648868345,
	"grad_norm": 1.978621482849121,
	"learning_rate": 2.388845830911322e-05,
	"loss": 0.0242,
	"num_input_tokens_seen": 579580160,
	"step": 566000
	},
	{
	"epoch": 5.226930919626134,
	"grad_norm": 1.0961169004440308,
	"learning_rate": 2.3865391535416725e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 580092160,
	"step": 566500
	},
	{
	"epoch": 5.231544274365433,
	"grad_norm": 2.3269541263580322,
	"learning_rate": 2.384232476172023e-05,
	"loss": 0.0246,
	"num_input_tokens_seen": 580604160,
	"step": 567000
	},
	{
	"epoch": 5.236157629104732,
	"grad_norm": 0.545312762260437,
	"learning_rate": 2.3819257988023733e-05,
	"loss": 0.0259,
	"num_input_tokens_seen": 581116160,
	"step": 567500
	},
	{
	"epoch": 5.2407709838440315,
	"grad_norm": 0.7577276825904846,
	"learning_rate": 2.3796191214327233e-05,
	"loss": 0.026,
	"num_input_tokens_seen": 581628160,
	"step": 568000
	},
	{
	"epoch": 5.245384338583331,
	"grad_norm": 0.5405977964401245,
	"learning_rate": 2.377312444063074e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 582140160,
	"step": 568500
	},
	{
	"epoch": 5.24999769332263,
	"grad_norm": 0.5924959182739258,
	"learning_rate": 2.375005766693424e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 582652160,
	"step": 569000
	},
	{
	"epoch": 5.25461104806193,
	"grad_norm": 1.2683016061782837,
	"learning_rate": 2.3726990893237745e-05,
	"loss": 0.0262,
	"num_input_tokens_seen": 583164160,
	"step": 569500
	},
	{
	"epoch": 5.259224402801229,
	"grad_norm": 1.1642249822616577,
	"learning_rate": 2.370392411954125e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 583676160,
	"step": 570000
	},
	{
	"epoch": 5.263837757540529,
	"grad_norm": 1.1712781190872192,
	"learning_rate": 2.3680857345844753e-05,
	"loss": 0.0254,
	"num_input_tokens_seen": 584188160,
	"step": 570500
	},
	{
	"epoch": 5.268451112279828,
	"grad_norm": 1.0108134746551514,
	"learning_rate": 2.3657790572148257e-05,
	"loss": 0.0256,
	"num_input_tokens_seen": 584700160,
	"step": 571000
	},
	{
	"epoch": 5.273064467019127,
	"grad_norm": 2.7338948249816895,
	"learning_rate": 2.363472379845176e-05,
	"loss": 0.0275,
	"num_input_tokens_seen": 585212160,
	"step": 571500
	},
	{
	"epoch": 5.277677821758426,
	"grad_norm": 0.6406319737434387,
	"learning_rate": 2.361165702475526e-05,
	"loss": 0.0238,
	"num_input_tokens_seen": 585724160,
	"step": 572000
	},
	{
	"epoch": 5.282291176497726,
	"grad_norm": 1.551131010055542,
	"learning_rate": 2.3588590251058766e-05,
	"loss": 0.0261,
	"num_input_tokens_seen": 586236160,
	"step": 572500
	},
	{
	"epoch": 5.286904531237025,
	"grad_norm": 0.41061103343963623,
	"learning_rate": 2.356552347736227e-05,
	"loss": 0.0281,
	"num_input_tokens_seen": 586748160,
	"step": 573000
	},
	{
	"epoch": 5.291517885976324,
	"grad_norm": 0.7769986987113953,
	"learning_rate": 2.354245670366577e-05,
	"loss": 0.0251,
	"num_input_tokens_seen": 587260160,
	"step": 573500
	},
	{
	"epoch": 5.296131240715623,
	"grad_norm": 1.0587828159332275,
	"learning_rate": 2.3519389929969277e-05,
	"loss": 0.024,
	"num_input_tokens_seen": 587772160,
	"step": 574000
	},
	{
	"epoch": 5.300744595454923,
	"grad_norm": 0.7457670569419861,
	"learning_rate": 2.3496323156272778e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 588284160,
	"step": 574500
	},
	{
	"epoch": 5.305357950194222,
	"grad_norm": 1.7087829113006592,
	"learning_rate": 2.3473256382576282e-05,
	"loss": 0.0265,
	"num_input_tokens_seen": 588796160,
	"step": 575000
	},
	{
	"epoch": 5.309971304933521,
	"grad_norm": 1.6121881008148193,
	"learning_rate": 2.3450189608879786e-05,
	"loss": 0.0236,
	"num_input_tokens_seen": 589308160,
	"step": 575500
	},
	{
	"epoch": 5.314584659672821,
	"grad_norm": 1.585402011871338,
	"learning_rate": 2.342712283518329e-05,
	"loss": 0.0253,
	"num_input_tokens_seen": 589820160,
	"step": 576000
	},
	{
	"epoch": 5.3191980144121205,
	"grad_norm": 2.160334348678589,
	"learning_rate": 2.3404056061486794e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 590332160,
	"step": 576500
	},
	{
	"epoch": 5.32381136915142,
	"grad_norm": 0.304321825504303,
	"learning_rate": 2.3380989287790298e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 590844160,
	"step": 577000
	},
	{
	"epoch": 5.328424723890719,
	"grad_norm": 0.9023957848548889,
	"learning_rate": 2.33579225140938e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 591356160,
	"step": 577500
	},
	{
	"epoch": 5.333038078630018,
	"grad_norm": 0.5087705254554749,
	"learning_rate": 2.3334855740397306e-05,
	"loss": 0.026,
	"num_input_tokens_seen": 591868160,
	"step": 578000
	},
	{
	"epoch": 5.3376514333693175,
	"grad_norm": 1.3647748231887817,
	"learning_rate": 2.3311788966700806e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 592380160,
	"step": 578500
	},
	{
	"epoch": 5.342264788108617,
	"grad_norm": 1.011982798576355,
	"learning_rate": 2.328872219300431e-05,
	"loss": 0.0267,
	"num_input_tokens_seen": 592892160,
	"step": 579000
	},
	{
	"epoch": 5.346878142847916,
	"grad_norm": 1.695412516593933,
	"learning_rate": 2.3265655419307814e-05,
	"loss": 0.0244,
	"num_input_tokens_seen": 593404160,
	"step": 579500
	},
	{
	"epoch": 5.351491497587215,
	"grad_norm": 2.6255669593811035,
	"learning_rate": 2.3242588645611315e-05,
	"loss": 0.0279,
	"num_input_tokens_seen": 593916160,
	"step": 580000
	},
	{
	"epoch": 5.3561048523265145,
	"grad_norm": 1.49470055103302,
	"learning_rate": 2.321952187191482e-05,
	"loss": 0.0255,
	"num_input_tokens_seen": 594428160,
	"step": 580500
	},
	{
	"epoch": 5.360718207065814,
	"grad_norm": 5.862457275390625,
	"learning_rate": 2.3196455098218323e-05,
	"loss": 0.0272,
	"num_input_tokens_seen": 594940160,
	"step": 581000
	},
	{
	"epoch": 5.365331561805114,
	"grad_norm": 1.1416678428649902,
	"learning_rate": 2.3173388324521827e-05,
	"loss": 0.0257,
	"num_input_tokens_seen": 595452160,
	"step": 581500
	},
	{
	"epoch": 5.369944916544413,
	"grad_norm": 1.0137473344802856,
	"learning_rate": 2.315032155082533e-05,
	"loss": 0.0278,
	"num_input_tokens_seen": 595964160,
	"step": 582000
	},
	{
	"epoch": 5.374558271283712,
	"grad_norm": 1.037350058555603,
	"learning_rate": 2.3127254777128835e-05,
	"loss": 0.0242,
	"num_input_tokens_seen": 596476160,
	"step": 582500
	},
	{
	"epoch": 5.379171626023012,
	"grad_norm": 0.5939755439758301,
	"learning_rate": 2.3104188003432335e-05,
	"loss": 0.0253,
	"num_input_tokens_seen": 596988160,
	"step": 583000
	},
	{
	"epoch": 5.383784980762311,
	"grad_norm": 0.8637872934341431,
	"learning_rate": 2.3081121229735843e-05,
	"loss": 0.0294,
	"num_input_tokens_seen": 597500160,
	"step": 583500
	},
	{
	"epoch": 5.38839833550161,
	"grad_norm": 0.6153502464294434,
	"learning_rate": 2.3058054456039343e-05,
	"loss": 0.0252,
	"num_input_tokens_seen": 598012160,
	"step": 584000
	},
	{
	"epoch": 5.393011690240909,
	"grad_norm": 0.7826283574104309,
	"learning_rate": 2.3034987682342847e-05,
	"loss": 0.0242,
	"num_input_tokens_seen": 598524160,
	"step": 584500
	},
	{
	"epoch": 5.397625044980209,
	"grad_norm": 0.8609397411346436,
	"learning_rate": 2.301192090864635e-05,
	"loss": 0.0281,
	"num_input_tokens_seen": 599036160,
	"step": 585000
	},
	{
	"epoch": 5.402238399719508,
	"grad_norm": 1.031718134880066,
	"learning_rate": 2.2988854134949852e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 599548160,
	"step": 585500
	},
	{
	"epoch": 5.406851754458807,
	"grad_norm": 4.244394779205322,
	"learning_rate": 2.296578736125336e-05,
	"loss": 0.0284,
	"num_input_tokens_seen": 600060160,
	"step": 586000
	},
	{
	"epoch": 5.411465109198106,
	"grad_norm": 0.6755638122558594,
	"learning_rate": 2.294272058755686e-05,
	"loss": 0.0256,
	"num_input_tokens_seen": 600572160,
	"step": 586500
	},
	{
	"epoch": 5.416078463937406,
	"grad_norm": 0.5303651690483093,
	"learning_rate": 2.2919653813860364e-05,
	"loss": 0.0272,
	"num_input_tokens_seen": 601084160,
	"step": 587000
	},
	{
	"epoch": 5.420691818676706,
	"grad_norm": 0.8649631142616272,
	"learning_rate": 2.2896587040163868e-05,
	"loss": 0.0245,
	"num_input_tokens_seen": 601596160,
	"step": 587500
	},
	{
	"epoch": 5.425305173416005,
	"grad_norm": 0.5191958546638489,
	"learning_rate": 2.287352026646737e-05,
	"loss": 0.0271,
	"num_input_tokens_seen": 602108160,
	"step": 588000
	},
	{
	"epoch": 5.429918528155304,
	"grad_norm": 1.2616572380065918,
	"learning_rate": 2.2850453492770872e-05,
	"loss": 0.0271,
	"num_input_tokens_seen": 602620160,
	"step": 588500
	},
	{
	"epoch": 5.434531882894603,
	"grad_norm": 0.8619266152381897,
	"learning_rate": 2.282738671907438e-05,
	"loss": 0.0262,
	"num_input_tokens_seen": 603132160,
	"step": 589000
	},
	{
	"epoch": 5.439145237633903,
	"grad_norm": 0.7039788961410522,
	"learning_rate": 2.280431994537788e-05,
	"loss": 0.0247,
	"num_input_tokens_seen": 603644160,
	"step": 589500
	},
	{
	"epoch": 5.443758592373202,
	"grad_norm": 2.772310495376587,
	"learning_rate": 2.2781253171681384e-05,
	"loss": 0.0267,
	"num_input_tokens_seen": 604156160,
	"step": 590000
	},
	{
	"epoch": 5.448371947112501,
	"grad_norm": 0.5451655387878418,
	"learning_rate": 2.2758186397984888e-05,
	"loss": 0.0261,
	"num_input_tokens_seen": 604668160,
	"step": 590500
	},
	{
	"epoch": 5.4529853018518,
	"grad_norm": 0.8995614647865295,
	"learning_rate": 2.2735119624288392e-05,
	"loss": 0.024,
	"num_input_tokens_seen": 605180160,
	"step": 591000
	},
	{
	"epoch": 5.4575986565911,
	"grad_norm": 1.981187105178833,
	"learning_rate": 2.2712052850591896e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 605692160,
	"step": 591500
	},
	{
	"epoch": 5.462212011330399,
	"grad_norm": 0.7811481952667236,
	"learning_rate": 2.2688986076895397e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 606204160,
	"step": 592000
	},
	{
	"epoch": 5.466825366069698,
	"grad_norm": 2.7757558822631836,
	"learning_rate": 2.26659193031989e-05,
	"loss": 0.0253,
	"num_input_tokens_seen": 606716160,
	"step": 592500
	},
	{
	"epoch": 5.471438720808998,
	"grad_norm": 1.9782260656356812,
	"learning_rate": 2.2642852529502405e-05,
	"loss": 0.0277,
	"num_input_tokens_seen": 607228160,
	"step": 593000
	},
	{
	"epoch": 5.4760520755482975,
	"grad_norm": 2.8401777744293213,
	"learning_rate": 2.261978575580591e-05,
	"loss": 0.0255,
	"num_input_tokens_seen": 607740160,
	"step": 593500
	},
	{
	"epoch": 5.480665430287597,
	"grad_norm": 0.5879292488098145,
	"learning_rate": 2.259671898210941e-05,
	"loss": 0.027,
	"num_input_tokens_seen": 608252160,
	"step": 594000
	},
	{
	"epoch": 5.485278785026896,
	"grad_norm": 1.1103825569152832,
	"learning_rate": 2.2573652208412917e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 608764160,
	"step": 594500
	},
	{
	"epoch": 5.489892139766195,
	"grad_norm": 1.002668857574463,
	"learning_rate": 2.2550585434716417e-05,
	"loss": 0.0276,
	"num_input_tokens_seen": 609276160,
	"step": 595000
	},
	{
	"epoch": 5.4945054945054945,
	"grad_norm": 0.5841794013977051,
	"learning_rate": 2.252751866101992e-05,
	"loss": 0.0272,
	"num_input_tokens_seen": 609788160,
	"step": 595500
	},
	{
	"epoch": 5.499118849244794,
	"grad_norm": 0.6137141585350037,
	"learning_rate": 2.2504451887323425e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 610300160,
	"step": 596000
	},
	{
	"epoch": 5.503732203984093,
	"grad_norm": 0.6018849015235901,
	"learning_rate": 2.248138511362693e-05,
	"loss": 0.0279,
	"num_input_tokens_seen": 610812160,
	"step": 596500
	},
	{
	"epoch": 5.508345558723392,
	"grad_norm": 1.4851562976837158,
	"learning_rate": 2.2458318339930433e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 611324160,
	"step": 597000
	},
	{
	"epoch": 5.5129589134626915,
	"grad_norm": 1.9454591274261475,
	"learning_rate": 2.2435251566233937e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 611836160,
	"step": 597500
	},
	{
	"epoch": 5.517572268201991,
	"grad_norm": 1.9615495204925537,
	"learning_rate": 2.2412184792537438e-05,
	"loss": 0.0257,
	"num_input_tokens_seen": 612348160,
	"step": 598000
	},
	{
	"epoch": 5.52218562294129,
	"grad_norm": 1.1803622245788574,
	"learning_rate": 2.238911801884094e-05,
	"loss": 0.0256,
	"num_input_tokens_seen": 612860160,
	"step": 598500
	},
	{
	"epoch": 5.52679897768059,
	"grad_norm": 0.7780105471611023,
	"learning_rate": 2.2366051245144445e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 613372160,
	"step": 599000
	},
	{
	"epoch": 5.531412332419889,
	"grad_norm": 0.5582423806190491,
	"learning_rate": 2.2342984471447946e-05,
	"loss": 0.0279,
	"num_input_tokens_seen": 613884160,
	"step": 599500
	},
	{
	"epoch": 5.536025687159189,
	"grad_norm": 1.4547449350357056,
	"learning_rate": 2.2319917697751453e-05,
	"loss": 0.0273,
	"num_input_tokens_seen": 614396160,
	"step": 600000
	},
	{
	"epoch": 5.540639041898488,
	"grad_norm": 1.0105394124984741,
	"learning_rate": 2.2296850924054954e-05,
	"loss": 0.0251,
	"num_input_tokens_seen": 614908160,
	"step": 600500
	},
	{
	"epoch": 5.545252396637787,
	"grad_norm": 0.7775139212608337,
	"learning_rate": 2.2273784150358458e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 615420160,
	"step": 601000
	},
	{
	"epoch": 5.549865751377086,
	"grad_norm": 0.40573227405548096,
	"learning_rate": 2.2250717376661962e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 615932160,
	"step": 601500
	},
	{
	"epoch": 5.554479106116386,
	"grad_norm": 1.130553126335144,
	"learning_rate": 2.2227650602965466e-05,
	"loss": 0.0255,
	"num_input_tokens_seen": 616444160,
	"step": 602000
	},
	{
	"epoch": 5.559092460855685,
	"grad_norm": 1.0450289249420166,
	"learning_rate": 2.220458382926897e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 616956160,
	"step": 602500
	},
	{
	"epoch": 5.563705815594984,
	"grad_norm": 0.7919219136238098,
	"learning_rate": 2.2181517055572474e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 617468160,
	"step": 603000
	},
	{
	"epoch": 5.568319170334283,
	"grad_norm": 0.7787536382675171,
	"learning_rate": 2.2158450281875974e-05,
	"loss": 0.0305,
	"num_input_tokens_seen": 617980160,
	"step": 603500
	},
	{
	"epoch": 5.572932525073583,
	"grad_norm": 1.2866960763931274,
	"learning_rate": 2.2135383508179482e-05,
	"loss": 0.028,
	"num_input_tokens_seen": 618492160,
	"step": 604000
	},
	{
	"epoch": 5.577545879812883,
	"grad_norm": 1.9128954410552979,
	"learning_rate": 2.2112316734482982e-05,
	"loss": 0.0276,
	"num_input_tokens_seen": 619004160,
	"step": 604500
	},
	{
	"epoch": 5.582159234552182,
	"grad_norm": 1.13468337059021,
	"learning_rate": 2.2089249960786483e-05,
	"loss": 0.027,
	"num_input_tokens_seen": 619516160,
	"step": 605000
	},
	{
	"epoch": 5.586772589291481,
	"grad_norm": 1.4375085830688477,
	"learning_rate": 2.206618318708999e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 620028160,
	"step": 605500
	},
	{
	"epoch": 5.5913859440307805,
	"grad_norm": 0.722649872303009,
	"learning_rate": 2.204311641339349e-05,
	"loss": 0.0259,
	"num_input_tokens_seen": 620540160,
	"step": 606000
	},
	{
	"epoch": 5.59599929877008,
	"grad_norm": 0.8669957518577576,
	"learning_rate": 2.2020049639696995e-05,
	"loss": 0.0262,
	"num_input_tokens_seen": 621052160,
	"step": 606500
	},
	{
	"epoch": 5.600612653509379,
	"grad_norm": 0.8053223490715027,
	"learning_rate": 2.19969828660005e-05,
	"loss": 0.0302,
	"num_input_tokens_seen": 621564160,
	"step": 607000
	},
	{
	"epoch": 5.605226008248678,
	"grad_norm": 1.0647988319396973,
	"learning_rate": 2.1973916092304003e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 622076160,
	"step": 607500
	},
	{
	"epoch": 5.6098393629879775,
	"grad_norm": 1.0449702739715576,
	"learning_rate": 2.1950849318607507e-05,
	"loss": 0.0292,
	"num_input_tokens_seen": 622588160,
	"step": 608000
	},
	{
	"epoch": 5.614452717727277,
	"grad_norm": 0.8551065921783447,
	"learning_rate": 2.192778254491101e-05,
	"loss": 0.026,
	"num_input_tokens_seen": 623100160,
	"step": 608500
	},
	{
	"epoch": 5.619066072466576,
	"grad_norm": 0.9317313432693481,
	"learning_rate": 2.190471577121451e-05,
	"loss": 0.0273,
	"num_input_tokens_seen": 623612160,
	"step": 609000
	},
	{
	"epoch": 5.623679427205875,
	"grad_norm": 1.1779793500900269,
	"learning_rate": 2.188164899751802e-05,
	"loss": 0.0267,
	"num_input_tokens_seen": 624124160,
	"step": 609500
	},
	{
	"epoch": 5.628292781945175,
	"grad_norm": 0.7221566438674927,
	"learning_rate": 2.185858222382152e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 624636160,
	"step": 610000
	},
	{
	"epoch": 5.632906136684475,
	"grad_norm": 1.5405559539794922,
	"learning_rate": 2.1835515450125023e-05,
	"loss": 0.0242,
	"num_input_tokens_seen": 625148160,
	"step": 610500
	},
	{
	"epoch": 5.637519491423774,
	"grad_norm": 1.2586696147918701,
	"learning_rate": 2.1812448676428527e-05,
	"loss": 0.0259,
	"num_input_tokens_seen": 625660160,
	"step": 611000
	},
	{
	"epoch": 5.642132846163073,
	"grad_norm": 1.4537557363510132,
	"learning_rate": 2.1789381902732028e-05,
	"loss": 0.0254,
	"num_input_tokens_seen": 626172160,
	"step": 611500
	},
	{
	"epoch": 5.646746200902372,
	"grad_norm": 0.7319709658622742,
	"learning_rate": 2.1766315129035532e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 626684160,
	"step": 612000
	},
	{
	"epoch": 5.651359555641672,
	"grad_norm": 0.6492053866386414,
	"learning_rate": 2.1743248355339036e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 627196160,
	"step": 612500
	},
	{
	"epoch": 5.655972910380971,
	"grad_norm": 1.0684195756912231,
	"learning_rate": 2.172018158164254e-05,
	"loss": 0.0239,
	"num_input_tokens_seen": 627708160,
	"step": 613000
	},
	{
	"epoch": 5.66058626512027,
	"grad_norm": 1.018306851387024,
	"learning_rate": 2.1697114807946044e-05,
	"loss": 0.027,
	"num_input_tokens_seen": 628220160,
	"step": 613500
	},
	{
	"epoch": 5.665199619859569,
	"grad_norm": 0.5089601278305054,
	"learning_rate": 2.1674048034249548e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 628732160,
	"step": 614000
	},
	{
	"epoch": 5.669812974598869,
	"grad_norm": 1.606461763381958,
	"learning_rate": 2.1650981260553048e-05,
	"loss": 0.0267,
	"num_input_tokens_seen": 629244160,
	"step": 614500
	},
	{
	"epoch": 5.674426329338168,
	"grad_norm": 1.479805588722229,
	"learning_rate": 2.1627914486856556e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 629756160,
	"step": 615000
	},
	{
	"epoch": 5.679039684077467,
	"grad_norm": 2.971240758895874,
	"learning_rate": 2.1604847713160056e-05,
	"loss": 0.0285,
	"num_input_tokens_seen": 630268160,
	"step": 615500
	},
	{
	"epoch": 5.683653038816766,
	"grad_norm": 0.5969455242156982,
	"learning_rate": 2.158178093946356e-05,
	"loss": 0.0265,
	"num_input_tokens_seen": 630780160,
	"step": 616000
	},
	{
	"epoch": 5.6882663935560664,
	"grad_norm": 0.7076913118362427,
	"learning_rate": 2.1558714165767064e-05,
	"loss": 0.024,
	"num_input_tokens_seen": 631292160,
	"step": 616500
	},
	{
	"epoch": 5.692879748295366,
	"grad_norm": 0.8780455589294434,
	"learning_rate": 2.1535647392070568e-05,
	"loss": 0.0253,
	"num_input_tokens_seen": 631804160,
	"step": 617000
	},
	{
	"epoch": 5.697493103034665,
	"grad_norm": 3.569014549255371,
	"learning_rate": 2.151258061837407e-05,
	"loss": 0.0252,
	"num_input_tokens_seen": 632316160,
	"step": 617500
	},
	{
	"epoch": 5.702106457773964,
	"grad_norm": 0.9523796439170837,
	"learning_rate": 2.1489513844677573e-05,
	"loss": 0.0275,
	"num_input_tokens_seen": 632828160,
	"step": 618000
	},
	{
	"epoch": 5.706719812513263,
	"grad_norm": 0.6151872873306274,
	"learning_rate": 2.1466447070981077e-05,
	"loss": 0.0272,
	"num_input_tokens_seen": 633340160,
	"step": 618500
	},
	{
	"epoch": 5.711333167252563,
	"grad_norm": 4.095676422119141,
	"learning_rate": 2.144338029728458e-05,
	"loss": 0.0309,
	"num_input_tokens_seen": 633852160,
	"step": 619000
	},
	{
	"epoch": 5.715946521991862,
	"grad_norm": 1.5436087846755981,
	"learning_rate": 2.1420313523588085e-05,
	"loss": 0.0237,
	"num_input_tokens_seen": 634364160,
	"step": 619500
	},
	{
	"epoch": 5.720559876731161,
	"grad_norm": 0.722958505153656,
	"learning_rate": 2.1397246749891585e-05,
	"loss": 0.024,
	"num_input_tokens_seen": 634876160,
	"step": 620000
	},
	{
	"epoch": 5.72517323147046,
	"grad_norm": 1.9889734983444214,
	"learning_rate": 2.1374179976195092e-05,
	"loss": 0.026,
	"num_input_tokens_seen": 635388160,
	"step": 620500
	},
	{
	"epoch": 5.72978658620976,
	"grad_norm": 1.8848015069961548,
	"learning_rate": 2.1351113202498593e-05,
	"loss": 0.0295,
	"num_input_tokens_seen": 635900160,
	"step": 621000
	},
	{
	"epoch": 5.734399940949059,
	"grad_norm": 1.4463508129119873,
	"learning_rate": 2.1328046428802097e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 636412160,
	"step": 621500
	},
	{
	"epoch": 5.739013295688359,
	"grad_norm": 2.2826876640319824,
	"learning_rate": 2.13049796551056e-05,
	"loss": 0.0278,
	"num_input_tokens_seen": 636924160,
	"step": 622000
	},
	{
	"epoch": 5.743626650427658,
	"grad_norm": 0.8323870897293091,
	"learning_rate": 2.1281912881409105e-05,
	"loss": 0.0247,
	"num_input_tokens_seen": 637436160,
	"step": 622500
	},
	{
	"epoch": 5.7482400051669575,
	"grad_norm": 1.4278696775436401,
	"learning_rate": 2.1258846107712606e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 637948160,
	"step": 623000
	},
	{
	"epoch": 5.752853359906257,
	"grad_norm": 0.425340473651886,
	"learning_rate": 2.1235779334016113e-05,
	"loss": 0.0263,
	"num_input_tokens_seen": 638460160,
	"step": 623500
	},
	{
	"epoch": 5.757466714645556,
	"grad_norm": 0.6665620803833008,
	"learning_rate": 2.1212712560319614e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 638972160,
	"step": 624000
	},
	{
	"epoch": 5.762080069384855,
	"grad_norm": 1.1083565950393677,
	"learning_rate": 2.1189645786623117e-05,
	"loss": 0.0251,
	"num_input_tokens_seen": 639484160,
	"step": 624500
	},
	{
	"epoch": 5.7666934241241545,
	"grad_norm": 1.5361641645431519,
	"learning_rate": 2.116657901292662e-05,
	"loss": 0.0238,
	"num_input_tokens_seen": 639996160,
	"step": 625000
	},
	{
	"epoch": 5.771306778863454,
	"grad_norm": 1.897976040840149,
	"learning_rate": 2.1143512239230122e-05,
	"loss": 0.0252,
	"num_input_tokens_seen": 640508160,
	"step": 625500
	},
	{
	"epoch": 5.775920133602753,
	"grad_norm": 1.181335687637329,
	"learning_rate": 2.112044546553363e-05,
	"loss": 0.0274,
	"num_input_tokens_seen": 641020160,
	"step": 626000
	},
	{
	"epoch": 5.780533488342052,
	"grad_norm": 1.2350566387176514,
	"learning_rate": 2.109737869183713e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 641532160,
	"step": 626500
	},
	{
	"epoch": 5.7851468430813515,
	"grad_norm": 0.9288113713264465,
	"learning_rate": 2.1074311918140634e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 642044160,
	"step": 627000
	},
	{
	"epoch": 5.789760197820652,
	"grad_norm": 1.3695634603500366,
	"learning_rate": 2.1051245144444138e-05,
	"loss": 0.0281,
	"num_input_tokens_seen": 642556160,
	"step": 627500
	},
	{
	"epoch": 5.794373552559951,
	"grad_norm": 1.5921497344970703,
	"learning_rate": 2.1028178370747642e-05,
	"loss": 0.0271,
	"num_input_tokens_seen": 643068160,
	"step": 628000
	},
	{
	"epoch": 5.79898690729925,
	"grad_norm": 0.9547250866889954,
	"learning_rate": 2.1005111597051146e-05,
	"loss": 0.0246,
	"num_input_tokens_seen": 643580160,
	"step": 628500
	},
	{
	"epoch": 5.803600262038549,
	"grad_norm": 0.702260434627533,
	"learning_rate": 2.098204482335465e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 644092160,
	"step": 629000
	},
	{
	"epoch": 5.808213616777849,
	"grad_norm": 1.7382519245147705,
	"learning_rate": 2.095897804965815e-05,
	"loss": 0.0247,
	"num_input_tokens_seen": 644604160,
	"step": 629500
	},
	{
	"epoch": 5.812826971517148,
	"grad_norm": 0.724609911441803,
	"learning_rate": 2.0935911275961654e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 645116160,
	"step": 630000
	},
	{
	"epoch": 5.817440326256447,
	"grad_norm": 0.8976930379867554,
	"learning_rate": 2.091284450226516e-05,
	"loss": 0.0261,
	"num_input_tokens_seen": 645628160,
	"step": 630500
	},
	{
	"epoch": 5.822053680995746,
	"grad_norm": 2.6822431087493896,
	"learning_rate": 2.088977772856866e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 646140160,
	"step": 631000
	},
	{
	"epoch": 5.826667035735046,
	"grad_norm": 0.9543342590332031,
	"learning_rate": 2.0866710954872166e-05,
	"loss": 0.0255,
	"num_input_tokens_seen": 646652160,
	"step": 631500
	},
	{
	"epoch": 5.831280390474345,
	"grad_norm": 1.0366599559783936,
	"learning_rate": 2.0843644181175667e-05,
	"loss": 0.0265,
	"num_input_tokens_seen": 647164160,
	"step": 632000
	},
	{
	"epoch": 5.835893745213644,
	"grad_norm": 2.613006830215454,
	"learning_rate": 2.082057740747917e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 647676160,
	"step": 632500
	},
	{
	"epoch": 5.840507099952944,
	"grad_norm": 0.2824631631374359,
	"learning_rate": 2.0797510633782675e-05,
	"loss": 0.0288,
	"num_input_tokens_seen": 648188160,
	"step": 633000
	},
	{
	"epoch": 5.845120454692243,
	"grad_norm": 3.399728298187256,
	"learning_rate": 2.077444386008618e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 648700160,
	"step": 633500
	},
	{
	"epoch": 5.849733809431543,
	"grad_norm": 0.7402966022491455,
	"learning_rate": 2.0751377086389683e-05,
	"loss": 0.0248,
	"num_input_tokens_seen": 649212160,
	"step": 634000
	},
	{
	"epoch": 5.854347164170842,
	"grad_norm": 0.7553480267524719,
	"learning_rate": 2.0728310312693187e-05,
	"loss": 0.0277,
	"num_input_tokens_seen": 649724160,
	"step": 634500
	},
	{
	"epoch": 5.858960518910141,
	"grad_norm": 3.4398159980773926,
	"learning_rate": 2.0705243538996687e-05,
	"loss": 0.0266,
	"num_input_tokens_seen": 650236160,
	"step": 635000
	},
	{
	"epoch": 5.8635738736494405,
	"grad_norm": 0.5711115598678589,
	"learning_rate": 2.0682176765300195e-05,
	"loss": 0.0241,
	"num_input_tokens_seen": 650748160,
	"step": 635500
	},
	{
	"epoch": 5.86818722838874,
	"grad_norm": 0.7952388525009155,
	"learning_rate": 2.0659109991603695e-05,
	"loss": 0.0275,
	"num_input_tokens_seen": 651260160,
	"step": 636000
	},
	{
	"epoch": 5.872800583128039,
	"grad_norm": 1.0399372577667236,
	"learning_rate": 2.06360432179072e-05,
	"loss": 0.0248,
	"num_input_tokens_seen": 651772160,
	"step": 636500
	},
	{
	"epoch": 5.877413937867338,
	"grad_norm": 1.6778496503829956,
	"learning_rate": 2.0612976444210703e-05,
	"loss": 0.0248,
	"num_input_tokens_seen": 652284160,
	"step": 637000
	},
	{
	"epoch": 5.8820272926066375,
	"grad_norm": 1.3442925214767456,
	"learning_rate": 2.0589909670514204e-05,
	"loss": 0.0271,
	"num_input_tokens_seen": 652796160,
	"step": 637500
	},
	{
	"epoch": 5.886640647345937,
	"grad_norm": 1.1822031736373901,
	"learning_rate": 2.0566842896817708e-05,
	"loss": 0.0256,
	"num_input_tokens_seen": 653308160,
	"step": 638000
	},
	{
	"epoch": 5.891254002085236,
	"grad_norm": 1.5322853326797485,
	"learning_rate": 2.0543776123121212e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 653820160,
	"step": 638500
	},
	{
	"epoch": 5.895867356824535,
	"grad_norm": 1.6025440692901611,
	"learning_rate": 2.0520709349424716e-05,
	"loss": 0.0281,
	"num_input_tokens_seen": 654332160,
	"step": 639000
	},
	{
	"epoch": 5.900480711563835,
	"grad_norm": 0.7516422867774963,
	"learning_rate": 2.049764257572822e-05,
	"loss": 0.0293,
	"num_input_tokens_seen": 654844160,
	"step": 639500
	},
	{
	"epoch": 5.905094066303135,
	"grad_norm": 0.7684640884399414,
	"learning_rate": 2.0474575802031724e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 655356160,
	"step": 640000
	},
	{
	"epoch": 5.909707421042434,
	"grad_norm": 1.2843828201293945,
	"learning_rate": 2.0451509028335224e-05,
	"loss": 0.0252,
	"num_input_tokens_seen": 655868160,
	"step": 640500
	},
	{
	"epoch": 5.914320775781733,
	"grad_norm": 1.0203999280929565,
	"learning_rate": 2.042844225463873e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 656380160,
	"step": 641000
	},
	{
	"epoch": 5.918934130521032,
	"grad_norm": 2.00242280960083,
	"learning_rate": 2.0405375480942232e-05,
	"loss": 0.0285,
	"num_input_tokens_seen": 656892160,
	"step": 641500
	},
	{
	"epoch": 5.923547485260332,
	"grad_norm": 1.0357120037078857,
	"learning_rate": 2.0382308707245736e-05,
	"loss": 0.0239,
	"num_input_tokens_seen": 657404160,
	"step": 642000
	},
	{
	"epoch": 5.928160839999631,
	"grad_norm": 1.1826400756835938,
	"learning_rate": 2.035924193354924e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 657916160,
	"step": 642500
	},
	{
	"epoch": 5.93277419473893,
	"grad_norm": 1.5662238597869873,
	"learning_rate": 2.0336175159852744e-05,
	"loss": 0.0259,
	"num_input_tokens_seen": 658428160,
	"step": 643000
	},
	{
	"epoch": 5.937387549478229,
	"grad_norm": 3.335893392562866,
	"learning_rate": 2.0313108386156245e-05,
	"loss": 0.0273,
	"num_input_tokens_seen": 658940160,
	"step": 643500
	},
	{
	"epoch": 5.942000904217529,
	"grad_norm": 0.7126489281654358,
	"learning_rate": 2.029004161245975e-05,
	"loss": 0.0268,
	"num_input_tokens_seen": 659452160,
	"step": 644000
	},
	{
	"epoch": 5.946614258956828,
	"grad_norm": 1.0062040090560913,
	"learning_rate": 2.0266974838763253e-05,
	"loss": 0.0276,
	"num_input_tokens_seen": 659964160,
	"step": 644500
	},
	{
	"epoch": 5.951227613696128,
	"grad_norm": 1.2691099643707275,
	"learning_rate": 2.0243908065066757e-05,
	"loss": 0.0295,
	"num_input_tokens_seen": 660476160,
	"step": 645000
	},
	{
	"epoch": 5.955840968435427,
	"grad_norm": 0.9768707752227783,
	"learning_rate": 2.022084129137026e-05,
	"loss": 0.0287,
	"num_input_tokens_seen": 660988160,
	"step": 645500
	},
	{
	"epoch": 5.9604543231747265,
	"grad_norm": 1.5846303701400757,
	"learning_rate": 2.019777451767376e-05,
	"loss": 0.028,
	"num_input_tokens_seen": 661500160,
	"step": 646000
	},
	{
	"epoch": 5.965067677914026,
	"grad_norm": 0.556376576423645,
	"learning_rate": 2.017470774397727e-05,
	"loss": 0.029,
	"num_input_tokens_seen": 662012160,
	"step": 646500
	},
	{
	"epoch": 5.969681032653325,
	"grad_norm": 1.8407984972000122,
	"learning_rate": 2.015164097028077e-05,
	"loss": 0.0278,
	"num_input_tokens_seen": 662524160,
	"step": 647000
	},
	{
	"epoch": 5.974294387392624,
	"grad_norm": 2.419261932373047,
	"learning_rate": 2.0128574196584273e-05,
	"loss": 0.0264,
	"num_input_tokens_seen": 663036160,
	"step": 647500
	},
	{
	"epoch": 5.978907742131923,
	"grad_norm": 1.3140838146209717,
	"learning_rate": 2.0105507422887777e-05,
	"loss": 0.0269,
	"num_input_tokens_seen": 663548160,
	"step": 648000
	},
	{
	"epoch": 5.983521096871223,
	"grad_norm": 1.3511277437210083,
	"learning_rate": 2.008244064919128e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 664060160,
	"step": 648500
	},
	{
	"epoch": 5.988134451610522,
	"grad_norm": 0.9623832106590271,
	"learning_rate": 2.005937387549478e-05,
	"loss": 0.0258,
	"num_input_tokens_seen": 664572160,
	"step": 649000
	},
	{
	"epoch": 5.992747806349821,
	"grad_norm": 1.2604849338531494,
	"learning_rate": 2.003630710179829e-05,
	"loss": 0.0257,
	"num_input_tokens_seen": 665084160,
	"step": 649500
	},
	{
	"epoch": 5.99736116108912,
	"grad_norm": 0.5637773871421814,
	"learning_rate": 2.001324032810179e-05,
	"loss": 0.0276,
	"num_input_tokens_seen": 665596160,
	"step": 650000
	},
	{
	"epoch": 6.0,
	"eval_combined_score": 0.06719425867896905,
	"eval_loss": 0.06719426065683365,
	"eval_mse": 0.06719425670110447,
	"eval_runtime": 46.0502,
	"eval_samples_per_second": 2092.023,
	"eval_steps_per_second": 261.519,
	"num_input_tokens_seen": 665888256,
	"step": 650286
	},
	{
	"epoch": 6.00197451582842,
	"grad_norm": 0.7754026055335999,
	"learning_rate": 1.9990173554405293e-05,
	"loss": 0.0243,
	"num_input_tokens_seen": 666107392,
	"step": 650500
	},
	{
	"epoch": 6.00658787056772,
	"grad_norm": 3.4056851863861084,
	"learning_rate": 1.9967106780708797e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 666619392,
	"step": 651000
	},
	{
	"epoch": 6.011201225307019,
	"grad_norm": 0.7338670492172241,
	"learning_rate": 1.9944040007012298e-05,
	"loss": 0.0194,
	"num_input_tokens_seen": 667131392,
	"step": 651500
	},
	{
	"epoch": 6.015814580046318,
	"grad_norm": 0.9775220155715942,
	"learning_rate": 1.9920973233315805e-05,
	"loss": 0.0218,
	"num_input_tokens_seen": 667643392,
	"step": 652000
	},
	{
	"epoch": 6.0204279347856176,
	"grad_norm": 0.6513090133666992,
	"learning_rate": 1.9897906459619306e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 668155392,
	"step": 652500
	},
	{
	"epoch": 6.025041289524917,
	"grad_norm": 1.0997514724731445,
	"learning_rate": 1.987483968592281e-05,
	"loss": 0.0218,
	"num_input_tokens_seen": 668667392,
	"step": 653000
	},
	{
	"epoch": 6.029654644264216,
	"grad_norm": 1.8776363134384155,
	"learning_rate": 1.9851772912226314e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 669179392,
	"step": 653500
	},
	{
	"epoch": 6.034267999003515,
	"grad_norm": 1.0117559432983398,
	"learning_rate": 1.9828706138529818e-05,
	"loss": 0.0195,
	"num_input_tokens_seen": 669691392,
	"step": 654000
	},
	{
	"epoch": 6.0388813537428145,
	"grad_norm": 1.839374303817749,
	"learning_rate": 1.980563936483332e-05,
	"loss": 0.0206,
	"num_input_tokens_seen": 670203392,
	"step": 654500
	},
	{
	"epoch": 6.043494708482114,
	"grad_norm": 1.1383150815963745,
	"learning_rate": 1.9782572591136826e-05,
	"loss": 0.02,
	"num_input_tokens_seen": 670715392,
	"step": 655000
	},
	{
	"epoch": 6.048108063221413,
	"grad_norm": 0.6940335631370544,
	"learning_rate": 1.9759505817440326e-05,
	"loss": 0.0218,
	"num_input_tokens_seen": 671227392,
	"step": 655500
	},
	{
	"epoch": 6.052721417960712,
	"grad_norm": 0.9437240958213806,
	"learning_rate": 1.973643904374383e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 671739392,
	"step": 656000
	},
	{
	"epoch": 6.057334772700012,
	"grad_norm": 1.297887921333313,
	"learning_rate": 1.9713372270047334e-05,
	"loss": 0.0197,
	"num_input_tokens_seen": 672251392,
	"step": 656500
	},
	{
	"epoch": 6.061948127439312,
	"grad_norm": 1.1121424436569214,
	"learning_rate": 1.9690305496350835e-05,
	"loss": 0.0228,
	"num_input_tokens_seen": 672763392,
	"step": 657000
	},
	{
	"epoch": 6.066561482178611,
	"grad_norm": 1.2576148509979248,
	"learning_rate": 1.9667238722654342e-05,
	"loss": 0.0202,
	"num_input_tokens_seen": 673275392,
	"step": 657500
	},
	{
	"epoch": 6.07117483691791,
	"grad_norm": 0.9484318494796753,
	"learning_rate": 1.9644171948957843e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 673787392,
	"step": 658000
	},
	{
	"epoch": 6.075788191657209,
	"grad_norm": 1.5170820951461792,
	"learning_rate": 1.9621105175261347e-05,
	"loss": 0.0216,
	"num_input_tokens_seen": 674299392,
	"step": 658500
	},
	{
	"epoch": 6.080401546396509,
	"grad_norm": 1.5162551403045654,
	"learning_rate": 1.959803840156485e-05,
	"loss": 0.0209,
	"num_input_tokens_seen": 674811392,
	"step": 659000
	},
	{
	"epoch": 6.085014901135808,
	"grad_norm": 1.1097129583358765,
	"learning_rate": 1.9574971627868355e-05,
	"loss": 0.0211,
	"num_input_tokens_seen": 675323392,
	"step": 659500
	},
	{
	"epoch": 6.089628255875107,
	"grad_norm": 1.9856687784194946,
	"learning_rate": 1.9551904854171855e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 675835392,
	"step": 660000
	},
	{
	"epoch": 6.094241610614406,
	"grad_norm": 0.447665810585022,
	"learning_rate": 1.9528838080475363e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 676347392,
	"step": 660500
	},
	{
	"epoch": 6.098854965353706,
	"grad_norm": 0.6140983700752258,
	"learning_rate": 1.9505771306778863e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 676859392,
	"step": 661000
	},
	{
	"epoch": 6.103468320093005,
	"grad_norm": 0.6753659844398499,
	"learning_rate": 1.9482704533082367e-05,
	"loss": 0.0234,
	"num_input_tokens_seen": 677371392,
	"step": 661500
	},
	{
	"epoch": 6.108081674832304,
	"grad_norm": 0.5752419233322144,
	"learning_rate": 1.945963775938587e-05,
	"loss": 0.0202,
	"num_input_tokens_seen": 677883392,
	"step": 662000
	},
	{
	"epoch": 6.112695029571604,
	"grad_norm": 0.8498187065124512,
	"learning_rate": 1.9436570985689375e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 678395392,
	"step": 662500
	},
	{
	"epoch": 6.1173083843109035,
	"grad_norm": 0.8756592273712158,
	"learning_rate": 1.941350421199288e-05,
	"loss": 0.0193,
	"num_input_tokens_seen": 678907392,
	"step": 663000
	},
	{
	"epoch": 6.121921739050203,
	"grad_norm": 2.693408250808716,
	"learning_rate": 1.939043743829638e-05,
	"loss": 0.0192,
	"num_input_tokens_seen": 679419392,
	"step": 663500
	},
	{
	"epoch": 6.126535093789502,
	"grad_norm": 1.2562410831451416,
	"learning_rate": 1.9367370664599884e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 679931392,
	"step": 664000
	},
	{
	"epoch": 6.131148448528801,
	"grad_norm": 1.662607192993164,
	"learning_rate": 1.9344303890903388e-05,
	"loss": 0.0202,
	"num_input_tokens_seen": 680443392,
	"step": 664500
	},
	{
	"epoch": 6.1357618032681005,
	"grad_norm": 0.8095691800117493,
	"learning_rate": 1.932123711720689e-05,
	"loss": 0.0212,
	"num_input_tokens_seen": 680955392,
	"step": 665000
	},
	{
	"epoch": 6.1403751580074,
	"grad_norm": 0.5978444218635559,
	"learning_rate": 1.9298170343510392e-05,
	"loss": 0.0211,
	"num_input_tokens_seen": 681467392,
	"step": 665500
	},
	{
	"epoch": 6.144988512746699,
	"grad_norm": 0.5060915946960449,
	"learning_rate": 1.92751035698139e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 681979392,
	"step": 666000
	},
	{
	"epoch": 6.149601867485998,
	"grad_norm": 0.9484182596206665,
	"learning_rate": 1.92520367961174e-05,
	"loss": 0.0203,
	"num_input_tokens_seen": 682491392,
	"step": 666500
	},
	{
	"epoch": 6.1542152222252975,
	"grad_norm": 1.3608324527740479,
	"learning_rate": 1.9228970022420904e-05,
	"loss": 0.0222,
	"num_input_tokens_seen": 683003392,
	"step": 667000
	},
	{
	"epoch": 6.158828576964597,
	"grad_norm": 0.9933167099952698,
	"learning_rate": 1.9205903248724408e-05,
	"loss": 0.0193,
	"num_input_tokens_seen": 683515392,
	"step": 667500
	},
	{
	"epoch": 6.163441931703897,
	"grad_norm": 1.8458038568496704,
	"learning_rate": 1.9182836475027912e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 684027392,
	"step": 668000
	},
	{
	"epoch": 6.168055286443196,
	"grad_norm": 0.9922088384628296,
	"learning_rate": 1.9159769701331416e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 684539392,
	"step": 668500
	},
	{
	"epoch": 6.172668641182495,
	"grad_norm": 0.7523616552352905,
	"learning_rate": 1.913670292763492e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 685051392,
	"step": 669000
	},
	{
	"epoch": 6.177281995921795,
	"grad_norm": 1.4571471214294434,
	"learning_rate": 1.911363615393842e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 685563392,
	"step": 669500
	},
	{
	"epoch": 6.181895350661094,
	"grad_norm": 1.6645666360855103,
	"learning_rate": 1.9090569380241925e-05,
	"loss": 0.0231,
	"num_input_tokens_seen": 686075392,
	"step": 670000
	},
	{
	"epoch": 6.186508705400393,
	"grad_norm": 0.5746430158615112,
	"learning_rate": 1.906750260654543e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 686587392,
	"step": 670500
	},
	{
	"epoch": 6.191122060139692,
	"grad_norm": 0.6545117497444153,
	"learning_rate": 1.9044435832848933e-05,
	"loss": 0.0203,
	"num_input_tokens_seen": 687099392,
	"step": 671000
	},
	{
	"epoch": 6.195735414878992,
	"grad_norm": 0.6282312273979187,
	"learning_rate": 1.9021369059152436e-05,
	"loss": 0.0222,
	"num_input_tokens_seen": 687611392,
	"step": 671500
	},
	{
	"epoch": 6.200348769618291,
	"grad_norm": 0.7718172073364258,
	"learning_rate": 1.8998302285455937e-05,
	"loss": 0.0211,
	"num_input_tokens_seen": 688123392,
	"step": 672000
	},
	{
	"epoch": 6.20496212435759,
	"grad_norm": 1.4277899265289307,
	"learning_rate": 1.897523551175944e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 688635392,
	"step": 672500
	},
	{
	"epoch": 6.209575479096889,
	"grad_norm": 0.5869673490524292,
	"learning_rate": 1.8952168738062945e-05,
	"loss": 0.0201,
	"num_input_tokens_seen": 689147392,
	"step": 673000
	},
	{
	"epoch": 6.214188833836189,
	"grad_norm": 0.7148327231407166,
	"learning_rate": 1.892910196436645e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 689659392,
	"step": 673500
	},
	{
	"epoch": 6.218802188575489,
	"grad_norm": 1.9917762279510498,
	"learning_rate": 1.8906035190669953e-05,
	"loss": 0.0201,
	"num_input_tokens_seen": 690171392,
	"step": 674000
	},
	{
	"epoch": 6.223415543314788,
	"grad_norm": 1.030920386314392,
	"learning_rate": 1.8882968416973457e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 690683392,
	"step": 674500
	},
	{
	"epoch": 6.228028898054087,
	"grad_norm": 0.6258344054222107,
	"learning_rate": 1.8859901643276958e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 691195392,
	"step": 675000
	},
	{
	"epoch": 6.2326422527933865,
	"grad_norm": 2.0319483280181885,
	"learning_rate": 1.8836834869580465e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 691707392,
	"step": 675500
	},
	{
	"epoch": 6.237255607532686,
	"grad_norm": 0.5357654094696045,
	"learning_rate": 1.8813768095883965e-05,
	"loss": 0.021,
	"num_input_tokens_seen": 692219392,
	"step": 676000
	},
	{
	"epoch": 6.241868962271985,
	"grad_norm": 2.2843759059906006,
	"learning_rate": 1.879070132218747e-05,
	"loss": 0.0224,
	"num_input_tokens_seen": 692731392,
	"step": 676500
	},
	{
	"epoch": 6.246482317011284,
	"grad_norm": 0.7464880347251892,
	"learning_rate": 1.8767634548490973e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 693243392,
	"step": 677000
	},
	{
	"epoch": 6.2510956717505834,
	"grad_norm": 1.1594797372817993,
	"learning_rate": 1.8744567774794474e-05,
	"loss": 0.0219,
	"num_input_tokens_seen": 693755392,
	"step": 677500
	},
	{
	"epoch": 6.255709026489883,
	"grad_norm": 2.049744129180908,
	"learning_rate": 1.872150100109798e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 694267392,
	"step": 678000
	},
	{
	"epoch": 6.260322381229182,
	"grad_norm": 2.227196216583252,
	"learning_rate": 1.8698434227401482e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 694779392,
	"step": 678500
	},
	{
	"epoch": 6.264935735968481,
	"grad_norm": 1.209151268005371,
	"learning_rate": 1.8675367453704986e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 695291392,
	"step": 679000
	},
	{
	"epoch": 6.26954909070778,
	"grad_norm": 0.6479954123497009,
	"learning_rate": 1.865230068000849e-05,
	"loss": 0.0229,
	"num_input_tokens_seen": 695803392,
	"step": 679500
	},
	{
	"epoch": 6.274162445447081,
	"grad_norm": 0.5225302577018738,
	"learning_rate": 1.8629233906311994e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 696315392,
	"step": 680000
	},
	{
	"epoch": 6.27877580018638,
	"grad_norm": 0.8142069578170776,
	"learning_rate": 1.8606167132615494e-05,
	"loss": 0.0242,
	"num_input_tokens_seen": 696827392,
	"step": 680500
	},
	{
	"epoch": 6.283389154925679,
	"grad_norm": 2.5518014430999756,
	"learning_rate": 1.8583100358919002e-05,
	"loss": 0.0221,
	"num_input_tokens_seen": 697339392,
	"step": 681000
	},
	{
	"epoch": 6.288002509664978,
	"grad_norm": 0.609211266040802,
	"learning_rate": 1.8560033585222502e-05,
	"loss": 0.0238,
	"num_input_tokens_seen": 697851392,
	"step": 681500
	},
	{
	"epoch": 6.292615864404278,
	"grad_norm": 0.6666821837425232,
	"learning_rate": 1.8536966811526006e-05,
	"loss": 0.0235,
	"num_input_tokens_seen": 698363392,
	"step": 682000
	},
	{
	"epoch": 6.297229219143577,
	"grad_norm": 2.551591396331787,
	"learning_rate": 1.851390003782951e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 698875392,
	"step": 682500
	},
	{
	"epoch": 6.301842573882876,
	"grad_norm": 1.171808123588562,
	"learning_rate": 1.849083326413301e-05,
	"loss": 0.0211,
	"num_input_tokens_seen": 699387392,
	"step": 683000
	},
	{
	"epoch": 6.306455928622175,
	"grad_norm": 1.9758840799331665,
	"learning_rate": 1.8467766490436518e-05,
	"loss": 0.0212,
	"num_input_tokens_seen": 699899392,
	"step": 683500
	},
	{
	"epoch": 6.3110692833614745,
	"grad_norm": 0.7469502091407776,
	"learning_rate": 1.844469971674002e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 700411392,
	"step": 684000
	},
	{
	"epoch": 6.315682638100774,
	"grad_norm": 0.9809781908988953,
	"learning_rate": 1.8421632943043523e-05,
	"loss": 0.0229,
	"num_input_tokens_seen": 700923392,
	"step": 684500
	},
	{
	"epoch": 6.320295992840073,
	"grad_norm": 0.9586873650550842,
	"learning_rate": 1.8398566169347027e-05,
	"loss": 0.021,
	"num_input_tokens_seen": 701435392,
	"step": 685000
	},
	{
	"epoch": 6.324909347579373,
	"grad_norm": 8.868587493896484,
	"learning_rate": 1.837549939565053e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 701947392,
	"step": 685500
	},
	{
	"epoch": 6.329522702318672,
	"grad_norm": 1.1265676021575928,
	"learning_rate": 1.835243262195403e-05,
	"loss": 0.0212,
	"num_input_tokens_seen": 702459392,
	"step": 686000
	},
	{
	"epoch": 6.334136057057972,
	"grad_norm": 1.0341181755065918,
	"learning_rate": 1.832936584825754e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 702971392,
	"step": 686500
	},
	{
	"epoch": 6.338749411797271,
	"grad_norm": 0.3800777196884155,
	"learning_rate": 1.830629907456104e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 703483392,
	"step": 687000
	},
	{
	"epoch": 6.34336276653657,
	"grad_norm": 0.7369467616081238,
	"learning_rate": 1.8283232300864543e-05,
	"loss": 0.0234,
	"num_input_tokens_seen": 703995392,
	"step": 687500
	},
	{
	"epoch": 6.347976121275869,
	"grad_norm": 1.0980653762817383,
	"learning_rate": 1.8260165527168047e-05,
	"loss": 0.02,
	"num_input_tokens_seen": 704507392,
	"step": 688000
	},
	{
	"epoch": 6.352589476015169,
	"grad_norm": 17.581872940063477,
	"learning_rate": 1.823709875347155e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 705019392,
	"step": 688500
	},
	{
	"epoch": 6.357202830754468,
	"grad_norm": 0.5301328301429749,
	"learning_rate": 1.8214031979775055e-05,
	"loss": 0.0226,
	"num_input_tokens_seen": 705531392,
	"step": 689000
	},
	{
	"epoch": 6.361816185493767,
	"grad_norm": 0.44786104559898376,
	"learning_rate": 1.8190965206078556e-05,
	"loss": 0.0216,
	"num_input_tokens_seen": 706043392,
	"step": 689500
	},
	{
	"epoch": 6.366429540233066,
	"grad_norm": 2.587684154510498,
	"learning_rate": 1.816789843238206e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 706555392,
	"step": 690000
	},
	{
	"epoch": 6.371042894972366,
	"grad_norm": 1.0485097169876099,
	"learning_rate": 1.8144831658685564e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 707067392,
	"step": 690500
	},
	{
	"epoch": 6.375656249711666,
	"grad_norm": 0.38697299361228943,
	"learning_rate": 1.8121764884989068e-05,
	"loss": 0.0224,
	"num_input_tokens_seen": 707579392,
	"step": 691000
	},
	{
	"epoch": 6.380269604450965,
	"grad_norm": 1.7703328132629395,
	"learning_rate": 1.8098698111292568e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 708091392,
	"step": 691500
	},
	{
	"epoch": 6.384882959190264,
	"grad_norm": 0.5361246466636658,
	"learning_rate": 1.8075631337596076e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 708603392,
	"step": 692000
	},
	{
	"epoch": 6.3894963139295635,
	"grad_norm": 0.7262565493583679,
	"learning_rate": 1.8052564563899576e-05,
	"loss": 0.0231,
	"num_input_tokens_seen": 709115392,
	"step": 692500
	},
	{
	"epoch": 6.394109668668863,
	"grad_norm": 0.5426166653633118,
	"learning_rate": 1.802949779020308e-05,
	"loss": 0.0229,
	"num_input_tokens_seen": 709627392,
	"step": 693000
	},
	{
	"epoch": 6.398723023408162,
	"grad_norm": 0.9370472431182861,
	"learning_rate": 1.8006431016506584e-05,
	"loss": 0.0231,
	"num_input_tokens_seen": 710139392,
	"step": 693500
	},
	{
	"epoch": 6.403336378147461,
	"grad_norm": 1.1743369102478027,
	"learning_rate": 1.7983364242810088e-05,
	"loss": 0.0221,
	"num_input_tokens_seen": 710651392,
	"step": 694000
	},
	{
	"epoch": 6.4079497328867605,
	"grad_norm": 1.1654258966445923,
	"learning_rate": 1.7960297469113592e-05,
	"loss": 0.0239,
	"num_input_tokens_seen": 711163392,
	"step": 694500
	},
	{
	"epoch": 6.41256308762606,
	"grad_norm": 0.9082449078559875,
	"learning_rate": 1.7937230695417096e-05,
	"loss": 0.0206,
	"num_input_tokens_seen": 711675392,
	"step": 695000
	},
	{
	"epoch": 6.417176442365359,
	"grad_norm": 0.7706845998764038,
	"learning_rate": 1.7914163921720597e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 712187392,
	"step": 695500
	},
	{
	"epoch": 6.421789797104658,
	"grad_norm": 0.8697851896286011,
	"learning_rate": 1.78910971480241e-05,
	"loss": 0.0196,
	"num_input_tokens_seen": 712699392,
	"step": 696000
	},
	{
	"epoch": 6.4264031518439575,
	"grad_norm": 0.8328973054885864,
	"learning_rate": 1.7868030374327605e-05,
	"loss": 0.0191,
	"num_input_tokens_seen": 713211392,
	"step": 696500
	},
	{
	"epoch": 6.431016506583257,
	"grad_norm": 7.328830242156982,
	"learning_rate": 1.7844963600631105e-05,
	"loss": 0.0219,
	"num_input_tokens_seen": 713723392,
	"step": 697000
	},
	{
	"epoch": 6.435629861322557,
	"grad_norm": 0.9811331629753113,
	"learning_rate": 1.7821896826934612e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 714235392,
	"step": 697500
	},
	{
	"epoch": 6.440243216061856,
	"grad_norm": 2.4249658584594727,
	"learning_rate": 1.7798830053238113e-05,
	"loss": 0.0199,
	"num_input_tokens_seen": 714747392,
	"step": 698000
	},
	{
	"epoch": 6.444856570801155,
	"grad_norm": 1.6844923496246338,
	"learning_rate": 1.7775763279541617e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 715259392,
	"step": 698500
	},
	{
	"epoch": 6.449469925540455,
	"grad_norm": 2.2441189289093018,
	"learning_rate": 1.775269650584512e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 715771392,
	"step": 699000
	},
	{
	"epoch": 6.454083280279754,
	"grad_norm": 0.4577130973339081,
	"learning_rate": 1.7729629732148625e-05,
	"loss": 0.022,
	"num_input_tokens_seen": 716283392,
	"step": 699500
	},
	{
	"epoch": 6.458696635019053,
	"grad_norm": 1.2576284408569336,
	"learning_rate": 1.770656295845213e-05,
	"loss": 0.021,
	"num_input_tokens_seen": 716795392,
	"step": 700000
	},
	{
	"epoch": 6.463309989758352,
	"grad_norm": 1.3181337118148804,
	"learning_rate": 1.7683496184755633e-05,
	"loss": 0.0228,
	"num_input_tokens_seen": 717307392,
	"step": 700500
	},
	{
	"epoch": 6.467923344497652,
	"grad_norm": 0.6435089707374573,
	"learning_rate": 1.7660429411059133e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 717819392,
	"step": 701000
	},
	{
	"epoch": 6.472536699236951,
	"grad_norm": 1.2723332643508911,
	"learning_rate": 1.763736263736264e-05,
	"loss": 0.0197,
	"num_input_tokens_seen": 718331392,
	"step": 701500
	},
	{
	"epoch": 6.47715005397625,
	"grad_norm": 5.60179328918457,
	"learning_rate": 1.761429586366614e-05,
	"loss": 0.0246,
	"num_input_tokens_seen": 718843392,
	"step": 702000
	},
	{
	"epoch": 6.481763408715549,
	"grad_norm": 1.1845461130142212,
	"learning_rate": 1.7591229089969642e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 719355392,
	"step": 702500
	},
	{
	"epoch": 6.4863767634548495,
	"grad_norm": 0.9325453042984009,
	"learning_rate": 1.756816231627315e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 719867392,
	"step": 703000
	},
	{
	"epoch": 6.490990118194149,
	"grad_norm": 1.919224500656128,
	"learning_rate": 1.754509554257665e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 720379392,
	"step": 703500
	},
	{
	"epoch": 6.495603472933448,
	"grad_norm": 0.8646382093429565,
	"learning_rate": 1.7522028768880154e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 720891392,
	"step": 704000
	},
	{
	"epoch": 6.500216827672747,
	"grad_norm": 0.6728546619415283,
	"learning_rate": 1.7498961995183658e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 721403392,
	"step": 704500
	},
	{
	"epoch": 6.5048301824120465,
	"grad_norm": 1.701745629310608,
	"learning_rate": 1.7475895221487162e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 721915392,
	"step": 705000
	},
	{
	"epoch": 6.509443537151346,
	"grad_norm": 1.382514476776123,
	"learning_rate": 1.7452828447790666e-05,
	"loss": 0.0229,
	"num_input_tokens_seen": 722427392,
	"step": 705500
	},
	{
	"epoch": 6.514056891890645,
	"grad_norm": 1.366165041923523,
	"learning_rate": 1.742976167409417e-05,
	"loss": 0.0244,
	"num_input_tokens_seen": 722939392,
	"step": 706000
	},
	{
	"epoch": 6.518670246629944,
	"grad_norm": 0.727484405040741,
	"learning_rate": 1.740669490039767e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 723451392,
	"step": 706500
	},
	{
	"epoch": 6.5232836013692435,
	"grad_norm": 0.9992395043373108,
	"learning_rate": 1.7383628126701178e-05,
	"loss": 0.0203,
	"num_input_tokens_seen": 723963392,
	"step": 707000
	},
	{
	"epoch": 6.527896956108543,
	"grad_norm": 1.4681673049926758,
	"learning_rate": 1.736056135300468e-05,
	"loss": 0.0236,
	"num_input_tokens_seen": 724475392,
	"step": 707500
	},
	{
	"epoch": 6.532510310847842,
	"grad_norm": 0.6639313101768494,
	"learning_rate": 1.7337494579308182e-05,
	"loss": 0.0196,
	"num_input_tokens_seen": 724987392,
	"step": 708000
	},
	{
	"epoch": 6.537123665587142,
	"grad_norm": 1.4685230255126953,
	"learning_rate": 1.7314427805611686e-05,
	"loss": 0.0231,
	"num_input_tokens_seen": 725499392,
	"step": 708500
	},
	{
	"epoch": 6.541737020326441,
	"grad_norm": 0.711995542049408,
	"learning_rate": 1.729136103191519e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 726011392,
	"step": 709000
	},
	{
	"epoch": 6.546350375065741,
	"grad_norm": 0.849071204662323,
	"learning_rate": 1.726829425821869e-05,
	"loss": 0.0219,
	"num_input_tokens_seen": 726523392,
	"step": 709500
	},
	{
	"epoch": 6.55096372980504,
	"grad_norm": 0.7562097311019897,
	"learning_rate": 1.7245227484522195e-05,
	"loss": 0.0203,
	"num_input_tokens_seen": 727035392,
	"step": 710000
	},
	{
	"epoch": 6.555577084544339,
	"grad_norm": 1.556663155555725,
	"learning_rate": 1.72221607108257e-05,
	"loss": 0.0224,
	"num_input_tokens_seen": 727547392,
	"step": 710500
	},
	{
	"epoch": 6.560190439283638,
	"grad_norm": 3.2554850578308105,
	"learning_rate": 1.7199093937129203e-05,
	"loss": 0.022,
	"num_input_tokens_seen": 728059392,
	"step": 711000
	},
	{
	"epoch": 6.564803794022938,
	"grad_norm": 1.4903610944747925,
	"learning_rate": 1.7176027163432707e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 728571392,
	"step": 711500
	},
	{
	"epoch": 6.569417148762237,
	"grad_norm": 1.828810691833496,
	"learning_rate": 1.7152960389736207e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 729083392,
	"step": 712000
	},
	{
	"epoch": 6.574030503501536,
	"grad_norm": 0.5452165603637695,
	"learning_rate": 1.7129893616039715e-05,
	"loss": 0.0216,
	"num_input_tokens_seen": 729595392,
	"step": 712500
	},
	{
	"epoch": 6.578643858240835,
	"grad_norm": 1.4269682168960571,
	"learning_rate": 1.7106826842343215e-05,
	"loss": 0.0222,
	"num_input_tokens_seen": 730107392,
	"step": 713000
	},
	{
	"epoch": 6.5832572129801346,
	"grad_norm": 0.5227313041687012,
	"learning_rate": 1.708376006864672e-05,
	"loss": 0.0201,
	"num_input_tokens_seen": 730619392,
	"step": 713500
	},
	{
	"epoch": 6.587870567719435,
	"grad_norm": 0.8635200262069702,
	"learning_rate": 1.7060693294950223e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 731131392,
	"step": 714000
	},
	{
	"epoch": 6.592483922458733,
	"grad_norm": 1.070576548576355,
	"learning_rate": 1.7037626521253727e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 731643392,
	"step": 714500
	},
	{
	"epoch": 6.597097277198033,
	"grad_norm": 21.42013931274414,
	"learning_rate": 1.7014559747557228e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 732155392,
	"step": 715000
	},
	{
	"epoch": 6.601710631937332,
	"grad_norm": 1.3582208156585693,
	"learning_rate": 1.6991492973860735e-05,
	"loss": 0.0222,
	"num_input_tokens_seen": 732667392,
	"step": 715500
	},
	{
	"epoch": 6.606323986676632,
	"grad_norm": 1.3939865827560425,
	"learning_rate": 1.6968426200164236e-05,
	"loss": 0.0212,
	"num_input_tokens_seen": 733179392,
	"step": 716000
	},
	{
	"epoch": 6.610937341415931,
	"grad_norm": 1.0751606225967407,
	"learning_rate": 1.694535942646774e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 733691392,
	"step": 716500
	},
	{
	"epoch": 6.61555069615523,
	"grad_norm": 1.630864143371582,
	"learning_rate": 1.6922292652771244e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 734203392,
	"step": 717000
	},
	{
	"epoch": 6.620164050894529,
	"grad_norm": 0.7903428077697754,
	"learning_rate": 1.6899225879074744e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 734715392,
	"step": 717500
	},
	{
	"epoch": 6.624777405633829,
	"grad_norm": 0.9173442125320435,
	"learning_rate": 1.687615910537825e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 735227392,
	"step": 718000
	},
	{
	"epoch": 6.629390760373128,
	"grad_norm": 0.4864923059940338,
	"learning_rate": 1.6853092331681752e-05,
	"loss": 0.0222,
	"num_input_tokens_seen": 735739392,
	"step": 718500
	},
	{
	"epoch": 6.634004115112427,
	"grad_norm": 2.9184951782226562,
	"learning_rate": 1.6830025557985256e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 736251392,
	"step": 719000
	},
	{
	"epoch": 6.638617469851726,
	"grad_norm": 0.9503863453865051,
	"learning_rate": 1.680695878428876e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 736763392,
	"step": 719500
	},
	{
	"epoch": 6.643230824591026,
	"grad_norm": 1.129035234451294,
	"learning_rate": 1.6783892010592264e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 737275392,
	"step": 720000
	},
	{
	"epoch": 6.647844179330326,
	"grad_norm": 0.7650052309036255,
	"learning_rate": 1.6760825236895768e-05,
	"loss": 0.0209,
	"num_input_tokens_seen": 737787392,
	"step": 720500
	},
	{
	"epoch": 6.652457534069625,
	"grad_norm": 1.070244312286377,
	"learning_rate": 1.6737758463199272e-05,
	"loss": 0.0201,
	"num_input_tokens_seen": 738299392,
	"step": 721000
	},
	{
	"epoch": 6.657070888808924,
	"grad_norm": 1.1811015605926514,
	"learning_rate": 1.6714691689502773e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 738811392,
	"step": 721500
	},
	{
	"epoch": 6.6616842435482235,
	"grad_norm": 1.0393638610839844,
	"learning_rate": 1.6691624915806277e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 739323392,
	"step": 722000
	},
	{
	"epoch": 6.666297598287523,
	"grad_norm": 1.2030943632125854,
	"learning_rate": 1.666855814210978e-05,
	"loss": 0.0234,
	"num_input_tokens_seen": 739835392,
	"step": 722500
	},
	{
	"epoch": 6.670910953026822,
	"grad_norm": 0.676896870136261,
	"learning_rate": 1.664549136841328e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 740347392,
	"step": 723000
	},
	{
	"epoch": 6.675524307766121,
	"grad_norm": 0.9208011031150818,
	"learning_rate": 1.662242459471679e-05,
	"loss": 0.0235,
	"num_input_tokens_seen": 740859392,
	"step": 723500
	},
	{
	"epoch": 6.6801376625054205,
	"grad_norm": 0.5715643763542175,
	"learning_rate": 1.659935782102029e-05,
	"loss": 0.0192,
	"num_input_tokens_seen": 741371392,
	"step": 724000
	},
	{
	"epoch": 6.68475101724472,
	"grad_norm": 3.038097381591797,
	"learning_rate": 1.6576291047323793e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 741883392,
	"step": 724500
	},
	{
	"epoch": 6.689364371984019,
	"grad_norm": 0.7479985952377319,
	"learning_rate": 1.6553224273627297e-05,
	"loss": 0.022,
	"num_input_tokens_seen": 742395392,
	"step": 725000
	},
	{
	"epoch": 6.693977726723318,
	"grad_norm": 0.4049575626850128,
	"learning_rate": 1.65301574999308e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 742907392,
	"step": 725500
	},
	{
	"epoch": 6.698591081462618,
	"grad_norm": 1.12605881690979,
	"learning_rate": 1.6507090726234305e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 743419392,
	"step": 726000
	},
	{
	"epoch": 6.703204436201918,
	"grad_norm": 0.9142519235610962,
	"learning_rate": 1.648402395253781e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 743931392,
	"step": 726500
	},
	{
	"epoch": 6.707817790941217,
	"grad_norm": 2.4688339233398438,
	"learning_rate": 1.646095717884131e-05,
	"loss": 0.0231,
	"num_input_tokens_seen": 744443392,
	"step": 727000
	},
	{
	"epoch": 6.712431145680516,
	"grad_norm": 0.49617233872413635,
	"learning_rate": 1.6437890405144817e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 744955392,
	"step": 727500
	},
	{
	"epoch": 6.717044500419815,
	"grad_norm": 2.4510884284973145,
	"learning_rate": 1.6414823631448317e-05,
	"loss": 0.022,
	"num_input_tokens_seen": 745467392,
	"step": 728000
	},
	{
	"epoch": 6.721657855159115,
	"grad_norm": 0.6233497262001038,
	"learning_rate": 1.639175685775182e-05,
	"loss": 0.0209,
	"num_input_tokens_seen": 745979392,
	"step": 728500
	},
	{
	"epoch": 6.726271209898414,
	"grad_norm": 1.1352206468582153,
	"learning_rate": 1.6368690084055325e-05,
	"loss": 0.0194,
	"num_input_tokens_seen": 746491392,
	"step": 729000
	},
	{
	"epoch": 6.730884564637713,
	"grad_norm": 0.4292503297328949,
	"learning_rate": 1.6345623310358826e-05,
	"loss": 0.0213,
	"num_input_tokens_seen": 747003392,
	"step": 729500
	},
	{
	"epoch": 6.735497919377012,
	"grad_norm": 0.7327638864517212,
	"learning_rate": 1.632255653666233e-05,
	"loss": 0.0216,
	"num_input_tokens_seen": 747515392,
	"step": 730000
	},
	{
	"epoch": 6.740111274116312,
	"grad_norm": 1.2657952308654785,
	"learning_rate": 1.6299489762965834e-05,
	"loss": 0.021,
	"num_input_tokens_seen": 748027392,
	"step": 730500
	},
	{
	"epoch": 6.744724628855611,
	"grad_norm": 2.1072635650634766,
	"learning_rate": 1.6276422989269338e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 748539392,
	"step": 731000
	},
	{
	"epoch": 6.749337983594911,
	"grad_norm": 0.5420140027999878,
	"learning_rate": 1.6253356215572842e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 749051392,
	"step": 731500
	},
	{
	"epoch": 6.75395133833421,
	"grad_norm": 0.9647169709205627,
	"learning_rate": 1.6230289441876346e-05,
	"loss": 0.023,
	"num_input_tokens_seen": 749563392,
	"step": 732000
	},
	{
	"epoch": 6.7585646930735095,
	"grad_norm": 0.5795858502388,
	"learning_rate": 1.6207222668179846e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 750075392,
	"step": 732500
	},
	{
	"epoch": 6.763178047812809,
	"grad_norm": 0.776720404624939,
	"learning_rate": 1.6184155894483354e-05,
	"loss": 0.0239,
	"num_input_tokens_seen": 750587392,
	"step": 733000
	},
	{
	"epoch": 6.767791402552108,
	"grad_norm": 3.4119088649749756,
	"learning_rate": 1.6161089120786854e-05,
	"loss": 0.0234,
	"num_input_tokens_seen": 751099392,
	"step": 733500
	},
	{
	"epoch": 6.772404757291407,
	"grad_norm": 0.5689214468002319,
	"learning_rate": 1.6138022347090358e-05,
	"loss": 0.021,
	"num_input_tokens_seen": 751611392,
	"step": 734000
	},
	{
	"epoch": 6.7770181120307065,
	"grad_norm": 0.6440141201019287,
	"learning_rate": 1.6114955573393862e-05,
	"loss": 0.0228,
	"num_input_tokens_seen": 752123392,
	"step": 734500
	},
	{
	"epoch": 6.781631466770006,
	"grad_norm": 0.5016751289367676,
	"learning_rate": 1.6091888799697366e-05,
	"loss": 0.023,
	"num_input_tokens_seen": 752635392,
	"step": 735000
	},
	{
	"epoch": 6.786244821509305,
	"grad_norm": 0.6144362092018127,
	"learning_rate": 1.6068822026000867e-05,
	"loss": 0.0227,
	"num_input_tokens_seen": 753147392,
	"step": 735500
	},
	{
	"epoch": 6.790858176248604,
	"grad_norm": 0.356981486082077,
	"learning_rate": 1.604575525230437e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 753659392,
	"step": 736000
	},
	{
	"epoch": 6.7954715309879035,
	"grad_norm": 0.6662021279335022,
	"learning_rate": 1.6022688478607875e-05,
	"loss": 0.0222,
	"num_input_tokens_seen": 754171392,
	"step": 736500
	},
	{
	"epoch": 6.800084885727204,
	"grad_norm": 1.0647578239440918,
	"learning_rate": 1.599962170491138e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 754683392,
	"step": 737000
	},
	{
	"epoch": 6.804698240466502,
	"grad_norm": 0.8494476675987244,
	"learning_rate": 1.5976554931214883e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 755195392,
	"step": 737500
	},
	{
	"epoch": 6.809311595205802,
	"grad_norm": 1.5736192464828491,
	"learning_rate": 1.5953488157518383e-05,
	"loss": 0.0245,
	"num_input_tokens_seen": 755707392,
	"step": 738000
	},
	{
	"epoch": 6.813924949945101,
	"grad_norm": 1.5811710357666016,
	"learning_rate": 1.593042138382189e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 756219392,
	"step": 738500
	},
	{
	"epoch": 6.818538304684401,
	"grad_norm": 0.7430917024612427,
	"learning_rate": 1.590735461012539e-05,
	"loss": 0.0238,
	"num_input_tokens_seen": 756731392,
	"step": 739000
	},
	{
	"epoch": 6.8231516594237,
	"grad_norm": 0.346450537443161,
	"learning_rate": 1.5884287836428895e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 757243392,
	"step": 739500
	},
	{
	"epoch": 6.827765014162999,
	"grad_norm": 5.301863670349121,
	"learning_rate": 1.58612210627324e-05,
	"loss": 0.0228,
	"num_input_tokens_seen": 757755392,
	"step": 740000
	},
	{
	"epoch": 6.832378368902298,
	"grad_norm": 0.9501894116401672,
	"learning_rate": 1.5838154289035903e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 758267392,
	"step": 740500
	},
	{
	"epoch": 6.836991723641598,
	"grad_norm": 0.4030236601829529,
	"learning_rate": 1.5815087515339404e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 758779392,
	"step": 741000
	},
	{
	"epoch": 6.841605078380897,
	"grad_norm": 3.976102352142334,
	"learning_rate": 1.579202074164291e-05,
	"loss": 0.0229,
	"num_input_tokens_seen": 759291392,
	"step": 741500
	},
	{
	"epoch": 6.846218433120196,
	"grad_norm": 1.0763275623321533,
	"learning_rate": 1.576895396794641e-05,
	"loss": 0.0247,
	"num_input_tokens_seen": 759803392,
	"step": 742000
	},
	{
	"epoch": 6.850831787859495,
	"grad_norm": 1.278295636177063,
	"learning_rate": 1.5745887194249916e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 760315392,
	"step": 742500
	},
	{
	"epoch": 6.855445142598795,
	"grad_norm": 1.3523164987564087,
	"learning_rate": 1.572282042055342e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 760827392,
	"step": 743000
	},
	{
	"epoch": 6.860058497338095,
	"grad_norm": 2.487576484680176,
	"learning_rate": 1.569975364685692e-05,
	"loss": 0.0197,
	"num_input_tokens_seen": 761339392,
	"step": 743500
	},
	{
	"epoch": 6.864671852077394,
	"grad_norm": 0.43189629912376404,
	"learning_rate": 1.5676686873160428e-05,
	"loss": 0.0209,
	"num_input_tokens_seen": 761851392,
	"step": 744000
	},
	{
	"epoch": 6.869285206816693,
	"grad_norm": 1.3960847854614258,
	"learning_rate": 1.5653620099463928e-05,
	"loss": 0.0211,
	"num_input_tokens_seen": 762363392,
	"step": 744500
	},
	{
	"epoch": 6.873898561555992,
	"grad_norm": 0.642167866230011,
	"learning_rate": 1.5630553325767432e-05,
	"loss": 0.0228,
	"num_input_tokens_seen": 762875392,
	"step": 745000
	},
	{
	"epoch": 6.878511916295292,
	"grad_norm": 0.7163909673690796,
	"learning_rate": 1.5607486552070936e-05,
	"loss": 0.0225,
	"num_input_tokens_seen": 763387392,
	"step": 745500
	},
	{
	"epoch": 6.883125271034591,
	"grad_norm": 0.8028944134712219,
	"learning_rate": 1.558441977837444e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 763899392,
	"step": 746000
	},
	{
	"epoch": 6.88773862577389,
	"grad_norm": 0.8963446617126465,
	"learning_rate": 1.556135300467794e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 764411392,
	"step": 746500
	},
	{
	"epoch": 6.892351980513189,
	"grad_norm": 1.2736632823944092,
	"learning_rate": 1.5538286230981448e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 764923392,
	"step": 747000
	},
	{
	"epoch": 6.896965335252489,
	"grad_norm": 1.9002121686935425,
	"learning_rate": 1.551521945728495e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 765435392,
	"step": 747500
	},
	{
	"epoch": 6.901578689991788,
	"grad_norm": 1.7518917322158813,
	"learning_rate": 1.5492152683588453e-05,
	"loss": 0.0212,
	"num_input_tokens_seen": 765947392,
	"step": 748000
	},
	{
	"epoch": 6.906192044731087,
	"grad_norm": 0.5055529475212097,
	"learning_rate": 1.5469085909891956e-05,
	"loss": 0.0223,
	"num_input_tokens_seen": 766459392,
	"step": 748500
	},
	{
	"epoch": 6.910805399470387,
	"grad_norm": 1.280887246131897,
	"learning_rate": 1.5446019136195457e-05,
	"loss": 0.0215,
	"num_input_tokens_seen": 766971392,
	"step": 749000
	},
	{
	"epoch": 6.9154187542096865,
	"grad_norm": 1.3082467317581177,
	"learning_rate": 1.5422952362498964e-05,
	"loss": 0.0239,
	"num_input_tokens_seen": 767483392,
	"step": 749500
	},
	{
	"epoch": 6.920032108948986,
	"grad_norm": 0.4849281907081604,
	"learning_rate": 1.5399885588802465e-05,
	"loss": 0.0219,
	"num_input_tokens_seen": 767995392,
	"step": 750000
	},
	{
	"epoch": 6.924645463688285,
	"grad_norm": 1.54342520236969,
	"learning_rate": 1.537681881510597e-05,
	"loss": 0.0212,
	"num_input_tokens_seen": 768507392,
	"step": 750500
	},
	{
	"epoch": 6.929258818427584,
	"grad_norm": 1.441550850868225,
	"learning_rate": 1.5353752041409473e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 769019392,
	"step": 751000
	},
	{
	"epoch": 6.9338721731668835,
	"grad_norm": 1.3304697275161743,
	"learning_rate": 1.5330685267712977e-05,
	"loss": 0.0229,
	"num_input_tokens_seen": 769531392,
	"step": 751500
	},
	{
	"epoch": 6.938485527906183,
	"grad_norm": 1.3655359745025635,
	"learning_rate": 1.5307618494016477e-05,
	"loss": 0.0232,
	"num_input_tokens_seen": 770043392,
	"step": 752000
	},
	{
	"epoch": 6.943098882645482,
	"grad_norm": 1.3380628824234009,
	"learning_rate": 1.5284551720319985e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 770555392,
	"step": 752500
	},
	{
	"epoch": 6.947712237384781,
	"grad_norm": 0.7669854164123535,
	"learning_rate": 1.5261484946623485e-05,
	"loss": 0.0219,
	"num_input_tokens_seen": 771067392,
	"step": 753000
	},
	{
	"epoch": 6.9523255921240805,
	"grad_norm": 0.653236985206604,
	"learning_rate": 1.5238418172926991e-05,
	"loss": 0.0197,
	"num_input_tokens_seen": 771579392,
	"step": 753500
	},
	{
	"epoch": 6.95693894686338,
	"grad_norm": 0.7252629995346069,
	"learning_rate": 1.5215351399230493e-05,
	"loss": 0.0231,
	"num_input_tokens_seen": 772091392,
	"step": 754000
	},
	{
	"epoch": 6.96155230160268,
	"grad_norm": 0.7869466543197632,
	"learning_rate": 1.5192284625533997e-05,
	"loss": 0.0219,
	"num_input_tokens_seen": 772603392,
	"step": 754500
	},
	{
	"epoch": 6.966165656341978,
	"grad_norm": 1.048891544342041,
	"learning_rate": 1.51692178518375e-05,
	"loss": 0.0246,
	"num_input_tokens_seen": 773115392,
	"step": 755000
	},
	{
	"epoch": 6.970779011081278,
	"grad_norm": 0.7492154836654663,
	"learning_rate": 1.5146151078141002e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 773627392,
	"step": 755500
	},
	{
	"epoch": 6.975392365820578,
	"grad_norm": 1.5296510457992554,
	"learning_rate": 1.5123084304444508e-05,
	"loss": 0.023,
	"num_input_tokens_seen": 774139392,
	"step": 756000
	},
	{
	"epoch": 6.980005720559877,
	"grad_norm": 0.6391850113868713,
	"learning_rate": 1.510001753074801e-05,
	"loss": 0.0211,
	"num_input_tokens_seen": 774651392,
	"step": 756500
	},
	{
	"epoch": 6.984619075299176,
	"grad_norm": 1.2069010734558105,
	"learning_rate": 1.5076950757051514e-05,
	"loss": 0.0207,
	"num_input_tokens_seen": 775163392,
	"step": 757000
	},
	{
	"epoch": 6.989232430038475,
	"grad_norm": 2.368687629699707,
	"learning_rate": 1.5053883983355016e-05,
	"loss": 0.024,
	"num_input_tokens_seen": 775675392,
	"step": 757500
	},
	{
	"epoch": 6.993845784777775,
	"grad_norm": 1.284287452697754,
	"learning_rate": 1.5030817209658522e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 776187392,
	"step": 758000
	},
	{
	"epoch": 6.998459139517074,
	"grad_norm": 5.402317523956299,
	"learning_rate": 1.5007750435962022e-05,
	"loss": 0.025,
	"num_input_tokens_seen": 776699392,
	"step": 758500
	},
	{
	"epoch": 7.0,
	"eval_combined_score": 0.06412914552577642,
	"eval_loss": 0.06412914395332336,
	"eval_mse": 0.06412914709822949,
	"eval_runtime": 47.0336,
	"eval_samples_per_second": 2048.28,
	"eval_steps_per_second": 256.051,
	"num_input_tokens_seen": 776869632,
	"step": 758667
	},
	{
	"epoch": 7.003072494256373,
	"grad_norm": 1.346767783164978,
	"learning_rate": 1.4984683662265528e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 777210624,
	"step": 759000
	},
	{
	"epoch": 7.007685848995672,
	"grad_norm": 0.9796298146247864,
	"learning_rate": 1.496161688856903e-05,
	"loss": 0.0184,
	"num_input_tokens_seen": 777722624,
	"step": 759500
	},
	{
	"epoch": 7.012299203734972,
	"grad_norm": 1.2551716566085815,
	"learning_rate": 1.4938550114872534e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 778234624,
	"step": 760000
	},
	{
	"epoch": 7.016912558474272,
	"grad_norm": 0.8987337946891785,
	"learning_rate": 1.4915483341176037e-05,
	"loss": 0.0177,
	"num_input_tokens_seen": 778746624,
	"step": 760500
	},
	{
	"epoch": 7.021525913213571,
	"grad_norm": 0.38303157687187195,
	"learning_rate": 1.4892416567479542e-05,
	"loss": 0.0179,
	"num_input_tokens_seen": 779258624,
	"step": 761000
	},
	{
	"epoch": 7.02613926795287,
	"grad_norm": 1.3380213975906372,
	"learning_rate": 1.4869349793783044e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 779770624,
	"step": 761500
	},
	{
	"epoch": 7.0307526226921695,
	"grad_norm": 2.466179609298706,
	"learning_rate": 1.4846283020086547e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 780282624,
	"step": 762000
	},
	{
	"epoch": 7.035365977431469,
	"grad_norm": 0.4640190303325653,
	"learning_rate": 1.482321624639005e-05,
	"loss": 0.0168,
	"num_input_tokens_seen": 780794624,
	"step": 762500
	},
	{
	"epoch": 7.039979332170768,
	"grad_norm": 0.6390454173088074,
	"learning_rate": 1.4800149472693553e-05,
	"loss": 0.0165,
	"num_input_tokens_seen": 781306624,
	"step": 763000
	},
	{
	"epoch": 7.044592686910067,
	"grad_norm": 0.9119462966918945,
	"learning_rate": 1.4777082698997059e-05,
	"loss": 0.0162,
	"num_input_tokens_seen": 781818624,
	"step": 763500
	},
	{
	"epoch": 7.0492060416493665,
	"grad_norm": 1.088921070098877,
	"learning_rate": 1.475401592530056e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 782330624,
	"step": 764000
	},
	{
	"epoch": 7.053819396388666,
	"grad_norm": 0.5869113802909851,
	"learning_rate": 1.4730949151604065e-05,
	"loss": 0.0191,
	"num_input_tokens_seen": 782842624,
	"step": 764500
	},
	{
	"epoch": 7.058432751127965,
	"grad_norm": 1.6925584077835083,
	"learning_rate": 1.4707882377907567e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 783354624,
	"step": 765000
	},
	{
	"epoch": 7.063046105867264,
	"grad_norm": 1.0733281373977661,
	"learning_rate": 1.4684815604211071e-05,
	"loss": 0.0171,
	"num_input_tokens_seen": 783866624,
	"step": 765500
	},
	{
	"epoch": 7.0676594606065635,
	"grad_norm": 0.3278258442878723,
	"learning_rate": 1.4661748830514573e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 784378624,
	"step": 766000
	},
	{
	"epoch": 7.072272815345864,
	"grad_norm": 2.2622592449188232,
	"learning_rate": 1.4638682056818079e-05,
	"loss": 0.0171,
	"num_input_tokens_seen": 784890624,
	"step": 766500
	},
	{
	"epoch": 7.076886170085163,
	"grad_norm": 0.846518337726593,
	"learning_rate": 1.4615615283121581e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 785402624,
	"step": 767000
	},
	{
	"epoch": 7.081499524824462,
	"grad_norm": 0.9698590636253357,
	"learning_rate": 1.4592548509425085e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 785914624,
	"step": 767500
	},
	{
	"epoch": 7.086112879563761,
	"grad_norm": 0.5238065123558044,
	"learning_rate": 1.4569481735728588e-05,
	"loss": 0.0165,
	"num_input_tokens_seen": 786426624,
	"step": 768000
	},
	{
	"epoch": 7.090726234303061,
	"grad_norm": 0.7391173839569092,
	"learning_rate": 1.454641496203209e-05,
	"loss": 0.0193,
	"num_input_tokens_seen": 786938624,
	"step": 768500
	},
	{
	"epoch": 7.09533958904236,
	"grad_norm": 0.8646796941757202,
	"learning_rate": 1.4523348188335596e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 787450624,
	"step": 769000
	},
	{
	"epoch": 7.099952943781659,
	"grad_norm": 0.5301780700683594,
	"learning_rate": 1.4500281414639096e-05,
	"loss": 0.017,
	"num_input_tokens_seen": 787962624,
	"step": 769500
	},
	{
	"epoch": 7.104566298520958,
	"grad_norm": 2.3351125717163086,
	"learning_rate": 1.4477214640942602e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 788474624,
	"step": 770000
	},
	{
	"epoch": 7.109179653260258,
	"grad_norm": 0.59925377368927,
	"learning_rate": 1.4454147867246104e-05,
	"loss": 0.0164,
	"num_input_tokens_seen": 788986624,
	"step": 770500
	},
	{
	"epoch": 7.113793007999557,
	"grad_norm": 0.5372639298439026,
	"learning_rate": 1.4431081093549608e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 789498624,
	"step": 771000
	},
	{
	"epoch": 7.118406362738856,
	"grad_norm": 1.028199553489685,
	"learning_rate": 1.440801431985311e-05,
	"loss": 0.0179,
	"num_input_tokens_seen": 790010624,
	"step": 771500
	},
	{
	"epoch": 7.123019717478156,
	"grad_norm": 0.32566505670547485,
	"learning_rate": 1.4384947546156616e-05,
	"loss": 0.0177,
	"num_input_tokens_seen": 790522624,
	"step": 772000
	},
	{
	"epoch": 7.1276330722174555,
	"grad_norm": 1.434348702430725,
	"learning_rate": 1.4361880772460118e-05,
	"loss": 0.0195,
	"num_input_tokens_seen": 791034624,
	"step": 772500
	},
	{
	"epoch": 7.132246426956755,
	"grad_norm": 1.0634896755218506,
	"learning_rate": 1.4338813998763622e-05,
	"loss": 0.0172,
	"num_input_tokens_seen": 791546624,
	"step": 773000
	},
	{
	"epoch": 7.136859781696054,
	"grad_norm": 1.0522830486297607,
	"learning_rate": 1.4315747225067125e-05,
	"loss": 0.017,
	"num_input_tokens_seen": 792058624,
	"step": 773500
	},
	{
	"epoch": 7.141473136435353,
	"grad_norm": 1.2891104221343994,
	"learning_rate": 1.429268045137063e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 792570624,
	"step": 774000
	},
	{
	"epoch": 7.1460864911746524,
	"grad_norm": 0.5944826006889343,
	"learning_rate": 1.4269613677674132e-05,
	"loss": 0.0168,
	"num_input_tokens_seen": 793082624,
	"step": 774500
	},
	{
	"epoch": 7.150699845913952,
	"grad_norm": 1.0896071195602417,
	"learning_rate": 1.4246546903977635e-05,
	"loss": 0.0195,
	"num_input_tokens_seen": 793594624,
	"step": 775000
	},
	{
	"epoch": 7.155313200653251,
	"grad_norm": 0.5116850137710571,
	"learning_rate": 1.4223480130281139e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 794106624,
	"step": 775500
	},
	{
	"epoch": 7.15992655539255,
	"grad_norm": 0.6353034377098083,
	"learning_rate": 1.4200413356584641e-05,
	"loss": 0.015,
	"num_input_tokens_seen": 794618624,
	"step": 776000
	},
	{
	"epoch": 7.164539910131849,
	"grad_norm": 2.1156020164489746,
	"learning_rate": 1.4177346582888145e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 795130624,
	"step": 776500
	},
	{
	"epoch": 7.169153264871149,
	"grad_norm": 0.4953656494617462,
	"learning_rate": 1.4154279809191647e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 795642624,
	"step": 777000
	},
	{
	"epoch": 7.173766619610448,
	"grad_norm": 0.39725926518440247,
	"learning_rate": 1.4131213035495153e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 796154624,
	"step": 777500
	},
	{
	"epoch": 7.178379974349748,
	"grad_norm": 0.7973536849021912,
	"learning_rate": 1.4108146261798655e-05,
	"loss": 0.0192,
	"num_input_tokens_seen": 796666624,
	"step": 778000
	},
	{
	"epoch": 7.182993329089047,
	"grad_norm": 0.27644041180610657,
	"learning_rate": 1.4085079488102159e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 797178624,
	"step": 778500
	},
	{
	"epoch": 7.1876066838283466,
	"grad_norm": 0.5681914687156677,
	"learning_rate": 1.4062012714405661e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 797690624,
	"step": 779000
	},
	{
	"epoch": 7.192220038567646,
	"grad_norm": 0.19514349102973938,
	"learning_rate": 1.4038945940709167e-05,
	"loss": 0.0176,
	"num_input_tokens_seen": 798202624,
	"step": 779500
	},
	{
	"epoch": 7.196833393306945,
	"grad_norm": 1.4721050262451172,
	"learning_rate": 1.401587916701267e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 798714624,
	"step": 780000
	},
	{
	"epoch": 7.201446748046244,
	"grad_norm": 0.7421937584877014,
	"learning_rate": 1.3992812393316173e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 799226624,
	"step": 780500
	},
	{
	"epoch": 7.2060601027855435,
	"grad_norm": 0.12846527993679047,
	"learning_rate": 1.3969745619619676e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 799738624,
	"step": 781000
	},
	{
	"epoch": 7.210673457524843,
	"grad_norm": 0.8358561992645264,
	"learning_rate": 1.3946678845923178e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 800250624,
	"step": 781500
	},
	{
	"epoch": 7.215286812264142,
	"grad_norm": 1.0720690488815308,
	"learning_rate": 1.3923612072226684e-05,
	"loss": 0.0161,
	"num_input_tokens_seen": 800762624,
	"step": 782000
	},
	{
	"epoch": 7.219900167003441,
	"grad_norm": 0.4553976356983185,
	"learning_rate": 1.3900545298530184e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 801274624,
	"step": 782500
	},
	{
	"epoch": 7.2245135217427405,
	"grad_norm": 1.1510006189346313,
	"learning_rate": 1.387747852483369e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 801786624,
	"step": 783000
	},
	{
	"epoch": 7.22912687648204,
	"grad_norm": 1.1483092308044434,
	"learning_rate": 1.3854411751137192e-05,
	"loss": 0.0171,
	"num_input_tokens_seen": 802298624,
	"step": 783500
	},
	{
	"epoch": 7.23374023122134,
	"grad_norm": 0.4925529658794403,
	"learning_rate": 1.3831344977440696e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 802810624,
	"step": 784000
	},
	{
	"epoch": 7.238353585960639,
	"grad_norm": 0.3787945508956909,
	"learning_rate": 1.3808278203744198e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 803322624,
	"step": 784500
	},
	{
	"epoch": 7.242966940699938,
	"grad_norm": 0.6160422563552856,
	"learning_rate": 1.3785211430047704e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 803834624,
	"step": 785000
	},
	{
	"epoch": 7.247580295439238,
	"grad_norm": 1.1294529438018799,
	"learning_rate": 1.3762144656351206e-05,
	"loss": 0.02,
	"num_input_tokens_seen": 804346624,
	"step": 785500
	},
	{
	"epoch": 7.252193650178537,
	"grad_norm": 0.6138213872909546,
	"learning_rate": 1.373907788265471e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 804858624,
	"step": 786000
	},
	{
	"epoch": 7.256807004917836,
	"grad_norm": 0.5684888362884521,
	"learning_rate": 1.3716011108958212e-05,
	"loss": 0.0166,
	"num_input_tokens_seen": 805370624,
	"step": 786500
	},
	{
	"epoch": 7.261420359657135,
	"grad_norm": 0.7051540613174438,
	"learning_rate": 1.3692944335261718e-05,
	"loss": 0.0161,
	"num_input_tokens_seen": 805882624,
	"step": 787000
	},
	{
	"epoch": 7.266033714396435,
	"grad_norm": 0.7892741560935974,
	"learning_rate": 1.366987756156522e-05,
	"loss": 0.0193,
	"num_input_tokens_seen": 806394624,
	"step": 787500
	},
	{
	"epoch": 7.270647069135734,
	"grad_norm": 1.084768533706665,
	"learning_rate": 1.3646810787868721e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 806906624,
	"step": 788000
	},
	{
	"epoch": 7.275260423875033,
	"grad_norm": 1.111611008644104,
	"learning_rate": 1.3623744014172227e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 807418624,
	"step": 788500
	},
	{
	"epoch": 7.279873778614332,
	"grad_norm": 1.2572911977767944,
	"learning_rate": 1.3600677240475729e-05,
	"loss": 0.0216,
	"num_input_tokens_seen": 807930624,
	"step": 789000
	},
	{
	"epoch": 7.2844871333536325,
	"grad_norm": 1.4147090911865234,
	"learning_rate": 1.3577610466779233e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 808442624,
	"step": 789500
	},
	{
	"epoch": 7.289100488092932,
	"grad_norm": 1.129238247871399,
	"learning_rate": 1.3554543693082735e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 808954624,
	"step": 790000
	},
	{
	"epoch": 7.293713842832231,
	"grad_norm": 0.7517364621162415,
	"learning_rate": 1.3531476919386241e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 809466624,
	"step": 790500
	},
	{
	"epoch": 7.29832719757153,
	"grad_norm": 2.005709171295166,
	"learning_rate": 1.3508410145689743e-05,
	"loss": 0.019,
	"num_input_tokens_seen": 809978624,
	"step": 791000
	},
	{
	"epoch": 7.3029405523108295,
	"grad_norm": 0.5718657374382019,
	"learning_rate": 1.3485343371993247e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 810490624,
	"step": 791500
	},
	{
	"epoch": 7.307553907050129,
	"grad_norm": 2.84344744682312,
	"learning_rate": 1.346227659829675e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 811002624,
	"step": 792000
	},
	{
	"epoch": 7.312167261789428,
	"grad_norm": 1.8831250667572021,
	"learning_rate": 1.3439209824600255e-05,
	"loss": 0.0198,
	"num_input_tokens_seen": 811514624,
	"step": 792500
	},
	{
	"epoch": 7.316780616528727,
	"grad_norm": 0.42998257279396057,
	"learning_rate": 1.3416143050903757e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 812026624,
	"step": 793000
	},
	{
	"epoch": 7.3213939712680265,
	"grad_norm": 0.4875911474227905,
	"learning_rate": 1.3393076277207261e-05,
	"loss": 0.0202,
	"num_input_tokens_seen": 812538624,
	"step": 793500
	},
	{
	"epoch": 7.326007326007326,
	"grad_norm": 0.6313169002532959,
	"learning_rate": 1.3370009503510764e-05,
	"loss": 0.0185,
	"num_input_tokens_seen": 813050624,
	"step": 794000
	},
	{
	"epoch": 7.330620680746625,
	"grad_norm": 0.5315720438957214,
	"learning_rate": 1.3346942729814266e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 813562624,
	"step": 794500
	},
	{
	"epoch": 7.335234035485925,
	"grad_norm": 0.636077344417572,
	"learning_rate": 1.332387595611777e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 814074624,
	"step": 795000
	},
	{
	"epoch": 7.339847390225224,
	"grad_norm": 1.2620755434036255,
	"learning_rate": 1.3300809182421272e-05,
	"loss": 0.0185,
	"num_input_tokens_seen": 814586624,
	"step": 795500
	},
	{
	"epoch": 7.344460744964524,
	"grad_norm": 0.40610164403915405,
	"learning_rate": 1.3277742408724778e-05,
	"loss": 0.0179,
	"num_input_tokens_seen": 815098624,
	"step": 796000
	},
	{
	"epoch": 7.349074099703823,
	"grad_norm": 0.5910019278526306,
	"learning_rate": 1.325467563502828e-05,
	"loss": 0.0191,
	"num_input_tokens_seen": 815610624,
	"step": 796500
	},
	{
	"epoch": 7.353687454443122,
	"grad_norm": 0.9699934720993042,
	"learning_rate": 1.3231608861331784e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 816122624,
	"step": 797000
	},
	{
	"epoch": 7.358300809182421,
	"grad_norm": 0.5334429740905762,
	"learning_rate": 1.3208542087635286e-05,
	"loss": 0.0185,
	"num_input_tokens_seen": 816634624,
	"step": 797500
	},
	{
	"epoch": 7.362914163921721,
	"grad_norm": 0.47226250171661377,
	"learning_rate": 1.3185475313938792e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 817146624,
	"step": 798000
	},
	{
	"epoch": 7.36752751866102,
	"grad_norm": 3.1056435108184814,
	"learning_rate": 1.3162408540242294e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 817658624,
	"step": 798500
	},
	{
	"epoch": 7.372140873400319,
	"grad_norm": 0.8559852838516235,
	"learning_rate": 1.3139341766545798e-05,
	"loss": 0.0186,
	"num_input_tokens_seen": 818170624,
	"step": 799000
	},
	{
	"epoch": 7.376754228139618,
	"grad_norm": 0.5092094540596008,
	"learning_rate": 1.31162749928493e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 818682624,
	"step": 799500
	},
	{
	"epoch": 7.381367582878918,
	"grad_norm": 0.7403343915939331,
	"learning_rate": 1.3093208219152806e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 819194624,
	"step": 800000
	},
	{
	"epoch": 7.385980937618217,
	"grad_norm": 1.0396490097045898,
	"learning_rate": 1.3070141445456308e-05,
	"loss": 0.0176,
	"num_input_tokens_seen": 819706624,
	"step": 800500
	},
	{
	"epoch": 7.390594292357516,
	"grad_norm": 1.229277491569519,
	"learning_rate": 1.3047074671759809e-05,
	"loss": 0.0166,
	"num_input_tokens_seen": 820218624,
	"step": 801000
	},
	{
	"epoch": 7.395207647096816,
	"grad_norm": 1.870112419128418,
	"learning_rate": 1.3024007898063315e-05,
	"loss": 0.0184,
	"num_input_tokens_seen": 820730624,
	"step": 801500
	},
	{
	"epoch": 7.3998210018361155,
	"grad_norm": 2.495352029800415,
	"learning_rate": 1.3000941124366817e-05,
	"loss": 0.0176,
	"num_input_tokens_seen": 821242624,
	"step": 802000
	},
	{
	"epoch": 7.404434356575415,
	"grad_norm": 1.2543821334838867,
	"learning_rate": 1.2977874350670321e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 821754624,
	"step": 802500
	},
	{
	"epoch": 7.409047711314714,
	"grad_norm": 0.9267345666885376,
	"learning_rate": 1.2954807576973823e-05,
	"loss": 0.0167,
	"num_input_tokens_seen": 822266624,
	"step": 803000
	},
	{
	"epoch": 7.413661066054013,
	"grad_norm": 0.7813261151313782,
	"learning_rate": 1.2931740803277329e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 822778624,
	"step": 803500
	},
	{
	"epoch": 7.4182744207933125,
	"grad_norm": 2.1433377265930176,
	"learning_rate": 1.2908674029580831e-05,
	"loss": 0.0185,
	"num_input_tokens_seen": 823290624,
	"step": 804000
	},
	{
	"epoch": 7.422887775532612,
	"grad_norm": 0.4169975519180298,
	"learning_rate": 1.2885607255884335e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 823802624,
	"step": 804500
	},
	{
	"epoch": 7.427501130271911,
	"grad_norm": 0.7654904723167419,
	"learning_rate": 1.2862540482187837e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 824314624,
	"step": 805000
	},
	{
	"epoch": 7.43211448501121,
	"grad_norm": 0.7712762355804443,
	"learning_rate": 1.2839473708491343e-05,
	"loss": 0.0169,
	"num_input_tokens_seen": 824826624,
	"step": 805500
	},
	{
	"epoch": 7.436727839750509,
	"grad_norm": 1.179842233657837,
	"learning_rate": 1.2816406934794845e-05,
	"loss": 0.0169,
	"num_input_tokens_seen": 825338624,
	"step": 806000
	},
	{
	"epoch": 7.441341194489809,
	"grad_norm": 1.1706069707870483,
	"learning_rate": 1.279334016109835e-05,
	"loss": 0.0191,
	"num_input_tokens_seen": 825850624,
	"step": 806500
	},
	{
	"epoch": 7.445954549229109,
	"grad_norm": 1.7458144426345825,
	"learning_rate": 1.2770273387401852e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 826362624,
	"step": 807000
	},
	{
	"epoch": 7.450567903968408,
	"grad_norm": 0.8518096804618835,
	"learning_rate": 1.2747206613705354e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 826874624,
	"step": 807500
	},
	{
	"epoch": 7.455181258707707,
	"grad_norm": 0.6776919960975647,
	"learning_rate": 1.2724139840008858e-05,
	"loss": 0.0167,
	"num_input_tokens_seen": 827386624,
	"step": 808000
	},
	{
	"epoch": 7.459794613447007,
	"grad_norm": 1.8147574663162231,
	"learning_rate": 1.270107306631236e-05,
	"loss": 0.0172,
	"num_input_tokens_seen": 827898624,
	"step": 808500
	},
	{
	"epoch": 7.464407968186306,
	"grad_norm": 0.730553150177002,
	"learning_rate": 1.2678006292615866e-05,
	"loss": 0.0163,
	"num_input_tokens_seen": 828410624,
	"step": 809000
	},
	{
	"epoch": 7.469021322925605,
	"grad_norm": 0.5966499447822571,
	"learning_rate": 1.2654939518919368e-05,
	"loss": 0.0185,
	"num_input_tokens_seen": 828922624,
	"step": 809500
	},
	{
	"epoch": 7.473634677664904,
	"grad_norm": 0.5111476182937622,
	"learning_rate": 1.2631872745222872e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 829434624,
	"step": 810000
	},
	{
	"epoch": 7.4782480324042035,
	"grad_norm": 1.1634365320205688,
	"learning_rate": 1.2608805971526374e-05,
	"loss": 0.0162,
	"num_input_tokens_seen": 829946624,
	"step": 810500
	},
	{
	"epoch": 7.482861387143503,
	"grad_norm": 1.030910611152649,
	"learning_rate": 1.258573919782988e-05,
	"loss": 0.0184,
	"num_input_tokens_seen": 830458624,
	"step": 811000
	},
	{
	"epoch": 7.487474741882802,
	"grad_norm": 1.035938024520874,
	"learning_rate": 1.2562672424133382e-05,
	"loss": 0.0177,
	"num_input_tokens_seen": 830970624,
	"step": 811500
	},
	{
	"epoch": 7.492088096622101,
	"grad_norm": 1.1685384511947632,
	"learning_rate": 1.2539605650436886e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 831482624,
	"step": 812000
	},
	{
	"epoch": 7.496701451361401,
	"grad_norm": 0.8186880946159363,
	"learning_rate": 1.2516538876740388e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 831994624,
	"step": 812500
	},
	{
	"epoch": 7.501314806100701,
	"grad_norm": 1.2309128046035767,
	"learning_rate": 1.2493472103043892e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 832506624,
	"step": 813000
	},
	{
	"epoch": 7.50592816084,
	"grad_norm": 0.9243940114974976,
	"learning_rate": 1.2470405329347395e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 833018624,
	"step": 813500
	},
	{
	"epoch": 7.510541515579299,
	"grad_norm": 1.5183156728744507,
	"learning_rate": 1.2447338555650899e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 833530624,
	"step": 814000
	},
	{
	"epoch": 7.515154870318598,
	"grad_norm": 0.7042239904403687,
	"learning_rate": 1.2424271781954403e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 834042624,
	"step": 814500
	},
	{
	"epoch": 7.519768225057898,
	"grad_norm": 0.7798308730125427,
	"learning_rate": 1.2401205008257907e-05,
	"loss": 0.0203,
	"num_input_tokens_seen": 834554624,
	"step": 815000
	},
	{
	"epoch": 7.524381579797197,
	"grad_norm": 0.6466756463050842,
	"learning_rate": 1.2378138234561409e-05,
	"loss": 0.019,
	"num_input_tokens_seen": 835066624,
	"step": 815500
	},
	{
	"epoch": 7.528994934536496,
	"grad_norm": 1.0861841440200806,
	"learning_rate": 1.2355071460864913e-05,
	"loss": 0.0177,
	"num_input_tokens_seen": 835578624,
	"step": 816000
	},
	{
	"epoch": 7.533608289275795,
	"grad_norm": 2.7624402046203613,
	"learning_rate": 1.2332004687168417e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 836090624,
	"step": 816500
	},
	{
	"epoch": 7.538221644015095,
	"grad_norm": 1.2840367555618286,
	"learning_rate": 1.2308937913471919e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 836602624,
	"step": 817000
	},
	{
	"epoch": 7.542834998754394,
	"grad_norm": 0.6789388656616211,
	"learning_rate": 1.2285871139775421e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 837114624,
	"step": 817500
	},
	{
	"epoch": 7.547448353493694,
	"grad_norm": 0.5279095768928528,
	"learning_rate": 1.2262804366078925e-05,
	"loss": 0.0184,
	"num_input_tokens_seen": 837626624,
	"step": 818000
	},
	{
	"epoch": 7.552061708232992,
	"grad_norm": 0.5110554099082947,
	"learning_rate": 1.223973759238243e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 838138624,
	"step": 818500
	},
	{
	"epoch": 7.5566750629722925,
	"grad_norm": 1.535260796546936,
	"learning_rate": 1.2216670818685932e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 838650624,
	"step": 819000
	},
	{
	"epoch": 7.561288417711592,
	"grad_norm": 3.005444049835205,
	"learning_rate": 1.2193604044989436e-05,
	"loss": 0.0194,
	"num_input_tokens_seen": 839162624,
	"step": 819500
	},
	{
	"epoch": 7.565901772450891,
	"grad_norm": 0.3890930712223053,
	"learning_rate": 1.217053727129294e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 839674624,
	"step": 820000
	},
	{
	"epoch": 7.57051512719019,
	"grad_norm": 3.0413002967834473,
	"learning_rate": 1.2147470497596444e-05,
	"loss": 0.0179,
	"num_input_tokens_seen": 840186624,
	"step": 820500
	},
	{
	"epoch": 7.5751284819294895,
	"grad_norm": 0.33747154474258423,
	"learning_rate": 1.2124403723899946e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 840698624,
	"step": 821000
	},
	{
	"epoch": 7.579741836668789,
	"grad_norm": 0.7888673543930054,
	"learning_rate": 1.210133695020345e-05,
	"loss": 0.0158,
	"num_input_tokens_seen": 841210624,
	"step": 821500
	},
	{
	"epoch": 7.584355191408088,
	"grad_norm": 0.5673322081565857,
	"learning_rate": 1.2078270176506954e-05,
	"loss": 0.0175,
	"num_input_tokens_seen": 841722624,
	"step": 822000
	},
	{
	"epoch": 7.588968546147387,
	"grad_norm": 7.8960700035095215,
	"learning_rate": 1.2055203402810456e-05,
	"loss": 0.0171,
	"num_input_tokens_seen": 842234624,
	"step": 822500
	},
	{
	"epoch": 7.5935819008866865,
	"grad_norm": 0.6810684204101562,
	"learning_rate": 1.203213662911396e-05,
	"loss": 0.0169,
	"num_input_tokens_seen": 842746624,
	"step": 823000
	},
	{
	"epoch": 7.598195255625986,
	"grad_norm": 0.88917076587677,
	"learning_rate": 1.2009069855417462e-05,
	"loss": 0.0176,
	"num_input_tokens_seen": 843258624,
	"step": 823500
	},
	{
	"epoch": 7.602808610365285,
	"grad_norm": 0.7236852049827576,
	"learning_rate": 1.1986003081720966e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 843770624,
	"step": 824000
	},
	{
	"epoch": 7.607421965104585,
	"grad_norm": 2.4100208282470703,
	"learning_rate": 1.196293630802447e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 844282624,
	"step": 824500
	},
	{
	"epoch": 7.612035319843884,
	"grad_norm": 0.9818079471588135,
	"learning_rate": 1.1939869534327972e-05,
	"loss": 0.0184,
	"num_input_tokens_seen": 844794624,
	"step": 825000
	},
	{
	"epoch": 7.616648674583184,
	"grad_norm": 5.109523773193359,
	"learning_rate": 1.1916802760631476e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 845306624,
	"step": 825500
	},
	{
	"epoch": 7.621262029322483,
	"grad_norm": 1.1535288095474243,
	"learning_rate": 1.189373598693498e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 845818624,
	"step": 826000
	},
	{
	"epoch": 7.625875384061782,
	"grad_norm": 1.0759390592575073,
	"learning_rate": 1.1870669213238483e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 846330624,
	"step": 826500
	},
	{
	"epoch": 7.630488738801081,
	"grad_norm": 0.9492645263671875,
	"learning_rate": 1.1847602439541987e-05,
	"loss": 0.0162,
	"num_input_tokens_seen": 846842624,
	"step": 827000
	},
	{
	"epoch": 7.635102093540381,
	"grad_norm": 0.5077918767929077,
	"learning_rate": 1.182453566584549e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 847354624,
	"step": 827500
	},
	{
	"epoch": 7.63971544827968,
	"grad_norm": 0.5069125890731812,
	"learning_rate": 1.1801468892148995e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 847866624,
	"step": 828000
	},
	{
	"epoch": 7.644328803018979,
	"grad_norm": 0.35941779613494873,
	"learning_rate": 1.1778402118452497e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 848378624,
	"step": 828500
	},
	{
	"epoch": 7.648942157758278,
	"grad_norm": 0.7320166230201721,
	"learning_rate": 1.1755335344756001e-05,
	"loss": 0.0166,
	"num_input_tokens_seen": 848890624,
	"step": 829000
	},
	{
	"epoch": 7.653555512497578,
	"grad_norm": 0.4909152686595917,
	"learning_rate": 1.1732268571059505e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 849402624,
	"step": 829500
	},
	{
	"epoch": 7.658168867236878,
	"grad_norm": 0.5299736857414246,
	"learning_rate": 1.1709201797363007e-05,
	"loss": 0.017,
	"num_input_tokens_seen": 849914624,
	"step": 830000
	},
	{
	"epoch": 7.662782221976177,
	"grad_norm": 1.6265432834625244,
	"learning_rate": 1.168613502366651e-05,
	"loss": 0.0192,
	"num_input_tokens_seen": 850426624,
	"step": 830500
	},
	{
	"epoch": 7.667395576715476,
	"grad_norm": 1.0842050313949585,
	"learning_rate": 1.1663068249970013e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 850938624,
	"step": 831000
	},
	{
	"epoch": 7.6720089314547755,
	"grad_norm": 0.46629172563552856,
	"learning_rate": 1.1640001476273517e-05,
	"loss": 0.019,
	"num_input_tokens_seen": 851450624,
	"step": 831500
	},
	{
	"epoch": 7.676622286194075,
	"grad_norm": 0.786178469657898,
	"learning_rate": 1.161693470257702e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 851962624,
	"step": 832000
	},
	{
	"epoch": 7.681235640933374,
	"grad_norm": 0.9928342700004578,
	"learning_rate": 1.1593867928880524e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 852474624,
	"step": 832500
	},
	{
	"epoch": 7.685848995672673,
	"grad_norm": 0.19910675287246704,
	"learning_rate": 1.1570801155184028e-05,
	"loss": 0.0165,
	"num_input_tokens_seen": 852986624,
	"step": 833000
	},
	{
	"epoch": 7.6904623504119725,
	"grad_norm": 0.44422009587287903,
	"learning_rate": 1.1547734381487532e-05,
	"loss": 0.019,
	"num_input_tokens_seen": 853498624,
	"step": 833500
	},
	{
	"epoch": 7.695075705151272,
	"grad_norm": 1.4326293468475342,
	"learning_rate": 1.1524667607791034e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 854010624,
	"step": 834000
	},
	{
	"epoch": 7.699689059890571,
	"grad_norm": 2.208235263824463,
	"learning_rate": 1.1501600834094538e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 854522624,
	"step": 834500
	},
	{
	"epoch": 7.70430241462987,
	"grad_norm": 1.5056183338165283,
	"learning_rate": 1.1478534060398042e-05,
	"loss": 0.0164,
	"num_input_tokens_seen": 855034624,
	"step": 835000
	},
	{
	"epoch": 7.70891576936917,
	"grad_norm": 0.991448700428009,
	"learning_rate": 1.1455467286701544e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 855546624,
	"step": 835500
	},
	{
	"epoch": 7.71352912410847,
	"grad_norm": 0.48746320605278015,
	"learning_rate": 1.1432400513005048e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 856058624,
	"step": 836000
	},
	{
	"epoch": 7.718142478847769,
	"grad_norm": 0.7954283356666565,
	"learning_rate": 1.140933373930855e-05,
	"loss": 0.0186,
	"num_input_tokens_seen": 856570624,
	"step": 836500
	},
	{
	"epoch": 7.722755833587068,
	"grad_norm": 0.3314274251461029,
	"learning_rate": 1.1386266965612054e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 857082624,
	"step": 837000
	},
	{
	"epoch": 7.727369188326367,
	"grad_norm": 0.40846577286720276,
	"learning_rate": 1.1363200191915556e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 857594624,
	"step": 837500
	},
	{
	"epoch": 7.731982543065667,
	"grad_norm": 0.5026475787162781,
	"learning_rate": 1.134013341821906e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 858106624,
	"step": 838000
	},
	{
	"epoch": 7.736595897804966,
	"grad_norm": 0.7746123671531677,
	"learning_rate": 1.1317066644522564e-05,
	"loss": 0.0195,
	"num_input_tokens_seen": 858618624,
	"step": 838500
	},
	{
	"epoch": 7.741209252544265,
	"grad_norm": 0.835455060005188,
	"learning_rate": 1.1293999870826068e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 859130624,
	"step": 839000
	},
	{
	"epoch": 7.745822607283564,
	"grad_norm": 1.107001781463623,
	"learning_rate": 1.127093309712957e-05,
	"loss": 0.0201,
	"num_input_tokens_seen": 859642624,
	"step": 839500
	},
	{
	"epoch": 7.750435962022864,
	"grad_norm": 0.31434282660484314,
	"learning_rate": 1.1247866323433075e-05,
	"loss": 0.0195,
	"num_input_tokens_seen": 860154624,
	"step": 840000
	},
	{
	"epoch": 7.755049316762163,
	"grad_norm": 0.7980784773826599,
	"learning_rate": 1.1224799549736579e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 860666624,
	"step": 840500
	},
	{
	"epoch": 7.759662671501462,
	"grad_norm": 0.6341221332550049,
	"learning_rate": 1.1201732776040081e-05,
	"loss": 0.0156,
	"num_input_tokens_seen": 861178624,
	"step": 841000
	},
	{
	"epoch": 7.764276026240761,
	"grad_norm": 1.298004388809204,
	"learning_rate": 1.1178666002343585e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 861690624,
	"step": 841500
	},
	{
	"epoch": 7.768889380980061,
	"grad_norm": 0.6212522983551025,
	"learning_rate": 1.1155599228647089e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 862202624,
	"step": 842000
	},
	{
	"epoch": 7.773502735719361,
	"grad_norm": 1.0448174476623535,
	"learning_rate": 1.1132532454950593e-05,
	"loss": 0.0167,
	"num_input_tokens_seen": 862714624,
	"step": 842500
	},
	{
	"epoch": 7.77811609045866,
	"grad_norm": 0.4349260628223419,
	"learning_rate": 1.1109465681254095e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 863226624,
	"step": 843000
	},
	{
	"epoch": 7.782729445197959,
	"grad_norm": 0.5279752016067505,
	"learning_rate": 1.1086398907557597e-05,
	"loss": 0.0191,
	"num_input_tokens_seen": 863738624,
	"step": 843500
	},
	{
	"epoch": 7.787342799937258,
	"grad_norm": 2.5519967079162598,
	"learning_rate": 1.1063332133861101e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 864250624,
	"step": 844000
	},
	{
	"epoch": 7.791956154676558,
	"grad_norm": 1.002515435218811,
	"learning_rate": 1.1040265360164605e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 864762624,
	"step": 844500
	},
	{
	"epoch": 7.796569509415857,
	"grad_norm": 1.0723029375076294,
	"learning_rate": 1.1017198586468108e-05,
	"loss": 0.0172,
	"num_input_tokens_seen": 865274624,
	"step": 845000
	},
	{
	"epoch": 7.801182864155156,
	"grad_norm": 0.492806613445282,
	"learning_rate": 1.0994131812771612e-05,
	"loss": 0.0184,
	"num_input_tokens_seen": 865786624,
	"step": 845500
	},
	{
	"epoch": 7.805796218894455,
	"grad_norm": 2.1584246158599854,
	"learning_rate": 1.0971065039075116e-05,
	"loss": 0.0195,
	"num_input_tokens_seen": 866298624,
	"step": 846000
	},
	{
	"epoch": 7.810409573633755,
	"grad_norm": 0.9871762990951538,
	"learning_rate": 1.094799826537862e-05,
	"loss": 0.0172,
	"num_input_tokens_seen": 866810624,
	"step": 846500
	},
	{
	"epoch": 7.815022928373054,
	"grad_norm": 1.234832525253296,
	"learning_rate": 1.0924931491682122e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 867322624,
	"step": 847000
	},
	{
	"epoch": 7.819636283112354,
	"grad_norm": 0.8536167144775391,
	"learning_rate": 1.0901864717985626e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 867834624,
	"step": 847500
	},
	{
	"epoch": 7.824249637851653,
	"grad_norm": 0.5045762658119202,
	"learning_rate": 1.087879794428913e-05,
	"loss": 0.0165,
	"num_input_tokens_seen": 868346624,
	"step": 848000
	},
	{
	"epoch": 7.8288629925909525,
	"grad_norm": 0.539504885673523,
	"learning_rate": 1.0855731170592632e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 868858624,
	"step": 848500
	},
	{
	"epoch": 7.833476347330252,
	"grad_norm": 0.6124027967453003,
	"learning_rate": 1.0832664396896136e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 869370624,
	"step": 849000
	},
	{
	"epoch": 7.838089702069551,
	"grad_norm": 0.5063890814781189,
	"learning_rate": 1.0809597623199638e-05,
	"loss": 0.0166,
	"num_input_tokens_seen": 869882624,
	"step": 849500
	},
	{
	"epoch": 7.84270305680885,
	"grad_norm": 0.4935370087623596,
	"learning_rate": 1.0786530849503142e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 870394624,
	"step": 850000
	},
	{
	"epoch": 7.8473164115481495,
	"grad_norm": 1.3337877988815308,
	"learning_rate": 1.0763464075806644e-05,
	"loss": 0.0167,
	"num_input_tokens_seen": 870906624,
	"step": 850500
	},
	{
	"epoch": 7.851929766287449,
	"grad_norm": 0.5984758734703064,
	"learning_rate": 1.0740397302110148e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 871418624,
	"step": 851000
	},
	{
	"epoch": 7.856543121026748,
	"grad_norm": 0.6499104499816895,
	"learning_rate": 1.0717330528413652e-05,
	"loss": 0.0176,
	"num_input_tokens_seen": 871930624,
	"step": 851500
	},
	{
	"epoch": 7.861156475766047,
	"grad_norm": 0.5723326206207275,
	"learning_rate": 1.0694263754717156e-05,
	"loss": 0.0173,
	"num_input_tokens_seen": 872442624,
	"step": 852000
	},
	{
	"epoch": 7.8657698305053465,
	"grad_norm": 0.6458103060722351,
	"learning_rate": 1.0671196981020659e-05,
	"loss": 0.0185,
	"num_input_tokens_seen": 872954624,
	"step": 852500
	},
	{
	"epoch": 7.870383185244647,
	"grad_norm": 0.6607184410095215,
	"learning_rate": 1.0648130207324163e-05,
	"loss": 0.0174,
	"num_input_tokens_seen": 873466624,
	"step": 853000
	},
	{
	"epoch": 7.874996539983946,
	"grad_norm": 0.7945510745048523,
	"learning_rate": 1.0625063433627667e-05,
	"loss": 0.0178,
	"num_input_tokens_seen": 873978624,
	"step": 853500
	},
	{
	"epoch": 7.879609894723245,
	"grad_norm": 0.9480940103530884,
	"learning_rate": 1.0601996659931169e-05,
	"loss": 0.019,
	"num_input_tokens_seen": 874490624,
	"step": 854000
	},
	{
	"epoch": 7.884223249462544,
	"grad_norm": 0.5195125937461853,
	"learning_rate": 1.0578929886234673e-05,
	"loss": 0.017,
	"num_input_tokens_seen": 875002624,
	"step": 854500
	},
	{
	"epoch": 7.888836604201844,
	"grad_norm": 0.3116241693496704,
	"learning_rate": 1.0555863112538177e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 875514624,
	"step": 855000
	},
	{
	"epoch": 7.893449958941143,
	"grad_norm": 0.8278101086616516,
	"learning_rate": 1.053279633884168e-05,
	"loss": 0.0177,
	"num_input_tokens_seen": 876026624,
	"step": 855500
	},
	{
	"epoch": 7.898063313680442,
	"grad_norm": 0.6848555207252502,
	"learning_rate": 1.0509729565145181e-05,
	"loss": 0.0186,
	"num_input_tokens_seen": 876538624,
	"step": 856000
	},
	{
	"epoch": 7.902676668419741,
	"grad_norm": 0.9749637842178345,
	"learning_rate": 1.0486662791448685e-05,
	"loss": 0.0214,
	"num_input_tokens_seen": 877050624,
	"step": 856500
	},
	{
	"epoch": 7.907290023159041,
	"grad_norm": 2.486924648284912,
	"learning_rate": 1.046359601775219e-05,
	"loss": 0.0194,
	"num_input_tokens_seen": 877562624,
	"step": 857000
	},
	{
	"epoch": 7.91190337789834,
	"grad_norm": 0.8250918388366699,
	"learning_rate": 1.0440529244055693e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 878074624,
	"step": 857500
	},
	{
	"epoch": 7.916516732637639,
	"grad_norm": 1.9874022006988525,
	"learning_rate": 1.0417462470359196e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 878586624,
	"step": 858000
	},
	{
	"epoch": 7.921130087376939,
	"grad_norm": 1.451173186302185,
	"learning_rate": 1.03943956966627e-05,
	"loss": 0.0191,
	"num_input_tokens_seen": 879098624,
	"step": 858500
	},
	{
	"epoch": 7.925743442116238,
	"grad_norm": 3.8313064575195312,
	"learning_rate": 1.0371328922966204e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 879610624,
	"step": 859000
	},
	{
	"epoch": 7.930356796855538,
	"grad_norm": 0.9106965661048889,
	"learning_rate": 1.0348262149269706e-05,
	"loss": 0.0164,
	"num_input_tokens_seen": 880122624,
	"step": 859500
	},
	{
	"epoch": 7.934970151594837,
	"grad_norm": 0.9856759905815125,
	"learning_rate": 1.032519537557321e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 880634624,
	"step": 860000
	},
	{
	"epoch": 7.939583506334136,
	"grad_norm": 1.1179744005203247,
	"learning_rate": 1.0302128601876714e-05,
	"loss": 0.0186,
	"num_input_tokens_seen": 881146624,
	"step": 860500
	},
	{
	"epoch": 7.9441968610734355,
	"grad_norm": 0.8333301544189453,
	"learning_rate": 1.0279061828180218e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 881658624,
	"step": 861000
	},
	{
	"epoch": 7.948810215812735,
	"grad_norm": 0.4756206274032593,
	"learning_rate": 1.025599505448372e-05,
	"loss": 0.0187,
	"num_input_tokens_seen": 882170624,
	"step": 861500
	},
	{
	"epoch": 7.953423570552034,
	"grad_norm": 1.3627671003341675,
	"learning_rate": 1.0232928280787224e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 882682624,
	"step": 862000
	},
	{
	"epoch": 7.958036925291333,
	"grad_norm": 1.3066837787628174,
	"learning_rate": 1.0209861507090726e-05,
	"loss": 0.0193,
	"num_input_tokens_seen": 883194624,
	"step": 862500
	},
	{
	"epoch": 7.9626502800306325,
	"grad_norm": 0.46038496494293213,
	"learning_rate": 1.018679473339423e-05,
	"loss": 0.018,
	"num_input_tokens_seen": 883706624,
	"step": 863000
	},
	{
	"epoch": 7.967263634769932,
	"grad_norm": 0.67403644323349,
	"learning_rate": 1.0163727959697732e-05,
	"loss": 0.0188,
	"num_input_tokens_seen": 884218624,
	"step": 863500
	},
	{
	"epoch": 7.971876989509231,
	"grad_norm": 0.7785734534263611,
	"learning_rate": 1.0140661186001236e-05,
	"loss": 0.0169,
	"num_input_tokens_seen": 884730624,
	"step": 864000
	},
	{
	"epoch": 7.97649034424853,
	"grad_norm": 0.8497280478477478,
	"learning_rate": 1.011759441230474e-05,
	"loss": 0.0189,
	"num_input_tokens_seen": 885242624,
	"step": 864500
	},
	{
	"epoch": 7.98110369898783,
	"grad_norm": 4.073908805847168,
	"learning_rate": 1.0094527638608243e-05,
	"loss": 0.0183,
	"num_input_tokens_seen": 885754624,
	"step": 865000
	},
	{
	"epoch": 7.98571705372713,
	"grad_norm": 0.7901633977890015,
	"learning_rate": 1.0071460864911747e-05,
	"loss": 0.0177,
	"num_input_tokens_seen": 886266624,
	"step": 865500
	},
	{
	"epoch": 7.990330408466429,
	"grad_norm": 2.1585545539855957,
	"learning_rate": 1.004839409121525e-05,
	"loss": 0.0172,
	"num_input_tokens_seen": 886778624,
	"step": 866000
	},
	{
	"epoch": 7.994943763205728,
	"grad_norm": 0.6002645492553711,
	"learning_rate": 1.0025327317518755e-05,
	"loss": 0.0193,
	"num_input_tokens_seen": 887290624,
	"step": 866500
	},
	{
	"epoch": 7.999557117945027,
	"grad_norm": 0.602433443069458,
	"learning_rate": 1.0002260543822257e-05,
	"loss": 0.0182,
	"num_input_tokens_seen": 887802624,
	"step": 867000
	},
	{
	"epoch": 8.0,
	"eval_combined_score": 0.0675718570300666,
	"eval_loss": 0.06757185608148575,
	"eval_mse": 0.06757185797864745,
	"eval_runtime": 46.9325,
	"eval_samples_per_second": 2052.691,
	"eval_steps_per_second": 256.602,
	"num_input_tokens_seen": 887851008,
	"step": 867048
	},
	{
	"epoch": 8.004170472684327,
	"grad_norm": 1.5062319040298462,
	"learning_rate": 9.97919377012576e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 888313856,
	"step": 867500
	},
	{
	"epoch": 8.008783827423626,
	"grad_norm": 0.3685579001903534,
	"learning_rate": 9.956126996429265e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 888825856,
	"step": 868000
	},
	{
	"epoch": 8.013397182162926,
	"grad_norm": 0.5031562447547913,
	"learning_rate": 9.933060222732767e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 889337856,
	"step": 868500
	},
	{
	"epoch": 8.018010536902224,
	"grad_norm": 1.041576623916626,
	"learning_rate": 9.90999344903627e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 889849856,
	"step": 869000
	},
	{
	"epoch": 8.022623891641524,
	"grad_norm": 0.6168863773345947,
	"learning_rate": 9.886926675339773e-06,
	"loss": 0.0149,
	"num_input_tokens_seen": 890361856,
	"step": 869500
	},
	{
	"epoch": 8.027237246380823,
	"grad_norm": 1.0457834005355835,
	"learning_rate": 9.863859901643277e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 890873856,
	"step": 870000
	},
	{
	"epoch": 8.031850601120123,
	"grad_norm": 0.7371172904968262,
	"learning_rate": 9.840793127946781e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 891385856,
	"step": 870500
	},
	{
	"epoch": 8.036463955859421,
	"grad_norm": 1.857638955116272,
	"learning_rate": 9.817726354250284e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 891897856,
	"step": 871000
	},
	{
	"epoch": 8.041077310598721,
	"grad_norm": 1.3631207942962646,
	"learning_rate": 9.794659580553788e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 892409856,
	"step": 871500
	},
	{
	"epoch": 8.04569066533802,
	"grad_norm": 1.4387595653533936,
	"learning_rate": 9.771592806857291e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 892921856,
	"step": 872000
	},
	{
	"epoch": 8.05030402007732,
	"grad_norm": 0.44265180826187134,
	"learning_rate": 9.748526033160794e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 893433856,
	"step": 872500
	},
	{
	"epoch": 8.054917374816618,
	"grad_norm": 0.7352337837219238,
	"learning_rate": 9.725459259464298e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 893945856,
	"step": 873000
	},
	{
	"epoch": 8.059530729555918,
	"grad_norm": 0.6806060075759888,
	"learning_rate": 9.702392485767802e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 894457856,
	"step": 873500
	},
	{
	"epoch": 8.064144084295219,
	"grad_norm": 0.7403847575187683,
	"learning_rate": 9.679325712071306e-06,
	"loss": 0.0164,
	"num_input_tokens_seen": 894969856,
	"step": 874000
	},
	{
	"epoch": 8.068757439034517,
	"grad_norm": 1.1141221523284912,
	"learning_rate": 9.656258938374808e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 895481856,
	"step": 874500
	},
	{
	"epoch": 8.073370793773817,
	"grad_norm": 0.983514130115509,
	"learning_rate": 9.633192164678312e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 895993856,
	"step": 875000
	},
	{
	"epoch": 8.077984148513115,
	"grad_norm": 0.4191863536834717,
	"learning_rate": 9.610125390981814e-06,
	"loss": 0.0171,
	"num_input_tokens_seen": 896505856,
	"step": 875500
	},
	{
	"epoch": 8.082597503252416,
	"grad_norm": 0.4481130540370941,
	"learning_rate": 9.587058617285318e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 897017856,
	"step": 876000
	},
	{
	"epoch": 8.087210857991714,
	"grad_norm": 0.7153156995773315,
	"learning_rate": 9.56399184358882e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 897529856,
	"step": 876500
	},
	{
	"epoch": 8.091824212731014,
	"grad_norm": 1.7068063020706177,
	"learning_rate": 9.540925069892324e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 898041856,
	"step": 877000
	},
	{
	"epoch": 8.096437567470312,
	"grad_norm": 0.5899567008018494,
	"learning_rate": 9.517858296195828e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 898553856,
	"step": 877500
	},
	{
	"epoch": 8.101050922209613,
	"grad_norm": 0.9179006218910217,
	"learning_rate": 9.49479152249933e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 899065856,
	"step": 878000
	},
	{
	"epoch": 8.105664276948911,
	"grad_norm": 0.7641995549201965,
	"learning_rate": 9.471724748802835e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 899577856,
	"step": 878500
	},
	{
	"epoch": 8.110277631688211,
	"grad_norm": 0.8679375648498535,
	"learning_rate": 9.448657975106339e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 900089856,
	"step": 879000
	},
	{
	"epoch": 8.114890986427511,
	"grad_norm": 0.981959342956543,
	"learning_rate": 9.425591201409843e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 900601856,
	"step": 879500
	},
	{
	"epoch": 8.11950434116681,
	"grad_norm": 0.5581063032150269,
	"learning_rate": 9.402524427713345e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 901113856,
	"step": 880000
	},
	{
	"epoch": 8.12411769590611,
	"grad_norm": 0.4459242522716522,
	"learning_rate": 9.379457654016849e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 901625856,
	"step": 880500
	},
	{
	"epoch": 8.128731050645408,
	"grad_norm": 0.5052184462547302,
	"learning_rate": 9.356390880320353e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 902137856,
	"step": 881000
	},
	{
	"epoch": 8.133344405384708,
	"grad_norm": 2.326282024383545,
	"learning_rate": 9.333324106623855e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 902649856,
	"step": 881500
	},
	{
	"epoch": 8.137957760124007,
	"grad_norm": 0.3621096909046173,
	"learning_rate": 9.310257332927357e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 903161856,
	"step": 882000
	},
	{
	"epoch": 8.142571114863307,
	"grad_norm": 0.599589467048645,
	"learning_rate": 9.287190559230861e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 903673856,
	"step": 882500
	},
	{
	"epoch": 8.147184469602605,
	"grad_norm": 0.6334195733070374,
	"learning_rate": 9.264123785534365e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 904185856,
	"step": 883000
	},
	{
	"epoch": 8.151797824341905,
	"grad_norm": 0.5166653990745544,
	"learning_rate": 9.241057011837868e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 904697856,
	"step": 883500
	},
	{
	"epoch": 8.156411179081203,
	"grad_norm": 0.9574226140975952,
	"learning_rate": 9.217990238141372e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 905209856,
	"step": 884000
	},
	{
	"epoch": 8.161024533820504,
	"grad_norm": 0.7625335454940796,
	"learning_rate": 9.194923464444876e-06,
	"loss": 0.0172,
	"num_input_tokens_seen": 905721856,
	"step": 884500
	},
	{
	"epoch": 8.165637888559804,
	"grad_norm": 0.5956442356109619,
	"learning_rate": 9.17185669074838e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 906233856,
	"step": 885000
	},
	{
	"epoch": 8.170251243299102,
	"grad_norm": 0.6293473243713379,
	"learning_rate": 9.148789917051882e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 906745856,
	"step": 885500
	},
	{
	"epoch": 8.174864598038402,
	"grad_norm": 1.834021806716919,
	"learning_rate": 9.125723143355386e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 907257856,
	"step": 886000
	},
	{
	"epoch": 8.1794779527777,
	"grad_norm": 0.4335891008377075,
	"learning_rate": 9.10265636965889e-06,
	"loss": 0.0161,
	"num_input_tokens_seen": 907769856,
	"step": 886500
	},
	{
	"epoch": 8.184091307517,
	"grad_norm": 0.573677659034729,
	"learning_rate": 9.079589595962392e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 908281856,
	"step": 887000
	},
	{
	"epoch": 8.1887046622563,
	"grad_norm": 0.7976333498954773,
	"learning_rate": 9.056522822265896e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 908793856,
	"step": 887500
	},
	{
	"epoch": 8.1933180169956,
	"grad_norm": 1.0269770622253418,
	"learning_rate": 9.0334560485694e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 909305856,
	"step": 888000
	},
	{
	"epoch": 8.197931371734898,
	"grad_norm": 0.9196085333824158,
	"learning_rate": 9.010389274872902e-06,
	"loss": 0.0161,
	"num_input_tokens_seen": 909817856,
	"step": 888500
	},
	{
	"epoch": 8.202544726474198,
	"grad_norm": 0.9371418952941895,
	"learning_rate": 8.987322501176406e-06,
	"loss": 0.0169,
	"num_input_tokens_seen": 910329856,
	"step": 889000
	},
	{
	"epoch": 8.207158081213496,
	"grad_norm": 0.5787968635559082,
	"learning_rate": 8.964255727479908e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 910841856,
	"step": 889500
	},
	{
	"epoch": 8.211771435952796,
	"grad_norm": 0.44304850697517395,
	"learning_rate": 8.941188953783412e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 911353856,
	"step": 890000
	},
	{
	"epoch": 8.216384790692096,
	"grad_norm": 1.7044280767440796,
	"learning_rate": 8.918122180086916e-06,
	"loss": 0.0165,
	"num_input_tokens_seen": 911865856,
	"step": 890500
	},
	{
	"epoch": 8.220998145431395,
	"grad_norm": 0.6133010983467102,
	"learning_rate": 8.895055406390419e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 912377856,
	"step": 891000
	},
	{
	"epoch": 8.225611500170695,
	"grad_norm": 2.290767192840576,
	"learning_rate": 8.871988632693923e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 912889856,
	"step": 891500
	},
	{
	"epoch": 8.230224854909993,
	"grad_norm": 0.47266674041748047,
	"learning_rate": 8.848921858997427e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 913401856,
	"step": 892000
	},
	{
	"epoch": 8.234838209649293,
	"grad_norm": 0.7107419967651367,
	"learning_rate": 8.82585508530093e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 913913856,
	"step": 892500
	},
	{
	"epoch": 8.239451564388592,
	"grad_norm": 0.29794007539749146,
	"learning_rate": 8.802788311604433e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 914425856,
	"step": 893000
	},
	{
	"epoch": 8.244064919127892,
	"grad_norm": 0.9938859939575195,
	"learning_rate": 8.779721537907937e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 914937856,
	"step": 893500
	},
	{
	"epoch": 8.24867827386719,
	"grad_norm": 0.9996763467788696,
	"learning_rate": 8.75665476421144e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 915449856,
	"step": 894000
	},
	{
	"epoch": 8.25329162860649,
	"grad_norm": 0.8853555917739868,
	"learning_rate": 8.733587990514943e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 915961856,
	"step": 894500
	},
	{
	"epoch": 8.257904983345789,
	"grad_norm": 0.5720754861831665,
	"learning_rate": 8.710521216818445e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 916473856,
	"step": 895000
	},
	{
	"epoch": 8.262518338085089,
	"grad_norm": 0.7386252880096436,
	"learning_rate": 8.68745444312195e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 916985856,
	"step": 895500
	},
	{
	"epoch": 8.267131692824387,
	"grad_norm": 0.5073798298835754,
	"learning_rate": 8.664387669425453e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 917497856,
	"step": 896000
	},
	{
	"epoch": 8.271745047563687,
	"grad_norm": 2.3658652305603027,
	"learning_rate": 8.641320895728956e-06,
	"loss": 0.0173,
	"num_input_tokens_seen": 918009856,
	"step": 896500
	},
	{
	"epoch": 8.276358402302987,
	"grad_norm": 0.4761596620082855,
	"learning_rate": 8.61825412203246e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 918521856,
	"step": 897000
	},
	{
	"epoch": 8.280971757042286,
	"grad_norm": 0.5883774161338806,
	"learning_rate": 8.595187348335963e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 919033856,
	"step": 897500
	},
	{
	"epoch": 8.285585111781586,
	"grad_norm": 0.9515103101730347,
	"learning_rate": 8.572120574639467e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 919545856,
	"step": 898000
	},
	{
	"epoch": 8.290198466520884,
	"grad_norm": 0.5109001398086548,
	"learning_rate": 8.54905380094297e-06,
	"loss": 0.0164,
	"num_input_tokens_seen": 920057856,
	"step": 898500
	},
	{
	"epoch": 8.294811821260184,
	"grad_norm": 0.8202781081199646,
	"learning_rate": 8.525987027246474e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 920569856,
	"step": 899000
	},
	{
	"epoch": 8.299425175999483,
	"grad_norm": 1.913580060005188,
	"learning_rate": 8.502920253549978e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 921081856,
	"step": 899500
	},
	{
	"epoch": 8.304038530738783,
	"grad_norm": 0.6409407258033752,
	"learning_rate": 8.47985347985348e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 921593856,
	"step": 900000
	},
	{
	"epoch": 8.308651885478081,
	"grad_norm": 0.4128231108188629,
	"learning_rate": 8.456786706156984e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 922105856,
	"step": 900500
	},
	{
	"epoch": 8.313265240217381,
	"grad_norm": 2.3555517196655273,
	"learning_rate": 8.433719932460488e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 922617856,
	"step": 901000
	},
	{
	"epoch": 8.31787859495668,
	"grad_norm": 1.5205661058425903,
	"learning_rate": 8.41065315876399e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 923129856,
	"step": 901500
	},
	{
	"epoch": 8.32249194969598,
	"grad_norm": 0.8352044224739075,
	"learning_rate": 8.387586385067492e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 923641856,
	"step": 902000
	},
	{
	"epoch": 8.32710530443528,
	"grad_norm": 0.256552129983902,
	"learning_rate": 8.364519611370996e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 924153856,
	"step": 902500
	},
	{
	"epoch": 8.331718659174578,
	"grad_norm": 0.9458514451980591,
	"learning_rate": 8.3414528376745e-06,
	"loss": 0.0162,
	"num_input_tokens_seen": 924665856,
	"step": 903000
	},
	{
	"epoch": 8.336332013913879,
	"grad_norm": 0.9356163740158081,
	"learning_rate": 8.318386063978004e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 925177856,
	"step": 903500
	},
	{
	"epoch": 8.340945368653177,
	"grad_norm": 0.6801881790161133,
	"learning_rate": 8.295319290281507e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 925689856,
	"step": 904000
	},
	{
	"epoch": 8.345558723392477,
	"grad_norm": 1.2119888067245483,
	"learning_rate": 8.27225251658501e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 926201856,
	"step": 904500
	},
	{
	"epoch": 8.350172078131775,
	"grad_norm": 0.6034347414970398,
	"learning_rate": 8.249185742888515e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 926713856,
	"step": 905000
	},
	{
	"epoch": 8.354785432871076,
	"grad_norm": 0.47974085807800293,
	"learning_rate": 8.226118969192017e-06,
	"loss": 0.0173,
	"num_input_tokens_seen": 927225856,
	"step": 905500
	},
	{
	"epoch": 8.359398787610374,
	"grad_norm": 0.7787156105041504,
	"learning_rate": 8.20305219549552e-06,
	"loss": 0.0161,
	"num_input_tokens_seen": 927737856,
	"step": 906000
	},
	{
	"epoch": 8.364012142349674,
	"grad_norm": 0.8252438306808472,
	"learning_rate": 8.179985421799025e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 928249856,
	"step": 906500
	},
	{
	"epoch": 8.368625497088972,
	"grad_norm": 1.7516320943832397,
	"learning_rate": 8.156918648102529e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 928761856,
	"step": 907000
	},
	{
	"epoch": 8.373238851828273,
	"grad_norm": 0.9089247584342957,
	"learning_rate": 8.133851874406031e-06,
	"loss": 0.0179,
	"num_input_tokens_seen": 929273856,
	"step": 907500
	},
	{
	"epoch": 8.377852206567571,
	"grad_norm": 0.5961917042732239,
	"learning_rate": 8.110785100709533e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 929785856,
	"step": 908000
	},
	{
	"epoch": 8.382465561306871,
	"grad_norm": 0.9045282602310181,
	"learning_rate": 8.087718327013037e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 930297856,
	"step": 908500
	},
	{
	"epoch": 8.387078916046171,
	"grad_norm": 2.7716050148010254,
	"learning_rate": 8.064651553316541e-06,
	"loss": 0.0166,
	"num_input_tokens_seen": 930809856,
	"step": 909000
	},
	{
	"epoch": 8.39169227078547,
	"grad_norm": 0.8180987238883972,
	"learning_rate": 8.041584779620044e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 931321856,
	"step": 909500
	},
	{
	"epoch": 8.39630562552477,
	"grad_norm": 0.8871789574623108,
	"learning_rate": 8.018518005923548e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 931833856,
	"step": 910000
	},
	{
	"epoch": 8.400918980264068,
	"grad_norm": 0.9161932468414307,
	"learning_rate": 7.995451232227051e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 932345856,
	"step": 910500
	},
	{
	"epoch": 8.405532335003368,
	"grad_norm": 0.6723649501800537,
	"learning_rate": 7.972384458530555e-06,
	"loss": 0.0167,
	"num_input_tokens_seen": 932857856,
	"step": 911000
	},
	{
	"epoch": 8.410145689742667,
	"grad_norm": 0.57211834192276,
	"learning_rate": 7.949317684834058e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 933369856,
	"step": 911500
	},
	{
	"epoch": 8.414759044481967,
	"grad_norm": 0.7815681099891663,
	"learning_rate": 7.926250911137562e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 933881856,
	"step": 912000
	},
	{
	"epoch": 8.419372399221265,
	"grad_norm": 1.4835954904556274,
	"learning_rate": 7.903184137441066e-06,
	"loss": 0.0175,
	"num_input_tokens_seen": 934393856,
	"step": 912500
	},
	{
	"epoch": 8.423985753960565,
	"grad_norm": 0.6556302905082703,
	"learning_rate": 7.880117363744568e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 934905856,
	"step": 913000
	},
	{
	"epoch": 8.428599108699864,
	"grad_norm": 0.3592114746570587,
	"learning_rate": 7.857050590048072e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 935417856,
	"step": 913500
	},
	{
	"epoch": 8.433212463439164,
	"grad_norm": 1.0812350511550903,
	"learning_rate": 7.833983816351576e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 935929856,
	"step": 914000
	},
	{
	"epoch": 8.437825818178464,
	"grad_norm": 0.5357770919799805,
	"learning_rate": 7.810917042655078e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 936441856,
	"step": 914500
	},
	{
	"epoch": 8.442439172917762,
	"grad_norm": 1.2673269510269165,
	"learning_rate": 7.78785026895858e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 936953856,
	"step": 915000
	},
	{
	"epoch": 8.447052527657062,
	"grad_norm": 1.7254928350448608,
	"learning_rate": 7.764783495262084e-06,
	"loss": 0.0165,
	"num_input_tokens_seen": 937465856,
	"step": 915500
	},
	{
	"epoch": 8.45166588239636,
	"grad_norm": 0.740627646446228,
	"learning_rate": 7.741716721565588e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 937977856,
	"step": 916000
	},
	{
	"epoch": 8.45627923713566,
	"grad_norm": 0.8942471146583557,
	"learning_rate": 7.718649947869092e-06,
	"loss": 0.0164,
	"num_input_tokens_seen": 938489856,
	"step": 916500
	},
	{
	"epoch": 8.46089259187496,
	"grad_norm": 0.5979003310203552,
	"learning_rate": 7.695583174172595e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 939001856,
	"step": 917000
	},
	{
	"epoch": 8.46550594661426,
	"grad_norm": 0.690619945526123,
	"learning_rate": 7.672516400476099e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 939513856,
	"step": 917500
	},
	{
	"epoch": 8.470119301353558,
	"grad_norm": 0.9563241004943848,
	"learning_rate": 7.649449626779603e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 940025856,
	"step": 918000
	},
	{
	"epoch": 8.474732656092858,
	"grad_norm": 0.7812721729278564,
	"learning_rate": 7.626382853083106e-06,
	"loss": 0.0169,
	"num_input_tokens_seen": 940537856,
	"step": 918500
	},
	{
	"epoch": 8.479346010832156,
	"grad_norm": 0.7864488959312439,
	"learning_rate": 7.603316079386609e-06,
	"loss": 0.0165,
	"num_input_tokens_seen": 941049856,
	"step": 919000
	},
	{
	"epoch": 8.483959365571456,
	"grad_norm": 0.41324466466903687,
	"learning_rate": 7.580249305690113e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 941561856,
	"step": 919500
	},
	{
	"epoch": 8.488572720310756,
	"grad_norm": 1.0213603973388672,
	"learning_rate": 7.557182531993616e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 942073856,
	"step": 920000
	},
	{
	"epoch": 8.493186075050055,
	"grad_norm": 0.9692112803459167,
	"learning_rate": 7.53411575829712e-06,
	"loss": 0.0162,
	"num_input_tokens_seen": 942585856,
	"step": 920500
	},
	{
	"epoch": 8.497799429789355,
	"grad_norm": 0.9468556642532349,
	"learning_rate": 7.511048984600621e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 943097856,
	"step": 921000
	},
	{
	"epoch": 8.502412784528653,
	"grad_norm": 1.1541293859481812,
	"learning_rate": 7.487982210904125e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 943609856,
	"step": 921500
	},
	{
	"epoch": 8.507026139267953,
	"grad_norm": 0.6092996597290039,
	"learning_rate": 7.464915437207628e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 944121856,
	"step": 922000
	},
	{
	"epoch": 8.511639494007252,
	"grad_norm": 2.1357691287994385,
	"learning_rate": 7.441848663511132e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 944633856,
	"step": 922500
	},
	{
	"epoch": 8.516252848746552,
	"grad_norm": 0.8940873146057129,
	"learning_rate": 7.4187818898146355e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 945145856,
	"step": 923000
	},
	{
	"epoch": 8.52086620348585,
	"grad_norm": 0.44890737533569336,
	"learning_rate": 7.395715116118139e-06,
	"loss": 0.0183,
	"num_input_tokens_seen": 945657856,
	"step": 923500
	},
	{
	"epoch": 8.52547955822515,
	"grad_norm": 0.6357942223548889,
	"learning_rate": 7.372648342421643e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 946169856,
	"step": 924000
	},
	{
	"epoch": 8.530092912964449,
	"grad_norm": 1.20125150680542,
	"learning_rate": 7.349581568725146e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 946681856,
	"step": 924500
	},
	{
	"epoch": 8.534706267703749,
	"grad_norm": 1.3115291595458984,
	"learning_rate": 7.32651479502865e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 947193856,
	"step": 925000
	},
	{
	"epoch": 8.539319622443049,
	"grad_norm": 1.5604932308197021,
	"learning_rate": 7.303448021332153e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 947705856,
	"step": 925500
	},
	{
	"epoch": 8.543932977182347,
	"grad_norm": 0.5092642307281494,
	"learning_rate": 7.280381247635657e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 948217856,
	"step": 926000
	},
	{
	"epoch": 8.548546331921647,
	"grad_norm": 0.914828896522522,
	"learning_rate": 7.25731447393916e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 948729856,
	"step": 926500
	},
	{
	"epoch": 8.553159686660946,
	"grad_norm": 0.554459810256958,
	"learning_rate": 7.234247700242663e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 949241856,
	"step": 927000
	},
	{
	"epoch": 8.557773041400246,
	"grad_norm": 0.48894843459129333,
	"learning_rate": 7.211180926546165e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 949753856,
	"step": 927500
	},
	{
	"epoch": 8.562386396139544,
	"grad_norm": 1.2641159296035767,
	"learning_rate": 7.188114152849669e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 950265856,
	"step": 928000
	},
	{
	"epoch": 8.566999750878844,
	"grad_norm": 0.9658982157707214,
	"learning_rate": 7.165047379153172e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 950777856,
	"step": 928500
	},
	{
	"epoch": 8.571613105618143,
	"grad_norm": 1.2537494897842407,
	"learning_rate": 7.141980605456676e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 951289856,
	"step": 929000
	},
	{
	"epoch": 8.576226460357443,
	"grad_norm": 2.147233009338379,
	"learning_rate": 7.1189138317601795e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 951801856,
	"step": 929500
	},
	{
	"epoch": 8.580839815096741,
	"grad_norm": 1.6873968839645386,
	"learning_rate": 7.095847058063683e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 952313856,
	"step": 930000
	},
	{
	"epoch": 8.585453169836041,
	"grad_norm": 1.5905687808990479,
	"learning_rate": 7.072780284367187e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 952825856,
	"step": 930500
	},
	{
	"epoch": 8.590066524575342,
	"grad_norm": 0.8234834671020508,
	"learning_rate": 7.04971351067069e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 953337856,
	"step": 931000
	},
	{
	"epoch": 8.59467987931464,
	"grad_norm": 1.0002344846725464,
	"learning_rate": 7.026646736974194e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 953849856,
	"step": 931500
	},
	{
	"epoch": 8.59929323405394,
	"grad_norm": 4.079251289367676,
	"learning_rate": 7.003579963277697e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 954361856,
	"step": 932000
	},
	{
	"epoch": 8.603906588793238,
	"grad_norm": 0.8030288815498352,
	"learning_rate": 6.980513189581201e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 954873856,
	"step": 932500
	},
	{
	"epoch": 8.608519943532539,
	"grad_norm": 0.8186569213867188,
	"learning_rate": 6.957446415884704e-06,
	"loss": 0.0161,
	"num_input_tokens_seen": 955385856,
	"step": 933000
	},
	{
	"epoch": 8.613133298271837,
	"grad_norm": 0.680074155330658,
	"learning_rate": 6.934379642188207e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 955897856,
	"step": 933500
	},
	{
	"epoch": 8.617746653011137,
	"grad_norm": 1.1147595643997192,
	"learning_rate": 6.911312868491709e-06,
	"loss": 0.0171,
	"num_input_tokens_seen": 956409856,
	"step": 934000
	},
	{
	"epoch": 8.622360007750435,
	"grad_norm": 1.0557124614715576,
	"learning_rate": 6.888246094795213e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 956921856,
	"step": 934500
	},
	{
	"epoch": 8.626973362489736,
	"grad_norm": 0.5240976214408875,
	"learning_rate": 6.865179321098716e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 957433856,
	"step": 935000
	},
	{
	"epoch": 8.631586717229034,
	"grad_norm": 0.6534589529037476,
	"learning_rate": 6.8421125474022195e-06,
	"loss": 0.0167,
	"num_input_tokens_seen": 957945856,
	"step": 935500
	},
	{
	"epoch": 8.636200071968334,
	"grad_norm": 0.33386147022247314,
	"learning_rate": 6.8190457737057235e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 958457856,
	"step": 936000
	},
	{
	"epoch": 8.640813426707634,
	"grad_norm": 1.6744736433029175,
	"learning_rate": 6.795979000009227e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 958969856,
	"step": 936500
	},
	{
	"epoch": 8.645426781446933,
	"grad_norm": 6.504983425140381,
	"learning_rate": 6.7729122263127306e-06,
	"loss": 0.0182,
	"num_input_tokens_seen": 959481856,
	"step": 937000
	},
	{
	"epoch": 8.650040136186233,
	"grad_norm": 1.2921936511993408,
	"learning_rate": 6.749845452616234e-06,
	"loss": 0.0164,
	"num_input_tokens_seen": 959993856,
	"step": 937500
	},
	{
	"epoch": 8.654653490925531,
	"grad_norm": 1.5937762260437012,
	"learning_rate": 6.726778678919738e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 960505856,
	"step": 938000
	},
	{
	"epoch": 8.659266845664831,
	"grad_norm": 0.9005319476127625,
	"learning_rate": 6.703711905223241e-06,
	"loss": 0.0165,
	"num_input_tokens_seen": 961017856,
	"step": 938500
	},
	{
	"epoch": 8.66388020040413,
	"grad_norm": 1.019418716430664,
	"learning_rate": 6.680645131526744e-06,
	"loss": 0.0162,
	"num_input_tokens_seen": 961529856,
	"step": 939000
	},
	{
	"epoch": 8.66849355514343,
	"grad_norm": 0.5105811953544617,
	"learning_rate": 6.657578357830248e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 962041856,
	"step": 939500
	},
	{
	"epoch": 8.673106909882728,
	"grad_norm": 0.6588147282600403,
	"learning_rate": 6.634511584133751e-06,
	"loss": 0.0173,
	"num_input_tokens_seen": 962553856,
	"step": 940000
	},
	{
	"epoch": 8.677720264622028,
	"grad_norm": 0.5775207877159119,
	"learning_rate": 6.611444810437253e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 963065856,
	"step": 940500
	},
	{
	"epoch": 8.682333619361327,
	"grad_norm": 1.1807801723480225,
	"learning_rate": 6.588378036740757e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 963577856,
	"step": 941000
	},
	{
	"epoch": 8.686946974100627,
	"grad_norm": 0.7394533157348633,
	"learning_rate": 6.56531126304426e-06,
	"loss": 0.0149,
	"num_input_tokens_seen": 964089856,
	"step": 941500
	},
	{
	"epoch": 8.691560328839925,
	"grad_norm": 0.5393823385238647,
	"learning_rate": 6.5422444893477635e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 964601856,
	"step": 942000
	},
	{
	"epoch": 8.696173683579225,
	"grad_norm": 1.1270785331726074,
	"learning_rate": 6.5191777156512675e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 965113856,
	"step": 942500
	},
	{
	"epoch": 8.700787038318525,
	"grad_norm": 1.156285047531128,
	"learning_rate": 6.496110941954771e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 965625856,
	"step": 943000
	},
	{
	"epoch": 8.705400393057824,
	"grad_norm": 0.3501507639884949,
	"learning_rate": 6.4730441682582746e-06,
	"loss": 0.0167,
	"num_input_tokens_seen": 966137856,
	"step": 943500
	},
	{
	"epoch": 8.710013747797124,
	"grad_norm": 0.7830114960670471,
	"learning_rate": 6.449977394561778e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 966649856,
	"step": 944000
	},
	{
	"epoch": 8.714627102536422,
	"grad_norm": 0.9424002766609192,
	"learning_rate": 6.426910620865282e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 967161856,
	"step": 944500
	},
	{
	"epoch": 8.719240457275722,
	"grad_norm": 1.7092015743255615,
	"learning_rate": 6.403843847168785e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 967673856,
	"step": 945000
	},
	{
	"epoch": 8.72385381201502,
	"grad_norm": 0.3808750808238983,
	"learning_rate": 6.380777073472288e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 968185856,
	"step": 945500
	},
	{
	"epoch": 8.72846716675432,
	"grad_norm": 0.8436591625213623,
	"learning_rate": 6.357710299775792e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 968697856,
	"step": 946000
	},
	{
	"epoch": 8.73308052149362,
	"grad_norm": 0.48995792865753174,
	"learning_rate": 6.334643526079295e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 969209856,
	"step": 946500
	},
	{
	"epoch": 8.73769387623292,
	"grad_norm": 0.6074419021606445,
	"learning_rate": 6.311576752382799e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 969721856,
	"step": 947000
	},
	{
	"epoch": 8.742307230972218,
	"grad_norm": 1.1008994579315186,
	"learning_rate": 6.2885099786863e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 970233856,
	"step": 947500
	},
	{
	"epoch": 8.746920585711518,
	"grad_norm": 0.4239863157272339,
	"learning_rate": 6.265443204989804e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 970745856,
	"step": 948000
	},
	{
	"epoch": 8.751533940450816,
	"grad_norm": 0.8348074555397034,
	"learning_rate": 6.242376431293308e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 971257856,
	"step": 948500
	},
	{
	"epoch": 8.756147295190116,
	"grad_norm": 0.9429554343223572,
	"learning_rate": 6.2193096575968115e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 971769856,
	"step": 949000
	},
	{
	"epoch": 8.760760649929416,
	"grad_norm": 0.8379220366477966,
	"learning_rate": 6.196242883900315e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 972281856,
	"step": 949500
	},
	{
	"epoch": 8.765374004668715,
	"grad_norm": 0.543300211429596,
	"learning_rate": 6.1731761102038186e-06,
	"loss": 0.0168,
	"num_input_tokens_seen": 972793856,
	"step": 950000
	},
	{
	"epoch": 8.769987359408015,
	"grad_norm": 1.0430985689163208,
	"learning_rate": 6.150109336507322e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 973305856,
	"step": 950500
	},
	{
	"epoch": 8.774600714147313,
	"grad_norm": 1.5497344732284546,
	"learning_rate": 6.127042562810825e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 973817856,
	"step": 951000
	},
	{
	"epoch": 8.779214068886613,
	"grad_norm": 0.5469529628753662,
	"learning_rate": 6.103975789114329e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 974329856,
	"step": 951500
	},
	{
	"epoch": 8.783827423625912,
	"grad_norm": 1.1605631113052368,
	"learning_rate": 6.080909015417832e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 974841856,
	"step": 952000
	},
	{
	"epoch": 8.788440778365212,
	"grad_norm": 0.4232845604419708,
	"learning_rate": 6.057842241721335e-06,
	"loss": 0.015,
	"num_input_tokens_seen": 975353856,
	"step": 952500
	},
	{
	"epoch": 8.79305413310451,
	"grad_norm": 0.9222050905227661,
	"learning_rate": 6.034775468024838e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 975865856,
	"step": 953000
	},
	{
	"epoch": 8.79766748784381,
	"grad_norm": 0.6866771578788757,
	"learning_rate": 6.011708694328342e-06,
	"loss": 0.0149,
	"num_input_tokens_seen": 976377856,
	"step": 953500
	},
	{
	"epoch": 8.802280842583109,
	"grad_norm": 0.7165865302085876,
	"learning_rate": 5.988641920631845e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 976889856,
	"step": 954000
	},
	{
	"epoch": 8.806894197322409,
	"grad_norm": 0.8396665453910828,
	"learning_rate": 5.965575146935349e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 977401856,
	"step": 954500
	},
	{
	"epoch": 8.811507552061709,
	"grad_norm": 0.6975528597831726,
	"learning_rate": 5.942508373238852e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 977913856,
	"step": 955000
	},
	{
	"epoch": 8.816120906801007,
	"grad_norm": 0.8357110619544983,
	"learning_rate": 5.9194415995423555e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 978425856,
	"step": 955500
	},
	{
	"epoch": 8.820734261540307,
	"grad_norm": 0.9856480956077576,
	"learning_rate": 5.896374825845859e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 978937856,
	"step": 956000
	},
	{
	"epoch": 8.825347616279606,
	"grad_norm": 1.2731949090957642,
	"learning_rate": 5.8733080521493626e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 979449856,
	"step": 956500
	},
	{
	"epoch": 8.829960971018906,
	"grad_norm": 0.7930001020431519,
	"learning_rate": 5.850241278452866e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 979961856,
	"step": 957000
	},
	{
	"epoch": 8.834574325758204,
	"grad_norm": 0.7619320154190063,
	"learning_rate": 5.827174504756369e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 980473856,
	"step": 957500
	},
	{
	"epoch": 8.839187680497504,
	"grad_norm": 0.7133992314338684,
	"learning_rate": 5.804107731059873e-06,
	"loss": 0.0164,
	"num_input_tokens_seen": 980985856,
	"step": 958000
	},
	{
	"epoch": 8.843801035236803,
	"grad_norm": 0.42310747504234314,
	"learning_rate": 5.781040957363375e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 981497856,
	"step": 958500
	},
	{
	"epoch": 8.848414389976103,
	"grad_norm": 0.3348715305328369,
	"learning_rate": 5.757974183666879e-06,
	"loss": 0.0162,
	"num_input_tokens_seen": 982009856,
	"step": 959000
	},
	{
	"epoch": 8.853027744715401,
	"grad_norm": 0.6126227974891663,
	"learning_rate": 5.734907409970382e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 982521856,
	"step": 959500
	},
	{
	"epoch": 8.857641099454701,
	"grad_norm": 0.6455732583999634,
	"learning_rate": 5.711840636273886e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 983033856,
	"step": 960000
	},
	{
	"epoch": 8.862254454194002,
	"grad_norm": 1.075323224067688,
	"learning_rate": 5.688773862577389e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 983545856,
	"step": 960500
	},
	{
	"epoch": 8.8668678089333,
	"grad_norm": 0.8069124817848206,
	"learning_rate": 5.665707088880893e-06,
	"loss": 0.0149,
	"num_input_tokens_seen": 984057856,
	"step": 961000
	},
	{
	"epoch": 8.8714811636726,
	"grad_norm": 0.9779102206230164,
	"learning_rate": 5.642640315184396e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 984569856,
	"step": 961500
	},
	{
	"epoch": 8.876094518411898,
	"grad_norm": 0.8441368937492371,
	"learning_rate": 5.6195735414878994e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 985081856,
	"step": 962000
	},
	{
	"epoch": 8.880707873151199,
	"grad_norm": 0.44055867195129395,
	"learning_rate": 5.5965067677914026e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 985593856,
	"step": 962500
	},
	{
	"epoch": 8.885321227890497,
	"grad_norm": 1.1985424757003784,
	"learning_rate": 5.5734399940949065e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 986105856,
	"step": 963000
	},
	{
	"epoch": 8.889934582629797,
	"grad_norm": 1.8032441139221191,
	"learning_rate": 5.55037322039841e-06,
	"loss": 0.017,
	"num_input_tokens_seen": 986617856,
	"step": 963500
	},
	{
	"epoch": 8.894547937369095,
	"grad_norm": 2.679948329925537,
	"learning_rate": 5.527306446701913e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 987129856,
	"step": 964000
	},
	{
	"epoch": 8.899161292108396,
	"grad_norm": 1.422170639038086,
	"learning_rate": 5.504239673005417e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 987641856,
	"step": 964500
	},
	{
	"epoch": 8.903774646847694,
	"grad_norm": 0.785531759262085,
	"learning_rate": 5.481172899308919e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 988153856,
	"step": 965000
	},
	{
	"epoch": 8.908388001586994,
	"grad_norm": 0.813910961151123,
	"learning_rate": 5.458106125612423e-06,
	"loss": 0.0167,
	"num_input_tokens_seen": 988665856,
	"step": 965500
	},
	{
	"epoch": 8.913001356326294,
	"grad_norm": 0.6769202351570129,
	"learning_rate": 5.435039351915926e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 989177856,
	"step": 966000
	},
	{
	"epoch": 8.917614711065593,
	"grad_norm": 2.5310189723968506,
	"learning_rate": 5.41197257821943e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 989689856,
	"step": 966500
	},
	{
	"epoch": 8.922228065804893,
	"grad_norm": 0.5400819182395935,
	"learning_rate": 5.388905804522933e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 990201856,
	"step": 967000
	},
	{
	"epoch": 8.926841420544191,
	"grad_norm": 0.33608752489089966,
	"learning_rate": 5.365839030826437e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 990713856,
	"step": 967500
	},
	{
	"epoch": 8.931454775283491,
	"grad_norm": 0.6144788265228271,
	"learning_rate": 5.34277225712994e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 991225856,
	"step": 968000
	},
	{
	"epoch": 8.93606813002279,
	"grad_norm": 0.8687652349472046,
	"learning_rate": 5.3197054834334434e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 991737856,
	"step": 968500
	},
	{
	"epoch": 8.94068148476209,
	"grad_norm": 0.9648618698120117,
	"learning_rate": 5.2966387097369466e-06,
	"loss": 0.0166,
	"num_input_tokens_seen": 992249856,
	"step": 969000
	},
	{
	"epoch": 8.945294839501388,
	"grad_norm": 0.6023857593536377,
	"learning_rate": 5.27357193604045e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 992761856,
	"step": 969500
	},
	{
	"epoch": 8.949908194240688,
	"grad_norm": 1.8448054790496826,
	"learning_rate": 5.250505162343954e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 993273856,
	"step": 970000
	},
	{
	"epoch": 8.954521548979987,
	"grad_norm": 0.6951389312744141,
	"learning_rate": 5.227438388647457e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 993785856,
	"step": 970500
	},
	{
	"epoch": 8.959134903719287,
	"grad_norm": 0.5784729719161987,
	"learning_rate": 5.204371614950961e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 994297856,
	"step": 971000
	},
	{
	"epoch": 8.963748258458587,
	"grad_norm": 1.4732640981674194,
	"learning_rate": 5.181304841254463e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 994809856,
	"step": 971500
	},
	{
	"epoch": 8.968361613197885,
	"grad_norm": 0.9267556667327881,
	"learning_rate": 5.158238067557967e-06,
	"loss": 0.0149,
	"num_input_tokens_seen": 995321856,
	"step": 972000
	},
	{
	"epoch": 8.972974967937185,
	"grad_norm": 0.3285810053348541,
	"learning_rate": 5.13517129386147e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 995833856,
	"step": 972500
	},
	{
	"epoch": 8.977588322676484,
	"grad_norm": 1.0577844381332397,
	"learning_rate": 5.112104520164974e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 996345856,
	"step": 973000
	},
	{
	"epoch": 8.982201677415784,
	"grad_norm": 0.40497535467147827,
	"learning_rate": 5.089037746468477e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 996857856,
	"step": 973500
	},
	{
	"epoch": 8.986815032155082,
	"grad_norm": 0.6067364811897278,
	"learning_rate": 5.065970972771981e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 997369856,
	"step": 974000
	},
	{
	"epoch": 8.991428386894382,
	"grad_norm": 0.5121076703071594,
	"learning_rate": 5.042904199075484e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 997881856,
	"step": 974500
	},
	{
	"epoch": 8.99604174163368,
	"grad_norm": 1.0173983573913574,
	"learning_rate": 5.0198374253789874e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 998393856,
	"step": 975000
	},
	{
	"epoch": 9.0,
	"eval_combined_score": 0.06468997752487994,
	"eval_loss": 0.06468997895717621,
	"eval_mse": 0.06468997609258367,
	"eval_runtime": 45.8521,
	"eval_samples_per_second": 2101.059,
	"eval_steps_per_second": 262.649,
	"num_input_tokens_seen": 998832384,
	"step": 975429
	},
	{
	"epoch": 9.00065509637298,
	"grad_norm": 0.4236084818840027,
	"learning_rate": 4.9967706516824906e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 998905088,
	"step": 975500
	},
	{
	"epoch": 9.00526845111228,
	"grad_norm": 0.6183050870895386,
	"learning_rate": 4.973703877985994e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 999417088,
	"step": 976000
	},
	{
	"epoch": 9.00988180585158,
	"grad_norm": 3.3244409561157227,
	"learning_rate": 4.950637104289498e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 999929088,
	"step": 976500
	},
	{
	"epoch": 9.014495160590878,
	"grad_norm": 0.5056183934211731,
	"learning_rate": 4.927570330593001e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 1000441088,
	"step": 977000
	},
	{
	"epoch": 9.019108515330178,
	"grad_norm": 0.6775535941123962,
	"learning_rate": 4.904503556896505e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 1000953088,
	"step": 977500
	},
	{
	"epoch": 9.023721870069478,
	"grad_norm": 0.4014028012752533,
	"learning_rate": 4.881436783200007e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1001465088,
	"step": 978000
	},
	{
	"epoch": 9.028335224808776,
	"grad_norm": 0.6904358863830566,
	"learning_rate": 4.858370009503511e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1001977088,
	"step": 978500
	},
	{
	"epoch": 9.032948579548076,
	"grad_norm": 1.717046856880188,
	"learning_rate": 4.835303235807014e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 1002489088,
	"step": 979000
	},
	{
	"epoch": 9.037561934287375,
	"grad_norm": 1.1280878782272339,
	"learning_rate": 4.812236462110518e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 1003001088,
	"step": 979500
	},
	{
	"epoch": 9.042175289026675,
	"grad_norm": 0.9828783869743347,
	"learning_rate": 4.789169688414021e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1003513088,
	"step": 980000
	},
	{
	"epoch": 9.046788643765973,
	"grad_norm": 0.9039996266365051,
	"learning_rate": 4.766102914717524e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1004025088,
	"step": 980500
	},
	{
	"epoch": 9.051401998505273,
	"grad_norm": 0.760273277759552,
	"learning_rate": 4.743036141021028e-06,
	"loss": 0.0129,
	"num_input_tokens_seen": 1004537088,
	"step": 981000
	},
	{
	"epoch": 9.056015353244572,
	"grad_norm": 0.6820119619369507,
	"learning_rate": 4.719969367324531e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 1005049088,
	"step": 981500
	},
	{
	"epoch": 9.060628707983872,
	"grad_norm": 0.8274890780448914,
	"learning_rate": 4.6969025936280346e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1005561088,
	"step": 982000
	},
	{
	"epoch": 9.06524206272317,
	"grad_norm": 0.43844661116600037,
	"learning_rate": 4.673835819931538e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 1006073088,
	"step": 982500
	},
	{
	"epoch": 9.06985541746247,
	"grad_norm": 1.0397804975509644,
	"learning_rate": 4.650769046235042e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1006585088,
	"step": 983000
	},
	{
	"epoch": 9.07446877220177,
	"grad_norm": 1.1185849905014038,
	"learning_rate": 4.627702272538545e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1007097088,
	"step": 983500
	},
	{
	"epoch": 9.079082126941069,
	"grad_norm": 0.4616248607635498,
	"learning_rate": 4.604635498842049e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1007609088,
	"step": 984000
	},
	{
	"epoch": 9.083695481680369,
	"grad_norm": 0.4887053966522217,
	"learning_rate": 4.581568725145551e-06,
	"loss": 0.0119,
	"num_input_tokens_seen": 1008121088,
	"step": 984500
	},
	{
	"epoch": 9.088308836419667,
	"grad_norm": 0.9657731056213379,
	"learning_rate": 4.558501951449055e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1008633088,
	"step": 985000
	},
	{
	"epoch": 9.092922191158967,
	"grad_norm": 0.6589749455451965,
	"learning_rate": 4.535435177752558e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1009145088,
	"step": 985500
	},
	{
	"epoch": 9.097535545898266,
	"grad_norm": 1.095737338066101,
	"learning_rate": 4.512368404056062e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1009657088,
	"step": 986000
	},
	{
	"epoch": 9.102148900637566,
	"grad_norm": 0.9578360915184021,
	"learning_rate": 4.489301630359565e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 1010169088,
	"step": 986500
	},
	{
	"epoch": 9.106762255376864,
	"grad_norm": 1.0494704246520996,
	"learning_rate": 4.466234856663068e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 1010681088,
	"step": 987000
	},
	{
	"epoch": 9.111375610116164,
	"grad_norm": 0.3351483643054962,
	"learning_rate": 4.443168082966572e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 1011193088,
	"step": 987500
	},
	{
	"epoch": 9.115988964855463,
	"grad_norm": 1.107553482055664,
	"learning_rate": 4.4201013092700746e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 1011705088,
	"step": 988000
	},
	{
	"epoch": 9.120602319594763,
	"grad_norm": 0.8427937626838684,
	"learning_rate": 4.3970345355735785e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1012217088,
	"step": 988500
	},
	{
	"epoch": 9.125215674334063,
	"grad_norm": 0.5374360084533691,
	"learning_rate": 4.373967761877082e-06,
	"loss": 0.0121,
	"num_input_tokens_seen": 1012729088,
	"step": 989000
	},
	{
	"epoch": 9.129829029073361,
	"grad_norm": 1.2801436185836792,
	"learning_rate": 4.350900988180586e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1013241088,
	"step": 989500
	},
	{
	"epoch": 9.134442383812662,
	"grad_norm": 2.0048415660858154,
	"learning_rate": 4.327834214484089e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1013753088,
	"step": 990000
	},
	{
	"epoch": 9.13905573855196,
	"grad_norm": 1.3461086750030518,
	"learning_rate": 4.304767440787593e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1014265088,
	"step": 990500
	},
	{
	"epoch": 9.14366909329126,
	"grad_norm": 0.5770676732063293,
	"learning_rate": 4.281700667091096e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1014777088,
	"step": 991000
	},
	{
	"epoch": 9.148282448030558,
	"grad_norm": 0.7648055553436279,
	"learning_rate": 4.258633893394599e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1015289088,
	"step": 991500
	},
	{
	"epoch": 9.152895802769859,
	"grad_norm": 0.8219977021217346,
	"learning_rate": 4.235567119698102e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1015801088,
	"step": 992000
	},
	{
	"epoch": 9.157509157509157,
	"grad_norm": 0.2618965804576874,
	"learning_rate": 4.212500346001605e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 1016313088,
	"step": 992500
	},
	{
	"epoch": 9.162122512248457,
	"grad_norm": 0.580898642539978,
	"learning_rate": 4.189433572305109e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1016825088,
	"step": 993000
	},
	{
	"epoch": 9.166735866987755,
	"grad_norm": 1.426604151725769,
	"learning_rate": 4.166366798608612e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1017337088,
	"step": 993500
	},
	{
	"epoch": 9.171349221727056,
	"grad_norm": 0.4607691764831543,
	"learning_rate": 4.143300024912116e-06,
	"loss": 0.0126,
	"num_input_tokens_seen": 1017849088,
	"step": 994000
	},
	{
	"epoch": 9.175962576466354,
	"grad_norm": 0.5528801083564758,
	"learning_rate": 4.1202332512156186e-06,
	"loss": 0.0125,
	"num_input_tokens_seen": 1018361088,
	"step": 994500
	},
	{
	"epoch": 9.180575931205654,
	"grad_norm": 0.24360989034175873,
	"learning_rate": 4.0971664775191225e-06,
	"loss": 0.0117,
	"num_input_tokens_seen": 1018873088,
	"step": 995000
	},
	{
	"epoch": 9.185189285944954,
	"grad_norm": 0.5846107602119446,
	"learning_rate": 4.074099703822626e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 1019385088,
	"step": 995500
	},
	{
	"epoch": 9.189802640684253,
	"grad_norm": 0.8627530932426453,
	"learning_rate": 4.05103293012613e-06,
	"loss": 0.0129,
	"num_input_tokens_seen": 1019897088,
	"step": 996000
	},
	{
	"epoch": 9.194415995423553,
	"grad_norm": 0.7435634732246399,
	"learning_rate": 4.027966156429633e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1020409088,
	"step": 996500
	},
	{
	"epoch": 9.199029350162851,
	"grad_norm": 0.6394104957580566,
	"learning_rate": 4.004899382733137e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 1020921088,
	"step": 997000
	},
	{
	"epoch": 9.203642704902151,
	"grad_norm": 0.4735194444656372,
	"learning_rate": 3.98183260903664e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 1021433088,
	"step": 997500
	},
	{
	"epoch": 9.20825605964145,
	"grad_norm": 0.9603920578956604,
	"learning_rate": 3.958765835340143e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1021945088,
	"step": 998000
	},
	{
	"epoch": 9.21286941438075,
	"grad_norm": 1.0817182064056396,
	"learning_rate": 3.935699061643646e-06,
	"loss": 0.0117,
	"num_input_tokens_seen": 1022457088,
	"step": 998500
	},
	{
	"epoch": 9.217482769120048,
	"grad_norm": 0.5785081386566162,
	"learning_rate": 3.912632287947149e-06,
	"loss": 0.0127,
	"num_input_tokens_seen": 1022969088,
	"step": 999000
	},
	{
	"epoch": 9.222096123859348,
	"grad_norm": 0.34806227684020996,
	"learning_rate": 3.889565514250653e-06,
	"loss": 0.0129,
	"num_input_tokens_seen": 1023481088,
	"step": 999500
	},
	{
	"epoch": 9.226709478598647,
	"grad_norm": 0.8392277359962463,
	"learning_rate": 3.866498740554156e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1023993088,
	"step": 1000000
	},
	{
	"epoch": 9.231322833337947,
	"grad_norm": 0.34862348437309265,
	"learning_rate": 3.84343196685766e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 1024505088,
	"step": 1000500
	},
	{
	"epoch": 9.235936188077247,
	"grad_norm": 0.8864858150482178,
	"learning_rate": 3.8203651931611626e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1025017088,
	"step": 1001000
	},
	{
	"epoch": 9.240549542816545,
	"grad_norm": 0.7740064263343811,
	"learning_rate": 3.797298419464666e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1025529088,
	"step": 1001500
	},
	{
	"epoch": 9.245162897555845,
	"grad_norm": 0.21236860752105713,
	"learning_rate": 3.7742316457681697e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1026041088,
	"step": 1002000
	},
	{
	"epoch": 9.249776252295144,
	"grad_norm": 0.5248683094978333,
	"learning_rate": 3.751164872071673e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1026553088,
	"step": 1002500
	},
	{
	"epoch": 9.254389607034444,
	"grad_norm": 0.49671700596809387,
	"learning_rate": 3.7280980983751767e-06,
	"loss": 0.0129,
	"num_input_tokens_seen": 1027065088,
	"step": 1003000
	},
	{
	"epoch": 9.259002961773742,
	"grad_norm": 0.7748130559921265,
	"learning_rate": 3.7050313246786803e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1027577088,
	"step": 1003500
	},
	{
	"epoch": 9.263616316513042,
	"grad_norm": 0.5696319341659546,
	"learning_rate": 3.681964550982184e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1028089088,
	"step": 1004000
	},
	{
	"epoch": 9.26822967125234,
	"grad_norm": 1.47969651222229,
	"learning_rate": 3.6588977772856865e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1028601088,
	"step": 1004500
	},
	{
	"epoch": 9.27284302599164,
	"grad_norm": 0.6833159923553467,
	"learning_rate": 3.63583100358919e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 1029113088,
	"step": 1005000
	},
	{
	"epoch": 9.27745638073094,
	"grad_norm": 0.9838703870773315,
	"learning_rate": 3.6127642298926936e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 1029625088,
	"step": 1005500
	},
	{
	"epoch": 9.28206973547024,
	"grad_norm": 0.5185501575469971,
	"learning_rate": 3.589697456196197e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 1030137088,
	"step": 1006000
	},
	{
	"epoch": 9.28668309020954,
	"grad_norm": 0.6044150590896606,
	"learning_rate": 3.5666306824997003e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1030649088,
	"step": 1006500
	},
	{
	"epoch": 9.291296444948838,
	"grad_norm": 0.5589469075202942,
	"learning_rate": 3.543563908803204e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1031161088,
	"step": 1007000
	},
	{
	"epoch": 9.295909799688138,
	"grad_norm": 0.8428828120231628,
	"learning_rate": 3.5204971351067066e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1031673088,
	"step": 1007500
	},
	{
	"epoch": 9.300523154427436,
	"grad_norm": 1.0949701070785522,
	"learning_rate": 3.49743036141021e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1032185088,
	"step": 1008000
	},
	{
	"epoch": 9.305136509166736,
	"grad_norm": 0.48161888122558594,
	"learning_rate": 3.4743635877137136e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 1032697088,
	"step": 1008500
	},
	{
	"epoch": 9.309749863906035,
	"grad_norm": 1.4229580163955688,
	"learning_rate": 3.451296814017217e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1033209088,
	"step": 1009000
	},
	{
	"epoch": 9.314363218645335,
	"grad_norm": 1.3797547817230225,
	"learning_rate": 3.4282300403207207e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 1033721088,
	"step": 1009500
	},
	{
	"epoch": 9.318976573384633,
	"grad_norm": 0.764750599861145,
	"learning_rate": 3.4051632666242243e-06,
	"loss": 0.0124,
	"num_input_tokens_seen": 1034233088,
	"step": 1010000
	},
	{
	"epoch": 9.323589928123933,
	"grad_norm": 1.4155054092407227,
	"learning_rate": 3.382096492927728e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 1034745088,
	"step": 1010500
	},
	{
	"epoch": 9.328203282863232,
	"grad_norm": 0.5639691352844238,
	"learning_rate": 3.3590297192312305e-06,
	"loss": 0.0123,
	"num_input_tokens_seen": 1035257088,
	"step": 1011000
	},
	{
	"epoch": 9.332816637602532,
	"grad_norm": 1.6954376697540283,
	"learning_rate": 3.335962945534734e-06,
	"loss": 0.0158,
	"num_input_tokens_seen": 1035769088,
	"step": 1011500
	},
	{
	"epoch": 9.337429992341832,
	"grad_norm": 1.096420168876648,
	"learning_rate": 3.3128961718382376e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1036281088,
	"step": 1012000
	},
	{
	"epoch": 9.34204334708113,
	"grad_norm": 0.7063207626342773,
	"learning_rate": 3.2898293981417408e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1036793088,
	"step": 1012500
	},
	{
	"epoch": 9.34665670182043,
	"grad_norm": 1.40740966796875,
	"learning_rate": 3.2667626244452443e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 1037305088,
	"step": 1013000
	},
	{
	"epoch": 9.351270056559729,
	"grad_norm": 1.0713701248168945,
	"learning_rate": 3.243695850748748e-06,
	"loss": 0.0122,
	"num_input_tokens_seen": 1037817088,
	"step": 1013500
	},
	{
	"epoch": 9.355883411299029,
	"grad_norm": 0.41992899775505066,
	"learning_rate": 3.2206290770522505e-06,
	"loss": 0.0114,
	"num_input_tokens_seen": 1038329088,
	"step": 1014000
	},
	{
	"epoch": 9.360496766038327,
	"grad_norm": 0.42630577087402344,
	"learning_rate": 3.197562303355754e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 1038841088,
	"step": 1014500
	},
	{
	"epoch": 9.365110120777628,
	"grad_norm": 1.1027462482452393,
	"learning_rate": 3.1744955296592576e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1039353088,
	"step": 1015000
	},
	{
	"epoch": 9.369723475516926,
	"grad_norm": 0.5520905256271362,
	"learning_rate": 3.151428755962761e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1039865088,
	"step": 1015500
	},
	{
	"epoch": 9.374336830256226,
	"grad_norm": 0.46760430932044983,
	"learning_rate": 3.1283619822662647e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1040377088,
	"step": 1016000
	},
	{
	"epoch": 9.378950184995524,
	"grad_norm": 0.5815434455871582,
	"learning_rate": 3.105295208569768e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1040889088,
	"step": 1016500
	},
	{
	"epoch": 9.383563539734824,
	"grad_norm": 1.3620293140411377,
	"learning_rate": 3.0822284348732714e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1041401088,
	"step": 1017000
	},
	{
	"epoch": 9.388176894474123,
	"grad_norm": 0.8543253540992737,
	"learning_rate": 3.059161661176775e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1041913088,
	"step": 1017500
	},
	{
	"epoch": 9.392790249213423,
	"grad_norm": 1.2159240245819092,
	"learning_rate": 3.036094887480278e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 1042425088,
	"step": 1018000
	},
	{
	"epoch": 9.397403603952723,
	"grad_norm": 0.7059375643730164,
	"learning_rate": 3.013028113783781e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1042937088,
	"step": 1018500
	},
	{
	"epoch": 9.402016958692021,
	"grad_norm": 0.45824775099754333,
	"learning_rate": 2.9899613400872847e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 1043449088,
	"step": 1019000
	},
	{
	"epoch": 9.406630313431322,
	"grad_norm": 0.6606787443161011,
	"learning_rate": 2.9668945663907883e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 1043961088,
	"step": 1019500
	},
	{
	"epoch": 9.41124366817062,
	"grad_norm": 0.8153837323188782,
	"learning_rate": 2.9438277926942914e-06,
	"loss": 0.0125,
	"num_input_tokens_seen": 1044473088,
	"step": 1020000
	},
	{
	"epoch": 9.41585702290992,
	"grad_norm": 0.4770793318748474,
	"learning_rate": 2.920761018997795e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 1044985088,
	"step": 1020500
	},
	{
	"epoch": 9.420470377649218,
	"grad_norm": 1.226976990699768,
	"learning_rate": 2.8976942453012985e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1045497088,
	"step": 1021000
	},
	{
	"epoch": 9.425083732388519,
	"grad_norm": 0.3825905919075012,
	"learning_rate": 2.8746274716048016e-06,
	"loss": 0.0125,
	"num_input_tokens_seen": 1046009088,
	"step": 1021500
	},
	{
	"epoch": 9.429697087127817,
	"grad_norm": 0.6580853462219238,
	"learning_rate": 2.851560697908305e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 1046521088,
	"step": 1022000
	},
	{
	"epoch": 9.434310441867117,
	"grad_norm": 1.0704902410507202,
	"learning_rate": 2.8284939242118087e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1047033088,
	"step": 1022500
	},
	{
	"epoch": 9.438923796606415,
	"grad_norm": 1.5487003326416016,
	"learning_rate": 2.805427150515312e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 1047545088,
	"step": 1023000
	},
	{
	"epoch": 9.443537151345716,
	"grad_norm": 0.4171670079231262,
	"learning_rate": 2.7823603768188154e-06,
	"loss": 0.0127,
	"num_input_tokens_seen": 1048057088,
	"step": 1023500
	},
	{
	"epoch": 9.448150506085016,
	"grad_norm": 1.1898133754730225,
	"learning_rate": 2.7592936031223185e-06,
	"loss": 0.0157,
	"num_input_tokens_seen": 1048569088,
	"step": 1024000
	},
	{
	"epoch": 9.452763860824314,
	"grad_norm": 0.4748603105545044,
	"learning_rate": 2.7362268294258216e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1049081088,
	"step": 1024500
	},
	{
	"epoch": 9.457377215563614,
	"grad_norm": 1.6988264322280884,
	"learning_rate": 2.713160055729325e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1049593088,
	"step": 1025000
	},
	{
	"epoch": 9.461990570302913,
	"grad_norm": 1.1586196422576904,
	"learning_rate": 2.6900932820328287e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 1050105088,
	"step": 1025500
	},
	{
	"epoch": 9.466603925042213,
	"grad_norm": 1.3323612213134766,
	"learning_rate": 2.6670265083363323e-06,
	"loss": 0.0117,
	"num_input_tokens_seen": 1050617088,
	"step": 1026000
	},
	{
	"epoch": 9.471217279781511,
	"grad_norm": 0.6006079316139221,
	"learning_rate": 2.6439597346398354e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 1051129088,
	"step": 1026500
	},
	{
	"epoch": 9.475830634520811,
	"grad_norm": 0.9578723907470703,
	"learning_rate": 2.620892960943339e-06,
	"loss": 0.0122,
	"num_input_tokens_seen": 1051641088,
	"step": 1027000
	},
	{
	"epoch": 9.48044398926011,
	"grad_norm": 0.9589295983314514,
	"learning_rate": 2.5978261872468425e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1052153088,
	"step": 1027500
	},
	{
	"epoch": 9.48505734399941,
	"grad_norm": 1.320854663848877,
	"learning_rate": 2.5747594135503456e-06,
	"loss": 0.0166,
	"num_input_tokens_seen": 1052665088,
	"step": 1028000
	},
	{
	"epoch": 9.489670698738708,
	"grad_norm": 0.5850228071212769,
	"learning_rate": 2.551692639853849e-06,
	"loss": 0.0127,
	"num_input_tokens_seen": 1053177088,
	"step": 1028500
	},
	{
	"epoch": 9.494284053478008,
	"grad_norm": 0.4947618544101715,
	"learning_rate": 2.5286258661573527e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1053689088,
	"step": 1029000
	},
	{
	"epoch": 9.498897408217307,
	"grad_norm": 1.5554652214050293,
	"learning_rate": 2.505559092460856e-06,
	"loss": 0.0114,
	"num_input_tokens_seen": 1054201088,
	"step": 1029500
	},
	{
	"epoch": 9.503510762956607,
	"grad_norm": 0.7134987711906433,
	"learning_rate": 2.482492318764359e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1054713088,
	"step": 1030000
	},
	{
	"epoch": 9.508124117695907,
	"grad_norm": 0.6300977468490601,
	"learning_rate": 2.4594255450678625e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1055225088,
	"step": 1030500
	},
	{
	"epoch": 9.512737472435205,
	"grad_norm": 0.30723100900650024,
	"learning_rate": 2.4363587713713656e-06,
	"loss": 0.012,
	"num_input_tokens_seen": 1055737088,
	"step": 1031000
	},
	{
	"epoch": 9.517350827174505,
	"grad_norm": 0.5518991947174072,
	"learning_rate": 2.413291997674869e-06,
	"loss": 0.0125,
	"num_input_tokens_seen": 1056249088,
	"step": 1031500
	},
	{
	"epoch": 9.521964181913804,
	"grad_norm": 0.48715853691101074,
	"learning_rate": 2.3902252239783727e-06,
	"loss": 0.0147,
	"num_input_tokens_seen": 1056761088,
	"step": 1032000
	},
	{
	"epoch": 9.526577536653104,
	"grad_norm": 0.9060729742050171,
	"learning_rate": 2.3671584502818763e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 1057273088,
	"step": 1032500
	},
	{
	"epoch": 9.531190891392402,
	"grad_norm": 0.6399810910224915,
	"learning_rate": 2.3440916765853794e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 1057785088,
	"step": 1033000
	},
	{
	"epoch": 9.535804246131702,
	"grad_norm": 0.8663894534111023,
	"learning_rate": 2.321024902888883e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1058297088,
	"step": 1033500
	},
	{
	"epoch": 9.540417600871,
	"grad_norm": 1.554218053817749,
	"learning_rate": 2.2979581291923865e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1058809088,
	"step": 1034000
	},
	{
	"epoch": 9.5450309556103,
	"grad_norm": 0.5967795848846436,
	"learning_rate": 2.2748913554958896e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1059321088,
	"step": 1034500
	},
	{
	"epoch": 9.5496443103496,
	"grad_norm": 0.7761898040771484,
	"learning_rate": 2.251824581799393e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1059833088,
	"step": 1035000
	},
	{
	"epoch": 9.5542576650889,
	"grad_norm": 0.4565838873386383,
	"learning_rate": 2.2287578081028963e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1060345088,
	"step": 1035500
	},
	{
	"epoch": 9.5588710198282,
	"grad_norm": 1.4918292760849,
	"learning_rate": 2.2056910344063994e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 1060857088,
	"step": 1036000
	},
	{
	"epoch": 9.563484374567498,
	"grad_norm": 1.143227458000183,
	"learning_rate": 2.182624260709903e-06,
	"loss": 0.0126,
	"num_input_tokens_seen": 1061369088,
	"step": 1036500
	},
	{
	"epoch": 9.568097729306798,
	"grad_norm": 0.4711507558822632,
	"learning_rate": 2.1595574870134065e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1061881088,
	"step": 1037000
	},
	{
	"epoch": 9.572711084046096,
	"grad_norm": 1.8225018978118896,
	"learning_rate": 2.1364907133169096e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 1062393088,
	"step": 1037500
	},
	{
	"epoch": 9.577324438785396,
	"grad_norm": 1.6516982316970825,
	"learning_rate": 2.113423939620413e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1062905088,
	"step": 1038000
	},
	{
	"epoch": 9.581937793524695,
	"grad_norm": 0.6592885255813599,
	"learning_rate": 2.0903571659239167e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 1063417088,
	"step": 1038500
	},
	{
	"epoch": 9.586551148263995,
	"grad_norm": 0.9162536263465881,
	"learning_rate": 2.0672903922274203e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 1063929088,
	"step": 1039000
	},
	{
	"epoch": 9.591164503003293,
	"grad_norm": 1.3136478662490845,
	"learning_rate": 2.0442236185309234e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 1064441088,
	"step": 1039500
	},
	{
	"epoch": 9.595777857742593,
	"grad_norm": 0.8929975032806396,
	"learning_rate": 2.021156844834427e-06,
	"loss": 0.0124,
	"num_input_tokens_seen": 1064953088,
	"step": 1040000
	},
	{
	"epoch": 9.600391212481892,
	"grad_norm": 0.6862032413482666,
	"learning_rate": 1.9980900711379305e-06,
	"loss": 0.0116,
	"num_input_tokens_seen": 1065465088,
	"step": 1040500
	},
	{
	"epoch": 9.605004567221192,
	"grad_norm": 1.4420340061187744,
	"learning_rate": 1.9750232974414336e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1065977088,
	"step": 1041000
	},
	{
	"epoch": 9.609617921960492,
	"grad_norm": 0.6107918620109558,
	"learning_rate": 1.9519565237449367e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1066489088,
	"step": 1041500
	},
	{
	"epoch": 9.61423127669979,
	"grad_norm": 0.8065725564956665,
	"learning_rate": 1.9288897500484403e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1067001088,
	"step": 1042000
	},
	{
	"epoch": 9.61884463143909,
	"grad_norm": 1.1736738681793213,
	"learning_rate": 1.9058229763519436e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1067513088,
	"step": 1042500
	},
	{
	"epoch": 9.623457986178389,
	"grad_norm": 3.729763984680176,
	"learning_rate": 1.882756202655447e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1068025088,
	"step": 1043000
	},
	{
	"epoch": 9.628071340917689,
	"grad_norm": 0.39236801862716675,
	"learning_rate": 1.8596894289589505e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 1068537088,
	"step": 1043500
	},
	{
	"epoch": 9.632684695656987,
	"grad_norm": 1.0780402421951294,
	"learning_rate": 1.8366226552624536e-06,
	"loss": 0.0112,
	"num_input_tokens_seen": 1069049088,
	"step": 1044000
	},
	{
	"epoch": 9.637298050396288,
	"grad_norm": 0.5110656023025513,
	"learning_rate": 1.8135558815659572e-06,
	"loss": 0.0127,
	"num_input_tokens_seen": 1069561088,
	"step": 1044500
	},
	{
	"epoch": 9.641911405135586,
	"grad_norm": 0.23593804240226746,
	"learning_rate": 1.7904891078694607e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 1070073088,
	"step": 1045000
	},
	{
	"epoch": 9.646524759874886,
	"grad_norm": 0.9505711793899536,
	"learning_rate": 1.767422334172964e-06,
	"loss": 0.0125,
	"num_input_tokens_seen": 1070585088,
	"step": 1045500
	},
	{
	"epoch": 9.651138114614184,
	"grad_norm": 0.9649909138679504,
	"learning_rate": 1.7443555604764672e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 1071097088,
	"step": 1046000
	},
	{
	"epoch": 9.655751469353484,
	"grad_norm": 0.29947414994239807,
	"learning_rate": 1.7212887867799707e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 1071609088,
	"step": 1046500
	},
	{
	"epoch": 9.660364824092785,
	"grad_norm": 0.9218162298202515,
	"learning_rate": 1.6982220130834743e-06,
	"loss": 0.0141,
	"num_input_tokens_seen": 1072121088,
	"step": 1047000
	},
	{
	"epoch": 9.664978178832083,
	"grad_norm": 1.3005330562591553,
	"learning_rate": 1.6751552393869774e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 1072633088,
	"step": 1047500
	},
	{
	"epoch": 9.669591533571383,
	"grad_norm": 1.300002932548523,
	"learning_rate": 1.652088465690481e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1073145088,
	"step": 1048000
	},
	{
	"epoch": 9.674204888310681,
	"grad_norm": 0.6326736211776733,
	"learning_rate": 1.6290216919939843e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 1073657088,
	"step": 1048500
	},
	{
	"epoch": 9.678818243049982,
	"grad_norm": 0.865162193775177,
	"learning_rate": 1.6059549182974874e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1074169088,
	"step": 1049000
	},
	{
	"epoch": 9.68343159778928,
	"grad_norm": 0.6226495504379272,
	"learning_rate": 1.582888144600991e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1074681088,
	"step": 1049500
	},
	{
	"epoch": 9.68804495252858,
	"grad_norm": 1.6454648971557617,
	"learning_rate": 1.5598213709044945e-06,
	"loss": 0.012,
	"num_input_tokens_seen": 1075193088,
	"step": 1050000
	},
	{
	"epoch": 9.692658307267878,
	"grad_norm": 0.4671117663383484,
	"learning_rate": 1.5367545972079978e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 1075705088,
	"step": 1050500
	},
	{
	"epoch": 9.697271662007179,
	"grad_norm": 0.9937256574630737,
	"learning_rate": 1.5136878235115012e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1076217088,
	"step": 1051000
	},
	{
	"epoch": 9.701885016746477,
	"grad_norm": 0.976679265499115,
	"learning_rate": 1.4906210498150045e-06,
	"loss": 0.0134,
	"num_input_tokens_seen": 1076729088,
	"step": 1051500
	},
	{
	"epoch": 9.706498371485777,
	"grad_norm": 0.5003361701965332,
	"learning_rate": 1.4675542761185078e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 1077241088,
	"step": 1052000
	},
	{
	"epoch": 9.711111726225077,
	"grad_norm": 0.7003839015960693,
	"learning_rate": 1.4444875024220114e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1077753088,
	"step": 1052500
	},
	{
	"epoch": 9.715725080964376,
	"grad_norm": 0.6862497925758362,
	"learning_rate": 1.4214207287255147e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 1078265088,
	"step": 1053000
	},
	{
	"epoch": 9.720338435703676,
	"grad_norm": 0.26981067657470703,
	"learning_rate": 1.398353955029018e-06,
	"loss": 0.0124,
	"num_input_tokens_seen": 1078777088,
	"step": 1053500
	},
	{
	"epoch": 9.724951790442974,
	"grad_norm": 0.6135255694389343,
	"learning_rate": 1.3752871813325216e-06,
	"loss": 0.0133,
	"num_input_tokens_seen": 1079289088,
	"step": 1054000
	},
	{
	"epoch": 9.729565145182274,
	"grad_norm": 0.6279376149177551,
	"learning_rate": 1.3522204076360247e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 1079801088,
	"step": 1054500
	},
	{
	"epoch": 9.734178499921573,
	"grad_norm": 1.5329886674880981,
	"learning_rate": 1.329153633939528e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 1080313088,
	"step": 1055000
	},
	{
	"epoch": 9.738791854660873,
	"grad_norm": 1.2570598125457764,
	"learning_rate": 1.3060868602430316e-06,
	"loss": 0.0126,
	"num_input_tokens_seen": 1080825088,
	"step": 1055500
	},
	{
	"epoch": 9.743405209400171,
	"grad_norm": 1.8935927152633667,
	"learning_rate": 1.283020086546535e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 1081337088,
	"step": 1056000
	},
	{
	"epoch": 9.748018564139471,
	"grad_norm": 0.5364086031913757,
	"learning_rate": 1.2599533128500385e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 1081849088,
	"step": 1056500
	},
	{
	"epoch": 9.75263191887877,
	"grad_norm": 0.6562399864196777,
	"learning_rate": 1.2368865391535418e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 1082361088,
	"step": 1057000
	},
	{
	"epoch": 9.75724527361807,
	"grad_norm": 0.7584030628204346,
	"learning_rate": 1.213819765457045e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 1082873088,
	"step": 1057500
	},
	{
	"epoch": 9.76185862835737,
	"grad_norm": 0.8746394515037537,
	"learning_rate": 1.1907529917605485e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 1083385088,
	"step": 1058000
	},
	{
	"epoch": 9.766471983096668,
	"grad_norm": 1.1132066249847412,
	"learning_rate": 1.1676862180640518e-06,
	"loss": 0.0129,
	"num_input_tokens_seen": 1083897088,
	"step": 1058500
	},
	{
	"epoch": 9.771085337835968,
	"grad_norm": 0.7786855697631836,
	"learning_rate": 1.1446194443675554e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 1084409088,
	"step": 1059000
	},
	{
	"epoch": 9.775698692575267,
	"grad_norm": 0.5935215353965759,
	"learning_rate": 1.1215526706710587e-06,
	"loss": 0.0144,
	"num_input_tokens_seen": 1084921088,
	"step": 1059500
	},
	{
	"epoch": 9.780312047314567,
	"grad_norm": 1.0187913179397583,
	"learning_rate": 1.098485896974562e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 1085433088,
	"step": 1060000
	},
	{
	"epoch": 9.784925402053865,
	"grad_norm": 0.6144331693649292,
	"learning_rate": 1.0754191232780654e-06,
	"loss": 0.0123,
	"num_input_tokens_seen": 1085945088,
	"step": 1060500
	},
	{
	"epoch": 9.789538756793165,
	"grad_norm": 0.6357366442680359,
	"learning_rate": 1.0523523495815687e-06,
	"loss": 0.0124,
	"num_input_tokens_seen": 1086457088,
	"step": 1061000
	},
	{
	"epoch": 9.794152111532464,
	"grad_norm": 8.163220405578613,
	"learning_rate": 1.0292855758850723e-06,
	"loss": 0.0151,
	"num_input_tokens_seen": 1086969088,
	"step": 1061500
	},
	{
	"epoch": 9.798765466271764,
	"grad_norm": 1.1560457944869995,
	"learning_rate": 1.0062188021885756e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 1087481088,
	"step": 1062000
	},
	{
	"epoch": 9.803378821011062,
	"grad_norm": 1.6285614967346191,
	"learning_rate": 9.83152028492079e-07,
	"loss": 0.0124,
	"num_input_tokens_seen": 1087993088,
	"step": 1062500
	},
	{
	"epoch": 9.807992175750362,
	"grad_norm": 0.9213132858276367,
	"learning_rate": 9.600852547955823e-07,
	"loss": 0.0125,
	"num_input_tokens_seen": 1088505088,
	"step": 1063000
	},
	{
	"epoch": 9.81260553048966,
	"grad_norm": 0.7964446544647217,
	"learning_rate": 9.370184810990857e-07,
	"loss": 0.0139,
	"num_input_tokens_seen": 1089017088,
	"step": 1063500
	},
	{
	"epoch": 9.81721888522896,
	"grad_norm": 0.8223236799240112,
	"learning_rate": 9.139517074025889e-07,
	"loss": 0.0128,
	"num_input_tokens_seen": 1089529088,
	"step": 1064000
	},
	{
	"epoch": 9.821832239968261,
	"grad_norm": 0.9797717332839966,
	"learning_rate": 8.908849337060925e-07,
	"loss": 0.0126,
	"num_input_tokens_seen": 1090041088,
	"step": 1064500
	},
	{
	"epoch": 9.82644559470756,
	"grad_norm": 0.23104320466518402,
	"learning_rate": 8.678181600095958e-07,
	"loss": 0.0145,
	"num_input_tokens_seen": 1090553088,
	"step": 1065000
	},
	{
	"epoch": 9.83105894944686,
	"grad_norm": 0.5735734105110168,
	"learning_rate": 8.447513863130993e-07,
	"loss": 0.0146,
	"num_input_tokens_seen": 1091065088,
	"step": 1065500
	},
	{
	"epoch": 9.835672304186158,
	"grad_norm": 0.5744655132293701,
	"learning_rate": 8.216846126166026e-07,
	"loss": 0.0128,
	"num_input_tokens_seen": 1091577088,
	"step": 1066000
	},
	{
	"epoch": 9.840285658925458,
	"grad_norm": 4.304238319396973,
	"learning_rate": 7.986178389201059e-07,
	"loss": 0.0124,
	"num_input_tokens_seen": 1092089088,
	"step": 1066500
	},
	{
	"epoch": 9.844899013664756,
	"grad_norm": 0.7492998838424683,
	"learning_rate": 7.755510652236094e-07,
	"loss": 0.0137,
	"num_input_tokens_seen": 1092601088,
	"step": 1067000
	},
	{
	"epoch": 9.849512368404056,
	"grad_norm": 0.21370269358158112,
	"learning_rate": 7.524842915271127e-07,
	"loss": 0.0128,
	"num_input_tokens_seen": 1093113088,
	"step": 1067500
	},
	{
	"epoch": 9.854125723143355,
	"grad_norm": 1.3890074491500854,
	"learning_rate": 7.294175178306161e-07,
	"loss": 0.0133,
	"num_input_tokens_seen": 1093625088,
	"step": 1068000
	},
	{
	"epoch": 9.858739077882655,
	"grad_norm": 0.9255247116088867,
	"learning_rate": 7.063507441341195e-07,
	"loss": 0.0125,
	"num_input_tokens_seen": 1094137088,
	"step": 1068500
	},
	{
	"epoch": 9.863352432621953,
	"grad_norm": 0.617211639881134,
	"learning_rate": 6.832839704376229e-07,
	"loss": 0.0118,
	"num_input_tokens_seen": 1094649088,
	"step": 1069000
	},
	{
	"epoch": 9.867965787361253,
	"grad_norm": 0.7818981409072876,
	"learning_rate": 6.602171967411263e-07,
	"loss": 0.0128,
	"num_input_tokens_seen": 1095161088,
	"step": 1069500
	},
	{
	"epoch": 9.872579142100552,
	"grad_norm": 0.7910097241401672,
	"learning_rate": 6.371504230446296e-07,
	"loss": 0.0125,
	"num_input_tokens_seen": 1095673088,
	"step": 1070000
	},
	{
	"epoch": 9.877192496839852,
	"grad_norm": 0.9167271256446838,
	"learning_rate": 6.14083649348133e-07,
	"loss": 0.0145,
	"num_input_tokens_seen": 1096185088,
	"step": 1070500
	},
	{
	"epoch": 9.881805851579152,
	"grad_norm": 0.4515294134616852,
	"learning_rate": 5.910168756516364e-07,
	"loss": 0.0128,
	"num_input_tokens_seen": 1096697088,
	"step": 1071000
	},
	{
	"epoch": 9.88641920631845,
	"grad_norm": 1.4242569208145142,
	"learning_rate": 5.679501019551397e-07,
	"loss": 0.0123,
	"num_input_tokens_seen": 1097209088,
	"step": 1071500
	},
	{
	"epoch": 9.89103256105775,
	"grad_norm": 1.5031037330627441,
	"learning_rate": 5.448833282586431e-07,
	"loss": 0.0132,
	"num_input_tokens_seen": 1097721088,
	"step": 1072000
	},
	{
	"epoch": 9.895645915797049,
	"grad_norm": 0.5102546215057373,
	"learning_rate": 5.218165545621465e-07,
	"loss": 0.0134,
	"num_input_tokens_seen": 1098233088,
	"step": 1072500
	},
	{
	"epoch": 9.900259270536349,
	"grad_norm": 0.5648242831230164,
	"learning_rate": 4.987497808656499e-07,
	"loss": 0.0132,
	"num_input_tokens_seen": 1098745088,
	"step": 1073000
	},
	{
	"epoch": 9.904872625275647,
	"grad_norm": 1.368865728378296,
	"learning_rate": 4.756830071691533e-07,
	"loss": 0.0136,
	"num_input_tokens_seen": 1099257088,
	"step": 1073500
	},
	{
	"epoch": 9.909485980014948,
	"grad_norm": 0.372745156288147,
	"learning_rate": 4.5261623347265665e-07,
	"loss": 0.0149,
	"num_input_tokens_seen": 1099769088,
	"step": 1074000
	},
	{
	"epoch": 9.914099334754246,
	"grad_norm": 0.5571704506874084,
	"learning_rate": 4.2954945977616003e-07,
	"loss": 0.0132,
	"num_input_tokens_seen": 1100281088,
	"step": 1074500
	},
	{
	"epoch": 9.918712689493546,
	"grad_norm": 0.44755375385284424,
	"learning_rate": 4.064826860796634e-07,
	"loss": 0.0138,
	"num_input_tokens_seen": 1100793088,
	"step": 1075000
	},
	{
	"epoch": 9.923326044232844,
	"grad_norm": 0.467204749584198,
	"learning_rate": 3.834159123831668e-07,
	"loss": 0.0138,
	"num_input_tokens_seen": 1101305088,
	"step": 1075500
	},
	{
	"epoch": 9.927939398972145,
	"grad_norm": 1.1227315664291382,
	"learning_rate": 3.603491386866702e-07,
	"loss": 0.0131,
	"num_input_tokens_seen": 1101817088,
	"step": 1076000
	},
	{
	"epoch": 9.932552753711445,
	"grad_norm": 0.8583968877792358,
	"learning_rate": 3.3728236499017353e-07,
	"loss": 0.0143,
	"num_input_tokens_seen": 1102329088,
	"step": 1076500
	},
	{
	"epoch": 9.937166108450743,
	"grad_norm": 0.830702543258667,
	"learning_rate": 3.14215591293677e-07,
	"loss": 0.0139,
	"num_input_tokens_seen": 1102841088,
	"step": 1077000
	},
	{
	"epoch": 9.941779463190043,
	"grad_norm": 1.864600658416748,
	"learning_rate": 2.9114881759718036e-07,
	"loss": 0.013,
	"num_input_tokens_seen": 1103353088,
	"step": 1077500
	},
	{
	"epoch": 9.946392817929341,
	"grad_norm": 0.8975169658660889,
	"learning_rate": 2.680820439006837e-07,
	"loss": 0.0127,
	"num_input_tokens_seen": 1103865088,
	"step": 1078000
	},
	{
	"epoch": 9.951006172668642,
	"grad_norm": 0.7767340540885925,
	"learning_rate": 2.450152702041871e-07,
	"loss": 0.0132,
	"num_input_tokens_seen": 1104377088,
	"step": 1078500
	},
	{
	"epoch": 9.95561952740794,
	"grad_norm": 0.6193325519561768,
	"learning_rate": 2.2194849650769047e-07,
	"loss": 0.0144,
	"num_input_tokens_seen": 1104889088,
	"step": 1079000
	},
	{
	"epoch": 9.96023288214724,
	"grad_norm": 1.1023420095443726,
	"learning_rate": 1.9888172281119386e-07,
	"loss": 0.0141,
	"num_input_tokens_seen": 1105401088,
	"step": 1079500
	},
	{
	"epoch": 9.964846236886538,
	"grad_norm": 1.2743160724639893,
	"learning_rate": 1.7581494911469725e-07,
	"loss": 0.0119,
	"num_input_tokens_seen": 1105913088,
	"step": 1080000
	},
	{
	"epoch": 9.969459591625839,
	"grad_norm": 0.7009992599487305,
	"learning_rate": 1.527481754182006e-07,
	"loss": 0.0131,
	"num_input_tokens_seen": 1106425088,
	"step": 1080500
	},
	{
	"epoch": 9.974072946365137,
	"grad_norm": 0.5736069679260254,
	"learning_rate": 1.29681401721704e-07,
	"loss": 0.0174,
	"num_input_tokens_seen": 1106937088,
	"step": 1081000
	},
	{
	"epoch": 9.978686301104437,
	"grad_norm": 0.4789179861545563,
	"learning_rate": 1.0661462802520738e-07,
	"loss": 0.0129,
	"num_input_tokens_seen": 1107449088,
	"step": 1081500
	},
	{
	"epoch": 9.983299655843737,
	"grad_norm": 0.7064932584762573,
	"learning_rate": 8.354785432871076e-08,
	"loss": 0.0122,
	"num_input_tokens_seen": 1107961088,
	"step": 1082000
	},
	{
	"epoch": 9.987913010583036,
	"grad_norm": 1.0066189765930176,
	"learning_rate": 6.048108063221414e-08,
	"loss": 0.0127,
	"num_input_tokens_seen": 1108473088,
	"step": 1082500
	},
	{
	"epoch": 9.992526365322336,
	"grad_norm": 1.61360502243042,
	"learning_rate": 3.7414306935717514e-08,
	"loss": 0.0135,
	"num_input_tokens_seen": 1108985088,
	"step": 1083000
	},
	{
	"epoch": 9.997139720061634,
	"grad_norm": 0.37303218245506287,
	"learning_rate": 1.4347533239220898e-08,
	"loss": 0.0133,
	"num_input_tokens_seen": 1109497088,
	"step": 1083500
	},
	{
	"epoch": 10.0,
	"eval_combined_score": 0.06429717740844736,
	"eval_loss": 0.06429717689752579,
	"eval_mse": 0.06429717791936893,
	"eval_runtime": 46.2743,
	"eval_samples_per_second": 2081.892,
	"eval_steps_per_second": 260.253,
	"num_input_tokens_seen": 1109813760,
	"step": 1083810
	},
	{
	"epoch": 10.0,
	"num_input_tokens_seen": 1109813760,
	"step": 1083810,
	"total_flos": 1.4278349548463616e+17,
	"train_loss": 0.035630166295778455,
	"train_runtime": 37672.0963,
	"train_samples_per_second": 230.155,
	"train_steps_per_second": 28.77,
	"train_tokens_per_second": 29459.836
	}
	],
	"logging_steps": 500,
	"max_steps": 1083810,
	"num_input_tokens_seen": 1109813760,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4278349548463616e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}