80M-0.050-cosmopedia / checkpoint /trainer_state.json

Upload folder using huggingface_hub

53fa63d verified 3 months ago

77.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.49997953419835456,
	"eval_steps": 4886,
	"global_step": 24430,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0009823584789816217,
	"grad_norm": 640.0,
	"learning_rate": 0.001,
	"loss": 11885.6341,
	"step": 48
	},
	{
	"epoch": 0.0019647169579632435,
	"grad_norm": 454.0,
	"learning_rate": 0.001,
	"loss": 8966.3691,
	"step": 96
	},
	{
	"epoch": 0.0029470754369448652,
	"grad_norm": 572.0,
	"learning_rate": 0.001,
	"loss": 7738.5072,
	"step": 144
	},
	{
	"epoch": 0.003929433915926487,
	"grad_norm": 636.0,
	"learning_rate": 0.001,
	"loss": 7036.127,
	"step": 192
	},
	{
	"epoch": 0.004911792394908109,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 6540.5202,
	"step": 240
	},
	{
	"epoch": 0.0058941508738897305,
	"grad_norm": 556.0,
	"learning_rate": 0.001,
	"loss": 6263.0488,
	"step": 288
	},
	{
	"epoch": 0.006876509352871352,
	"grad_norm": 532.0,
	"learning_rate": 0.001,
	"loss": 5950.1823,
	"step": 336
	},
	{
	"epoch": 0.007858867831852974,
	"grad_norm": 928.0,
	"learning_rate": 0.001,
	"loss": 5705.2292,
	"step": 384
	},
	{
	"epoch": 0.008841226310834595,
	"grad_norm": 444.0,
	"learning_rate": 0.001,
	"loss": 5496.4583,
	"step": 432
	},
	{
	"epoch": 0.009823584789816217,
	"grad_norm": 656.0,
	"learning_rate": 0.001,
	"loss": 5272.5752,
	"step": 480
	},
	{
	"epoch": 0.010805943268797838,
	"grad_norm": 612.0,
	"learning_rate": 0.001,
	"loss": 5051.2663,
	"step": 528
	},
	{
	"epoch": 0.011788301747779461,
	"grad_norm": 608.0,
	"learning_rate": 0.001,
	"loss": 4938.0895,
	"step": 576
	},
	{
	"epoch": 0.012770660226761082,
	"grad_norm": 466.0,
	"learning_rate": 0.001,
	"loss": 4740.762,
	"step": 624
	},
	{
	"epoch": 0.013753018705742704,
	"grad_norm": 438.0,
	"learning_rate": 0.001,
	"loss": 4573.4443,
	"step": 672
	},
	{
	"epoch": 0.014735377184724325,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 4539.9521,
	"step": 720
	},
	{
	"epoch": 0.015717735663705948,
	"grad_norm": 892.0,
	"learning_rate": 0.001,
	"loss": 4435.4001,
	"step": 768
	},
	{
	"epoch": 0.01670009414268757,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 4239.0426,
	"step": 816
	},
	{
	"epoch": 0.01768245262166919,
	"grad_norm": 548.0,
	"learning_rate": 0.001,
	"loss": 4189.9281,
	"step": 864
	},
	{
	"epoch": 0.018664811100650814,
	"grad_norm": 540.0,
	"learning_rate": 0.001,
	"loss": 4104.7835,
	"step": 912
	},
	{
	"epoch": 0.019647169579632435,
	"grad_norm": 592.0,
	"learning_rate": 0.001,
	"loss": 4044.3369,
	"step": 960
	},
	{
	"epoch": 0.020629528058614056,
	"grad_norm": 536.0,
	"learning_rate": 0.001,
	"loss": 3936.5283,
	"step": 1008
	},
	{
	"epoch": 0.021611886537595677,
	"grad_norm": 604.0,
	"learning_rate": 0.001,
	"loss": 3915.6911,
	"step": 1056
	},
	{
	"epoch": 0.0225942450165773,
	"grad_norm": 458.0,
	"learning_rate": 0.001,
	"loss": 3759.7747,
	"step": 1104
	},
	{
	"epoch": 0.023576603495558922,
	"grad_norm": 636.0,
	"learning_rate": 0.001,
	"loss": 3760.4476,
	"step": 1152
	},
	{
	"epoch": 0.024558961974540543,
	"grad_norm": 672.0,
	"learning_rate": 0.001,
	"loss": 3672.9059,
	"step": 1200
	},
	{
	"epoch": 0.025541320453522164,
	"grad_norm": 592.0,
	"learning_rate": 0.001,
	"loss": 3645.0697,
	"step": 1248
	},
	{
	"epoch": 0.026523678932503784,
	"grad_norm": 552.0,
	"learning_rate": 0.001,
	"loss": 3528.9896,
	"step": 1296
	},
	{
	"epoch": 0.02750603741148541,
	"grad_norm": 470.0,
	"learning_rate": 0.001,
	"loss": 3488.8187,
	"step": 1344
	},
	{
	"epoch": 0.02848839589046703,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 3466.627,
	"step": 1392
	},
	{
	"epoch": 0.02947075436944865,
	"grad_norm": 584.0,
	"learning_rate": 0.001,
	"loss": 3399.1475,
	"step": 1440
	},
	{
	"epoch": 0.03045311284843027,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 3363.9762,
	"step": 1488
	},
	{
	"epoch": 0.031435471327411896,
	"grad_norm": 616.0,
	"learning_rate": 0.001,
	"loss": 3337.4564,
	"step": 1536
	},
	{
	"epoch": 0.03241782980639352,
	"grad_norm": 540.0,
	"learning_rate": 0.001,
	"loss": 3298.4583,
	"step": 1584
	},
	{
	"epoch": 0.03340018828537514,
	"grad_norm": 512.0,
	"learning_rate": 0.001,
	"loss": 3212.2949,
	"step": 1632
	},
	{
	"epoch": 0.03438254676435676,
	"grad_norm": 512.0,
	"learning_rate": 0.001,
	"loss": 3217.6631,
	"step": 1680
	},
	{
	"epoch": 0.03536490524333838,
	"grad_norm": 624.0,
	"learning_rate": 0.001,
	"loss": 3175.7318,
	"step": 1728
	},
	{
	"epoch": 0.03634726372232,
	"grad_norm": 520.0,
	"learning_rate": 0.001,
	"loss": 3140.3923,
	"step": 1776
	},
	{
	"epoch": 0.03732962220130163,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 3099.8044,
	"step": 1824
	},
	{
	"epoch": 0.03831198068028325,
	"grad_norm": 604.0,
	"learning_rate": 0.001,
	"loss": 3114.8079,
	"step": 1872
	},
	{
	"epoch": 0.03929433915926487,
	"grad_norm": 478.0,
	"learning_rate": 0.001,
	"loss": 3048.9001,
	"step": 1920
	},
	{
	"epoch": 0.04027669763824649,
	"grad_norm": 520.0,
	"learning_rate": 0.001,
	"loss": 3018.8714,
	"step": 1968
	},
	{
	"epoch": 0.04125905611722811,
	"grad_norm": 456.0,
	"learning_rate": 0.001,
	"loss": 2981.1152,
	"step": 2016
	},
	{
	"epoch": 0.04224141459620973,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 2999.249,
	"step": 2064
	},
	{
	"epoch": 0.04322377307519135,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 2942.3376,
	"step": 2112
	},
	{
	"epoch": 0.044206131554172974,
	"grad_norm": 600.0,
	"learning_rate": 0.001,
	"loss": 2890.7354,
	"step": 2160
	},
	{
	"epoch": 0.0451884900331546,
	"grad_norm": 632.0,
	"learning_rate": 0.001,
	"loss": 2896.4242,
	"step": 2208
	},
	{
	"epoch": 0.04617084851213622,
	"grad_norm": 536.0,
	"learning_rate": 0.001,
	"loss": 2874.8643,
	"step": 2256
	},
	{
	"epoch": 0.047153206991117844,
	"grad_norm": 494.0,
	"learning_rate": 0.001,
	"loss": 2807.6911,
	"step": 2304
	},
	{
	"epoch": 0.048135565470099465,
	"grad_norm": 548.0,
	"learning_rate": 0.001,
	"loss": 2820.04,
	"step": 2352
	},
	{
	"epoch": 0.049117923949081085,
	"grad_norm": 636.0,
	"learning_rate": 0.001,
	"loss": 2787.0247,
	"step": 2400
	},
	{
	"epoch": 0.050100282428062706,
	"grad_norm": 624.0,
	"learning_rate": 0.001,
	"loss": 2782.2428,
	"step": 2448
	},
	{
	"epoch": 0.05108264090704433,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 2725.3781,
	"step": 2496
	},
	{
	"epoch": 0.05206499938602595,
	"grad_norm": 540.0,
	"learning_rate": 0.001,
	"loss": 2755.7458,
	"step": 2544
	},
	{
	"epoch": 0.05304735786500757,
	"grad_norm": 568.0,
	"learning_rate": 0.001,
	"loss": 2699.16,
	"step": 2592
	},
	{
	"epoch": 0.0540297163439892,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 2680.3232,
	"step": 2640
	},
	{
	"epoch": 0.05501207482297082,
	"grad_norm": 564.0,
	"learning_rate": 0.001,
	"loss": 2669.6646,
	"step": 2688
	},
	{
	"epoch": 0.05599443330195244,
	"grad_norm": 552.0,
	"learning_rate": 0.001,
	"loss": 2683.8433,
	"step": 2736
	},
	{
	"epoch": 0.05697679178093406,
	"grad_norm": 636.0,
	"learning_rate": 0.001,
	"loss": 2643.8172,
	"step": 2784
	},
	{
	"epoch": 0.05795915025991568,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 2649.0441,
	"step": 2832
	},
	{
	"epoch": 0.0589415087388973,
	"grad_norm": 512.0,
	"learning_rate": 0.001,
	"loss": 2615.9657,
	"step": 2880
	},
	{
	"epoch": 0.05992386721787892,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 2608.1457,
	"step": 2928
	},
	{
	"epoch": 0.06090622569686054,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 2590.1567,
	"step": 2976
	},
	{
	"epoch": 0.06188858417584217,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 2627.8358,
	"step": 3024
	},
	{
	"epoch": 0.06287094265482379,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 2538.9543,
	"step": 3072
	},
	{
	"epoch": 0.06385330113380541,
	"grad_norm": 568.0,
	"learning_rate": 0.001,
	"loss": 2482.9673,
	"step": 3120
	},
	{
	"epoch": 0.06483565961278703,
	"grad_norm": 548.0,
	"learning_rate": 0.001,
	"loss": 2530.4771,
	"step": 3168
	},
	{
	"epoch": 0.06581801809176865,
	"grad_norm": 456.0,
	"learning_rate": 0.001,
	"loss": 2496.41,
	"step": 3216
	},
	{
	"epoch": 0.06680037657075028,
	"grad_norm": 684.0,
	"learning_rate": 0.001,
	"loss": 2518.8866,
	"step": 3264
	},
	{
	"epoch": 0.0677827350497319,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 2475.0793,
	"step": 3312
	},
	{
	"epoch": 0.06876509352871352,
	"grad_norm": 812.0,
	"learning_rate": 0.001,
	"loss": 2461.3527,
	"step": 3360
	},
	{
	"epoch": 0.06974745200769514,
	"grad_norm": 490.0,
	"learning_rate": 0.001,
	"loss": 2467.4508,
	"step": 3408
	},
	{
	"epoch": 0.07072981048667676,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 2443.8037,
	"step": 3456
	},
	{
	"epoch": 0.07171216896565838,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 2445.9336,
	"step": 3504
	},
	{
	"epoch": 0.07269452744464,
	"grad_norm": 524.0,
	"learning_rate": 0.001,
	"loss": 2411.4482,
	"step": 3552
	},
	{
	"epoch": 0.07367688592362164,
	"grad_norm": 608.0,
	"learning_rate": 0.001,
	"loss": 2417.4673,
	"step": 3600
	},
	{
	"epoch": 0.07465924440260326,
	"grad_norm": 504.0,
	"learning_rate": 0.001,
	"loss": 2420.4196,
	"step": 3648
	},
	{
	"epoch": 0.07564160288158488,
	"grad_norm": 564.0,
	"learning_rate": 0.001,
	"loss": 2390.8983,
	"step": 3696
	},
	{
	"epoch": 0.0766239613605665,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 2377.8607,
	"step": 3744
	},
	{
	"epoch": 0.07760631983954812,
	"grad_norm": 616.0,
	"learning_rate": 0.001,
	"loss": 2359.1242,
	"step": 3792
	},
	{
	"epoch": 0.07858867831852974,
	"grad_norm": 636.0,
	"learning_rate": 0.001,
	"loss": 2385.3102,
	"step": 3840
	},
	{
	"epoch": 0.07957103679751136,
	"grad_norm": 454.0,
	"learning_rate": 0.001,
	"loss": 2373.0225,
	"step": 3888
	},
	{
	"epoch": 0.08055339527649298,
	"grad_norm": 502.0,
	"learning_rate": 0.001,
	"loss": 2361.2386,
	"step": 3936
	},
	{
	"epoch": 0.0815357537554746,
	"grad_norm": 506.0,
	"learning_rate": 0.001,
	"loss": 2341.1328,
	"step": 3984
	},
	{
	"epoch": 0.08251811223445622,
	"grad_norm": 472.0,
	"learning_rate": 0.001,
	"loss": 2308.069,
	"step": 4032
	},
	{
	"epoch": 0.08350047071343784,
	"grad_norm": 472.0,
	"learning_rate": 0.001,
	"loss": 2305.2542,
	"step": 4080
	},
	{
	"epoch": 0.08448282919241946,
	"grad_norm": 502.0,
	"learning_rate": 0.001,
	"loss": 2338.4048,
	"step": 4128
	},
	{
	"epoch": 0.08546518767140109,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 2307.96,
	"step": 4176
	},
	{
	"epoch": 0.0864475461503827,
	"grad_norm": 516.0,
	"learning_rate": 0.001,
	"loss": 2314.313,
	"step": 4224
	},
	{
	"epoch": 0.08742990462936433,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 2270.4917,
	"step": 4272
	},
	{
	"epoch": 0.08841226310834595,
	"grad_norm": 576.0,
	"learning_rate": 0.001,
	"loss": 2292.9497,
	"step": 4320
	},
	{
	"epoch": 0.08939462158732757,
	"grad_norm": 604.0,
	"learning_rate": 0.001,
	"loss": 2274.6584,
	"step": 4368
	},
	{
	"epoch": 0.0903769800663092,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 2275.2266,
	"step": 4416
	},
	{
	"epoch": 0.09135933854529082,
	"grad_norm": 548.0,
	"learning_rate": 0.001,
	"loss": 2262.757,
	"step": 4464
	},
	{
	"epoch": 0.09234169702427245,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 2257.687,
	"step": 4512
	},
	{
	"epoch": 0.09332405550325407,
	"grad_norm": 544.0,
	"learning_rate": 0.001,
	"loss": 2259.9118,
	"step": 4560
	},
	{
	"epoch": 0.09430641398223569,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 2224.4427,
	"step": 4608
	},
	{
	"epoch": 0.09528877246121731,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 2248.397,
	"step": 4656
	},
	{
	"epoch": 0.09627113094019893,
	"grad_norm": 600.0,
	"learning_rate": 0.001,
	"loss": 2203.2843,
	"step": 4704
	},
	{
	"epoch": 0.09725348941918055,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 2223.5656,
	"step": 4752
	},
	{
	"epoch": 0.09823584789816217,
	"grad_norm": 536.0,
	"learning_rate": 0.001,
	"loss": 2169.4321,
	"step": 4800
	},
	{
	"epoch": 0.09921820637714379,
	"grad_norm": 516.0,
	"learning_rate": 0.001,
	"loss": 2183.4987,
	"step": 4848
	},
	{
	"epoch": 0.09999590683967091,
	"eval_loss": 2087.82763671875,
	"eval_runtime": 9.0001,
	"eval_samples_per_second": 111.11,
	"eval_steps_per_second": 1.444,
	"step": 4886
	},
	{
	"epoch": 0.10020056485612541,
	"grad_norm": 620.0,
	"learning_rate": 0.001,
	"loss": 2210.3151,
	"step": 4896
	},
	{
	"epoch": 0.10118292333510703,
	"grad_norm": 616.0,
	"learning_rate": 0.001,
	"loss": 2208.1779,
	"step": 4944
	},
	{
	"epoch": 0.10216528181408865,
	"grad_norm": 592.0,
	"learning_rate": 0.001,
	"loss": 2166.7116,
	"step": 4992
	},
	{
	"epoch": 0.10314764029307028,
	"grad_norm": 596.0,
	"learning_rate": 0.001,
	"loss": 2191.4295,
	"step": 5040
	},
	{
	"epoch": 0.1041299987720519,
	"grad_norm": 684.0,
	"learning_rate": 0.001,
	"loss": 2155.1141,
	"step": 5088
	},
	{
	"epoch": 0.10511235725103352,
	"grad_norm": 512.0,
	"learning_rate": 0.001,
	"loss": 2135.7635,
	"step": 5136
	},
	{
	"epoch": 0.10609471573001514,
	"grad_norm": 506.0,
	"learning_rate": 0.001,
	"loss": 2155.5701,
	"step": 5184
	},
	{
	"epoch": 0.10707707420899677,
	"grad_norm": 480.0,
	"learning_rate": 0.001,
	"loss": 2150.0086,
	"step": 5232
	},
	{
	"epoch": 0.1080594326879784,
	"grad_norm": 540.0,
	"learning_rate": 0.001,
	"loss": 2142.4181,
	"step": 5280
	},
	{
	"epoch": 0.10904179116696001,
	"grad_norm": 572.0,
	"learning_rate": 0.001,
	"loss": 2116.3011,
	"step": 5328
	},
	{
	"epoch": 0.11002414964594164,
	"grad_norm": 548.0,
	"learning_rate": 0.001,
	"loss": 2141.0239,
	"step": 5376
	},
	{
	"epoch": 0.11100650812492326,
	"grad_norm": 676.0,
	"learning_rate": 0.001,
	"loss": 2119.1307,
	"step": 5424
	},
	{
	"epoch": 0.11198886660390488,
	"grad_norm": 656.0,
	"learning_rate": 0.001,
	"loss": 2137.8016,
	"step": 5472
	},
	{
	"epoch": 0.1129712250828865,
	"grad_norm": 676.0,
	"learning_rate": 0.001,
	"loss": 2119.2923,
	"step": 5520
	},
	{
	"epoch": 0.11395358356186812,
	"grad_norm": 588.0,
	"learning_rate": 0.001,
	"loss": 2120.9912,
	"step": 5568
	},
	{
	"epoch": 0.11493594204084974,
	"grad_norm": 612.0,
	"learning_rate": 0.001,
	"loss": 2111.5037,
	"step": 5616
	},
	{
	"epoch": 0.11591830051983136,
	"grad_norm": 588.0,
	"learning_rate": 0.001,
	"loss": 2119.6444,
	"step": 5664
	},
	{
	"epoch": 0.11690065899881298,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 2078.1807,
	"step": 5712
	},
	{
	"epoch": 0.1178830174777946,
	"grad_norm": 564.0,
	"learning_rate": 0.001,
	"loss": 2095.8706,
	"step": 5760
	},
	{
	"epoch": 0.11886537595677622,
	"grad_norm": 552.0,
	"learning_rate": 0.001,
	"loss": 2080.8527,
	"step": 5808
	},
	{
	"epoch": 0.11984773443575784,
	"grad_norm": 488.0,
	"learning_rate": 0.001,
	"loss": 2062.9159,
	"step": 5856
	},
	{
	"epoch": 0.12083009291473946,
	"grad_norm": 616.0,
	"learning_rate": 0.001,
	"loss": 2060.964,
	"step": 5904
	},
	{
	"epoch": 0.12181245139372109,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 2088.8507,
	"step": 5952
	},
	{
	"epoch": 0.12279480987270272,
	"grad_norm": 604.0,
	"learning_rate": 0.001,
	"loss": 2052.1393,
	"step": 6000
	},
	{
	"epoch": 0.12377716835168434,
	"grad_norm": 720.0,
	"learning_rate": 0.001,
	"loss": 2043.2277,
	"step": 6048
	},
	{
	"epoch": 0.12475952683066596,
	"grad_norm": 616.0,
	"learning_rate": 0.001,
	"loss": 2043.3983,
	"step": 6096
	},
	{
	"epoch": 0.12574188530964758,
	"grad_norm": 668.0,
	"learning_rate": 0.001,
	"loss": 2080.6297,
	"step": 6144
	},
	{
	"epoch": 0.1267242437886292,
	"grad_norm": 532.0,
	"learning_rate": 0.001,
	"loss": 2059.5207,
	"step": 6192
	},
	{
	"epoch": 0.12770660226761082,
	"grad_norm": 568.0,
	"learning_rate": 0.001,
	"loss": 2030.5203,
	"step": 6240
	},
	{
	"epoch": 0.12868896074659245,
	"grad_norm": 560.0,
	"learning_rate": 0.001,
	"loss": 2047.7404,
	"step": 6288
	},
	{
	"epoch": 0.12967131922557407,
	"grad_norm": 624.0,
	"learning_rate": 0.001,
	"loss": 2043.3193,
	"step": 6336
	},
	{
	"epoch": 0.1306536777045557,
	"grad_norm": 592.0,
	"learning_rate": 0.001,
	"loss": 2051.0589,
	"step": 6384
	},
	{
	"epoch": 0.1316360361835373,
	"grad_norm": 876.0,
	"learning_rate": 0.001,
	"loss": 2054.3232,
	"step": 6432
	},
	{
	"epoch": 0.13261839466251893,
	"grad_norm": 544.0,
	"learning_rate": 0.001,
	"loss": 2047.3159,
	"step": 6480
	},
	{
	"epoch": 0.13360075314150055,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 2029.021,
	"step": 6528
	},
	{
	"epoch": 0.13458311162048217,
	"grad_norm": 556.0,
	"learning_rate": 0.001,
	"loss": 2027.506,
	"step": 6576
	},
	{
	"epoch": 0.1355654700994638,
	"grad_norm": 672.0,
	"learning_rate": 0.001,
	"loss": 2034.3325,
	"step": 6624
	},
	{
	"epoch": 0.1365478285784454,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 1988.6841,
	"step": 6672
	},
	{
	"epoch": 0.13753018705742703,
	"grad_norm": 592.0,
	"learning_rate": 0.001,
	"loss": 1998.0236,
	"step": 6720
	},
	{
	"epoch": 0.13851254553640865,
	"grad_norm": 552.0,
	"learning_rate": 0.001,
	"loss": 2008.8337,
	"step": 6768
	},
	{
	"epoch": 0.13949490401539028,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 2008.4787,
	"step": 6816
	},
	{
	"epoch": 0.1404772624943719,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1995.237,
	"step": 6864
	},
	{
	"epoch": 0.14145962097335352,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 1996.2018,
	"step": 6912
	},
	{
	"epoch": 0.14244197945233514,
	"grad_norm": 652.0,
	"learning_rate": 0.001,
	"loss": 1992.167,
	"step": 6960
	},
	{
	"epoch": 0.14342433793131676,
	"grad_norm": 544.0,
	"learning_rate": 0.001,
	"loss": 1985.2515,
	"step": 7008
	},
	{
	"epoch": 0.14440669641029838,
	"grad_norm": 600.0,
	"learning_rate": 0.001,
	"loss": 1989.0208,
	"step": 7056
	},
	{
	"epoch": 0.14538905488928,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1993.743,
	"step": 7104
	},
	{
	"epoch": 0.14637141336826162,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 1986.2668,
	"step": 7152
	},
	{
	"epoch": 0.14735377184724327,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1988.6514,
	"step": 7200
	},
	{
	"epoch": 0.1483361303262249,
	"grad_norm": 452.0,
	"learning_rate": 0.001,
	"loss": 1971.7622,
	"step": 7248
	},
	{
	"epoch": 0.1493184888052065,
	"grad_norm": 576.0,
	"learning_rate": 0.001,
	"loss": 1977.0863,
	"step": 7296
	},
	{
	"epoch": 0.15030084728418813,
	"grad_norm": 708.0,
	"learning_rate": 0.001,
	"loss": 1968.3294,
	"step": 7344
	},
	{
	"epoch": 0.15128320576316975,
	"grad_norm": 572.0,
	"learning_rate": 0.001,
	"loss": 1981.1888,
	"step": 7392
	},
	{
	"epoch": 0.15226556424215137,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1937.5469,
	"step": 7440
	},
	{
	"epoch": 0.153247922721133,
	"grad_norm": 672.0,
	"learning_rate": 0.001,
	"loss": 1944.2785,
	"step": 7488
	},
	{
	"epoch": 0.15423028120011462,
	"grad_norm": 816.0,
	"learning_rate": 0.001,
	"loss": 1934.2336,
	"step": 7536
	},
	{
	"epoch": 0.15521263967909624,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1953.3698,
	"step": 7584
	},
	{
	"epoch": 0.15619499815807786,
	"grad_norm": 652.0,
	"learning_rate": 0.001,
	"loss": 1951.9084,
	"step": 7632
	},
	{
	"epoch": 0.15717735663705948,
	"grad_norm": 652.0,
	"learning_rate": 0.001,
	"loss": 1934.8753,
	"step": 7680
	},
	{
	"epoch": 0.1581597151160411,
	"grad_norm": 652.0,
	"learning_rate": 0.001,
	"loss": 1923.8843,
	"step": 7728
	},
	{
	"epoch": 0.15914207359502272,
	"grad_norm": 612.0,
	"learning_rate": 0.001,
	"loss": 1935.5955,
	"step": 7776
	},
	{
	"epoch": 0.16012443207400434,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1962.8574,
	"step": 7824
	},
	{
	"epoch": 0.16110679055298596,
	"grad_norm": 540.0,
	"learning_rate": 0.001,
	"loss": 1955.3468,
	"step": 7872
	},
	{
	"epoch": 0.16208914903196758,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1915.3901,
	"step": 7920
	},
	{
	"epoch": 0.1630715075109492,
	"grad_norm": 572.0,
	"learning_rate": 0.001,
	"loss": 1944.2292,
	"step": 7968
	},
	{
	"epoch": 0.16405386598993082,
	"grad_norm": 668.0,
	"learning_rate": 0.001,
	"loss": 1926.0425,
	"step": 8016
	},
	{
	"epoch": 0.16503622446891245,
	"grad_norm": 556.0,
	"learning_rate": 0.001,
	"loss": 1938.1131,
	"step": 8064
	},
	{
	"epoch": 0.16601858294789407,
	"grad_norm": 756.0,
	"learning_rate": 0.001,
	"loss": 1925.4678,
	"step": 8112
	},
	{
	"epoch": 0.1670009414268757,
	"grad_norm": 848.0,
	"learning_rate": 0.001,
	"loss": 1921.8462,
	"step": 8160
	},
	{
	"epoch": 0.1679832999058573,
	"grad_norm": 588.0,
	"learning_rate": 0.001,
	"loss": 1890.1263,
	"step": 8208
	},
	{
	"epoch": 0.16896565838483893,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 1923.7113,
	"step": 8256
	},
	{
	"epoch": 0.16994801686382055,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1902.661,
	"step": 8304
	},
	{
	"epoch": 0.17093037534280217,
	"grad_norm": 676.0,
	"learning_rate": 0.001,
	"loss": 1898.4054,
	"step": 8352
	},
	{
	"epoch": 0.1719127338217838,
	"grad_norm": 604.0,
	"learning_rate": 0.001,
	"loss": 1899.0542,
	"step": 8400
	},
	{
	"epoch": 0.1728950923007654,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 1906.8057,
	"step": 8448
	},
	{
	"epoch": 0.17387745077974703,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1908.1032,
	"step": 8496
	},
	{
	"epoch": 0.17485980925872865,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 1928.3221,
	"step": 8544
	},
	{
	"epoch": 0.17584216773771028,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 1890.7321,
	"step": 8592
	},
	{
	"epoch": 0.1768245262166919,
	"grad_norm": 556.0,
	"learning_rate": 0.001,
	"loss": 1910.8001,
	"step": 8640
	},
	{
	"epoch": 0.17780688469567352,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 1908.4972,
	"step": 8688
	},
	{
	"epoch": 0.17878924317465514,
	"grad_norm": 608.0,
	"learning_rate": 0.001,
	"loss": 1870.7344,
	"step": 8736
	},
	{
	"epoch": 0.1797716016536368,
	"grad_norm": 644.0,
	"learning_rate": 0.001,
	"loss": 1901.4289,
	"step": 8784
	},
	{
	"epoch": 0.1807539601326184,
	"grad_norm": 580.0,
	"learning_rate": 0.001,
	"loss": 1883.8433,
	"step": 8832
	},
	{
	"epoch": 0.18173631861160003,
	"grad_norm": 828.0,
	"learning_rate": 0.001,
	"loss": 1869.978,
	"step": 8880
	},
	{
	"epoch": 0.18271867709058165,
	"grad_norm": 652.0,
	"learning_rate": 0.001,
	"loss": 1895.2178,
	"step": 8928
	},
	{
	"epoch": 0.18370103556956327,
	"grad_norm": 680.0,
	"learning_rate": 0.001,
	"loss": 1857.217,
	"step": 8976
	},
	{
	"epoch": 0.1846833940485449,
	"grad_norm": 608.0,
	"learning_rate": 0.001,
	"loss": 1880.6992,
	"step": 9024
	},
	{
	"epoch": 0.1856657525275265,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 1869.5422,
	"step": 9072
	},
	{
	"epoch": 0.18664811100650813,
	"grad_norm": 720.0,
	"learning_rate": 0.001,
	"loss": 1898.1034,
	"step": 9120
	},
	{
	"epoch": 0.18763046948548975,
	"grad_norm": 604.0,
	"learning_rate": 0.001,
	"loss": 1887.1818,
	"step": 9168
	},
	{
	"epoch": 0.18861282796447137,
	"grad_norm": 672.0,
	"learning_rate": 0.001,
	"loss": 1869.6294,
	"step": 9216
	},
	{
	"epoch": 0.189595186443453,
	"grad_norm": 572.0,
	"learning_rate": 0.001,
	"loss": 1857.5962,
	"step": 9264
	},
	{
	"epoch": 0.19057754492243462,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1869.6444,
	"step": 9312
	},
	{
	"epoch": 0.19155990340141624,
	"grad_norm": 848.0,
	"learning_rate": 0.001,
	"loss": 1869.8807,
	"step": 9360
	},
	{
	"epoch": 0.19254226188039786,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1857.5882,
	"step": 9408
	},
	{
	"epoch": 0.19352462035937948,
	"grad_norm": 652.0,
	"learning_rate": 0.001,
	"loss": 1835.6294,
	"step": 9456
	},
	{
	"epoch": 0.1945069788383611,
	"grad_norm": 608.0,
	"learning_rate": 0.001,
	"loss": 1853.5081,
	"step": 9504
	},
	{
	"epoch": 0.19548933731734272,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 1866.897,
	"step": 9552
	},
	{
	"epoch": 0.19647169579632434,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1848.0703,
	"step": 9600
	},
	{
	"epoch": 0.19745405427530596,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 1867.1585,
	"step": 9648
	},
	{
	"epoch": 0.19843641275428758,
	"grad_norm": 612.0,
	"learning_rate": 0.001,
	"loss": 1864.8203,
	"step": 9696
	},
	{
	"epoch": 0.1994187712332692,
	"grad_norm": 572.0,
	"learning_rate": 0.001,
	"loss": 1827.0848,
	"step": 9744
	},
	{
	"epoch": 0.19999181367934182,
	"eval_loss": 1771.5172119140625,
	"eval_runtime": 9.0052,
	"eval_samples_per_second": 111.047,
	"eval_steps_per_second": 1.444,
	"step": 9772
	},
	{
	"epoch": 0.20040112971225083,
	"grad_norm": 784.0,
	"learning_rate": 0.001,
	"loss": 1850.5506,
	"step": 9792
	},
	{
	"epoch": 0.20138348819123245,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1853.3254,
	"step": 9840
	},
	{
	"epoch": 0.20236584667021407,
	"grad_norm": 744.0,
	"learning_rate": 0.001,
	"loss": 1884.8763,
	"step": 9888
	},
	{
	"epoch": 0.2033482051491957,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1852.5361,
	"step": 9936
	},
	{
	"epoch": 0.2043305636281773,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 1840.8996,
	"step": 9984
	},
	{
	"epoch": 0.20531292210715893,
	"grad_norm": 676.0,
	"learning_rate": 0.001,
	"loss": 1848.5868,
	"step": 10032
	},
	{
	"epoch": 0.20629528058614055,
	"grad_norm": 764.0,
	"learning_rate": 0.001,
	"loss": 1848.7498,
	"step": 10080
	},
	{
	"epoch": 0.20727763906512217,
	"grad_norm": 856.0,
	"learning_rate": 0.001,
	"loss": 1845.7381,
	"step": 10128
	},
	{
	"epoch": 0.2082599975441038,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1851.979,
	"step": 10176
	},
	{
	"epoch": 0.2092423560230854,
	"grad_norm": 644.0,
	"learning_rate": 0.001,
	"loss": 1850.7716,
	"step": 10224
	},
	{
	"epoch": 0.21022471450206703,
	"grad_norm": 828.0,
	"learning_rate": 0.001,
	"loss": 1844.3057,
	"step": 10272
	},
	{
	"epoch": 0.21120707298104865,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 1820.6678,
	"step": 10320
	},
	{
	"epoch": 0.21218943146003028,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1793.4041,
	"step": 10368
	},
	{
	"epoch": 0.21317178993901192,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 1853.5828,
	"step": 10416
	},
	{
	"epoch": 0.21415414841799355,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 1816.429,
	"step": 10464
	},
	{
	"epoch": 0.21513650689697517,
	"grad_norm": 708.0,
	"learning_rate": 0.001,
	"loss": 1827.7533,
	"step": 10512
	},
	{
	"epoch": 0.2161188653759568,
	"grad_norm": 812.0,
	"learning_rate": 0.001,
	"loss": 1807.555,
	"step": 10560
	},
	{
	"epoch": 0.2171012238549384,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1824.4678,
	"step": 10608
	},
	{
	"epoch": 0.21808358233392003,
	"grad_norm": 760.0,
	"learning_rate": 0.001,
	"loss": 1832.056,
	"step": 10656
	},
	{
	"epoch": 0.21906594081290165,
	"grad_norm": 672.0,
	"learning_rate": 0.001,
	"loss": 1819.7812,
	"step": 10704
	},
	{
	"epoch": 0.22004829929188327,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 1837.8351,
	"step": 10752
	},
	{
	"epoch": 0.2210306577708649,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1823.1432,
	"step": 10800
	},
	{
	"epoch": 0.2220130162498465,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1810.9959,
	"step": 10848
	},
	{
	"epoch": 0.22299537472882813,
	"grad_norm": 756.0,
	"learning_rate": 0.001,
	"loss": 1848.2907,
	"step": 10896
	},
	{
	"epoch": 0.22397773320780975,
	"grad_norm": 744.0,
	"learning_rate": 0.001,
	"loss": 1786.6442,
	"step": 10944
	},
	{
	"epoch": 0.22496009168679137,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1804.0133,
	"step": 10992
	},
	{
	"epoch": 0.225942450165773,
	"grad_norm": 640.0,
	"learning_rate": 0.001,
	"loss": 1813.6567,
	"step": 11040
	},
	{
	"epoch": 0.22692480864475462,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1812.9946,
	"step": 11088
	},
	{
	"epoch": 0.22790716712373624,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1816.8553,
	"step": 11136
	},
	{
	"epoch": 0.22888952560271786,
	"grad_norm": 640.0,
	"learning_rate": 0.001,
	"loss": 1801.8009,
	"step": 11184
	},
	{
	"epoch": 0.22987188408169948,
	"grad_norm": 680.0,
	"learning_rate": 0.001,
	"loss": 1816.7332,
	"step": 11232
	},
	{
	"epoch": 0.2308542425606811,
	"grad_norm": 692.0,
	"learning_rate": 0.001,
	"loss": 1799.8708,
	"step": 11280
	},
	{
	"epoch": 0.23183660103966272,
	"grad_norm": 680.0,
	"learning_rate": 0.001,
	"loss": 1791.1471,
	"step": 11328
	},
	{
	"epoch": 0.23281895951864434,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 1812.3979,
	"step": 11376
	},
	{
	"epoch": 0.23380131799762596,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1807.806,
	"step": 11424
	},
	{
	"epoch": 0.23478367647660758,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1811.6502,
	"step": 11472
	},
	{
	"epoch": 0.2357660349555892,
	"grad_norm": 736.0,
	"learning_rate": 0.001,
	"loss": 1821.8501,
	"step": 11520
	},
	{
	"epoch": 0.23674839343457083,
	"grad_norm": 648.0,
	"learning_rate": 0.001,
	"loss": 1777.6597,
	"step": 11568
	},
	{
	"epoch": 0.23773075191355245,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1804.2365,
	"step": 11616
	},
	{
	"epoch": 0.23871311039253407,
	"grad_norm": 672.0,
	"learning_rate": 0.001,
	"loss": 1794.9201,
	"step": 11664
	},
	{
	"epoch": 0.2396954688715157,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1775.2284,
	"step": 11712
	},
	{
	"epoch": 0.2406778273504973,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 1785.5417,
	"step": 11760
	},
	{
	"epoch": 0.24166018582947893,
	"grad_norm": 840.0,
	"learning_rate": 0.001,
	"loss": 1792.2282,
	"step": 11808
	},
	{
	"epoch": 0.24264254430846055,
	"grad_norm": 992.0,
	"learning_rate": 0.001,
	"loss": 1799.9831,
	"step": 11856
	},
	{
	"epoch": 0.24362490278744217,
	"grad_norm": 872.0,
	"learning_rate": 0.001,
	"loss": 1804.1024,
	"step": 11904
	},
	{
	"epoch": 0.2446072612664238,
	"grad_norm": 668.0,
	"learning_rate": 0.001,
	"loss": 1785.5889,
	"step": 11952
	},
	{
	"epoch": 0.24558961974540544,
	"grad_norm": 872.0,
	"learning_rate": 0.001,
	"loss": 1785.6185,
	"step": 12000
	},
	{
	"epoch": 0.24657197822438706,
	"grad_norm": 784.0,
	"learning_rate": 0.001,
	"loss": 1785.6107,
	"step": 12048
	},
	{
	"epoch": 0.24755433670336868,
	"grad_norm": 644.0,
	"learning_rate": 0.001,
	"loss": 1789.2995,
	"step": 12096
	},
	{
	"epoch": 0.2485366951823503,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1780.3151,
	"step": 12144
	},
	{
	"epoch": 0.24951905366133192,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1769.0786,
	"step": 12192
	},
	{
	"epoch": 0.2505014121403135,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1801.0431,
	"step": 12240
	},
	{
	"epoch": 0.25148377061929517,
	"grad_norm": 844.0,
	"learning_rate": 0.001,
	"loss": 1796.9209,
	"step": 12288
	},
	{
	"epoch": 0.25246612909827676,
	"grad_norm": 1088.0,
	"learning_rate": 0.001,
	"loss": 1795.411,
	"step": 12336
	},
	{
	"epoch": 0.2534484875772584,
	"grad_norm": 1320.0,
	"learning_rate": 0.001,
	"loss": 1802.1553,
	"step": 12384
	},
	{
	"epoch": 0.25443084605624,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1772.7713,
	"step": 12432
	},
	{
	"epoch": 0.25541320453522165,
	"grad_norm": 744.0,
	"learning_rate": 0.001,
	"loss": 1787.7516,
	"step": 12480
	},
	{
	"epoch": 0.25639556301420324,
	"grad_norm": 744.0,
	"learning_rate": 0.001,
	"loss": 1785.005,
	"step": 12528
	},
	{
	"epoch": 0.2573779214931849,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1763.7612,
	"step": 12576
	},
	{
	"epoch": 0.2583602799721665,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1777.0677,
	"step": 12624
	},
	{
	"epoch": 0.25934263845114813,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1761.1235,
	"step": 12672
	},
	{
	"epoch": 0.2603249969301297,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1795.2174,
	"step": 12720
	},
	{
	"epoch": 0.2613073554091114,
	"grad_norm": 816.0,
	"learning_rate": 0.001,
	"loss": 1763.8905,
	"step": 12768
	},
	{
	"epoch": 0.262289713888093,
	"grad_norm": 852.0,
	"learning_rate": 0.001,
	"loss": 1761.4404,
	"step": 12816
	},
	{
	"epoch": 0.2632720723670746,
	"grad_norm": 608.0,
	"learning_rate": 0.001,
	"loss": 1762.6668,
	"step": 12864
	},
	{
	"epoch": 0.26425443084605627,
	"grad_norm": 892.0,
	"learning_rate": 0.001,
	"loss": 1725.5638,
	"step": 12912
	},
	{
	"epoch": 0.26523678932503786,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1762.1764,
	"step": 12960
	},
	{
	"epoch": 0.2662191478040195,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1764.0163,
	"step": 13008
	},
	{
	"epoch": 0.2672015062830011,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 1754.1729,
	"step": 13056
	},
	{
	"epoch": 0.26818386476198275,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1772.8592,
	"step": 13104
	},
	{
	"epoch": 0.26916622324096434,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 1780.2349,
	"step": 13152
	},
	{
	"epoch": 0.270148581719946,
	"grad_norm": 720.0,
	"learning_rate": 0.001,
	"loss": 1764.6678,
	"step": 13200
	},
	{
	"epoch": 0.2711309401989276,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1757.6209,
	"step": 13248
	},
	{
	"epoch": 0.27211329867790923,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1749.5741,
	"step": 13296
	},
	{
	"epoch": 0.2730956571568908,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 1758.4183,
	"step": 13344
	},
	{
	"epoch": 0.2740780156358725,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1770.6115,
	"step": 13392
	},
	{
	"epoch": 0.27506037411485407,
	"grad_norm": 784.0,
	"learning_rate": 0.001,
	"loss": 1752.6141,
	"step": 13440
	},
	{
	"epoch": 0.2760427325938357,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 1732.4147,
	"step": 13488
	},
	{
	"epoch": 0.2770250910728173,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 1757.4318,
	"step": 13536
	},
	{
	"epoch": 0.27800744955179896,
	"grad_norm": 764.0,
	"learning_rate": 0.001,
	"loss": 1746.452,
	"step": 13584
	},
	{
	"epoch": 0.27898980803078055,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1733.8742,
	"step": 13632
	},
	{
	"epoch": 0.2799721665097622,
	"grad_norm": 824.0,
	"learning_rate": 0.001,
	"loss": 1761.4808,
	"step": 13680
	},
	{
	"epoch": 0.2809545249887438,
	"grad_norm": 664.0,
	"learning_rate": 0.001,
	"loss": 1749.8506,
	"step": 13728
	},
	{
	"epoch": 0.28193688346772544,
	"grad_norm": 776.0,
	"learning_rate": 0.001,
	"loss": 1734.1479,
	"step": 13776
	},
	{
	"epoch": 0.28291924194670703,
	"grad_norm": 708.0,
	"learning_rate": 0.001,
	"loss": 1721.951,
	"step": 13824
	},
	{
	"epoch": 0.2839016004256887,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1741.5046,
	"step": 13872
	},
	{
	"epoch": 0.2848839589046703,
	"grad_norm": 764.0,
	"learning_rate": 0.001,
	"loss": 1743.1763,
	"step": 13920
	},
	{
	"epoch": 0.2858663173836519,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 1767.7448,
	"step": 13968
	},
	{
	"epoch": 0.2868486758626335,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1717.0291,
	"step": 14016
	},
	{
	"epoch": 0.28783103434161517,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 1731.1566,
	"step": 14064
	},
	{
	"epoch": 0.28881339282059676,
	"grad_norm": 788.0,
	"learning_rate": 0.001,
	"loss": 1720.1551,
	"step": 14112
	},
	{
	"epoch": 0.2897957512995784,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1743.5467,
	"step": 14160
	},
	{
	"epoch": 0.29077810977856,
	"grad_norm": 680.0,
	"learning_rate": 0.001,
	"loss": 1736.5747,
	"step": 14208
	},
	{
	"epoch": 0.29176046825754165,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1737.3779,
	"step": 14256
	},
	{
	"epoch": 0.29274282673652324,
	"grad_norm": 760.0,
	"learning_rate": 0.001,
	"loss": 1718.3322,
	"step": 14304
	},
	{
	"epoch": 0.2937251852155049,
	"grad_norm": 760.0,
	"learning_rate": 0.001,
	"loss": 1736.3989,
	"step": 14352
	},
	{
	"epoch": 0.29470754369448654,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1738.8551,
	"step": 14400
	},
	{
	"epoch": 0.29568990217346813,
	"grad_norm": 900.0,
	"learning_rate": 0.001,
	"loss": 1711.0072,
	"step": 14448
	},
	{
	"epoch": 0.2966722606524498,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1709.6022,
	"step": 14496
	},
	{
	"epoch": 0.2976546191314314,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 1741.5581,
	"step": 14544
	},
	{
	"epoch": 0.298636977610413,
	"grad_norm": 684.0,
	"learning_rate": 0.001,
	"loss": 1715.0571,
	"step": 14592
	},
	{
	"epoch": 0.2996193360893946,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1733.5199,
	"step": 14640
	},
	{
	"epoch": 0.29998772051901273,
	"eval_loss": 1650.6409912109375,
	"eval_runtime": 9.0148,
	"eval_samples_per_second": 110.929,
	"eval_steps_per_second": 1.442,
	"step": 14658
	},
	{
	"epoch": 0.30060169456837627,
	"grad_norm": 708.0,
	"learning_rate": 0.001,
	"loss": 1719.6375,
	"step": 14688
	},
	{
	"epoch": 0.30158405304735786,
	"grad_norm": 616.0,
	"learning_rate": 0.001,
	"loss": 1728.5174,
	"step": 14736
	},
	{
	"epoch": 0.3025664115263395,
	"grad_norm": 624.0,
	"learning_rate": 0.001,
	"loss": 1724.9813,
	"step": 14784
	},
	{
	"epoch": 0.3035487700053211,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1704.8024,
	"step": 14832
	},
	{
	"epoch": 0.30453112848430275,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1714.6235,
	"step": 14880
	},
	{
	"epoch": 0.30551348696328434,
	"grad_norm": 1048.0,
	"learning_rate": 0.001,
	"loss": 1734.4709,
	"step": 14928
	},
	{
	"epoch": 0.306495845442266,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 1721.2712,
	"step": 14976
	},
	{
	"epoch": 0.3074782039212476,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1752.32,
	"step": 15024
	},
	{
	"epoch": 0.30846056240022923,
	"grad_norm": 792.0,
	"learning_rate": 0.001,
	"loss": 1711.9393,
	"step": 15072
	},
	{
	"epoch": 0.3094429208792108,
	"grad_norm": 904.0,
	"learning_rate": 0.001,
	"loss": 1722.3177,
	"step": 15120
	},
	{
	"epoch": 0.3104252793581925,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1737.7088,
	"step": 15168
	},
	{
	"epoch": 0.31140763783717407,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1728.0853,
	"step": 15216
	},
	{
	"epoch": 0.3123899963161557,
	"grad_norm": 776.0,
	"learning_rate": 0.001,
	"loss": 1711.749,
	"step": 15264
	},
	{
	"epoch": 0.3133723547951373,
	"grad_norm": 840.0,
	"learning_rate": 0.001,
	"loss": 1717.5446,
	"step": 15312
	},
	{
	"epoch": 0.31435471327411896,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1718.4888,
	"step": 15360
	},
	{
	"epoch": 0.31533707175310055,
	"grad_norm": 692.0,
	"learning_rate": 0.001,
	"loss": 1722.6672,
	"step": 15408
	},
	{
	"epoch": 0.3163194302320822,
	"grad_norm": 864.0,
	"learning_rate": 0.001,
	"loss": 1715.826,
	"step": 15456
	},
	{
	"epoch": 0.3173017887110638,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1714.7765,
	"step": 15504
	},
	{
	"epoch": 0.31828414719004544,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1718.0269,
	"step": 15552
	},
	{
	"epoch": 0.31926650566902703,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1691.7855,
	"step": 15600
	},
	{
	"epoch": 0.3202488641480087,
	"grad_norm": 888.0,
	"learning_rate": 0.001,
	"loss": 1717.6808,
	"step": 15648
	},
	{
	"epoch": 0.3212312226269903,
	"grad_norm": 680.0,
	"learning_rate": 0.001,
	"loss": 1719.3472,
	"step": 15696
	},
	{
	"epoch": 0.3222135811059719,
	"grad_norm": 868.0,
	"learning_rate": 0.001,
	"loss": 1691.0158,
	"step": 15744
	},
	{
	"epoch": 0.3231959395849535,
	"grad_norm": 756.0,
	"learning_rate": 0.001,
	"loss": 1704.2186,
	"step": 15792
	},
	{
	"epoch": 0.32417829806393517,
	"grad_norm": 888.0,
	"learning_rate": 0.001,
	"loss": 1723.0382,
	"step": 15840
	},
	{
	"epoch": 0.32516065654291676,
	"grad_norm": 912.0,
	"learning_rate": 0.001,
	"loss": 1702.2889,
	"step": 15888
	},
	{
	"epoch": 0.3261430150218984,
	"grad_norm": 820.0,
	"learning_rate": 0.001,
	"loss": 1728.0734,
	"step": 15936
	},
	{
	"epoch": 0.32712537350088006,
	"grad_norm": 788.0,
	"learning_rate": 0.001,
	"loss": 1720.2152,
	"step": 15984
	},
	{
	"epoch": 0.32810773197986165,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 1702.1133,
	"step": 16032
	},
	{
	"epoch": 0.3290900904588433,
	"grad_norm": 836.0,
	"learning_rate": 0.001,
	"loss": 1720.4746,
	"step": 16080
	},
	{
	"epoch": 0.3300724489378249,
	"grad_norm": 836.0,
	"learning_rate": 0.001,
	"loss": 1689.6606,
	"step": 16128
	},
	{
	"epoch": 0.33105480741680654,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1689.0417,
	"step": 16176
	},
	{
	"epoch": 0.33203716589578813,
	"grad_norm": 848.0,
	"learning_rate": 0.001,
	"loss": 1703.012,
	"step": 16224
	},
	{
	"epoch": 0.3330195243747698,
	"grad_norm": 756.0,
	"learning_rate": 0.001,
	"loss": 1700.2785,
	"step": 16272
	},
	{
	"epoch": 0.3340018828537514,
	"grad_norm": 756.0,
	"learning_rate": 0.001,
	"loss": 1709.3231,
	"step": 16320
	},
	{
	"epoch": 0.334984241332733,
	"grad_norm": 960.0,
	"learning_rate": 0.001,
	"loss": 1715.8831,
	"step": 16368
	},
	{
	"epoch": 0.3359665998117146,
	"grad_norm": 692.0,
	"learning_rate": 0.001,
	"loss": 1695.813,
	"step": 16416
	},
	{
	"epoch": 0.33694895829069627,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 1685.9803,
	"step": 16464
	},
	{
	"epoch": 0.33793131676967786,
	"grad_norm": 876.0,
	"learning_rate": 0.001,
	"loss": 1704.5868,
	"step": 16512
	},
	{
	"epoch": 0.3389136752486595,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1681.2751,
	"step": 16560
	},
	{
	"epoch": 0.3398960337276411,
	"grad_norm": 748.0,
	"learning_rate": 0.001,
	"loss": 1690.0252,
	"step": 16608
	},
	{
	"epoch": 0.34087839220662275,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 1698.1932,
	"step": 16656
	},
	{
	"epoch": 0.34186075068560434,
	"grad_norm": 856.0,
	"learning_rate": 0.001,
	"loss": 1692.6128,
	"step": 16704
	},
	{
	"epoch": 0.342843109164586,
	"grad_norm": 880.0,
	"learning_rate": 0.001,
	"loss": 1696.6901,
	"step": 16752
	},
	{
	"epoch": 0.3438254676435676,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 1693.9344,
	"step": 16800
	},
	{
	"epoch": 0.34480782612254923,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 1704.4855,
	"step": 16848
	},
	{
	"epoch": 0.3457901846015308,
	"grad_norm": 692.0,
	"learning_rate": 0.001,
	"loss": 1705.7817,
	"step": 16896
	},
	{
	"epoch": 0.3467725430805125,
	"grad_norm": 760.0,
	"learning_rate": 0.001,
	"loss": 1690.8944,
	"step": 16944
	},
	{
	"epoch": 0.34775490155949407,
	"grad_norm": 868.0,
	"learning_rate": 0.001,
	"loss": 1685.9479,
	"step": 16992
	},
	{
	"epoch": 0.3487372600384757,
	"grad_norm": 744.0,
	"learning_rate": 0.001,
	"loss": 1698.2961,
	"step": 17040
	},
	{
	"epoch": 0.3497196185174573,
	"grad_norm": 688.0,
	"learning_rate": 0.001,
	"loss": 1693.7596,
	"step": 17088
	},
	{
	"epoch": 0.35070197699643896,
	"grad_norm": 760.0,
	"learning_rate": 0.001,
	"loss": 1702.9092,
	"step": 17136
	},
	{
	"epoch": 0.35168433547542055,
	"grad_norm": 788.0,
	"learning_rate": 0.001,
	"loss": 1672.0039,
	"step": 17184
	},
	{
	"epoch": 0.3526666939544022,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1673.5811,
	"step": 17232
	},
	{
	"epoch": 0.3536490524333838,
	"grad_norm": 976.0,
	"learning_rate": 0.001,
	"loss": 1697.0251,
	"step": 17280
	},
	{
	"epoch": 0.35463141091236544,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1699.7508,
	"step": 17328
	},
	{
	"epoch": 0.35561376939134703,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 1708.7798,
	"step": 17376
	},
	{
	"epoch": 0.3565961278703287,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1693.451,
	"step": 17424
	},
	{
	"epoch": 0.3575784863493103,
	"grad_norm": 904.0,
	"learning_rate": 0.001,
	"loss": 1676.6382,
	"step": 17472
	},
	{
	"epoch": 0.3585608448282919,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 1691.7266,
	"step": 17520
	},
	{
	"epoch": 0.3595432033072736,
	"grad_norm": 1012.0,
	"learning_rate": 0.001,
	"loss": 1666.9458,
	"step": 17568
	},
	{
	"epoch": 0.36052556178625517,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 1675.5584,
	"step": 17616
	},
	{
	"epoch": 0.3615079202652368,
	"grad_norm": 856.0,
	"learning_rate": 0.001,
	"loss": 1685.9595,
	"step": 17664
	},
	{
	"epoch": 0.3624902787442184,
	"grad_norm": 836.0,
	"learning_rate": 0.001,
	"loss": 1695.4741,
	"step": 17712
	},
	{
	"epoch": 0.36347263722320006,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1689.256,
	"step": 17760
	},
	{
	"epoch": 0.36445499570218165,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1689.8599,
	"step": 17808
	},
	{
	"epoch": 0.3654373541811633,
	"grad_norm": 876.0,
	"learning_rate": 0.001,
	"loss": 1668.894,
	"step": 17856
	},
	{
	"epoch": 0.3664197126601449,
	"grad_norm": 780.0,
	"learning_rate": 0.001,
	"loss": 1684.5539,
	"step": 17904
	},
	{
	"epoch": 0.36740207113912654,
	"grad_norm": 952.0,
	"learning_rate": 0.001,
	"loss": 1683.5539,
	"step": 17952
	},
	{
	"epoch": 0.36838442961810813,
	"grad_norm": 860.0,
	"learning_rate": 0.001,
	"loss": 1695.5282,
	"step": 18000
	},
	{
	"epoch": 0.3693667880970898,
	"grad_norm": 844.0,
	"learning_rate": 0.001,
	"loss": 1667.8563,
	"step": 18048
	},
	{
	"epoch": 0.3703491465760714,
	"grad_norm": 800.0,
	"learning_rate": 0.001,
	"loss": 1671.2471,
	"step": 18096
	},
	{
	"epoch": 0.371331505055053,
	"grad_norm": 760.0,
	"learning_rate": 0.001,
	"loss": 1664.4082,
	"step": 18144
	},
	{
	"epoch": 0.3723138635340346,
	"grad_norm": 1120.0,
	"learning_rate": 0.001,
	"loss": 1666.0448,
	"step": 18192
	},
	{
	"epoch": 0.37329622201301627,
	"grad_norm": 824.0,
	"learning_rate": 0.001,
	"loss": 1665.9009,
	"step": 18240
	},
	{
	"epoch": 0.37427858049199786,
	"grad_norm": 872.0,
	"learning_rate": 0.001,
	"loss": 1663.6131,
	"step": 18288
	},
	{
	"epoch": 0.3752609389709795,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 1665.7214,
	"step": 18336
	},
	{
	"epoch": 0.3762432974499611,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1663.0591,
	"step": 18384
	},
	{
	"epoch": 0.37722565592894275,
	"grad_norm": 988.0,
	"learning_rate": 0.001,
	"loss": 1683.5985,
	"step": 18432
	},
	{
	"epoch": 0.37820801440792434,
	"grad_norm": 804.0,
	"learning_rate": 0.001,
	"loss": 1661.8081,
	"step": 18480
	},
	{
	"epoch": 0.379190372886906,
	"grad_norm": 776.0,
	"learning_rate": 0.001,
	"loss": 1685.9769,
	"step": 18528
	},
	{
	"epoch": 0.3801727313658876,
	"grad_norm": 920.0,
	"learning_rate": 0.001,
	"loss": 1676.7816,
	"step": 18576
	},
	{
	"epoch": 0.38115508984486923,
	"grad_norm": 800.0,
	"learning_rate": 0.001,
	"loss": 1669.9821,
	"step": 18624
	},
	{
	"epoch": 0.3821374483238508,
	"grad_norm": 828.0,
	"learning_rate": 0.001,
	"loss": 1654.353,
	"step": 18672
	},
	{
	"epoch": 0.3831198068028325,
	"grad_norm": 756.0,
	"learning_rate": 0.001,
	"loss": 1641.133,
	"step": 18720
	},
	{
	"epoch": 0.38410216528181407,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1654.8257,
	"step": 18768
	},
	{
	"epoch": 0.3850845237607957,
	"grad_norm": 856.0,
	"learning_rate": 0.001,
	"loss": 1674.0685,
	"step": 18816
	},
	{
	"epoch": 0.3860668822397773,
	"grad_norm": 980.0,
	"learning_rate": 0.001,
	"loss": 1663.0804,
	"step": 18864
	},
	{
	"epoch": 0.38704924071875896,
	"grad_norm": 852.0,
	"learning_rate": 0.001,
	"loss": 1676.6375,
	"step": 18912
	},
	{
	"epoch": 0.38803159919774055,
	"grad_norm": 788.0,
	"learning_rate": 0.001,
	"loss": 1681.3968,
	"step": 18960
	},
	{
	"epoch": 0.3890139576767222,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1658.5428,
	"step": 19008
	},
	{
	"epoch": 0.3899963161557038,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1693.6683,
	"step": 19056
	},
	{
	"epoch": 0.39097867463468544,
	"grad_norm": 1224.0,
	"learning_rate": 0.001,
	"loss": 1637.9217,
	"step": 19104
	},
	{
	"epoch": 0.3919610331136671,
	"grad_norm": 896.0,
	"learning_rate": 0.001,
	"loss": 1680.59,
	"step": 19152
	},
	{
	"epoch": 0.3929433915926487,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1663.9777,
	"step": 19200
	},
	{
	"epoch": 0.39392575007163033,
	"grad_norm": 940.0,
	"learning_rate": 0.001,
	"loss": 1672.4491,
	"step": 19248
	},
	{
	"epoch": 0.3949081085506119,
	"grad_norm": 696.0,
	"learning_rate": 0.001,
	"loss": 1668.8294,
	"step": 19296
	},
	{
	"epoch": 0.3958904670295936,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1652.0028,
	"step": 19344
	},
	{
	"epoch": 0.39687282550857517,
	"grad_norm": 900.0,
	"learning_rate": 0.001,
	"loss": 1670.4543,
	"step": 19392
	},
	{
	"epoch": 0.3978551839875568,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1674.2799,
	"step": 19440
	},
	{
	"epoch": 0.3988375424665384,
	"grad_norm": 896.0,
	"learning_rate": 0.001,
	"loss": 1637.7557,
	"step": 19488
	},
	{
	"epoch": 0.39981990094552006,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1659.3999,
	"step": 19536
	},
	{
	"epoch": 0.39998362735868365,
	"eval_loss": 1588.186767578125,
	"eval_runtime": 9.0185,
	"eval_samples_per_second": 110.884,
	"eval_steps_per_second": 1.441,
	"step": 19544
	},
	{
	"epoch": 0.40080225942450165,
	"grad_norm": 812.0,
	"learning_rate": 0.001,
	"loss": 1663.3135,
	"step": 19584
	},
	{
	"epoch": 0.4017846179034833,
	"grad_norm": 820.0,
	"learning_rate": 0.001,
	"loss": 1648.4126,
	"step": 19632
	},
	{
	"epoch": 0.4027669763824649,
	"grad_norm": 828.0,
	"learning_rate": 0.001,
	"loss": 1629.137,
	"step": 19680
	},
	{
	"epoch": 0.40374933486144654,
	"grad_norm": 840.0,
	"learning_rate": 0.001,
	"loss": 1675.1574,
	"step": 19728
	},
	{
	"epoch": 0.40473169334042813,
	"grad_norm": 892.0,
	"learning_rate": 0.001,
	"loss": 1651.4735,
	"step": 19776
	},
	{
	"epoch": 0.4057140518194098,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1659.3854,
	"step": 19824
	},
	{
	"epoch": 0.4066964102983914,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 1676.7249,
	"step": 19872
	},
	{
	"epoch": 0.407678768777373,
	"grad_norm": 1088.0,
	"learning_rate": 0.001,
	"loss": 1658.8581,
	"step": 19920
	},
	{
	"epoch": 0.4086611272563546,
	"grad_norm": 772.0,
	"learning_rate": 0.001,
	"loss": 1663.8711,
	"step": 19968
	},
	{
	"epoch": 0.40964348573533627,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1657.056,
	"step": 20016
	},
	{
	"epoch": 0.41062584421431786,
	"grad_norm": 920.0,
	"learning_rate": 0.001,
	"loss": 1637.993,
	"step": 20064
	},
	{
	"epoch": 0.4116082026932995,
	"grad_norm": 636.0,
	"learning_rate": 0.001,
	"loss": 1644.8833,
	"step": 20112
	},
	{
	"epoch": 0.4125905611722811,
	"grad_norm": 956.0,
	"learning_rate": 0.001,
	"loss": 1656.4339,
	"step": 20160
	},
	{
	"epoch": 0.41357291965126275,
	"grad_norm": 792.0,
	"learning_rate": 0.001,
	"loss": 1652.4888,
	"step": 20208
	},
	{
	"epoch": 0.41455527813024434,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1642.5142,
	"step": 20256
	},
	{
	"epoch": 0.415537636609226,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1668.1183,
	"step": 20304
	},
	{
	"epoch": 0.4165199950882076,
	"grad_norm": 796.0,
	"learning_rate": 0.001,
	"loss": 1660.486,
	"step": 20352
	},
	{
	"epoch": 0.41750235356718923,
	"grad_norm": 788.0,
	"learning_rate": 0.001,
	"loss": 1655.4614,
	"step": 20400
	},
	{
	"epoch": 0.4184847120461708,
	"grad_norm": 844.0,
	"learning_rate": 0.001,
	"loss": 1650.6449,
	"step": 20448
	},
	{
	"epoch": 0.4194670705251525,
	"grad_norm": 1080.0,
	"learning_rate": 0.001,
	"loss": 1639.0168,
	"step": 20496
	},
	{
	"epoch": 0.42044942900413407,
	"grad_norm": 944.0,
	"learning_rate": 0.001,
	"loss": 1655.6951,
	"step": 20544
	},
	{
	"epoch": 0.4214317874831157,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1644.007,
	"step": 20592
	},
	{
	"epoch": 0.4224141459620973,
	"grad_norm": 896.0,
	"learning_rate": 0.001,
	"loss": 1614.1253,
	"step": 20640
	},
	{
	"epoch": 0.42339650444107896,
	"grad_norm": 736.0,
	"learning_rate": 0.001,
	"loss": 1637.6761,
	"step": 20688
	},
	{
	"epoch": 0.42437886292006055,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1635.8405,
	"step": 20736
	},
	{
	"epoch": 0.4253612213990422,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1653.1647,
	"step": 20784
	},
	{
	"epoch": 0.42634357987802385,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1657.5373,
	"step": 20832
	},
	{
	"epoch": 0.42732593835700544,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1649.7998,
	"step": 20880
	},
	{
	"epoch": 0.4283082968359871,
	"grad_norm": 848.0,
	"learning_rate": 0.001,
	"loss": 1639.043,
	"step": 20928
	},
	{
	"epoch": 0.4292906553149687,
	"grad_norm": 716.0,
	"learning_rate": 0.001,
	"loss": 1656.0706,
	"step": 20976
	},
	{
	"epoch": 0.43027301379395033,
	"grad_norm": 924.0,
	"learning_rate": 0.001,
	"loss": 1640.4744,
	"step": 21024
	},
	{
	"epoch": 0.4312553722729319,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1640.8403,
	"step": 21072
	},
	{
	"epoch": 0.4322377307519136,
	"grad_norm": 828.0,
	"learning_rate": 0.001,
	"loss": 1638.4172,
	"step": 21120
	},
	{
	"epoch": 0.43322008923089517,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1662.0506,
	"step": 21168
	},
	{
	"epoch": 0.4342024477098768,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1634.0928,
	"step": 21216
	},
	{
	"epoch": 0.4351848061888584,
	"grad_norm": 976.0,
	"learning_rate": 0.001,
	"loss": 1650.1844,
	"step": 21264
	},
	{
	"epoch": 0.43616716466784006,
	"grad_norm": 864.0,
	"learning_rate": 0.001,
	"loss": 1637.9504,
	"step": 21312
	},
	{
	"epoch": 0.43714952314682165,
	"grad_norm": 660.0,
	"learning_rate": 0.001,
	"loss": 1651.0807,
	"step": 21360
	},
	{
	"epoch": 0.4381318816258033,
	"grad_norm": 884.0,
	"learning_rate": 0.001,
	"loss": 1639.6099,
	"step": 21408
	},
	{
	"epoch": 0.4391142401047849,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1636.7961,
	"step": 21456
	},
	{
	"epoch": 0.44009659858376654,
	"grad_norm": 704.0,
	"learning_rate": 0.001,
	"loss": 1630.2891,
	"step": 21504
	},
	{
	"epoch": 0.44107895706274813,
	"grad_norm": 868.0,
	"learning_rate": 0.001,
	"loss": 1651.1029,
	"step": 21552
	},
	{
	"epoch": 0.4420613155417298,
	"grad_norm": 1200.0,
	"learning_rate": 0.001,
	"loss": 1658.1079,
	"step": 21600
	},
	{
	"epoch": 0.4430436740207114,
	"grad_norm": 820.0,
	"learning_rate": 0.001,
	"loss": 1650.035,
	"step": 21648
	},
	{
	"epoch": 0.444026032499693,
	"grad_norm": 628.0,
	"learning_rate": 0.001,
	"loss": 1651.446,
	"step": 21696
	},
	{
	"epoch": 0.4450083909786746,
	"grad_norm": 936.0,
	"learning_rate": 0.001,
	"loss": 1651.8545,
	"step": 21744
	},
	{
	"epoch": 0.44599074945765627,
	"grad_norm": 724.0,
	"learning_rate": 0.001,
	"loss": 1633.7931,
	"step": 21792
	},
	{
	"epoch": 0.44697310793663786,
	"grad_norm": 868.0,
	"learning_rate": 0.001,
	"loss": 1643.6271,
	"step": 21840
	},
	{
	"epoch": 0.4479554664156195,
	"grad_norm": 884.0,
	"learning_rate": 0.001,
	"loss": 1628.9087,
	"step": 21888
	},
	{
	"epoch": 0.4489378248946011,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 1633.3311,
	"step": 21936
	},
	{
	"epoch": 0.44992018337358275,
	"grad_norm": 776.0,
	"learning_rate": 0.001,
	"loss": 1636.3483,
	"step": 21984
	},
	{
	"epoch": 0.45090254185256434,
	"grad_norm": 740.0,
	"learning_rate": 0.001,
	"loss": 1627.1842,
	"step": 22032
	},
	{
	"epoch": 0.451884900331546,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1632.6536,
	"step": 22080
	},
	{
	"epoch": 0.4528672588105276,
	"grad_norm": 920.0,
	"learning_rate": 0.001,
	"loss": 1663.3418,
	"step": 22128
	},
	{
	"epoch": 0.45384961728950923,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1635.7738,
	"step": 22176
	},
	{
	"epoch": 0.4548319757684908,
	"grad_norm": 752.0,
	"learning_rate": 0.001,
	"loss": 1636.0459,
	"step": 22224
	},
	{
	"epoch": 0.4558143342474725,
	"grad_norm": 892.0,
	"learning_rate": 0.001,
	"loss": 1627.4956,
	"step": 22272
	},
	{
	"epoch": 0.45679669272645407,
	"grad_norm": 860.0,
	"learning_rate": 0.001,
	"loss": 1628.1626,
	"step": 22320
	},
	{
	"epoch": 0.4577790512054357,
	"grad_norm": 776.0,
	"learning_rate": 0.001,
	"loss": 1628.0701,
	"step": 22368
	},
	{
	"epoch": 0.45876140968441737,
	"grad_norm": 792.0,
	"learning_rate": 0.001,
	"loss": 1644.1922,
	"step": 22416
	},
	{
	"epoch": 0.45974376816339896,
	"grad_norm": 776.0,
	"learning_rate": 0.001,
	"loss": 1608.5988,
	"step": 22464
	},
	{
	"epoch": 0.4607261266423806,
	"grad_norm": 860.0,
	"learning_rate": 0.001,
	"loss": 1637.166,
	"step": 22512
	},
	{
	"epoch": 0.4617084851213622,
	"grad_norm": 924.0,
	"learning_rate": 0.001,
	"loss": 1626.6854,
	"step": 22560
	},
	{
	"epoch": 0.46269084360034385,
	"grad_norm": 876.0,
	"learning_rate": 0.001,
	"loss": 1639.1245,
	"step": 22608
	},
	{
	"epoch": 0.46367320207932544,
	"grad_norm": 936.0,
	"learning_rate": 0.001,
	"loss": 1634.3815,
	"step": 22656
	},
	{
	"epoch": 0.4646555605583071,
	"grad_norm": 912.0,
	"learning_rate": 0.001,
	"loss": 1606.1912,
	"step": 22704
	},
	{
	"epoch": 0.4656379190372887,
	"grad_norm": 952.0,
	"learning_rate": 0.001,
	"loss": 1620.5391,
	"step": 22752
	},
	{
	"epoch": 0.46662027751627033,
	"grad_norm": 960.0,
	"learning_rate": 0.001,
	"loss": 1612.0667,
	"step": 22800
	},
	{
	"epoch": 0.4676026359952519,
	"grad_norm": 832.0,
	"learning_rate": 0.001,
	"loss": 1651.9868,
	"step": 22848
	},
	{
	"epoch": 0.4685849944742336,
	"grad_norm": 712.0,
	"learning_rate": 0.001,
	"loss": 1629.237,
	"step": 22896
	},
	{
	"epoch": 0.46956735295321517,
	"grad_norm": 864.0,
	"learning_rate": 0.001,
	"loss": 1618.2004,
	"step": 22944
	},
	{
	"epoch": 0.4705497114321968,
	"grad_norm": 728.0,
	"learning_rate": 0.001,
	"loss": 1625.5379,
	"step": 22992
	},
	{
	"epoch": 0.4715320699111784,
	"grad_norm": 836.0,
	"learning_rate": 0.001,
	"loss": 1622.8146,
	"step": 23040
	},
	{
	"epoch": 0.47251442839016006,
	"grad_norm": 1064.0,
	"learning_rate": 0.001,
	"loss": 1623.9705,
	"step": 23088
	},
	{
	"epoch": 0.47349678686914165,
	"grad_norm": 860.0,
	"learning_rate": 0.001,
	"loss": 1626.2383,
	"step": 23136
	},
	{
	"epoch": 0.4744791453481233,
	"grad_norm": 1120.0,
	"learning_rate": 0.001,
	"loss": 1634.2668,
	"step": 23184
	},
	{
	"epoch": 0.4754615038271049,
	"grad_norm": 796.0,
	"learning_rate": 0.001,
	"loss": 1642.5649,
	"step": 23232
	},
	{
	"epoch": 0.47644386230608654,
	"grad_norm": 1072.0,
	"learning_rate": 0.001,
	"loss": 1633.4873,
	"step": 23280
	},
	{
	"epoch": 0.47742622078506813,
	"grad_norm": 904.0,
	"learning_rate": 0.001,
	"loss": 1604.186,
	"step": 23328
	},
	{
	"epoch": 0.4784085792640498,
	"grad_norm": 852.0,
	"learning_rate": 0.001,
	"loss": 1608.5158,
	"step": 23376
	},
	{
	"epoch": 0.4793909377430314,
	"grad_norm": 860.0,
	"learning_rate": 0.001,
	"loss": 1624.3991,
	"step": 23424
	},
	{
	"epoch": 0.480373296222013,
	"grad_norm": 820.0,
	"learning_rate": 0.001,
	"loss": 1640.4948,
	"step": 23472
	},
	{
	"epoch": 0.4813556547009946,
	"grad_norm": 700.0,
	"learning_rate": 0.001,
	"loss": 1593.3931,
	"step": 23520
	},
	{
	"epoch": 0.48233801317997627,
	"grad_norm": 824.0,
	"learning_rate": 0.001,
	"loss": 1622.2378,
	"step": 23568
	},
	{
	"epoch": 0.48332037165895786,
	"grad_norm": 936.0,
	"learning_rate": 0.001,
	"loss": 1612.6034,
	"step": 23616
	},
	{
	"epoch": 0.4843027301379395,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1624.4165,
	"step": 23664
	},
	{
	"epoch": 0.4852850886169211,
	"grad_norm": 820.0,
	"learning_rate": 0.001,
	"loss": 1634.2424,
	"step": 23712
	},
	{
	"epoch": 0.48626744709590275,
	"grad_norm": 896.0,
	"learning_rate": 0.001,
	"loss": 1616.617,
	"step": 23760
	},
	{
	"epoch": 0.48724980557488434,
	"grad_norm": 732.0,
	"learning_rate": 0.001,
	"loss": 1629.8065,
	"step": 23808
	},
	{
	"epoch": 0.488232164053866,
	"grad_norm": 876.0,
	"learning_rate": 0.001,
	"loss": 1611.0832,
	"step": 23856
	},
	{
	"epoch": 0.4892145225328476,
	"grad_norm": 1004.0,
	"learning_rate": 0.001,
	"loss": 1596.9705,
	"step": 23904
	},
	{
	"epoch": 0.49019688101182923,
	"grad_norm": 812.0,
	"learning_rate": 0.001,
	"loss": 1612.6437,
	"step": 23952
	},
	{
	"epoch": 0.4911792394908109,
	"grad_norm": 764.0,
	"learning_rate": 0.001,
	"loss": 1612.0643,
	"step": 24000
	},
	{
	"epoch": 0.4921615979697925,
	"grad_norm": 944.0,
	"learning_rate": 0.001,
	"loss": 1620.1268,
	"step": 24048
	},
	{
	"epoch": 0.4931439564487741,
	"grad_norm": 920.0,
	"learning_rate": 0.001,
	"loss": 1619.8875,
	"step": 24096
	},
	{
	"epoch": 0.4941263149277557,
	"grad_norm": 808.0,
	"learning_rate": 0.001,
	"loss": 1608.6463,
	"step": 24144
	},
	{
	"epoch": 0.49510867340673737,
	"grad_norm": 784.0,
	"learning_rate": 0.001,
	"loss": 1609.1462,
	"step": 24192
	},
	{
	"epoch": 0.49609103188571896,
	"grad_norm": 796.0,
	"learning_rate": 0.001,
	"loss": 1610.4935,
	"step": 24240
	},
	{
	"epoch": 0.4970733903647006,
	"grad_norm": 896.0,
	"learning_rate": 0.001,
	"loss": 1622.8371,
	"step": 24288
	},
	{
	"epoch": 0.4980557488436822,
	"grad_norm": 768.0,
	"learning_rate": 0.001,
	"loss": 1617.0732,
	"step": 24336
	},
	{
	"epoch": 0.49903810732266385,
	"grad_norm": 920.0,
	"learning_rate": 0.001,
	"loss": 1615.2142,
	"step": 24384
	},
	{
	"epoch": 0.49997953419835456,
	"eval_loss": 1546.7662353515625,
	"eval_runtime": 9.0072,
	"eval_samples_per_second": 111.022,
	"eval_steps_per_second": 1.443,
	"step": 24430
	}
	],
	"logging_steps": 48,
	"max_steps": 48862,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 4886,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.7859053283033743e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}