Training checkpoint at step 15000

68331c4 verified about 4 hours ago

126 kB

	{
	"best_global_step": 14900,
	"best_metric": 2.523963451385498,
	"best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-14500",
	"epoch": 0.3,
	"eval_steps": 100,
	"global_step": 15000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005,
	"grad_norm": 96.04050869121504,
	"learning_rate": 4.8e-08,
	"loss": 3.4391,
	"step": 25
	},
	{
	"epoch": 0.001,
	"grad_norm": 78.95958818615539,
	"learning_rate": 9.8e-08,
	"loss": 3.397,
	"step": 50
	},
	{
	"epoch": 0.0015,
	"grad_norm": 61.45018428703237,
	"learning_rate": 1.4800000000000003e-07,
	"loss": 3.297,
	"step": 75
	},
	{
	"epoch": 0.002,
	"grad_norm": 22.353651858428393,
	"learning_rate": 1.9800000000000003e-07,
	"loss": 3.1733,
	"step": 100
	},
	{
	"epoch": 0.002,
	"eval_loss": 3.09375,
	"eval_runtime": 42.6579,
	"eval_samples_per_second": 2.438,
	"eval_steps_per_second": 1.219,
	"step": 100
	},
	{
	"epoch": 0.0025,
	"grad_norm": 9.835689068347888,
	"learning_rate": 2.48e-07,
	"loss": 3.0557,
	"step": 125
	},
	{
	"epoch": 0.003,
	"grad_norm": 8.293191220823632,
	"learning_rate": 2.9800000000000005e-07,
	"loss": 2.9954,
	"step": 150
	},
	{
	"epoch": 0.0035,
	"grad_norm": 6.660135091710579,
	"learning_rate": 3.48e-07,
	"loss": 2.9504,
	"step": 175
	},
	{
	"epoch": 0.004,
	"grad_norm": 13.605532098937575,
	"learning_rate": 3.9800000000000004e-07,
	"loss": 2.9363,
	"step": 200
	},
	{
	"epoch": 0.004,
	"eval_loss": 2.924128532409668,
	"eval_runtime": 42.5415,
	"eval_samples_per_second": 2.445,
	"eval_steps_per_second": 1.222,
	"step": 200
	},
	{
	"epoch": 0.0045,
	"grad_norm": 7.7985826788732435,
	"learning_rate": 4.4800000000000004e-07,
	"loss": 2.9223,
	"step": 225
	},
	{
	"epoch": 0.005,
	"grad_norm": 7.257382344220691,
	"learning_rate": 4.98e-07,
	"loss": 2.9043,
	"step": 250
	},
	{
	"epoch": 0.0055,
	"grad_norm": 9.049674458422025,
	"learning_rate": 5.480000000000001e-07,
	"loss": 2.8984,
	"step": 275
	},
	{
	"epoch": 0.006,
	"grad_norm": 5.766079229639856,
	"learning_rate": 5.98e-07,
	"loss": 2.8898,
	"step": 300
	},
	{
	"epoch": 0.006,
	"eval_loss": 2.877253532409668,
	"eval_runtime": 42.642,
	"eval_samples_per_second": 2.439,
	"eval_steps_per_second": 1.219,
	"step": 300
	},
	{
	"epoch": 0.0065,
	"grad_norm": 5.448754520618337,
	"learning_rate": 6.48e-07,
	"loss": 2.871,
	"step": 325
	},
	{
	"epoch": 0.007,
	"grad_norm": 6.866471472157179,
	"learning_rate": 6.98e-07,
	"loss": 2.8693,
	"step": 350
	},
	{
	"epoch": 0.0075,
	"grad_norm": 6.115788528016365,
	"learning_rate": 7.480000000000001e-07,
	"loss": 2.8601,
	"step": 375
	},
	{
	"epoch": 0.008,
	"grad_norm": 5.871468919197367,
	"learning_rate": 7.98e-07,
	"loss": 2.8555,
	"step": 400
	},
	{
	"epoch": 0.008,
	"eval_loss": 2.848106861114502,
	"eval_runtime": 42.3632,
	"eval_samples_per_second": 2.455,
	"eval_steps_per_second": 1.227,
	"step": 400
	},
	{
	"epoch": 0.0085,
	"grad_norm": 6.050804087803095,
	"learning_rate": 8.480000000000001e-07,
	"loss": 2.832,
	"step": 425
	},
	{
	"epoch": 0.009,
	"grad_norm": 4.634127162302958,
	"learning_rate": 8.980000000000001e-07,
	"loss": 2.8418,
	"step": 450
	},
	{
	"epoch": 0.0095,
	"grad_norm": 5.700549652048682,
	"learning_rate": 9.480000000000001e-07,
	"loss": 2.8351,
	"step": 475
	},
	{
	"epoch": 0.01,
	"grad_norm": 5.462019159507559,
	"learning_rate": 9.98e-07,
	"loss": 2.8319,
	"step": 500
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.828125,
	"eval_runtime": 42.4078,
	"eval_samples_per_second": 2.452,
	"eval_steps_per_second": 1.226,
	"step": 500
	},
	{
	"epoch": 0.0105,
	"grad_norm": 5.100237356575638,
	"learning_rate": 1.0480000000000002e-06,
	"loss": 2.8368,
	"step": 525
	},
	{
	"epoch": 0.011,
	"grad_norm": 5.8591675831655134,
	"learning_rate": 1.0980000000000001e-06,
	"loss": 2.8262,
	"step": 550
	},
	{
	"epoch": 0.0115,
	"grad_norm": 4.582188259829454,
	"learning_rate": 1.148e-06,
	"loss": 2.8083,
	"step": 575
	},
	{
	"epoch": 0.012,
	"grad_norm": 4.853482247652135,
	"learning_rate": 1.1980000000000002e-06,
	"loss": 2.8187,
	"step": 600
	},
	{
	"epoch": 0.012,
	"eval_loss": 2.810246467590332,
	"eval_runtime": 42.429,
	"eval_samples_per_second": 2.451,
	"eval_steps_per_second": 1.226,
	"step": 600
	},
	{
	"epoch": 0.0125,
	"grad_norm": 4.813324366644894,
	"learning_rate": 1.248e-06,
	"loss": 2.8109,
	"step": 625
	},
	{
	"epoch": 0.013,
	"grad_norm": 4.680021008982155,
	"learning_rate": 1.2980000000000001e-06,
	"loss": 2.8071,
	"step": 650
	},
	{
	"epoch": 0.0135,
	"grad_norm": 4.232572917961915,
	"learning_rate": 1.348e-06,
	"loss": 2.7996,
	"step": 675
	},
	{
	"epoch": 0.014,
	"grad_norm": 4.140300235345937,
	"learning_rate": 1.3980000000000002e-06,
	"loss": 2.7965,
	"step": 700
	},
	{
	"epoch": 0.014,
	"eval_loss": 2.795973539352417,
	"eval_runtime": 42.2781,
	"eval_samples_per_second": 2.46,
	"eval_steps_per_second": 1.23,
	"step": 700
	},
	{
	"epoch": 0.0145,
	"grad_norm": 4.066322921244863,
	"learning_rate": 1.4480000000000002e-06,
	"loss": 2.7892,
	"step": 725
	},
	{
	"epoch": 0.015,
	"grad_norm": 4.790524346969656,
	"learning_rate": 1.498e-06,
	"loss": 2.7776,
	"step": 750
	},
	{
	"epoch": 0.0155,
	"grad_norm": 4.814208015592297,
	"learning_rate": 1.548e-06,
	"loss": 2.7904,
	"step": 775
	},
	{
	"epoch": 0.016,
	"grad_norm": 3.495397019361677,
	"learning_rate": 1.5980000000000002e-06,
	"loss": 2.7771,
	"step": 800
	},
	{
	"epoch": 0.016,
	"eval_loss": 2.783353328704834,
	"eval_runtime": 45.2475,
	"eval_samples_per_second": 2.298,
	"eval_steps_per_second": 1.149,
	"step": 800
	},
	{
	"epoch": 0.0165,
	"grad_norm": 4.509827964168959,
	"learning_rate": 1.6480000000000001e-06,
	"loss": 2.7864,
	"step": 825
	},
	{
	"epoch": 0.017,
	"grad_norm": 3.396755590212729,
	"learning_rate": 1.6980000000000003e-06,
	"loss": 2.7665,
	"step": 850
	},
	{
	"epoch": 0.0175,
	"grad_norm": 3.6908600934389364,
	"learning_rate": 1.7480000000000002e-06,
	"loss": 2.7784,
	"step": 875
	},
	{
	"epoch": 0.018,
	"grad_norm": 4.517092572588064,
	"learning_rate": 1.798e-06,
	"loss": 2.7718,
	"step": 900
	},
	{
	"epoch": 0.018,
	"eval_loss": 2.772385835647583,
	"eval_runtime": 42.1503,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.234,
	"step": 900
	},
	{
	"epoch": 0.0185,
	"grad_norm": 4.1527970820269635,
	"learning_rate": 1.8480000000000001e-06,
	"loss": 2.7592,
	"step": 925
	},
	{
	"epoch": 0.019,
	"grad_norm": 4.093946260210414,
	"learning_rate": 1.898e-06,
	"loss": 2.7728,
	"step": 950
	},
	{
	"epoch": 0.0195,
	"grad_norm": 3.794409923219389,
	"learning_rate": 1.9480000000000002e-06,
	"loss": 2.7757,
	"step": 975
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.128018180220031,
	"learning_rate": 1.998e-06,
	"loss": 2.7614,
	"step": 1000
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.764573335647583,
	"eval_runtime": 42.2226,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.232,
	"step": 1000
	},
	{
	"epoch": 0.0205,
	"grad_norm": 3.8078874128993667,
	"learning_rate": 2.048e-06,
	"loss": 2.7629,
	"step": 1025
	},
	{
	"epoch": 0.021,
	"grad_norm": 3.50724949935112,
	"learning_rate": 2.098e-06,
	"loss": 2.776,
	"step": 1050
	},
	{
	"epoch": 0.0215,
	"grad_norm": 3.600343997799952,
	"learning_rate": 2.148e-06,
	"loss": 2.7503,
	"step": 1075
	},
	{
	"epoch": 0.022,
	"grad_norm": 3.4227590286591667,
	"learning_rate": 2.198e-06,
	"loss": 2.7522,
	"step": 1100
	},
	{
	"epoch": 0.022,
	"eval_loss": 2.754957914352417,
	"eval_runtime": 42.1456,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 1100
	},
	{
	"epoch": 0.0225,
	"grad_norm": 3.6214573340756178,
	"learning_rate": 2.2480000000000003e-06,
	"loss": 2.7423,
	"step": 1125
	},
	{
	"epoch": 0.023,
	"grad_norm": 4.963456774283441,
	"learning_rate": 2.2980000000000003e-06,
	"loss": 2.7473,
	"step": 1150
	},
	{
	"epoch": 0.0235,
	"grad_norm": 4.417511515875024,
	"learning_rate": 2.3480000000000002e-06,
	"loss": 2.7458,
	"step": 1175
	},
	{
	"epoch": 0.024,
	"grad_norm": 3.4640266757488054,
	"learning_rate": 2.398e-06,
	"loss": 2.755,
	"step": 1200
	},
	{
	"epoch": 0.024,
	"eval_loss": 2.744741678237915,
	"eval_runtime": 42.2958,
	"eval_samples_per_second": 2.459,
	"eval_steps_per_second": 1.229,
	"step": 1200
	},
	{
	"epoch": 0.0245,
	"grad_norm": 3.8906187945336637,
	"learning_rate": 2.448e-06,
	"loss": 2.7413,
	"step": 1225
	},
	{
	"epoch": 0.025,
	"grad_norm": 4.103531427287993,
	"learning_rate": 2.498e-06,
	"loss": 2.7464,
	"step": 1250
	},
	{
	"epoch": 0.0255,
	"grad_norm": 3.7381187683762565,
	"learning_rate": 2.5480000000000004e-06,
	"loss": 2.7383,
	"step": 1275
	},
	{
	"epoch": 0.026,
	"grad_norm": 4.019695597142381,
	"learning_rate": 2.598e-06,
	"loss": 2.7286,
	"step": 1300
	},
	{
	"epoch": 0.026,
	"eval_loss": 2.735727071762085,
	"eval_runtime": 42.1778,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 1300
	},
	{
	"epoch": 0.0265,
	"grad_norm": 3.761754015207239,
	"learning_rate": 2.648e-06,
	"loss": 2.7508,
	"step": 1325
	},
	{
	"epoch": 0.027,
	"grad_norm": 3.5172792845513023,
	"learning_rate": 2.6980000000000003e-06,
	"loss": 2.7396,
	"step": 1350
	},
	{
	"epoch": 0.0275,
	"grad_norm": 3.6926838130981556,
	"learning_rate": 2.748e-06,
	"loss": 2.7286,
	"step": 1375
	},
	{
	"epoch": 0.028,
	"grad_norm": 3.5018547073145,
	"learning_rate": 2.798e-06,
	"loss": 2.7247,
	"step": 1400
	},
	{
	"epoch": 0.028,
	"eval_loss": 2.728515625,
	"eval_runtime": 42.129,
	"eval_samples_per_second": 2.469,
	"eval_steps_per_second": 1.234,
	"step": 1400
	},
	{
	"epoch": 0.0285,
	"grad_norm": 3.575054037567428,
	"learning_rate": 2.848e-06,
	"loss": 2.7229,
	"step": 1425
	},
	{
	"epoch": 0.029,
	"grad_norm": 4.062924067051664,
	"learning_rate": 2.8980000000000005e-06,
	"loss": 2.7208,
	"step": 1450
	},
	{
	"epoch": 0.0295,
	"grad_norm": 3.5741121733868573,
	"learning_rate": 2.9480000000000004e-06,
	"loss": 2.7071,
	"step": 1475
	},
	{
	"epoch": 0.03,
	"grad_norm": 3.9813713940318864,
	"learning_rate": 2.9980000000000003e-06,
	"loss": 2.729,
	"step": 1500
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.721153736114502,
	"eval_runtime": 42.058,
	"eval_samples_per_second": 2.473,
	"eval_steps_per_second": 1.236,
	"step": 1500
	},
	{
	"epoch": 0.0305,
	"grad_norm": 4.465898046671721,
	"learning_rate": 3.0480000000000003e-06,
	"loss": 2.7239,
	"step": 1525
	},
	{
	"epoch": 0.031,
	"grad_norm": 4.083780430751083,
	"learning_rate": 3.0980000000000007e-06,
	"loss": 2.7177,
	"step": 1550
	},
	{
	"epoch": 0.0315,
	"grad_norm": 3.259296223054617,
	"learning_rate": 3.1480000000000006e-06,
	"loss": 2.7149,
	"step": 1575
	},
	{
	"epoch": 0.032,
	"grad_norm": 4.118900376683919,
	"learning_rate": 3.198e-06,
	"loss": 2.7157,
	"step": 1600
	},
	{
	"epoch": 0.032,
	"eval_loss": 2.714693546295166,
	"eval_runtime": 42.155,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.234,
	"step": 1600
	},
	{
	"epoch": 0.0325,
	"grad_norm": 3.7685203077928335,
	"learning_rate": 3.248e-06,
	"loss": 2.7185,
	"step": 1625
	},
	{
	"epoch": 0.033,
	"grad_norm": 3.786239665874637,
	"learning_rate": 3.298e-06,
	"loss": 2.694,
	"step": 1650
	},
	{
	"epoch": 0.0335,
	"grad_norm": 4.0202339796786095,
	"learning_rate": 3.348e-06,
	"loss": 2.7076,
	"step": 1675
	},
	{
	"epoch": 0.034,
	"grad_norm": 3.220912468646897,
	"learning_rate": 3.3980000000000003e-06,
	"loss": 2.7086,
	"step": 1700
	},
	{
	"epoch": 0.034,
	"eval_loss": 2.708683967590332,
	"eval_runtime": 42.1812,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 1700
	},
	{
	"epoch": 0.0345,
	"grad_norm": 3.4236457763643964,
	"learning_rate": 3.4480000000000003e-06,
	"loss": 2.7107,
	"step": 1725
	},
	{
	"epoch": 0.035,
	"grad_norm": 3.428424878937346,
	"learning_rate": 3.4980000000000002e-06,
	"loss": 2.7033,
	"step": 1750
	},
	{
	"epoch": 0.0355,
	"grad_norm": 3.7064590041354597,
	"learning_rate": 3.548e-06,
	"loss": 2.7135,
	"step": 1775
	},
	{
	"epoch": 0.036,
	"grad_norm": 2.6935868617559127,
	"learning_rate": 3.5980000000000005e-06,
	"loss": 2.6977,
	"step": 1800
	},
	{
	"epoch": 0.036,
	"eval_loss": 2.702373743057251,
	"eval_runtime": 42.099,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 1800
	},
	{
	"epoch": 0.0365,
	"grad_norm": 3.1724624305272577,
	"learning_rate": 3.6480000000000005e-06,
	"loss": 2.6941,
	"step": 1825
	},
	{
	"epoch": 0.037,
	"grad_norm": 3.3947291376692967,
	"learning_rate": 3.6980000000000004e-06,
	"loss": 2.705,
	"step": 1850
	},
	{
	"epoch": 0.0375,
	"grad_norm": 3.2739522130247454,
	"learning_rate": 3.7480000000000004e-06,
	"loss": 2.6971,
	"step": 1875
	},
	{
	"epoch": 0.038,
	"grad_norm": 2.886346941239111,
	"learning_rate": 3.7980000000000007e-06,
	"loss": 2.6878,
	"step": 1900
	},
	{
	"epoch": 0.038,
	"eval_loss": 2.698768138885498,
	"eval_runtime": 42.2524,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.231,
	"step": 1900
	},
	{
	"epoch": 0.0385,
	"grad_norm": 2.961130539695273,
	"learning_rate": 3.848e-06,
	"loss": 2.6936,
	"step": 1925
	},
	{
	"epoch": 0.039,
	"grad_norm": 3.2300245788196884,
	"learning_rate": 3.898e-06,
	"loss": 2.6989,
	"step": 1950
	},
	{
	"epoch": 0.0395,
	"grad_norm": 3.2952386418656823,
	"learning_rate": 3.948e-06,
	"loss": 2.6937,
	"step": 1975
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.556435159379079,
	"learning_rate": 3.9980000000000005e-06,
	"loss": 2.6991,
	"step": 2000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.693058967590332,
	"eval_runtime": 42.2004,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 2000
	},
	{
	"epoch": 0.0405,
	"grad_norm": 2.975198340671437,
	"learning_rate": 4.048e-06,
	"loss": 2.6896,
	"step": 2025
	},
	{
	"epoch": 0.041,
	"grad_norm": 2.366572300776235,
	"learning_rate": 4.098e-06,
	"loss": 2.6903,
	"step": 2050
	},
	{
	"epoch": 0.0415,
	"grad_norm": 2.650575110326075,
	"learning_rate": 4.148000000000001e-06,
	"loss": 2.6974,
	"step": 2075
	},
	{
	"epoch": 0.042,
	"grad_norm": 2.844363978567716,
	"learning_rate": 4.198e-06,
	"loss": 2.6833,
	"step": 2100
	},
	{
	"epoch": 0.042,
	"eval_loss": 2.687650203704834,
	"eval_runtime": 42.1236,
	"eval_samples_per_second": 2.469,
	"eval_steps_per_second": 1.234,
	"step": 2100
	},
	{
	"epoch": 0.0425,
	"grad_norm": 2.5043519810203425,
	"learning_rate": 4.248000000000001e-06,
	"loss": 2.6848,
	"step": 2125
	},
	{
	"epoch": 0.043,
	"grad_norm": 2.442865859341675,
	"learning_rate": 4.298e-06,
	"loss": 2.6834,
	"step": 2150
	},
	{
	"epoch": 0.0435,
	"grad_norm": 2.396444505850839,
	"learning_rate": 4.3480000000000006e-06,
	"loss": 2.6842,
	"step": 2175
	},
	{
	"epoch": 0.044,
	"grad_norm": 2.467830621762353,
	"learning_rate": 4.398000000000001e-06,
	"loss": 2.6849,
	"step": 2200
	},
	{
	"epoch": 0.044,
	"eval_loss": 2.684495210647583,
	"eval_runtime": 42.337,
	"eval_samples_per_second": 2.456,
	"eval_steps_per_second": 1.228,
	"step": 2200
	},
	{
	"epoch": 0.0445,
	"grad_norm": 2.331183246577976,
	"learning_rate": 4.4480000000000004e-06,
	"loss": 2.6933,
	"step": 2225
	},
	{
	"epoch": 0.045,
	"grad_norm": 2.7108879126095995,
	"learning_rate": 4.498e-06,
	"loss": 2.6756,
	"step": 2250
	},
	{
	"epoch": 0.0455,
	"grad_norm": 2.297487473050839,
	"learning_rate": 4.548e-06,
	"loss": 2.6773,
	"step": 2275
	},
	{
	"epoch": 0.046,
	"grad_norm": 2.260013609826266,
	"learning_rate": 4.598e-06,
	"loss": 2.6869,
	"step": 2300
	},
	{
	"epoch": 0.046,
	"eval_loss": 2.680889368057251,
	"eval_runtime": 42.2308,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.231,
	"step": 2300
	},
	{
	"epoch": 0.0465,
	"grad_norm": 2.1362621908829964,
	"learning_rate": 4.648e-06,
	"loss": 2.674,
	"step": 2325
	},
	{
	"epoch": 0.047,
	"grad_norm": 2.530250306266186,
	"learning_rate": 4.698000000000001e-06,
	"loss": 2.6682,
	"step": 2350
	},
	{
	"epoch": 0.0475,
	"grad_norm": 2.284376818082532,
	"learning_rate": 4.748e-06,
	"loss": 2.6741,
	"step": 2375
	},
	{
	"epoch": 0.048,
	"grad_norm": 2.9431781004579403,
	"learning_rate": 4.7980000000000005e-06,
	"loss": 2.6793,
	"step": 2400
	},
	{
	"epoch": 0.048,
	"eval_loss": 2.676382303237915,
	"eval_runtime": 42.1755,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 2400
	},
	{
	"epoch": 0.0485,
	"grad_norm": 2.2501714313646,
	"learning_rate": 4.848000000000001e-06,
	"loss": 2.6836,
	"step": 2425
	},
	{
	"epoch": 0.049,
	"grad_norm": 2.520507270374293,
	"learning_rate": 4.898e-06,
	"loss": 2.6793,
	"step": 2450
	},
	{
	"epoch": 0.0495,
	"grad_norm": 2.3001609851463156,
	"learning_rate": 4.948000000000001e-06,
	"loss": 2.6825,
	"step": 2475
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.0060268631347973,
	"learning_rate": 4.998e-06,
	"loss": 2.6736,
	"step": 2500
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.671875,
	"eval_runtime": 42.1697,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 2500
	},
	{
	"epoch": 0.0505,
	"grad_norm": 2.1769919372211564,
	"learning_rate": 5.048000000000001e-06,
	"loss": 2.6741,
	"step": 2525
	},
	{
	"epoch": 0.051,
	"grad_norm": 2.1133782069189366,
	"learning_rate": 5.098000000000001e-06,
	"loss": 2.67,
	"step": 2550
	},
	{
	"epoch": 0.0515,
	"grad_norm": 2.242586565950932,
	"learning_rate": 5.1480000000000005e-06,
	"loss": 2.6835,
	"step": 2575
	},
	{
	"epoch": 0.052,
	"grad_norm": 2.4130154185332615,
	"learning_rate": 5.198000000000001e-06,
	"loss": 2.6752,
	"step": 2600
	},
	{
	"epoch": 0.052,
	"eval_loss": 2.669621467590332,
	"eval_runtime": 42.1123,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 2600
	},
	{
	"epoch": 0.0525,
	"grad_norm": 2.243339931731786,
	"learning_rate": 5.248000000000001e-06,
	"loss": 2.6631,
	"step": 2625
	},
	{
	"epoch": 0.053,
	"grad_norm": 2.1652170787894964,
	"learning_rate": 5.298000000000001e-06,
	"loss": 2.6653,
	"step": 2650
	},
	{
	"epoch": 0.0535,
	"grad_norm": 2.3514042691010077,
	"learning_rate": 5.348000000000001e-06,
	"loss": 2.6704,
	"step": 2675
	},
	{
	"epoch": 0.054,
	"grad_norm": 2.0555358311645104,
	"learning_rate": 5.398e-06,
	"loss": 2.6744,
	"step": 2700
	},
	{
	"epoch": 0.054,
	"eval_loss": 2.668419361114502,
	"eval_runtime": 42.1636,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.233,
	"step": 2700
	},
	{
	"epoch": 0.0545,
	"grad_norm": 2.504233096197935,
	"learning_rate": 5.448e-06,
	"loss": 2.6686,
	"step": 2725
	},
	{
	"epoch": 0.055,
	"grad_norm": 2.1966446495255014,
	"learning_rate": 5.498e-06,
	"loss": 2.6575,
	"step": 2750
	},
	{
	"epoch": 0.0555,
	"grad_norm": 3.4129666421130738,
	"learning_rate": 5.548e-06,
	"loss": 2.6624,
	"step": 2775
	},
	{
	"epoch": 0.056,
	"grad_norm": 2.5402178685422028,
	"learning_rate": 5.5980000000000004e-06,
	"loss": 2.6615,
	"step": 2800
	},
	{
	"epoch": 0.056,
	"eval_loss": 2.666015625,
	"eval_runtime": 42.1094,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 2800
	},
	{
	"epoch": 0.0565,
	"grad_norm": 2.5169534616209215,
	"learning_rate": 5.648e-06,
	"loss": 2.6745,
	"step": 2825
	},
	{
	"epoch": 0.057,
	"grad_norm": 2.4269096679582347,
	"learning_rate": 5.698e-06,
	"loss": 2.658,
	"step": 2850
	},
	{
	"epoch": 0.0575,
	"grad_norm": 2.2819396814928763,
	"learning_rate": 5.748e-06,
	"loss": 2.6694,
	"step": 2875
	},
	{
	"epoch": 0.058,
	"grad_norm": 3.0448163445232512,
	"learning_rate": 5.798e-06,
	"loss": 2.6587,
	"step": 2900
	},
	{
	"epoch": 0.058,
	"eval_loss": 2.662710428237915,
	"eval_runtime": 42.173,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 2900
	},
	{
	"epoch": 0.0585,
	"grad_norm": 3.2390472506289343,
	"learning_rate": 5.848000000000001e-06,
	"loss": 2.661,
	"step": 2925
	},
	{
	"epoch": 0.059,
	"grad_norm": 2.5836929915418194,
	"learning_rate": 5.898e-06,
	"loss": 2.6514,
	"step": 2950
	},
	{
	"epoch": 0.0595,
	"grad_norm": 2.5766876152500227,
	"learning_rate": 5.9480000000000005e-06,
	"loss": 2.6673,
	"step": 2975
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.507842811667469,
	"learning_rate": 5.998000000000001e-06,
	"loss": 2.6658,
	"step": 3000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.659705638885498,
	"eval_runtime": 42.0906,
	"eval_samples_per_second": 2.471,
	"eval_steps_per_second": 1.235,
	"step": 3000
	},
	{
	"epoch": 0.0605,
	"grad_norm": 2.291724100817165,
	"learning_rate": 6.048e-06,
	"loss": 2.6588,
	"step": 3025
	},
	{
	"epoch": 0.061,
	"grad_norm": 2.356775687250912,
	"learning_rate": 6.098000000000001e-06,
	"loss": 2.6519,
	"step": 3050
	},
	{
	"epoch": 0.0615,
	"grad_norm": 3.6009374683805553,
	"learning_rate": 6.148e-06,
	"loss": 2.6581,
	"step": 3075
	},
	{
	"epoch": 0.062,
	"grad_norm": 3.2760170273305724,
	"learning_rate": 6.198000000000001e-06,
	"loss": 2.6588,
	"step": 3100
	},
	{
	"epoch": 0.062,
	"eval_loss": 2.656700611114502,
	"eval_runtime": 42.0325,
	"eval_samples_per_second": 2.474,
	"eval_steps_per_second": 1.237,
	"step": 3100
	},
	{
	"epoch": 0.0625,
	"grad_norm": 2.5849236998041825,
	"learning_rate": 6.248000000000001e-06,
	"loss": 2.6548,
	"step": 3125
	},
	{
	"epoch": 0.063,
	"grad_norm": 2.3095505880624474,
	"learning_rate": 6.2980000000000005e-06,
	"loss": 2.6511,
	"step": 3150
	},
	{
	"epoch": 0.0635,
	"grad_norm": 2.5258255422234996,
	"learning_rate": 6.348000000000001e-06,
	"loss": 2.6589,
	"step": 3175
	},
	{
	"epoch": 0.064,
	"grad_norm": 2.3520030773681335,
	"learning_rate": 6.398000000000001e-06,
	"loss": 2.6462,
	"step": 3200
	},
	{
	"epoch": 0.064,
	"eval_loss": 2.652644157409668,
	"eval_runtime": 42.2271,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.231,
	"step": 3200
	},
	{
	"epoch": 0.0645,
	"grad_norm": 2.457532178302885,
	"learning_rate": 6.448000000000001e-06,
	"loss": 2.6495,
	"step": 3225
	},
	{
	"epoch": 0.065,
	"grad_norm": 2.3328730844475833,
	"learning_rate": 6.498000000000001e-06,
	"loss": 2.6384,
	"step": 3250
	},
	{
	"epoch": 0.0655,
	"grad_norm": 2.382459769400574,
	"learning_rate": 6.548000000000001e-06,
	"loss": 2.652,
	"step": 3275
	},
	{
	"epoch": 0.066,
	"grad_norm": 2.4287460984943707,
	"learning_rate": 6.598000000000001e-06,
	"loss": 2.655,
	"step": 3300
	},
	{
	"epoch": 0.066,
	"eval_loss": 2.650841236114502,
	"eval_runtime": 42.1822,
	"eval_samples_per_second": 2.465,
	"eval_steps_per_second": 1.233,
	"step": 3300
	},
	{
	"epoch": 0.0665,
	"grad_norm": 3.0374923212376963,
	"learning_rate": 6.648e-06,
	"loss": 2.6623,
	"step": 3325
	},
	{
	"epoch": 0.067,
	"grad_norm": 2.3072135476674127,
	"learning_rate": 6.698e-06,
	"loss": 2.6484,
	"step": 3350
	},
	{
	"epoch": 0.0675,
	"grad_norm": 2.3676328206176778,
	"learning_rate": 6.7480000000000004e-06,
	"loss": 2.6569,
	"step": 3375
	},
	{
	"epoch": 0.068,
	"grad_norm": 2.313390296186245,
	"learning_rate": 6.798e-06,
	"loss": 2.6393,
	"step": 3400
	},
	{
	"epoch": 0.068,
	"eval_loss": 2.648888111114502,
	"eval_runtime": 44.6877,
	"eval_samples_per_second": 2.327,
	"eval_steps_per_second": 1.164,
	"step": 3400
	},
	{
	"epoch": 0.0685,
	"grad_norm": 2.9181668179248033,
	"learning_rate": 6.848e-06,
	"loss": 2.6521,
	"step": 3425
	},
	{
	"epoch": 0.069,
	"grad_norm": 2.1972242976901457,
	"learning_rate": 6.898e-06,
	"loss": 2.6605,
	"step": 3450
	},
	{
	"epoch": 0.0695,
	"grad_norm": 2.514104559780915,
	"learning_rate": 6.948e-06,
	"loss": 2.6444,
	"step": 3475
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.463879404265904,
	"learning_rate": 6.998000000000001e-06,
	"loss": 2.6586,
	"step": 3500
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.644831657409668,
	"eval_runtime": 45.1164,
	"eval_samples_per_second": 2.305,
	"eval_steps_per_second": 1.153,
	"step": 3500
	},
	{
	"epoch": 0.0705,
	"grad_norm": 2.4337078135824126,
	"learning_rate": 7.048e-06,
	"loss": 2.6463,
	"step": 3525
	},
	{
	"epoch": 0.071,
	"grad_norm": 2.2908199130690257,
	"learning_rate": 7.0980000000000005e-06,
	"loss": 2.655,
	"step": 3550
	},
	{
	"epoch": 0.0715,
	"grad_norm": 2.4093156448180713,
	"learning_rate": 7.148000000000001e-06,
	"loss": 2.6479,
	"step": 3575
	},
	{
	"epoch": 0.072,
	"grad_norm": 2.3128290328516172,
	"learning_rate": 7.198e-06,
	"loss": 2.6342,
	"step": 3600
	},
	{
	"epoch": 0.072,
	"eval_loss": 2.643179178237915,
	"eval_runtime": 43.1012,
	"eval_samples_per_second": 2.413,
	"eval_steps_per_second": 1.206,
	"step": 3600
	},
	{
	"epoch": 0.0725,
	"grad_norm": 2.7714344541916165,
	"learning_rate": 7.248000000000001e-06,
	"loss": 2.6337,
	"step": 3625
	},
	{
	"epoch": 0.073,
	"grad_norm": 2.8399095157670486,
	"learning_rate": 7.298e-06,
	"loss": 2.6413,
	"step": 3650
	},
	{
	"epoch": 0.0735,
	"grad_norm": 2.6867409675260747,
	"learning_rate": 7.348000000000001e-06,
	"loss": 2.6314,
	"step": 3675
	},
	{
	"epoch": 0.074,
	"grad_norm": 2.853697365081861,
	"learning_rate": 7.398000000000001e-06,
	"loss": 2.6372,
	"step": 3700
	},
	{
	"epoch": 0.074,
	"eval_loss": 2.639573335647583,
	"eval_runtime": 45.0291,
	"eval_samples_per_second": 2.31,
	"eval_steps_per_second": 1.155,
	"step": 3700
	},
	{
	"epoch": 0.0745,
	"grad_norm": 1.998706410316405,
	"learning_rate": 7.4480000000000005e-06,
	"loss": 2.637,
	"step": 3725
	},
	{
	"epoch": 0.075,
	"grad_norm": 2.3172883792227417,
	"learning_rate": 7.498000000000001e-06,
	"loss": 2.6386,
	"step": 3750
	},
	{
	"epoch": 0.0755,
	"grad_norm": 2.2578618031758793,
	"learning_rate": 7.548000000000001e-06,
	"loss": 2.637,
	"step": 3775
	},
	{
	"epoch": 0.076,
	"grad_norm": 2.022866842989095,
	"learning_rate": 7.598000000000001e-06,
	"loss": 2.6303,
	"step": 3800
	},
	{
	"epoch": 0.076,
	"eval_loss": 2.63671875,
	"eval_runtime": 45.1006,
	"eval_samples_per_second": 2.306,
	"eval_steps_per_second": 1.153,
	"step": 3800
	},
	{
	"epoch": 0.0765,
	"grad_norm": 2.6019929572001987,
	"learning_rate": 7.648e-06,
	"loss": 2.6359,
	"step": 3825
	},
	{
	"epoch": 0.077,
	"grad_norm": 2.1777094054397343,
	"learning_rate": 7.698000000000002e-06,
	"loss": 2.6397,
	"step": 3850
	},
	{
	"epoch": 0.0775,
	"grad_norm": 2.0323537115489474,
	"learning_rate": 7.748000000000001e-06,
	"loss": 2.6321,
	"step": 3875
	},
	{
	"epoch": 0.078,
	"grad_norm": 2.1502944909614037,
	"learning_rate": 7.798e-06,
	"loss": 2.6373,
	"step": 3900
	},
	{
	"epoch": 0.078,
	"eval_loss": 2.634765625,
	"eval_runtime": 44.8775,
	"eval_samples_per_second": 2.317,
	"eval_steps_per_second": 1.159,
	"step": 3900
	},
	{
	"epoch": 0.0785,
	"grad_norm": 2.2895713962575748,
	"learning_rate": 7.848000000000002e-06,
	"loss": 2.6325,
	"step": 3925
	},
	{
	"epoch": 0.079,
	"grad_norm": 2.473180320397106,
	"learning_rate": 7.898e-06,
	"loss": 2.6306,
	"step": 3950
	},
	{
	"epoch": 0.0795,
	"grad_norm": 2.5774486324856865,
	"learning_rate": 7.948e-06,
	"loss": 2.6345,
	"step": 3975
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.282553852536701,
	"learning_rate": 7.998e-06,
	"loss": 2.641,
	"step": 4000
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.630859375,
	"eval_runtime": 44.8187,
	"eval_samples_per_second": 2.32,
	"eval_steps_per_second": 1.16,
	"step": 4000
	},
	{
	"epoch": 0.0805,
	"grad_norm": 2.500864236641362,
	"learning_rate": 8.048e-06,
	"loss": 2.6309,
	"step": 4025
	},
	{
	"epoch": 0.081,
	"grad_norm": 2.5639376009370674,
	"learning_rate": 8.098000000000001e-06,
	"loss": 2.6211,
	"step": 4050
	},
	{
	"epoch": 0.0815,
	"grad_norm": 3.0035728334967926,
	"learning_rate": 8.148e-06,
	"loss": 2.6317,
	"step": 4075
	},
	{
	"epoch": 0.082,
	"grad_norm": 2.804391077504498,
	"learning_rate": 8.198e-06,
	"loss": 2.6273,
	"step": 4100
	},
	{
	"epoch": 0.082,
	"eval_loss": 2.627704381942749,
	"eval_runtime": 45.0778,
	"eval_samples_per_second": 2.307,
	"eval_steps_per_second": 1.154,
	"step": 4100
	},
	{
	"epoch": 0.0825,
	"grad_norm": 2.8025033751566975,
	"learning_rate": 8.248e-06,
	"loss": 2.6224,
	"step": 4125
	},
	{
	"epoch": 0.083,
	"grad_norm": 4.307364832973918,
	"learning_rate": 8.298000000000001e-06,
	"loss": 2.6217,
	"step": 4150
	},
	{
	"epoch": 0.0835,
	"grad_norm": 2.510945545421516,
	"learning_rate": 8.348e-06,
	"loss": 2.6158,
	"step": 4175
	},
	{
	"epoch": 0.084,
	"grad_norm": 2.874475964746802,
	"learning_rate": 8.398e-06,
	"loss": 2.6284,
	"step": 4200
	},
	{
	"epoch": 0.084,
	"eval_loss": 2.626352071762085,
	"eval_runtime": 44.9685,
	"eval_samples_per_second": 2.313,
	"eval_steps_per_second": 1.156,
	"step": 4200
	},
	{
	"epoch": 0.0845,
	"grad_norm": 2.687782456648974,
	"learning_rate": 8.448000000000001e-06,
	"loss": 2.613,
	"step": 4225
	},
	{
	"epoch": 0.085,
	"grad_norm": 2.290237147776631,
	"learning_rate": 8.498e-06,
	"loss": 2.6295,
	"step": 4250
	},
	{
	"epoch": 0.0855,
	"grad_norm": 2.5217231224578196,
	"learning_rate": 8.548e-06,
	"loss": 2.6194,
	"step": 4275
	},
	{
	"epoch": 0.086,
	"grad_norm": 2.478088396853028,
	"learning_rate": 8.598000000000001e-06,
	"loss": 2.6269,
	"step": 4300
	},
	{
	"epoch": 0.086,
	"eval_loss": 2.624098539352417,
	"eval_runtime": 45.0092,
	"eval_samples_per_second": 2.311,
	"eval_steps_per_second": 1.155,
	"step": 4300
	},
	{
	"epoch": 0.0865,
	"grad_norm": 3.160637138604565,
	"learning_rate": 8.648000000000001e-06,
	"loss": 2.6179,
	"step": 4325
	},
	{
	"epoch": 0.087,
	"grad_norm": 3.2730443987396787,
	"learning_rate": 8.698e-06,
	"loss": 2.6128,
	"step": 4350
	},
	{
	"epoch": 0.0875,
	"grad_norm": 2.1924980955006257,
	"learning_rate": 8.748000000000002e-06,
	"loss": 2.6237,
	"step": 4375
	},
	{
	"epoch": 0.088,
	"grad_norm": 2.2909495673616735,
	"learning_rate": 8.798000000000001e-06,
	"loss": 2.6183,
	"step": 4400
	},
	{
	"epoch": 0.088,
	"eval_loss": 2.622445821762085,
	"eval_runtime": 44.9844,
	"eval_samples_per_second": 2.312,
	"eval_steps_per_second": 1.156,
	"step": 4400
	},
	{
	"epoch": 0.0885,
	"grad_norm": 2.3275380340868543,
	"learning_rate": 8.848e-06,
	"loss": 2.6198,
	"step": 4425
	},
	{
	"epoch": 0.089,
	"grad_norm": 2.5451157769858135,
	"learning_rate": 8.898000000000002e-06,
	"loss": 2.6122,
	"step": 4450
	},
	{
	"epoch": 0.0895,
	"grad_norm": 2.626975380348867,
	"learning_rate": 8.948000000000001e-06,
	"loss": 2.6053,
	"step": 4475
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.163525010125433,
	"learning_rate": 8.998000000000001e-06,
	"loss": 2.616,
	"step": 4500
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.620342493057251,
	"eval_runtime": 45.1428,
	"eval_samples_per_second": 2.304,
	"eval_steps_per_second": 1.152,
	"step": 4500
	},
	{
	"epoch": 0.0905,
	"grad_norm": 3.0132623006335857,
	"learning_rate": 9.048e-06,
	"loss": 2.6168,
	"step": 4525
	},
	{
	"epoch": 0.091,
	"grad_norm": 2.671468374859406,
	"learning_rate": 9.098000000000002e-06,
	"loss": 2.6206,
	"step": 4550
	},
	{
	"epoch": 0.0915,
	"grad_norm": 3.043132564516197,
	"learning_rate": 9.148e-06,
	"loss": 2.6175,
	"step": 4575
	},
	{
	"epoch": 0.092,
	"grad_norm": 2.677082280124469,
	"learning_rate": 9.198e-06,
	"loss": 2.6051,
	"step": 4600
	},
	{
	"epoch": 0.092,
	"eval_loss": 2.617037296295166,
	"eval_runtime": 44.9042,
	"eval_samples_per_second": 2.316,
	"eval_steps_per_second": 1.158,
	"step": 4600
	},
	{
	"epoch": 0.0925,
	"grad_norm": 3.05152520766704,
	"learning_rate": 9.248e-06,
	"loss": 2.6086,
	"step": 4625
	},
	{
	"epoch": 0.093,
	"grad_norm": 2.751017986849495,
	"learning_rate": 9.298e-06,
	"loss": 2.6123,
	"step": 4650
	},
	{
	"epoch": 0.0935,
	"grad_norm": 2.6313524456080573,
	"learning_rate": 9.348000000000001e-06,
	"loss": 2.6168,
	"step": 4675
	},
	{
	"epoch": 0.094,
	"grad_norm": 3.186704450209755,
	"learning_rate": 9.398e-06,
	"loss": 2.6242,
	"step": 4700
	},
	{
	"epoch": 0.094,
	"eval_loss": 2.615835428237915,
	"eval_runtime": 44.9862,
	"eval_samples_per_second": 2.312,
	"eval_steps_per_second": 1.156,
	"step": 4700
	},
	{
	"epoch": 0.0945,
	"grad_norm": 2.9215133630797436,
	"learning_rate": 9.448e-06,
	"loss": 2.6154,
	"step": 4725
	},
	{
	"epoch": 0.095,
	"grad_norm": 2.7154053486577348,
	"learning_rate": 9.498000000000001e-06,
	"loss": 2.6133,
	"step": 4750
	},
	{
	"epoch": 0.0955,
	"grad_norm": 2.30215652369695,
	"learning_rate": 9.548e-06,
	"loss": 2.6166,
	"step": 4775
	},
	{
	"epoch": 0.096,
	"grad_norm": 2.534460541656069,
	"learning_rate": 9.598e-06,
	"loss": 2.6134,
	"step": 4800
	},
	{
	"epoch": 0.096,
	"eval_loss": 2.613731861114502,
	"eval_runtime": 45.1374,
	"eval_samples_per_second": 2.304,
	"eval_steps_per_second": 1.152,
	"step": 4800
	},
	{
	"epoch": 0.0965,
	"grad_norm": 3.363450369306592,
	"learning_rate": 9.648000000000001e-06,
	"loss": 2.6185,
	"step": 4825
	},
	{
	"epoch": 0.097,
	"grad_norm": 3.368913774523613,
	"learning_rate": 9.698000000000001e-06,
	"loss": 2.6158,
	"step": 4850
	},
	{
	"epoch": 0.0975,
	"grad_norm": 2.512742170578084,
	"learning_rate": 9.748e-06,
	"loss": 2.619,
	"step": 4875
	},
	{
	"epoch": 0.098,
	"grad_norm": 2.29528993458392,
	"learning_rate": 9.798e-06,
	"loss": 2.6124,
	"step": 4900
	},
	{
	"epoch": 0.098,
	"eval_loss": 2.611778736114502,
	"eval_runtime": 45.0967,
	"eval_samples_per_second": 2.306,
	"eval_steps_per_second": 1.153,
	"step": 4900
	},
	{
	"epoch": 0.0985,
	"grad_norm": 3.6741400808249542,
	"learning_rate": 9.848000000000001e-06,
	"loss": 2.6057,
	"step": 4925
	},
	{
	"epoch": 0.099,
	"grad_norm": 2.8877735323213987,
	"learning_rate": 9.898e-06,
	"loss": 2.5987,
	"step": 4950
	},
	{
	"epoch": 0.0995,
	"grad_norm": 3.5539935185996785,
	"learning_rate": 9.948e-06,
	"loss": 2.6116,
	"step": 4975
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.1496567211993156,
	"learning_rate": 9.998000000000002e-06,
	"loss": 2.6114,
	"step": 5000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.611027717590332,
	"eval_runtime": 44.9767,
	"eval_samples_per_second": 2.312,
	"eval_steps_per_second": 1.156,
	"step": 5000
	},
	{
	"epoch": 0.1005,
	"grad_norm": 3.416161880895133,
	"learning_rate": 9.994666666666668e-06,
	"loss": 2.6158,
	"step": 5025
	},
	{
	"epoch": 0.101,
	"grad_norm": 2.53372876835717,
	"learning_rate": 9.989111111111111e-06,
	"loss": 2.6012,
	"step": 5050
	},
	{
	"epoch": 0.1015,
	"grad_norm": 2.318152281282991,
	"learning_rate": 9.983555555555556e-06,
	"loss": 2.6136,
	"step": 5075
	},
	{
	"epoch": 0.102,
	"grad_norm": 2.5498343821152525,
	"learning_rate": 9.978000000000002e-06,
	"loss": 2.6052,
	"step": 5100
	},
	{
	"epoch": 0.102,
	"eval_loss": 2.610952615737915,
	"eval_runtime": 42.1019,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 5100
	},
	{
	"epoch": 0.1025,
	"grad_norm": 2.100345439803683,
	"learning_rate": 9.972444444444445e-06,
	"loss": 2.6084,
	"step": 5125
	},
	{
	"epoch": 0.103,
	"grad_norm": 2.4294233703328714,
	"learning_rate": 9.966888888888889e-06,
	"loss": 2.6041,
	"step": 5150
	},
	{
	"epoch": 0.1035,
	"grad_norm": 3.4299922452762353,
	"learning_rate": 9.961333333333334e-06,
	"loss": 2.5993,
	"step": 5175
	},
	{
	"epoch": 0.104,
	"grad_norm": 2.7096315724628273,
	"learning_rate": 9.95577777777778e-06,
	"loss": 2.6056,
	"step": 5200
	},
	{
	"epoch": 0.104,
	"eval_loss": 2.605543851852417,
	"eval_runtime": 42.1249,
	"eval_samples_per_second": 2.469,
	"eval_steps_per_second": 1.234,
	"step": 5200
	},
	{
	"epoch": 0.1045,
	"grad_norm": 3.520679800243995,
	"learning_rate": 9.950222222222223e-06,
	"loss": 2.6198,
	"step": 5225
	},
	{
	"epoch": 0.105,
	"grad_norm": 2.6207699649408145,
	"learning_rate": 9.944666666666668e-06,
	"loss": 2.5983,
	"step": 5250
	},
	{
	"epoch": 0.1055,
	"grad_norm": 3.81435491451506,
	"learning_rate": 9.939111111111112e-06,
	"loss": 2.5977,
	"step": 5275
	},
	{
	"epoch": 0.106,
	"grad_norm": 2.8442763110892058,
	"learning_rate": 9.933555555555557e-06,
	"loss": 2.5977,
	"step": 5300
	},
	{
	"epoch": 0.106,
	"eval_loss": 2.603515625,
	"eval_runtime": 42.1847,
	"eval_samples_per_second": 2.465,
	"eval_steps_per_second": 1.233,
	"step": 5300
	},
	{
	"epoch": 0.1065,
	"grad_norm": 2.3330569818751288,
	"learning_rate": 9.928e-06,
	"loss": 2.603,
	"step": 5325
	},
	{
	"epoch": 0.107,
	"grad_norm": 2.614504763128844,
	"learning_rate": 9.922444444444446e-06,
	"loss": 2.6075,
	"step": 5350
	},
	{
	"epoch": 0.1075,
	"grad_norm": 2.3761581342305336,
	"learning_rate": 9.91688888888889e-06,
	"loss": 2.598,
	"step": 5375
	},
	{
	"epoch": 0.108,
	"grad_norm": 2.9693890956012283,
	"learning_rate": 9.911333333333335e-06,
	"loss": 2.5939,
	"step": 5400
	},
	{
	"epoch": 0.108,
	"eval_loss": 2.6025390625,
	"eval_runtime": 42.1557,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.234,
	"step": 5400
	},
	{
	"epoch": 0.1085,
	"grad_norm": 2.3502354313235325,
	"learning_rate": 9.905777777777778e-06,
	"loss": 2.5977,
	"step": 5425
	},
	{
	"epoch": 0.109,
	"grad_norm": 4.244516912805596,
	"learning_rate": 9.900222222222223e-06,
	"loss": 2.6054,
	"step": 5450
	},
	{
	"epoch": 0.1095,
	"grad_norm": 2.240617110709866,
	"learning_rate": 9.894666666666669e-06,
	"loss": 2.6033,
	"step": 5475
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.208047893771693,
	"learning_rate": 9.889111111111112e-06,
	"loss": 2.5977,
	"step": 5500
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.602914571762085,
	"eval_runtime": 42.1365,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 5500
	},
	{
	"epoch": 0.1105,
	"grad_norm": 2.7978498351768364,
	"learning_rate": 9.883555555555556e-06,
	"loss": 2.5993,
	"step": 5525
	},
	{
	"epoch": 0.111,
	"grad_norm": 3.122377711007523,
	"learning_rate": 9.878000000000001e-06,
	"loss": 2.5935,
	"step": 5550
	},
	{
	"epoch": 0.1115,
	"grad_norm": 2.450318383908477,
	"learning_rate": 9.872444444444446e-06,
	"loss": 2.6025,
	"step": 5575
	},
	{
	"epoch": 0.112,
	"grad_norm": 3.0984127045589855,
	"learning_rate": 9.86688888888889e-06,
	"loss": 2.5952,
	"step": 5600
	},
	{
	"epoch": 0.112,
	"eval_loss": 2.599684476852417,
	"eval_runtime": 42.1446,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 5600
	},
	{
	"epoch": 0.1125,
	"grad_norm": 3.1706979497083667,
	"learning_rate": 9.861333333333333e-06,
	"loss": 2.5938,
	"step": 5625
	},
	{
	"epoch": 0.113,
	"grad_norm": 2.5819686451355977,
	"learning_rate": 9.855777777777779e-06,
	"loss": 2.6061,
	"step": 5650
	},
	{
	"epoch": 0.1135,
	"grad_norm": 2.1160033983420257,
	"learning_rate": 9.850222222222224e-06,
	"loss": 2.591,
	"step": 5675
	},
	{
	"epoch": 0.114,
	"grad_norm": 2.6757106700322053,
	"learning_rate": 9.844666666666667e-06,
	"loss": 2.5843,
	"step": 5700
	},
	{
	"epoch": 0.114,
	"eval_loss": 2.600059986114502,
	"eval_runtime": 42.1314,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 5700
	},
	{
	"epoch": 0.1145,
	"grad_norm": 3.0428400730526866,
	"learning_rate": 9.839111111111111e-06,
	"loss": 2.5889,
	"step": 5725
	},
	{
	"epoch": 0.115,
	"grad_norm": 3.0023332110537275,
	"learning_rate": 9.833555555555556e-06,
	"loss": 2.589,
	"step": 5750
	},
	{
	"epoch": 0.1155,
	"grad_norm": 2.4458242352411212,
	"learning_rate": 9.828000000000001e-06,
	"loss": 2.5912,
	"step": 5775
	},
	{
	"epoch": 0.116,
	"grad_norm": 2.9070566280503134,
	"learning_rate": 9.822444444444445e-06,
	"loss": 2.594,
	"step": 5800
	},
	{
	"epoch": 0.116,
	"eval_loss": 2.597205638885498,
	"eval_runtime": 42.2699,
	"eval_samples_per_second": 2.46,
	"eval_steps_per_second": 1.23,
	"step": 5800
	},
	{
	"epoch": 0.1165,
	"grad_norm": 1.9104821809183674,
	"learning_rate": 9.81688888888889e-06,
	"loss": 2.5945,
	"step": 5825
	},
	{
	"epoch": 0.117,
	"grad_norm": 2.9356670820687905,
	"learning_rate": 9.811333333333334e-06,
	"loss": 2.5964,
	"step": 5850
	},
	{
	"epoch": 0.1175,
	"grad_norm": 3.0014062286025682,
	"learning_rate": 9.805777777777779e-06,
	"loss": 2.5936,
	"step": 5875
	},
	{
	"epoch": 0.118,
	"grad_norm": 2.133789981650032,
	"learning_rate": 9.800222222222223e-06,
	"loss": 2.5931,
	"step": 5900
	},
	{
	"epoch": 0.118,
	"eval_loss": 2.597581148147583,
	"eval_runtime": 42.1405,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 5900
	},
	{
	"epoch": 0.1185,
	"grad_norm": 2.2715886568619674,
	"learning_rate": 9.794666666666668e-06,
	"loss": 2.5892,
	"step": 5925
	},
	{
	"epoch": 0.119,
	"grad_norm": 2.1629931013495747,
	"learning_rate": 9.789111111111111e-06,
	"loss": 2.6117,
	"step": 5950
	},
	{
	"epoch": 0.1195,
	"grad_norm": 2.611955604210334,
	"learning_rate": 9.783555555555557e-06,
	"loss": 2.5867,
	"step": 5975
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.2367470112792294,
	"learning_rate": 9.778e-06,
	"loss": 2.5978,
	"step": 6000
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.594125509262085,
	"eval_runtime": 43.0331,
	"eval_samples_per_second": 2.417,
	"eval_steps_per_second": 1.208,
	"step": 6000
	},
	{
	"epoch": 0.1205,
	"grad_norm": 2.1932467610128166,
	"learning_rate": 9.772444444444445e-06,
	"loss": 2.5892,
	"step": 6025
	},
	{
	"epoch": 0.121,
	"grad_norm": 2.387425729108963,
	"learning_rate": 9.76688888888889e-06,
	"loss": 2.5918,
	"step": 6050
	},
	{
	"epoch": 0.1215,
	"grad_norm": 2.8624591702116313,
	"learning_rate": 9.761333333333334e-06,
	"loss": 2.5875,
	"step": 6075
	},
	{
	"epoch": 0.122,
	"grad_norm": 2.930012610934339,
	"learning_rate": 9.755777777777778e-06,
	"loss": 2.5906,
	"step": 6100
	},
	{
	"epoch": 0.122,
	"eval_loss": 2.592097282409668,
	"eval_runtime": 42.1118,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 6100
	},
	{
	"epoch": 0.1225,
	"grad_norm": 3.6585883804987596,
	"learning_rate": 9.750222222222223e-06,
	"loss": 2.5888,
	"step": 6125
	},
	{
	"epoch": 0.123,
	"grad_norm": 2.9636602337569213,
	"learning_rate": 9.744666666666668e-06,
	"loss": 2.5848,
	"step": 6150
	},
	{
	"epoch": 0.1235,
	"grad_norm": 2.6452546886265242,
	"learning_rate": 9.739111111111112e-06,
	"loss": 2.5875,
	"step": 6175
	},
	{
	"epoch": 0.124,
	"grad_norm": 2.230890007256631,
	"learning_rate": 9.733555555555555e-06,
	"loss": 2.5928,
	"step": 6200
	},
	{
	"epoch": 0.124,
	"eval_loss": 2.591871976852417,
	"eval_runtime": 42.2393,
	"eval_samples_per_second": 2.462,
	"eval_steps_per_second": 1.231,
	"step": 6200
	},
	{
	"epoch": 0.1245,
	"grad_norm": 2.2263966783946643,
	"learning_rate": 9.728e-06,
	"loss": 2.5913,
	"step": 6225
	},
	{
	"epoch": 0.125,
	"grad_norm": 3.0917521864623168,
	"learning_rate": 9.722444444444446e-06,
	"loss": 2.5858,
	"step": 6250
	},
	{
	"epoch": 0.1255,
	"grad_norm": 3.406162518240377,
	"learning_rate": 9.71688888888889e-06,
	"loss": 2.5824,
	"step": 6275
	},
	{
	"epoch": 0.126,
	"grad_norm": 1.9288658675383707,
	"learning_rate": 9.711333333333333e-06,
	"loss": 2.5881,
	"step": 6300
	},
	{
	"epoch": 0.126,
	"eval_loss": 2.588792085647583,
	"eval_runtime": 42.1993,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 6300
	},
	{
	"epoch": 0.1265,
	"grad_norm": 2.3054152552517557,
	"learning_rate": 9.705777777777778e-06,
	"loss": 2.5777,
	"step": 6325
	},
	{
	"epoch": 0.127,
	"grad_norm": 2.4215099152732438,
	"learning_rate": 9.700222222222224e-06,
	"loss": 2.5905,
	"step": 6350
	},
	{
	"epoch": 0.1275,
	"grad_norm": 2.1008082850001584,
	"learning_rate": 9.694666666666667e-06,
	"loss": 2.5891,
	"step": 6375
	},
	{
	"epoch": 0.128,
	"grad_norm": 2.548161937775528,
	"learning_rate": 9.68911111111111e-06,
	"loss": 2.5828,
	"step": 6400
	},
	{
	"epoch": 0.128,
	"eval_loss": 2.588566780090332,
	"eval_runtime": 42.2757,
	"eval_samples_per_second": 2.46,
	"eval_steps_per_second": 1.23,
	"step": 6400
	},
	{
	"epoch": 0.1285,
	"grad_norm": 2.1721864313913555,
	"learning_rate": 9.683555555555556e-06,
	"loss": 2.585,
	"step": 6425
	},
	{
	"epoch": 0.129,
	"grad_norm": 2.6656100643358567,
	"learning_rate": 9.678000000000001e-06,
	"loss": 2.5859,
	"step": 6450
	},
	{
	"epoch": 0.1295,
	"grad_norm": 2.14442087538069,
	"learning_rate": 9.672444444444445e-06,
	"loss": 2.5897,
	"step": 6475
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.544695719649347,
	"learning_rate": 9.66688888888889e-06,
	"loss": 2.5819,
	"step": 6500
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.585561990737915,
	"eval_runtime": 42.2362,
	"eval_samples_per_second": 2.462,
	"eval_steps_per_second": 1.231,
	"step": 6500
	},
	{
	"epoch": 0.1305,
	"grad_norm": 2.2451101114203724,
	"learning_rate": 9.661333333333334e-06,
	"loss": 2.5824,
	"step": 6525
	},
	{
	"epoch": 0.131,
	"grad_norm": 2.7518738527602182,
	"learning_rate": 9.655777777777779e-06,
	"loss": 2.5869,
	"step": 6550
	},
	{
	"epoch": 0.1315,
	"grad_norm": 2.2692401450967603,
	"learning_rate": 9.650222222222222e-06,
	"loss": 2.577,
	"step": 6575
	},
	{
	"epoch": 0.132,
	"grad_norm": 2.0929236367500295,
	"learning_rate": 9.644666666666668e-06,
	"loss": 2.5732,
	"step": 6600
	},
	{
	"epoch": 0.132,
	"eval_loss": 2.584359884262085,
	"eval_runtime": 42.3019,
	"eval_samples_per_second": 2.459,
	"eval_steps_per_second": 1.229,
	"step": 6600
	},
	{
	"epoch": 0.1325,
	"grad_norm": 2.5777548974093794,
	"learning_rate": 9.639111111111113e-06,
	"loss": 2.588,
	"step": 6625
	},
	{
	"epoch": 0.133,
	"grad_norm": 3.2457146266333083,
	"learning_rate": 9.633555555555556e-06,
	"loss": 2.581,
	"step": 6650
	},
	{
	"epoch": 0.1335,
	"grad_norm": 3.068905385924203,
	"learning_rate": 9.628e-06,
	"loss": 2.5819,
	"step": 6675
	},
	{
	"epoch": 0.134,
	"grad_norm": 2.450321782983477,
	"learning_rate": 9.622444444444445e-06,
	"loss": 2.5771,
	"step": 6700
	},
	{
	"epoch": 0.134,
	"eval_loss": 2.583233118057251,
	"eval_runtime": 42.2202,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.232,
	"step": 6700
	},
	{
	"epoch": 0.1345,
	"grad_norm": 3.3710381240286607,
	"learning_rate": 9.61688888888889e-06,
	"loss": 2.5708,
	"step": 6725
	},
	{
	"epoch": 0.135,
	"grad_norm": 2.498962635333121,
	"learning_rate": 9.611333333333334e-06,
	"loss": 2.5777,
	"step": 6750
	},
	{
	"epoch": 0.1355,
	"grad_norm": 2.9123144983870457,
	"learning_rate": 9.605777777777778e-06,
	"loss": 2.5754,
	"step": 6775
	},
	{
	"epoch": 0.136,
	"grad_norm": 2.3715808650825347,
	"learning_rate": 9.600222222222223e-06,
	"loss": 2.5774,
	"step": 6800
	},
	{
	"epoch": 0.136,
	"eval_loss": 2.583984375,
	"eval_runtime": 42.1504,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.234,
	"step": 6800
	},
	{
	"epoch": 0.1365,
	"grad_norm": 3.353836765177085,
	"learning_rate": 9.594666666666668e-06,
	"loss": 2.5802,
	"step": 6825
	},
	{
	"epoch": 0.137,
	"grad_norm": 2.186970794143448,
	"learning_rate": 9.589111111111112e-06,
	"loss": 2.5716,
	"step": 6850
	},
	{
	"epoch": 0.1375,
	"grad_norm": 2.561639852925048,
	"learning_rate": 9.583555555555555e-06,
	"loss": 2.5833,
	"step": 6875
	},
	{
	"epoch": 0.138,
	"grad_norm": 2.657433324295019,
	"learning_rate": 9.578e-06,
	"loss": 2.5804,
	"step": 6900
	},
	{
	"epoch": 0.138,
	"eval_loss": 2.581881046295166,
	"eval_runtime": 42.115,
	"eval_samples_per_second": 2.469,
	"eval_steps_per_second": 1.235,
	"step": 6900
	},
	{
	"epoch": 0.1385,
	"grad_norm": 3.0762488332335476,
	"learning_rate": 9.572444444444446e-06,
	"loss": 2.5849,
	"step": 6925
	},
	{
	"epoch": 0.139,
	"grad_norm": 3.407171936606543,
	"learning_rate": 9.56688888888889e-06,
	"loss": 2.5745,
	"step": 6950
	},
	{
	"epoch": 0.1395,
	"grad_norm": 2.343148272910383,
	"learning_rate": 9.561333333333333e-06,
	"loss": 2.5638,
	"step": 6975
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.183703414357588,
	"learning_rate": 9.555777777777778e-06,
	"loss": 2.5773,
	"step": 7000
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.580303430557251,
	"eval_runtime": 42.2608,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.23,
	"step": 7000
	},
	{
	"epoch": 0.1405,
	"grad_norm": 2.090683861216703,
	"learning_rate": 9.550222222222223e-06,
	"loss": 2.5752,
	"step": 7025
	},
	{
	"epoch": 0.141,
	"grad_norm": 2.4462060701449575,
	"learning_rate": 9.544666666666667e-06,
	"loss": 2.5752,
	"step": 7050
	},
	{
	"epoch": 0.1415,
	"grad_norm": 2.354572863574847,
	"learning_rate": 9.539111111111112e-06,
	"loss": 2.5793,
	"step": 7075
	},
	{
	"epoch": 0.142,
	"grad_norm": 3.150188431313023,
	"learning_rate": 9.533555555555556e-06,
	"loss": 2.5829,
	"step": 7100
	},
	{
	"epoch": 0.142,
	"eval_loss": 2.578876256942749,
	"eval_runtime": 42.1571,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.233,
	"step": 7100
	},
	{
	"epoch": 0.1425,
	"grad_norm": 2.2958267675435264,
	"learning_rate": 9.528000000000001e-06,
	"loss": 2.5819,
	"step": 7125
	},
	{
	"epoch": 0.143,
	"grad_norm": 2.229576484389536,
	"learning_rate": 9.522444444444444e-06,
	"loss": 2.5699,
	"step": 7150
	},
	{
	"epoch": 0.1435,
	"grad_norm": 2.5755824313301185,
	"learning_rate": 9.51688888888889e-06,
	"loss": 2.5618,
	"step": 7175
	},
	{
	"epoch": 0.144,
	"grad_norm": 2.002723376168662,
	"learning_rate": 9.511333333333335e-06,
	"loss": 2.5765,
	"step": 7200
	},
	{
	"epoch": 0.144,
	"eval_loss": 2.578125,
	"eval_runtime": 42.1705,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 7200
	},
	{
	"epoch": 0.1445,
	"grad_norm": 2.4322674164363693,
	"learning_rate": 9.505777777777779e-06,
	"loss": 2.5787,
	"step": 7225
	},
	{
	"epoch": 0.145,
	"grad_norm": 2.3686555525010795,
	"learning_rate": 9.500222222222222e-06,
	"loss": 2.5675,
	"step": 7250
	},
	{
	"epoch": 0.1455,
	"grad_norm": 3.104821188519679,
	"learning_rate": 9.494666666666667e-06,
	"loss": 2.5746,
	"step": 7275
	},
	{
	"epoch": 0.146,
	"grad_norm": 2.8814875220913523,
	"learning_rate": 9.489111111111113e-06,
	"loss": 2.569,
	"step": 7300
	},
	{
	"epoch": 0.146,
	"eval_loss": 2.575345516204834,
	"eval_runtime": 42.4072,
	"eval_samples_per_second": 2.452,
	"eval_steps_per_second": 1.226,
	"step": 7300
	},
	{
	"epoch": 0.1465,
	"grad_norm": 2.431219059778247,
	"learning_rate": 9.483555555555556e-06,
	"loss": 2.5671,
	"step": 7325
	},
	{
	"epoch": 0.147,
	"grad_norm": 3.105679752764214,
	"learning_rate": 9.478e-06,
	"loss": 2.5735,
	"step": 7350
	},
	{
	"epoch": 0.1475,
	"grad_norm": 2.3844745428357528,
	"learning_rate": 9.472444444444445e-06,
	"loss": 2.5704,
	"step": 7375
	},
	{
	"epoch": 0.148,
	"grad_norm": 3.1780151194050537,
	"learning_rate": 9.46688888888889e-06,
	"loss": 2.5754,
	"step": 7400
	},
	{
	"epoch": 0.148,
	"eval_loss": 2.574970006942749,
	"eval_runtime": 42.2781,
	"eval_samples_per_second": 2.46,
	"eval_steps_per_second": 1.23,
	"step": 7400
	},
	{
	"epoch": 0.1485,
	"grad_norm": 2.8536998258405872,
	"learning_rate": 9.461333333333334e-06,
	"loss": 2.5737,
	"step": 7425
	},
	{
	"epoch": 0.149,
	"grad_norm": 1.929486707486442,
	"learning_rate": 9.455777777777777e-06,
	"loss": 2.5794,
	"step": 7450
	},
	{
	"epoch": 0.1495,
	"grad_norm": 2.3851860938995557,
	"learning_rate": 9.450222222222223e-06,
	"loss": 2.57,
	"step": 7475
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.274555727546256,
	"learning_rate": 9.444666666666668e-06,
	"loss": 2.5846,
	"step": 7500
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.575045108795166,
	"eval_runtime": 42.2565,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.231,
	"step": 7500
	},
	{
	"epoch": 0.1505,
	"grad_norm": 2.990595981559867,
	"learning_rate": 9.439111111111111e-06,
	"loss": 2.5635,
	"step": 7525
	},
	{
	"epoch": 0.151,
	"grad_norm": 2.342033024484832,
	"learning_rate": 9.433555555555557e-06,
	"loss": 2.5682,
	"step": 7550
	},
	{
	"epoch": 0.1515,
	"grad_norm": 3.278259902418593,
	"learning_rate": 9.428e-06,
	"loss": 2.5684,
	"step": 7575
	},
	{
	"epoch": 0.152,
	"grad_norm": 3.323218206618402,
	"learning_rate": 9.422444444444445e-06,
	"loss": 2.5657,
	"step": 7600
	},
	{
	"epoch": 0.152,
	"eval_loss": 2.574444055557251,
	"eval_runtime": 42.1106,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 7600
	},
	{
	"epoch": 0.1525,
	"grad_norm": 2.613661230948087,
	"learning_rate": 9.41688888888889e-06,
	"loss": 2.5677,
	"step": 7625
	},
	{
	"epoch": 0.153,
	"grad_norm": 2.1447049265831795,
	"learning_rate": 9.411333333333334e-06,
	"loss": 2.5772,
	"step": 7650
	},
	{
	"epoch": 0.1535,
	"grad_norm": 2.074773482377195,
	"learning_rate": 9.405777777777778e-06,
	"loss": 2.5676,
	"step": 7675
	},
	{
	"epoch": 0.154,
	"grad_norm": 2.2189972936163063,
	"learning_rate": 9.400222222222223e-06,
	"loss": 2.565,
	"step": 7700
	},
	{
	"epoch": 0.154,
	"eval_loss": 2.572340726852417,
	"eval_runtime": 42.163,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.233,
	"step": 7700
	},
	{
	"epoch": 0.1545,
	"grad_norm": 2.020007297414947,
	"learning_rate": 9.394666666666668e-06,
	"loss": 2.5758,
	"step": 7725
	},
	{
	"epoch": 0.155,
	"grad_norm": 2.6124546923876606,
	"learning_rate": 9.389111111111112e-06,
	"loss": 2.5723,
	"step": 7750
	},
	{
	"epoch": 0.1555,
	"grad_norm": 3.144872673868399,
	"learning_rate": 9.383555555555557e-06,
	"loss": 2.5642,
	"step": 7775
	},
	{
	"epoch": 0.156,
	"grad_norm": 2.3755756320446393,
	"learning_rate": 9.378e-06,
	"loss": 2.5684,
	"step": 7800
	},
	{
	"epoch": 0.156,
	"eval_loss": 2.571063756942749,
	"eval_runtime": 42.2055,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 7800
	},
	{
	"epoch": 0.1565,
	"grad_norm": 2.640695576224425,
	"learning_rate": 9.372444444444446e-06,
	"loss": 2.5735,
	"step": 7825
	},
	{
	"epoch": 0.157,
	"grad_norm": 2.063148667839031,
	"learning_rate": 9.36688888888889e-06,
	"loss": 2.5665,
	"step": 7850
	},
	{
	"epoch": 0.1575,
	"grad_norm": 2.016530541107887,
	"learning_rate": 9.361333333333335e-06,
	"loss": 2.5595,
	"step": 7875
	},
	{
	"epoch": 0.158,
	"grad_norm": 2.4121763950632578,
	"learning_rate": 9.355777777777778e-06,
	"loss": 2.5661,
	"step": 7900
	},
	{
	"epoch": 0.158,
	"eval_loss": 2.571364164352417,
	"eval_runtime": 42.2366,
	"eval_samples_per_second": 2.462,
	"eval_steps_per_second": 1.231,
	"step": 7900
	},
	{
	"epoch": 0.1585,
	"grad_norm": 3.1944792712012062,
	"learning_rate": 9.350222222222224e-06,
	"loss": 2.571,
	"step": 7925
	},
	{
	"epoch": 0.159,
	"grad_norm": 2.624931566803773,
	"learning_rate": 9.344666666666667e-06,
	"loss": 2.5659,
	"step": 7950
	},
	{
	"epoch": 0.1595,
	"grad_norm": 2.5196026490718086,
	"learning_rate": 9.339111111111112e-06,
	"loss": 2.5533,
	"step": 7975
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.466395654185627,
	"learning_rate": 9.333555555555558e-06,
	"loss": 2.5648,
	"step": 8000
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.568809986114502,
	"eval_runtime": 45.0346,
	"eval_samples_per_second": 2.309,
	"eval_steps_per_second": 1.155,
	"step": 8000
	},
	{
	"epoch": 0.1605,
	"grad_norm": 2.6560367873629835,
	"learning_rate": 9.328000000000001e-06,
	"loss": 2.5588,
	"step": 8025
	},
	{
	"epoch": 0.161,
	"grad_norm": 2.2401297319157614,
	"learning_rate": 9.322444444444445e-06,
	"loss": 2.564,
	"step": 8050
	},
	{
	"epoch": 0.1615,
	"grad_norm": 2.2847898029930653,
	"learning_rate": 9.31688888888889e-06,
	"loss": 2.5643,
	"step": 8075
	},
	{
	"epoch": 0.162,
	"grad_norm": 2.798251121826375,
	"learning_rate": 9.311333333333335e-06,
	"loss": 2.5577,
	"step": 8100
	},
	{
	"epoch": 0.162,
	"eval_loss": 2.568058967590332,
	"eval_runtime": 42.5915,
	"eval_samples_per_second": 2.442,
	"eval_steps_per_second": 1.221,
	"step": 8100
	},
	{
	"epoch": 0.1625,
	"grad_norm": 2.0139748360698895,
	"learning_rate": 9.305777777777779e-06,
	"loss": 2.5716,
	"step": 8125
	},
	{
	"epoch": 0.163,
	"grad_norm": 2.052859658987244,
	"learning_rate": 9.300222222222222e-06,
	"loss": 2.5555,
	"step": 8150
	},
	{
	"epoch": 0.1635,
	"grad_norm": 2.6452792973388584,
	"learning_rate": 9.294666666666668e-06,
	"loss": 2.5545,
	"step": 8175
	},
	{
	"epoch": 0.164,
	"grad_norm": 2.8085427073848543,
	"learning_rate": 9.289111111111113e-06,
	"loss": 2.5575,
	"step": 8200
	},
	{
	"epoch": 0.164,
	"eval_loss": 2.56640625,
	"eval_runtime": 42.2476,
	"eval_samples_per_second": 2.462,
	"eval_steps_per_second": 1.231,
	"step": 8200
	},
	{
	"epoch": 0.1645,
	"grad_norm": 1.994417686652318,
	"learning_rate": 9.283555555555556e-06,
	"loss": 2.5634,
	"step": 8225
	},
	{
	"epoch": 0.165,
	"grad_norm": 2.8569259303287917,
	"learning_rate": 9.278e-06,
	"loss": 2.5711,
	"step": 8250
	},
	{
	"epoch": 0.1655,
	"grad_norm": 2.15031573602464,
	"learning_rate": 9.272444444444445e-06,
	"loss": 2.5515,
	"step": 8275
	},
	{
	"epoch": 0.166,
	"grad_norm": 2.1903087160864234,
	"learning_rate": 9.26688888888889e-06,
	"loss": 2.5588,
	"step": 8300
	},
	{
	"epoch": 0.166,
	"eval_loss": 2.565354585647583,
	"eval_runtime": 42.2533,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.231,
	"step": 8300
	},
	{
	"epoch": 0.1665,
	"grad_norm": 2.1661066402797697,
	"learning_rate": 9.261333333333334e-06,
	"loss": 2.5582,
	"step": 8325
	},
	{
	"epoch": 0.167,
	"grad_norm": 2.3738673472152603,
	"learning_rate": 9.25577777777778e-06,
	"loss": 2.5598,
	"step": 8350
	},
	{
	"epoch": 0.1675,
	"grad_norm": 1.893415788443222,
	"learning_rate": 9.250222222222223e-06,
	"loss": 2.5553,
	"step": 8375
	},
	{
	"epoch": 0.168,
	"grad_norm": 3.245074933027149,
	"learning_rate": 9.244666666666668e-06,
	"loss": 2.5632,
	"step": 8400
	},
	{
	"epoch": 0.168,
	"eval_loss": 2.565354585647583,
	"eval_runtime": 42.2015,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 8400
	},
	{
	"epoch": 0.1685,
	"grad_norm": 2.359910509969222,
	"learning_rate": 9.239111111111112e-06,
	"loss": 2.5564,
	"step": 8425
	},
	{
	"epoch": 0.169,
	"grad_norm": 2.1851033577602355,
	"learning_rate": 9.233555555555557e-06,
	"loss": 2.5532,
	"step": 8450
	},
	{
	"epoch": 0.1695,
	"grad_norm": 2.0954334474208443,
	"learning_rate": 9.228e-06,
	"loss": 2.5585,
	"step": 8475
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.326393982849659,
	"learning_rate": 9.222444444444446e-06,
	"loss": 2.5639,
	"step": 8500
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.564678430557251,
	"eval_runtime": 42.3289,
	"eval_samples_per_second": 2.457,
	"eval_steps_per_second": 1.228,
	"step": 8500
	},
	{
	"epoch": 0.1705,
	"grad_norm": 2.016190269867033,
	"learning_rate": 9.21688888888889e-06,
	"loss": 2.555,
	"step": 8525
	},
	{
	"epoch": 0.171,
	"grad_norm": 2.1491011270580294,
	"learning_rate": 9.211333333333334e-06,
	"loss": 2.5525,
	"step": 8550
	},
	{
	"epoch": 0.1715,
	"grad_norm": 2.401949244376787,
	"learning_rate": 9.20577777777778e-06,
	"loss": 2.5548,
	"step": 8575
	},
	{
	"epoch": 0.172,
	"grad_norm": 2.6617222137871894,
	"learning_rate": 9.200222222222223e-06,
	"loss": 2.5567,
	"step": 8600
	},
	{
	"epoch": 0.172,
	"eval_loss": 2.563025951385498,
	"eval_runtime": 42.4626,
	"eval_samples_per_second": 2.449,
	"eval_steps_per_second": 1.225,
	"step": 8600
	},
	{
	"epoch": 0.1725,
	"grad_norm": 1.939490462750623,
	"learning_rate": 9.194666666666667e-06,
	"loss": 2.5605,
	"step": 8625
	},
	{
	"epoch": 0.173,
	"grad_norm": 2.7453592449199395,
	"learning_rate": 9.189111111111112e-06,
	"loss": 2.5522,
	"step": 8650
	},
	{
	"epoch": 0.1735,
	"grad_norm": 2.669405830526754,
	"learning_rate": 9.183555555555557e-06,
	"loss": 2.5511,
	"step": 8675
	},
	{
	"epoch": 0.174,
	"grad_norm": 2.483852860875828,
	"learning_rate": 9.178000000000001e-06,
	"loss": 2.5374,
	"step": 8700
	},
	{
	"epoch": 0.174,
	"eval_loss": 2.562575101852417,
	"eval_runtime": 42.6032,
	"eval_samples_per_second": 2.441,
	"eval_steps_per_second": 1.221,
	"step": 8700
	},
	{
	"epoch": 0.1745,
	"grad_norm": 2.228436266030111,
	"learning_rate": 9.172444444444444e-06,
	"loss": 2.5469,
	"step": 8725
	},
	{
	"epoch": 0.175,
	"grad_norm": 2.4160405582786306,
	"learning_rate": 9.16688888888889e-06,
	"loss": 2.5665,
	"step": 8750
	},
	{
	"epoch": 0.1755,
	"grad_norm": 2.80965451621207,
	"learning_rate": 9.161333333333335e-06,
	"loss": 2.5542,
	"step": 8775
	},
	{
	"epoch": 0.176,
	"grad_norm": 2.4851305844565386,
	"learning_rate": 9.155777777777779e-06,
	"loss": 2.5642,
	"step": 8800
	},
	{
	"epoch": 0.176,
	"eval_loss": 2.561298131942749,
	"eval_runtime": 42.4008,
	"eval_samples_per_second": 2.453,
	"eval_steps_per_second": 1.226,
	"step": 8800
	},
	{
	"epoch": 0.1765,
	"grad_norm": 2.70253728592914,
	"learning_rate": 9.150222222222222e-06,
	"loss": 2.5653,
	"step": 8825
	},
	{
	"epoch": 0.177,
	"grad_norm": 1.9507837259092773,
	"learning_rate": 9.144666666666667e-06,
	"loss": 2.5711,
	"step": 8850
	},
	{
	"epoch": 0.1775,
	"grad_norm": 2.6311592623116926,
	"learning_rate": 9.139111111111113e-06,
	"loss": 2.5561,
	"step": 8875
	},
	{
	"epoch": 0.178,
	"grad_norm": 2.5742422293958125,
	"learning_rate": 9.133555555555556e-06,
	"loss": 2.5551,
	"step": 8900
	},
	{
	"epoch": 0.178,
	"eval_loss": 2.559945821762085,
	"eval_runtime": 42.3142,
	"eval_samples_per_second": 2.458,
	"eval_steps_per_second": 1.229,
	"step": 8900
	},
	{
	"epoch": 0.1785,
	"grad_norm": 2.017430018376759,
	"learning_rate": 9.128e-06,
	"loss": 2.5556,
	"step": 8925
	},
	{
	"epoch": 0.179,
	"grad_norm": 2.2568307097241616,
	"learning_rate": 9.122444444444445e-06,
	"loss": 2.5643,
	"step": 8950
	},
	{
	"epoch": 0.1795,
	"grad_norm": 2.7132996198893404,
	"learning_rate": 9.11688888888889e-06,
	"loss": 2.5469,
	"step": 8975
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.6678319001386117,
	"learning_rate": 9.111333333333334e-06,
	"loss": 2.5482,
	"step": 9000
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.560246467590332,
	"eval_runtime": 42.2661,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.23,
	"step": 9000
	},
	{
	"epoch": 0.1805,
	"grad_norm": 2.7335192428299697,
	"learning_rate": 9.105777777777779e-06,
	"loss": 2.56,
	"step": 9025
	},
	{
	"epoch": 0.181,
	"grad_norm": 2.616833970329197,
	"learning_rate": 9.100222222222223e-06,
	"loss": 2.5659,
	"step": 9050
	},
	{
	"epoch": 0.1815,
	"grad_norm": 2.636296249975529,
	"learning_rate": 9.094666666666668e-06,
	"loss": 2.5605,
	"step": 9075
	},
	{
	"epoch": 0.182,
	"grad_norm": 2.1413102875849828,
	"learning_rate": 9.089111111111111e-06,
	"loss": 2.5454,
	"step": 9100
	},
	{
	"epoch": 0.182,
	"eval_loss": 2.558293342590332,
	"eval_runtime": 42.2294,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.231,
	"step": 9100
	},
	{
	"epoch": 0.1825,
	"grad_norm": 2.195374313863304,
	"learning_rate": 9.083555555555557e-06,
	"loss": 2.5584,
	"step": 9125
	},
	{
	"epoch": 0.183,
	"grad_norm": 2.9470418486379546,
	"learning_rate": 9.078000000000002e-06,
	"loss": 2.5604,
	"step": 9150
	},
	{
	"epoch": 0.1835,
	"grad_norm": 1.9289932950554558,
	"learning_rate": 9.072444444444445e-06,
	"loss": 2.5529,
	"step": 9175
	},
	{
	"epoch": 0.184,
	"grad_norm": 2.905671046574134,
	"learning_rate": 9.066888888888889e-06,
	"loss": 2.5551,
	"step": 9200
	},
	{
	"epoch": 0.184,
	"eval_loss": 2.558293342590332,
	"eval_runtime": 42.216,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 9200
	},
	{
	"epoch": 0.1845,
	"grad_norm": 2.8062526156064522,
	"learning_rate": 9.061333333333334e-06,
	"loss": 2.5438,
	"step": 9225
	},
	{
	"epoch": 0.185,
	"grad_norm": 2.543328123273362,
	"learning_rate": 9.05577777777778e-06,
	"loss": 2.5476,
	"step": 9250
	},
	{
	"epoch": 0.1855,
	"grad_norm": 2.396296044779414,
	"learning_rate": 9.050222222222223e-06,
	"loss": 2.5437,
	"step": 9275
	},
	{
	"epoch": 0.186,
	"grad_norm": 1.980055565462775,
	"learning_rate": 9.044666666666667e-06,
	"loss": 2.5552,
	"step": 9300
	},
	{
	"epoch": 0.186,
	"eval_loss": 2.557692289352417,
	"eval_runtime": 42.6636,
	"eval_samples_per_second": 2.438,
	"eval_steps_per_second": 1.219,
	"step": 9300
	},
	{
	"epoch": 0.1865,
	"grad_norm": 2.028891972183573,
	"learning_rate": 9.039111111111112e-06,
	"loss": 2.5603,
	"step": 9325
	},
	{
	"epoch": 0.187,
	"grad_norm": 2.244801606614392,
	"learning_rate": 9.033555555555557e-06,
	"loss": 2.5565,
	"step": 9350
	},
	{
	"epoch": 0.1875,
	"grad_norm": 2.6445168963619348,
	"learning_rate": 9.028e-06,
	"loss": 2.5453,
	"step": 9375
	},
	{
	"epoch": 0.188,
	"grad_norm": 2.2015819629656543,
	"learning_rate": 9.022444444444444e-06,
	"loss": 2.5463,
	"step": 9400
	},
	{
	"epoch": 0.188,
	"eval_loss": 2.555739164352417,
	"eval_runtime": 44.4913,
	"eval_samples_per_second": 2.338,
	"eval_steps_per_second": 1.169,
	"step": 9400
	},
	{
	"epoch": 0.1885,
	"grad_norm": 2.0871782907981076,
	"learning_rate": 9.01688888888889e-06,
	"loss": 2.5494,
	"step": 9425
	},
	{
	"epoch": 0.189,
	"grad_norm": 2.3339796044543006,
	"learning_rate": 9.011333333333335e-06,
	"loss": 2.562,
	"step": 9450
	},
	{
	"epoch": 0.1895,
	"grad_norm": 2.5447600145368257,
	"learning_rate": 9.005777777777778e-06,
	"loss": 2.5613,
	"step": 9475
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.2530767222642805,
	"learning_rate": 9.000222222222222e-06,
	"loss": 2.5561,
	"step": 9500
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.555588960647583,
	"eval_runtime": 42.3312,
	"eval_samples_per_second": 2.457,
	"eval_steps_per_second": 1.228,
	"step": 9500
	},
	{
	"epoch": 0.1905,
	"grad_norm": 2.2878227597512146,
	"learning_rate": 8.994666666666667e-06,
	"loss": 2.549,
	"step": 9525
	},
	{
	"epoch": 0.191,
	"grad_norm": 3.0478077786015088,
	"learning_rate": 8.989111111111112e-06,
	"loss": 2.5588,
	"step": 9550
	},
	{
	"epoch": 0.1915,
	"grad_norm": 2.499301869546187,
	"learning_rate": 8.983555555555556e-06,
	"loss": 2.5529,
	"step": 9575
	},
	{
	"epoch": 0.192,
	"grad_norm": 2.337747110130922,
	"learning_rate": 8.978000000000001e-06,
	"loss": 2.5485,
	"step": 9600
	},
	{
	"epoch": 0.192,
	"eval_loss": 2.554462194442749,
	"eval_runtime": 42.3,
	"eval_samples_per_second": 2.459,
	"eval_steps_per_second": 1.229,
	"step": 9600
	},
	{
	"epoch": 0.1925,
	"grad_norm": 2.199520541356511,
	"learning_rate": 8.972444444444445e-06,
	"loss": 2.5484,
	"step": 9625
	},
	{
	"epoch": 0.193,
	"grad_norm": 2.0965551340270663,
	"learning_rate": 8.96688888888889e-06,
	"loss": 2.5469,
	"step": 9650
	},
	{
	"epoch": 0.1935,
	"grad_norm": 2.299106466929266,
	"learning_rate": 8.961333333333333e-06,
	"loss": 2.5418,
	"step": 9675
	},
	{
	"epoch": 0.194,
	"grad_norm": 2.4569979839281446,
	"learning_rate": 8.955777777777779e-06,
	"loss": 2.5539,
	"step": 9700
	},
	{
	"epoch": 0.194,
	"eval_loss": 2.553786039352417,
	"eval_runtime": 42.2974,
	"eval_samples_per_second": 2.459,
	"eval_steps_per_second": 1.229,
	"step": 9700
	},
	{
	"epoch": 0.1945,
	"grad_norm": 2.041615655285428,
	"learning_rate": 8.950222222222224e-06,
	"loss": 2.5423,
	"step": 9725
	},
	{
	"epoch": 0.195,
	"grad_norm": 2.3161296628839434,
	"learning_rate": 8.944666666666668e-06,
	"loss": 2.5425,
	"step": 9750
	},
	{
	"epoch": 0.1955,
	"grad_norm": 1.9404726428231058,
	"learning_rate": 8.939111111111111e-06,
	"loss": 2.5574,
	"step": 9775
	},
	{
	"epoch": 0.196,
	"grad_norm": 2.1787807307174596,
	"learning_rate": 8.933555555555556e-06,
	"loss": 2.5601,
	"step": 9800
	},
	{
	"epoch": 0.196,
	"eval_loss": 2.553335428237915,
	"eval_runtime": 42.3156,
	"eval_samples_per_second": 2.458,
	"eval_steps_per_second": 1.229,
	"step": 9800
	},
	{
	"epoch": 0.1965,
	"grad_norm": 2.159828577335103,
	"learning_rate": 8.928000000000002e-06,
	"loss": 2.5374,
	"step": 9825
	},
	{
	"epoch": 0.197,
	"grad_norm": 2.212298780606798,
	"learning_rate": 8.922444444444445e-06,
	"loss": 2.5421,
	"step": 9850
	},
	{
	"epoch": 0.1975,
	"grad_norm": 2.4629384962810685,
	"learning_rate": 8.916888888888889e-06,
	"loss": 2.544,
	"step": 9875
	},
	{
	"epoch": 0.198,
	"grad_norm": 2.2323138923920145,
	"learning_rate": 8.911333333333334e-06,
	"loss": 2.5538,
	"step": 9900
	},
	{
	"epoch": 0.198,
	"eval_loss": 2.552133321762085,
	"eval_runtime": 42.0858,
	"eval_samples_per_second": 2.471,
	"eval_steps_per_second": 1.236,
	"step": 9900
	},
	{
	"epoch": 0.1985,
	"grad_norm": 2.2719465467364057,
	"learning_rate": 8.90577777777778e-06,
	"loss": 2.5478,
	"step": 9925
	},
	{
	"epoch": 0.199,
	"grad_norm": 2.705917304760513,
	"learning_rate": 8.900222222222223e-06,
	"loss": 2.5278,
	"step": 9950
	},
	{
	"epoch": 0.1995,
	"grad_norm": 1.7785859357117906,
	"learning_rate": 8.894666666666666e-06,
	"loss": 2.5477,
	"step": 9975
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.480488966768482,
	"learning_rate": 8.889111111111112e-06,
	"loss": 2.5415,
	"step": 10000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.552133321762085,
	"eval_runtime": 42.2581,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.231,
	"step": 10000
	},
	{
	"epoch": 0.2005,
	"grad_norm": 3.0378947508990453,
	"learning_rate": 8.883555555555557e-06,
	"loss": 2.5449,
	"step": 10025
	},
	{
	"epoch": 0.201,
	"grad_norm": 2.995635037144703,
	"learning_rate": 8.878e-06,
	"loss": 2.5406,
	"step": 10050
	},
	{
	"epoch": 0.2015,
	"grad_norm": 2.198045707343682,
	"learning_rate": 8.872444444444444e-06,
	"loss": 2.53,
	"step": 10075
	},
	{
	"epoch": 0.202,
	"grad_norm": 2.4083638230263946,
	"learning_rate": 8.86688888888889e-06,
	"loss": 2.5468,
	"step": 10100
	},
	{
	"epoch": 0.202,
	"eval_loss": 2.550405740737915,
	"eval_runtime": 42.0945,
	"eval_samples_per_second": 2.471,
	"eval_steps_per_second": 1.235,
	"step": 10100
	},
	{
	"epoch": 0.2025,
	"grad_norm": 2.0842503072786958,
	"learning_rate": 8.861333333333334e-06,
	"loss": 2.5342,
	"step": 10125
	},
	{
	"epoch": 0.203,
	"grad_norm": 2.1409770634433665,
	"learning_rate": 8.855777777777778e-06,
	"loss": 2.5459,
	"step": 10150
	},
	{
	"epoch": 0.2035,
	"grad_norm": 1.8019290797971257,
	"learning_rate": 8.850222222222223e-06,
	"loss": 2.5489,
	"step": 10175
	},
	{
	"epoch": 0.204,
	"grad_norm": 2.159224946702751,
	"learning_rate": 8.844666666666667e-06,
	"loss": 2.5402,
	"step": 10200
	},
	{
	"epoch": 0.204,
	"eval_loss": 2.550255298614502,
	"eval_runtime": 42.1763,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 10200
	},
	{
	"epoch": 0.2045,
	"grad_norm": 2.149785275250866,
	"learning_rate": 8.839111111111112e-06,
	"loss": 2.548,
	"step": 10225
	},
	{
	"epoch": 0.205,
	"grad_norm": 2.6911078360763874,
	"learning_rate": 8.833555555555556e-06,
	"loss": 2.5447,
	"step": 10250
	},
	{
	"epoch": 0.2055,
	"grad_norm": 2.254737041517942,
	"learning_rate": 8.828000000000001e-06,
	"loss": 2.548,
	"step": 10275
	},
	{
	"epoch": 0.206,
	"grad_norm": 2.2852857848915,
	"learning_rate": 8.822444444444446e-06,
	"loss": 2.5371,
	"step": 10300
	},
	{
	"epoch": 0.206,
	"eval_loss": 2.549729585647583,
	"eval_runtime": 42.1465,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 10300
	},
	{
	"epoch": 0.2065,
	"grad_norm": 2.5498279388836425,
	"learning_rate": 8.81688888888889e-06,
	"loss": 2.536,
	"step": 10325
	},
	{
	"epoch": 0.207,
	"grad_norm": 2.2620660537006385,
	"learning_rate": 8.811333333333333e-06,
	"loss": 2.5478,
	"step": 10350
	},
	{
	"epoch": 0.2075,
	"grad_norm": 2.06322927545459,
	"learning_rate": 8.805777777777778e-06,
	"loss": 2.5421,
	"step": 10375
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.9770079692771143,
	"learning_rate": 8.800222222222224e-06,
	"loss": 2.5519,
	"step": 10400
	},
	{
	"epoch": 0.208,
	"eval_loss": 2.549504280090332,
	"eval_runtime": 42.0501,
	"eval_samples_per_second": 2.473,
	"eval_steps_per_second": 1.237,
	"step": 10400
	},
	{
	"epoch": 0.2085,
	"grad_norm": 2.837285948836536,
	"learning_rate": 8.794666666666667e-06,
	"loss": 2.5387,
	"step": 10425
	},
	{
	"epoch": 0.209,
	"grad_norm": 2.0428174767585086,
	"learning_rate": 8.78911111111111e-06,
	"loss": 2.5398,
	"step": 10450
	},
	{
	"epoch": 0.2095,
	"grad_norm": 1.826545976894172,
	"learning_rate": 8.783555555555556e-06,
	"loss": 2.5398,
	"step": 10475
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.335064875387599,
	"learning_rate": 8.778000000000001e-06,
	"loss": 2.5323,
	"step": 10500
	},
	{
	"epoch": 0.21,
	"eval_loss": 2.548001766204834,
	"eval_runtime": 44.9592,
	"eval_samples_per_second": 2.313,
	"eval_steps_per_second": 1.157,
	"step": 10500
	},
	{
	"epoch": 0.2105,
	"grad_norm": 2.1349530306908746,
	"learning_rate": 8.772444444444445e-06,
	"loss": 2.5322,
	"step": 10525
	},
	{
	"epoch": 0.211,
	"grad_norm": 2.2099539420109706,
	"learning_rate": 8.766888888888888e-06,
	"loss": 2.552,
	"step": 10550
	},
	{
	"epoch": 0.2115,
	"grad_norm": 2.185692829530028,
	"learning_rate": 8.761333333333334e-06,
	"loss": 2.537,
	"step": 10575
	},
	{
	"epoch": 0.212,
	"grad_norm": 2.2842207172577087,
	"learning_rate": 8.755777777777779e-06,
	"loss": 2.5373,
	"step": 10600
	},
	{
	"epoch": 0.212,
	"eval_loss": 2.547701358795166,
	"eval_runtime": 42.1838,
	"eval_samples_per_second": 2.465,
	"eval_steps_per_second": 1.233,
	"step": 10600
	},
	{
	"epoch": 0.2125,
	"grad_norm": 1.9972991885719102,
	"learning_rate": 8.750222222222223e-06,
	"loss": 2.5319,
	"step": 10625
	},
	{
	"epoch": 0.213,
	"grad_norm": 2.330105056727183,
	"learning_rate": 8.744666666666666e-06,
	"loss": 2.5388,
	"step": 10650
	},
	{
	"epoch": 0.2135,
	"grad_norm": 2.70628718016926,
	"learning_rate": 8.739111111111111e-06,
	"loss": 2.5303,
	"step": 10675
	},
	{
	"epoch": 0.214,
	"grad_norm": 2.4584947239335624,
	"learning_rate": 8.733555555555557e-06,
	"loss": 2.5342,
	"step": 10700
	},
	{
	"epoch": 0.214,
	"eval_loss": 2.546649694442749,
	"eval_runtime": 42.0732,
	"eval_samples_per_second": 2.472,
	"eval_steps_per_second": 1.236,
	"step": 10700
	},
	{
	"epoch": 0.2145,
	"grad_norm": 2.214087371322184,
	"learning_rate": 8.728e-06,
	"loss": 2.5421,
	"step": 10725
	},
	{
	"epoch": 0.215,
	"grad_norm": 2.6528158070317245,
	"learning_rate": 8.722444444444445e-06,
	"loss": 2.5444,
	"step": 10750
	},
	{
	"epoch": 0.2155,
	"grad_norm": 2.346998333067942,
	"learning_rate": 8.716888888888889e-06,
	"loss": 2.5443,
	"step": 10775
	},
	{
	"epoch": 0.216,
	"grad_norm": 2.3982005375452013,
	"learning_rate": 8.711333333333334e-06,
	"loss": 2.5355,
	"step": 10800
	},
	{
	"epoch": 0.216,
	"eval_loss": 2.546048641204834,
	"eval_runtime": 42.068,
	"eval_samples_per_second": 2.472,
	"eval_steps_per_second": 1.236,
	"step": 10800
	},
	{
	"epoch": 0.2165,
	"grad_norm": 3.0048318722769762,
	"learning_rate": 8.705777777777778e-06,
	"loss": 2.5394,
	"step": 10825
	},
	{
	"epoch": 0.217,
	"grad_norm": 2.0272377886620037,
	"learning_rate": 8.700222222222223e-06,
	"loss": 2.5464,
	"step": 10850
	},
	{
	"epoch": 0.2175,
	"grad_norm": 2.652472330601305,
	"learning_rate": 8.694666666666668e-06,
	"loss": 2.529,
	"step": 10875
	},
	{
	"epoch": 0.218,
	"grad_norm": 2.2445164925981307,
	"learning_rate": 8.689111111111112e-06,
	"loss": 2.5427,
	"step": 10900
	},
	{
	"epoch": 0.218,
	"eval_loss": 2.545748233795166,
	"eval_runtime": 42.3618,
	"eval_samples_per_second": 2.455,
	"eval_steps_per_second": 1.228,
	"step": 10900
	},
	{
	"epoch": 0.2185,
	"grad_norm": 2.201461546405023,
	"learning_rate": 8.683555555555555e-06,
	"loss": 2.5393,
	"step": 10925
	},
	{
	"epoch": 0.219,
	"grad_norm": 2.3583119593823674,
	"learning_rate": 8.678e-06,
	"loss": 2.5427,
	"step": 10950
	},
	{
	"epoch": 0.2195,
	"grad_norm": 2.1379039245727403,
	"learning_rate": 8.672444444444446e-06,
	"loss": 2.5356,
	"step": 10975
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.5685849750637084,
	"learning_rate": 8.66688888888889e-06,
	"loss": 2.5457,
	"step": 11000
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.546349048614502,
	"eval_runtime": 42.135,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 11000
	},
	{
	"epoch": 0.2205,
	"grad_norm": 2.324853539087807,
	"learning_rate": 8.661333333333335e-06,
	"loss": 2.5285,
	"step": 11025
	},
	{
	"epoch": 0.221,
	"grad_norm": 1.9658509127735029,
	"learning_rate": 8.655777777777778e-06,
	"loss": 2.5219,
	"step": 11050
	},
	{
	"epoch": 0.2215,
	"grad_norm": 2.53943222758357,
	"learning_rate": 8.650222222222223e-06,
	"loss": 2.5272,
	"step": 11075
	},
	{
	"epoch": 0.222,
	"grad_norm": 2.3198644963527775,
	"learning_rate": 8.644666666666669e-06,
	"loss": 2.5409,
	"step": 11100
	},
	{
	"epoch": 0.222,
	"eval_loss": 2.544395923614502,
	"eval_runtime": 42.0045,
	"eval_samples_per_second": 2.476,
	"eval_steps_per_second": 1.238,
	"step": 11100
	},
	{
	"epoch": 0.2225,
	"grad_norm": 2.3120626804419375,
	"learning_rate": 8.639111111111112e-06,
	"loss": 2.547,
	"step": 11125
	},
	{
	"epoch": 0.223,
	"grad_norm": 2.3238512646839773,
	"learning_rate": 8.633555555555556e-06,
	"loss": 2.5378,
	"step": 11150
	},
	{
	"epoch": 0.2235,
	"grad_norm": 2.2746777774566107,
	"learning_rate": 8.628000000000001e-06,
	"loss": 2.5298,
	"step": 11175
	},
	{
	"epoch": 0.224,
	"grad_norm": 2.2756339157469934,
	"learning_rate": 8.622444444444446e-06,
	"loss": 2.5293,
	"step": 11200
	},
	{
	"epoch": 0.224,
	"eval_loss": 2.544095516204834,
	"eval_runtime": 42.2435,
	"eval_samples_per_second": 2.462,
	"eval_steps_per_second": 1.231,
	"step": 11200
	},
	{
	"epoch": 0.2245,
	"grad_norm": 2.069926826217822,
	"learning_rate": 8.61688888888889e-06,
	"loss": 2.5401,
	"step": 11225
	},
	{
	"epoch": 0.225,
	"grad_norm": 2.322441839423337,
	"learning_rate": 8.611333333333333e-06,
	"loss": 2.5417,
	"step": 11250
	},
	{
	"epoch": 0.2255,
	"grad_norm": 3.726100896647911,
	"learning_rate": 8.605777777777779e-06,
	"loss": 2.5311,
	"step": 11275
	},
	{
	"epoch": 0.226,
	"grad_norm": 3.3085164517610632,
	"learning_rate": 8.600222222222224e-06,
	"loss": 2.5433,
	"step": 11300
	},
	{
	"epoch": 0.226,
	"eval_loss": 2.541391134262085,
	"eval_runtime": 42.0958,
	"eval_samples_per_second": 2.471,
	"eval_steps_per_second": 1.235,
	"step": 11300
	},
	{
	"epoch": 0.2265,
	"grad_norm": 2.3467605461379324,
	"learning_rate": 8.594666666666668e-06,
	"loss": 2.5293,
	"step": 11325
	},
	{
	"epoch": 0.227,
	"grad_norm": 2.2566795917134637,
	"learning_rate": 8.589111111111111e-06,
	"loss": 2.5383,
	"step": 11350
	},
	{
	"epoch": 0.2275,
	"grad_norm": 1.9604293201194958,
	"learning_rate": 8.583555555555556e-06,
	"loss": 2.5466,
	"step": 11375
	},
	{
	"epoch": 0.228,
	"grad_norm": 2.7705828556158907,
	"learning_rate": 8.578000000000002e-06,
	"loss": 2.54,
	"step": 11400
	},
	{
	"epoch": 0.228,
	"eval_loss": 2.543344259262085,
	"eval_runtime": 42.1958,
	"eval_samples_per_second": 2.465,
	"eval_steps_per_second": 1.232,
	"step": 11400
	},
	{
	"epoch": 0.2285,
	"grad_norm": 2.1573913228005392,
	"learning_rate": 8.572444444444445e-06,
	"loss": 2.544,
	"step": 11425
	},
	{
	"epoch": 0.229,
	"grad_norm": 2.4499651434376264,
	"learning_rate": 8.56688888888889e-06,
	"loss": 2.543,
	"step": 11450
	},
	{
	"epoch": 0.2295,
	"grad_norm": 2.1343769951292204,
	"learning_rate": 8.561333333333334e-06,
	"loss": 2.5568,
	"step": 11475
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.930848949528708,
	"learning_rate": 8.55577777777778e-06,
	"loss": 2.5419,
	"step": 11500
	},
	{
	"epoch": 0.23,
	"eval_loss": 2.541316032409668,
	"eval_runtime": 42.2013,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 11500
	},
	{
	"epoch": 0.2305,
	"grad_norm": 2.155444422697904,
	"learning_rate": 8.550222222222223e-06,
	"loss": 2.543,
	"step": 11525
	},
	{
	"epoch": 0.231,
	"grad_norm": 2.5216609928964706,
	"learning_rate": 8.544666666666668e-06,
	"loss": 2.5339,
	"step": 11550
	},
	{
	"epoch": 0.2315,
	"grad_norm": 3.2141643729123826,
	"learning_rate": 8.539111111111112e-06,
	"loss": 2.5311,
	"step": 11575
	},
	{
	"epoch": 0.232,
	"grad_norm": 2.779033714093245,
	"learning_rate": 8.533555555555557e-06,
	"loss": 2.5367,
	"step": 11600
	},
	{
	"epoch": 0.232,
	"eval_loss": 2.539663553237915,
	"eval_runtime": 42.1104,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 11600
	},
	{
	"epoch": 0.2325,
	"grad_norm": 2.0599049344871134,
	"learning_rate": 8.528e-06,
	"loss": 2.5406,
	"step": 11625
	},
	{
	"epoch": 0.233,
	"grad_norm": 2.1617162796171536,
	"learning_rate": 8.522444444444446e-06,
	"loss": 2.5244,
	"step": 11650
	},
	{
	"epoch": 0.2335,
	"grad_norm": 2.4286224889340926,
	"learning_rate": 8.51688888888889e-06,
	"loss": 2.5364,
	"step": 11675
	},
	{
	"epoch": 0.234,
	"grad_norm": 2.0435359432545424,
	"learning_rate": 8.511333333333334e-06,
	"loss": 2.5332,
	"step": 11700
	},
	{
	"epoch": 0.234,
	"eval_loss": 2.539963960647583,
	"eval_runtime": 42.1502,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.234,
	"step": 11700
	},
	{
	"epoch": 0.2345,
	"grad_norm": 2.6031764141012195,
	"learning_rate": 8.505777777777778e-06,
	"loss": 2.5292,
	"step": 11725
	},
	{
	"epoch": 0.235,
	"grad_norm": 2.2484621657042427,
	"learning_rate": 8.500222222222223e-06,
	"loss": 2.523,
	"step": 11750
	},
	{
	"epoch": 0.2355,
	"grad_norm": 2.854177673999505,
	"learning_rate": 8.494666666666668e-06,
	"loss": 2.5218,
	"step": 11775
	},
	{
	"epoch": 0.236,
	"grad_norm": 2.0770100967771055,
	"learning_rate": 8.489111111111112e-06,
	"loss": 2.534,
	"step": 11800
	},
	{
	"epoch": 0.236,
	"eval_loss": 2.538536548614502,
	"eval_runtime": 42.3875,
	"eval_samples_per_second": 2.454,
	"eval_steps_per_second": 1.227,
	"step": 11800
	},
	{
	"epoch": 0.2365,
	"grad_norm": 2.391823444522325,
	"learning_rate": 8.483555555555556e-06,
	"loss": 2.5211,
	"step": 11825
	},
	{
	"epoch": 0.237,
	"grad_norm": 2.333238897849914,
	"learning_rate": 8.478e-06,
	"loss": 2.5238,
	"step": 11850
	},
	{
	"epoch": 0.2375,
	"grad_norm": 2.1636671466235256,
	"learning_rate": 8.472444444444446e-06,
	"loss": 2.5378,
	"step": 11875
	},
	{
	"epoch": 0.238,
	"grad_norm": 2.5877564973697607,
	"learning_rate": 8.46688888888889e-06,
	"loss": 2.5415,
	"step": 11900
	},
	{
	"epoch": 0.238,
	"eval_loss": 2.538837194442749,
	"eval_runtime": 42.2059,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 11900
	},
	{
	"epoch": 0.2385,
	"grad_norm": 2.1416643296031785,
	"learning_rate": 8.461333333333333e-06,
	"loss": 2.525,
	"step": 11925
	},
	{
	"epoch": 0.239,
	"grad_norm": 2.213813959028046,
	"learning_rate": 8.455777777777778e-06,
	"loss": 2.5416,
	"step": 11950
	},
	{
	"epoch": 0.2395,
	"grad_norm": 2.759854381361929,
	"learning_rate": 8.450222222222224e-06,
	"loss": 2.5355,
	"step": 11975
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.050520488248713,
	"learning_rate": 8.444666666666667e-06,
	"loss": 2.5263,
	"step": 12000
	},
	{
	"epoch": 0.24,
	"eval_loss": 2.538311243057251,
	"eval_runtime": 42.2256,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.231,
	"step": 12000
	},
	{
	"epoch": 0.2405,
	"grad_norm": 1.7936589101138234,
	"learning_rate": 8.43911111111111e-06,
	"loss": 2.5284,
	"step": 12025
	},
	{
	"epoch": 0.241,
	"grad_norm": 1.9363979159698028,
	"learning_rate": 8.433555555555556e-06,
	"loss": 2.5217,
	"step": 12050
	},
	{
	"epoch": 0.2415,
	"grad_norm": 2.0808153808443324,
	"learning_rate": 8.428000000000001e-06,
	"loss": 2.5151,
	"step": 12075
	},
	{
	"epoch": 0.242,
	"grad_norm": 2.6428939921225303,
	"learning_rate": 8.422444444444445e-06,
	"loss": 2.529,
	"step": 12100
	},
	{
	"epoch": 0.242,
	"eval_loss": 2.537259578704834,
	"eval_runtime": 42.2398,
	"eval_samples_per_second": 2.462,
	"eval_steps_per_second": 1.231,
	"step": 12100
	},
	{
	"epoch": 0.2425,
	"grad_norm": 2.317352818958468,
	"learning_rate": 8.41688888888889e-06,
	"loss": 2.5272,
	"step": 12125
	},
	{
	"epoch": 0.243,
	"grad_norm": 2.3625174954143717,
	"learning_rate": 8.411333333333334e-06,
	"loss": 2.5341,
	"step": 12150
	},
	{
	"epoch": 0.2435,
	"grad_norm": 2.385583283955561,
	"learning_rate": 8.405777777777779e-06,
	"loss": 2.5252,
	"step": 12175
	},
	{
	"epoch": 0.244,
	"grad_norm": 2.216512817161135,
	"learning_rate": 8.400222222222222e-06,
	"loss": 2.53,
	"step": 12200
	},
	{
	"epoch": 0.244,
	"eval_loss": 2.537409782409668,
	"eval_runtime": 43.0155,
	"eval_samples_per_second": 2.418,
	"eval_steps_per_second": 1.209,
	"step": 12200
	},
	{
	"epoch": 0.2445,
	"grad_norm": 2.851691032693815,
	"learning_rate": 8.394666666666668e-06,
	"loss": 2.5409,
	"step": 12225
	},
	{
	"epoch": 0.245,
	"grad_norm": 2.3667554446376085,
	"learning_rate": 8.389111111111113e-06,
	"loss": 2.5268,
	"step": 12250
	},
	{
	"epoch": 0.2455,
	"grad_norm": 2.1930831286302896,
	"learning_rate": 8.383555555555557e-06,
	"loss": 2.5308,
	"step": 12275
	},
	{
	"epoch": 0.246,
	"grad_norm": 2.4644858889937824,
	"learning_rate": 8.378e-06,
	"loss": 2.5279,
	"step": 12300
	},
	{
	"epoch": 0.246,
	"eval_loss": 2.537409782409668,
	"eval_runtime": 42.0899,
	"eval_samples_per_second": 2.471,
	"eval_steps_per_second": 1.235,
	"step": 12300
	},
	{
	"epoch": 0.2465,
	"grad_norm": 2.6684093247331555,
	"learning_rate": 8.372444444444445e-06,
	"loss": 2.5263,
	"step": 12325
	},
	{
	"epoch": 0.247,
	"grad_norm": 1.9552978346665313,
	"learning_rate": 8.36688888888889e-06,
	"loss": 2.5228,
	"step": 12350
	},
	{
	"epoch": 0.2475,
	"grad_norm": 2.8273236400537294,
	"learning_rate": 8.361333333333334e-06,
	"loss": 2.5305,
	"step": 12375
	},
	{
	"epoch": 0.248,
	"grad_norm": 2.052357534814466,
	"learning_rate": 8.355777777777778e-06,
	"loss": 2.5193,
	"step": 12400
	},
	{
	"epoch": 0.248,
	"eval_loss": 2.535456657409668,
	"eval_runtime": 42.1653,
	"eval_samples_per_second": 2.466,
	"eval_steps_per_second": 1.233,
	"step": 12400
	},
	{
	"epoch": 0.2485,
	"grad_norm": 2.410408330063049,
	"learning_rate": 8.350222222222223e-06,
	"loss": 2.5269,
	"step": 12425
	},
	{
	"epoch": 0.249,
	"grad_norm": 1.784156472071755,
	"learning_rate": 8.344666666666668e-06,
	"loss": 2.5258,
	"step": 12450
	},
	{
	"epoch": 0.2495,
	"grad_norm": 2.6880708020978368,
	"learning_rate": 8.339111111111112e-06,
	"loss": 2.5298,
	"step": 12475
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.2030168810534922,
	"learning_rate": 8.333555555555555e-06,
	"loss": 2.5201,
	"step": 12500
	},
	{
	"epoch": 0.25,
	"eval_loss": 2.535832405090332,
	"eval_runtime": 42.0482,
	"eval_samples_per_second": 2.473,
	"eval_steps_per_second": 1.237,
	"step": 12500
	},
	{
	"epoch": 0.2505,
	"grad_norm": 2.019140906115923,
	"learning_rate": 8.328e-06,
	"loss": 2.5241,
	"step": 12525
	},
	{
	"epoch": 0.251,
	"grad_norm": 1.9012303831260067,
	"learning_rate": 8.322444444444446e-06,
	"loss": 2.5354,
	"step": 12550
	},
	{
	"epoch": 0.2515,
	"grad_norm": 1.7607101331370496,
	"learning_rate": 8.31688888888889e-06,
	"loss": 2.5254,
	"step": 12575
	},
	{
	"epoch": 0.252,
	"grad_norm": 2.5505055208286933,
	"learning_rate": 8.311333333333333e-06,
	"loss": 2.5294,
	"step": 12600
	},
	{
	"epoch": 0.252,
	"eval_loss": 2.535231351852417,
	"eval_runtime": 41.9731,
	"eval_samples_per_second": 2.478,
	"eval_steps_per_second": 1.239,
	"step": 12600
	},
	{
	"epoch": 0.2525,
	"grad_norm": 1.6218420390627293,
	"learning_rate": 8.305777777777778e-06,
	"loss": 2.5262,
	"step": 12625
	},
	{
	"epoch": 0.253,
	"grad_norm": 2.0991897222525115,
	"learning_rate": 8.300222222222223e-06,
	"loss": 2.5206,
	"step": 12650
	},
	{
	"epoch": 0.2535,
	"grad_norm": 2.478785246720621,
	"learning_rate": 8.294666666666667e-06,
	"loss": 2.5275,
	"step": 12675
	},
	{
	"epoch": 0.254,
	"grad_norm": 2.141371973093057,
	"learning_rate": 8.289111111111112e-06,
	"loss": 2.5323,
	"step": 12700
	},
	{
	"epoch": 0.254,
	"eval_loss": 2.5341796875,
	"eval_runtime": 42.2622,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.23,
	"step": 12700
	},
	{
	"epoch": 0.2545,
	"grad_norm": 2.269733740633448,
	"learning_rate": 8.283555555555556e-06,
	"loss": 2.5367,
	"step": 12725
	},
	{
	"epoch": 0.255,
	"grad_norm": 1.893617133257015,
	"learning_rate": 8.278000000000001e-06,
	"loss": 2.5257,
	"step": 12750
	},
	{
	"epoch": 0.2555,
	"grad_norm": 1.751381032940087,
	"learning_rate": 8.272444444444445e-06,
	"loss": 2.5276,
	"step": 12775
	},
	{
	"epoch": 0.256,
	"grad_norm": 2.6264391487699545,
	"learning_rate": 8.26688888888889e-06,
	"loss": 2.5281,
	"step": 12800
	},
	{
	"epoch": 0.256,
	"eval_loss": 2.534780740737915,
	"eval_runtime": 42.0037,
	"eval_samples_per_second": 2.476,
	"eval_steps_per_second": 1.238,
	"step": 12800
	},
	{
	"epoch": 0.2565,
	"grad_norm": 2.9544216590918766,
	"learning_rate": 8.261333333333335e-06,
	"loss": 2.5159,
	"step": 12825
	},
	{
	"epoch": 0.257,
	"grad_norm": 1.703574826031134,
	"learning_rate": 8.255777777777779e-06,
	"loss": 2.5314,
	"step": 12850
	},
	{
	"epoch": 0.2575,
	"grad_norm": 2.23456733038464,
	"learning_rate": 8.250222222222222e-06,
	"loss": 2.5301,
	"step": 12875
	},
	{
	"epoch": 0.258,
	"grad_norm": 2.0236952351089132,
	"learning_rate": 8.244666666666667e-06,
	"loss": 2.5274,
	"step": 12900
	},
	{
	"epoch": 0.258,
	"eval_loss": 2.532827615737915,
	"eval_runtime": 42.2742,
	"eval_samples_per_second": 2.46,
	"eval_steps_per_second": 1.23,
	"step": 12900
	},
	{
	"epoch": 0.2585,
	"grad_norm": 1.9175658573019432,
	"learning_rate": 8.239111111111113e-06,
	"loss": 2.5293,
	"step": 12925
	},
	{
	"epoch": 0.259,
	"grad_norm": 2.227745372848629,
	"learning_rate": 8.233555555555556e-06,
	"loss": 2.5346,
	"step": 12950
	},
	{
	"epoch": 0.2595,
	"grad_norm": 2.0320264112024375,
	"learning_rate": 8.228e-06,
	"loss": 2.5133,
	"step": 12975
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.3254627331546636,
	"learning_rate": 8.222444444444445e-06,
	"loss": 2.5257,
	"step": 13000
	},
	{
	"epoch": 0.26,
	"eval_loss": 2.532376766204834,
	"eval_runtime": 42.0555,
	"eval_samples_per_second": 2.473,
	"eval_steps_per_second": 1.236,
	"step": 13000
	},
	{
	"epoch": 0.2605,
	"grad_norm": 1.9492007310542454,
	"learning_rate": 8.21688888888889e-06,
	"loss": 2.5246,
	"step": 13025
	},
	{
	"epoch": 0.261,
	"grad_norm": 2.3076187120913105,
	"learning_rate": 8.211333333333334e-06,
	"loss": 2.5287,
	"step": 13050
	},
	{
	"epoch": 0.2615,
	"grad_norm": 1.8076829520267466,
	"learning_rate": 8.205777777777777e-06,
	"loss": 2.5161,
	"step": 13075
	},
	{
	"epoch": 0.262,
	"grad_norm": 2.272592798843781,
	"learning_rate": 8.200222222222223e-06,
	"loss": 2.5272,
	"step": 13100
	},
	{
	"epoch": 0.262,
	"eval_loss": 2.532526969909668,
	"eval_runtime": 42.2261,
	"eval_samples_per_second": 2.463,
	"eval_steps_per_second": 1.231,
	"step": 13100
	},
	{
	"epoch": 0.2625,
	"grad_norm": 2.249412616356025,
	"learning_rate": 8.194666666666668e-06,
	"loss": 2.5268,
	"step": 13125
	},
	{
	"epoch": 0.263,
	"grad_norm": 2.054677758627288,
	"learning_rate": 8.189111111111111e-06,
	"loss": 2.5232,
	"step": 13150
	},
	{
	"epoch": 0.2635,
	"grad_norm": 2.3525307448487545,
	"learning_rate": 8.183555555555555e-06,
	"loss": 2.5186,
	"step": 13175
	},
	{
	"epoch": 0.264,
	"grad_norm": 2.0816994586757294,
	"learning_rate": 8.178e-06,
	"loss": 2.5249,
	"step": 13200
	},
	{
	"epoch": 0.264,
	"eval_loss": 2.531926155090332,
	"eval_runtime": 42.1448,
	"eval_samples_per_second": 2.468,
	"eval_steps_per_second": 1.234,
	"step": 13200
	},
	{
	"epoch": 0.2645,
	"grad_norm": 1.8771257650501383,
	"learning_rate": 8.172444444444446e-06,
	"loss": 2.5185,
	"step": 13225
	},
	{
	"epoch": 0.265,
	"grad_norm": 3.015360724178772,
	"learning_rate": 8.166888888888889e-06,
	"loss": 2.5236,
	"step": 13250
	},
	{
	"epoch": 0.2655,
	"grad_norm": 2.809533897542425,
	"learning_rate": 8.161333333333334e-06,
	"loss": 2.5207,
	"step": 13275
	},
	{
	"epoch": 0.266,
	"grad_norm": 2.0578110863684307,
	"learning_rate": 8.155777777777778e-06,
	"loss": 2.5133,
	"step": 13300
	},
	{
	"epoch": 0.266,
	"eval_loss": 2.531550407409668,
	"eval_runtime": 42.4297,
	"eval_samples_per_second": 2.451,
	"eval_steps_per_second": 1.226,
	"step": 13300
	},
	{
	"epoch": 0.2665,
	"grad_norm": 2.0416241200876533,
	"learning_rate": 8.150222222222223e-06,
	"loss": 2.5174,
	"step": 13325
	},
	{
	"epoch": 0.267,
	"grad_norm": 2.208631750373162,
	"learning_rate": 8.144666666666667e-06,
	"loss": 2.5218,
	"step": 13350
	},
	{
	"epoch": 0.2675,
	"grad_norm": 2.28882872372725,
	"learning_rate": 8.139111111111112e-06,
	"loss": 2.5249,
	"step": 13375
	},
	{
	"epoch": 0.268,
	"grad_norm": 2.0364230232228233,
	"learning_rate": 8.133555555555557e-06,
	"loss": 2.5235,
	"step": 13400
	},
	{
	"epoch": 0.268,
	"eval_loss": 2.530423641204834,
	"eval_runtime": 42.078,
	"eval_samples_per_second": 2.472,
	"eval_steps_per_second": 1.236,
	"step": 13400
	},
	{
	"epoch": 0.2685,
	"grad_norm": 2.6248839843381266,
	"learning_rate": 8.128e-06,
	"loss": 2.5163,
	"step": 13425
	},
	{
	"epoch": 0.269,
	"grad_norm": 1.7874079388176,
	"learning_rate": 8.122444444444444e-06,
	"loss": 2.5321,
	"step": 13450
	},
	{
	"epoch": 0.2695,
	"grad_norm": 2.464203238277693,
	"learning_rate": 8.11688888888889e-06,
	"loss": 2.5194,
	"step": 13475
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.120977146291401,
	"learning_rate": 8.111333333333335e-06,
	"loss": 2.5206,
	"step": 13500
	},
	{
	"epoch": 0.27,
	"eval_loss": 2.530874490737915,
	"eval_runtime": 42.0694,
	"eval_samples_per_second": 2.472,
	"eval_steps_per_second": 1.236,
	"step": 13500
	},
	{
	"epoch": 0.2705,
	"grad_norm": 2.1455954231359193,
	"learning_rate": 8.105777777777778e-06,
	"loss": 2.5175,
	"step": 13525
	},
	{
	"epoch": 0.271,
	"grad_norm": 2.139148836070426,
	"learning_rate": 8.100222222222222e-06,
	"loss": 2.5274,
	"step": 13550
	},
	{
	"epoch": 0.2715,
	"grad_norm": 2.79028405854528,
	"learning_rate": 8.094666666666667e-06,
	"loss": 2.5231,
	"step": 13575
	},
	{
	"epoch": 0.272,
	"grad_norm": 2.1128072564088227,
	"learning_rate": 8.089111111111112e-06,
	"loss": 2.5278,
	"step": 13600
	},
	{
	"epoch": 0.272,
	"eval_loss": 2.530573844909668,
	"eval_runtime": 42.0442,
	"eval_samples_per_second": 2.474,
	"eval_steps_per_second": 1.237,
	"step": 13600
	},
	{
	"epoch": 0.2725,
	"grad_norm": 2.3629134301910044,
	"learning_rate": 8.083555555555556e-06,
	"loss": 2.5214,
	"step": 13625
	},
	{
	"epoch": 0.273,
	"grad_norm": 1.8871218393029536,
	"learning_rate": 8.078e-06,
	"loss": 2.5068,
	"step": 13650
	},
	{
	"epoch": 0.2735,
	"grad_norm": 1.9782214927434483,
	"learning_rate": 8.072444444444445e-06,
	"loss": 2.5243,
	"step": 13675
	},
	{
	"epoch": 0.274,
	"grad_norm": 2.6328648420185927,
	"learning_rate": 8.06688888888889e-06,
	"loss": 2.5228,
	"step": 13700
	},
	{
	"epoch": 0.274,
	"eval_loss": 2.530573844909668,
	"eval_runtime": 42.1498,
	"eval_samples_per_second": 2.467,
	"eval_steps_per_second": 1.234,
	"step": 13700
	},
	{
	"epoch": 0.2745,
	"grad_norm": 1.7018004256507808,
	"learning_rate": 8.061333333333334e-06,
	"loss": 2.5178,
	"step": 13725
	},
	{
	"epoch": 0.275,
	"grad_norm": 1.9267466735782932,
	"learning_rate": 8.055777777777777e-06,
	"loss": 2.5079,
	"step": 13750
	},
	{
	"epoch": 0.2755,
	"grad_norm": 2.2443788597292778,
	"learning_rate": 8.050222222222222e-06,
	"loss": 2.5213,
	"step": 13775
	},
	{
	"epoch": 0.276,
	"grad_norm": 2.873399914185342,
	"learning_rate": 8.044666666666668e-06,
	"loss": 2.5212,
	"step": 13800
	},
	{
	"epoch": 0.276,
	"eval_loss": 2.529296875,
	"eval_runtime": 42.1115,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 13800
	},
	{
	"epoch": 0.2765,
	"grad_norm": 2.794454715063574,
	"learning_rate": 8.039111111111111e-06,
	"loss": 2.523,
	"step": 13825
	},
	{
	"epoch": 0.277,
	"grad_norm": 2.2530766498680244,
	"learning_rate": 8.033555555555556e-06,
	"loss": 2.5195,
	"step": 13850
	},
	{
	"epoch": 0.2775,
	"grad_norm": 2.357725394975894,
	"learning_rate": 8.028e-06,
	"loss": 2.509,
	"step": 13875
	},
	{
	"epoch": 0.278,
	"grad_norm": 1.896374018977524,
	"learning_rate": 8.022444444444445e-06,
	"loss": 2.5246,
	"step": 13900
	},
	{
	"epoch": 0.278,
	"eval_loss": 2.527794361114502,
	"eval_runtime": 42.2006,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 13900
	},
	{
	"epoch": 0.2785,
	"grad_norm": 1.9716064978040044,
	"learning_rate": 8.016888888888889e-06,
	"loss": 2.5325,
	"step": 13925
	},
	{
	"epoch": 0.279,
	"grad_norm": 2.113859123339066,
	"learning_rate": 8.011333333333334e-06,
	"loss": 2.5452,
	"step": 13950
	},
	{
	"epoch": 0.2795,
	"grad_norm": 1.802172403266005,
	"learning_rate": 8.00577777777778e-06,
	"loss": 2.5261,
	"step": 13975
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.6938868697398992,
	"learning_rate": 8.000222222222223e-06,
	"loss": 2.5194,
	"step": 14000
	},
	{
	"epoch": 0.28,
	"eval_loss": 2.527418851852417,
	"eval_runtime": 42.0495,
	"eval_samples_per_second": 2.473,
	"eval_steps_per_second": 1.237,
	"step": 14000
	},
	{
	"epoch": 0.2805,
	"grad_norm": 1.9206155343848852,
	"learning_rate": 7.994666666666666e-06,
	"loss": 2.5174,
	"step": 14025
	},
	{
	"epoch": 0.281,
	"grad_norm": 1.9163670696164357,
	"learning_rate": 7.989111111111112e-06,
	"loss": 2.5218,
	"step": 14050
	},
	{
	"epoch": 0.2815,
	"grad_norm": 2.1957343559480282,
	"learning_rate": 7.983555555555557e-06,
	"loss": 2.5142,
	"step": 14075
	},
	{
	"epoch": 0.282,
	"grad_norm": 2.9005827138609384,
	"learning_rate": 7.978e-06,
	"loss": 2.5155,
	"step": 14100
	},
	{
	"epoch": 0.282,
	"eval_loss": 2.528921365737915,
	"eval_runtime": 42.2668,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 1.23,
	"step": 14100
	},
	{
	"epoch": 0.2825,
	"grad_norm": 4.884030765991706,
	"learning_rate": 7.972444444444444e-06,
	"loss": 2.5143,
	"step": 14125
	},
	{
	"epoch": 0.283,
	"grad_norm": 2.0081632524431554,
	"learning_rate": 7.96688888888889e-06,
	"loss": 2.5172,
	"step": 14150
	},
	{
	"epoch": 0.2835,
	"grad_norm": 2.3165975884171486,
	"learning_rate": 7.961333333333335e-06,
	"loss": 2.5233,
	"step": 14175
	},
	{
	"epoch": 0.284,
	"grad_norm": 2.005489337596923,
	"learning_rate": 7.955777777777778e-06,
	"loss": 2.5157,
	"step": 14200
	},
	{
	"epoch": 0.284,
	"eval_loss": 2.527418851852417,
	"eval_runtime": 42.0837,
	"eval_samples_per_second": 2.471,
	"eval_steps_per_second": 1.236,
	"step": 14200
	},
	{
	"epoch": 0.2845,
	"grad_norm": 2.303681854850733,
	"learning_rate": 7.950222222222222e-06,
	"loss": 2.5172,
	"step": 14225
	},
	{
	"epoch": 0.285,
	"grad_norm": 2.2641902611937668,
	"learning_rate": 7.944666666666667e-06,
	"loss": 2.5231,
	"step": 14250
	},
	{
	"epoch": 0.2855,
	"grad_norm": 2.387021962258487,
	"learning_rate": 7.939111111111112e-06,
	"loss": 2.5212,
	"step": 14275
	},
	{
	"epoch": 0.286,
	"grad_norm": 2.544895006524076,
	"learning_rate": 7.933555555555556e-06,
	"loss": 2.5145,
	"step": 14300
	},
	{
	"epoch": 0.286,
	"eval_loss": 2.526592493057251,
	"eval_runtime": 44.9666,
	"eval_samples_per_second": 2.313,
	"eval_steps_per_second": 1.156,
	"step": 14300
	},
	{
	"epoch": 0.2865,
	"grad_norm": 2.472331608658759,
	"learning_rate": 7.928e-06,
	"loss": 2.5201,
	"step": 14325
	},
	{
	"epoch": 0.287,
	"grad_norm": 1.9064183491076525,
	"learning_rate": 7.922444444444445e-06,
	"loss": 2.5229,
	"step": 14350
	},
	{
	"epoch": 0.2875,
	"grad_norm": 2.3050539823905285,
	"learning_rate": 7.91688888888889e-06,
	"loss": 2.5228,
	"step": 14375
	},
	{
	"epoch": 0.288,
	"grad_norm": 2.214319723588106,
	"learning_rate": 7.911333333333333e-06,
	"loss": 2.534,
	"step": 14400
	},
	{
	"epoch": 0.288,
	"eval_loss": 2.526817798614502,
	"eval_runtime": 42.0616,
	"eval_samples_per_second": 2.473,
	"eval_steps_per_second": 1.236,
	"step": 14400
	},
	{
	"epoch": 0.2885,
	"grad_norm": 2.1428403670979943,
	"learning_rate": 7.905777777777779e-06,
	"loss": 2.522,
	"step": 14425
	},
	{
	"epoch": 0.289,
	"grad_norm": 2.263936323826227,
	"learning_rate": 7.900222222222222e-06,
	"loss": 2.5206,
	"step": 14450
	},
	{
	"epoch": 0.2895,
	"grad_norm": 2.075645640857708,
	"learning_rate": 7.894666666666667e-06,
	"loss": 2.5352,
	"step": 14475
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.8902386684163655,
	"learning_rate": 7.889111111111113e-06,
	"loss": 2.5251,
	"step": 14500
	},
	{
	"epoch": 0.29,
	"eval_loss": 2.525615930557251,
	"eval_runtime": 42.0095,
	"eval_samples_per_second": 2.476,
	"eval_steps_per_second": 1.238,
	"step": 14500
	},
	{
	"epoch": 0.2905,
	"grad_norm": 2.3355641284029467,
	"learning_rate": 7.883555555555556e-06,
	"loss": 2.5174,
	"step": 14525
	},
	{
	"epoch": 0.291,
	"grad_norm": 2.1495485890182975,
	"learning_rate": 7.878e-06,
	"loss": 2.5179,
	"step": 14550
	},
	{
	"epoch": 0.2915,
	"grad_norm": 1.7404099071460826,
	"learning_rate": 7.872444444444445e-06,
	"loss": 2.5213,
	"step": 14575
	},
	{
	"epoch": 0.292,
	"grad_norm": 2.1088011783758214,
	"learning_rate": 7.86688888888889e-06,
	"loss": 2.5291,
	"step": 14600
	},
	{
	"epoch": 0.292,
	"eval_loss": 2.526817798614502,
	"eval_runtime": 42.1137,
	"eval_samples_per_second": 2.47,
	"eval_steps_per_second": 1.235,
	"step": 14600
	},
	{
	"epoch": 0.2925,
	"grad_norm": 1.9191582836450942,
	"learning_rate": 7.861333333333334e-06,
	"loss": 2.5136,
	"step": 14625
	},
	{
	"epoch": 0.293,
	"grad_norm": 2.170187142648467,
	"learning_rate": 7.855777777777779e-06,
	"loss": 2.5154,
	"step": 14650
	},
	{
	"epoch": 0.2935,
	"grad_norm": 2.1827849490324818,
	"learning_rate": 7.850222222222223e-06,
	"loss": 2.5148,
	"step": 14675
	},
	{
	"epoch": 0.294,
	"grad_norm": 1.8889045711310728,
	"learning_rate": 7.844666666666668e-06,
	"loss": 2.5243,
	"step": 14700
	},
	{
	"epoch": 0.294,
	"eval_loss": 2.524789571762085,
	"eval_runtime": 42.2043,
	"eval_samples_per_second": 2.464,
	"eval_steps_per_second": 1.232,
	"step": 14700
	},
	{
	"epoch": 0.2945,
	"grad_norm": 2.300765480762392,
	"learning_rate": 7.839111111111111e-06,
	"loss": 2.5113,
	"step": 14725
	},
	{
	"epoch": 0.295,
	"grad_norm": 1.8592375512863117,
	"learning_rate": 7.833555555555557e-06,
	"loss": 2.5035,
	"step": 14750
	},
	{
	"epoch": 0.2955,
	"grad_norm": 2.1320059866269947,
	"learning_rate": 7.828000000000002e-06,
	"loss": 2.5211,
	"step": 14775
	},
	{
	"epoch": 0.296,
	"grad_norm": 2.092097277863368,
	"learning_rate": 7.822444444444446e-06,
	"loss": 2.5317,
	"step": 14800
	},
	{
	"epoch": 0.296,
	"eval_loss": 2.525165319442749,
	"eval_runtime": 42.1155,
	"eval_samples_per_second": 2.469,
	"eval_steps_per_second": 1.235,
	"step": 14800
	},
	{
	"epoch": 0.2965,
	"grad_norm": 1.7110558968692005,
	"learning_rate": 7.816888888888889e-06,
	"loss": 2.5205,
	"step": 14825
	},
	{
	"epoch": 0.297,
	"grad_norm": 1.8877376829331443,
	"learning_rate": 7.811333333333334e-06,
	"loss": 2.5233,
	"step": 14850
	},
	{
	"epoch": 0.2975,
	"grad_norm": 1.8557712187316577,
	"learning_rate": 7.80577777777778e-06,
	"loss": 2.5174,
	"step": 14875
	},
	{
	"epoch": 0.298,
	"grad_norm": 2.9009616943521617,
	"learning_rate": 7.800222222222223e-06,
	"loss": 2.5193,
	"step": 14900
	},
	{
	"epoch": 0.298,
	"eval_loss": 2.523963451385498,
	"eval_runtime": 41.9998,
	"eval_samples_per_second": 2.476,
	"eval_steps_per_second": 1.238,
	"step": 14900
	},
	{
	"epoch": 0.2985,
	"grad_norm": 1.9360195788547445,
	"learning_rate": 7.794666666666667e-06,
	"loss": 2.5162,
	"step": 14925
	},
	{
	"epoch": 0.299,
	"grad_norm": 1.7031958167435228,
	"learning_rate": 7.789111111111112e-06,
	"loss": 2.5234,
	"step": 14950
	},
	{
	"epoch": 0.2995,
	"grad_norm": 1.993394395232149,
	"learning_rate": 7.783555555555557e-06,
	"loss": 2.511,
	"step": 14975
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.830102522975684,
	"learning_rate": 7.778e-06,
	"loss": 2.5105,
	"step": 15000
	},
	{
	"epoch": 0.3,
	"eval_loss": 2.524489164352417,
	"eval_runtime": 41.9815,
	"eval_samples_per_second": 2.477,
	"eval_steps_per_second": 1.239,
	"step": 15000
	}
	],
	"logging_steps": 25,
	"max_steps": 50000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.3663290334118937e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}