Centrum-Large / trainer_state.json

Ratish Puduppully

initial commit

edd0ba2 almost 2 years ago

160 kB

	{
	"best_metric": 3.329162836074829,
	"best_model_checkpoint": "/home/co-jai1/rds/hpc-work/centrum_data/data/pretrain-mds/led_pretrain/ver2/gen_model/Centrum_pretrain_large_14-10-22.1/checkpoint-53000",
	"epoch": 9.269546276127357,
	"global_step": 100000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.0,
	"loss": 8.1075,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 2.76e-07,
	"loss": 6.8242,
	"step": 100
	},
	{
	"epoch": 0.02,
	"learning_rate": 5.76e-07,
	"loss": 4.5884,
	"step": 200
	},
	{
	"epoch": 0.03,
	"learning_rate": 8.760000000000001e-07,
	"loss": 3.9591,
	"step": 300
	},
	{
	"epoch": 0.04,
	"learning_rate": 1.176e-06,
	"loss": 3.8298,
	"step": 400
	},
	{
	"epoch": 0.05,
	"learning_rate": 1.4760000000000001e-06,
	"loss": 3.7884,
	"step": 500
	},
	{
	"epoch": 0.05,
	"eval_loss": 3.705399990081787,
	"eval_runtime": 59.1455,
	"eval_samples_per_second": 42.641,
	"eval_steps_per_second": 2.671,
	"step": 500
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.776e-06,
	"loss": 3.7317,
	"step": 600
	},
	{
	"epoch": 0.06,
	"learning_rate": 2.076e-06,
	"loss": 3.7274,
	"step": 700
	},
	{
	"epoch": 0.07,
	"learning_rate": 2.376e-06,
	"loss": 3.6931,
	"step": 800
	},
	{
	"epoch": 0.08,
	"learning_rate": 2.6760000000000003e-06,
	"loss": 3.6789,
	"step": 900
	},
	{
	"epoch": 0.09,
	"learning_rate": 2.976e-06,
	"loss": 3.6593,
	"step": 1000
	},
	{
	"epoch": 0.09,
	"eval_loss": 3.6244819164276123,
	"eval_runtime": 58.8782,
	"eval_samples_per_second": 42.834,
	"eval_steps_per_second": 2.684,
	"step": 1000
	},
	{
	"epoch": 0.1,
	"learning_rate": 3.276e-06,
	"loss": 3.6589,
	"step": 1100
	},
	{
	"epoch": 0.11,
	"learning_rate": 3.576e-06,
	"loss": 3.6512,
	"step": 1200
	},
	{
	"epoch": 0.12,
	"learning_rate": 3.876000000000001e-06,
	"loss": 3.6294,
	"step": 1300
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.1759999999999995e-06,
	"loss": 3.6359,
	"step": 1400
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.476e-06,
	"loss": 3.6425,
	"step": 1500
	},
	{
	"epoch": 0.14,
	"eval_loss": 3.5840981006622314,
	"eval_runtime": 58.8851,
	"eval_samples_per_second": 42.829,
	"eval_steps_per_second": 2.683,
	"step": 1500
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.7760000000000005e-06,
	"loss": 3.6218,
	"step": 1600
	},
	{
	"epoch": 0.16,
	"learning_rate": 5.076e-06,
	"loss": 3.5919,
	"step": 1700
	},
	{
	"epoch": 0.17,
	"learning_rate": 5.376e-06,
	"loss": 3.6104,
	"step": 1800
	},
	{
	"epoch": 0.18,
	"learning_rate": 5.676e-06,
	"loss": 3.5892,
	"step": 1900
	},
	{
	"epoch": 0.19,
	"learning_rate": 5.976e-06,
	"loss": 3.6008,
	"step": 2000
	},
	{
	"epoch": 0.19,
	"eval_loss": 3.5560660362243652,
	"eval_runtime": 58.9012,
	"eval_samples_per_second": 42.817,
	"eval_steps_per_second": 2.682,
	"step": 2000
	},
	{
	"epoch": 0.19,
	"learning_rate": 6.276e-06,
	"loss": 3.5975,
	"step": 2100
	},
	{
	"epoch": 0.2,
	"learning_rate": 6.576e-06,
	"loss": 3.5712,
	"step": 2200
	},
	{
	"epoch": 0.21,
	"learning_rate": 6.876e-06,
	"loss": 3.5795,
	"step": 2300
	},
	{
	"epoch": 0.22,
	"learning_rate": 7.176e-06,
	"loss": 3.5798,
	"step": 2400
	},
	{
	"epoch": 0.23,
	"learning_rate": 7.476e-06,
	"loss": 3.5645,
	"step": 2500
	},
	{
	"epoch": 0.23,
	"eval_loss": 3.537152051925659,
	"eval_runtime": 58.6809,
	"eval_samples_per_second": 42.978,
	"eval_steps_per_second": 2.693,
	"step": 2500
	},
	{
	"epoch": 0.24,
	"learning_rate": 7.776e-06,
	"loss": 3.577,
	"step": 2600
	},
	{
	"epoch": 0.25,
	"learning_rate": 8.076e-06,
	"loss": 3.5629,
	"step": 2700
	},
	{
	"epoch": 0.26,
	"learning_rate": 8.376e-06,
	"loss": 3.5407,
	"step": 2800
	},
	{
	"epoch": 0.27,
	"learning_rate": 8.676000000000001e-06,
	"loss": 3.5578,
	"step": 2900
	},
	{
	"epoch": 0.28,
	"learning_rate": 8.976e-06,
	"loss": 3.568,
	"step": 3000
	},
	{
	"epoch": 0.28,
	"eval_loss": 3.518704891204834,
	"eval_runtime": 58.8663,
	"eval_samples_per_second": 42.843,
	"eval_steps_per_second": 2.684,
	"step": 3000
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.275999999999999e-06,
	"loss": 3.5412,
	"step": 3100
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.576e-06,
	"loss": 3.5491,
	"step": 3200
	},
	{
	"epoch": 0.31,
	"learning_rate": 9.876e-06,
	"loss": 3.5435,
	"step": 3300
	},
	{
	"epoch": 0.32,
	"learning_rate": 1.0176e-05,
	"loss": 3.5421,
	"step": 3400
	},
	{
	"epoch": 0.32,
	"learning_rate": 1.0476000000000001e-05,
	"loss": 3.5408,
	"step": 3500
	},
	{
	"epoch": 0.32,
	"eval_loss": 3.50453782081604,
	"eval_runtime": 58.8363,
	"eval_samples_per_second": 42.865,
	"eval_steps_per_second": 2.685,
	"step": 3500
	},
	{
	"epoch": 0.33,
	"learning_rate": 1.0776000000000002e-05,
	"loss": 3.525,
	"step": 3600
	},
	{
	"epoch": 0.34,
	"learning_rate": 1.1075999999999999e-05,
	"loss": 3.5171,
	"step": 3700
	},
	{
	"epoch": 0.35,
	"learning_rate": 1.1376e-05,
	"loss": 3.5247,
	"step": 3800
	},
	{
	"epoch": 0.36,
	"learning_rate": 1.1676e-05,
	"loss": 3.5076,
	"step": 3900
	},
	{
	"epoch": 0.37,
	"learning_rate": 1.1976e-05,
	"loss": 3.5447,
	"step": 4000
	},
	{
	"epoch": 0.37,
	"eval_loss": 3.4950661659240723,
	"eval_runtime": 58.7353,
	"eval_samples_per_second": 42.938,
	"eval_steps_per_second": 2.69,
	"step": 4000
	},
	{
	"epoch": 0.38,
	"learning_rate": 1.2276e-05,
	"loss": 3.5166,
	"step": 4100
	},
	{
	"epoch": 0.39,
	"learning_rate": 1.2576000000000001e-05,
	"loss": 3.5147,
	"step": 4200
	},
	{
	"epoch": 0.4,
	"learning_rate": 1.2876000000000002e-05,
	"loss": 3.5393,
	"step": 4300
	},
	{
	"epoch": 0.41,
	"learning_rate": 1.3175999999999999e-05,
	"loss": 3.5461,
	"step": 4400
	},
	{
	"epoch": 0.42,
	"learning_rate": 1.3476e-05,
	"loss": 3.5324,
	"step": 4500
	},
	{
	"epoch": 0.42,
	"eval_loss": 3.4844582080841064,
	"eval_runtime": 59.0772,
	"eval_samples_per_second": 42.69,
	"eval_steps_per_second": 2.674,
	"step": 4500
	},
	{
	"epoch": 0.43,
	"learning_rate": 1.3776e-05,
	"loss": 3.5082,
	"step": 4600
	},
	{
	"epoch": 0.44,
	"learning_rate": 1.4076e-05,
	"loss": 3.5301,
	"step": 4700
	},
	{
	"epoch": 0.44,
	"learning_rate": 1.4376000000000001e-05,
	"loss": 3.5261,
	"step": 4800
	},
	{
	"epoch": 0.45,
	"learning_rate": 1.4676000000000001e-05,
	"loss": 3.5039,
	"step": 4900
	},
	{
	"epoch": 0.46,
	"learning_rate": 1.4976e-05,
	"loss": 3.5192,
	"step": 5000
	},
	{
	"epoch": 0.46,
	"eval_loss": 3.4739058017730713,
	"eval_runtime": 58.8272,
	"eval_samples_per_second": 42.871,
	"eval_steps_per_second": 2.686,
	"step": 5000
	},
	{
	"epoch": 0.47,
	"learning_rate": 1.5276e-05,
	"loss": 3.5005,
	"step": 5100
	},
	{
	"epoch": 0.48,
	"learning_rate": 1.5576e-05,
	"loss": 3.4897,
	"step": 5200
	},
	{
	"epoch": 0.49,
	"learning_rate": 1.5876000000000002e-05,
	"loss": 3.4819,
	"step": 5300
	},
	{
	"epoch": 0.5,
	"learning_rate": 1.6176000000000002e-05,
	"loss": 3.4951,
	"step": 5400
	},
	{
	"epoch": 0.51,
	"learning_rate": 1.6476e-05,
	"loss": 3.4841,
	"step": 5500
	},
	{
	"epoch": 0.51,
	"eval_loss": 3.4683852195739746,
	"eval_runtime": 58.8445,
	"eval_samples_per_second": 42.859,
	"eval_steps_per_second": 2.685,
	"step": 5500
	},
	{
	"epoch": 0.52,
	"learning_rate": 1.6776e-05,
	"loss": 3.4991,
	"step": 5600
	},
	{
	"epoch": 0.53,
	"learning_rate": 1.7076e-05,
	"loss": 3.4948,
	"step": 5700
	},
	{
	"epoch": 0.54,
	"learning_rate": 1.7376e-05,
	"loss": 3.4983,
	"step": 5800
	},
	{
	"epoch": 0.55,
	"learning_rate": 1.7675999999999998e-05,
	"loss": 3.476,
	"step": 5900
	},
	{
	"epoch": 0.56,
	"learning_rate": 1.7976e-05,
	"loss": 3.4703,
	"step": 6000
	},
	{
	"epoch": 0.56,
	"eval_loss": 3.460430145263672,
	"eval_runtime": 58.508,
	"eval_samples_per_second": 43.105,
	"eval_steps_per_second": 2.7,
	"step": 6000
	},
	{
	"epoch": 0.57,
	"learning_rate": 1.8276e-05,
	"loss": 3.488,
	"step": 6100
	},
	{
	"epoch": 0.57,
	"learning_rate": 1.8576e-05,
	"loss": 3.485,
	"step": 6200
	},
	{
	"epoch": 0.58,
	"learning_rate": 1.8876e-05,
	"loss": 3.4885,
	"step": 6300
	},
	{
	"epoch": 0.59,
	"learning_rate": 1.9176e-05,
	"loss": 3.4629,
	"step": 6400
	},
	{
	"epoch": 0.6,
	"learning_rate": 1.9476e-05,
	"loss": 3.4759,
	"step": 6500
	},
	{
	"epoch": 0.6,
	"eval_loss": 3.4534072875976562,
	"eval_runtime": 58.488,
	"eval_samples_per_second": 43.12,
	"eval_steps_per_second": 2.701,
	"step": 6500
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9776000000000002e-05,
	"loss": 3.4589,
	"step": 6600
	},
	{
	"epoch": 0.62,
	"learning_rate": 2.0076000000000002e-05,
	"loss": 3.452,
	"step": 6700
	},
	{
	"epoch": 0.63,
	"learning_rate": 2.0376000000000003e-05,
	"loss": 3.4716,
	"step": 6800
	},
	{
	"epoch": 0.64,
	"learning_rate": 2.0676e-05,
	"loss": 3.4735,
	"step": 6900
	},
	{
	"epoch": 0.65,
	"learning_rate": 2.0976e-05,
	"loss": 3.4647,
	"step": 7000
	},
	{
	"epoch": 0.65,
	"eval_loss": 3.447575807571411,
	"eval_runtime": 58.5671,
	"eval_samples_per_second": 43.062,
	"eval_steps_per_second": 2.698,
	"step": 7000
	},
	{
	"epoch": 0.66,
	"learning_rate": 2.1276e-05,
	"loss": 3.4624,
	"step": 7100
	},
	{
	"epoch": 0.67,
	"learning_rate": 2.1575999999999998e-05,
	"loss": 3.4752,
	"step": 7200
	},
	{
	"epoch": 0.68,
	"learning_rate": 2.1876e-05,
	"loss": 3.4806,
	"step": 7300
	},
	{
	"epoch": 0.69,
	"learning_rate": 2.2176e-05,
	"loss": 3.4535,
	"step": 7400
	},
	{
	"epoch": 0.7,
	"learning_rate": 2.2476e-05,
	"loss": 3.4726,
	"step": 7500
	},
	{
	"epoch": 0.7,
	"eval_loss": 3.4399240016937256,
	"eval_runtime": 58.4479,
	"eval_samples_per_second": 43.15,
	"eval_steps_per_second": 2.703,
	"step": 7500
	},
	{
	"epoch": 0.7,
	"learning_rate": 2.2776e-05,
	"loss": 3.4505,
	"step": 7600
	},
	{
	"epoch": 0.71,
	"learning_rate": 2.3076e-05,
	"loss": 3.4571,
	"step": 7700
	},
	{
	"epoch": 0.72,
	"learning_rate": 2.3376e-05,
	"loss": 3.4598,
	"step": 7800
	},
	{
	"epoch": 0.73,
	"learning_rate": 2.3676e-05,
	"loss": 3.4667,
	"step": 7900
	},
	{
	"epoch": 0.74,
	"learning_rate": 2.3976000000000002e-05,
	"loss": 3.4522,
	"step": 8000
	},
	{
	"epoch": 0.74,
	"eval_loss": 3.4332351684570312,
	"eval_runtime": 58.3316,
	"eval_samples_per_second": 43.236,
	"eval_steps_per_second": 2.709,
	"step": 8000
	},
	{
	"epoch": 0.75,
	"learning_rate": 2.4276000000000003e-05,
	"loss": 3.4544,
	"step": 8100
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.4573000000000003e-05,
	"loss": 3.4492,
	"step": 8200
	},
	{
	"epoch": 0.77,
	"learning_rate": 2.4873e-05,
	"loss": 3.4446,
	"step": 8300
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.5172999999999998e-05,
	"loss": 3.4589,
	"step": 8400
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.5472999999999998e-05,
	"loss": 3.4454,
	"step": 8500
	},
	{
	"epoch": 0.79,
	"eval_loss": 3.4277095794677734,
	"eval_runtime": 59.3257,
	"eval_samples_per_second": 42.511,
	"eval_steps_per_second": 2.663,
	"step": 8500
	},
	{
	"epoch": 0.8,
	"learning_rate": 2.5773e-05,
	"loss": 3.4594,
	"step": 8600
	},
	{
	"epoch": 0.81,
	"learning_rate": 2.6073e-05,
	"loss": 3.4395,
	"step": 8700
	},
	{
	"epoch": 0.82,
	"learning_rate": 2.6373e-05,
	"loss": 3.4521,
	"step": 8800
	},
	{
	"epoch": 0.82,
	"learning_rate": 2.6673e-05,
	"loss": 3.4483,
	"step": 8900
	},
	{
	"epoch": 0.83,
	"learning_rate": 2.697e-05,
	"loss": 3.4281,
	"step": 9000
	},
	{
	"epoch": 0.83,
	"eval_loss": 3.4228808879852295,
	"eval_runtime": 58.5607,
	"eval_samples_per_second": 43.066,
	"eval_steps_per_second": 2.698,
	"step": 9000
	},
	{
	"epoch": 0.84,
	"learning_rate": 2.727e-05,
	"loss": 3.4613,
	"step": 9100
	},
	{
	"epoch": 0.85,
	"learning_rate": 2.7570000000000002e-05,
	"loss": 3.4163,
	"step": 9200
	},
	{
	"epoch": 0.86,
	"learning_rate": 2.7870000000000003e-05,
	"loss": 3.4439,
	"step": 9300
	},
	{
	"epoch": 0.87,
	"learning_rate": 2.817e-05,
	"loss": 3.4408,
	"step": 9400
	},
	{
	"epoch": 0.88,
	"learning_rate": 2.847e-05,
	"loss": 3.4341,
	"step": 9500
	},
	{
	"epoch": 0.88,
	"eval_loss": 3.417263984680176,
	"eval_runtime": 58.4694,
	"eval_samples_per_second": 43.134,
	"eval_steps_per_second": 2.702,
	"step": 9500
	},
	{
	"epoch": 0.89,
	"learning_rate": 2.877e-05,
	"loss": 3.4228,
	"step": 9600
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.907e-05,
	"loss": 3.4255,
	"step": 9700
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.9370000000000002e-05,
	"loss": 3.4118,
	"step": 9800
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.967e-05,
	"loss": 3.4116,
	"step": 9900
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.997e-05,
	"loss": 3.4563,
	"step": 10000
	},
	{
	"epoch": 0.93,
	"eval_loss": 3.4161062240600586,
	"eval_runtime": 58.6507,
	"eval_samples_per_second": 43.0,
	"eval_steps_per_second": 2.694,
	"step": 10000
	},
	{
	"epoch": 0.94,
	"learning_rate": 2.997e-05,
	"loss": 3.4314,
	"step": 10100
	},
	{
	"epoch": 0.95,
	"learning_rate": 2.9936666666666667e-05,
	"loss": 3.4177,
	"step": 10200
	},
	{
	"epoch": 0.95,
	"learning_rate": 2.9903333333333332e-05,
	"loss": 3.4183,
	"step": 10300
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.987e-05,
	"loss": 3.4267,
	"step": 10400
	},
	{
	"epoch": 0.97,
	"learning_rate": 2.9836666666666665e-05,
	"loss": 3.4188,
	"step": 10500
	},
	{
	"epoch": 0.97,
	"eval_loss": 3.4094197750091553,
	"eval_runtime": 58.6526,
	"eval_samples_per_second": 42.999,
	"eval_steps_per_second": 2.694,
	"step": 10500
	},
	{
	"epoch": 0.98,
	"learning_rate": 2.9803333333333333e-05,
	"loss": 3.4138,
	"step": 10600
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.9769999999999998e-05,
	"loss": 3.4117,
	"step": 10700
	},
	{
	"epoch": 1.0,
	"learning_rate": 2.9736666666666666e-05,
	"loss": 3.4366,
	"step": 10800
	},
	{
	"epoch": 1.01,
	"learning_rate": 2.9703666666666668e-05,
	"loss": 3.3619,
	"step": 10900
	},
	{
	"epoch": 1.02,
	"learning_rate": 2.9670333333333333e-05,
	"loss": 3.3967,
	"step": 11000
	},
	{
	"epoch": 1.02,
	"eval_loss": 3.4123129844665527,
	"eval_runtime": 58.4581,
	"eval_samples_per_second": 43.142,
	"eval_steps_per_second": 2.703,
	"step": 11000
	},
	{
	"epoch": 1.03,
	"learning_rate": 2.9637e-05,
	"loss": 3.3574,
	"step": 11100
	},
	{
	"epoch": 1.04,
	"learning_rate": 2.960366666666667e-05,
	"loss": 3.3801,
	"step": 11200
	},
	{
	"epoch": 1.05,
	"learning_rate": 2.9570333333333334e-05,
	"loss": 3.3837,
	"step": 11300
	},
	{
	"epoch": 1.06,
	"learning_rate": 2.9537000000000002e-05,
	"loss": 3.3561,
	"step": 11400
	},
	{
	"epoch": 1.07,
	"learning_rate": 2.9503666666666667e-05,
	"loss": 3.3647,
	"step": 11500
	},
	{
	"epoch": 1.07,
	"eval_loss": 3.4061245918273926,
	"eval_runtime": 58.5572,
	"eval_samples_per_second": 43.069,
	"eval_steps_per_second": 2.698,
	"step": 11500
	},
	{
	"epoch": 1.08,
	"learning_rate": 2.9470333333333335e-05,
	"loss": 3.3754,
	"step": 11600
	},
	{
	"epoch": 1.08,
	"learning_rate": 2.9437e-05,
	"loss": 3.372,
	"step": 11700
	},
	{
	"epoch": 1.09,
	"learning_rate": 2.9403666666666668e-05,
	"loss": 3.3672,
	"step": 11800
	},
	{
	"epoch": 1.1,
	"learning_rate": 2.9370333333333336e-05,
	"loss": 3.3817,
	"step": 11900
	},
	{
	"epoch": 1.11,
	"learning_rate": 2.9337e-05,
	"loss": 3.3604,
	"step": 12000
	},
	{
	"epoch": 1.11,
	"eval_loss": 3.4010612964630127,
	"eval_runtime": 58.3021,
	"eval_samples_per_second": 43.257,
	"eval_steps_per_second": 2.71,
	"step": 12000
	},
	{
	"epoch": 1.12,
	"learning_rate": 2.930366666666667e-05,
	"loss": 3.355,
	"step": 12100
	},
	{
	"epoch": 1.13,
	"learning_rate": 2.9270333333333333e-05,
	"loss": 3.367,
	"step": 12200
	},
	{
	"epoch": 1.14,
	"learning_rate": 2.9237e-05,
	"loss": 3.3564,
	"step": 12300
	},
	{
	"epoch": 1.15,
	"learning_rate": 2.9203666666666666e-05,
	"loss": 3.3652,
	"step": 12400
	},
	{
	"epoch": 1.16,
	"learning_rate": 2.9170333333333334e-05,
	"loss": 3.3662,
	"step": 12500
	},
	{
	"epoch": 1.16,
	"eval_loss": 3.4011123180389404,
	"eval_runtime": 58.4535,
	"eval_samples_per_second": 43.145,
	"eval_steps_per_second": 2.703,
	"step": 12500
	},
	{
	"epoch": 1.17,
	"learning_rate": 2.9137e-05,
	"loss": 3.3773,
	"step": 12600
	},
	{
	"epoch": 1.18,
	"learning_rate": 2.9103666666666667e-05,
	"loss": 3.3574,
	"step": 12700
	},
	{
	"epoch": 1.19,
	"learning_rate": 2.9070333333333335e-05,
	"loss": 3.3373,
	"step": 12800
	},
	{
	"epoch": 1.2,
	"learning_rate": 2.9037e-05,
	"loss": 3.366,
	"step": 12900
	},
	{
	"epoch": 1.21,
	"learning_rate": 2.9003666666666668e-05,
	"loss": 3.3698,
	"step": 13000
	},
	{
	"epoch": 1.21,
	"eval_loss": 3.3917789459228516,
	"eval_runtime": 58.456,
	"eval_samples_per_second": 43.144,
	"eval_steps_per_second": 2.703,
	"step": 13000
	},
	{
	"epoch": 1.21,
	"learning_rate": 2.8970333333333333e-05,
	"loss": 3.3537,
	"step": 13100
	},
	{
	"epoch": 1.22,
	"learning_rate": 2.8937e-05,
	"loss": 3.356,
	"step": 13200
	},
	{
	"epoch": 1.23,
	"learning_rate": 2.8903666666666666e-05,
	"loss": 3.3748,
	"step": 13300
	},
	{
	"epoch": 1.24,
	"learning_rate": 2.8870666666666668e-05,
	"loss": 3.3568,
	"step": 13400
	},
	{
	"epoch": 1.25,
	"learning_rate": 2.8837333333333336e-05,
	"loss": 3.3558,
	"step": 13500
	},
	{
	"epoch": 1.25,
	"eval_loss": 3.391026496887207,
	"eval_runtime": 58.555,
	"eval_samples_per_second": 43.071,
	"eval_steps_per_second": 2.698,
	"step": 13500
	},
	{
	"epoch": 1.26,
	"learning_rate": 2.8804e-05,
	"loss": 3.3358,
	"step": 13600
	},
	{
	"epoch": 1.27,
	"learning_rate": 2.877066666666667e-05,
	"loss": 3.3519,
	"step": 13700
	},
	{
	"epoch": 1.28,
	"learning_rate": 2.8737333333333337e-05,
	"loss": 3.3782,
	"step": 13800
	},
	{
	"epoch": 1.29,
	"learning_rate": 2.8704e-05,
	"loss": 3.3569,
	"step": 13900
	},
	{
	"epoch": 1.3,
	"learning_rate": 2.867066666666667e-05,
	"loss": 3.3421,
	"step": 14000
	},
	{
	"epoch": 1.3,
	"eval_loss": 3.3890912532806396,
	"eval_runtime": 58.4284,
	"eval_samples_per_second": 43.164,
	"eval_steps_per_second": 2.704,
	"step": 14000
	},
	{
	"epoch": 1.31,
	"learning_rate": 2.8637333333333334e-05,
	"loss": 3.3466,
	"step": 14100
	},
	{
	"epoch": 1.32,
	"learning_rate": 2.8604000000000003e-05,
	"loss": 3.3691,
	"step": 14200
	},
	{
	"epoch": 1.33,
	"learning_rate": 2.8570666666666667e-05,
	"loss": 3.3551,
	"step": 14300
	},
	{
	"epoch": 1.33,
	"learning_rate": 2.8537333333333335e-05,
	"loss": 3.3746,
	"step": 14400
	},
	{
	"epoch": 1.34,
	"learning_rate": 2.8504000000000004e-05,
	"loss": 3.3468,
	"step": 14500
	},
	{
	"epoch": 1.34,
	"eval_loss": 3.389421224594116,
	"eval_runtime": 58.7364,
	"eval_samples_per_second": 42.938,
	"eval_steps_per_second": 2.69,
	"step": 14500
	},
	{
	"epoch": 1.35,
	"learning_rate": 2.8470666666666668e-05,
	"loss": 3.3545,
	"step": 14600
	},
	{
	"epoch": 1.36,
	"learning_rate": 2.8437333333333336e-05,
	"loss": 3.342,
	"step": 14700
	},
	{
	"epoch": 1.37,
	"learning_rate": 2.8404e-05,
	"loss": 3.3597,
	"step": 14800
	},
	{
	"epoch": 1.38,
	"learning_rate": 2.837066666666667e-05,
	"loss": 3.3459,
	"step": 14900
	},
	{
	"epoch": 1.39,
	"learning_rate": 2.8337333333333334e-05,
	"loss": 3.3333,
	"step": 15000
	},
	{
	"epoch": 1.39,
	"eval_loss": 3.381697654724121,
	"eval_runtime": 58.452,
	"eval_samples_per_second": 43.147,
	"eval_steps_per_second": 2.703,
	"step": 15000
	},
	{
	"epoch": 1.4,
	"learning_rate": 2.8304000000000002e-05,
	"loss": 3.3582,
	"step": 15100
	},
	{
	"epoch": 1.41,
	"learning_rate": 2.8270666666666667e-05,
	"loss": 3.3378,
	"step": 15200
	},
	{
	"epoch": 1.42,
	"learning_rate": 2.8237333333333335e-05,
	"loss": 3.3435,
	"step": 15300
	},
	{
	"epoch": 1.43,
	"learning_rate": 2.8204000000000003e-05,
	"loss": 3.3536,
	"step": 15400
	},
	{
	"epoch": 1.44,
	"learning_rate": 2.8170666666666668e-05,
	"loss": 3.3545,
	"step": 15500
	},
	{
	"epoch": 1.44,
	"eval_loss": 3.380300283432007,
	"eval_runtime": 58.434,
	"eval_samples_per_second": 43.16,
	"eval_steps_per_second": 2.704,
	"step": 15500
	},
	{
	"epoch": 1.45,
	"learning_rate": 2.8137333333333336e-05,
	"loss": 3.343,
	"step": 15600
	},
	{
	"epoch": 1.46,
	"learning_rate": 2.8104e-05,
	"loss": 3.3492,
	"step": 15700
	},
	{
	"epoch": 1.46,
	"learning_rate": 2.807066666666667e-05,
	"loss": 3.339,
	"step": 15800
	},
	{
	"epoch": 1.47,
	"learning_rate": 2.8037333333333333e-05,
	"loss": 3.3403,
	"step": 15900
	},
	{
	"epoch": 1.48,
	"learning_rate": 2.8004e-05,
	"loss": 3.3411,
	"step": 16000
	},
	{
	"epoch": 1.48,
	"eval_loss": 3.378385066986084,
	"eval_runtime": 58.3674,
	"eval_samples_per_second": 43.209,
	"eval_steps_per_second": 2.707,
	"step": 16000
	},
	{
	"epoch": 1.49,
	"learning_rate": 2.797066666666667e-05,
	"loss": 3.3512,
	"step": 16100
	},
	{
	"epoch": 1.5,
	"learning_rate": 2.7937333333333334e-05,
	"loss": 3.3313,
	"step": 16200
	},
	{
	"epoch": 1.51,
	"learning_rate": 2.7904000000000003e-05,
	"loss": 3.3308,
	"step": 16300
	},
	{
	"epoch": 1.52,
	"learning_rate": 2.7870666666666667e-05,
	"loss": 3.3396,
	"step": 16400
	},
	{
	"epoch": 1.53,
	"learning_rate": 2.7837333333333335e-05,
	"loss": 3.3338,
	"step": 16500
	},
	{
	"epoch": 1.53,
	"eval_loss": 3.3781661987304688,
	"eval_runtime": 58.4306,
	"eval_samples_per_second": 43.162,
	"eval_steps_per_second": 2.704,
	"step": 16500
	},
	{
	"epoch": 1.54,
	"learning_rate": 2.7804e-05,
	"loss": 3.354,
	"step": 16600
	},
	{
	"epoch": 1.55,
	"learning_rate": 2.7770666666666668e-05,
	"loss": 3.3221,
	"step": 16700
	},
	{
	"epoch": 1.56,
	"learning_rate": 2.7737333333333336e-05,
	"loss": 3.3186,
	"step": 16800
	},
	{
	"epoch": 1.57,
	"learning_rate": 2.7704e-05,
	"loss": 3.3275,
	"step": 16900
	},
	{
	"epoch": 1.58,
	"learning_rate": 2.767066666666667e-05,
	"loss": 3.3354,
	"step": 17000
	},
	{
	"epoch": 1.58,
	"eval_loss": 3.374887704849243,
	"eval_runtime": 58.4831,
	"eval_samples_per_second": 43.124,
	"eval_steps_per_second": 2.702,
	"step": 17000
	},
	{
	"epoch": 1.59,
	"learning_rate": 2.7637333333333334e-05,
	"loss": 3.3307,
	"step": 17100
	},
	{
	"epoch": 1.59,
	"learning_rate": 2.7604000000000002e-05,
	"loss": 3.327,
	"step": 17200
	},
	{
	"epoch": 1.6,
	"learning_rate": 2.7570666666666667e-05,
	"loss": 3.3328,
	"step": 17300
	},
	{
	"epoch": 1.61,
	"learning_rate": 2.7537333333333335e-05,
	"loss": 3.348,
	"step": 17400
	},
	{
	"epoch": 1.62,
	"learning_rate": 2.7504e-05,
	"loss": 3.3341,
	"step": 17500
	},
	{
	"epoch": 1.62,
	"eval_loss": 3.3714194297790527,
	"eval_runtime": 58.8552,
	"eval_samples_per_second": 42.851,
	"eval_steps_per_second": 2.685,
	"step": 17500
	},
	{
	"epoch": 1.63,
	"learning_rate": 2.7470666666666668e-05,
	"loss": 3.3328,
	"step": 17600
	},
	{
	"epoch": 1.64,
	"learning_rate": 2.7437333333333336e-05,
	"loss": 3.3337,
	"step": 17700
	},
	{
	"epoch": 1.65,
	"learning_rate": 2.7404e-05,
	"loss": 3.3318,
	"step": 17800
	},
	{
	"epoch": 1.66,
	"learning_rate": 2.737066666666667e-05,
	"loss": 3.3427,
	"step": 17900
	},
	{
	"epoch": 1.67,
	"learning_rate": 2.7337333333333333e-05,
	"loss": 3.3302,
	"step": 18000
	},
	{
	"epoch": 1.67,
	"eval_loss": 3.367736577987671,
	"eval_runtime": 58.4501,
	"eval_samples_per_second": 43.148,
	"eval_steps_per_second": 2.703,
	"step": 18000
	},
	{
	"epoch": 1.68,
	"learning_rate": 2.7304e-05,
	"loss": 3.3023,
	"step": 18100
	},
	{
	"epoch": 1.69,
	"learning_rate": 2.7270666666666666e-05,
	"loss": 3.3306,
	"step": 18200
	},
	{
	"epoch": 1.7,
	"learning_rate": 2.7237333333333334e-05,
	"loss": 3.3314,
	"step": 18300
	},
	{
	"epoch": 1.71,
	"learning_rate": 2.7204000000000002e-05,
	"loss": 3.3156,
	"step": 18400
	},
	{
	"epoch": 1.71,
	"learning_rate": 2.7170666666666667e-05,
	"loss": 3.3179,
	"step": 18500
	},
	{
	"epoch": 1.71,
	"eval_loss": 3.3658902645111084,
	"eval_runtime": 58.4715,
	"eval_samples_per_second": 43.132,
	"eval_steps_per_second": 2.702,
	"step": 18500
	},
	{
	"epoch": 1.72,
	"learning_rate": 2.7137333333333335e-05,
	"loss": 3.3115,
	"step": 18600
	},
	{
	"epoch": 1.73,
	"learning_rate": 2.7104e-05,
	"loss": 3.3114,
	"step": 18700
	},
	{
	"epoch": 1.74,
	"learning_rate": 2.7070666666666668e-05,
	"loss": 3.3313,
	"step": 18800
	},
	{
	"epoch": 1.75,
	"learning_rate": 2.7037333333333333e-05,
	"loss": 3.3132,
	"step": 18900
	},
	{
	"epoch": 1.76,
	"learning_rate": 2.7004e-05,
	"loss": 3.3381,
	"step": 19000
	},
	{
	"epoch": 1.76,
	"eval_loss": 3.3644754886627197,
	"eval_runtime": 58.4668,
	"eval_samples_per_second": 43.136,
	"eval_steps_per_second": 2.702,
	"step": 19000
	},
	{
	"epoch": 1.77,
	"learning_rate": 2.6970666666666666e-05,
	"loss": 3.3279,
	"step": 19100
	},
	{
	"epoch": 1.78,
	"learning_rate": 2.6937333333333334e-05,
	"loss": 3.3268,
	"step": 19200
	},
	{
	"epoch": 1.79,
	"learning_rate": 2.6904000000000002e-05,
	"loss": 3.3295,
	"step": 19300
	},
	{
	"epoch": 1.8,
	"learning_rate": 2.6870666666666667e-05,
	"loss": 3.3262,
	"step": 19400
	},
	{
	"epoch": 1.81,
	"learning_rate": 2.6837333333333335e-05,
	"loss": 3.3223,
	"step": 19500
	},
	{
	"epoch": 1.81,
	"eval_loss": 3.3619046211242676,
	"eval_runtime": 58.6909,
	"eval_samples_per_second": 42.971,
	"eval_steps_per_second": 2.692,
	"step": 19500
	},
	{
	"epoch": 1.82,
	"learning_rate": 2.6804e-05,
	"loss": 3.301,
	"step": 19600
	},
	{
	"epoch": 1.83,
	"learning_rate": 2.6770666666666668e-05,
	"loss": 3.314,
	"step": 19700
	},
	{
	"epoch": 1.84,
	"learning_rate": 2.6737333333333332e-05,
	"loss": 3.3262,
	"step": 19800
	},
	{
	"epoch": 1.84,
	"learning_rate": 2.6704e-05,
	"loss": 3.323,
	"step": 19900
	},
	{
	"epoch": 1.85,
	"learning_rate": 2.667066666666667e-05,
	"loss": 3.3079,
	"step": 20000
	},
	{
	"epoch": 1.85,
	"eval_loss": 3.359276533126831,
	"eval_runtime": 58.3373,
	"eval_samples_per_second": 43.231,
	"eval_steps_per_second": 2.708,
	"step": 20000
	},
	{
	"epoch": 1.86,
	"learning_rate": 2.6637333333333333e-05,
	"loss": 3.3146,
	"step": 20100
	},
	{
	"epoch": 1.87,
	"learning_rate": 2.6604e-05,
	"loss": 3.3245,
	"step": 20200
	},
	{
	"epoch": 1.88,
	"learning_rate": 2.6570666666666666e-05,
	"loss": 3.3325,
	"step": 20300
	},
	{
	"epoch": 1.89,
	"learning_rate": 2.6537333333333334e-05,
	"loss": 3.3245,
	"step": 20400
	},
	{
	"epoch": 1.9,
	"learning_rate": 2.6504e-05,
	"loss": 3.3156,
	"step": 20500
	},
	{
	"epoch": 1.9,
	"eval_loss": 3.357572078704834,
	"eval_runtime": 58.7259,
	"eval_samples_per_second": 42.945,
	"eval_steps_per_second": 2.69,
	"step": 20500
	},
	{
	"epoch": 1.91,
	"learning_rate": 2.6470666666666667e-05,
	"loss": 3.3022,
	"step": 20600
	},
	{
	"epoch": 1.92,
	"learning_rate": 2.643766666666667e-05,
	"loss": 3.3192,
	"step": 20700
	},
	{
	"epoch": 1.93,
	"learning_rate": 2.6404333333333334e-05,
	"loss": 3.32,
	"step": 20800
	},
	{
	"epoch": 1.94,
	"learning_rate": 2.6371000000000002e-05,
	"loss": 3.3145,
	"step": 20900
	},
	{
	"epoch": 1.95,
	"learning_rate": 2.633766666666667e-05,
	"loss": 3.3056,
	"step": 21000
	},
	{
	"epoch": 1.95,
	"eval_loss": 3.3581552505493164,
	"eval_runtime": 58.4572,
	"eval_samples_per_second": 43.143,
	"eval_steps_per_second": 2.703,
	"step": 21000
	},
	{
	"epoch": 1.96,
	"learning_rate": 2.6304333333333335e-05,
	"loss": 3.3083,
	"step": 21100
	},
	{
	"epoch": 1.97,
	"learning_rate": 2.6271000000000003e-05,
	"loss": 3.3113,
	"step": 21200
	},
	{
	"epoch": 1.97,
	"learning_rate": 2.6237666666666668e-05,
	"loss": 3.3155,
	"step": 21300
	},
	{
	"epoch": 1.98,
	"learning_rate": 2.6204333333333336e-05,
	"loss": 3.3106,
	"step": 21400
	},
	{
	"epoch": 1.99,
	"learning_rate": 2.6171e-05,
	"loss": 3.3117,
	"step": 21500
	},
	{
	"epoch": 1.99,
	"eval_loss": 3.355170488357544,
	"eval_runtime": 58.4459,
	"eval_samples_per_second": 43.151,
	"eval_steps_per_second": 2.703,
	"step": 21500
	},
	{
	"epoch": 2.0,
	"learning_rate": 2.613766666666667e-05,
	"loss": 3.3146,
	"step": 21600
	},
	{
	"epoch": 2.01,
	"learning_rate": 2.6104333333333337e-05,
	"loss": 3.253,
	"step": 21700
	},
	{
	"epoch": 2.02,
	"learning_rate": 2.6071e-05,
	"loss": 3.2346,
	"step": 21800
	},
	{
	"epoch": 2.03,
	"learning_rate": 2.603766666666667e-05,
	"loss": 3.2419,
	"step": 21900
	},
	{
	"epoch": 2.04,
	"learning_rate": 2.6004333333333334e-05,
	"loss": 3.2522,
	"step": 22000
	},
	{
	"epoch": 2.04,
	"eval_loss": 3.355015277862549,
	"eval_runtime": 58.4504,
	"eval_samples_per_second": 43.148,
	"eval_steps_per_second": 2.703,
	"step": 22000
	},
	{
	"epoch": 2.05,
	"learning_rate": 2.5971000000000003e-05,
	"loss": 3.248,
	"step": 22100
	},
	{
	"epoch": 2.06,
	"learning_rate": 2.5937666666666667e-05,
	"loss": 3.2442,
	"step": 22200
	},
	{
	"epoch": 2.07,
	"learning_rate": 2.5904333333333335e-05,
	"loss": 3.2261,
	"step": 22300
	},
	{
	"epoch": 2.08,
	"learning_rate": 2.5871e-05,
	"loss": 3.2503,
	"step": 22400
	},
	{
	"epoch": 2.09,
	"learning_rate": 2.5837666666666668e-05,
	"loss": 3.2522,
	"step": 22500
	},
	{
	"epoch": 2.09,
	"eval_loss": 3.35856032371521,
	"eval_runtime": 58.5385,
	"eval_samples_per_second": 43.083,
	"eval_steps_per_second": 2.699,
	"step": 22500
	},
	{
	"epoch": 2.09,
	"learning_rate": 2.5804333333333336e-05,
	"loss": 3.251,
	"step": 22600
	},
	{
	"epoch": 2.1,
	"learning_rate": 2.5771e-05,
	"loss": 3.2469,
	"step": 22700
	},
	{
	"epoch": 2.11,
	"learning_rate": 2.573766666666667e-05,
	"loss": 3.2493,
	"step": 22800
	},
	{
	"epoch": 2.12,
	"learning_rate": 2.5704333333333334e-05,
	"loss": 3.244,
	"step": 22900
	},
	{
	"epoch": 2.13,
	"learning_rate": 2.5671000000000002e-05,
	"loss": 3.2386,
	"step": 23000
	},
	{
	"epoch": 2.13,
	"eval_loss": 3.3548336029052734,
	"eval_runtime": 58.4398,
	"eval_samples_per_second": 43.156,
	"eval_steps_per_second": 2.704,
	"step": 23000
	},
	{
	"epoch": 2.14,
	"learning_rate": 2.5637666666666667e-05,
	"loss": 3.245,
	"step": 23100
	},
	{
	"epoch": 2.15,
	"learning_rate": 2.5604333333333335e-05,
	"loss": 3.2278,
	"step": 23200
	},
	{
	"epoch": 2.16,
	"learning_rate": 2.5571000000000003e-05,
	"loss": 3.2373,
	"step": 23300
	},
	{
	"epoch": 2.17,
	"learning_rate": 2.5537666666666668e-05,
	"loss": 3.2494,
	"step": 23400
	},
	{
	"epoch": 2.18,
	"learning_rate": 2.5504333333333336e-05,
	"loss": 3.2574,
	"step": 23500
	},
	{
	"epoch": 2.18,
	"eval_loss": 3.3544278144836426,
	"eval_runtime": 58.4519,
	"eval_samples_per_second": 43.147,
	"eval_steps_per_second": 2.703,
	"step": 23500
	},
	{
	"epoch": 2.19,
	"learning_rate": 2.5471e-05,
	"loss": 3.2332,
	"step": 23600
	},
	{
	"epoch": 2.2,
	"learning_rate": 2.543766666666667e-05,
	"loss": 3.246,
	"step": 23700
	},
	{
	"epoch": 2.21,
	"learning_rate": 2.5404333333333333e-05,
	"loss": 3.2394,
	"step": 23800
	},
	{
	"epoch": 2.22,
	"learning_rate": 2.5371e-05,
	"loss": 3.2427,
	"step": 23900
	},
	{
	"epoch": 2.22,
	"learning_rate": 2.5337666666666666e-05,
	"loss": 3.239,
	"step": 24000
	},
	{
	"epoch": 2.22,
	"eval_loss": 3.3566300868988037,
	"eval_runtime": 58.8144,
	"eval_samples_per_second": 42.881,
	"eval_steps_per_second": 2.686,
	"step": 24000
	},
	{
	"epoch": 2.23,
	"learning_rate": 2.5304333333333334e-05,
	"loss": 3.2215,
	"step": 24100
	},
	{
	"epoch": 2.24,
	"learning_rate": 2.5271000000000002e-05,
	"loss": 3.2454,
	"step": 24200
	},
	{
	"epoch": 2.25,
	"learning_rate": 2.5237666666666667e-05,
	"loss": 3.2297,
	"step": 24300
	},
	{
	"epoch": 2.26,
	"learning_rate": 2.5204333333333335e-05,
	"loss": 3.2366,
	"step": 24400
	},
	{
	"epoch": 2.27,
	"learning_rate": 2.5171e-05,
	"loss": 3.2468,
	"step": 24500
	},
	{
	"epoch": 2.27,
	"eval_loss": 3.352820873260498,
	"eval_runtime": 58.4424,
	"eval_samples_per_second": 43.154,
	"eval_steps_per_second": 2.704,
	"step": 24500
	},
	{
	"epoch": 2.28,
	"learning_rate": 2.5137666666666668e-05,
	"loss": 3.2524,
	"step": 24600
	},
	{
	"epoch": 2.29,
	"learning_rate": 2.5104333333333333e-05,
	"loss": 3.2533,
	"step": 24700
	},
	{
	"epoch": 2.3,
	"learning_rate": 2.5071e-05,
	"loss": 3.2291,
	"step": 24800
	},
	{
	"epoch": 2.31,
	"learning_rate": 2.503766666666667e-05,
	"loss": 3.2429,
	"step": 24900
	},
	{
	"epoch": 2.32,
	"learning_rate": 2.5004333333333334e-05,
	"loss": 3.2264,
	"step": 25000
	},
	{
	"epoch": 2.32,
	"eval_loss": 3.3511462211608887,
	"eval_runtime": 58.4628,
	"eval_samples_per_second": 43.139,
	"eval_steps_per_second": 2.703,
	"step": 25000
	},
	{
	"epoch": 2.33,
	"learning_rate": 2.4971000000000002e-05,
	"loss": 3.2242,
	"step": 25100
	},
	{
	"epoch": 2.34,
	"learning_rate": 2.4937666666666667e-05,
	"loss": 3.2563,
	"step": 25200
	},
	{
	"epoch": 2.35,
	"learning_rate": 2.4904333333333335e-05,
	"loss": 3.2223,
	"step": 25300
	},
	{
	"epoch": 2.35,
	"learning_rate": 2.4871e-05,
	"loss": 3.2161,
	"step": 25400
	},
	{
	"epoch": 2.36,
	"learning_rate": 2.4837666666666668e-05,
	"loss": 3.2501,
	"step": 25500
	},
	{
	"epoch": 2.36,
	"eval_loss": 3.3482284545898438,
	"eval_runtime": 58.4232,
	"eval_samples_per_second": 43.168,
	"eval_steps_per_second": 2.704,
	"step": 25500
	},
	{
	"epoch": 2.37,
	"learning_rate": 2.4804333333333336e-05,
	"loss": 3.2389,
	"step": 25600
	},
	{
	"epoch": 2.38,
	"learning_rate": 2.4771e-05,
	"loss": 3.2502,
	"step": 25700
	},
	{
	"epoch": 2.39,
	"learning_rate": 2.4738e-05,
	"loss": 3.2395,
	"step": 25800
	},
	{
	"epoch": 2.4,
	"learning_rate": 2.4704666666666667e-05,
	"loss": 3.222,
	"step": 25900
	},
	{
	"epoch": 2.41,
	"learning_rate": 2.4671666666666666e-05,
	"loss": 3.2204,
	"step": 26000
	},
	{
	"epoch": 2.41,
	"eval_loss": 3.3506267070770264,
	"eval_runtime": 58.4353,
	"eval_samples_per_second": 43.159,
	"eval_steps_per_second": 2.704,
	"step": 26000
	},
	{
	"epoch": 2.42,
	"learning_rate": 2.4638333333333334e-05,
	"loss": 3.2346,
	"step": 26100
	},
	{
	"epoch": 2.43,
	"learning_rate": 2.4605000000000002e-05,
	"loss": 3.2247,
	"step": 26200
	},
	{
	"epoch": 2.44,
	"learning_rate": 2.4571666666666667e-05,
	"loss": 3.2337,
	"step": 26300
	},
	{
	"epoch": 2.45,
	"learning_rate": 2.4538333333333335e-05,
	"loss": 3.2216,
	"step": 26400
	},
	{
	"epoch": 2.46,
	"learning_rate": 2.4505e-05,
	"loss": 3.2302,
	"step": 26500
	},
	{
	"epoch": 2.46,
	"eval_loss": 3.3525521755218506,
	"eval_runtime": 58.508,
	"eval_samples_per_second": 43.105,
	"eval_steps_per_second": 2.7,
	"step": 26500
	},
	{
	"epoch": 2.47,
	"learning_rate": 2.4471666666666668e-05,
	"loss": 3.2433,
	"step": 26600
	},
	{
	"epoch": 2.47,
	"learning_rate": 2.4438333333333333e-05,
	"loss": 3.2586,
	"step": 26700
	},
	{
	"epoch": 2.48,
	"learning_rate": 2.4405e-05,
	"loss": 3.2343,
	"step": 26800
	},
	{
	"epoch": 2.49,
	"learning_rate": 2.437166666666667e-05,
	"loss": 3.2348,
	"step": 26900
	},
	{
	"epoch": 2.5,
	"learning_rate": 2.4338333333333334e-05,
	"loss": 3.2353,
	"step": 27000
	},
	{
	"epoch": 2.5,
	"eval_loss": 3.349168062210083,
	"eval_runtime": 58.3806,
	"eval_samples_per_second": 43.199,
	"eval_steps_per_second": 2.706,
	"step": 27000
	},
	{
	"epoch": 2.51,
	"learning_rate": 2.4305000000000002e-05,
	"loss": 3.2173,
	"step": 27100
	},
	{
	"epoch": 2.52,
	"learning_rate": 2.4271666666666667e-05,
	"loss": 3.2411,
	"step": 27200
	},
	{
	"epoch": 2.53,
	"learning_rate": 2.4238333333333335e-05,
	"loss": 3.2552,
	"step": 27300
	},
	{
	"epoch": 2.54,
	"learning_rate": 2.4205e-05,
	"loss": 3.2479,
	"step": 27400
	},
	{
	"epoch": 2.55,
	"learning_rate": 2.4171666666666668e-05,
	"loss": 3.2494,
	"step": 27500
	},
	{
	"epoch": 2.55,
	"eval_loss": 3.345209836959839,
	"eval_runtime": 58.4348,
	"eval_samples_per_second": 43.159,
	"eval_steps_per_second": 2.704,
	"step": 27500
	},
	{
	"epoch": 2.56,
	"learning_rate": 2.4138333333333336e-05,
	"loss": 3.2397,
	"step": 27600
	},
	{
	"epoch": 2.57,
	"learning_rate": 2.4105e-05,
	"loss": 3.2236,
	"step": 27700
	},
	{
	"epoch": 2.58,
	"learning_rate": 2.407166666666667e-05,
	"loss": 3.2366,
	"step": 27800
	},
	{
	"epoch": 2.59,
	"learning_rate": 2.4038333333333333e-05,
	"loss": 3.2433,
	"step": 27900
	},
	{
	"epoch": 2.6,
	"learning_rate": 2.4005e-05,
	"loss": 3.2423,
	"step": 28000
	},
	{
	"epoch": 2.6,
	"eval_loss": 3.345515012741089,
	"eval_runtime": 58.3332,
	"eval_samples_per_second": 43.234,
	"eval_steps_per_second": 2.709,
	"step": 28000
	},
	{
	"epoch": 2.6,
	"learning_rate": 2.3971666666666666e-05,
	"loss": 3.233,
	"step": 28100
	},
	{
	"epoch": 2.61,
	"learning_rate": 2.3938333333333334e-05,
	"loss": 3.2255,
	"step": 28200
	},
	{
	"epoch": 2.62,
	"learning_rate": 2.3905e-05,
	"loss": 3.2048,
	"step": 28300
	},
	{
	"epoch": 2.63,
	"learning_rate": 2.3871666666666667e-05,
	"loss": 3.2525,
	"step": 28400
	},
	{
	"epoch": 2.64,
	"learning_rate": 2.3838333333333335e-05,
	"loss": 3.2233,
	"step": 28500
	},
	{
	"epoch": 2.64,
	"eval_loss": 3.344694137573242,
	"eval_runtime": 58.4478,
	"eval_samples_per_second": 43.15,
	"eval_steps_per_second": 2.703,
	"step": 28500
	},
	{
	"epoch": 2.65,
	"learning_rate": 2.3805e-05,
	"loss": 3.2285,
	"step": 28600
	},
	{
	"epoch": 2.66,
	"learning_rate": 2.3771666666666668e-05,
	"loss": 3.2532,
	"step": 28700
	},
	{
	"epoch": 2.67,
	"learning_rate": 2.3738333333333333e-05,
	"loss": 3.2325,
	"step": 28800
	},
	{
	"epoch": 2.68,
	"learning_rate": 2.3705e-05,
	"loss": 3.2183,
	"step": 28900
	},
	{
	"epoch": 2.69,
	"learning_rate": 2.3671666666666666e-05,
	"loss": 3.2498,
	"step": 29000
	},
	{
	"epoch": 2.69,
	"eval_loss": 3.342014789581299,
	"eval_runtime": 58.6201,
	"eval_samples_per_second": 43.023,
	"eval_steps_per_second": 2.695,
	"step": 29000
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.3638333333333334e-05,
	"loss": 3.2322,
	"step": 29100
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.3605000000000002e-05,
	"loss": 3.239,
	"step": 29200
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.3571666666666667e-05,
	"loss": 3.2583,
	"step": 29300
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.3538333333333335e-05,
	"loss": 3.2237,
	"step": 29400
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.3505e-05,
	"loss": 3.2175,
	"step": 29500
	},
	{
	"epoch": 2.73,
	"eval_loss": 3.3456621170043945,
	"eval_runtime": 58.4896,
	"eval_samples_per_second": 43.119,
	"eval_steps_per_second": 2.701,
	"step": 29500
	},
	{
	"epoch": 2.74,
	"learning_rate": 2.3471666666666668e-05,
	"loss": 3.2156,
	"step": 29600
	},
	{
	"epoch": 2.75,
	"learning_rate": 2.3438333333333332e-05,
	"loss": 3.2235,
	"step": 29700
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.3405e-05,
	"loss": 3.2362,
	"step": 29800
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.3371666666666665e-05,
	"loss": 3.2287,
	"step": 29900
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.3338333333333333e-05,
	"loss": 3.2398,
	"step": 30000
	},
	{
	"epoch": 2.78,
	"eval_loss": 3.3401825428009033,
	"eval_runtime": 58.5218,
	"eval_samples_per_second": 43.095,
	"eval_steps_per_second": 2.7,
	"step": 30000
	},
	{
	"epoch": 2.79,
	"learning_rate": 2.3305e-05,
	"loss": 3.2275,
	"step": 30100
	},
	{
	"epoch": 2.8,
	"learning_rate": 2.3272000000000004e-05,
	"loss": 3.2379,
	"step": 30200
	},
	{
	"epoch": 2.81,
	"learning_rate": 2.3238666666666668e-05,
	"loss": 3.2222,
	"step": 30300
	},
	{
	"epoch": 2.82,
	"learning_rate": 2.3205333333333336e-05,
	"loss": 3.2317,
	"step": 30400
	},
	{
	"epoch": 2.83,
	"learning_rate": 2.3172e-05,
	"loss": 3.2242,
	"step": 30500
	},
	{
	"epoch": 2.83,
	"eval_loss": 3.34212064743042,
	"eval_runtime": 58.4655,
	"eval_samples_per_second": 43.137,
	"eval_steps_per_second": 2.702,
	"step": 30500
	},
	{
	"epoch": 2.84,
	"learning_rate": 2.313866666666667e-05,
	"loss": 3.2229,
	"step": 30600
	},
	{
	"epoch": 2.85,
	"learning_rate": 2.3105333333333334e-05,
	"loss": 3.2323,
	"step": 30700
	},
	{
	"epoch": 2.85,
	"learning_rate": 2.3072000000000002e-05,
	"loss": 3.2037,
	"step": 30800
	},
	{
	"epoch": 2.86,
	"learning_rate": 2.3038666666666667e-05,
	"loss": 3.2235,
	"step": 30900
	},
	{
	"epoch": 2.87,
	"learning_rate": 2.3005333333333335e-05,
	"loss": 3.2185,
	"step": 31000
	},
	{
	"epoch": 2.87,
	"eval_loss": 3.345749616622925,
	"eval_runtime": 58.7269,
	"eval_samples_per_second": 42.945,
	"eval_steps_per_second": 2.69,
	"step": 31000
	},
	{
	"epoch": 2.88,
	"learning_rate": 2.2972000000000003e-05,
	"loss": 3.2319,
	"step": 31100
	},
	{
	"epoch": 2.89,
	"learning_rate": 2.2938666666666668e-05,
	"loss": 3.2391,
	"step": 31200
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.2905333333333336e-05,
	"loss": 3.2242,
	"step": 31300
	},
	{
	"epoch": 2.91,
	"learning_rate": 2.2872e-05,
	"loss": 3.2279,
	"step": 31400
	},
	{
	"epoch": 2.92,
	"learning_rate": 2.283866666666667e-05,
	"loss": 3.2274,
	"step": 31500
	},
	{
	"epoch": 2.92,
	"eval_loss": 3.3419015407562256,
	"eval_runtime": 58.5701,
	"eval_samples_per_second": 43.06,
	"eval_steps_per_second": 2.698,
	"step": 31500
	},
	{
	"epoch": 2.93,
	"learning_rate": 2.2805333333333333e-05,
	"loss": 3.2312,
	"step": 31600
	},
	{
	"epoch": 2.94,
	"learning_rate": 2.2772e-05,
	"loss": 3.2386,
	"step": 31700
	},
	{
	"epoch": 2.95,
	"learning_rate": 2.273866666666667e-05,
	"loss": 3.2268,
	"step": 31800
	},
	{
	"epoch": 2.96,
	"learning_rate": 2.2705333333333334e-05,
	"loss": 3.2158,
	"step": 31900
	},
	{
	"epoch": 2.97,
	"learning_rate": 2.2672000000000002e-05,
	"loss": 3.2251,
	"step": 32000
	},
	{
	"epoch": 2.97,
	"eval_loss": 3.3449418544769287,
	"eval_runtime": 58.371,
	"eval_samples_per_second": 43.206,
	"eval_steps_per_second": 2.707,
	"step": 32000
	},
	{
	"epoch": 2.98,
	"learning_rate": 2.2638666666666667e-05,
	"loss": 3.2331,
	"step": 32100
	},
	{
	"epoch": 2.98,
	"learning_rate": 2.2605333333333335e-05,
	"loss": 3.2297,
	"step": 32200
	},
	{
	"epoch": 2.99,
	"learning_rate": 2.2572e-05,
	"loss": 3.2088,
	"step": 32300
	},
	{
	"epoch": 3.0,
	"learning_rate": 2.2538666666666668e-05,
	"loss": 3.2195,
	"step": 32400
	},
	{
	"epoch": 3.01,
	"learning_rate": 2.2505333333333336e-05,
	"loss": 3.1507,
	"step": 32500
	},
	{
	"epoch": 3.01,
	"eval_loss": 3.351752281188965,
	"eval_runtime": 58.4614,
	"eval_samples_per_second": 43.14,
	"eval_steps_per_second": 2.703,
	"step": 32500
	},
	{
	"epoch": 3.02,
	"learning_rate": 2.2472e-05,
	"loss": 3.1582,
	"step": 32600
	},
	{
	"epoch": 3.03,
	"learning_rate": 2.243866666666667e-05,
	"loss": 3.1574,
	"step": 32700
	},
	{
	"epoch": 3.04,
	"learning_rate": 2.2405333333333334e-05,
	"loss": 3.1574,
	"step": 32800
	},
	{
	"epoch": 3.05,
	"learning_rate": 2.2372000000000002e-05,
	"loss": 3.1861,
	"step": 32900
	},
	{
	"epoch": 3.06,
	"learning_rate": 2.2339e-05,
	"loss": 3.165,
	"step": 33000
	},
	{
	"epoch": 3.06,
	"eval_loss": 3.3462374210357666,
	"eval_runtime": 59.4393,
	"eval_samples_per_second": 42.43,
	"eval_steps_per_second": 2.658,
	"step": 33000
	},
	{
	"epoch": 3.07,
	"learning_rate": 2.2305666666666665e-05,
	"loss": 3.16,
	"step": 33100
	},
	{
	"epoch": 3.08,
	"learning_rate": 2.2272333333333334e-05,
	"loss": 3.1716,
	"step": 33200
	},
	{
	"epoch": 3.09,
	"learning_rate": 2.2239e-05,
	"loss": 3.1536,
	"step": 33300
	},
	{
	"epoch": 3.1,
	"learning_rate": 2.2205666666666666e-05,
	"loss": 3.1666,
	"step": 33400
	},
	{
	"epoch": 3.11,
	"learning_rate": 2.217233333333333e-05,
	"loss": 3.1512,
	"step": 33500
	},
	{
	"epoch": 3.11,
	"eval_loss": 3.3434484004974365,
	"eval_runtime": 58.442,
	"eval_samples_per_second": 43.154,
	"eval_steps_per_second": 2.704,
	"step": 33500
	},
	{
	"epoch": 3.11,
	"learning_rate": 2.2139e-05,
	"loss": 3.1487,
	"step": 33600
	},
	{
	"epoch": 3.12,
	"learning_rate": 2.2105666666666667e-05,
	"loss": 3.1458,
	"step": 33700
	},
	{
	"epoch": 3.13,
	"learning_rate": 2.2072333333333332e-05,
	"loss": 3.1524,
	"step": 33800
	},
	{
	"epoch": 3.14,
	"learning_rate": 2.2039e-05,
	"loss": 3.1793,
	"step": 33900
	},
	{
	"epoch": 3.15,
	"learning_rate": 2.2005666666666665e-05,
	"loss": 3.1598,
	"step": 34000
	},
	{
	"epoch": 3.15,
	"eval_loss": 3.343330144882202,
	"eval_runtime": 58.3667,
	"eval_samples_per_second": 43.21,
	"eval_steps_per_second": 2.707,
	"step": 34000
	},
	{
	"epoch": 3.16,
	"learning_rate": 2.1972333333333333e-05,
	"loss": 3.1685,
	"step": 34100
	},
	{
	"epoch": 3.17,
	"learning_rate": 2.1938999999999998e-05,
	"loss": 3.1351,
	"step": 34200
	},
	{
	"epoch": 3.18,
	"learning_rate": 2.1905666666666666e-05,
	"loss": 3.171,
	"step": 34300
	},
	{
	"epoch": 3.19,
	"learning_rate": 2.1872333333333334e-05,
	"loss": 3.1512,
	"step": 34400
	},
	{
	"epoch": 3.2,
	"learning_rate": 2.1839e-05,
	"loss": 3.1728,
	"step": 34500
	},
	{
	"epoch": 3.2,
	"eval_loss": 3.3445212841033936,
	"eval_runtime": 58.6682,
	"eval_samples_per_second": 42.988,
	"eval_steps_per_second": 2.693,
	"step": 34500
	},
	{
	"epoch": 3.21,
	"learning_rate": 2.1805666666666667e-05,
	"loss": 3.1721,
	"step": 34600
	},
	{
	"epoch": 3.22,
	"learning_rate": 2.177233333333333e-05,
	"loss": 3.159,
	"step": 34700
	},
	{
	"epoch": 3.23,
	"learning_rate": 2.1739e-05,
	"loss": 3.1729,
	"step": 34800
	},
	{
	"epoch": 3.24,
	"learning_rate": 2.1706000000000002e-05,
	"loss": 3.1727,
	"step": 34900
	},
	{
	"epoch": 3.24,
	"learning_rate": 2.1672666666666667e-05,
	"loss": 3.1838,
	"step": 35000
	},
	{
	"epoch": 3.24,
	"eval_loss": 3.345578908920288,
	"eval_runtime": 58.4239,
	"eval_samples_per_second": 43.167,
	"eval_steps_per_second": 2.704,
	"step": 35000
	},
	{
	"epoch": 3.25,
	"learning_rate": 2.1639333333333335e-05,
	"loss": 3.1701,
	"step": 35100
	},
	{
	"epoch": 3.26,
	"learning_rate": 2.1606e-05,
	"loss": 3.156,
	"step": 35200
	},
	{
	"epoch": 3.27,
	"learning_rate": 2.1572666666666668e-05,
	"loss": 3.1749,
	"step": 35300
	},
	{
	"epoch": 3.28,
	"learning_rate": 2.1539333333333336e-05,
	"loss": 3.1675,
	"step": 35400
	},
	{
	"epoch": 3.29,
	"learning_rate": 2.1506e-05,
	"loss": 3.1649,
	"step": 35500
	},
	{
	"epoch": 3.29,
	"eval_loss": 3.3441596031188965,
	"eval_runtime": 58.5557,
	"eval_samples_per_second": 43.07,
	"eval_steps_per_second": 2.698,
	"step": 35500
	},
	{
	"epoch": 3.3,
	"learning_rate": 2.147266666666667e-05,
	"loss": 3.1617,
	"step": 35600
	},
	{
	"epoch": 3.31,
	"learning_rate": 2.1439333333333333e-05,
	"loss": 3.1796,
	"step": 35700
	},
	{
	"epoch": 3.32,
	"learning_rate": 2.1406e-05,
	"loss": 3.1622,
	"step": 35800
	},
	{
	"epoch": 3.33,
	"learning_rate": 2.1372666666666666e-05,
	"loss": 3.1735,
	"step": 35900
	},
	{
	"epoch": 3.34,
	"learning_rate": 2.1339333333333334e-05,
	"loss": 3.1684,
	"step": 36000
	},
	{
	"epoch": 3.34,
	"eval_loss": 3.340388059616089,
	"eval_runtime": 58.3147,
	"eval_samples_per_second": 43.248,
	"eval_steps_per_second": 2.709,
	"step": 36000
	},
	{
	"epoch": 3.35,
	"learning_rate": 2.1306000000000002e-05,
	"loss": 3.1666,
	"step": 36100
	},
	{
	"epoch": 3.36,
	"learning_rate": 2.1272666666666667e-05,
	"loss": 3.1554,
	"step": 36200
	},
	{
	"epoch": 3.36,
	"learning_rate": 2.1239333333333335e-05,
	"loss": 3.1697,
	"step": 36300
	},
	{
	"epoch": 3.37,
	"learning_rate": 2.1206e-05,
	"loss": 3.1848,
	"step": 36400
	},
	{
	"epoch": 3.38,
	"learning_rate": 2.1172666666666668e-05,
	"loss": 3.1587,
	"step": 36500
	},
	{
	"epoch": 3.38,
	"eval_loss": 3.3406460285186768,
	"eval_runtime": 58.7371,
	"eval_samples_per_second": 42.937,
	"eval_steps_per_second": 2.69,
	"step": 36500
	},
	{
	"epoch": 3.39,
	"learning_rate": 2.1139333333333333e-05,
	"loss": 3.1703,
	"step": 36600
	},
	{
	"epoch": 3.4,
	"learning_rate": 2.1106e-05,
	"loss": 3.1574,
	"step": 36700
	},
	{
	"epoch": 3.41,
	"learning_rate": 2.1072666666666666e-05,
	"loss": 3.1522,
	"step": 36800
	},
	{
	"epoch": 3.42,
	"learning_rate": 2.1039333333333334e-05,
	"loss": 3.1668,
	"step": 36900
	},
	{
	"epoch": 3.43,
	"learning_rate": 2.1006000000000002e-05,
	"loss": 3.1586,
	"step": 37000
	},
	{
	"epoch": 3.43,
	"eval_loss": 3.344248056411743,
	"eval_runtime": 58.4551,
	"eval_samples_per_second": 43.144,
	"eval_steps_per_second": 2.703,
	"step": 37000
	},
	{
	"epoch": 3.44,
	"learning_rate": 2.0972666666666667e-05,
	"loss": 3.1766,
	"step": 37100
	},
	{
	"epoch": 3.45,
	"learning_rate": 2.0939333333333335e-05,
	"loss": 3.1814,
	"step": 37200
	},
	{
	"epoch": 3.46,
	"learning_rate": 2.0906e-05,
	"loss": 3.1741,
	"step": 37300
	},
	{
	"epoch": 3.47,
	"learning_rate": 2.0872666666666668e-05,
	"loss": 3.165,
	"step": 37400
	},
	{
	"epoch": 3.48,
	"learning_rate": 2.0839333333333332e-05,
	"loss": 3.1545,
	"step": 37500
	},
	{
	"epoch": 3.48,
	"eval_loss": 3.3381314277648926,
	"eval_runtime": 58.4574,
	"eval_samples_per_second": 43.143,
	"eval_steps_per_second": 2.703,
	"step": 37500
	},
	{
	"epoch": 3.49,
	"learning_rate": 2.0806333333333334e-05,
	"loss": 3.1562,
	"step": 37600
	},
	{
	"epoch": 3.49,
	"learning_rate": 2.0773000000000003e-05,
	"loss": 3.1382,
	"step": 37700
	},
	{
	"epoch": 3.5,
	"learning_rate": 2.0739666666666667e-05,
	"loss": 3.1522,
	"step": 37800
	},
	{
	"epoch": 3.51,
	"learning_rate": 2.0706333333333335e-05,
	"loss": 3.1535,
	"step": 37900
	},
	{
	"epoch": 3.52,
	"learning_rate": 2.0673000000000003e-05,
	"loss": 3.1674,
	"step": 38000
	},
	{
	"epoch": 3.52,
	"eval_loss": 3.34360671043396,
	"eval_runtime": 58.4709,
	"eval_samples_per_second": 43.133,
	"eval_steps_per_second": 2.702,
	"step": 38000
	},
	{
	"epoch": 3.53,
	"learning_rate": 2.0639666666666668e-05,
	"loss": 3.1724,
	"step": 38100
	},
	{
	"epoch": 3.54,
	"learning_rate": 2.0606333333333336e-05,
	"loss": 3.1802,
	"step": 38200
	},
	{
	"epoch": 3.55,
	"learning_rate": 2.0573e-05,
	"loss": 3.1615,
	"step": 38300
	},
	{
	"epoch": 3.56,
	"learning_rate": 2.053966666666667e-05,
	"loss": 3.1604,
	"step": 38400
	},
	{
	"epoch": 3.57,
	"learning_rate": 2.0506333333333334e-05,
	"loss": 3.1717,
	"step": 38500
	},
	{
	"epoch": 3.57,
	"eval_loss": 3.3373236656188965,
	"eval_runtime": 58.6217,
	"eval_samples_per_second": 43.022,
	"eval_steps_per_second": 2.695,
	"step": 38500
	},
	{
	"epoch": 3.58,
	"learning_rate": 2.0473000000000002e-05,
	"loss": 3.1428,
	"step": 38600
	},
	{
	"epoch": 3.59,
	"learning_rate": 2.043966666666667e-05,
	"loss": 3.1891,
	"step": 38700
	},
	{
	"epoch": 3.6,
	"learning_rate": 2.0406333333333335e-05,
	"loss": 3.181,
	"step": 38800
	},
	{
	"epoch": 3.61,
	"learning_rate": 2.0373000000000003e-05,
	"loss": 3.1619,
	"step": 38900
	},
	{
	"epoch": 3.62,
	"learning_rate": 2.0339666666666668e-05,
	"loss": 3.147,
	"step": 39000
	},
	{
	"epoch": 3.62,
	"eval_loss": 3.3408203125,
	"eval_runtime": 58.5928,
	"eval_samples_per_second": 43.043,
	"eval_steps_per_second": 2.697,
	"step": 39000
	},
	{
	"epoch": 3.62,
	"learning_rate": 2.0306333333333336e-05,
	"loss": 3.1534,
	"step": 39100
	},
	{
	"epoch": 3.63,
	"learning_rate": 2.0273e-05,
	"loss": 3.1521,
	"step": 39200
	},
	{
	"epoch": 3.64,
	"learning_rate": 2.023966666666667e-05,
	"loss": 3.1536,
	"step": 39300
	},
	{
	"epoch": 3.65,
	"learning_rate": 2.0206333333333333e-05,
	"loss": 3.1751,
	"step": 39400
	},
	{
	"epoch": 3.66,
	"learning_rate": 2.0173e-05,
	"loss": 3.1462,
	"step": 39500
	},
	{
	"epoch": 3.66,
	"eval_loss": 3.3374409675598145,
	"eval_runtime": 58.3881,
	"eval_samples_per_second": 43.194,
	"eval_steps_per_second": 2.706,
	"step": 39500
	},
	{
	"epoch": 3.67,
	"learning_rate": 2.013966666666667e-05,
	"loss": 3.1487,
	"step": 39600
	},
	{
	"epoch": 3.68,
	"learning_rate": 2.0106333333333334e-05,
	"loss": 3.1644,
	"step": 39700
	},
	{
	"epoch": 3.69,
	"learning_rate": 2.0073000000000002e-05,
	"loss": 3.161,
	"step": 39800
	},
	{
	"epoch": 3.7,
	"learning_rate": 2.0039666666666667e-05,
	"loss": 3.1541,
	"step": 39900
	},
	{
	"epoch": 3.71,
	"learning_rate": 2.0006666666666666e-05,
	"loss": 3.156,
	"step": 40000
	},
	{
	"epoch": 3.71,
	"eval_loss": 3.338212013244629,
	"eval_runtime": 58.2867,
	"eval_samples_per_second": 43.269,
	"eval_steps_per_second": 2.711,
	"step": 40000
	},
	{
	"epoch": 3.72,
	"learning_rate": 1.9973333333333334e-05,
	"loss": 3.2002,
	"step": 40100
	},
	{
	"epoch": 3.73,
	"learning_rate": 1.994e-05,
	"loss": 3.1627,
	"step": 40200
	},
	{
	"epoch": 3.74,
	"learning_rate": 1.9906666666666667e-05,
	"loss": 3.1381,
	"step": 40300
	},
	{
	"epoch": 3.74,
	"learning_rate": 1.987333333333333e-05,
	"loss": 3.1473,
	"step": 40400
	},
	{
	"epoch": 3.75,
	"learning_rate": 1.984e-05,
	"loss": 3.1354,
	"step": 40500
	},
	{
	"epoch": 3.75,
	"eval_loss": 3.3366310596466064,
	"eval_runtime": 58.4384,
	"eval_samples_per_second": 43.157,
	"eval_steps_per_second": 2.704,
	"step": 40500
	},
	{
	"epoch": 3.76,
	"learning_rate": 1.9806666666666668e-05,
	"loss": 3.1641,
	"step": 40600
	},
	{
	"epoch": 3.77,
	"learning_rate": 1.9773333333333333e-05,
	"loss": 3.1598,
	"step": 40700
	},
	{
	"epoch": 3.78,
	"learning_rate": 1.9740666666666665e-05,
	"loss": 3.1756,
	"step": 40800
	},
	{
	"epoch": 3.79,
	"learning_rate": 1.9707333333333334e-05,
	"loss": 3.1662,
	"step": 40900
	},
	{
	"epoch": 3.8,
	"learning_rate": 1.9674000000000002e-05,
	"loss": 3.1613,
	"step": 41000
	},
	{
	"epoch": 3.8,
	"eval_loss": 3.331742286682129,
	"eval_runtime": 58.4288,
	"eval_samples_per_second": 43.164,
	"eval_steps_per_second": 2.704,
	"step": 41000
	},
	{
	"epoch": 3.81,
	"learning_rate": 1.9640666666666666e-05,
	"loss": 3.1538,
	"step": 41100
	},
	{
	"epoch": 3.82,
	"learning_rate": 1.9607333333333335e-05,
	"loss": 3.1565,
	"step": 41200
	},
	{
	"epoch": 3.83,
	"learning_rate": 1.9574e-05,
	"loss": 3.178,
	"step": 41300
	},
	{
	"epoch": 3.84,
	"learning_rate": 1.9540666666666667e-05,
	"loss": 3.1633,
	"step": 41400
	},
	{
	"epoch": 3.85,
	"learning_rate": 1.9507333333333332e-05,
	"loss": 3.143,
	"step": 41500
	},
	{
	"epoch": 3.85,
	"eval_loss": 3.3347177505493164,
	"eval_runtime": 58.6073,
	"eval_samples_per_second": 43.032,
	"eval_steps_per_second": 2.696,
	"step": 41500
	},
	{
	"epoch": 3.86,
	"learning_rate": 1.9474e-05,
	"loss": 3.1633,
	"step": 41600
	},
	{
	"epoch": 3.87,
	"learning_rate": 1.944066666666667e-05,
	"loss": 3.1441,
	"step": 41700
	},
	{
	"epoch": 3.87,
	"learning_rate": 1.9407333333333333e-05,
	"loss": 3.1551,
	"step": 41800
	},
	{
	"epoch": 3.88,
	"learning_rate": 1.9374e-05,
	"loss": 3.1615,
	"step": 41900
	},
	{
	"epoch": 3.89,
	"learning_rate": 1.9340666666666666e-05,
	"loss": 3.1667,
	"step": 42000
	},
	{
	"epoch": 3.89,
	"eval_loss": 3.3353171348571777,
	"eval_runtime": 58.4495,
	"eval_samples_per_second": 43.148,
	"eval_steps_per_second": 2.703,
	"step": 42000
	},
	{
	"epoch": 3.9,
	"learning_rate": 1.9307333333333334e-05,
	"loss": 3.1426,
	"step": 42100
	},
	{
	"epoch": 3.91,
	"learning_rate": 1.9274e-05,
	"loss": 3.1646,
	"step": 42200
	},
	{
	"epoch": 3.92,
	"learning_rate": 1.9240666666666667e-05,
	"loss": 3.1395,
	"step": 42300
	},
	{
	"epoch": 3.93,
	"learning_rate": 1.920733333333333e-05,
	"loss": 3.1466,
	"step": 42400
	},
	{
	"epoch": 3.94,
	"learning_rate": 1.9174e-05,
	"loss": 3.1597,
	"step": 42500
	},
	{
	"epoch": 3.94,
	"eval_loss": 3.3341054916381836,
	"eval_runtime": 58.441,
	"eval_samples_per_second": 43.155,
	"eval_steps_per_second": 2.704,
	"step": 42500
	},
	{
	"epoch": 3.95,
	"learning_rate": 1.9140666666666668e-05,
	"loss": 3.1653,
	"step": 42600
	},
	{
	"epoch": 3.96,
	"learning_rate": 1.9107333333333333e-05,
	"loss": 3.1732,
	"step": 42700
	},
	{
	"epoch": 3.97,
	"learning_rate": 1.9074e-05,
	"loss": 3.1457,
	"step": 42800
	},
	{
	"epoch": 3.98,
	"learning_rate": 1.9040666666666665e-05,
	"loss": 3.1485,
	"step": 42900
	},
	{
	"epoch": 3.99,
	"learning_rate": 1.9007333333333334e-05,
	"loss": 3.1566,
	"step": 43000
	},
	{
	"epoch": 3.99,
	"eval_loss": 3.3356857299804688,
	"eval_runtime": 59.2807,
	"eval_samples_per_second": 42.543,
	"eval_steps_per_second": 2.665,
	"step": 43000
	},
	{
	"epoch": 4.0,
	"learning_rate": 1.8973999999999998e-05,
	"loss": 3.1463,
	"step": 43100
	},
	{
	"epoch": 4.0,
	"learning_rate": 1.8940666666666666e-05,
	"loss": 3.1458,
	"step": 43200
	},
	{
	"epoch": 4.01,
	"learning_rate": 1.8907333333333334e-05,
	"loss": 3.0823,
	"step": 43300
	},
	{
	"epoch": 4.02,
	"learning_rate": 1.8874e-05,
	"loss": 3.0803,
	"step": 43400
	},
	{
	"epoch": 4.03,
	"learning_rate": 1.8840666666666667e-05,
	"loss": 3.124,
	"step": 43500
	},
	{
	"epoch": 4.03,
	"eval_loss": 3.341010332107544,
	"eval_runtime": 58.5024,
	"eval_samples_per_second": 43.109,
	"eval_steps_per_second": 2.701,
	"step": 43500
	},
	{
	"epoch": 4.04,
	"learning_rate": 1.8807333333333332e-05,
	"loss": 3.1057,
	"step": 43600
	},
	{
	"epoch": 4.05,
	"learning_rate": 1.8774e-05,
	"loss": 3.0944,
	"step": 43700
	},
	{
	"epoch": 4.06,
	"learning_rate": 1.8740666666666665e-05,
	"loss": 3.1209,
	"step": 43800
	},
	{
	"epoch": 4.07,
	"learning_rate": 1.8707333333333333e-05,
	"loss": 3.1035,
	"step": 43900
	},
	{
	"epoch": 4.08,
	"learning_rate": 1.8673999999999998e-05,
	"loss": 3.1035,
	"step": 44000
	},
	{
	"epoch": 4.08,
	"eval_loss": 3.343398332595825,
	"eval_runtime": 58.3747,
	"eval_samples_per_second": 43.204,
	"eval_steps_per_second": 2.707,
	"step": 44000
	},
	{
	"epoch": 4.09,
	"learning_rate": 1.8640666666666666e-05,
	"loss": 3.0894,
	"step": 44100
	},
	{
	"epoch": 4.1,
	"learning_rate": 1.8607333333333334e-05,
	"loss": 3.0968,
	"step": 44200
	},
	{
	"epoch": 4.11,
	"learning_rate": 1.8574e-05,
	"loss": 3.1024,
	"step": 44300
	},
	{
	"epoch": 4.12,
	"learning_rate": 1.8540666666666667e-05,
	"loss": 3.0963,
	"step": 44400
	},
	{
	"epoch": 4.12,
	"learning_rate": 1.850733333333333e-05,
	"loss": 3.0881,
	"step": 44500
	},
	{
	"epoch": 4.12,
	"eval_loss": 3.3410987854003906,
	"eval_runtime": 58.5368,
	"eval_samples_per_second": 43.084,
	"eval_steps_per_second": 2.699,
	"step": 44500
	},
	{
	"epoch": 4.13,
	"learning_rate": 1.8474e-05,
	"loss": 3.103,
	"step": 44600
	},
	{
	"epoch": 4.14,
	"learning_rate": 1.8440666666666664e-05,
	"loss": 3.103,
	"step": 44700
	},
	{
	"epoch": 4.15,
	"learning_rate": 1.8407333333333332e-05,
	"loss": 3.1239,
	"step": 44800
	},
	{
	"epoch": 4.16,
	"learning_rate": 1.8374e-05,
	"loss": 3.0993,
	"step": 44900
	},
	{
	"epoch": 4.17,
	"learning_rate": 1.8340666666666665e-05,
	"loss": 3.1131,
	"step": 45000
	},
	{
	"epoch": 4.17,
	"eval_loss": 3.337921142578125,
	"eval_runtime": 58.4332,
	"eval_samples_per_second": 43.16,
	"eval_steps_per_second": 2.704,
	"step": 45000
	},
	{
	"epoch": 4.18,
	"learning_rate": 1.8307333333333333e-05,
	"loss": 3.1177,
	"step": 45100
	},
	{
	"epoch": 4.19,
	"learning_rate": 1.8273999999999998e-05,
	"loss": 3.0954,
	"step": 45200
	},
	{
	"epoch": 4.2,
	"learning_rate": 1.8240666666666666e-05,
	"loss": 3.0818,
	"step": 45300
	},
	{
	"epoch": 4.21,
	"learning_rate": 1.820733333333333e-05,
	"loss": 3.0917,
	"step": 45400
	},
	{
	"epoch": 4.22,
	"learning_rate": 1.8174e-05,
	"loss": 3.1191,
	"step": 45500
	},
	{
	"epoch": 4.22,
	"eval_loss": 3.3468377590179443,
	"eval_runtime": 58.4445,
	"eval_samples_per_second": 43.152,
	"eval_steps_per_second": 2.703,
	"step": 45500
	},
	{
	"epoch": 4.23,
	"learning_rate": 1.8140666666666667e-05,
	"loss": 3.0945,
	"step": 45600
	},
	{
	"epoch": 4.24,
	"learning_rate": 1.8107333333333332e-05,
	"loss": 3.1235,
	"step": 45700
	},
	{
	"epoch": 4.25,
	"learning_rate": 1.8074e-05,
	"loss": 3.1057,
	"step": 45800
	},
	{
	"epoch": 4.25,
	"learning_rate": 1.8040666666666665e-05,
	"loss": 3.0807,
	"step": 45900
	},
	{
	"epoch": 4.26,
	"learning_rate": 1.8007333333333333e-05,
	"loss": 3.1119,
	"step": 46000
	},
	{
	"epoch": 4.26,
	"eval_loss": 3.335585832595825,
	"eval_runtime": 58.4582,
	"eval_samples_per_second": 43.142,
	"eval_steps_per_second": 2.703,
	"step": 46000
	},
	{
	"epoch": 4.27,
	"learning_rate": 1.7973999999999998e-05,
	"loss": 3.1077,
	"step": 46100
	},
	{
	"epoch": 4.28,
	"learning_rate": 1.7940666666666666e-05,
	"loss": 3.0959,
	"step": 46200
	},
	{
	"epoch": 4.29,
	"learning_rate": 1.7907333333333334e-05,
	"loss": 3.1032,
	"step": 46300
	},
	{
	"epoch": 4.3,
	"learning_rate": 1.7874000000000002e-05,
	"loss": 3.103,
	"step": 46400
	},
	{
	"epoch": 4.31,
	"learning_rate": 1.784066666666667e-05,
	"loss": 3.0957,
	"step": 46500
	},
	{
	"epoch": 4.31,
	"eval_loss": 3.3416850566864014,
	"eval_runtime": 58.4695,
	"eval_samples_per_second": 43.134,
	"eval_steps_per_second": 2.702,
	"step": 46500
	},
	{
	"epoch": 4.32,
	"learning_rate": 1.7807333333333335e-05,
	"loss": 3.1056,
	"step": 46600
	},
	{
	"epoch": 4.33,
	"learning_rate": 1.7774000000000003e-05,
	"loss": 3.103,
	"step": 46700
	},
	{
	"epoch": 4.34,
	"learning_rate": 1.7740666666666668e-05,
	"loss": 3.0961,
	"step": 46800
	},
	{
	"epoch": 4.35,
	"learning_rate": 1.7707333333333336e-05,
	"loss": 3.0986,
	"step": 46900
	},
	{
	"epoch": 4.36,
	"learning_rate": 1.7674e-05,
	"loss": 3.1024,
	"step": 47000
	},
	{
	"epoch": 4.36,
	"eval_loss": 3.3379719257354736,
	"eval_runtime": 58.5154,
	"eval_samples_per_second": 43.1,
	"eval_steps_per_second": 2.7,
	"step": 47000
	},
	{
	"epoch": 4.37,
	"learning_rate": 1.764066666666667e-05,
	"loss": 3.1176,
	"step": 47100
	},
	{
	"epoch": 4.38,
	"learning_rate": 1.7607333333333337e-05,
	"loss": 3.0936,
	"step": 47200
	},
	{
	"epoch": 4.38,
	"learning_rate": 1.7574e-05,
	"loss": 3.0992,
	"step": 47300
	},
	{
	"epoch": 4.39,
	"learning_rate": 1.754066666666667e-05,
	"loss": 3.0908,
	"step": 47400
	},
	{
	"epoch": 4.4,
	"learning_rate": 1.7507333333333334e-05,
	"loss": 3.1141,
	"step": 47500
	},
	{
	"epoch": 4.4,
	"eval_loss": 3.3471622467041016,
	"eval_runtime": 58.4444,
	"eval_samples_per_second": 43.152,
	"eval_steps_per_second": 2.703,
	"step": 47500
	},
	{
	"epoch": 4.41,
	"learning_rate": 1.7474000000000002e-05,
	"loss": 3.1119,
	"step": 47600
	},
	{
	"epoch": 4.42,
	"learning_rate": 1.7440666666666667e-05,
	"loss": 3.1008,
	"step": 47700
	},
	{
	"epoch": 4.43,
	"learning_rate": 1.7407333333333335e-05,
	"loss": 3.109,
	"step": 47800
	},
	{
	"epoch": 4.44,
	"learning_rate": 1.7374000000000003e-05,
	"loss": 3.1021,
	"step": 47900
	},
	{
	"epoch": 4.45,
	"learning_rate": 1.7340666666666668e-05,
	"loss": 3.0851,
	"step": 48000
	},
	{
	"epoch": 4.45,
	"eval_loss": 3.3512518405914307,
	"eval_runtime": 58.3508,
	"eval_samples_per_second": 43.221,
	"eval_steps_per_second": 2.708,
	"step": 48000
	},
	{
	"epoch": 4.46,
	"learning_rate": 1.7307333333333336e-05,
	"loss": 3.1073,
	"step": 48100
	},
	{
	"epoch": 4.47,
	"learning_rate": 1.7274e-05,
	"loss": 3.107,
	"step": 48200
	},
	{
	"epoch": 4.48,
	"learning_rate": 1.724066666666667e-05,
	"loss": 3.11,
	"step": 48300
	},
	{
	"epoch": 4.49,
	"learning_rate": 1.7207333333333334e-05,
	"loss": 3.1085,
	"step": 48400
	},
	{
	"epoch": 4.5,
	"learning_rate": 1.7174000000000002e-05,
	"loss": 3.1252,
	"step": 48500
	},
	{
	"epoch": 4.5,
	"eval_loss": 3.3351025581359863,
	"eval_runtime": 58.4512,
	"eval_samples_per_second": 43.147,
	"eval_steps_per_second": 2.703,
	"step": 48500
	},
	{
	"epoch": 4.5,
	"learning_rate": 1.7141e-05,
	"loss": 3.1155,
	"step": 48600
	},
	{
	"epoch": 4.51,
	"learning_rate": 1.7107666666666665e-05,
	"loss": 3.1084,
	"step": 48700
	},
	{
	"epoch": 4.52,
	"learning_rate": 1.7074333333333334e-05,
	"loss": 3.0872,
	"step": 48800
	},
	{
	"epoch": 4.53,
	"learning_rate": 1.7040999999999998e-05,
	"loss": 3.0981,
	"step": 48900
	},
	{
	"epoch": 4.54,
	"learning_rate": 1.7007666666666666e-05,
	"loss": 3.1125,
	"step": 49000
	},
	{
	"epoch": 4.54,
	"eval_loss": 3.3422746658325195,
	"eval_runtime": 58.476,
	"eval_samples_per_second": 43.129,
	"eval_steps_per_second": 2.702,
	"step": 49000
	},
	{
	"epoch": 4.55,
	"learning_rate": 1.6974333333333335e-05,
	"loss": 3.1125,
	"step": 49100
	},
	{
	"epoch": 4.56,
	"learning_rate": 1.6941e-05,
	"loss": 3.0988,
	"step": 49200
	},
	{
	"epoch": 4.57,
	"learning_rate": 1.6907666666666667e-05,
	"loss": 3.094,
	"step": 49300
	},
	{
	"epoch": 4.58,
	"learning_rate": 1.6874333333333332e-05,
	"loss": 3.1049,
	"step": 49400
	},
	{
	"epoch": 4.59,
	"learning_rate": 1.6841e-05,
	"loss": 3.1019,
	"step": 49500
	},
	{
	"epoch": 4.59,
	"eval_loss": 3.339646339416504,
	"eval_runtime": 58.4354,
	"eval_samples_per_second": 43.159,
	"eval_steps_per_second": 2.704,
	"step": 49500
	},
	{
	"epoch": 4.6,
	"learning_rate": 1.6807666666666665e-05,
	"loss": 3.1008,
	"step": 49600
	},
	{
	"epoch": 4.61,
	"learning_rate": 1.6774333333333333e-05,
	"loss": 3.1002,
	"step": 49700
	},
	{
	"epoch": 4.62,
	"learning_rate": 1.6741e-05,
	"loss": 3.1218,
	"step": 49800
	},
	{
	"epoch": 4.63,
	"learning_rate": 1.6707666666666666e-05,
	"loss": 3.1005,
	"step": 49900
	},
	{
	"epoch": 4.63,
	"learning_rate": 1.6674333333333334e-05,
	"loss": 3.1185,
	"step": 50000
	},
	{
	"epoch": 4.63,
	"eval_loss": 3.334904432296753,
	"eval_runtime": 58.4528,
	"eval_samples_per_second": 43.146,
	"eval_steps_per_second": 2.703,
	"step": 50000
	},
	{
	"epoch": 4.64,
	"learning_rate": 1.6641e-05,
	"loss": 3.1012,
	"step": 50100
	},
	{
	"epoch": 4.65,
	"learning_rate": 1.6607666666666667e-05,
	"loss": 3.1011,
	"step": 50200
	},
	{
	"epoch": 4.66,
	"learning_rate": 1.657433333333333e-05,
	"loss": 3.1148,
	"step": 50300
	},
	{
	"epoch": 4.67,
	"learning_rate": 1.6541e-05,
	"loss": 3.1217,
	"step": 50400
	},
	{
	"epoch": 4.68,
	"learning_rate": 1.6507666666666668e-05,
	"loss": 3.1042,
	"step": 50500
	},
	{
	"epoch": 4.68,
	"eval_loss": 3.3350272178649902,
	"eval_runtime": 58.4302,
	"eval_samples_per_second": 43.163,
	"eval_steps_per_second": 2.704,
	"step": 50500
	},
	{
	"epoch": 4.69,
	"learning_rate": 1.6474333333333333e-05,
	"loss": 3.0853,
	"step": 50600
	},
	{
	"epoch": 4.7,
	"learning_rate": 1.6441e-05,
	"loss": 3.0905,
	"step": 50700
	},
	{
	"epoch": 4.71,
	"learning_rate": 1.6407666666666665e-05,
	"loss": 3.0955,
	"step": 50800
	},
	{
	"epoch": 4.72,
	"learning_rate": 1.6374333333333333e-05,
	"loss": 3.1101,
	"step": 50900
	},
	{
	"epoch": 4.73,
	"learning_rate": 1.6340999999999998e-05,
	"loss": 3.1153,
	"step": 51000
	},
	{
	"epoch": 4.73,
	"eval_loss": 3.3345048427581787,
	"eval_runtime": 58.4293,
	"eval_samples_per_second": 43.163,
	"eval_steps_per_second": 2.704,
	"step": 51000
	},
	{
	"epoch": 4.74,
	"learning_rate": 1.6307666666666666e-05,
	"loss": 3.1033,
	"step": 51100
	},
	{
	"epoch": 4.75,
	"learning_rate": 1.627433333333333e-05,
	"loss": 3.0736,
	"step": 51200
	},
	{
	"epoch": 4.76,
	"learning_rate": 1.6241e-05,
	"loss": 3.1216,
	"step": 51300
	},
	{
	"epoch": 4.76,
	"learning_rate": 1.6207666666666667e-05,
	"loss": 3.0931,
	"step": 51400
	},
	{
	"epoch": 4.77,
	"learning_rate": 1.6174333333333332e-05,
	"loss": 3.1289,
	"step": 51500
	},
	{
	"epoch": 4.77,
	"eval_loss": 3.3356144428253174,
	"eval_runtime": 58.5612,
	"eval_samples_per_second": 43.066,
	"eval_steps_per_second": 2.698,
	"step": 51500
	},
	{
	"epoch": 4.78,
	"learning_rate": 1.6141e-05,
	"loss": 3.1059,
	"step": 51600
	},
	{
	"epoch": 4.79,
	"learning_rate": 1.6107666666666665e-05,
	"loss": 3.0854,
	"step": 51700
	},
	{
	"epoch": 4.8,
	"learning_rate": 1.6074333333333333e-05,
	"loss": 3.1078,
	"step": 51800
	},
	{
	"epoch": 4.81,
	"learning_rate": 1.6040999999999998e-05,
	"loss": 3.1003,
	"step": 51900
	},
	{
	"epoch": 4.82,
	"learning_rate": 1.6007666666666666e-05,
	"loss": 3.1075,
	"step": 52000
	},
	{
	"epoch": 4.82,
	"eval_loss": 3.333493709564209,
	"eval_runtime": 58.3497,
	"eval_samples_per_second": 43.222,
	"eval_steps_per_second": 2.708,
	"step": 52000
	},
	{
	"epoch": 4.83,
	"learning_rate": 1.5974333333333334e-05,
	"loss": 3.1213,
	"step": 52100
	},
	{
	"epoch": 4.84,
	"learning_rate": 1.5941e-05,
	"loss": 3.0983,
	"step": 52200
	},
	{
	"epoch": 4.85,
	"learning_rate": 1.5907666666666667e-05,
	"loss": 3.1087,
	"step": 52300
	},
	{
	"epoch": 4.86,
	"learning_rate": 1.587433333333333e-05,
	"loss": 3.1086,
	"step": 52400
	},
	{
	"epoch": 4.87,
	"learning_rate": 1.5841666666666664e-05,
	"loss": 3.1151,
	"step": 52500
	},
	{
	"epoch": 4.87,
	"eval_loss": 3.338545799255371,
	"eval_runtime": 58.478,
	"eval_samples_per_second": 43.127,
	"eval_steps_per_second": 2.702,
	"step": 52500
	},
	{
	"epoch": 4.88,
	"learning_rate": 1.5808333333333332e-05,
	"loss": 3.1023,
	"step": 52600
	},
	{
	"epoch": 4.89,
	"learning_rate": 1.5775e-05,
	"loss": 3.0932,
	"step": 52700
	},
	{
	"epoch": 4.89,
	"learning_rate": 1.5741666666666665e-05,
	"loss": 3.0734,
	"step": 52800
	},
	{
	"epoch": 4.9,
	"learning_rate": 1.5708333333333333e-05,
	"loss": 3.1021,
	"step": 52900
	},
	{
	"epoch": 4.91,
	"learning_rate": 1.5674999999999998e-05,
	"loss": 3.094,
	"step": 53000
	},
	{
	"epoch": 4.91,
	"eval_loss": 3.329162836074829,
	"eval_runtime": 58.4384,
	"eval_samples_per_second": 43.157,
	"eval_steps_per_second": 2.704,
	"step": 53000
	},
	{
	"epoch": 4.92,
	"learning_rate": 1.5641666666666666e-05,
	"loss": 3.1269,
	"step": 53100
	},
	{
	"epoch": 4.93,
	"learning_rate": 1.560833333333333e-05,
	"loss": 3.0819,
	"step": 53200
	},
	{
	"epoch": 4.94,
	"learning_rate": 1.5575e-05,
	"loss": 3.12,
	"step": 53300
	},
	{
	"epoch": 4.95,
	"learning_rate": 1.5541666666666667e-05,
	"loss": 3.0908,
	"step": 53400
	},
	{
	"epoch": 4.96,
	"learning_rate": 1.5508333333333332e-05,
	"loss": 3.1272,
	"step": 53500
	},
	{
	"epoch": 4.96,
	"eval_loss": 3.334925413131714,
	"eval_runtime": 58.4578,
	"eval_samples_per_second": 43.142,
	"eval_steps_per_second": 2.703,
	"step": 53500
	},
	{
	"epoch": 4.97,
	"learning_rate": 1.5475e-05,
	"loss": 3.1186,
	"step": 53600
	},
	{
	"epoch": 4.98,
	"learning_rate": 1.5441666666666665e-05,
	"loss": 3.1064,
	"step": 53700
	},
	{
	"epoch": 4.99,
	"learning_rate": 1.5408333333333333e-05,
	"loss": 3.0976,
	"step": 53800
	},
	{
	"epoch": 5.0,
	"learning_rate": 1.5374999999999998e-05,
	"loss": 3.1128,
	"step": 53900
	},
	{
	"epoch": 5.01,
	"learning_rate": 1.5341666666666666e-05,
	"loss": 3.0847,
	"step": 54000
	},
	{
	"epoch": 5.01,
	"eval_loss": 3.3406832218170166,
	"eval_runtime": 58.4416,
	"eval_samples_per_second": 43.154,
	"eval_steps_per_second": 2.704,
	"step": 54000
	},
	{
	"epoch": 5.01,
	"learning_rate": 1.5308333333333334e-05,
	"loss": 3.0535,
	"step": 54100
	},
	{
	"epoch": 5.02,
	"learning_rate": 1.5275e-05,
	"loss": 3.0485,
	"step": 54200
	},
	{
	"epoch": 5.03,
	"learning_rate": 1.5241666666666668e-05,
	"loss": 3.0555,
	"step": 54300
	},
	{
	"epoch": 5.04,
	"learning_rate": 1.5208333333333333e-05,
	"loss": 3.0503,
	"step": 54400
	},
	{
	"epoch": 5.05,
	"learning_rate": 1.5175000000000001e-05,
	"loss": 3.0662,
	"step": 54500
	},
	{
	"epoch": 5.05,
	"eval_loss": 3.337759017944336,
	"eval_runtime": 58.456,
	"eval_samples_per_second": 43.144,
	"eval_steps_per_second": 2.703,
	"step": 54500
	},
	{
	"epoch": 5.06,
	"learning_rate": 1.5141666666666666e-05,
	"loss": 3.0557,
	"step": 54600
	},
	{
	"epoch": 5.07,
	"learning_rate": 1.5108333333333334e-05,
	"loss": 3.0579,
	"step": 54700
	},
	{
	"epoch": 5.08,
	"learning_rate": 1.5074999999999999e-05,
	"loss": 3.091,
	"step": 54800
	},
	{
	"epoch": 5.09,
	"learning_rate": 1.5042e-05,
	"loss": 3.0414,
	"step": 54900
	},
	{
	"epoch": 5.1,
	"learning_rate": 1.5008666666666667e-05,
	"loss": 3.0345,
	"step": 55000
	},
	{
	"epoch": 5.1,
	"eval_loss": 3.3481109142303467,
	"eval_runtime": 58.4421,
	"eval_samples_per_second": 43.154,
	"eval_steps_per_second": 2.704,
	"step": 55000
	},
	{
	"epoch": 5.11,
	"learning_rate": 1.4975333333333334e-05,
	"loss": 3.0615,
	"step": 55100
	},
	{
	"epoch": 5.12,
	"learning_rate": 1.4942e-05,
	"loss": 3.0498,
	"step": 55200
	},
	{
	"epoch": 5.13,
	"learning_rate": 1.4908666666666667e-05,
	"loss": 3.0525,
	"step": 55300
	},
	{
	"epoch": 5.14,
	"learning_rate": 1.4875333333333333e-05,
	"loss": 3.0539,
	"step": 55400
	},
	{
	"epoch": 5.14,
	"learning_rate": 1.4842000000000001e-05,
	"loss": 3.0611,
	"step": 55500
	},
	{
	"epoch": 5.14,
	"eval_loss": 3.340991497039795,
	"eval_runtime": 58.4351,
	"eval_samples_per_second": 43.159,
	"eval_steps_per_second": 2.704,
	"step": 55500
	},
	{
	"epoch": 5.15,
	"learning_rate": 1.4808666666666668e-05,
	"loss": 3.0638,
	"step": 55600
	},
	{
	"epoch": 5.16,
	"learning_rate": 1.4775333333333334e-05,
	"loss": 3.0604,
	"step": 55700
	},
	{
	"epoch": 5.17,
	"learning_rate": 1.4742e-05,
	"loss": 3.068,
	"step": 55800
	},
	{
	"epoch": 5.18,
	"learning_rate": 1.4708666666666667e-05,
	"loss": 3.0614,
	"step": 55900
	},
	{
	"epoch": 5.19,
	"learning_rate": 1.4675666666666667e-05,
	"loss": 3.0566,
	"step": 56000
	},
	{
	"epoch": 5.19,
	"eval_loss": 3.3424055576324463,
	"eval_runtime": 58.346,
	"eval_samples_per_second": 43.225,
	"eval_steps_per_second": 2.708,
	"step": 56000
	},
	{
	"epoch": 5.2,
	"learning_rate": 1.4642333333333334e-05,
	"loss": 3.0523,
	"step": 56100
	},
	{
	"epoch": 5.21,
	"learning_rate": 1.4609e-05,
	"loss": 3.0567,
	"step": 56200
	},
	{
	"epoch": 5.22,
	"learning_rate": 1.4575666666666667e-05,
	"loss": 3.0581,
	"step": 56300
	},
	{
	"epoch": 5.23,
	"learning_rate": 1.4542333333333333e-05,
	"loss": 3.0679,
	"step": 56400
	},
	{
	"epoch": 5.24,
	"learning_rate": 1.4509000000000001e-05,
	"loss": 3.0413,
	"step": 56500
	},
	{
	"epoch": 5.24,
	"eval_loss": 3.346630096435547,
	"eval_runtime": 58.4536,
	"eval_samples_per_second": 43.145,
	"eval_steps_per_second": 2.703,
	"step": 56500
	},
	{
	"epoch": 5.25,
	"learning_rate": 1.4475666666666668e-05,
	"loss": 3.0371,
	"step": 56600
	},
	{
	"epoch": 5.26,
	"learning_rate": 1.4442333333333334e-05,
	"loss": 3.0502,
	"step": 56700
	},
	{
	"epoch": 5.27,
	"learning_rate": 1.4409e-05,
	"loss": 3.0641,
	"step": 56800
	},
	{
	"epoch": 5.27,
	"learning_rate": 1.4375666666666667e-05,
	"loss": 3.0395,
	"step": 56900
	},
	{
	"epoch": 5.28,
	"learning_rate": 1.4342333333333333e-05,
	"loss": 3.0291,
	"step": 57000
	},
	{
	"epoch": 5.28,
	"eval_loss": 3.345341920852661,
	"eval_runtime": 58.494,
	"eval_samples_per_second": 43.116,
	"eval_steps_per_second": 2.701,
	"step": 57000
	},
	{
	"epoch": 5.29,
	"learning_rate": 1.4309e-05,
	"loss": 3.0581,
	"step": 57100
	},
	{
	"epoch": 5.3,
	"learning_rate": 1.4275666666666666e-05,
	"loss": 3.0555,
	"step": 57200
	},
	{
	"epoch": 5.31,
	"learning_rate": 1.4242333333333334e-05,
	"loss": 3.0708,
	"step": 57300
	},
	{
	"epoch": 5.32,
	"learning_rate": 1.4209e-05,
	"loss": 3.0456,
	"step": 57400
	},
	{
	"epoch": 5.33,
	"learning_rate": 1.4175666666666667e-05,
	"loss": 3.0569,
	"step": 57500
	},
	{
	"epoch": 5.33,
	"eval_loss": 3.3490843772888184,
	"eval_runtime": 58.4505,
	"eval_samples_per_second": 43.148,
	"eval_steps_per_second": 2.703,
	"step": 57500
	},
	{
	"epoch": 5.34,
	"learning_rate": 1.4142333333333334e-05,
	"loss": 3.0416,
	"step": 57600
	},
	{
	"epoch": 5.35,
	"learning_rate": 1.4109e-05,
	"loss": 3.0545,
	"step": 57700
	},
	{
	"epoch": 5.36,
	"learning_rate": 1.4075666666666666e-05,
	"loss": 3.0587,
	"step": 57800
	},
	{
	"epoch": 5.37,
	"learning_rate": 1.4042333333333333e-05,
	"loss": 3.0524,
	"step": 57900
	},
	{
	"epoch": 5.38,
	"learning_rate": 1.4009e-05,
	"loss": 3.0645,
	"step": 58000
	},
	{
	"epoch": 5.38,
	"eval_loss": 3.337806224822998,
	"eval_runtime": 58.4416,
	"eval_samples_per_second": 43.154,
	"eval_steps_per_second": 2.704,
	"step": 58000
	},
	{
	"epoch": 5.39,
	"learning_rate": 1.3975666666666667e-05,
	"loss": 3.07,
	"step": 58100
	},
	{
	"epoch": 5.39,
	"learning_rate": 1.3942333333333334e-05,
	"loss": 3.0701,
	"step": 58200
	},
	{
	"epoch": 5.4,
	"learning_rate": 1.3909e-05,
	"loss": 3.0608,
	"step": 58300
	},
	{
	"epoch": 5.41,
	"learning_rate": 1.3875666666666667e-05,
	"loss": 3.0818,
	"step": 58400
	},
	{
	"epoch": 5.42,
	"learning_rate": 1.3842333333333333e-05,
	"loss": 3.0646,
	"step": 58500
	},
	{
	"epoch": 5.42,
	"eval_loss": 3.343388319015503,
	"eval_runtime": 58.446,
	"eval_samples_per_second": 43.151,
	"eval_steps_per_second": 2.703,
	"step": 58500
	},
	{
	"epoch": 5.43,
	"learning_rate": 1.3809e-05,
	"loss": 3.0567,
	"step": 58600
	},
	{
	"epoch": 5.44,
	"learning_rate": 1.3775666666666666e-05,
	"loss": 3.0244,
	"step": 58700
	},
	{
	"epoch": 5.45,
	"learning_rate": 1.3742333333333332e-05,
	"loss": 3.0489,
	"step": 58800
	},
	{
	"epoch": 5.46,
	"learning_rate": 1.3709e-05,
	"loss": 3.0441,
	"step": 58900
	},
	{
	"epoch": 5.47,
	"learning_rate": 1.3675666666666667e-05,
	"loss": 3.045,
	"step": 59000
	},
	{
	"epoch": 5.47,
	"eval_loss": 3.341829299926758,
	"eval_runtime": 58.472,
	"eval_samples_per_second": 43.132,
	"eval_steps_per_second": 2.702,
	"step": 59000
	},
	{
	"epoch": 5.48,
	"learning_rate": 1.3642333333333333e-05,
	"loss": 3.064,
	"step": 59100
	},
	{
	"epoch": 5.49,
	"learning_rate": 1.3609e-05,
	"loss": 3.0443,
	"step": 59200
	},
	{
	"epoch": 5.5,
	"learning_rate": 1.3575666666666666e-05,
	"loss": 3.0633,
	"step": 59300
	},
	{
	"epoch": 5.51,
	"learning_rate": 1.3542333333333332e-05,
	"loss": 3.0505,
	"step": 59400
	},
	{
	"epoch": 5.52,
	"learning_rate": 1.3508999999999999e-05,
	"loss": 3.0551,
	"step": 59500
	},
	{
	"epoch": 5.52,
	"eval_loss": 3.3426239490509033,
	"eval_runtime": 58.4381,
	"eval_samples_per_second": 43.157,
	"eval_steps_per_second": 2.704,
	"step": 59500
	},
	{
	"epoch": 5.52,
	"learning_rate": 1.3475666666666667e-05,
	"loss": 3.0685,
	"step": 59600
	},
	{
	"epoch": 5.53,
	"learning_rate": 1.3442333333333333e-05,
	"loss": 3.0724,
	"step": 59700
	},
	{
	"epoch": 5.54,
	"learning_rate": 1.3409e-05,
	"loss": 3.0517,
	"step": 59800
	},
	{
	"epoch": 5.55,
	"learning_rate": 1.3375666666666668e-05,
	"loss": 3.06,
	"step": 59900
	},
	{
	"epoch": 5.56,
	"learning_rate": 1.3342333333333334e-05,
	"loss": 3.0706,
	"step": 60000
	},
	{
	"epoch": 5.56,
	"eval_loss": 3.337785243988037,
	"eval_runtime": 58.341,
	"eval_samples_per_second": 43.229,
	"eval_steps_per_second": 2.708,
	"step": 60000
	},
	{
	"epoch": 5.57,
	"learning_rate": 1.3309e-05,
	"loss": 3.0521,
	"step": 60100
	},
	{
	"epoch": 5.58,
	"learning_rate": 1.3275666666666667e-05,
	"loss": 3.0552,
	"step": 60200
	},
	{
	"epoch": 5.59,
	"learning_rate": 1.3242333333333334e-05,
	"loss": 3.0545,
	"step": 60300
	},
	{
	"epoch": 5.6,
	"learning_rate": 1.3209000000000002e-05,
	"loss": 3.0445,
	"step": 60400
	},
	{
	"epoch": 5.61,
	"learning_rate": 1.3175666666666668e-05,
	"loss": 3.0556,
	"step": 60500
	},
	{
	"epoch": 5.61,
	"eval_loss": 3.340733528137207,
	"eval_runtime": 58.4465,
	"eval_samples_per_second": 43.151,
	"eval_steps_per_second": 2.703,
	"step": 60500
	},
	{
	"epoch": 5.62,
	"learning_rate": 1.3142333333333335e-05,
	"loss": 3.0393,
	"step": 60600
	},
	{
	"epoch": 5.63,
	"learning_rate": 1.3109000000000001e-05,
	"loss": 3.0609,
	"step": 60700
	},
	{
	"epoch": 5.64,
	"learning_rate": 1.3075666666666667e-05,
	"loss": 3.0703,
	"step": 60800
	},
	{
	"epoch": 5.65,
	"learning_rate": 1.3042333333333334e-05,
	"loss": 3.0634,
	"step": 60900
	},
	{
	"epoch": 5.65,
	"learning_rate": 1.3009e-05,
	"loss": 3.0743,
	"step": 61000
	},
	{
	"epoch": 5.65,
	"eval_loss": 3.352006673812866,
	"eval_runtime": 58.5114,
	"eval_samples_per_second": 43.103,
	"eval_steps_per_second": 2.7,
	"step": 61000
	},
	{
	"epoch": 5.66,
	"learning_rate": 1.2975666666666667e-05,
	"loss": 3.042,
	"step": 61100
	},
	{
	"epoch": 5.67,
	"learning_rate": 1.2942333333333335e-05,
	"loss": 3.0747,
	"step": 61200
	},
	{
	"epoch": 5.68,
	"learning_rate": 1.2909000000000001e-05,
	"loss": 3.0629,
	"step": 61300
	},
	{
	"epoch": 5.69,
	"learning_rate": 1.2875666666666668e-05,
	"loss": 3.0674,
	"step": 61400
	},
	{
	"epoch": 5.7,
	"learning_rate": 1.2842333333333334e-05,
	"loss": 3.0764,
	"step": 61500
	},
	{
	"epoch": 5.7,
	"eval_loss": 3.3319778442382812,
	"eval_runtime": 58.7784,
	"eval_samples_per_second": 42.907,
	"eval_steps_per_second": 2.688,
	"step": 61500
	},
	{
	"epoch": 5.71,
	"learning_rate": 1.2809e-05,
	"loss": 3.0503,
	"step": 61600
	},
	{
	"epoch": 5.72,
	"learning_rate": 1.2775666666666667e-05,
	"loss": 3.0635,
	"step": 61700
	},
	{
	"epoch": 5.73,
	"learning_rate": 1.2742333333333333e-05,
	"loss": 3.0335,
	"step": 61800
	},
	{
	"epoch": 5.74,
	"learning_rate": 1.2709e-05,
	"loss": 3.0729,
	"step": 61900
	},
	{
	"epoch": 5.75,
	"learning_rate": 1.2675666666666668e-05,
	"loss": 3.0723,
	"step": 62000
	},
	{
	"epoch": 5.75,
	"eval_loss": 3.3352277278900146,
	"eval_runtime": 58.4517,
	"eval_samples_per_second": 43.147,
	"eval_steps_per_second": 2.703,
	"step": 62000
	},
	{
	"epoch": 5.76,
	"learning_rate": 1.2642333333333334e-05,
	"loss": 3.0598,
	"step": 62100
	},
	{
	"epoch": 5.77,
	"learning_rate": 1.2609e-05,
	"loss": 3.0575,
	"step": 62200
	},
	{
	"epoch": 5.77,
	"learning_rate": 1.2575666666666667e-05,
	"loss": 3.0496,
	"step": 62300
	},
	{
	"epoch": 5.78,
	"learning_rate": 1.2542333333333334e-05,
	"loss": 3.0448,
	"step": 62400
	},
	{
	"epoch": 5.79,
	"learning_rate": 1.2509e-05,
	"loss": 3.0716,
	"step": 62500
	},
	{
	"epoch": 5.79,
	"eval_loss": 3.3327484130859375,
	"eval_runtime": 58.4388,
	"eval_samples_per_second": 43.156,
	"eval_steps_per_second": 2.704,
	"step": 62500
	},
	{
	"epoch": 5.8,
	"learning_rate": 1.2475666666666666e-05,
	"loss": 3.0591,
	"step": 62600
	},
	{
	"epoch": 5.81,
	"learning_rate": 1.2442333333333335e-05,
	"loss": 3.0244,
	"step": 62700
	},
	{
	"epoch": 5.82,
	"learning_rate": 1.2409000000000001e-05,
	"loss": 3.0526,
	"step": 62800
	},
	{
	"epoch": 5.83,
	"learning_rate": 1.2375666666666667e-05,
	"loss": 3.0402,
	"step": 62900
	},
	{
	"epoch": 5.84,
	"learning_rate": 1.2342333333333334e-05,
	"loss": 3.0618,
	"step": 63000
	},
	{
	"epoch": 5.84,
	"eval_loss": 3.3447413444519043,
	"eval_runtime": 58.4521,
	"eval_samples_per_second": 43.146,
	"eval_steps_per_second": 2.703,
	"step": 63000
	},
	{
	"epoch": 5.85,
	"learning_rate": 1.2309e-05,
	"loss": 3.0597,
	"step": 63100
	},
	{
	"epoch": 5.86,
	"learning_rate": 1.2275666666666667e-05,
	"loss": 3.0553,
	"step": 63200
	},
	{
	"epoch": 5.87,
	"learning_rate": 1.2242333333333333e-05,
	"loss": 3.0608,
	"step": 63300
	},
	{
	"epoch": 5.88,
	"learning_rate": 1.2209e-05,
	"loss": 3.0749,
	"step": 63400
	},
	{
	"epoch": 5.89,
	"learning_rate": 1.2175666666666668e-05,
	"loss": 3.0662,
	"step": 63500
	},
	{
	"epoch": 5.89,
	"eval_loss": 3.3312034606933594,
	"eval_runtime": 58.4655,
	"eval_samples_per_second": 43.137,
	"eval_steps_per_second": 2.702,
	"step": 63500
	},
	{
	"epoch": 5.9,
	"learning_rate": 1.2142333333333334e-05,
	"loss": 3.0633,
	"step": 63600
	},
	{
	"epoch": 5.9,
	"learning_rate": 1.2109e-05,
	"loss": 3.0347,
	"step": 63700
	},
	{
	"epoch": 5.91,
	"learning_rate": 1.2075666666666667e-05,
	"loss": 3.0735,
	"step": 63800
	},
	{
	"epoch": 5.92,
	"learning_rate": 1.2042333333333333e-05,
	"loss": 3.0722,
	"step": 63900
	},
	{
	"epoch": 5.93,
	"learning_rate": 1.2009e-05,
	"loss": 3.0758,
	"step": 64000
	},
	{
	"epoch": 5.93,
	"eval_loss": 3.332306146621704,
	"eval_runtime": 58.4661,
	"eval_samples_per_second": 43.136,
	"eval_steps_per_second": 2.702,
	"step": 64000
	},
	{
	"epoch": 5.94,
	"learning_rate": 1.1975666666666666e-05,
	"loss": 3.0666,
	"step": 64100
	},
	{
	"epoch": 5.95,
	"learning_rate": 1.1942333333333333e-05,
	"loss": 3.0518,
	"step": 64200
	},
	{
	"epoch": 5.96,
	"learning_rate": 1.1909e-05,
	"loss": 3.0553,
	"step": 64300
	},
	{
	"epoch": 5.97,
	"learning_rate": 1.1875666666666667e-05,
	"loss": 3.0553,
	"step": 64400
	},
	{
	"epoch": 5.98,
	"learning_rate": 1.1842333333333334e-05,
	"loss": 3.0501,
	"step": 64500
	},
	{
	"epoch": 5.98,
	"eval_loss": 3.340047836303711,
	"eval_runtime": 58.4493,
	"eval_samples_per_second": 43.149,
	"eval_steps_per_second": 2.703,
	"step": 64500
	},
	{
	"epoch": 5.99,
	"learning_rate": 1.1809e-05,
	"loss": 3.0416,
	"step": 64600
	},
	{
	"epoch": 6.0,
	"learning_rate": 1.1775666666666666e-05,
	"loss": 3.0498,
	"step": 64700
	},
	{
	"epoch": 6.01,
	"learning_rate": 1.1742666666666667e-05,
	"loss": 3.0248,
	"step": 64800
	},
	{
	"epoch": 6.02,
	"learning_rate": 1.1709333333333333e-05,
	"loss": 2.9981,
	"step": 64900
	},
	{
	"epoch": 6.03,
	"learning_rate": 1.1676e-05,
	"loss": 2.978,
	"step": 65000
	},
	{
	"epoch": 6.03,
	"eval_loss": 3.347320079803467,
	"eval_runtime": 58.4349,
	"eval_samples_per_second": 43.159,
	"eval_steps_per_second": 2.704,
	"step": 65000
	},
	{
	"epoch": 6.03,
	"learning_rate": 1.1642666666666666e-05,
	"loss": 3.0034,
	"step": 65100
	},
	{
	"epoch": 6.04,
	"learning_rate": 1.1609333333333333e-05,
	"loss": 3.0038,
	"step": 65200
	},
	{
	"epoch": 6.05,
	"learning_rate": 1.1576333333333333e-05,
	"loss": 3.0017,
	"step": 65300
	},
	{
	"epoch": 6.06,
	"learning_rate": 1.1543e-05,
	"loss": 3.0203,
	"step": 65400
	},
	{
	"epoch": 6.07,
	"learning_rate": 1.1509666666666668e-05,
	"loss": 3.0131,
	"step": 65500
	},
	{
	"epoch": 6.07,
	"eval_loss": 3.3440327644348145,
	"eval_runtime": 58.3075,
	"eval_samples_per_second": 43.253,
	"eval_steps_per_second": 2.71,
	"step": 65500
	},
	{
	"epoch": 6.08,
	"learning_rate": 1.1476333333333334e-05,
	"loss": 3.0053,
	"step": 65600
	},
	{
	"epoch": 6.09,
	"learning_rate": 1.1443e-05,
	"loss": 3.0197,
	"step": 65700
	},
	{
	"epoch": 6.1,
	"learning_rate": 1.1409666666666667e-05,
	"loss": 3.0189,
	"step": 65800
	},
	{
	"epoch": 6.11,
	"learning_rate": 1.1376333333333333e-05,
	"loss": 3.0299,
	"step": 65900
	},
	{
	"epoch": 6.12,
	"learning_rate": 1.1343e-05,
	"loss": 3.0212,
	"step": 66000
	},
	{
	"epoch": 6.12,
	"eval_loss": 3.34014892578125,
	"eval_runtime": 58.4758,
	"eval_samples_per_second": 43.129,
	"eval_steps_per_second": 2.702,
	"step": 66000
	},
	{
	"epoch": 6.13,
	"learning_rate": 1.1309666666666666e-05,
	"loss": 3.0079,
	"step": 66100
	},
	{
	"epoch": 6.14,
	"learning_rate": 1.1276333333333332e-05,
	"loss": 3.0081,
	"step": 66200
	},
	{
	"epoch": 6.15,
	"learning_rate": 1.1243e-05,
	"loss": 3.0104,
	"step": 66300
	},
	{
	"epoch": 6.15,
	"learning_rate": 1.1209666666666667e-05,
	"loss": 3.0133,
	"step": 66400
	},
	{
	"epoch": 6.16,
	"learning_rate": 1.1176333333333333e-05,
	"loss": 3.0095,
	"step": 66500
	},
	{
	"epoch": 6.16,
	"eval_loss": 3.336056709289551,
	"eval_runtime": 59.1524,
	"eval_samples_per_second": 42.636,
	"eval_steps_per_second": 2.671,
	"step": 66500
	},
	{
	"epoch": 6.17,
	"learning_rate": 1.1143e-05,
	"loss": 3.023,
	"step": 66600
	},
	{
	"epoch": 6.18,
	"learning_rate": 1.1109666666666666e-05,
	"loss": 3.055,
	"step": 66700
	},
	{
	"epoch": 6.19,
	"learning_rate": 1.1076333333333333e-05,
	"loss": 3.0071,
	"step": 66800
	},
	{
	"epoch": 6.2,
	"learning_rate": 1.1042999999999999e-05,
	"loss": 3.0149,
	"step": 66900
	},
	{
	"epoch": 6.21,
	"learning_rate": 1.1009666666666666e-05,
	"loss": 3.0118,
	"step": 67000
	},
	{
	"epoch": 6.21,
	"eval_loss": 3.335216999053955,
	"eval_runtime": 58.463,
	"eval_samples_per_second": 43.138,
	"eval_steps_per_second": 2.703,
	"step": 67000
	},
	{
	"epoch": 6.22,
	"learning_rate": 1.0976333333333334e-05,
	"loss": 3.0082,
	"step": 67100
	},
	{
	"epoch": 6.23,
	"learning_rate": 1.0943e-05,
	"loss": 3.0147,
	"step": 67200
	},
	{
	"epoch": 6.24,
	"learning_rate": 1.0909666666666667e-05,
	"loss": 3.0044,
	"step": 67300
	},
	{
	"epoch": 6.25,
	"learning_rate": 1.0876333333333333e-05,
	"loss": 3.0247,
	"step": 67400
	},
	{
	"epoch": 6.26,
	"learning_rate": 1.0843e-05,
	"loss": 3.0249,
	"step": 67500
	},
	{
	"epoch": 6.26,
	"eval_loss": 3.3398003578186035,
	"eval_runtime": 58.4448,
	"eval_samples_per_second": 43.152,
	"eval_steps_per_second": 2.703,
	"step": 67500
	},
	{
	"epoch": 6.27,
	"learning_rate": 1.0809666666666666e-05,
	"loss": 2.995,
	"step": 67600
	},
	{
	"epoch": 6.28,
	"learning_rate": 1.0776333333333332e-05,
	"loss": 3.018,
	"step": 67700
	},
	{
	"epoch": 6.28,
	"learning_rate": 1.0743e-05,
	"loss": 3.0321,
	"step": 67800
	},
	{
	"epoch": 6.29,
	"learning_rate": 1.0709666666666668e-05,
	"loss": 3.0411,
	"step": 67900
	},
	{
	"epoch": 6.3,
	"learning_rate": 1.0676333333333335e-05,
	"loss": 3.0107,
	"step": 68000
	},
	{
	"epoch": 6.3,
	"eval_loss": 3.3444430828094482,
	"eval_runtime": 58.3648,
	"eval_samples_per_second": 43.211,
	"eval_steps_per_second": 2.707,
	"step": 68000
	},
	{
	"epoch": 6.31,
	"learning_rate": 1.0643000000000001e-05,
	"loss": 2.9951,
	"step": 68100
	},
	{
	"epoch": 6.32,
	"learning_rate": 1.0609666666666668e-05,
	"loss": 3.0019,
	"step": 68200
	},
	{
	"epoch": 6.33,
	"learning_rate": 1.0576333333333334e-05,
	"loss": 3.0063,
	"step": 68300
	},
	{
	"epoch": 6.34,
	"learning_rate": 1.0543e-05,
	"loss": 3.0251,
	"step": 68400
	},
	{
	"epoch": 6.35,
	"learning_rate": 1.0509666666666667e-05,
	"loss": 3.0175,
	"step": 68500
	},
	{
	"epoch": 6.35,
	"eval_loss": 3.349011182785034,
	"eval_runtime": 58.4361,
	"eval_samples_per_second": 43.158,
	"eval_steps_per_second": 2.704,
	"step": 68500
	},
	{
	"epoch": 6.36,
	"learning_rate": 1.0476333333333335e-05,
	"loss": 3.0039,
	"step": 68600
	},
	{
	"epoch": 6.37,
	"learning_rate": 1.0443000000000001e-05,
	"loss": 3.0072,
	"step": 68700
	},
	{
	"epoch": 6.38,
	"learning_rate": 1.0409666666666668e-05,
	"loss": 2.9973,
	"step": 68800
	},
	{
	"epoch": 6.39,
	"learning_rate": 1.0376666666666668e-05,
	"loss": 2.984,
	"step": 68900
	},
	{
	"epoch": 6.4,
	"learning_rate": 1.0343333333333335e-05,
	"loss": 3.0241,
	"step": 69000
	},
	{
	"epoch": 6.4,
	"eval_loss": 3.3401811122894287,
	"eval_runtime": 58.4723,
	"eval_samples_per_second": 43.132,
	"eval_steps_per_second": 2.702,
	"step": 69000
	},
	{
	"epoch": 6.41,
	"learning_rate": 1.0310000000000001e-05,
	"loss": 3.0104,
	"step": 69100
	},
	{
	"epoch": 6.41,
	"learning_rate": 1.0276666666666668e-05,
	"loss": 3.0239,
	"step": 69200
	},
	{
	"epoch": 6.42,
	"learning_rate": 1.0243333333333334e-05,
	"loss": 2.9992,
	"step": 69300
	},
	{
	"epoch": 6.43,
	"learning_rate": 1.021e-05,
	"loss": 3.0306,
	"step": 69400
	},
	{
	"epoch": 6.44,
	"learning_rate": 1.0176666666666667e-05,
	"loss": 3.0094,
	"step": 69500
	},
	{
	"epoch": 6.44,
	"eval_loss": 3.3436567783355713,
	"eval_runtime": 58.4709,
	"eval_samples_per_second": 43.133,
	"eval_steps_per_second": 2.702,
	"step": 69500
	},
	{
	"epoch": 6.45,
	"learning_rate": 1.0143333333333333e-05,
	"loss": 3.0137,
	"step": 69600
	},
	{
	"epoch": 6.46,
	"learning_rate": 1.0110000000000001e-05,
	"loss": 3.0555,
	"step": 69700
	},
	{
	"epoch": 6.47,
	"learning_rate": 1.0076666666666668e-05,
	"loss": 3.0136,
	"step": 69800
	},
	{
	"epoch": 6.48,
	"learning_rate": 1.0043333333333334e-05,
	"loss": 3.0314,
	"step": 69900
	},
	{
	"epoch": 6.49,
	"learning_rate": 1.001e-05,
	"loss": 3.0286,
	"step": 70000
	},
	{
	"epoch": 6.49,
	"eval_loss": 3.335451602935791,
	"eval_runtime": 58.9661,
	"eval_samples_per_second": 42.77,
	"eval_steps_per_second": 2.68,
	"step": 70000
	},
	{
	"epoch": 6.5,
	"learning_rate": 9.976666666666667e-06,
	"loss": 3.0332,
	"step": 70100
	},
	{
	"epoch": 6.51,
	"learning_rate": 9.943666666666668e-06,
	"loss": 3.0345,
	"step": 70200
	},
	{
	"epoch": 6.52,
	"learning_rate": 9.910333333333334e-06,
	"loss": 3.01,
	"step": 70300
	},
	{
	"epoch": 6.53,
	"learning_rate": 9.877e-06,
	"loss": 3.0254,
	"step": 70400
	},
	{
	"epoch": 6.54,
	"learning_rate": 9.843666666666667e-06,
	"loss": 3.0391,
	"step": 70500
	},
	{
	"epoch": 6.54,
	"eval_loss": 3.338533401489258,
	"eval_runtime": 58.4515,
	"eval_samples_per_second": 43.147,
	"eval_steps_per_second": 2.703,
	"step": 70500
	},
	{
	"epoch": 6.54,
	"learning_rate": 9.810333333333333e-06,
	"loss": 3.0092,
	"step": 70600
	},
	{
	"epoch": 6.55,
	"learning_rate": 9.777000000000001e-06,
	"loss": 3.0239,
	"step": 70700
	},
	{
	"epoch": 6.56,
	"learning_rate": 9.743666666666668e-06,
	"loss": 3.0284,
	"step": 70800
	},
	{
	"epoch": 6.57,
	"learning_rate": 9.710333333333334e-06,
	"loss": 3.0152,
	"step": 70900
	},
	{
	"epoch": 6.58,
	"learning_rate": 9.677e-06,
	"loss": 3.0243,
	"step": 71000
	},
	{
	"epoch": 6.58,
	"eval_loss": 3.3395261764526367,
	"eval_runtime": 58.5673,
	"eval_samples_per_second": 43.062,
	"eval_steps_per_second": 2.698,
	"step": 71000
	},
	{
	"epoch": 6.59,
	"learning_rate": 9.643666666666667e-06,
	"loss": 3.0095,
	"step": 71100
	},
	{
	"epoch": 6.6,
	"learning_rate": 9.610333333333334e-06,
	"loss": 3.031,
	"step": 71200
	},
	{
	"epoch": 6.61,
	"learning_rate": 9.577e-06,
	"loss": 3.0225,
	"step": 71300
	},
	{
	"epoch": 6.62,
	"learning_rate": 9.543666666666666e-06,
	"loss": 3.0278,
	"step": 71400
	},
	{
	"epoch": 6.63,
	"learning_rate": 9.510333333333334e-06,
	"loss": 3.0232,
	"step": 71500
	},
	{
	"epoch": 6.63,
	"eval_loss": 3.336970567703247,
	"eval_runtime": 58.4455,
	"eval_samples_per_second": 43.151,
	"eval_steps_per_second": 2.703,
	"step": 71500
	},
	{
	"epoch": 6.64,
	"learning_rate": 9.477000000000001e-06,
	"loss": 3.0237,
	"step": 71600
	},
	{
	"epoch": 6.65,
	"learning_rate": 9.443666666666667e-06,
	"loss": 3.0327,
	"step": 71700
	},
	{
	"epoch": 6.66,
	"learning_rate": 9.410333333333334e-06,
	"loss": 3.0242,
	"step": 71800
	},
	{
	"epoch": 6.66,
	"learning_rate": 9.377e-06,
	"loss": 3.0159,
	"step": 71900
	},
	{
	"epoch": 6.67,
	"learning_rate": 9.343666666666667e-06,
	"loss": 3.0168,
	"step": 72000
	},
	{
	"epoch": 6.67,
	"eval_loss": 3.345780611038208,
	"eval_runtime": 58.429,
	"eval_samples_per_second": 43.164,
	"eval_steps_per_second": 2.704,
	"step": 72000
	},
	{
	"epoch": 6.68,
	"learning_rate": 9.310333333333333e-06,
	"loss": 3.0282,
	"step": 72100
	},
	{
	"epoch": 6.69,
	"learning_rate": 9.277000000000001e-06,
	"loss": 3.0153,
	"step": 72200
	},
	{
	"epoch": 6.7,
	"learning_rate": 9.243666666666668e-06,
	"loss": 2.9887,
	"step": 72300
	},
	{
	"epoch": 6.71,
	"learning_rate": 9.210333333333334e-06,
	"loss": 3.0185,
	"step": 72400
	},
	{
	"epoch": 6.72,
	"learning_rate": 9.177e-06,
	"loss": 3.0432,
	"step": 72500
	},
	{
	"epoch": 6.72,
	"eval_loss": 3.33998966217041,
	"eval_runtime": 58.4729,
	"eval_samples_per_second": 43.131,
	"eval_steps_per_second": 2.702,
	"step": 72500
	},
	{
	"epoch": 6.73,
	"learning_rate": 9.143666666666667e-06,
	"loss": 3.0239,
	"step": 72600
	},
	{
	"epoch": 6.74,
	"learning_rate": 9.110333333333333e-06,
	"loss": 3.0352,
	"step": 72700
	},
	{
	"epoch": 6.75,
	"learning_rate": 9.077e-06,
	"loss": 2.9972,
	"step": 72800
	},
	{
	"epoch": 6.76,
	"learning_rate": 9.043666666666666e-06,
	"loss": 3.0374,
	"step": 72900
	},
	{
	"epoch": 6.77,
	"learning_rate": 9.010333333333334e-06,
	"loss": 3.0121,
	"step": 73000
	},
	{
	"epoch": 6.77,
	"eval_loss": 3.342031478881836,
	"eval_runtime": 58.4387,
	"eval_samples_per_second": 43.156,
	"eval_steps_per_second": 2.704,
	"step": 73000
	},
	{
	"epoch": 6.78,
	"learning_rate": 8.977e-06,
	"loss": 3.0181,
	"step": 73100
	},
	{
	"epoch": 6.79,
	"learning_rate": 8.943666666666667e-06,
	"loss": 3.0222,
	"step": 73200
	},
	{
	"epoch": 6.79,
	"learning_rate": 8.910333333333333e-06,
	"loss": 3.0365,
	"step": 73300
	},
	{
	"epoch": 6.8,
	"learning_rate": 8.877e-06,
	"loss": 3.0055,
	"step": 73400
	},
	{
	"epoch": 6.81,
	"learning_rate": 8.843666666666666e-06,
	"loss": 3.0137,
	"step": 73500
	},
	{
	"epoch": 6.81,
	"eval_loss": 3.34355092048645,
	"eval_runtime": 58.4474,
	"eval_samples_per_second": 43.15,
	"eval_steps_per_second": 2.703,
	"step": 73500
	},
	{
	"epoch": 6.82,
	"learning_rate": 8.810333333333333e-06,
	"loss": 3.017,
	"step": 73600
	},
	{
	"epoch": 6.83,
	"learning_rate": 8.776999999999999e-06,
	"loss": 3.0357,
	"step": 73700
	},
	{
	"epoch": 6.84,
	"learning_rate": 8.743666666666667e-06,
	"loss": 3.0012,
	"step": 73800
	},
	{
	"epoch": 6.85,
	"learning_rate": 8.710333333333334e-06,
	"loss": 3.0273,
	"step": 73900
	},
	{
	"epoch": 6.86,
	"learning_rate": 8.677e-06,
	"loss": 3.0333,
	"step": 74000
	},
	{
	"epoch": 6.86,
	"eval_loss": 3.3361899852752686,
	"eval_runtime": 58.7021,
	"eval_samples_per_second": 42.963,
	"eval_steps_per_second": 2.692,
	"step": 74000
	},
	{
	"epoch": 6.87,
	"learning_rate": 8.643666666666667e-06,
	"loss": 3.0125,
	"step": 74100
	},
	{
	"epoch": 6.88,
	"learning_rate": 8.610333333333333e-06,
	"loss": 3.034,
	"step": 74200
	},
	{
	"epoch": 6.89,
	"learning_rate": 8.577e-06,
	"loss": 3.0204,
	"step": 74300
	},
	{
	"epoch": 6.9,
	"learning_rate": 8.543666666666666e-06,
	"loss": 2.9966,
	"step": 74400
	},
	{
	"epoch": 6.91,
	"learning_rate": 8.510333333333332e-06,
	"loss": 3.0194,
	"step": 74500
	},
	{
	"epoch": 6.91,
	"eval_loss": 3.3355000019073486,
	"eval_runtime": 58.5227,
	"eval_samples_per_second": 43.094,
	"eval_steps_per_second": 2.7,
	"step": 74500
	},
	{
	"epoch": 6.92,
	"learning_rate": 8.477e-06,
	"loss": 3.0271,
	"step": 74600
	},
	{
	"epoch": 6.92,
	"learning_rate": 8.443666666666667e-06,
	"loss": 3.0311,
	"step": 74700
	},
	{
	"epoch": 6.93,
	"learning_rate": 8.410333333333333e-06,
	"loss": 3.0494,
	"step": 74800
	},
	{
	"epoch": 6.94,
	"learning_rate": 8.377e-06,
	"loss": 3.0271,
	"step": 74900
	},
	{
	"epoch": 6.95,
	"learning_rate": 8.343666666666666e-06,
	"loss": 3.0198,
	"step": 75000
	},
	{
	"epoch": 6.95,
	"eval_loss": 3.3434014320373535,
	"eval_runtime": 59.0815,
	"eval_samples_per_second": 42.687,
	"eval_steps_per_second": 2.674,
	"step": 75000
	},
	{
	"epoch": 6.96,
	"learning_rate": 8.310333333333332e-06,
	"loss": 3.0081,
	"step": 75100
	},
	{
	"epoch": 6.97,
	"learning_rate": 8.276999999999999e-06,
	"loss": 3.0092,
	"step": 75200
	},
	{
	"epoch": 6.98,
	"learning_rate": 8.243666666666667e-06,
	"loss": 3.0053,
	"step": 75300
	},
	{
	"epoch": 6.99,
	"learning_rate": 8.210333333333333e-06,
	"loss": 3.0322,
	"step": 75400
	},
	{
	"epoch": 7.0,
	"learning_rate": 8.177e-06,
	"loss": 3.0105,
	"step": 75500
	},
	{
	"epoch": 7.0,
	"eval_loss": 3.334582567214966,
	"eval_runtime": 58.5577,
	"eval_samples_per_second": 43.069,
	"eval_steps_per_second": 2.698,
	"step": 75500
	},
	{
	"epoch": 7.01,
	"learning_rate": 8.143666666666666e-06,
	"loss": 2.9945,
	"step": 75600
	},
	{
	"epoch": 7.02,
	"learning_rate": 8.110333333333333e-06,
	"loss": 2.9728,
	"step": 75700
	},
	{
	"epoch": 7.03,
	"learning_rate": 8.077e-06,
	"loss": 2.9555,
	"step": 75800
	},
	{
	"epoch": 7.04,
	"learning_rate": 8.043666666666667e-06,
	"loss": 3.0193,
	"step": 75900
	},
	{
	"epoch": 7.04,
	"learning_rate": 8.010333333333334e-06,
	"loss": 2.9833,
	"step": 76000
	},
	{
	"epoch": 7.04,
	"eval_loss": 3.349233865737915,
	"eval_runtime": 58.3506,
	"eval_samples_per_second": 43.221,
	"eval_steps_per_second": 2.708,
	"step": 76000
	},
	{
	"epoch": 7.05,
	"learning_rate": 7.977333333333332e-06,
	"loss": 2.9716,
	"step": 76100
	},
	{
	"epoch": 7.06,
	"learning_rate": 7.943999999999999e-06,
	"loss": 2.9727,
	"step": 76200
	},
	{
	"epoch": 7.07,
	"learning_rate": 7.910666666666665e-06,
	"loss": 2.9814,
	"step": 76300
	},
	{
	"epoch": 7.08,
	"learning_rate": 7.877333333333333e-06,
	"loss": 2.9809,
	"step": 76400
	},
	{
	"epoch": 7.09,
	"learning_rate": 7.844e-06,
	"loss": 2.9876,
	"step": 76500
	},
	{
	"epoch": 7.09,
	"eval_loss": 3.3351352214813232,
	"eval_runtime": 58.4501,
	"eval_samples_per_second": 43.148,
	"eval_steps_per_second": 2.703,
	"step": 76500
	},
	{
	"epoch": 7.1,
	"learning_rate": 7.810666666666668e-06,
	"loss": 3.0019,
	"step": 76600
	},
	{
	"epoch": 7.11,
	"learning_rate": 7.777333333333334e-06,
	"loss": 3.0185,
	"step": 76700
	},
	{
	"epoch": 7.12,
	"learning_rate": 7.744e-06,
	"loss": 3.004,
	"step": 76800
	},
	{
	"epoch": 7.13,
	"learning_rate": 7.710666666666667e-06,
	"loss": 2.9764,
	"step": 76900
	},
	{
	"epoch": 7.14,
	"learning_rate": 7.677333333333334e-06,
	"loss": 2.9918,
	"step": 77000
	},
	{
	"epoch": 7.14,
	"eval_loss": 3.3466107845306396,
	"eval_runtime": 58.4873,
	"eval_samples_per_second": 43.12,
	"eval_steps_per_second": 2.701,
	"step": 77000
	},
	{
	"epoch": 7.15,
	"learning_rate": 7.644000000000002e-06,
	"loss": 2.9665,
	"step": 77100
	},
	{
	"epoch": 7.16,
	"learning_rate": 7.610666666666667e-06,
	"loss": 2.996,
	"step": 77200
	},
	{
	"epoch": 7.17,
	"learning_rate": 7.577333333333334e-06,
	"loss": 2.9867,
	"step": 77300
	},
	{
	"epoch": 7.17,
	"learning_rate": 7.544e-06,
	"loss": 2.9906,
	"step": 77400
	},
	{
	"epoch": 7.18,
	"learning_rate": 7.5106666666666665e-06,
	"loss": 2.9983,
	"step": 77500
	},
	{
	"epoch": 7.18,
	"eval_loss": 3.3421871662139893,
	"eval_runtime": 58.4608,
	"eval_samples_per_second": 43.14,
	"eval_steps_per_second": 2.703,
	"step": 77500
	},
	{
	"epoch": 7.19,
	"learning_rate": 7.477333333333333e-06,
	"loss": 2.9817,
	"step": 77600
	},
	{
	"epoch": 7.2,
	"learning_rate": 7.444e-06,
	"loss": 3.0026,
	"step": 77700
	},
	{
	"epoch": 7.21,
	"learning_rate": 7.410666666666667e-06,
	"loss": 2.9867,
	"step": 77800
	},
	{
	"epoch": 7.22,
	"learning_rate": 7.377333333333333e-06,
	"loss": 2.9828,
	"step": 77900
	},
	{
	"epoch": 7.23,
	"learning_rate": 7.3439999999999995e-06,
	"loss": 2.9893,
	"step": 78000
	},
	{
	"epoch": 7.23,
	"eval_loss": 3.3364152908325195,
	"eval_runtime": 58.5746,
	"eval_samples_per_second": 43.056,
	"eval_steps_per_second": 2.697,
	"step": 78000
	},
	{
	"epoch": 7.24,
	"learning_rate": 7.310666666666667e-06,
	"loss": 3.0015,
	"step": 78100
	},
	{
	"epoch": 7.25,
	"learning_rate": 7.277333333333334e-06,
	"loss": 2.9713,
	"step": 78200
	},
	{
	"epoch": 7.26,
	"learning_rate": 7.2440000000000004e-06,
	"loss": 2.9809,
	"step": 78300
	},
	{
	"epoch": 7.27,
	"learning_rate": 7.210666666666667e-06,
	"loss": 2.9772,
	"step": 78400
	},
	{
	"epoch": 7.28,
	"learning_rate": 7.177333333333334e-06,
	"loss": 2.9946,
	"step": 78500
	},
	{
	"epoch": 7.28,
	"eval_loss": 3.33650279045105,
	"eval_runtime": 59.0382,
	"eval_samples_per_second": 42.718,
	"eval_steps_per_second": 2.676,
	"step": 78500
	},
	{
	"epoch": 7.29,
	"learning_rate": 7.1440000000000005e-06,
	"loss": 2.9888,
	"step": 78600
	},
	{
	"epoch": 7.3,
	"learning_rate": 7.110666666666667e-06,
	"loss": 2.9878,
	"step": 78700
	},
	{
	"epoch": 7.3,
	"learning_rate": 7.077333333333333e-06,
	"loss": 2.9913,
	"step": 78800
	},
	{
	"epoch": 7.31,
	"learning_rate": 7.044000000000001e-06,
	"loss": 2.9804,
	"step": 78900
	},
	{
	"epoch": 7.32,
	"learning_rate": 7.010666666666667e-06,
	"loss": 2.9851,
	"step": 79000
	},
	{
	"epoch": 7.32,
	"eval_loss": 3.340222120285034,
	"eval_runtime": 58.8117,
	"eval_samples_per_second": 42.883,
	"eval_steps_per_second": 2.687,
	"step": 79000
	},
	{
	"epoch": 7.33,
	"learning_rate": 6.9773333333333335e-06,
	"loss": 2.9854,
	"step": 79100
	},
	{
	"epoch": 7.34,
	"learning_rate": 6.944e-06,
	"loss": 2.9957,
	"step": 79200
	},
	{
	"epoch": 7.35,
	"learning_rate": 6.910666666666667e-06,
	"loss": 2.972,
	"step": 79300
	},
	{
	"epoch": 7.36,
	"learning_rate": 6.877333333333334e-06,
	"loss": 2.9743,
	"step": 79400
	},
	{
	"epoch": 7.37,
	"learning_rate": 6.844e-06,
	"loss": 2.9797,
	"step": 79500
	},
	{
	"epoch": 7.37,
	"eval_loss": 3.34499192237854,
	"eval_runtime": 58.7204,
	"eval_samples_per_second": 42.949,
	"eval_steps_per_second": 2.691,
	"step": 79500
	},
	{
	"epoch": 7.38,
	"learning_rate": 6.8106666666666665e-06,
	"loss": 3.0023,
	"step": 79600
	},
	{
	"epoch": 7.39,
	"learning_rate": 6.777333333333334e-06,
	"loss": 2.9963,
	"step": 79700
	},
	{
	"epoch": 7.4,
	"learning_rate": 6.744e-06,
	"loss": 2.9746,
	"step": 79800
	},
	{
	"epoch": 7.41,
	"learning_rate": 6.7106666666666666e-06,
	"loss": 2.9888,
	"step": 79900
	},
	{
	"epoch": 7.42,
	"learning_rate": 6.677333333333334e-06,
	"loss": 2.9888,
	"step": 80000
	},
	{
	"epoch": 7.42,
	"eval_loss": 3.3422751426696777,
	"eval_runtime": 58.8079,
	"eval_samples_per_second": 42.885,
	"eval_steps_per_second": 2.687,
	"step": 80000
	},
	{
	"epoch": 7.42,
	"learning_rate": 6.644e-06,
	"loss": 2.9871,
	"step": 80100
	},
	{
	"epoch": 7.43,
	"learning_rate": 6.610666666666667e-06,
	"loss": 2.987,
	"step": 80200
	},
	{
	"epoch": 7.44,
	"learning_rate": 6.577333333333333e-06,
	"loss": 3.0061,
	"step": 80300
	},
	{
	"epoch": 7.45,
	"learning_rate": 6.544e-06,
	"loss": 2.9757,
	"step": 80400
	},
	{
	"epoch": 7.46,
	"learning_rate": 6.510666666666667e-06,
	"loss": 3.0182,
	"step": 80500
	},
	{
	"epoch": 7.46,
	"eval_loss": 3.34291672706604,
	"eval_runtime": 58.8228,
	"eval_samples_per_second": 42.874,
	"eval_steps_per_second": 2.686,
	"step": 80500
	},
	{
	"epoch": 7.47,
	"learning_rate": 6.477333333333333e-06,
	"loss": 2.9852,
	"step": 80600
	},
	{
	"epoch": 7.48,
	"learning_rate": 6.444e-06,
	"loss": 2.988,
	"step": 80700
	},
	{
	"epoch": 7.49,
	"learning_rate": 6.410666666666667e-06,
	"loss": 2.9814,
	"step": 80800
	},
	{
	"epoch": 7.5,
	"learning_rate": 6.377333333333333e-06,
	"loss": 2.9716,
	"step": 80900
	},
	{
	"epoch": 7.51,
	"learning_rate": 6.344333333333333e-06,
	"loss": 2.983,
	"step": 81000
	},
	{
	"epoch": 7.51,
	"eval_loss": 3.3345420360565186,
	"eval_runtime": 59.2266,
	"eval_samples_per_second": 42.582,
	"eval_steps_per_second": 2.668,
	"step": 81000
	},
	{
	"epoch": 7.52,
	"learning_rate": 6.311e-06,
	"loss": 2.9853,
	"step": 81100
	},
	{
	"epoch": 7.53,
	"learning_rate": 6.277666666666667e-06,
	"loss": 2.9926,
	"step": 81200
	},
	{
	"epoch": 7.54,
	"learning_rate": 6.244666666666667e-06,
	"loss": 2.985,
	"step": 81300
	},
	{
	"epoch": 7.55,
	"learning_rate": 6.2113333333333336e-06,
	"loss": 2.9772,
	"step": 81400
	},
	{
	"epoch": 7.55,
	"learning_rate": 6.178e-06,
	"loss": 2.9959,
	"step": 81500
	},
	{
	"epoch": 7.55,
	"eval_loss": 3.339679479598999,
	"eval_runtime": 58.7971,
	"eval_samples_per_second": 42.893,
	"eval_steps_per_second": 2.687,
	"step": 81500
	},
	{
	"epoch": 7.56,
	"learning_rate": 6.144666666666666e-06,
	"loss": 3.0091,
	"step": 81600
	},
	{
	"epoch": 7.57,
	"learning_rate": 6.111333333333334e-06,
	"loss": 2.9896,
	"step": 81700
	},
	{
	"epoch": 7.58,
	"learning_rate": 6.078e-06,
	"loss": 2.9939,
	"step": 81800
	},
	{
	"epoch": 7.59,
	"learning_rate": 6.0446666666666665e-06,
	"loss": 2.995,
	"step": 81900
	},
	{
	"epoch": 7.6,
	"learning_rate": 6.011333333333333e-06,
	"loss": 2.9935,
	"step": 82000
	},
	{
	"epoch": 7.6,
	"eval_loss": 3.3388760089874268,
	"eval_runtime": 58.8198,
	"eval_samples_per_second": 42.877,
	"eval_steps_per_second": 2.686,
	"step": 82000
	},
	{
	"epoch": 7.61,
	"learning_rate": 5.978e-06,
	"loss": 3.0026,
	"step": 82100
	},
	{
	"epoch": 7.62,
	"learning_rate": 5.944666666666667e-06,
	"loss": 2.9934,
	"step": 82200
	},
	{
	"epoch": 7.63,
	"learning_rate": 5.911333333333333e-06,
	"loss": 2.9797,
	"step": 82300
	},
	{
	"epoch": 7.64,
	"learning_rate": 5.8779999999999995e-06,
	"loss": 2.9878,
	"step": 82400
	},
	{
	"epoch": 7.65,
	"learning_rate": 5.844666666666667e-06,
	"loss": 3.0008,
	"step": 82500
	},
	{
	"epoch": 7.65,
	"eval_loss": 3.344236373901367,
	"eval_runtime": 58.8163,
	"eval_samples_per_second": 42.879,
	"eval_steps_per_second": 2.686,
	"step": 82500
	},
	{
	"epoch": 7.66,
	"learning_rate": 5.811333333333333e-06,
	"loss": 2.9657,
	"step": 82600
	},
	{
	"epoch": 7.67,
	"learning_rate": 5.7779999999999996e-06,
	"loss": 2.9744,
	"step": 82700
	},
	{
	"epoch": 7.68,
	"learning_rate": 5.744666666666666e-06,
	"loss": 3.0177,
	"step": 82800
	},
	{
	"epoch": 7.68,
	"learning_rate": 5.711333333333334e-06,
	"loss": 3.0139,
	"step": 82900
	},
	{
	"epoch": 7.69,
	"learning_rate": 5.6780000000000005e-06,
	"loss": 2.9898,
	"step": 83000
	},
	{
	"epoch": 7.69,
	"eval_loss": 3.341789960861206,
	"eval_runtime": 58.7852,
	"eval_samples_per_second": 42.902,
	"eval_steps_per_second": 2.688,
	"step": 83000
	},
	{
	"epoch": 7.7,
	"learning_rate": 5.644666666666667e-06,
	"loss": 2.9834,
	"step": 83100
	},
	{
	"epoch": 7.71,
	"learning_rate": 5.611333333333334e-06,
	"loss": 2.9756,
	"step": 83200
	},
	{
	"epoch": 7.72,
	"learning_rate": 5.578000000000001e-06,
	"loss": 2.9912,
	"step": 83300
	},
	{
	"epoch": 7.73,
	"learning_rate": 5.544666666666667e-06,
	"loss": 2.9926,
	"step": 83400
	},
	{
	"epoch": 7.74,
	"learning_rate": 5.5113333333333335e-06,
	"loss": 2.9989,
	"step": 83500
	},
	{
	"epoch": 7.74,
	"eval_loss": 3.338747978210449,
	"eval_runtime": 58.6599,
	"eval_samples_per_second": 42.994,
	"eval_steps_per_second": 2.693,
	"step": 83500
	},
	{
	"epoch": 7.75,
	"learning_rate": 5.478000000000001e-06,
	"loss": 2.9927,
	"step": 83600
	},
	{
	"epoch": 7.76,
	"learning_rate": 5.444666666666667e-06,
	"loss": 3.0075,
	"step": 83700
	},
	{
	"epoch": 7.77,
	"learning_rate": 5.411333333333334e-06,
	"loss": 2.9916,
	"step": 83800
	},
	{
	"epoch": 7.78,
	"learning_rate": 5.378e-06,
	"loss": 2.9829,
	"step": 83900
	},
	{
	"epoch": 7.79,
	"learning_rate": 5.344666666666667e-06,
	"loss": 2.985,
	"step": 84000
	},
	{
	"epoch": 7.79,
	"eval_loss": 3.3482091426849365,
	"eval_runtime": 58.808,
	"eval_samples_per_second": 42.885,
	"eval_steps_per_second": 2.687,
	"step": 84000
	},
	{
	"epoch": 7.8,
	"learning_rate": 5.311333333333334e-06,
	"loss": 2.996,
	"step": 84100
	},
	{
	"epoch": 7.8,
	"learning_rate": 5.278e-06,
	"loss": 2.9882,
	"step": 84200
	},
	{
	"epoch": 7.81,
	"learning_rate": 5.2446666666666665e-06,
	"loss": 2.9571,
	"step": 84300
	},
	{
	"epoch": 7.82,
	"learning_rate": 5.211333333333334e-06,
	"loss": 2.99,
	"step": 84400
	},
	{
	"epoch": 7.83,
	"learning_rate": 5.178e-06,
	"loss": 2.963,
	"step": 84500
	},
	{
	"epoch": 7.83,
	"eval_loss": 3.336893081665039,
	"eval_runtime": 58.7829,
	"eval_samples_per_second": 42.904,
	"eval_steps_per_second": 2.688,
	"step": 84500
	},
	{
	"epoch": 7.84,
	"learning_rate": 5.144666666666667e-06,
	"loss": 3.0006,
	"step": 84600
	},
	{
	"epoch": 7.85,
	"learning_rate": 5.111333333333333e-06,
	"loss": 2.9778,
	"step": 84700
	},
	{
	"epoch": 7.86,
	"learning_rate": 5.078e-06,
	"loss": 2.9831,
	"step": 84800
	},
	{
	"epoch": 7.87,
	"learning_rate": 5.044666666666667e-06,
	"loss": 2.9826,
	"step": 84900
	},
	{
	"epoch": 7.88,
	"learning_rate": 5.011333333333333e-06,
	"loss": 3.0009,
	"step": 85000
	},
	{
	"epoch": 7.88,
	"eval_loss": 3.3354852199554443,
	"eval_runtime": 58.7637,
	"eval_samples_per_second": 42.918,
	"eval_steps_per_second": 2.689,
	"step": 85000
	},
	{
	"epoch": 7.89,
	"learning_rate": 4.978e-06,
	"loss": 2.9828,
	"step": 85100
	},
	{
	"epoch": 7.9,
	"learning_rate": 4.944666666666667e-06,
	"loss": 2.9601,
	"step": 85200
	},
	{
	"epoch": 7.91,
	"learning_rate": 4.911333333333333e-06,
	"loss": 2.9907,
	"step": 85300
	},
	{
	"epoch": 7.92,
	"learning_rate": 4.878e-06,
	"loss": 2.9831,
	"step": 85400
	},
	{
	"epoch": 7.93,
	"learning_rate": 4.844666666666666e-06,
	"loss": 2.9925,
	"step": 85500
	},
	{
	"epoch": 7.93,
	"eval_loss": 3.3433709144592285,
	"eval_runtime": 58.875,
	"eval_samples_per_second": 42.837,
	"eval_steps_per_second": 2.684,
	"step": 85500
	},
	{
	"epoch": 7.93,
	"learning_rate": 4.811333333333333e-06,
	"loss": 2.9983,
	"step": 85600
	},
	{
	"epoch": 7.94,
	"learning_rate": 4.778e-06,
	"loss": 2.9752,
	"step": 85700
	},
	{
	"epoch": 7.95,
	"learning_rate": 4.744666666666666e-06,
	"loss": 2.982,
	"step": 85800
	},
	{
	"epoch": 7.96,
	"learning_rate": 4.711333333333333e-06,
	"loss": 3.0021,
	"step": 85900
	},
	{
	"epoch": 7.97,
	"learning_rate": 4.678e-06,
	"loss": 2.9616,
	"step": 86000
	},
	{
	"epoch": 7.97,
	"eval_loss": 3.334641933441162,
	"eval_runtime": 58.7933,
	"eval_samples_per_second": 42.896,
	"eval_steps_per_second": 2.687,
	"step": 86000
	},
	{
	"epoch": 7.98,
	"learning_rate": 4.644666666666667e-06,
	"loss": 2.9642,
	"step": 86100
	},
	{
	"epoch": 7.99,
	"learning_rate": 4.611333333333334e-06,
	"loss": 2.9826,
	"step": 86200
	},
	{
	"epoch": 8.0,
	"learning_rate": 4.578000000000001e-06,
	"loss": 2.964,
	"step": 86300
	},
	{
	"epoch": 8.01,
	"learning_rate": 4.544666666666667e-06,
	"loss": 2.9774,
	"step": 86400
	},
	{
	"epoch": 8.02,
	"learning_rate": 4.511333333333334e-06,
	"loss": 2.9769,
	"step": 86500
	},
	{
	"epoch": 8.02,
	"eval_loss": 3.342970848083496,
	"eval_runtime": 58.8227,
	"eval_samples_per_second": 42.875,
	"eval_steps_per_second": 2.686,
	"step": 86500
	},
	{
	"epoch": 8.03,
	"learning_rate": 4.478e-06,
	"loss": 2.9404,
	"step": 86600
	},
	{
	"epoch": 8.04,
	"learning_rate": 4.444666666666667e-06,
	"loss": 2.9816,
	"step": 86700
	},
	{
	"epoch": 8.05,
	"learning_rate": 4.411333333333334e-06,
	"loss": 2.9675,
	"step": 86800
	},
	{
	"epoch": 8.06,
	"learning_rate": 4.378e-06,
	"loss": 2.9517,
	"step": 86900
	},
	{
	"epoch": 8.06,
	"learning_rate": 4.345000000000001e-06,
	"loss": 2.9663,
	"step": 87000
	},
	{
	"epoch": 8.06,
	"eval_loss": 3.3406615257263184,
	"eval_runtime": 58.7795,
	"eval_samples_per_second": 42.906,
	"eval_steps_per_second": 2.688,
	"step": 87000
	},
	{
	"epoch": 8.07,
	"learning_rate": 4.311666666666667e-06,
	"loss": 2.988,
	"step": 87100
	},
	{
	"epoch": 8.08,
	"learning_rate": 4.278333333333334e-06,
	"loss": 2.965,
	"step": 87200
	},
	{
	"epoch": 8.09,
	"learning_rate": 4.245e-06,
	"loss": 2.9809,
	"step": 87300
	},
	{
	"epoch": 8.1,
	"learning_rate": 4.211666666666667e-06,
	"loss": 2.9454,
	"step": 87400
	},
	{
	"epoch": 8.11,
	"learning_rate": 4.178333333333334e-06,
	"loss": 2.9872,
	"step": 87500
	},
	{
	"epoch": 8.11,
	"eval_loss": 3.3447818756103516,
	"eval_runtime": 58.6814,
	"eval_samples_per_second": 42.978,
	"eval_steps_per_second": 2.693,
	"step": 87500
	},
	{
	"epoch": 8.12,
	"learning_rate": 4.145e-06,
	"loss": 2.9563,
	"step": 87600
	},
	{
	"epoch": 8.13,
	"learning_rate": 4.111666666666667e-06,
	"loss": 2.9658,
	"step": 87700
	},
	{
	"epoch": 8.14,
	"learning_rate": 4.078333333333334e-06,
	"loss": 2.9403,
	"step": 87800
	},
	{
	"epoch": 8.15,
	"learning_rate": 4.045e-06,
	"loss": 2.9662,
	"step": 87900
	},
	{
	"epoch": 8.16,
	"learning_rate": 4.011666666666667e-06,
	"loss": 2.9892,
	"step": 88000
	},
	{
	"epoch": 8.16,
	"eval_loss": 3.335402250289917,
	"eval_runtime": 58.7763,
	"eval_samples_per_second": 42.908,
	"eval_steps_per_second": 2.688,
	"step": 88000
	},
	{
	"epoch": 8.17,
	"learning_rate": 3.978333333333334e-06,
	"loss": 2.9684,
	"step": 88100
	},
	{
	"epoch": 8.18,
	"learning_rate": 3.945e-06,
	"loss": 2.9314,
	"step": 88200
	},
	{
	"epoch": 8.19,
	"learning_rate": 3.911666666666667e-06,
	"loss": 2.9733,
	"step": 88300
	},
	{
	"epoch": 8.19,
	"learning_rate": 3.878333333333333e-06,
	"loss": 2.9678,
	"step": 88400
	},
	{
	"epoch": 8.2,
	"learning_rate": 3.8450000000000005e-06,
	"loss": 2.9526,
	"step": 88500
	},
	{
	"epoch": 8.2,
	"eval_loss": 3.344485282897949,
	"eval_runtime": 58.7827,
	"eval_samples_per_second": 42.904,
	"eval_steps_per_second": 2.688,
	"step": 88500
	},
	{
	"epoch": 8.21,
	"learning_rate": 3.812e-06,
	"loss": 2.9573,
	"step": 88600
	},
	{
	"epoch": 8.22,
	"learning_rate": 3.7786666666666665e-06,
	"loss": 2.9623,
	"step": 88700
	},
	{
	"epoch": 8.23,
	"learning_rate": 3.7453333333333334e-06,
	"loss": 2.9442,
	"step": 88800
	},
	{
	"epoch": 8.24,
	"learning_rate": 3.712e-06,
	"loss": 2.9698,
	"step": 88900
	},
	{
	"epoch": 8.25,
	"learning_rate": 3.6786666666666666e-06,
	"loss": 2.9426,
	"step": 89000
	},
	{
	"epoch": 8.25,
	"eval_loss": 3.3404858112335205,
	"eval_runtime": 58.8013,
	"eval_samples_per_second": 42.89,
	"eval_steps_per_second": 2.687,
	"step": 89000
	},
	{
	"epoch": 8.26,
	"learning_rate": 3.6453333333333335e-06,
	"loss": 2.9715,
	"step": 89100
	},
	{
	"epoch": 8.27,
	"learning_rate": 3.612e-06,
	"loss": 2.9601,
	"step": 89200
	},
	{
	"epoch": 8.28,
	"learning_rate": 3.5786666666666667e-06,
	"loss": 2.946,
	"step": 89300
	},
	{
	"epoch": 8.29,
	"learning_rate": 3.5453333333333336e-06,
	"loss": 2.961,
	"step": 89400
	},
	{
	"epoch": 8.3,
	"learning_rate": 3.512e-06,
	"loss": 2.9528,
	"step": 89500
	},
	{
	"epoch": 8.3,
	"eval_loss": 3.346575975418091,
	"eval_runtime": 58.8294,
	"eval_samples_per_second": 42.87,
	"eval_steps_per_second": 2.686,
	"step": 89500
	},
	{
	"epoch": 8.31,
	"learning_rate": 3.478666666666667e-06,
	"loss": 2.9626,
	"step": 89600
	},
	{
	"epoch": 8.31,
	"learning_rate": 3.4453333333333333e-06,
	"loss": 2.969,
	"step": 89700
	},
	{
	"epoch": 8.32,
	"learning_rate": 3.412e-06,
	"loss": 2.9517,
	"step": 89800
	},
	{
	"epoch": 8.33,
	"learning_rate": 3.3786666666666665e-06,
	"loss": 2.9575,
	"step": 89900
	},
	{
	"epoch": 8.34,
	"learning_rate": 3.3453333333333334e-06,
	"loss": 2.9541,
	"step": 90000
	},
	{
	"epoch": 8.34,
	"eval_loss": 3.3433806896209717,
	"eval_runtime": 58.9549,
	"eval_samples_per_second": 42.778,
	"eval_steps_per_second": 2.68,
	"step": 90000
	},
	{
	"epoch": 8.35,
	"learning_rate": 3.3120000000000002e-06,
	"loss": 2.9619,
	"step": 90100
	},
	{
	"epoch": 8.36,
	"learning_rate": 3.278666666666667e-06,
	"loss": 2.9673,
	"step": 90200
	},
	{
	"epoch": 8.37,
	"learning_rate": 3.2453333333333335e-06,
	"loss": 2.9709,
	"step": 90300
	},
	{
	"epoch": 8.38,
	"learning_rate": 3.2120000000000003e-06,
	"loss": 2.9687,
	"step": 90400
	},
	{
	"epoch": 8.39,
	"learning_rate": 3.1786666666666668e-06,
	"loss": 2.9643,
	"step": 90500
	},
	{
	"epoch": 8.39,
	"eval_loss": 3.3475043773651123,
	"eval_runtime": 58.9317,
	"eval_samples_per_second": 42.795,
	"eval_steps_per_second": 2.681,
	"step": 90500
	},
	{
	"epoch": 8.4,
	"learning_rate": 3.1453333333333336e-06,
	"loss": 2.9844,
	"step": 90600
	},
	{
	"epoch": 8.41,
	"learning_rate": 3.112e-06,
	"loss": 2.9647,
	"step": 90700
	},
	{
	"epoch": 8.42,
	"learning_rate": 3.078666666666667e-06,
	"loss": 2.9648,
	"step": 90800
	},
	{
	"epoch": 8.43,
	"learning_rate": 3.0453333333333333e-06,
	"loss": 2.9608,
	"step": 90900
	},
	{
	"epoch": 8.44,
	"learning_rate": 3.012e-06,
	"loss": 2.9893,
	"step": 91000
	},
	{
	"epoch": 8.44,
	"eval_loss": 3.34340238571167,
	"eval_runtime": 58.8211,
	"eval_samples_per_second": 42.876,
	"eval_steps_per_second": 2.686,
	"step": 91000
	},
	{
	"epoch": 8.44,
	"learning_rate": 2.9786666666666666e-06,
	"loss": 2.974,
	"step": 91100
	},
	{
	"epoch": 8.45,
	"learning_rate": 2.9453333333333334e-06,
	"loss": 2.9603,
	"step": 91200
	},
	{
	"epoch": 8.46,
	"learning_rate": 2.912e-06,
	"loss": 2.9622,
	"step": 91300
	},
	{
	"epoch": 8.47,
	"learning_rate": 2.8786666666666667e-06,
	"loss": 2.981,
	"step": 91400
	},
	{
	"epoch": 8.48,
	"learning_rate": 2.845333333333333e-06,
	"loss": 2.9655,
	"step": 91500
	},
	{
	"epoch": 8.48,
	"eval_loss": 3.3432605266571045,
	"eval_runtime": 58.7071,
	"eval_samples_per_second": 42.959,
	"eval_steps_per_second": 2.691,
	"step": 91500
	},
	{
	"epoch": 8.49,
	"learning_rate": 2.812e-06,
	"loss": 2.9592,
	"step": 91600
	},
	{
	"epoch": 8.5,
	"learning_rate": 2.7786666666666668e-06,
	"loss": 2.9539,
	"step": 91700
	},
	{
	"epoch": 8.51,
	"learning_rate": 2.7453333333333336e-06,
	"loss": 2.946,
	"step": 91800
	},
	{
	"epoch": 8.52,
	"learning_rate": 2.7123333333333333e-06,
	"loss": 2.9562,
	"step": 91900
	},
	{
	"epoch": 8.53,
	"learning_rate": 2.679e-06,
	"loss": 2.9735,
	"step": 92000
	},
	{
	"epoch": 8.53,
	"eval_loss": 3.34155535697937,
	"eval_runtime": 58.8115,
	"eval_samples_per_second": 42.883,
	"eval_steps_per_second": 2.687,
	"step": 92000
	},
	{
	"epoch": 8.54,
	"learning_rate": 2.6456666666666665e-06,
	"loss": 2.9816,
	"step": 92100
	},
	{
	"epoch": 8.55,
	"learning_rate": 2.6123333333333334e-06,
	"loss": 2.9513,
	"step": 92200
	},
	{
	"epoch": 8.56,
	"learning_rate": 2.5789999999999998e-06,
	"loss": 2.9597,
	"step": 92300
	},
	{
	"epoch": 8.57,
	"learning_rate": 2.5456666666666666e-06,
	"loss": 2.9422,
	"step": 92400
	},
	{
	"epoch": 8.57,
	"learning_rate": 2.5123333333333335e-06,
	"loss": 2.9722,
	"step": 92500
	},
	{
	"epoch": 8.57,
	"eval_loss": 3.3442583084106445,
	"eval_runtime": 58.8036,
	"eval_samples_per_second": 42.889,
	"eval_steps_per_second": 2.687,
	"step": 92500
	},
	{
	"epoch": 8.58,
	"learning_rate": 2.4790000000000003e-06,
	"loss": 2.9644,
	"step": 92600
	},
	{
	"epoch": 8.59,
	"learning_rate": 2.4456666666666667e-06,
	"loss": 2.9772,
	"step": 92700
	},
	{
	"epoch": 8.6,
	"learning_rate": 2.4123333333333336e-06,
	"loss": 2.9719,
	"step": 92800
	},
	{
	"epoch": 8.61,
	"learning_rate": 2.379e-06,
	"loss": 2.9755,
	"step": 92900
	},
	{
	"epoch": 8.62,
	"learning_rate": 2.345666666666667e-06,
	"loss": 2.9639,
	"step": 93000
	},
	{
	"epoch": 8.62,
	"eval_loss": 3.341038703918457,
	"eval_runtime": 59.0328,
	"eval_samples_per_second": 42.722,
	"eval_steps_per_second": 2.676,
	"step": 93000
	},
	{
	"epoch": 8.63,
	"learning_rate": 2.3123333333333333e-06,
	"loss": 2.9544,
	"step": 93100
	},
	{
	"epoch": 8.64,
	"learning_rate": 2.279e-06,
	"loss": 2.9492,
	"step": 93200
	},
	{
	"epoch": 8.65,
	"learning_rate": 2.2456666666666665e-06,
	"loss": 2.946,
	"step": 93300
	},
	{
	"epoch": 8.66,
	"learning_rate": 2.2123333333333334e-06,
	"loss": 2.9871,
	"step": 93400
	},
	{
	"epoch": 8.67,
	"learning_rate": 2.179e-06,
	"loss": 2.972,
	"step": 93500
	},
	{
	"epoch": 8.67,
	"eval_loss": 3.34065580368042,
	"eval_runtime": 58.9384,
	"eval_samples_per_second": 42.79,
	"eval_steps_per_second": 2.681,
	"step": 93500
	},
	{
	"epoch": 8.68,
	"learning_rate": 2.1456666666666666e-06,
	"loss": 2.9653,
	"step": 93600
	},
	{
	"epoch": 8.69,
	"learning_rate": 2.112333333333333e-06,
	"loss": 2.958,
	"step": 93700
	},
	{
	"epoch": 8.69,
	"learning_rate": 2.079e-06,
	"loss": 2.9378,
	"step": 93800
	},
	{
	"epoch": 8.7,
	"learning_rate": 2.0456666666666663e-06,
	"loss": 2.9351,
	"step": 93900
	},
	{
	"epoch": 8.71,
	"learning_rate": 2.012333333333333e-06,
	"loss": 2.9586,
	"step": 94000
	},
	{
	"epoch": 8.71,
	"eval_loss": 3.339259386062622,
	"eval_runtime": 58.7723,
	"eval_samples_per_second": 42.911,
	"eval_steps_per_second": 2.688,
	"step": 94000
	},
	{
	"epoch": 8.72,
	"learning_rate": 1.9790000000000004e-06,
	"loss": 2.9755,
	"step": 94100
	},
	{
	"epoch": 8.73,
	"learning_rate": 1.945666666666667e-06,
	"loss": 2.9855,
	"step": 94200
	},
	{
	"epoch": 8.74,
	"learning_rate": 1.9123333333333337e-06,
	"loss": 2.9475,
	"step": 94300
	},
	{
	"epoch": 8.75,
	"learning_rate": 1.879e-06,
	"loss": 2.9594,
	"step": 94400
	},
	{
	"epoch": 8.76,
	"learning_rate": 1.8456666666666668e-06,
	"loss": 2.9591,
	"step": 94500
	},
	{
	"epoch": 8.76,
	"eval_loss": 3.34123158454895,
	"eval_runtime": 58.6197,
	"eval_samples_per_second": 43.023,
	"eval_steps_per_second": 2.695,
	"step": 94500
	},
	{
	"epoch": 8.77,
	"learning_rate": 1.8123333333333334e-06,
	"loss": 2.9736,
	"step": 94600
	},
	{
	"epoch": 8.78,
	"learning_rate": 1.779e-06,
	"loss": 2.9952,
	"step": 94700
	},
	{
	"epoch": 8.79,
	"learning_rate": 1.7456666666666667e-06,
	"loss": 2.9835,
	"step": 94800
	},
	{
	"epoch": 8.8,
	"learning_rate": 1.7123333333333333e-06,
	"loss": 2.9721,
	"step": 94900
	},
	{
	"epoch": 8.81,
	"learning_rate": 1.679e-06,
	"loss": 2.9523,
	"step": 95000
	},
	{
	"epoch": 8.81,
	"eval_loss": 3.3411006927490234,
	"eval_runtime": 58.8077,
	"eval_samples_per_second": 42.886,
	"eval_steps_per_second": 2.687,
	"step": 95000
	},
	{
	"epoch": 8.82,
	"learning_rate": 1.6456666666666666e-06,
	"loss": 2.9514,
	"step": 95100
	},
	{
	"epoch": 8.82,
	"learning_rate": 1.6123333333333332e-06,
	"loss": 2.9633,
	"step": 95200
	},
	{
	"epoch": 8.83,
	"learning_rate": 1.579e-06,
	"loss": 2.9649,
	"step": 95300
	},
	{
	"epoch": 8.84,
	"learning_rate": 1.5456666666666667e-06,
	"loss": 2.9715,
	"step": 95400
	},
	{
	"epoch": 8.85,
	"learning_rate": 1.5123333333333333e-06,
	"loss": 2.9572,
	"step": 95500
	},
	{
	"epoch": 8.85,
	"eval_loss": 3.3393239974975586,
	"eval_runtime": 58.7937,
	"eval_samples_per_second": 42.896,
	"eval_steps_per_second": 2.687,
	"step": 95500
	},
	{
	"epoch": 8.86,
	"learning_rate": 1.479e-06,
	"loss": 2.966,
	"step": 95600
	},
	{
	"epoch": 8.87,
	"learning_rate": 1.4456666666666668e-06,
	"loss": 2.9756,
	"step": 95700
	},
	{
	"epoch": 8.88,
	"learning_rate": 1.4123333333333334e-06,
	"loss": 2.9595,
	"step": 95800
	},
	{
	"epoch": 8.89,
	"learning_rate": 1.379e-06,
	"loss": 2.964,
	"step": 95900
	},
	{
	"epoch": 8.9,
	"learning_rate": 1.3456666666666667e-06,
	"loss": 2.9435,
	"step": 96000
	},
	{
	"epoch": 8.9,
	"eval_loss": 3.3414018154144287,
	"eval_runtime": 58.8155,
	"eval_samples_per_second": 42.88,
	"eval_steps_per_second": 2.686,
	"step": 96000
	},
	{
	"epoch": 8.91,
	"learning_rate": 1.3123333333333335e-06,
	"loss": 2.9617,
	"step": 96100
	},
	{
	"epoch": 8.92,
	"learning_rate": 1.2790000000000002e-06,
	"loss": 2.9852,
	"step": 96200
	},
	{
	"epoch": 8.93,
	"learning_rate": 1.2456666666666668e-06,
	"loss": 2.9547,
	"step": 96300
	},
	{
	"epoch": 8.94,
	"learning_rate": 1.2123333333333334e-06,
	"loss": 2.9694,
	"step": 96400
	},
	{
	"epoch": 8.95,
	"learning_rate": 1.179e-06,
	"loss": 2.9667,
	"step": 96500
	},
	{
	"epoch": 8.95,
	"eval_loss": 3.339236259460449,
	"eval_runtime": 58.8107,
	"eval_samples_per_second": 42.883,
	"eval_steps_per_second": 2.687,
	"step": 96500
	},
	{
	"epoch": 8.95,
	"learning_rate": 1.146e-06,
	"loss": 2.9546,
	"step": 96600
	},
	{
	"epoch": 8.96,
	"learning_rate": 1.1126666666666665e-06,
	"loss": 2.9477,
	"step": 96700
	},
	{
	"epoch": 8.97,
	"learning_rate": 1.0793333333333332e-06,
	"loss": 2.9888,
	"step": 96800
	},
	{
	"epoch": 8.98,
	"learning_rate": 1.046e-06,
	"loss": 2.96,
	"step": 96900
	},
	{
	"epoch": 8.99,
	"learning_rate": 1.0126666666666667e-06,
	"loss": 2.9824,
	"step": 97000
	},
	{
	"epoch": 8.99,
	"eval_loss": 3.342782735824585,
	"eval_runtime": 58.7905,
	"eval_samples_per_second": 42.898,
	"eval_steps_per_second": 2.688,
	"step": 97000
	},
	{
	"epoch": 9.0,
	"learning_rate": 9.793333333333333e-07,
	"loss": 2.9915,
	"step": 97100
	},
	{
	"epoch": 9.01,
	"learning_rate": 9.459999999999999e-07,
	"loss": 2.9193,
	"step": 97200
	},
	{
	"epoch": 9.02,
	"learning_rate": 9.126666666666667e-07,
	"loss": 2.9359,
	"step": 97300
	},
	{
	"epoch": 9.03,
	"learning_rate": 8.793333333333333e-07,
	"loss": 2.9419,
	"step": 97400
	},
	{
	"epoch": 9.04,
	"learning_rate": 8.46e-07,
	"loss": 2.9265,
	"step": 97500
	},
	{
	"epoch": 9.04,
	"eval_loss": 3.3416593074798584,
	"eval_runtime": 58.7962,
	"eval_samples_per_second": 42.894,
	"eval_steps_per_second": 2.687,
	"step": 97500
	},
	{
	"epoch": 9.05,
	"learning_rate": 8.126666666666667e-07,
	"loss": 2.9493,
	"step": 97600
	},
	{
	"epoch": 9.06,
	"learning_rate": 7.793333333333333e-07,
	"loss": 2.9682,
	"step": 97700
	},
	{
	"epoch": 9.07,
	"learning_rate": 7.459999999999999e-07,
	"loss": 2.9596,
	"step": 97800
	},
	{
	"epoch": 9.07,
	"learning_rate": 7.126666666666667e-07,
	"loss": 2.9746,
	"step": 97900
	},
	{
	"epoch": 9.08,
	"learning_rate": 6.793333333333333e-07,
	"loss": 2.9409,
	"step": 98000
	},
	{
	"epoch": 9.08,
	"eval_loss": 3.3435006141662598,
	"eval_runtime": 58.7852,
	"eval_samples_per_second": 42.902,
	"eval_steps_per_second": 2.688,
	"step": 98000
	},
	{
	"epoch": 9.09,
	"learning_rate": 6.46e-07,
	"loss": 2.9584,
	"step": 98100
	},
	{
	"epoch": 9.1,
	"learning_rate": 6.126666666666667e-07,
	"loss": 2.9472,
	"step": 98200
	},
	{
	"epoch": 9.11,
	"learning_rate": 5.793333333333334e-07,
	"loss": 2.9572,
	"step": 98300
	},
	{
	"epoch": 9.12,
	"learning_rate": 5.46e-07,
	"loss": 2.9546,
	"step": 98400
	},
	{
	"epoch": 9.13,
	"learning_rate": 5.126666666666667e-07,
	"loss": 2.9387,
	"step": 98500
	},
	{
	"epoch": 9.13,
	"eval_loss": 3.3424575328826904,
	"eval_runtime": 58.7964,
	"eval_samples_per_second": 42.894,
	"eval_steps_per_second": 2.687,
	"step": 98500
	},
	{
	"epoch": 9.14,
	"learning_rate": 4.793333333333333e-07,
	"loss": 2.9402,
	"step": 98600
	},
	{
	"epoch": 9.15,
	"learning_rate": 4.46e-07,
	"loss": 2.9457,
	"step": 98700
	},
	{
	"epoch": 9.16,
	"learning_rate": 4.126666666666667e-07,
	"loss": 2.9497,
	"step": 98800
	},
	{
	"epoch": 9.17,
	"learning_rate": 3.793333333333333e-07,
	"loss": 2.9182,
	"step": 98900
	},
	{
	"epoch": 9.18,
	"learning_rate": 3.46e-07,
	"loss": 2.9635,
	"step": 99000
	},
	{
	"epoch": 9.18,
	"eval_loss": 3.3419737815856934,
	"eval_runtime": 58.8159,
	"eval_samples_per_second": 42.88,
	"eval_steps_per_second": 2.686,
	"step": 99000
	},
	{
	"epoch": 9.19,
	"learning_rate": 3.1266666666666663e-07,
	"loss": 2.9419,
	"step": 99100
	},
	{
	"epoch": 9.2,
	"learning_rate": 2.793333333333333e-07,
	"loss": 2.9275,
	"step": 99200
	},
	{
	"epoch": 9.2,
	"learning_rate": 2.46e-07,
	"loss": 2.9403,
	"step": 99300
	},
	{
	"epoch": 9.21,
	"learning_rate": 2.1300000000000001e-07,
	"loss": 2.9553,
	"step": 99400
	},
	{
	"epoch": 9.22,
	"learning_rate": 1.7966666666666667e-07,
	"loss": 2.9527,
	"step": 99500
	},
	{
	"epoch": 9.22,
	"eval_loss": 3.3421177864074707,
	"eval_runtime": 58.7204,
	"eval_samples_per_second": 42.949,
	"eval_steps_per_second": 2.691,
	"step": 99500
	},
	{
	"epoch": 9.23,
	"learning_rate": 1.4633333333333333e-07,
	"loss": 2.9615,
	"step": 99600
	},
	{
	"epoch": 9.24,
	"learning_rate": 1.13e-07,
	"loss": 2.948,
	"step": 99700
	},
	{
	"epoch": 9.25,
	"learning_rate": 7.966666666666667e-08,
	"loss": 2.9377,
	"step": 99800
	},
	{
	"epoch": 9.26,
	"learning_rate": 4.666666666666667e-08,
	"loss": 2.9516,
	"step": 99900
	},
	{
	"epoch": 9.27,
	"learning_rate": 1.3333333333333334e-08,
	"loss": 2.9755,
	"step": 100000
	},
	{
	"epoch": 9.27,
	"eval_loss": 3.343003511428833,
	"eval_runtime": 58.9494,
	"eval_samples_per_second": 42.782,
	"eval_steps_per_second": 2.68,
	"step": 100000
	},
	{
	"epoch": 9.27,
	"step": 100000,
	"total_flos": 8.121856795040809e+18,
	"train_loss": 0.653541208190918,
	"train_runtime": 35450.0434,
	"train_samples_per_second": 45.134,
	"train_steps_per_second": 2.821
	}
	],
	"max_steps": 100000,
	"num_train_epochs": 10,
	"total_flos": 8.121856795040809e+18,
	"trial_name": null,
	"trial_params": null
	}