lact / trainer_state.json

Upload 13 files

4a15b34 over 1 year ago

221 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 9.998499249624812,
	"global_step": 4990,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 7.991983967935872e-05,
	"loss": 6.0598,
	"step": 5
	},
	{
	"epoch": 0.02,
	"learning_rate": 7.983967935871744e-05,
	"loss": 3.2882,
	"step": 10
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.9581081867218018,
	"eval_runtime": 30.7575,
	"eval_samples_per_second": 7.218,
	"eval_steps_per_second": 1.821,
	"step": 10
	},
	{
	"epoch": 0.03,
	"learning_rate": 7.975951903807616e-05,
	"loss": 2.8014,
	"step": 15
	},
	{
	"epoch": 0.04,
	"learning_rate": 7.967935871743487e-05,
	"loss": 2.5059,
	"step": 20
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.384403944015503,
	"eval_runtime": 30.8572,
	"eval_samples_per_second": 7.194,
	"eval_steps_per_second": 1.815,
	"step": 20
	},
	{
	"epoch": 0.05,
	"learning_rate": 7.95991983967936e-05,
	"loss": 2.404,
	"step": 25
	},
	{
	"epoch": 0.06,
	"learning_rate": 7.951903807615231e-05,
	"loss": 2.3368,
	"step": 30
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3643715381622314,
	"eval_runtime": 30.9262,
	"eval_samples_per_second": 7.178,
	"eval_steps_per_second": 1.811,
	"step": 30
	},
	{
	"epoch": 0.07,
	"learning_rate": 7.943887775551104e-05,
	"loss": 2.2994,
	"step": 35
	},
	{
	"epoch": 0.08,
	"learning_rate": 7.935871743486974e-05,
	"loss": 2.3476,
	"step": 40
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.349405288696289,
	"eval_runtime": 30.9436,
	"eval_samples_per_second": 7.174,
	"eval_steps_per_second": 1.81,
	"step": 40
	},
	{
	"epoch": 0.09,
	"learning_rate": 7.927855711422847e-05,
	"loss": 2.3623,
	"step": 45
	},
	{
	"epoch": 0.1,
	"learning_rate": 7.919839679358717e-05,
	"loss": 2.3185,
	"step": 50
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.369673252105713,
	"eval_runtime": 30.9718,
	"eval_samples_per_second": 7.168,
	"eval_steps_per_second": 1.808,
	"step": 50
	},
	{
	"epoch": 0.11,
	"learning_rate": 7.91182364729459e-05,
	"loss": 2.433,
	"step": 55
	},
	{
	"epoch": 0.12,
	"learning_rate": 7.903807615230462e-05,
	"loss": 2.3468,
	"step": 60
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.32550048828125,
	"eval_runtime": 31.009,
	"eval_samples_per_second": 7.159,
	"eval_steps_per_second": 1.806,
	"step": 60
	},
	{
	"epoch": 0.13,
	"learning_rate": 7.895791583166334e-05,
	"loss": 2.2554,
	"step": 65
	},
	{
	"epoch": 0.14,
	"learning_rate": 7.887775551102205e-05,
	"loss": 2.262,
	"step": 70
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.2511556148529053,
	"eval_runtime": 31.035,
	"eval_samples_per_second": 7.153,
	"eval_steps_per_second": 1.804,
	"step": 70
	},
	{
	"epoch": 0.15,
	"learning_rate": 7.879759519038077e-05,
	"loss": 2.2116,
	"step": 75
	},
	{
	"epoch": 0.16,
	"learning_rate": 7.871743486973949e-05,
	"loss": 2.1646,
	"step": 80
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.194511651992798,
	"eval_runtime": 31.0667,
	"eval_samples_per_second": 7.146,
	"eval_steps_per_second": 1.803,
	"step": 80
	},
	{
	"epoch": 0.17,
	"learning_rate": 7.86372745490982e-05,
	"loss": 2.1732,
	"step": 85
	},
	{
	"epoch": 0.18,
	"learning_rate": 7.855711422845692e-05,
	"loss": 2.1558,
	"step": 90
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.188542366027832,
	"eval_runtime": 31.077,
	"eval_samples_per_second": 7.144,
	"eval_steps_per_second": 1.802,
	"step": 90
	},
	{
	"epoch": 0.19,
	"learning_rate": 7.847695390781564e-05,
	"loss": 2.2353,
	"step": 95
	},
	{
	"epoch": 0.2,
	"learning_rate": 7.839679358717435e-05,
	"loss": 2.1934,
	"step": 100
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.148287057876587,
	"eval_runtime": 31.1071,
	"eval_samples_per_second": 7.137,
	"eval_steps_per_second": 1.8,
	"step": 100
	},
	{
	"epoch": 0.21,
	"learning_rate": 7.831663326653307e-05,
	"loss": 2.0947,
	"step": 105
	},
	{
	"epoch": 0.22,
	"learning_rate": 7.823647294589179e-05,
	"loss": 2.0855,
	"step": 110
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.115215301513672,
	"eval_runtime": 31.1349,
	"eval_samples_per_second": 7.13,
	"eval_steps_per_second": 1.799,
	"step": 110
	},
	{
	"epoch": 0.23,
	"learning_rate": 7.81563126252505e-05,
	"loss": 2.1728,
	"step": 115
	},
	{
	"epoch": 0.24,
	"learning_rate": 7.807615230460922e-05,
	"loss": 2.0844,
	"step": 120
	},
	{
	"epoch": 0.24,
	"eval_loss": 2.0839340686798096,
	"eval_runtime": 31.1371,
	"eval_samples_per_second": 7.13,
	"eval_steps_per_second": 1.798,
	"step": 120
	},
	{
	"epoch": 0.25,
	"learning_rate": 7.799599198396795e-05,
	"loss": 2.0497,
	"step": 125
	},
	{
	"epoch": 0.26,
	"learning_rate": 7.791583166332665e-05,
	"loss": 2.0647,
	"step": 130
	},
	{
	"epoch": 0.26,
	"eval_loss": 2.0615038871765137,
	"eval_runtime": 31.1492,
	"eval_samples_per_second": 7.127,
	"eval_steps_per_second": 1.798,
	"step": 130
	},
	{
	"epoch": 0.27,
	"learning_rate": 7.783567134268538e-05,
	"loss": 2.0643,
	"step": 135
	},
	{
	"epoch": 0.28,
	"learning_rate": 7.775551102204409e-05,
	"loss": 1.9665,
	"step": 140
	},
	{
	"epoch": 0.28,
	"eval_loss": 2.0329749584198,
	"eval_runtime": 31.1654,
	"eval_samples_per_second": 7.123,
	"eval_steps_per_second": 1.797,
	"step": 140
	},
	{
	"epoch": 0.29,
	"learning_rate": 7.767535070140282e-05,
	"loss": 1.9736,
	"step": 145
	},
	{
	"epoch": 0.3,
	"learning_rate": 7.759519038076152e-05,
	"loss": 1.9761,
	"step": 150
	},
	{
	"epoch": 0.3,
	"eval_loss": 2.0067899227142334,
	"eval_runtime": 31.1584,
	"eval_samples_per_second": 7.125,
	"eval_steps_per_second": 1.797,
	"step": 150
	},
	{
	"epoch": 0.31,
	"learning_rate": 7.751503006012025e-05,
	"loss": 1.9611,
	"step": 155
	},
	{
	"epoch": 0.32,
	"learning_rate": 7.743486973947897e-05,
	"loss": 1.9428,
	"step": 160
	},
	{
	"epoch": 0.32,
	"eval_loss": 1.9913756847381592,
	"eval_runtime": 31.1769,
	"eval_samples_per_second": 7.121,
	"eval_steps_per_second": 1.796,
	"step": 160
	},
	{
	"epoch": 0.33,
	"learning_rate": 7.735470941883769e-05,
	"loss": 1.9547,
	"step": 165
	},
	{
	"epoch": 0.34,
	"learning_rate": 7.72745490981964e-05,
	"loss": 1.9351,
	"step": 170
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.9368627071380615,
	"eval_runtime": 31.1785,
	"eval_samples_per_second": 7.12,
	"eval_steps_per_second": 1.796,
	"step": 170
	},
	{
	"epoch": 0.35,
	"learning_rate": 7.719438877755512e-05,
	"loss": 1.9509,
	"step": 175
	},
	{
	"epoch": 0.36,
	"learning_rate": 7.711422845691384e-05,
	"loss": 1.9366,
	"step": 180
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.9138563871383667,
	"eval_runtime": 31.1927,
	"eval_samples_per_second": 7.117,
	"eval_steps_per_second": 1.795,
	"step": 180
	},
	{
	"epoch": 0.37,
	"learning_rate": 7.703406813627255e-05,
	"loss": 1.9439,
	"step": 185
	},
	{
	"epoch": 0.38,
	"learning_rate": 7.695390781563127e-05,
	"loss": 1.9548,
	"step": 190
	},
	{
	"epoch": 0.38,
	"eval_loss": 1.8788814544677734,
	"eval_runtime": 31.199,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 1.795,
	"step": 190
	},
	{
	"epoch": 0.39,
	"learning_rate": 7.687374749498999e-05,
	"loss": 1.9061,
	"step": 195
	},
	{
	"epoch": 0.4,
	"learning_rate": 7.67935871743487e-05,
	"loss": 1.9625,
	"step": 200
	},
	{
	"epoch": 0.4,
	"eval_loss": 1.848646640777588,
	"eval_runtime": 31.2024,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 1.795,
	"step": 200
	},
	{
	"epoch": 0.41,
	"learning_rate": 7.671342685370742e-05,
	"loss": 1.9024,
	"step": 205
	},
	{
	"epoch": 0.42,
	"learning_rate": 7.663326653306614e-05,
	"loss": 1.8584,
	"step": 210
	},
	{
	"epoch": 0.42,
	"eval_loss": 1.8197656869888306,
	"eval_runtime": 31.2023,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 1.795,
	"step": 210
	},
	{
	"epoch": 0.43,
	"learning_rate": 7.655310621242485e-05,
	"loss": 1.7843,
	"step": 215
	},
	{
	"epoch": 0.44,
	"learning_rate": 7.647294589178357e-05,
	"loss": 1.8857,
	"step": 220
	},
	{
	"epoch": 0.44,
	"eval_loss": 1.8118294477462769,
	"eval_runtime": 31.1985,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 1.795,
	"step": 220
	},
	{
	"epoch": 0.45,
	"learning_rate": 7.639278557114229e-05,
	"loss": 1.7888,
	"step": 225
	},
	{
	"epoch": 0.46,
	"learning_rate": 7.6312625250501e-05,
	"loss": 1.7574,
	"step": 230
	},
	{
	"epoch": 0.46,
	"eval_loss": 1.760263442993164,
	"eval_runtime": 31.1988,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 1.795,
	"step": 230
	},
	{
	"epoch": 0.47,
	"learning_rate": 7.623246492985973e-05,
	"loss": 1.7695,
	"step": 235
	},
	{
	"epoch": 0.48,
	"learning_rate": 7.615230460921844e-05,
	"loss": 1.8114,
	"step": 240
	},
	{
	"epoch": 0.48,
	"eval_loss": 1.7369911670684814,
	"eval_runtime": 31.2207,
	"eval_samples_per_second": 7.111,
	"eval_steps_per_second": 1.794,
	"step": 240
	},
	{
	"epoch": 0.49,
	"learning_rate": 7.607214428857717e-05,
	"loss": 1.7307,
	"step": 245
	},
	{
	"epoch": 0.5,
	"learning_rate": 7.599198396793587e-05,
	"loss": 1.7303,
	"step": 250
	},
	{
	"epoch": 0.5,
	"eval_loss": 1.720489263534546,
	"eval_runtime": 31.2198,
	"eval_samples_per_second": 7.111,
	"eval_steps_per_second": 1.794,
	"step": 250
	},
	{
	"epoch": 0.51,
	"learning_rate": 7.59118236472946e-05,
	"loss": 1.6382,
	"step": 255
	},
	{
	"epoch": 0.52,
	"learning_rate": 7.58316633266533e-05,
	"loss": 1.7535,
	"step": 260
	},
	{
	"epoch": 0.52,
	"eval_loss": 1.7123703956604004,
	"eval_runtime": 31.1991,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 1.795,
	"step": 260
	},
	{
	"epoch": 0.53,
	"learning_rate": 7.575150300601203e-05,
	"loss": 1.6792,
	"step": 265
	},
	{
	"epoch": 0.54,
	"learning_rate": 7.567134268537075e-05,
	"loss": 1.7775,
	"step": 270
	},
	{
	"epoch": 0.54,
	"eval_loss": 1.7013072967529297,
	"eval_runtime": 31.2171,
	"eval_samples_per_second": 7.111,
	"eval_steps_per_second": 1.794,
	"step": 270
	},
	{
	"epoch": 0.55,
	"learning_rate": 7.559118236472947e-05,
	"loss": 1.7402,
	"step": 275
	},
	{
	"epoch": 0.56,
	"learning_rate": 7.551102204408818e-05,
	"loss": 1.685,
	"step": 280
	},
	{
	"epoch": 0.56,
	"eval_loss": 1.6611982583999634,
	"eval_runtime": 31.2154,
	"eval_samples_per_second": 7.112,
	"eval_steps_per_second": 1.794,
	"step": 280
	},
	{
	"epoch": 0.57,
	"learning_rate": 7.54308617234469e-05,
	"loss": 1.7125,
	"step": 285
	},
	{
	"epoch": 0.58,
	"learning_rate": 7.535070140280562e-05,
	"loss": 1.5898,
	"step": 290
	},
	{
	"epoch": 0.58,
	"eval_loss": 1.6577653884887695,
	"eval_runtime": 31.217,
	"eval_samples_per_second": 7.112,
	"eval_steps_per_second": 1.794,
	"step": 290
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.527054108216433e-05,
	"loss": 1.6172,
	"step": 295
	},
	{
	"epoch": 0.6,
	"learning_rate": 7.519038076152305e-05,
	"loss": 1.7875,
	"step": 300
	},
	{
	"epoch": 0.6,
	"eval_loss": 1.645772933959961,
	"eval_runtime": 31.2182,
	"eval_samples_per_second": 7.111,
	"eval_steps_per_second": 1.794,
	"step": 300
	},
	{
	"epoch": 0.61,
	"learning_rate": 7.511022044088177e-05,
	"loss": 1.5817,
	"step": 305
	},
	{
	"epoch": 0.62,
	"learning_rate": 7.50300601202405e-05,
	"loss": 1.628,
	"step": 310
	},
	{
	"epoch": 0.62,
	"eval_loss": 1.6252926588058472,
	"eval_runtime": 31.2223,
	"eval_samples_per_second": 7.11,
	"eval_steps_per_second": 1.794,
	"step": 310
	},
	{
	"epoch": 0.63,
	"learning_rate": 7.49498997995992e-05,
	"loss": 1.6397,
	"step": 315
	},
	{
	"epoch": 0.64,
	"learning_rate": 7.486973947895793e-05,
	"loss": 1.6186,
	"step": 320
	},
	{
	"epoch": 0.64,
	"eval_loss": 1.6194863319396973,
	"eval_runtime": 31.2314,
	"eval_samples_per_second": 7.108,
	"eval_steps_per_second": 1.793,
	"step": 320
	},
	{
	"epoch": 0.65,
	"learning_rate": 7.478957915831663e-05,
	"loss": 1.6546,
	"step": 325
	},
	{
	"epoch": 0.66,
	"learning_rate": 7.470941883767536e-05,
	"loss": 1.6899,
	"step": 330
	},
	{
	"epoch": 0.66,
	"eval_loss": 1.6101500988006592,
	"eval_runtime": 31.2273,
	"eval_samples_per_second": 7.109,
	"eval_steps_per_second": 1.793,
	"step": 330
	},
	{
	"epoch": 0.67,
	"learning_rate": 7.462925851703407e-05,
	"loss": 1.6294,
	"step": 335
	},
	{
	"epoch": 0.68,
	"learning_rate": 7.45490981963928e-05,
	"loss": 1.5908,
	"step": 340
	},
	{
	"epoch": 0.68,
	"eval_loss": 1.5906888246536255,
	"eval_runtime": 31.2321,
	"eval_samples_per_second": 7.108,
	"eval_steps_per_second": 1.793,
	"step": 340
	},
	{
	"epoch": 0.69,
	"learning_rate": 7.446893787575151e-05,
	"loss": 1.6827,
	"step": 345
	},
	{
	"epoch": 0.7,
	"learning_rate": 7.438877755511023e-05,
	"loss": 1.6514,
	"step": 350
	},
	{
	"epoch": 0.7,
	"eval_loss": 1.6103746891021729,
	"eval_runtime": 31.239,
	"eval_samples_per_second": 7.107,
	"eval_steps_per_second": 1.793,
	"step": 350
	},
	{
	"epoch": 0.71,
	"learning_rate": 7.430861723446895e-05,
	"loss": 1.73,
	"step": 355
	},
	{
	"epoch": 0.72,
	"learning_rate": 7.422845691382766e-05,
	"loss": 1.6027,
	"step": 360
	},
	{
	"epoch": 0.72,
	"eval_loss": 1.576550841331482,
	"eval_runtime": 31.2402,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 1.793,
	"step": 360
	},
	{
	"epoch": 0.73,
	"learning_rate": 7.414829659318638e-05,
	"loss": 1.5685,
	"step": 365
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.40681362725451e-05,
	"loss": 1.6319,
	"step": 370
	},
	{
	"epoch": 0.74,
	"eval_loss": 1.562269926071167,
	"eval_runtime": 31.2342,
	"eval_samples_per_second": 7.108,
	"eval_steps_per_second": 1.793,
	"step": 370
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.398797595190381e-05,
	"loss": 1.5724,
	"step": 375
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.390781563126253e-05,
	"loss": 1.6103,
	"step": 380
	},
	{
	"epoch": 0.76,
	"eval_loss": 1.5764440298080444,
	"eval_runtime": 31.2479,
	"eval_samples_per_second": 7.104,
	"eval_steps_per_second": 1.792,
	"step": 380
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.382765531062125e-05,
	"loss": 1.6548,
	"step": 385
	},
	{
	"epoch": 0.78,
	"learning_rate": 7.374749498997996e-05,
	"loss": 1.4518,
	"step": 390
	},
	{
	"epoch": 0.78,
	"eval_loss": 1.544908881187439,
	"eval_runtime": 31.2325,
	"eval_samples_per_second": 7.108,
	"eval_steps_per_second": 1.793,
	"step": 390
	},
	{
	"epoch": 0.79,
	"learning_rate": 7.366733466933868e-05,
	"loss": 1.5493,
	"step": 395
	},
	{
	"epoch": 0.8,
	"learning_rate": 7.35871743486974e-05,
	"loss": 1.498,
	"step": 400
	},
	{
	"epoch": 0.8,
	"eval_loss": 1.5345020294189453,
	"eval_runtime": 31.2401,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 1.793,
	"step": 400
	},
	{
	"epoch": 0.81,
	"learning_rate": 7.350701402805611e-05,
	"loss": 1.5031,
	"step": 405
	},
	{
	"epoch": 0.82,
	"learning_rate": 7.342685370741484e-05,
	"loss": 1.5266,
	"step": 410
	},
	{
	"epoch": 0.82,
	"eval_loss": 1.541326642036438,
	"eval_runtime": 31.2476,
	"eval_samples_per_second": 7.105,
	"eval_steps_per_second": 1.792,
	"step": 410
	},
	{
	"epoch": 0.83,
	"learning_rate": 7.334669338677355e-05,
	"loss": 1.4406,
	"step": 415
	},
	{
	"epoch": 0.84,
	"learning_rate": 7.326653306613228e-05,
	"loss": 1.5622,
	"step": 420
	},
	{
	"epoch": 0.84,
	"eval_loss": 1.5228804349899292,
	"eval_runtime": 31.2404,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 1.793,
	"step": 420
	},
	{
	"epoch": 0.85,
	"learning_rate": 7.318637274549098e-05,
	"loss": 1.5308,
	"step": 425
	},
	{
	"epoch": 0.86,
	"learning_rate": 7.310621242484971e-05,
	"loss": 1.4863,
	"step": 430
	},
	{
	"epoch": 0.86,
	"eval_loss": 1.5208450555801392,
	"eval_runtime": 31.2453,
	"eval_samples_per_second": 7.105,
	"eval_steps_per_second": 1.792,
	"step": 430
	},
	{
	"epoch": 0.87,
	"learning_rate": 7.302605210420841e-05,
	"loss": 1.5183,
	"step": 435
	},
	{
	"epoch": 0.88,
	"learning_rate": 7.294589178356714e-05,
	"loss": 1.5492,
	"step": 440
	},
	{
	"epoch": 0.88,
	"eval_loss": 1.4996235370635986,
	"eval_runtime": 31.241,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 1.793,
	"step": 440
	},
	{
	"epoch": 0.89,
	"learning_rate": 7.286573146292586e-05,
	"loss": 1.4304,
	"step": 445
	},
	{
	"epoch": 0.9,
	"learning_rate": 7.278557114228458e-05,
	"loss": 1.5515,
	"step": 450
	},
	{
	"epoch": 0.9,
	"eval_loss": 1.4857271909713745,
	"eval_runtime": 31.2521,
	"eval_samples_per_second": 7.104,
	"eval_steps_per_second": 1.792,
	"step": 450
	},
	{
	"epoch": 0.91,
	"learning_rate": 7.27054108216433e-05,
	"loss": 1.506,
	"step": 455
	},
	{
	"epoch": 0.92,
	"learning_rate": 7.262525050100201e-05,
	"loss": 1.4799,
	"step": 460
	},
	{
	"epoch": 0.92,
	"eval_loss": 1.493463158607483,
	"eval_runtime": 31.2544,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 1.792,
	"step": 460
	},
	{
	"epoch": 0.93,
	"learning_rate": 7.254509018036073e-05,
	"loss": 1.5673,
	"step": 465
	},
	{
	"epoch": 0.94,
	"learning_rate": 7.246492985971944e-05,
	"loss": 1.4514,
	"step": 470
	},
	{
	"epoch": 0.94,
	"eval_loss": 1.4745410680770874,
	"eval_runtime": 31.2458,
	"eval_samples_per_second": 7.105,
	"eval_steps_per_second": 1.792,
	"step": 470
	},
	{
	"epoch": 0.95,
	"learning_rate": 7.238476953907816e-05,
	"loss": 1.6031,
	"step": 475
	},
	{
	"epoch": 0.96,
	"learning_rate": 7.230460921843688e-05,
	"loss": 1.5462,
	"step": 480
	},
	{
	"epoch": 0.96,
	"eval_loss": 1.4784045219421387,
	"eval_runtime": 31.2514,
	"eval_samples_per_second": 7.104,
	"eval_steps_per_second": 1.792,
	"step": 480
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.22244488977956e-05,
	"loss": 1.4849,
	"step": 485
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.214428857715431e-05,
	"loss": 1.6032,
	"step": 490
	},
	{
	"epoch": 0.98,
	"eval_loss": 1.4910966157913208,
	"eval_runtime": 31.2331,
	"eval_samples_per_second": 7.108,
	"eval_steps_per_second": 1.793,
	"step": 490
	},
	{
	"epoch": 0.99,
	"learning_rate": 7.206412825651303e-05,
	"loss": 1.5241,
	"step": 495
	},
	{
	"epoch": 1.0,
	"learning_rate": 7.198396793587175e-05,
	"loss": 1.7418,
	"step": 500
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.473315954208374,
	"eval_runtime": 31.2557,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 1.792,
	"step": 500
	},
	{
	"epoch": 1.01,
	"learning_rate": 7.190380761523046e-05,
	"loss": 1.4456,
	"step": 505
	},
	{
	"epoch": 1.02,
	"learning_rate": 7.182364729458918e-05,
	"loss": 1.4983,
	"step": 510
	},
	{
	"epoch": 1.02,
	"eval_loss": 1.4645960330963135,
	"eval_runtime": 31.1687,
	"eval_samples_per_second": 7.123,
	"eval_steps_per_second": 1.797,
	"step": 510
	},
	{
	"epoch": 1.03,
	"learning_rate": 7.17434869739479e-05,
	"loss": 1.4675,
	"step": 515
	},
	{
	"epoch": 1.04,
	"learning_rate": 7.166332665330663e-05,
	"loss": 1.5383,
	"step": 520
	},
	{
	"epoch": 1.04,
	"eval_loss": 1.4441555738449097,
	"eval_runtime": 31.242,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 1.792,
	"step": 520
	},
	{
	"epoch": 1.05,
	"learning_rate": 7.158316633266533e-05,
	"loss": 1.4809,
	"step": 525
	},
	{
	"epoch": 1.06,
	"learning_rate": 7.150300601202406e-05,
	"loss": 1.3454,
	"step": 530
	},
	{
	"epoch": 1.06,
	"eval_loss": 1.4332164525985718,
	"eval_runtime": 31.2551,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 1.792,
	"step": 530
	},
	{
	"epoch": 1.07,
	"learning_rate": 7.142284569138276e-05,
	"loss": 1.2579,
	"step": 535
	},
	{
	"epoch": 1.08,
	"learning_rate": 7.134268537074149e-05,
	"loss": 1.3128,
	"step": 540
	},
	{
	"epoch": 1.08,
	"eval_loss": 1.4260525703430176,
	"eval_runtime": 31.259,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 1.791,
	"step": 540
	},
	{
	"epoch": 1.09,
	"learning_rate": 7.12625250501002e-05,
	"loss": 1.4444,
	"step": 545
	},
	{
	"epoch": 1.1,
	"learning_rate": 7.118236472945893e-05,
	"loss": 1.5472,
	"step": 550
	},
	{
	"epoch": 1.1,
	"eval_loss": 1.4231517314910889,
	"eval_runtime": 31.2585,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 1.792,
	"step": 550
	},
	{
	"epoch": 1.11,
	"learning_rate": 7.110220440881764e-05,
	"loss": 1.5043,
	"step": 555
	},
	{
	"epoch": 1.12,
	"learning_rate": 7.102204408817636e-05,
	"loss": 1.252,
	"step": 560
	},
	{
	"epoch": 1.12,
	"eval_loss": 1.3924123048782349,
	"eval_runtime": 31.2631,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 560
	},
	{
	"epoch": 1.13,
	"learning_rate": 7.094188376753508e-05,
	"loss": 1.4416,
	"step": 565
	},
	{
	"epoch": 1.14,
	"learning_rate": 7.086172344689379e-05,
	"loss": 1.3538,
	"step": 570
	},
	{
	"epoch": 1.14,
	"eval_loss": 1.3975321054458618,
	"eval_runtime": 31.264,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 570
	},
	{
	"epoch": 1.15,
	"learning_rate": 7.078156312625251e-05,
	"loss": 1.4595,
	"step": 575
	},
	{
	"epoch": 1.16,
	"learning_rate": 7.070140280561123e-05,
	"loss": 1.5448,
	"step": 580
	},
	{
	"epoch": 1.16,
	"eval_loss": 1.391546368598938,
	"eval_runtime": 31.2681,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 1.791,
	"step": 580
	},
	{
	"epoch": 1.17,
	"learning_rate": 7.062124248496996e-05,
	"loss": 1.5233,
	"step": 585
	},
	{
	"epoch": 1.18,
	"learning_rate": 7.054108216432866e-05,
	"loss": 1.4016,
	"step": 590
	},
	{
	"epoch": 1.18,
	"eval_loss": 1.4025028944015503,
	"eval_runtime": 31.2695,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 1.791,
	"step": 590
	},
	{
	"epoch": 1.19,
	"learning_rate": 7.046092184368739e-05,
	"loss": 1.3933,
	"step": 595
	},
	{
	"epoch": 1.2,
	"learning_rate": 7.038076152304609e-05,
	"loss": 1.3041,
	"step": 600
	},
	{
	"epoch": 1.2,
	"eval_loss": 1.383679747581482,
	"eval_runtime": 31.2652,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 600
	},
	{
	"epoch": 1.21,
	"learning_rate": 7.030060120240482e-05,
	"loss": 1.1945,
	"step": 605
	},
	{
	"epoch": 1.22,
	"learning_rate": 7.022044088176353e-05,
	"loss": 1.3857,
	"step": 610
	},
	{
	"epoch": 1.22,
	"eval_loss": 1.3890188932418823,
	"eval_runtime": 31.2731,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 610
	},
	{
	"epoch": 1.23,
	"learning_rate": 7.014028056112226e-05,
	"loss": 1.3095,
	"step": 615
	},
	{
	"epoch": 1.24,
	"learning_rate": 7.006012024048097e-05,
	"loss": 1.2923,
	"step": 620
	},
	{
	"epoch": 1.24,
	"eval_loss": 1.3452343940734863,
	"eval_runtime": 31.2652,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 620
	},
	{
	"epoch": 1.25,
	"learning_rate": 6.997995991983969e-05,
	"loss": 1.3602,
	"step": 625
	},
	{
	"epoch": 1.26,
	"learning_rate": 6.98997995991984e-05,
	"loss": 1.28,
	"step": 630
	},
	{
	"epoch": 1.26,
	"eval_loss": 1.349170446395874,
	"eval_runtime": 31.2663,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 1.791,
	"step": 630
	},
	{
	"epoch": 1.27,
	"learning_rate": 6.981963927855712e-05,
	"loss": 1.3712,
	"step": 635
	},
	{
	"epoch": 1.28,
	"learning_rate": 6.973947895791584e-05,
	"loss": 1.4052,
	"step": 640
	},
	{
	"epoch": 1.28,
	"eval_loss": 1.3253566026687622,
	"eval_runtime": 31.2668,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 1.791,
	"step": 640
	},
	{
	"epoch": 1.29,
	"learning_rate": 6.965931863727456e-05,
	"loss": 1.2965,
	"step": 645
	},
	{
	"epoch": 1.3,
	"learning_rate": 6.957915831663327e-05,
	"loss": 1.3992,
	"step": 650
	},
	{
	"epoch": 1.3,
	"eval_loss": 1.367018461227417,
	"eval_runtime": 31.2605,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 1.791,
	"step": 650
	},
	{
	"epoch": 1.31,
	"learning_rate": 6.949899799599199e-05,
	"loss": 1.3044,
	"step": 655
	},
	{
	"epoch": 1.32,
	"learning_rate": 6.941883767535071e-05,
	"loss": 1.5044,
	"step": 660
	},
	{
	"epoch": 1.32,
	"eval_loss": 1.3153263330459595,
	"eval_runtime": 31.2645,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 660
	},
	{
	"epoch": 1.33,
	"learning_rate": 6.933867735470942e-05,
	"loss": 1.3481,
	"step": 665
	},
	{
	"epoch": 1.34,
	"learning_rate": 6.925851703406814e-05,
	"loss": 1.2274,
	"step": 670
	},
	{
	"epoch": 1.34,
	"eval_loss": 1.314244270324707,
	"eval_runtime": 31.2738,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 670
	},
	{
	"epoch": 1.35,
	"learning_rate": 6.917835671342686e-05,
	"loss": 1.3536,
	"step": 675
	},
	{
	"epoch": 1.36,
	"learning_rate": 6.909819639278557e-05,
	"loss": 1.2392,
	"step": 680
	},
	{
	"epoch": 1.36,
	"eval_loss": 1.3149820566177368,
	"eval_runtime": 31.2585,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 1.792,
	"step": 680
	},
	{
	"epoch": 1.37,
	"learning_rate": 6.901803607214429e-05,
	"loss": 1.2368,
	"step": 685
	},
	{
	"epoch": 1.38,
	"learning_rate": 6.893787575150301e-05,
	"loss": 1.365,
	"step": 690
	},
	{
	"epoch": 1.38,
	"eval_loss": 1.296552300453186,
	"eval_runtime": 31.2732,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 690
	},
	{
	"epoch": 1.39,
	"learning_rate": 6.885771543086174e-05,
	"loss": 1.1902,
	"step": 695
	},
	{
	"epoch": 1.4,
	"learning_rate": 6.877755511022044e-05,
	"loss": 1.3024,
	"step": 700
	},
	{
	"epoch": 1.4,
	"eval_loss": 1.2687900066375732,
	"eval_runtime": 31.2617,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 700
	},
	{
	"epoch": 1.41,
	"learning_rate": 6.869739478957917e-05,
	"loss": 1.2785,
	"step": 705
	},
	{
	"epoch": 1.42,
	"learning_rate": 6.861723446893787e-05,
	"loss": 1.347,
	"step": 710
	},
	{
	"epoch": 1.42,
	"eval_loss": 1.2873570919036865,
	"eval_runtime": 31.2708,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 710
	},
	{
	"epoch": 1.43,
	"learning_rate": 6.85370741482966e-05,
	"loss": 1.4252,
	"step": 715
	},
	{
	"epoch": 1.44,
	"learning_rate": 6.845691382765531e-05,
	"loss": 1.3898,
	"step": 720
	},
	{
	"epoch": 1.44,
	"eval_loss": 1.2543420791625977,
	"eval_runtime": 31.2712,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 720
	},
	{
	"epoch": 1.45,
	"learning_rate": 6.837675350701404e-05,
	"loss": 1.1915,
	"step": 725
	},
	{
	"epoch": 1.46,
	"learning_rate": 6.829659318637275e-05,
	"loss": 1.4256,
	"step": 730
	},
	{
	"epoch": 1.46,
	"eval_loss": 1.2396987676620483,
	"eval_runtime": 31.2721,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 730
	},
	{
	"epoch": 1.47,
	"learning_rate": 6.821643286573147e-05,
	"loss": 1.1646,
	"step": 735
	},
	{
	"epoch": 1.48,
	"learning_rate": 6.813627254509019e-05,
	"loss": 1.2566,
	"step": 740
	},
	{
	"epoch": 1.48,
	"eval_loss": 1.2429862022399902,
	"eval_runtime": 31.2712,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 740
	},
	{
	"epoch": 1.49,
	"learning_rate": 6.80561122244489e-05,
	"loss": 1.209,
	"step": 745
	},
	{
	"epoch": 1.5,
	"learning_rate": 6.797595190380762e-05,
	"loss": 1.2473,
	"step": 750
	},
	{
	"epoch": 1.5,
	"eval_loss": 1.2135179042816162,
	"eval_runtime": 31.2749,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 750
	},
	{
	"epoch": 1.51,
	"learning_rate": 6.789579158316634e-05,
	"loss": 1.1848,
	"step": 755
	},
	{
	"epoch": 1.52,
	"learning_rate": 6.781563126252505e-05,
	"loss": 1.1466,
	"step": 760
	},
	{
	"epoch": 1.52,
	"eval_loss": 1.2170690298080444,
	"eval_runtime": 31.2836,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 760
	},
	{
	"epoch": 1.53,
	"learning_rate": 6.773547094188377e-05,
	"loss": 1.2543,
	"step": 765
	},
	{
	"epoch": 1.54,
	"learning_rate": 6.765531062124249e-05,
	"loss": 1.3065,
	"step": 770
	},
	{
	"epoch": 1.54,
	"eval_loss": 1.1896520853042603,
	"eval_runtime": 31.2763,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.79,
	"step": 770
	},
	{
	"epoch": 1.55,
	"learning_rate": 6.75751503006012e-05,
	"loss": 1.1649,
	"step": 775
	},
	{
	"epoch": 1.56,
	"learning_rate": 6.749498997995992e-05,
	"loss": 1.3033,
	"step": 780
	},
	{
	"epoch": 1.56,
	"eval_loss": 1.1646301746368408,
	"eval_runtime": 31.2767,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.79,
	"step": 780
	},
	{
	"epoch": 1.57,
	"learning_rate": 6.741482965931864e-05,
	"loss": 1.0613,
	"step": 785
	},
	{
	"epoch": 1.58,
	"learning_rate": 6.733466933867735e-05,
	"loss": 1.1166,
	"step": 790
	},
	{
	"epoch": 1.58,
	"eval_loss": 1.1722773313522339,
	"eval_runtime": 31.2753,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 790
	},
	{
	"epoch": 1.59,
	"learning_rate": 6.725450901803607e-05,
	"loss": 1.1091,
	"step": 795
	},
	{
	"epoch": 1.6,
	"learning_rate": 6.717434869739479e-05,
	"loss": 1.0874,
	"step": 800
	},
	{
	"epoch": 1.6,
	"eval_loss": 1.1511393785476685,
	"eval_runtime": 31.2755,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 800
	},
	{
	"epoch": 1.61,
	"learning_rate": 6.709418837675352e-05,
	"loss": 1.2602,
	"step": 805
	},
	{
	"epoch": 1.62,
	"learning_rate": 6.701402805611222e-05,
	"loss": 1.017,
	"step": 810
	},
	{
	"epoch": 1.62,
	"eval_loss": 1.1395540237426758,
	"eval_runtime": 31.2767,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.79,
	"step": 810
	},
	{
	"epoch": 1.63,
	"learning_rate": 6.693386773547095e-05,
	"loss": 1.153,
	"step": 815
	},
	{
	"epoch": 1.64,
	"learning_rate": 6.685370741482966e-05,
	"loss": 1.0437,
	"step": 820
	},
	{
	"epoch": 1.64,
	"eval_loss": 1.1016473770141602,
	"eval_runtime": 31.2746,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 820
	},
	{
	"epoch": 1.65,
	"learning_rate": 6.677354709418839e-05,
	"loss": 1.0316,
	"step": 825
	},
	{
	"epoch": 1.66,
	"learning_rate": 6.669338677354709e-05,
	"loss": 1.2206,
	"step": 830
	},
	{
	"epoch": 1.66,
	"eval_loss": 1.0841138362884521,
	"eval_runtime": 31.2759,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 830
	},
	{
	"epoch": 1.67,
	"learning_rate": 6.661322645290582e-05,
	"loss": 0.9704,
	"step": 835
	},
	{
	"epoch": 1.68,
	"learning_rate": 6.653306613226454e-05,
	"loss": 0.9738,
	"step": 840
	},
	{
	"epoch": 1.68,
	"eval_loss": 1.0759927034378052,
	"eval_runtime": 31.2775,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.79,
	"step": 840
	},
	{
	"epoch": 1.69,
	"learning_rate": 6.645290581162325e-05,
	"loss": 1.1332,
	"step": 845
	},
	{
	"epoch": 1.7,
	"learning_rate": 6.637274549098197e-05,
	"loss": 1.1351,
	"step": 850
	},
	{
	"epoch": 1.7,
	"eval_loss": 1.0561842918395996,
	"eval_runtime": 31.2727,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 850
	},
	{
	"epoch": 1.71,
	"learning_rate": 6.629258517034069e-05,
	"loss": 1.0462,
	"step": 855
	},
	{
	"epoch": 1.72,
	"learning_rate": 6.62124248496994e-05,
	"loss": 1.0697,
	"step": 860
	},
	{
	"epoch": 1.72,
	"eval_loss": 1.05562424659729,
	"eval_runtime": 31.2794,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 1.79,
	"step": 860
	},
	{
	"epoch": 1.73,
	"learning_rate": 6.613226452905812e-05,
	"loss": 1.1096,
	"step": 865
	},
	{
	"epoch": 1.74,
	"learning_rate": 6.605210420841685e-05,
	"loss": 1.0296,
	"step": 870
	},
	{
	"epoch": 1.74,
	"eval_loss": 1.034234881401062,
	"eval_runtime": 31.2794,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 1.79,
	"step": 870
	},
	{
	"epoch": 1.75,
	"learning_rate": 6.597194388777555e-05,
	"loss": 1.0413,
	"step": 875
	},
	{
	"epoch": 1.76,
	"learning_rate": 6.589178356713428e-05,
	"loss": 1.0904,
	"step": 880
	},
	{
	"epoch": 1.76,
	"eval_loss": 1.0046826601028442,
	"eval_runtime": 31.283,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 1.79,
	"step": 880
	},
	{
	"epoch": 1.77,
	"learning_rate": 6.581162324649299e-05,
	"loss": 1.0728,
	"step": 885
	},
	{
	"epoch": 1.78,
	"learning_rate": 6.573146292585172e-05,
	"loss": 1.01,
	"step": 890
	},
	{
	"epoch": 1.78,
	"eval_loss": 1.018371820449829,
	"eval_runtime": 31.2848,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 890
	},
	{
	"epoch": 1.79,
	"learning_rate": 6.565130260521042e-05,
	"loss": 1.047,
	"step": 895
	},
	{
	"epoch": 1.8,
	"learning_rate": 6.557114228456915e-05,
	"loss": 0.951,
	"step": 900
	},
	{
	"epoch": 1.8,
	"eval_loss": 0.9845412969589233,
	"eval_runtime": 31.2866,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 900
	},
	{
	"epoch": 1.81,
	"learning_rate": 6.549098196392787e-05,
	"loss": 0.9055,
	"step": 905
	},
	{
	"epoch": 1.82,
	"learning_rate": 6.541082164328658e-05,
	"loss": 1.0111,
	"step": 910
	},
	{
	"epoch": 1.82,
	"eval_loss": 0.9674527049064636,
	"eval_runtime": 31.2872,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 910
	},
	{
	"epoch": 1.83,
	"learning_rate": 6.53306613226453e-05,
	"loss": 0.9433,
	"step": 915
	},
	{
	"epoch": 1.84,
	"learning_rate": 6.525050100200402e-05,
	"loss": 1.0824,
	"step": 920
	},
	{
	"epoch": 1.84,
	"eval_loss": 0.9758660793304443,
	"eval_runtime": 31.2867,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 920
	},
	{
	"epoch": 1.85,
	"learning_rate": 6.517034068136273e-05,
	"loss": 0.9381,
	"step": 925
	},
	{
	"epoch": 1.86,
	"learning_rate": 6.509018036072145e-05,
	"loss": 0.9745,
	"step": 930
	},
	{
	"epoch": 1.86,
	"eval_loss": 0.9335694909095764,
	"eval_runtime": 31.2906,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 930
	},
	{
	"epoch": 1.87,
	"learning_rate": 6.501002004008017e-05,
	"loss": 0.8404,
	"step": 935
	},
	{
	"epoch": 1.88,
	"learning_rate": 6.492985971943888e-05,
	"loss": 0.8632,
	"step": 940
	},
	{
	"epoch": 1.88,
	"eval_loss": 0.934661865234375,
	"eval_runtime": 31.2917,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 940
	},
	{
	"epoch": 1.89,
	"learning_rate": 6.48496993987976e-05,
	"loss": 0.9011,
	"step": 945
	},
	{
	"epoch": 1.9,
	"learning_rate": 6.476953907815632e-05,
	"loss": 0.9959,
	"step": 950
	},
	{
	"epoch": 1.9,
	"eval_loss": 0.9394508600234985,
	"eval_runtime": 31.2847,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 950
	},
	{
	"epoch": 1.91,
	"learning_rate": 6.468937875751503e-05,
	"loss": 0.967,
	"step": 955
	},
	{
	"epoch": 1.92,
	"learning_rate": 6.460921843687375e-05,
	"loss": 0.8906,
	"step": 960
	},
	{
	"epoch": 1.92,
	"eval_loss": 0.8965132236480713,
	"eval_runtime": 31.292,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 960
	},
	{
	"epoch": 1.93,
	"learning_rate": 6.452905811623247e-05,
	"loss": 0.9108,
	"step": 965
	},
	{
	"epoch": 1.94,
	"learning_rate": 6.444889779559118e-05,
	"loss": 1.0552,
	"step": 970
	},
	{
	"epoch": 1.94,
	"eval_loss": 0.8891679048538208,
	"eval_runtime": 31.2905,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 970
	},
	{
	"epoch": 1.95,
	"learning_rate": 6.43687374749499e-05,
	"loss": 0.8783,
	"step": 975
	},
	{
	"epoch": 1.96,
	"learning_rate": 6.428857715430863e-05,
	"loss": 0.8387,
	"step": 980
	},
	{
	"epoch": 1.96,
	"eval_loss": 0.8821650147438049,
	"eval_runtime": 31.2928,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 980
	},
	{
	"epoch": 1.97,
	"learning_rate": 6.420841683366733e-05,
	"loss": 0.9528,
	"step": 985
	},
	{
	"epoch": 1.98,
	"learning_rate": 6.412825651302606e-05,
	"loss": 1.0068,
	"step": 990
	},
	{
	"epoch": 1.98,
	"eval_loss": 0.8804778456687927,
	"eval_runtime": 31.2971,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 990
	},
	{
	"epoch": 1.99,
	"learning_rate": 6.404809619238477e-05,
	"loss": 0.9084,
	"step": 995
	},
	{
	"epoch": 2.0,
	"learning_rate": 6.39679358717435e-05,
	"loss": 1.083,
	"step": 1000
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.8489722013473511,
	"eval_runtime": 31.2897,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1000
	},
	{
	"epoch": 2.01,
	"learning_rate": 6.38877755511022e-05,
	"loss": 0.9829,
	"step": 1005
	},
	{
	"epoch": 2.02,
	"learning_rate": 6.380761523046093e-05,
	"loss": 0.8407,
	"step": 1010
	},
	{
	"epoch": 2.02,
	"eval_loss": 0.8456799387931824,
	"eval_runtime": 31.202,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 1.795,
	"step": 1010
	},
	{
	"epoch": 2.03,
	"learning_rate": 6.372745490981965e-05,
	"loss": 0.7473,
	"step": 1015
	},
	{
	"epoch": 2.04,
	"learning_rate": 6.364729458917836e-05,
	"loss": 0.7468,
	"step": 1020
	},
	{
	"epoch": 2.04,
	"eval_loss": 0.8285406827926636,
	"eval_runtime": 31.2693,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 1.791,
	"step": 1020
	},
	{
	"epoch": 2.05,
	"learning_rate": 6.356713426853708e-05,
	"loss": 0.892,
	"step": 1025
	},
	{
	"epoch": 2.06,
	"learning_rate": 6.34869739478958e-05,
	"loss": 0.8421,
	"step": 1030
	},
	{
	"epoch": 2.06,
	"eval_loss": 0.8055410385131836,
	"eval_runtime": 31.2828,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 1.79,
	"step": 1030
	},
	{
	"epoch": 2.07,
	"learning_rate": 6.340681362725451e-05,
	"loss": 0.7795,
	"step": 1035
	},
	{
	"epoch": 2.08,
	"learning_rate": 6.332665330661323e-05,
	"loss": 0.8407,
	"step": 1040
	},
	{
	"epoch": 2.08,
	"eval_loss": 0.8160460591316223,
	"eval_runtime": 31.2892,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1040
	},
	{
	"epoch": 2.09,
	"learning_rate": 6.324649298597195e-05,
	"loss": 0.7307,
	"step": 1045
	},
	{
	"epoch": 2.1,
	"learning_rate": 6.316633266533066e-05,
	"loss": 0.8126,
	"step": 1050
	},
	{
	"epoch": 2.1,
	"eval_loss": 0.8266436457633972,
	"eval_runtime": 31.2933,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 1050
	},
	{
	"epoch": 2.11,
	"learning_rate": 6.308617234468938e-05,
	"loss": 0.7997,
	"step": 1055
	},
	{
	"epoch": 2.12,
	"learning_rate": 6.30060120240481e-05,
	"loss": 0.7318,
	"step": 1060
	},
	{
	"epoch": 2.12,
	"eval_loss": 0.815096914768219,
	"eval_runtime": 31.3047,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1060
	},
	{
	"epoch": 2.13,
	"learning_rate": 6.292585170340681e-05,
	"loss": 0.7908,
	"step": 1065
	},
	{
	"epoch": 2.14,
	"learning_rate": 6.284569138276553e-05,
	"loss": 0.9142,
	"step": 1070
	},
	{
	"epoch": 2.14,
	"eval_loss": 0.7875866889953613,
	"eval_runtime": 31.2805,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 1.79,
	"step": 1070
	},
	{
	"epoch": 2.15,
	"learning_rate": 6.276553106212425e-05,
	"loss": 0.7489,
	"step": 1075
	},
	{
	"epoch": 2.16,
	"learning_rate": 6.268537074148298e-05,
	"loss": 0.6483,
	"step": 1080
	},
	{
	"epoch": 2.16,
	"eval_loss": 0.7866150736808777,
	"eval_runtime": 31.2895,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1080
	},
	{
	"epoch": 2.17,
	"learning_rate": 6.260521042084168e-05,
	"loss": 0.7886,
	"step": 1085
	},
	{
	"epoch": 2.18,
	"learning_rate": 6.252505010020041e-05,
	"loss": 0.8092,
	"step": 1090
	},
	{
	"epoch": 2.18,
	"eval_loss": 0.7817696332931519,
	"eval_runtime": 31.2844,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 1090
	},
	{
	"epoch": 2.19,
	"learning_rate": 6.244488977955911e-05,
	"loss": 0.6213,
	"step": 1095
	},
	{
	"epoch": 2.2,
	"learning_rate": 6.236472945891785e-05,
	"loss": 0.8235,
	"step": 1100
	},
	{
	"epoch": 2.2,
	"eval_loss": 0.7707763910293579,
	"eval_runtime": 31.2903,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1100
	},
	{
	"epoch": 2.21,
	"learning_rate": 6.228456913827655e-05,
	"loss": 0.8963,
	"step": 1105
	},
	{
	"epoch": 2.22,
	"learning_rate": 6.220440881763528e-05,
	"loss": 0.7062,
	"step": 1110
	},
	{
	"epoch": 2.22,
	"eval_loss": 0.7692943811416626,
	"eval_runtime": 31.2891,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1110
	},
	{
	"epoch": 2.23,
	"learning_rate": 6.2124248496994e-05,
	"loss": 0.7988,
	"step": 1115
	},
	{
	"epoch": 2.24,
	"learning_rate": 6.204408817635271e-05,
	"loss": 0.7348,
	"step": 1120
	},
	{
	"epoch": 2.24,
	"eval_loss": 0.7874757647514343,
	"eval_runtime": 31.2928,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 1120
	},
	{
	"epoch": 2.25,
	"learning_rate": 6.196392785571143e-05,
	"loss": 0.6604,
	"step": 1125
	},
	{
	"epoch": 2.26,
	"learning_rate": 6.188376753507015e-05,
	"loss": 0.7507,
	"step": 1130
	},
	{
	"epoch": 2.26,
	"eval_loss": 0.7566913962364197,
	"eval_runtime": 31.2871,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 1130
	},
	{
	"epoch": 2.27,
	"learning_rate": 6.180360721442886e-05,
	"loss": 0.7219,
	"step": 1135
	},
	{
	"epoch": 2.28,
	"learning_rate": 6.172344689378758e-05,
	"loss": 0.7588,
	"step": 1140
	},
	{
	"epoch": 2.28,
	"eval_loss": 0.7564798593521118,
	"eval_runtime": 31.2861,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 1140
	},
	{
	"epoch": 2.29,
	"learning_rate": 6.16432865731463e-05,
	"loss": 0.7573,
	"step": 1145
	},
	{
	"epoch": 2.3,
	"learning_rate": 6.156312625250501e-05,
	"loss": 0.605,
	"step": 1150
	},
	{
	"epoch": 2.3,
	"eval_loss": 0.7298113703727722,
	"eval_runtime": 31.2916,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1150
	},
	{
	"epoch": 2.31,
	"learning_rate": 6.148296593186374e-05,
	"loss": 0.7134,
	"step": 1155
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.140280561122245e-05,
	"loss": 0.8721,
	"step": 1160
	},
	{
	"epoch": 2.32,
	"eval_loss": 0.7254282236099243,
	"eval_runtime": 31.2918,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1160
	},
	{
	"epoch": 2.33,
	"learning_rate": 6.132264529058118e-05,
	"loss": 0.8905,
	"step": 1165
	},
	{
	"epoch": 2.34,
	"learning_rate": 6.124248496993988e-05,
	"loss": 0.6988,
	"step": 1170
	},
	{
	"epoch": 2.34,
	"eval_loss": 0.7072407007217407,
	"eval_runtime": 31.2946,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1170
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.116232464929861e-05,
	"loss": 0.6772,
	"step": 1175
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.108216432865731e-05,
	"loss": 0.6294,
	"step": 1180
	},
	{
	"epoch": 2.36,
	"eval_loss": 0.7082269787788391,
	"eval_runtime": 31.303,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1180
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.100200400801604e-05,
	"loss": 0.5605,
	"step": 1185
	},
	{
	"epoch": 2.38,
	"learning_rate": 6.092184368737475e-05,
	"loss": 0.7117,
	"step": 1190
	},
	{
	"epoch": 2.38,
	"eval_loss": 0.7112658619880676,
	"eval_runtime": 31.295,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1190
	},
	{
	"epoch": 2.39,
	"learning_rate": 6.0841683366733476e-05,
	"loss": 0.7873,
	"step": 1195
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.0761523046092186e-05,
	"loss": 0.8558,
	"step": 1200
	},
	{
	"epoch": 2.4,
	"eval_loss": 0.6991309523582458,
	"eval_runtime": 31.3002,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1200
	},
	{
	"epoch": 2.41,
	"learning_rate": 6.068136272545091e-05,
	"loss": 0.8755,
	"step": 1205
	},
	{
	"epoch": 2.42,
	"learning_rate": 6.060120240480962e-05,
	"loss": 0.6187,
	"step": 1210
	},
	{
	"epoch": 2.42,
	"eval_loss": 0.690467119216919,
	"eval_runtime": 31.2955,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1210
	},
	{
	"epoch": 2.43,
	"learning_rate": 6.052104208416834e-05,
	"loss": 0.7238,
	"step": 1215
	},
	{
	"epoch": 2.44,
	"learning_rate": 6.044088176352706e-05,
	"loss": 0.6791,
	"step": 1220
	},
	{
	"epoch": 2.44,
	"eval_loss": 0.687512993812561,
	"eval_runtime": 31.3006,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1220
	},
	{
	"epoch": 2.45,
	"learning_rate": 6.0360721442885776e-05,
	"loss": 0.7325,
	"step": 1225
	},
	{
	"epoch": 2.46,
	"learning_rate": 6.028056112224449e-05,
	"loss": 0.5447,
	"step": 1230
	},
	{
	"epoch": 2.46,
	"eval_loss": 0.6869089007377625,
	"eval_runtime": 31.296,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1230
	},
	{
	"epoch": 2.47,
	"learning_rate": 6.0200400801603217e-05,
	"loss": 0.7392,
	"step": 1235
	},
	{
	"epoch": 2.48,
	"learning_rate": 6.0120240480961926e-05,
	"loss": 0.7299,
	"step": 1240
	},
	{
	"epoch": 2.48,
	"eval_loss": 0.6777493357658386,
	"eval_runtime": 31.2976,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1240
	},
	{
	"epoch": 2.49,
	"learning_rate": 6.004008016032065e-05,
	"loss": 0.7736,
	"step": 1245
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.995991983967936e-05,
	"loss": 0.5829,
	"step": 1250
	},
	{
	"epoch": 2.5,
	"eval_loss": 0.6657550930976868,
	"eval_runtime": 31.2961,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1250
	},
	{
	"epoch": 2.51,
	"learning_rate": 5.987975951903808e-05,
	"loss": 0.7086,
	"step": 1255
	},
	{
	"epoch": 2.52,
	"learning_rate": 5.979959919839679e-05,
	"loss": 0.6435,
	"step": 1260
	},
	{
	"epoch": 2.52,
	"eval_loss": 0.6603330969810486,
	"eval_runtime": 31.2999,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1260
	},
	{
	"epoch": 2.53,
	"learning_rate": 5.971943887775552e-05,
	"loss": 0.6293,
	"step": 1265
	},
	{
	"epoch": 2.54,
	"learning_rate": 5.9639278557114233e-05,
	"loss": 0.7303,
	"step": 1270
	},
	{
	"epoch": 2.54,
	"eval_loss": 0.6578312516212463,
	"eval_runtime": 31.305,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1270
	},
	{
	"epoch": 2.55,
	"learning_rate": 5.955911823647295e-05,
	"loss": 0.6796,
	"step": 1275
	},
	{
	"epoch": 2.56,
	"learning_rate": 5.947895791583167e-05,
	"loss": 0.7244,
	"step": 1280
	},
	{
	"epoch": 2.56,
	"eval_loss": 0.6594119668006897,
	"eval_runtime": 31.3007,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1280
	},
	{
	"epoch": 2.57,
	"learning_rate": 5.939879759519039e-05,
	"loss": 0.6601,
	"step": 1285
	},
	{
	"epoch": 2.58,
	"learning_rate": 5.93186372745491e-05,
	"loss": 0.6463,
	"step": 1290
	},
	{
	"epoch": 2.58,
	"eval_loss": 0.640873372554779,
	"eval_runtime": 31.295,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1290
	},
	{
	"epoch": 2.59,
	"learning_rate": 5.9238476953907824e-05,
	"loss": 0.6722,
	"step": 1295
	},
	{
	"epoch": 2.6,
	"learning_rate": 5.9158316633266534e-05,
	"loss": 0.7766,
	"step": 1300
	},
	{
	"epoch": 2.6,
	"eval_loss": 0.6417058706283569,
	"eval_runtime": 31.3016,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1300
	},
	{
	"epoch": 2.61,
	"learning_rate": 5.907815631262526e-05,
	"loss": 0.5843,
	"step": 1305
	},
	{
	"epoch": 2.62,
	"learning_rate": 5.899799599198397e-05,
	"loss": 0.6012,
	"step": 1310
	},
	{
	"epoch": 2.62,
	"eval_loss": 0.646079957485199,
	"eval_runtime": 31.2989,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1310
	},
	{
	"epoch": 2.63,
	"learning_rate": 5.891783567134269e-05,
	"loss": 0.7435,
	"step": 1315
	},
	{
	"epoch": 2.64,
	"learning_rate": 5.883767535070141e-05,
	"loss": 0.5974,
	"step": 1320
	},
	{
	"epoch": 2.64,
	"eval_loss": 0.6364943981170654,
	"eval_runtime": 31.305,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1320
	},
	{
	"epoch": 2.65,
	"learning_rate": 5.8757515030060124e-05,
	"loss": 0.6149,
	"step": 1325
	},
	{
	"epoch": 2.66,
	"learning_rate": 5.867735470941884e-05,
	"loss": 0.556,
	"step": 1330
	},
	{
	"epoch": 2.66,
	"eval_loss": 0.6301265358924866,
	"eval_runtime": 31.3004,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1330
	},
	{
	"epoch": 2.67,
	"learning_rate": 5.859719438877756e-05,
	"loss": 0.5322,
	"step": 1335
	},
	{
	"epoch": 2.68,
	"learning_rate": 5.8517034068136274e-05,
	"loss": 0.6369,
	"step": 1340
	},
	{
	"epoch": 2.68,
	"eval_loss": 0.6247262358665466,
	"eval_runtime": 31.298,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1340
	},
	{
	"epoch": 2.69,
	"learning_rate": 5.8436873747495e-05,
	"loss": 0.6517,
	"step": 1345
	},
	{
	"epoch": 2.7,
	"learning_rate": 5.835671342685371e-05,
	"loss": 0.5699,
	"step": 1350
	},
	{
	"epoch": 2.7,
	"eval_loss": 0.6162915229797363,
	"eval_runtime": 31.2973,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1350
	},
	{
	"epoch": 2.71,
	"learning_rate": 5.827655310621243e-05,
	"loss": 0.6318,
	"step": 1355
	},
	{
	"epoch": 2.72,
	"learning_rate": 5.819639278557114e-05,
	"loss": 0.624,
	"step": 1360
	},
	{
	"epoch": 2.72,
	"eval_loss": 0.6137639880180359,
	"eval_runtime": 31.3062,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 1360
	},
	{
	"epoch": 2.73,
	"learning_rate": 5.8116232464929865e-05,
	"loss": 0.695,
	"step": 1365
	},
	{
	"epoch": 2.74,
	"learning_rate": 5.8036072144288574e-05,
	"loss": 0.6774,
	"step": 1370
	},
	{
	"epoch": 2.74,
	"eval_loss": 0.6134688854217529,
	"eval_runtime": 31.2931,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 1370
	},
	{
	"epoch": 2.75,
	"learning_rate": 5.79559118236473e-05,
	"loss": 0.5395,
	"step": 1375
	},
	{
	"epoch": 2.76,
	"learning_rate": 5.7875751503006015e-05,
	"loss": 0.5553,
	"step": 1380
	},
	{
	"epoch": 2.76,
	"eval_loss": 0.6075760126113892,
	"eval_runtime": 31.3038,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1380
	},
	{
	"epoch": 2.77,
	"learning_rate": 5.779559118236473e-05,
	"loss": 0.8059,
	"step": 1385
	},
	{
	"epoch": 2.78,
	"learning_rate": 5.7715430861723455e-05,
	"loss": 0.604,
	"step": 1390
	},
	{
	"epoch": 2.78,
	"eval_loss": 0.5937612652778625,
	"eval_runtime": 31.3124,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 1390
	},
	{
	"epoch": 2.79,
	"learning_rate": 5.763527054108217e-05,
	"loss": 0.6524,
	"step": 1395
	},
	{
	"epoch": 2.8,
	"learning_rate": 5.755511022044089e-05,
	"loss": 0.6087,
	"step": 1400
	},
	{
	"epoch": 2.8,
	"eval_loss": 0.5955749750137329,
	"eval_runtime": 31.3138,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 1400
	},
	{
	"epoch": 2.81,
	"learning_rate": 5.7474949899799605e-05,
	"loss": 0.6067,
	"step": 1405
	},
	{
	"epoch": 2.82,
	"learning_rate": 5.739478957915833e-05,
	"loss": 0.5935,
	"step": 1410
	},
	{
	"epoch": 2.82,
	"eval_loss": 0.5933490991592407,
	"eval_runtime": 31.3036,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1410
	},
	{
	"epoch": 2.83,
	"learning_rate": 5.731462925851704e-05,
	"loss": 0.6652,
	"step": 1415
	},
	{
	"epoch": 2.84,
	"learning_rate": 5.723446893787576e-05,
	"loss": 0.6042,
	"step": 1420
	},
	{
	"epoch": 2.84,
	"eval_loss": 0.5911222100257874,
	"eval_runtime": 31.2993,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1420
	},
	{
	"epoch": 2.85,
	"learning_rate": 5.715430861723447e-05,
	"loss": 0.6957,
	"step": 1425
	},
	{
	"epoch": 2.86,
	"learning_rate": 5.7074148296593195e-05,
	"loss": 0.6425,
	"step": 1430
	},
	{
	"epoch": 2.86,
	"eval_loss": 0.5844302773475647,
	"eval_runtime": 31.2967,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1430
	},
	{
	"epoch": 2.87,
	"learning_rate": 5.6993987975951905e-05,
	"loss": 0.4406,
	"step": 1435
	},
	{
	"epoch": 2.88,
	"learning_rate": 5.691382765531063e-05,
	"loss": 0.6316,
	"step": 1440
	},
	{
	"epoch": 2.88,
	"eval_loss": 0.5744926929473877,
	"eval_runtime": 31.3029,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1440
	},
	{
	"epoch": 2.89,
	"learning_rate": 5.6833667334669345e-05,
	"loss": 0.5697,
	"step": 1445
	},
	{
	"epoch": 2.9,
	"learning_rate": 5.675350701402806e-05,
	"loss": 0.597,
	"step": 1450
	},
	{
	"epoch": 2.9,
	"eval_loss": 0.5694547891616821,
	"eval_runtime": 31.311,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 1450
	},
	{
	"epoch": 2.91,
	"learning_rate": 5.667334669338678e-05,
	"loss": 0.5544,
	"step": 1455
	},
	{
	"epoch": 2.92,
	"learning_rate": 5.6593186372745496e-05,
	"loss": 0.5754,
	"step": 1460
	},
	{
	"epoch": 2.92,
	"eval_loss": 0.5703684091567993,
	"eval_runtime": 31.3157,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 1460
	},
	{
	"epoch": 2.93,
	"learning_rate": 5.651302605210421e-05,
	"loss": 0.465,
	"step": 1465
	},
	{
	"epoch": 2.94,
	"learning_rate": 5.6432865731462936e-05,
	"loss": 0.5197,
	"step": 1470
	},
	{
	"epoch": 2.94,
	"eval_loss": 0.5696949362754822,
	"eval_runtime": 31.3085,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 1470
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.6352705410821646e-05,
	"loss": 0.6936,
	"step": 1475
	},
	{
	"epoch": 2.96,
	"learning_rate": 5.627254509018037e-05,
	"loss": 0.6256,
	"step": 1480
	},
	{
	"epoch": 2.96,
	"eval_loss": 0.5596420764923096,
	"eval_runtime": 31.3048,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1480
	},
	{
	"epoch": 2.97,
	"learning_rate": 5.619238476953908e-05,
	"loss": 0.6175,
	"step": 1485
	},
	{
	"epoch": 2.98,
	"learning_rate": 5.61122244488978e-05,
	"loss": 0.5818,
	"step": 1490
	},
	{
	"epoch": 2.98,
	"eval_loss": 0.5599228739738464,
	"eval_runtime": 31.3107,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 1490
	},
	{
	"epoch": 2.99,
	"learning_rate": 5.603206412825652e-05,
	"loss": 0.5264,
	"step": 1495
	},
	{
	"epoch": 3.01,
	"learning_rate": 5.5951903807615236e-05,
	"loss": 0.5464,
	"step": 1500
	},
	{
	"epoch": 3.01,
	"eval_loss": 0.5564998388290405,
	"eval_runtime": 31.303,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1500
	},
	{
	"epoch": 3.02,
	"learning_rate": 5.587174348697395e-05,
	"loss": 0.3897,
	"step": 1505
	},
	{
	"epoch": 3.03,
	"learning_rate": 5.579158316633267e-05,
	"loss": 0.4616,
	"step": 1510
	},
	{
	"epoch": 3.03,
	"eval_loss": 0.5629072189331055,
	"eval_runtime": 31.0222,
	"eval_samples_per_second": 7.156,
	"eval_steps_per_second": 1.805,
	"step": 1510
	},
	{
	"epoch": 3.04,
	"learning_rate": 5.5711422845691386e-05,
	"loss": 0.6419,
	"step": 1515
	},
	{
	"epoch": 3.05,
	"learning_rate": 5.563126252505011e-05,
	"loss": 0.6482,
	"step": 1520
	},
	{
	"epoch": 3.05,
	"eval_loss": 0.5529131889343262,
	"eval_runtime": 31.2128,
	"eval_samples_per_second": 7.112,
	"eval_steps_per_second": 1.794,
	"step": 1520
	},
	{
	"epoch": 3.06,
	"learning_rate": 5.555110220440882e-05,
	"loss": 0.5377,
	"step": 1525
	},
	{
	"epoch": 3.07,
	"learning_rate": 5.547094188376754e-05,
	"loss": 0.5356,
	"step": 1530
	},
	{
	"epoch": 3.07,
	"eval_loss": 0.5526372790336609,
	"eval_runtime": 31.2759,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 1530
	},
	{
	"epoch": 3.08,
	"learning_rate": 5.539078156312625e-05,
	"loss": 0.589,
	"step": 1535
	},
	{
	"epoch": 3.09,
	"learning_rate": 5.5310621242484976e-05,
	"loss": 0.5688,
	"step": 1540
	},
	{
	"epoch": 3.09,
	"eval_loss": 0.5528168678283691,
	"eval_runtime": 31.2986,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1540
	},
	{
	"epoch": 3.1,
	"learning_rate": 5.5230460921843686e-05,
	"loss": 0.4732,
	"step": 1545
	},
	{
	"epoch": 3.11,
	"learning_rate": 5.515030060120241e-05,
	"loss": 0.6018,
	"step": 1550
	},
	{
	"epoch": 3.11,
	"eval_loss": 0.5408484935760498,
	"eval_runtime": 31.3037,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1550
	},
	{
	"epoch": 3.12,
	"learning_rate": 5.5070140280561127e-05,
	"loss": 0.505,
	"step": 1555
	},
	{
	"epoch": 3.13,
	"learning_rate": 5.498997995991984e-05,
	"loss": 0.5794,
	"step": 1560
	},
	{
	"epoch": 3.13,
	"eval_loss": 0.5370539426803589,
	"eval_runtime": 31.3017,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1560
	},
	{
	"epoch": 3.14,
	"learning_rate": 5.490981963927856e-05,
	"loss": 0.5621,
	"step": 1565
	},
	{
	"epoch": 3.15,
	"learning_rate": 5.4829659318637283e-05,
	"loss": 0.5443,
	"step": 1570
	},
	{
	"epoch": 3.15,
	"eval_loss": 0.537534236907959,
	"eval_runtime": 31.2972,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1570
	},
	{
	"epoch": 3.16,
	"learning_rate": 5.474949899799599e-05,
	"loss": 0.449,
	"step": 1575
	},
	{
	"epoch": 3.17,
	"learning_rate": 5.466933867735472e-05,
	"loss": 0.4435,
	"step": 1580
	},
	{
	"epoch": 3.17,
	"eval_loss": 0.5345003604888916,
	"eval_runtime": 31.2985,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1580
	},
	{
	"epoch": 3.18,
	"learning_rate": 5.458917835671343e-05,
	"loss": 0.4819,
	"step": 1585
	},
	{
	"epoch": 3.19,
	"learning_rate": 5.450901803607215e-05,
	"loss": 0.5087,
	"step": 1590
	},
	{
	"epoch": 3.19,
	"eval_loss": 0.5292515754699707,
	"eval_runtime": 31.3021,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1590
	},
	{
	"epoch": 3.2,
	"learning_rate": 5.442885771543086e-05,
	"loss": 0.453,
	"step": 1595
	},
	{
	"epoch": 3.21,
	"learning_rate": 5.4348697394789584e-05,
	"loss": 0.518,
	"step": 1600
	},
	{
	"epoch": 3.21,
	"eval_loss": 0.5336319804191589,
	"eval_runtime": 31.2945,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1600
	},
	{
	"epoch": 3.22,
	"learning_rate": 5.42685370741483e-05,
	"loss": 0.5508,
	"step": 1605
	},
	{
	"epoch": 3.23,
	"learning_rate": 5.418837675350702e-05,
	"loss": 0.5914,
	"step": 1610
	},
	{
	"epoch": 3.23,
	"eval_loss": 0.5315628051757812,
	"eval_runtime": 31.3062,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 1610
	},
	{
	"epoch": 3.24,
	"learning_rate": 5.4108216432865734e-05,
	"loss": 0.5609,
	"step": 1615
	},
	{
	"epoch": 3.25,
	"learning_rate": 5.402805611222446e-05,
	"loss": 0.5667,
	"step": 1620
	},
	{
	"epoch": 3.25,
	"eval_loss": 0.5254489183425903,
	"eval_runtime": 31.2915,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1620
	},
	{
	"epoch": 3.26,
	"learning_rate": 5.394789579158317e-05,
	"loss": 0.5349,
	"step": 1625
	},
	{
	"epoch": 3.27,
	"learning_rate": 5.386773547094189e-05,
	"loss": 0.5218,
	"step": 1630
	},
	{
	"epoch": 3.27,
	"eval_loss": 0.5206549167633057,
	"eval_runtime": 31.2983,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1630
	},
	{
	"epoch": 3.28,
	"learning_rate": 5.37875751503006e-05,
	"loss": 0.5036,
	"step": 1635
	},
	{
	"epoch": 3.29,
	"learning_rate": 5.3707414829659324e-05,
	"loss": 0.4267,
	"step": 1640
	},
	{
	"epoch": 3.29,
	"eval_loss": 0.5270143151283264,
	"eval_runtime": 31.2985,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1640
	},
	{
	"epoch": 3.3,
	"learning_rate": 5.3627254509018034e-05,
	"loss": 0.5262,
	"step": 1645
	},
	{
	"epoch": 3.31,
	"learning_rate": 5.354709418837676e-05,
	"loss": 0.5839,
	"step": 1650
	},
	{
	"epoch": 3.31,
	"eval_loss": 0.5198652148246765,
	"eval_runtime": 31.2991,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1650
	},
	{
	"epoch": 3.32,
	"learning_rate": 5.3466933867735474e-05,
	"loss": 0.4521,
	"step": 1655
	},
	{
	"epoch": 3.33,
	"learning_rate": 5.338677354709419e-05,
	"loss": 0.5095,
	"step": 1660
	},
	{
	"epoch": 3.33,
	"eval_loss": 0.5267544984817505,
	"eval_runtime": 31.299,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1660
	},
	{
	"epoch": 3.34,
	"learning_rate": 5.3306613226452914e-05,
	"loss": 0.5022,
	"step": 1665
	},
	{
	"epoch": 3.35,
	"learning_rate": 5.3226452905811624e-05,
	"loss": 0.4616,
	"step": 1670
	},
	{
	"epoch": 3.35,
	"eval_loss": 0.5191987752914429,
	"eval_runtime": 31.2917,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1670
	},
	{
	"epoch": 3.36,
	"learning_rate": 5.314629258517035e-05,
	"loss": 0.5251,
	"step": 1675
	},
	{
	"epoch": 3.37,
	"learning_rate": 5.3066132264529065e-05,
	"loss": 0.5027,
	"step": 1680
	},
	{
	"epoch": 3.37,
	"eval_loss": 0.5106366872787476,
	"eval_runtime": 31.2948,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1680
	},
	{
	"epoch": 3.38,
	"learning_rate": 5.298597194388778e-05,
	"loss": 0.5192,
	"step": 1685
	},
	{
	"epoch": 3.39,
	"learning_rate": 5.29058116232465e-05,
	"loss": 0.441,
	"step": 1690
	},
	{
	"epoch": 3.39,
	"eval_loss": 0.5149854421615601,
	"eval_runtime": 31.2974,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1690
	},
	{
	"epoch": 3.4,
	"learning_rate": 5.282565130260522e-05,
	"loss": 0.5155,
	"step": 1695
	},
	{
	"epoch": 3.41,
	"learning_rate": 5.274549098196393e-05,
	"loss": 0.4416,
	"step": 1700
	},
	{
	"epoch": 3.41,
	"eval_loss": 0.5155748724937439,
	"eval_runtime": 31.2962,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1700
	},
	{
	"epoch": 3.42,
	"learning_rate": 5.2665330661322655e-05,
	"loss": 0.5154,
	"step": 1705
	},
	{
	"epoch": 3.43,
	"learning_rate": 5.2585170340681365e-05,
	"loss": 0.4411,
	"step": 1710
	},
	{
	"epoch": 3.43,
	"eval_loss": 0.5102916955947876,
	"eval_runtime": 31.2896,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 1710
	},
	{
	"epoch": 3.44,
	"learning_rate": 5.250501002004009e-05,
	"loss": 0.5015,
	"step": 1715
	},
	{
	"epoch": 3.45,
	"learning_rate": 5.24248496993988e-05,
	"loss": 0.47,
	"step": 1720
	},
	{
	"epoch": 3.45,
	"eval_loss": 0.5037886500358582,
	"eval_runtime": 31.2923,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 1720
	},
	{
	"epoch": 3.46,
	"learning_rate": 5.234468937875752e-05,
	"loss": 0.403,
	"step": 1725
	},
	{
	"epoch": 3.47,
	"learning_rate": 5.226452905811624e-05,
	"loss": 0.5079,
	"step": 1730
	},
	{
	"epoch": 3.47,
	"eval_loss": 0.5047650337219238,
	"eval_runtime": 31.2924,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 1730
	},
	{
	"epoch": 3.48,
	"learning_rate": 5.2184368737474955e-05,
	"loss": 0.4939,
	"step": 1735
	},
	{
	"epoch": 3.49,
	"learning_rate": 5.210420841683367e-05,
	"loss": 0.3913,
	"step": 1740
	},
	{
	"epoch": 3.49,
	"eval_loss": 0.508187472820282,
	"eval_runtime": 31.2958,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1740
	},
	{
	"epoch": 3.5,
	"learning_rate": 5.2024048096192395e-05,
	"loss": 0.3983,
	"step": 1745
	},
	{
	"epoch": 3.51,
	"learning_rate": 5.1943887775551105e-05,
	"loss": 0.4977,
	"step": 1750
	},
	{
	"epoch": 3.51,
	"eval_loss": 0.49760758876800537,
	"eval_runtime": 31.3045,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1750
	},
	{
	"epoch": 3.52,
	"learning_rate": 5.186372745490983e-05,
	"loss": 0.5879,
	"step": 1755
	},
	{
	"epoch": 3.53,
	"learning_rate": 5.178356713426854e-05,
	"loss": 0.5905,
	"step": 1760
	},
	{
	"epoch": 3.53,
	"eval_loss": 0.4974704384803772,
	"eval_runtime": 31.2985,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1760
	},
	{
	"epoch": 3.54,
	"learning_rate": 5.170340681362726e-05,
	"loss": 0.5392,
	"step": 1765
	},
	{
	"epoch": 3.55,
	"learning_rate": 5.162324649298597e-05,
	"loss": 0.4362,
	"step": 1770
	},
	{
	"epoch": 3.55,
	"eval_loss": 0.4961581230163574,
	"eval_runtime": 31.306,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 1770
	},
	{
	"epoch": 3.56,
	"learning_rate": 5.1543086172344696e-05,
	"loss": 0.522,
	"step": 1775
	},
	{
	"epoch": 3.57,
	"learning_rate": 5.146292585170341e-05,
	"loss": 0.4309,
	"step": 1780
	},
	{
	"epoch": 3.57,
	"eval_loss": 0.500778317451477,
	"eval_runtime": 31.3034,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1780
	},
	{
	"epoch": 3.58,
	"learning_rate": 5.138276553106213e-05,
	"loss": 0.5687,
	"step": 1785
	},
	{
	"epoch": 3.59,
	"learning_rate": 5.1302605210420846e-05,
	"loss": 0.4477,
	"step": 1790
	},
	{
	"epoch": 3.59,
	"eval_loss": 0.49876537919044495,
	"eval_runtime": 31.2939,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1790
	},
	{
	"epoch": 3.6,
	"learning_rate": 5.122244488977956e-05,
	"loss": 0.4987,
	"step": 1795
	},
	{
	"epoch": 3.61,
	"learning_rate": 5.114228456913828e-05,
	"loss": 0.4826,
	"step": 1800
	},
	{
	"epoch": 3.61,
	"eval_loss": 0.488558828830719,
	"eval_runtime": 31.2964,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1800
	},
	{
	"epoch": 3.62,
	"learning_rate": 5.1062124248497e-05,
	"loss": 0.597,
	"step": 1805
	},
	{
	"epoch": 3.63,
	"learning_rate": 5.098196392785571e-05,
	"loss": 0.6181,
	"step": 1810
	},
	{
	"epoch": 3.63,
	"eval_loss": 0.48853781819343567,
	"eval_runtime": 31.2965,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1810
	},
	{
	"epoch": 3.64,
	"learning_rate": 5.0901803607214436e-05,
	"loss": 0.5415,
	"step": 1815
	},
	{
	"epoch": 3.65,
	"learning_rate": 5.0821643286573146e-05,
	"loss": 0.4738,
	"step": 1820
	},
	{
	"epoch": 3.65,
	"eval_loss": 0.48789137601852417,
	"eval_runtime": 31.2967,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1820
	},
	{
	"epoch": 3.66,
	"learning_rate": 5.074148296593187e-05,
	"loss": 0.5222,
	"step": 1825
	},
	{
	"epoch": 3.67,
	"learning_rate": 5.066132264529058e-05,
	"loss": 0.4932,
	"step": 1830
	},
	{
	"epoch": 3.67,
	"eval_loss": 0.4817972481250763,
	"eval_runtime": 31.2976,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1830
	},
	{
	"epoch": 3.68,
	"learning_rate": 5.05811623246493e-05,
	"loss": 0.4425,
	"step": 1835
	},
	{
	"epoch": 3.69,
	"learning_rate": 5.050100200400802e-05,
	"loss": 0.4684,
	"step": 1840
	},
	{
	"epoch": 3.69,
	"eval_loss": 0.4812251031398773,
	"eval_runtime": 31.2943,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1840
	},
	{
	"epoch": 3.7,
	"learning_rate": 5.0420841683366736e-05,
	"loss": 0.5561,
	"step": 1845
	},
	{
	"epoch": 3.71,
	"learning_rate": 5.034068136272545e-05,
	"loss": 0.5484,
	"step": 1850
	},
	{
	"epoch": 3.71,
	"eval_loss": 0.47668221592903137,
	"eval_runtime": 31.2926,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 1850
	},
	{
	"epoch": 3.72,
	"learning_rate": 5.0260521042084176e-05,
	"loss": 0.5458,
	"step": 1855
	},
	{
	"epoch": 3.73,
	"learning_rate": 5.0180360721442886e-05,
	"loss": 0.5086,
	"step": 1860
	},
	{
	"epoch": 3.73,
	"eval_loss": 0.4790602922439575,
	"eval_runtime": 31.298,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1860
	},
	{
	"epoch": 3.74,
	"learning_rate": 5.010020040080161e-05,
	"loss": 0.4593,
	"step": 1865
	},
	{
	"epoch": 3.75,
	"learning_rate": 5.002004008016032e-05,
	"loss": 0.3548,
	"step": 1870
	},
	{
	"epoch": 3.75,
	"eval_loss": 0.4792560935020447,
	"eval_runtime": 31.2988,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1870
	},
	{
	"epoch": 3.76,
	"learning_rate": 4.993987975951904e-05,
	"loss": 0.4227,
	"step": 1875
	},
	{
	"epoch": 3.77,
	"learning_rate": 4.985971943887775e-05,
	"loss": 0.5229,
	"step": 1880
	},
	{
	"epoch": 3.77,
	"eval_loss": 0.47653260827064514,
	"eval_runtime": 31.3054,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 1880
	},
	{
	"epoch": 3.78,
	"learning_rate": 4.977955911823648e-05,
	"loss": 0.3925,
	"step": 1885
	},
	{
	"epoch": 3.79,
	"learning_rate": 4.9699398797595193e-05,
	"loss": 0.4578,
	"step": 1890
	},
	{
	"epoch": 3.79,
	"eval_loss": 0.4703618884086609,
	"eval_runtime": 31.3015,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1890
	},
	{
	"epoch": 3.8,
	"learning_rate": 4.961923847695391e-05,
	"loss": 0.4669,
	"step": 1895
	},
	{
	"epoch": 3.81,
	"learning_rate": 4.953907815631263e-05,
	"loss": 0.5277,
	"step": 1900
	},
	{
	"epoch": 3.81,
	"eval_loss": 0.4690556526184082,
	"eval_runtime": 31.3076,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 1900
	},
	{
	"epoch": 3.82,
	"learning_rate": 4.945891783567135e-05,
	"loss": 0.3436,
	"step": 1905
	},
	{
	"epoch": 3.83,
	"learning_rate": 4.937875751503006e-05,
	"loss": 0.4683,
	"step": 1910
	},
	{
	"epoch": 3.83,
	"eval_loss": 0.4648754894733429,
	"eval_runtime": 31.2941,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 1910
	},
	{
	"epoch": 3.84,
	"learning_rate": 4.9298597194388784e-05,
	"loss": 0.4551,
	"step": 1915
	},
	{
	"epoch": 3.85,
	"learning_rate": 4.9218436873747494e-05,
	"loss": 0.448,
	"step": 1920
	},
	{
	"epoch": 3.85,
	"eval_loss": 0.46837684512138367,
	"eval_runtime": 31.2979,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1920
	},
	{
	"epoch": 3.86,
	"learning_rate": 4.913827655310622e-05,
	"loss": 0.5228,
	"step": 1925
	},
	{
	"epoch": 3.87,
	"learning_rate": 4.905811623246493e-05,
	"loss": 0.3752,
	"step": 1930
	},
	{
	"epoch": 3.87,
	"eval_loss": 0.4696580469608307,
	"eval_runtime": 31.3122,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 1930
	},
	{
	"epoch": 3.88,
	"learning_rate": 4.897795591182365e-05,
	"loss": 0.5608,
	"step": 1935
	},
	{
	"epoch": 3.89,
	"learning_rate": 4.889779559118237e-05,
	"loss": 0.4631,
	"step": 1940
	},
	{
	"epoch": 3.89,
	"eval_loss": 0.467781126499176,
	"eval_runtime": 31.3015,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1940
	},
	{
	"epoch": 3.9,
	"learning_rate": 4.8817635270541084e-05,
	"loss": 0.4402,
	"step": 1945
	},
	{
	"epoch": 3.91,
	"learning_rate": 4.873747494989981e-05,
	"loss": 0.4277,
	"step": 1950
	},
	{
	"epoch": 3.91,
	"eval_loss": 0.4608190953731537,
	"eval_runtime": 31.3027,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1950
	},
	{
	"epoch": 3.92,
	"learning_rate": 4.865731462925852e-05,
	"loss": 0.3894,
	"step": 1955
	},
	{
	"epoch": 3.93,
	"learning_rate": 4.857715430861724e-05,
	"loss": 0.3646,
	"step": 1960
	},
	{
	"epoch": 3.93,
	"eval_loss": 0.460921972990036,
	"eval_runtime": 31.2992,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1960
	},
	{
	"epoch": 3.94,
	"learning_rate": 4.849699398797596e-05,
	"loss": 0.3929,
	"step": 1965
	},
	{
	"epoch": 3.95,
	"learning_rate": 4.8416833667334674e-05,
	"loss": 0.5276,
	"step": 1970
	},
	{
	"epoch": 3.95,
	"eval_loss": 0.45434585213661194,
	"eval_runtime": 31.2975,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1970
	},
	{
	"epoch": 3.96,
	"learning_rate": 4.833667334669339e-05,
	"loss": 0.4141,
	"step": 1975
	},
	{
	"epoch": 3.97,
	"learning_rate": 4.8256513026052115e-05,
	"loss": 0.431,
	"step": 1980
	},
	{
	"epoch": 3.97,
	"eval_loss": 0.4538600444793701,
	"eval_runtime": 31.2976,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 1980
	},
	{
	"epoch": 3.98,
	"learning_rate": 4.8176352705410824e-05,
	"loss": 0.6326,
	"step": 1985
	},
	{
	"epoch": 3.99,
	"learning_rate": 4.809619238476955e-05,
	"loss": 0.5465,
	"step": 1990
	},
	{
	"epoch": 3.99,
	"eval_loss": 0.4550160765647888,
	"eval_runtime": 31.3034,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 1990
	},
	{
	"epoch": 4.0,
	"learning_rate": 4.801603206412826e-05,
	"loss": 0.5185,
	"step": 1995
	},
	{
	"epoch": 4.01,
	"learning_rate": 4.793587174348698e-05,
	"loss": 0.4954,
	"step": 2000
	},
	{
	"epoch": 4.01,
	"eval_loss": 0.4522875249385834,
	"eval_runtime": 31.2925,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2000
	},
	{
	"epoch": 4.02,
	"learning_rate": 4.785571142284569e-05,
	"loss": 0.4591,
	"step": 2005
	},
	{
	"epoch": 4.03,
	"learning_rate": 4.7775551102204415e-05,
	"loss": 0.4886,
	"step": 2010
	},
	{
	"epoch": 4.03,
	"eval_loss": 0.4499128758907318,
	"eval_runtime": 31.1861,
	"eval_samples_per_second": 7.119,
	"eval_steps_per_second": 1.796,
	"step": 2010
	},
	{
	"epoch": 4.04,
	"learning_rate": 4.769539078156313e-05,
	"loss": 0.3942,
	"step": 2015
	},
	{
	"epoch": 4.05,
	"learning_rate": 4.761523046092185e-05,
	"loss": 0.4898,
	"step": 2020
	},
	{
	"epoch": 4.05,
	"eval_loss": 0.4461597204208374,
	"eval_runtime": 31.2639,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 1.791,
	"step": 2020
	},
	{
	"epoch": 4.06,
	"learning_rate": 4.7535070140280565e-05,
	"loss": 0.3444,
	"step": 2025
	},
	{
	"epoch": 4.07,
	"learning_rate": 4.745490981963929e-05,
	"loss": 0.4072,
	"step": 2030
	},
	{
	"epoch": 4.07,
	"eval_loss": 0.4478509724140167,
	"eval_runtime": 31.292,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2030
	},
	{
	"epoch": 4.08,
	"learning_rate": 4.7374749498998e-05,
	"loss": 0.4066,
	"step": 2035
	},
	{
	"epoch": 4.09,
	"learning_rate": 4.729458917835672e-05,
	"loss": 0.4565,
	"step": 2040
	},
	{
	"epoch": 4.09,
	"eval_loss": 0.4457860291004181,
	"eval_runtime": 31.3,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 2040
	},
	{
	"epoch": 4.1,
	"learning_rate": 4.721442885771543e-05,
	"loss": 0.419,
	"step": 2045
	},
	{
	"epoch": 4.11,
	"learning_rate": 4.7134268537074155e-05,
	"loss": 0.3739,
	"step": 2050
	},
	{
	"epoch": 4.11,
	"eval_loss": 0.4474635720252991,
	"eval_runtime": 31.3042,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 2050
	},
	{
	"epoch": 4.12,
	"learning_rate": 4.7054108216432865e-05,
	"loss": 0.5401,
	"step": 2055
	},
	{
	"epoch": 4.13,
	"learning_rate": 4.697394789579159e-05,
	"loss": 0.4211,
	"step": 2060
	},
	{
	"epoch": 4.13,
	"eval_loss": 0.44858118891716003,
	"eval_runtime": 31.3113,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 2060
	},
	{
	"epoch": 4.14,
	"learning_rate": 4.6893787575150305e-05,
	"loss": 0.4913,
	"step": 2065
	},
	{
	"epoch": 4.15,
	"learning_rate": 4.681362725450902e-05,
	"loss": 0.4048,
	"step": 2070
	},
	{
	"epoch": 4.15,
	"eval_loss": 0.4393081068992615,
	"eval_runtime": 31.3163,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2070
	},
	{
	"epoch": 4.16,
	"learning_rate": 4.673346693386774e-05,
	"loss": 0.3935,
	"step": 2075
	},
	{
	"epoch": 4.17,
	"learning_rate": 4.665330661322646e-05,
	"loss": 0.5064,
	"step": 2080
	},
	{
	"epoch": 4.17,
	"eval_loss": 0.4351194500923157,
	"eval_runtime": 31.3041,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 2080
	},
	{
	"epoch": 4.18,
	"learning_rate": 4.657314629258517e-05,
	"loss": 0.3017,
	"step": 2085
	},
	{
	"epoch": 4.19,
	"learning_rate": 4.6492985971943896e-05,
	"loss": 0.4652,
	"step": 2090
	},
	{
	"epoch": 4.19,
	"eval_loss": 0.43793508410453796,
	"eval_runtime": 31.3085,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 2090
	},
	{
	"epoch": 4.2,
	"learning_rate": 4.6412825651302606e-05,
	"loss": 0.4423,
	"step": 2095
	},
	{
	"epoch": 4.21,
	"learning_rate": 4.633266533066133e-05,
	"loss": 0.4061,
	"step": 2100
	},
	{
	"epoch": 4.21,
	"eval_loss": 0.43406903743743896,
	"eval_runtime": 31.3118,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 2100
	},
	{
	"epoch": 4.22,
	"learning_rate": 4.625250501002004e-05,
	"loss": 0.3877,
	"step": 2105
	},
	{
	"epoch": 4.23,
	"learning_rate": 4.617234468937876e-05,
	"loss": 0.3784,
	"step": 2110
	},
	{
	"epoch": 4.23,
	"eval_loss": 0.4390106499195099,
	"eval_runtime": 31.3101,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 2110
	},
	{
	"epoch": 4.24,
	"learning_rate": 4.609218436873748e-05,
	"loss": 0.415,
	"step": 2115
	},
	{
	"epoch": 4.25,
	"learning_rate": 4.6012024048096196e-05,
	"loss": 0.4142,
	"step": 2120
	},
	{
	"epoch": 4.25,
	"eval_loss": 0.43537265062332153,
	"eval_runtime": 31.3175,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2120
	},
	{
	"epoch": 4.26,
	"learning_rate": 4.593186372745491e-05,
	"loss": 0.4459,
	"step": 2125
	},
	{
	"epoch": 4.27,
	"learning_rate": 4.585170340681363e-05,
	"loss": 0.3625,
	"step": 2130
	},
	{
	"epoch": 4.27,
	"eval_loss": 0.4415459930896759,
	"eval_runtime": 31.299,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 2130
	},
	{
	"epoch": 4.28,
	"learning_rate": 4.5771543086172346e-05,
	"loss": 0.4102,
	"step": 2135
	},
	{
	"epoch": 4.29,
	"learning_rate": 4.569138276553107e-05,
	"loss": 0.3807,
	"step": 2140
	},
	{
	"epoch": 4.29,
	"eval_loss": 0.4403214752674103,
	"eval_runtime": 31.3171,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2140
	},
	{
	"epoch": 4.3,
	"learning_rate": 4.561122244488978e-05,
	"loss": 0.544,
	"step": 2145
	},
	{
	"epoch": 4.31,
	"learning_rate": 4.55310621242485e-05,
	"loss": 0.4154,
	"step": 2150
	},
	{
	"epoch": 4.31,
	"eval_loss": 0.4307992458343506,
	"eval_runtime": 31.3169,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2150
	},
	{
	"epoch": 4.32,
	"learning_rate": 4.545090180360721e-05,
	"loss": 0.405,
	"step": 2155
	},
	{
	"epoch": 4.33,
	"learning_rate": 4.5370741482965936e-05,
	"loss": 0.4509,
	"step": 2160
	},
	{
	"epoch": 4.33,
	"eval_loss": 0.429840087890625,
	"eval_runtime": 31.316,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2160
	},
	{
	"epoch": 4.34,
	"learning_rate": 4.5290581162324646e-05,
	"loss": 0.3593,
	"step": 2165
	},
	{
	"epoch": 4.35,
	"learning_rate": 4.521042084168337e-05,
	"loss": 0.4254,
	"step": 2170
	},
	{
	"epoch": 4.35,
	"eval_loss": 0.42388150095939636,
	"eval_runtime": 31.3164,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2170
	},
	{
	"epoch": 4.36,
	"learning_rate": 4.5130260521042086e-05,
	"loss": 0.4071,
	"step": 2175
	},
	{
	"epoch": 4.37,
	"learning_rate": 4.50501002004008e-05,
	"loss": 0.4323,
	"step": 2180
	},
	{
	"epoch": 4.37,
	"eval_loss": 0.42136842012405396,
	"eval_runtime": 31.3202,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2180
	},
	{
	"epoch": 4.38,
	"learning_rate": 4.496993987975952e-05,
	"loss": 0.3243,
	"step": 2185
	},
	{
	"epoch": 4.39,
	"learning_rate": 4.4889779559118243e-05,
	"loss": 0.4359,
	"step": 2190
	},
	{
	"epoch": 4.39,
	"eval_loss": 0.4290623068809509,
	"eval_runtime": 31.3259,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2190
	},
	{
	"epoch": 4.4,
	"learning_rate": 4.480961923847695e-05,
	"loss": 0.4209,
	"step": 2195
	},
	{
	"epoch": 4.41,
	"learning_rate": 4.472945891783568e-05,
	"loss": 0.3759,
	"step": 2200
	},
	{
	"epoch": 4.41,
	"eval_loss": 0.4223538935184479,
	"eval_runtime": 31.3287,
	"eval_samples_per_second": 7.086,
	"eval_steps_per_second": 1.788,
	"step": 2200
	},
	{
	"epoch": 4.42,
	"learning_rate": 4.464929859719439e-05,
	"loss": 0.4106,
	"step": 2205
	},
	{
	"epoch": 4.43,
	"learning_rate": 4.456913827655311e-05,
	"loss": 0.4534,
	"step": 2210
	},
	{
	"epoch": 4.43,
	"eval_loss": 0.42248478531837463,
	"eval_runtime": 31.3216,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2210
	},
	{
	"epoch": 4.44,
	"learning_rate": 4.448897795591182e-05,
	"loss": 0.3862,
	"step": 2215
	},
	{
	"epoch": 4.45,
	"learning_rate": 4.4408817635270544e-05,
	"loss": 0.4013,
	"step": 2220
	},
	{
	"epoch": 4.45,
	"eval_loss": 0.42617106437683105,
	"eval_runtime": 31.3246,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2220
	},
	{
	"epoch": 4.46,
	"learning_rate": 4.432865731462927e-05,
	"loss": 0.3103,
	"step": 2225
	},
	{
	"epoch": 4.47,
	"learning_rate": 4.424849699398798e-05,
	"loss": 0.4331,
	"step": 2230
	},
	{
	"epoch": 4.47,
	"eval_loss": 0.4213978052139282,
	"eval_runtime": 31.3244,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2230
	},
	{
	"epoch": 4.48,
	"learning_rate": 4.41683366733467e-05,
	"loss": 0.381,
	"step": 2235
	},
	{
	"epoch": 4.49,
	"learning_rate": 4.408817635270542e-05,
	"loss": 0.4373,
	"step": 2240
	},
	{
	"epoch": 4.49,
	"eval_loss": 0.4198138117790222,
	"eval_runtime": 31.3271,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2240
	},
	{
	"epoch": 4.5,
	"learning_rate": 4.4008016032064134e-05,
	"loss": 0.3603,
	"step": 2245
	},
	{
	"epoch": 4.51,
	"learning_rate": 4.392785571142285e-05,
	"loss": 0.4975,
	"step": 2250
	},
	{
	"epoch": 4.51,
	"eval_loss": 0.42358022928237915,
	"eval_runtime": 31.3249,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2250
	},
	{
	"epoch": 4.52,
	"learning_rate": 4.384769539078157e-05,
	"loss": 0.342,
	"step": 2255
	},
	{
	"epoch": 4.53,
	"learning_rate": 4.3767535070140284e-05,
	"loss": 0.423,
	"step": 2260
	},
	{
	"epoch": 4.53,
	"eval_loss": 0.4189080595970154,
	"eval_runtime": 31.3275,
	"eval_samples_per_second": 7.086,
	"eval_steps_per_second": 1.788,
	"step": 2260
	},
	{
	"epoch": 4.54,
	"learning_rate": 4.368737474949901e-05,
	"loss": 0.4149,
	"step": 2265
	},
	{
	"epoch": 4.55,
	"learning_rate": 4.360721442885772e-05,
	"loss": 0.4503,
	"step": 2270
	},
	{
	"epoch": 4.55,
	"eval_loss": 0.4171365201473236,
	"eval_runtime": 31.3168,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2270
	},
	{
	"epoch": 4.56,
	"learning_rate": 4.352705410821644e-05,
	"loss": 0.415,
	"step": 2275
	},
	{
	"epoch": 4.57,
	"learning_rate": 4.344689378757515e-05,
	"loss": 0.3796,
	"step": 2280
	},
	{
	"epoch": 4.57,
	"eval_loss": 0.41718369722366333,
	"eval_runtime": 31.3195,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2280
	},
	{
	"epoch": 4.58,
	"learning_rate": 4.3366733466933874e-05,
	"loss": 0.3788,
	"step": 2285
	},
	{
	"epoch": 4.59,
	"learning_rate": 4.3286573146292584e-05,
	"loss": 0.4063,
	"step": 2290
	},
	{
	"epoch": 4.59,
	"eval_loss": 0.41249218583106995,
	"eval_runtime": 31.3221,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2290
	},
	{
	"epoch": 4.6,
	"learning_rate": 4.320641282565131e-05,
	"loss": 0.4379,
	"step": 2295
	},
	{
	"epoch": 4.61,
	"learning_rate": 4.3126252505010025e-05,
	"loss": 0.3841,
	"step": 2300
	},
	{
	"epoch": 4.61,
	"eval_loss": 0.41186362504959106,
	"eval_runtime": 31.3313,
	"eval_samples_per_second": 7.086,
	"eval_steps_per_second": 1.787,
	"step": 2300
	},
	{
	"epoch": 4.62,
	"learning_rate": 4.304609218436874e-05,
	"loss": 0.3669,
	"step": 2305
	},
	{
	"epoch": 4.63,
	"learning_rate": 4.296593186372746e-05,
	"loss": 0.2956,
	"step": 2310
	},
	{
	"epoch": 4.63,
	"eval_loss": 0.4147048890590668,
	"eval_runtime": 31.3349,
	"eval_samples_per_second": 7.085,
	"eval_steps_per_second": 1.787,
	"step": 2310
	},
	{
	"epoch": 4.64,
	"learning_rate": 4.288577154308618e-05,
	"loss": 0.5446,
	"step": 2315
	},
	{
	"epoch": 4.65,
	"learning_rate": 4.280561122244489e-05,
	"loss": 0.3486,
	"step": 2320
	},
	{
	"epoch": 4.65,
	"eval_loss": 0.42460867762565613,
	"eval_runtime": 31.3167,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2320
	},
	{
	"epoch": 4.66,
	"learning_rate": 4.2725450901803615e-05,
	"loss": 0.3405,
	"step": 2325
	},
	{
	"epoch": 4.67,
	"learning_rate": 4.2645290581162325e-05,
	"loss": 0.3585,
	"step": 2330
	},
	{
	"epoch": 4.67,
	"eval_loss": 0.4116860330104828,
	"eval_runtime": 31.3378,
	"eval_samples_per_second": 7.084,
	"eval_steps_per_second": 1.787,
	"step": 2330
	},
	{
	"epoch": 4.68,
	"learning_rate": 4.256513026052105e-05,
	"loss": 0.3642,
	"step": 2335
	},
	{
	"epoch": 4.69,
	"learning_rate": 4.248496993987976e-05,
	"loss": 0.4496,
	"step": 2340
	},
	{
	"epoch": 4.69,
	"eval_loss": 0.40906357765197754,
	"eval_runtime": 31.3315,
	"eval_samples_per_second": 7.086,
	"eval_steps_per_second": 1.787,
	"step": 2340
	},
	{
	"epoch": 4.7,
	"learning_rate": 4.240480961923848e-05,
	"loss": 0.4845,
	"step": 2345
	},
	{
	"epoch": 4.71,
	"learning_rate": 4.23246492985972e-05,
	"loss": 0.399,
	"step": 2350
	},
	{
	"epoch": 4.71,
	"eval_loss": 0.40488967299461365,
	"eval_runtime": 31.3211,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2350
	},
	{
	"epoch": 4.72,
	"learning_rate": 4.2244488977955915e-05,
	"loss": 0.4057,
	"step": 2355
	},
	{
	"epoch": 4.73,
	"learning_rate": 4.216432865731463e-05,
	"loss": 0.3885,
	"step": 2360
	},
	{
	"epoch": 4.73,
	"eval_loss": 0.4003817141056061,
	"eval_runtime": 31.3245,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2360
	},
	{
	"epoch": 4.74,
	"learning_rate": 4.2084168336673355e-05,
	"loss": 0.3819,
	"step": 2365
	},
	{
	"epoch": 4.75,
	"learning_rate": 4.2004008016032065e-05,
	"loss": 0.3728,
	"step": 2370
	},
	{
	"epoch": 4.75,
	"eval_loss": 0.4003088176250458,
	"eval_runtime": 31.3239,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2370
	},
	{
	"epoch": 4.76,
	"learning_rate": 4.192384769539079e-05,
	"loss": 0.3902,
	"step": 2375
	},
	{
	"epoch": 4.77,
	"learning_rate": 4.18436873747495e-05,
	"loss": 0.2698,
	"step": 2380
	},
	{
	"epoch": 4.77,
	"eval_loss": 0.40085363388061523,
	"eval_runtime": 31.3226,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2380
	},
	{
	"epoch": 4.78,
	"learning_rate": 4.176352705410822e-05,
	"loss": 0.3917,
	"step": 2385
	},
	{
	"epoch": 4.79,
	"learning_rate": 4.168336673346693e-05,
	"loss": 0.3799,
	"step": 2390
	},
	{
	"epoch": 4.79,
	"eval_loss": 0.40029290318489075,
	"eval_runtime": 31.329,
	"eval_samples_per_second": 7.086,
	"eval_steps_per_second": 1.787,
	"step": 2390
	},
	{
	"epoch": 4.8,
	"learning_rate": 4.1603206412825656e-05,
	"loss": 0.3973,
	"step": 2395
	},
	{
	"epoch": 4.81,
	"learning_rate": 4.152304609218437e-05,
	"loss": 0.4888,
	"step": 2400
	},
	{
	"epoch": 4.81,
	"eval_loss": 0.3974343240261078,
	"eval_runtime": 31.3235,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2400
	},
	{
	"epoch": 4.82,
	"learning_rate": 4.144288577154309e-05,
	"loss": 0.2457,
	"step": 2405
	},
	{
	"epoch": 4.83,
	"learning_rate": 4.1362725450901806e-05,
	"loss": 0.3795,
	"step": 2410
	},
	{
	"epoch": 4.83,
	"eval_loss": 0.3994871973991394,
	"eval_runtime": 31.3159,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2410
	},
	{
	"epoch": 4.84,
	"learning_rate": 4.128256513026052e-05,
	"loss": 0.3535,
	"step": 2415
	},
	{
	"epoch": 4.85,
	"learning_rate": 4.120240480961924e-05,
	"loss": 0.4249,
	"step": 2420
	},
	{
	"epoch": 4.85,
	"eval_loss": 0.3967938721179962,
	"eval_runtime": 31.3239,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 2420
	},
	{
	"epoch": 4.86,
	"learning_rate": 4.112224448897796e-05,
	"loss": 0.4219,
	"step": 2425
	},
	{
	"epoch": 4.87,
	"learning_rate": 4.104208416833667e-05,
	"loss": 0.4635,
	"step": 2430
	},
	{
	"epoch": 4.87,
	"eval_loss": 0.4001442790031433,
	"eval_runtime": 31.3171,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2430
	},
	{
	"epoch": 4.88,
	"learning_rate": 4.0961923847695396e-05,
	"loss": 0.3439,
	"step": 2435
	},
	{
	"epoch": 4.89,
	"learning_rate": 4.0881763527054106e-05,
	"loss": 0.4965,
	"step": 2440
	},
	{
	"epoch": 4.89,
	"eval_loss": 0.39344674348831177,
	"eval_runtime": 31.3149,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2440
	},
	{
	"epoch": 4.9,
	"learning_rate": 4.080160320641283e-05,
	"loss": 0.3569,
	"step": 2445
	},
	{
	"epoch": 4.91,
	"learning_rate": 4.072144288577154e-05,
	"loss": 0.3745,
	"step": 2450
	},
	{
	"epoch": 4.91,
	"eval_loss": 0.3987390697002411,
	"eval_runtime": 31.318,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 2450
	},
	{
	"epoch": 4.92,
	"learning_rate": 4.064128256513026e-05,
	"loss": 0.4011,
	"step": 2455
	},
	{
	"epoch": 4.93,
	"learning_rate": 4.056112224448898e-05,
	"loss": 0.3601,
	"step": 2460
	},
	{
	"epoch": 4.93,
	"eval_loss": 0.3985511064529419,
	"eval_runtime": 31.3089,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 2460
	},
	{
	"epoch": 4.94,
	"learning_rate": 4.0480961923847696e-05,
	"loss": 0.4154,
	"step": 2465
	},
	{
	"epoch": 4.95,
	"learning_rate": 4.040080160320641e-05,
	"loss": 0.2878,
	"step": 2470
	},
	{
	"epoch": 4.95,
	"eval_loss": 0.39409133791923523,
	"eval_runtime": 31.3205,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2470
	},
	{
	"epoch": 4.96,
	"learning_rate": 4.0320641282565136e-05,
	"loss": 0.3433,
	"step": 2475
	},
	{
	"epoch": 4.97,
	"learning_rate": 4.0240480961923846e-05,
	"loss": 0.4297,
	"step": 2480
	},
	{
	"epoch": 4.97,
	"eval_loss": 0.3889669179916382,
	"eval_runtime": 31.3109,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 2480
	},
	{
	"epoch": 4.98,
	"learning_rate": 4.016032064128257e-05,
	"loss": 0.3173,
	"step": 2485
	},
	{
	"epoch": 4.99,
	"learning_rate": 4.008016032064128e-05,
	"loss": 0.278,
	"step": 2490
	},
	{
	"epoch": 4.99,
	"eval_loss": 0.3974519968032837,
	"eval_runtime": 31.3206,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2490
	},
	{
	"epoch": 5.0,
	"learning_rate": 4e-05,
	"loss": 0.3572,
	"step": 2495
	},
	{
	"epoch": 5.01,
	"learning_rate": 3.991983967935872e-05,
	"loss": 0.4509,
	"step": 2500
	},
	{
	"epoch": 5.01,
	"eval_loss": 0.39074984192848206,
	"eval_runtime": 31.3198,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 1.788,
	"step": 2500
	},
	{
	"epoch": 5.02,
	"learning_rate": 3.983967935871744e-05,
	"loss": 0.2818,
	"step": 2505
	},
	{
	"epoch": 5.03,
	"learning_rate": 3.9759519038076153e-05,
	"loss": 0.3202,
	"step": 2510
	},
	{
	"epoch": 5.03,
	"eval_loss": 0.3872080147266388,
	"eval_runtime": 31.1989,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 1.795,
	"step": 2510
	},
	{
	"epoch": 5.04,
	"learning_rate": 3.967935871743487e-05,
	"loss": 0.3529,
	"step": 2515
	},
	{
	"epoch": 5.05,
	"learning_rate": 3.959919839679359e-05,
	"loss": 0.3047,
	"step": 2520
	},
	{
	"epoch": 5.05,
	"eval_loss": 0.3956039547920227,
	"eval_runtime": 31.2729,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 1.791,
	"step": 2520
	},
	{
	"epoch": 5.06,
	"learning_rate": 3.951903807615231e-05,
	"loss": 0.3407,
	"step": 2525
	},
	{
	"epoch": 5.07,
	"learning_rate": 3.943887775551103e-05,
	"loss": 0.2931,
	"step": 2530
	},
	{
	"epoch": 5.07,
	"eval_loss": 0.39254140853881836,
	"eval_runtime": 31.2872,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2530
	},
	{
	"epoch": 5.08,
	"learning_rate": 3.9358717434869744e-05,
	"loss": 0.3376,
	"step": 2535
	},
	{
	"epoch": 5.09,
	"learning_rate": 3.927855711422846e-05,
	"loss": 0.3487,
	"step": 2540
	},
	{
	"epoch": 5.09,
	"eval_loss": 0.3909657597541809,
	"eval_runtime": 31.2934,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2540
	},
	{
	"epoch": 5.1,
	"learning_rate": 3.919839679358718e-05,
	"loss": 0.4409,
	"step": 2545
	},
	{
	"epoch": 5.11,
	"learning_rate": 3.9118236472945894e-05,
	"loss": 0.2792,
	"step": 2550
	},
	{
	"epoch": 5.11,
	"eval_loss": 0.3901335895061493,
	"eval_runtime": 31.3009,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 2550
	},
	{
	"epoch": 5.12,
	"learning_rate": 3.903807615230461e-05,
	"loss": 0.2794,
	"step": 2555
	},
	{
	"epoch": 5.13,
	"learning_rate": 3.895791583166333e-05,
	"loss": 0.3446,
	"step": 2560
	},
	{
	"epoch": 5.13,
	"eval_loss": 0.38729164004325867,
	"eval_runtime": 31.2913,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2560
	},
	{
	"epoch": 5.14,
	"learning_rate": 3.8877755511022044e-05,
	"loss": 0.3807,
	"step": 2565
	},
	{
	"epoch": 5.15,
	"learning_rate": 3.879759519038076e-05,
	"loss": 0.3482,
	"step": 2570
	},
	{
	"epoch": 5.15,
	"eval_loss": 0.3839856684207916,
	"eval_runtime": 31.2918,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2570
	},
	{
	"epoch": 5.16,
	"learning_rate": 3.8717434869739484e-05,
	"loss": 0.333,
	"step": 2575
	},
	{
	"epoch": 5.17,
	"learning_rate": 3.86372745490982e-05,
	"loss": 0.3464,
	"step": 2580
	},
	{
	"epoch": 5.17,
	"eval_loss": 0.38349151611328125,
	"eval_runtime": 31.2954,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 2580
	},
	{
	"epoch": 5.18,
	"learning_rate": 3.855711422845692e-05,
	"loss": 0.446,
	"step": 2585
	},
	{
	"epoch": 5.19,
	"learning_rate": 3.8476953907815634e-05,
	"loss": 0.3212,
	"step": 2590
	},
	{
	"epoch": 5.19,
	"eval_loss": 0.3845639228820801,
	"eval_runtime": 31.3009,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 2590
	},
	{
	"epoch": 5.2,
	"learning_rate": 3.839679358717435e-05,
	"loss": 0.2797,
	"step": 2595
	},
	{
	"epoch": 5.21,
	"learning_rate": 3.831663326653307e-05,
	"loss": 0.3847,
	"step": 2600
	},
	{
	"epoch": 5.21,
	"eval_loss": 0.3818623721599579,
	"eval_runtime": 31.298,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 2600
	},
	{
	"epoch": 5.22,
	"learning_rate": 3.8236472945891784e-05,
	"loss": 0.4431,
	"step": 2605
	},
	{
	"epoch": 5.23,
	"learning_rate": 3.81563126252505e-05,
	"loss": 0.3212,
	"step": 2610
	},
	{
	"epoch": 5.23,
	"eval_loss": 0.38965049386024475,
	"eval_runtime": 31.2995,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 2610
	},
	{
	"epoch": 5.24,
	"learning_rate": 3.807615230460922e-05,
	"loss": 0.3441,
	"step": 2615
	},
	{
	"epoch": 5.25,
	"learning_rate": 3.7995991983967935e-05,
	"loss": 0.358,
	"step": 2620
	},
	{
	"epoch": 5.25,
	"eval_loss": 0.381111204624176,
	"eval_runtime": 31.2872,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2620
	},
	{
	"epoch": 5.26,
	"learning_rate": 3.791583166332665e-05,
	"loss": 0.287,
	"step": 2625
	},
	{
	"epoch": 5.27,
	"learning_rate": 3.7835671342685375e-05,
	"loss": 0.3471,
	"step": 2630
	},
	{
	"epoch": 5.27,
	"eval_loss": 0.38052383065223694,
	"eval_runtime": 31.2873,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2630
	},
	{
	"epoch": 5.28,
	"learning_rate": 3.775551102204409e-05,
	"loss": 0.2928,
	"step": 2635
	},
	{
	"epoch": 5.29,
	"learning_rate": 3.767535070140281e-05,
	"loss": 0.3348,
	"step": 2640
	},
	{
	"epoch": 5.29,
	"eval_loss": 0.38677719235420227,
	"eval_runtime": 31.2908,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2640
	},
	{
	"epoch": 5.3,
	"learning_rate": 3.7595190380761525e-05,
	"loss": 0.3454,
	"step": 2645
	},
	{
	"epoch": 5.31,
	"learning_rate": 3.751503006012025e-05,
	"loss": 0.342,
	"step": 2650
	},
	{
	"epoch": 5.31,
	"eval_loss": 0.3768896162509918,
	"eval_runtime": 31.29,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2650
	},
	{
	"epoch": 5.32,
	"learning_rate": 3.7434869739478965e-05,
	"loss": 0.2887,
	"step": 2655
	},
	{
	"epoch": 5.33,
	"learning_rate": 3.735470941883768e-05,
	"loss": 0.4504,
	"step": 2660
	},
	{
	"epoch": 5.33,
	"eval_loss": 0.3774382770061493,
	"eval_runtime": 31.2944,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 2660
	},
	{
	"epoch": 5.34,
	"learning_rate": 3.72745490981964e-05,
	"loss": 0.3159,
	"step": 2665
	},
	{
	"epoch": 5.35,
	"learning_rate": 3.7194388777555115e-05,
	"loss": 0.2713,
	"step": 2670
	},
	{
	"epoch": 5.35,
	"eval_loss": 0.3802602291107178,
	"eval_runtime": 31.2859,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2670
	},
	{
	"epoch": 5.36,
	"learning_rate": 3.711422845691383e-05,
	"loss": 0.3543,
	"step": 2675
	},
	{
	"epoch": 5.37,
	"learning_rate": 3.703406813627255e-05,
	"loss": 0.3848,
	"step": 2680
	},
	{
	"epoch": 5.37,
	"eval_loss": 0.3776351511478424,
	"eval_runtime": 31.2876,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2680
	},
	{
	"epoch": 5.38,
	"learning_rate": 3.6953907815631265e-05,
	"loss": 0.3891,
	"step": 2685
	},
	{
	"epoch": 5.39,
	"learning_rate": 3.687374749498998e-05,
	"loss": 0.354,
	"step": 2690
	},
	{
	"epoch": 5.39,
	"eval_loss": 0.3758071959018707,
	"eval_runtime": 31.2908,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2690
	},
	{
	"epoch": 5.4,
	"learning_rate": 3.67935871743487e-05,
	"loss": 0.3596,
	"step": 2695
	},
	{
	"epoch": 5.41,
	"learning_rate": 3.671342685370742e-05,
	"loss": 0.3796,
	"step": 2700
	},
	{
	"epoch": 5.41,
	"eval_loss": 0.37596631050109863,
	"eval_runtime": 31.2928,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2700
	},
	{
	"epoch": 5.42,
	"learning_rate": 3.663326653306614e-05,
	"loss": 0.2658,
	"step": 2705
	},
	{
	"epoch": 5.43,
	"learning_rate": 3.6553106212424856e-05,
	"loss": 0.3654,
	"step": 2710
	},
	{
	"epoch": 5.43,
	"eval_loss": 0.37372830510139465,
	"eval_runtime": 31.2931,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2710
	},
	{
	"epoch": 5.44,
	"learning_rate": 3.647294589178357e-05,
	"loss": 0.3026,
	"step": 2715
	},
	{
	"epoch": 5.45,
	"learning_rate": 3.639278557114229e-05,
	"loss": 0.3448,
	"step": 2720
	},
	{
	"epoch": 5.45,
	"eval_loss": 0.38118383288383484,
	"eval_runtime": 31.2914,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2720
	},
	{
	"epoch": 5.46,
	"learning_rate": 3.6312625250501006e-05,
	"loss": 0.2915,
	"step": 2725
	},
	{
	"epoch": 5.47,
	"learning_rate": 3.623246492985972e-05,
	"loss": 0.355,
	"step": 2730
	},
	{
	"epoch": 5.47,
	"eval_loss": 0.3758777379989624,
	"eval_runtime": 31.293,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2730
	},
	{
	"epoch": 5.48,
	"learning_rate": 3.615230460921844e-05,
	"loss": 0.3554,
	"step": 2735
	},
	{
	"epoch": 5.49,
	"learning_rate": 3.6072144288577156e-05,
	"loss": 0.288,
	"step": 2740
	},
	{
	"epoch": 5.49,
	"eval_loss": 0.3711189031600952,
	"eval_runtime": 31.2905,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2740
	},
	{
	"epoch": 5.5,
	"learning_rate": 3.599198396793587e-05,
	"loss": 0.3532,
	"step": 2745
	},
	{
	"epoch": 5.51,
	"learning_rate": 3.591182364729459e-05,
	"loss": 0.2991,
	"step": 2750
	},
	{
	"epoch": 5.51,
	"eval_loss": 0.3690561354160309,
	"eval_runtime": 31.2895,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2750
	},
	{
	"epoch": 5.52,
	"learning_rate": 3.583166332665331e-05,
	"loss": 0.2659,
	"step": 2755
	},
	{
	"epoch": 5.53,
	"learning_rate": 3.575150300601203e-05,
	"loss": 0.3443,
	"step": 2760
	},
	{
	"epoch": 5.53,
	"eval_loss": 0.3708031177520752,
	"eval_runtime": 31.292,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2760
	},
	{
	"epoch": 5.54,
	"learning_rate": 3.5671342685370746e-05,
	"loss": 0.2478,
	"step": 2765
	},
	{
	"epoch": 5.55,
	"learning_rate": 3.559118236472946e-05,
	"loss": 0.3374,
	"step": 2770
	},
	{
	"epoch": 5.55,
	"eval_loss": 0.36587995290756226,
	"eval_runtime": 31.291,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2770
	},
	{
	"epoch": 5.56,
	"learning_rate": 3.551102204408818e-05,
	"loss": 0.2512,
	"step": 2775
	},
	{
	"epoch": 5.57,
	"learning_rate": 3.5430861723446896e-05,
	"loss": 0.4078,
	"step": 2780
	},
	{
	"epoch": 5.57,
	"eval_loss": 0.37093624472618103,
	"eval_runtime": 31.2862,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2780
	},
	{
	"epoch": 5.58,
	"learning_rate": 3.535070140280561e-05,
	"loss": 0.3944,
	"step": 2785
	},
	{
	"epoch": 5.59,
	"learning_rate": 3.527054108216433e-05,
	"loss": 0.2967,
	"step": 2790
	},
	{
	"epoch": 5.59,
	"eval_loss": 0.3683302104473114,
	"eval_runtime": 31.2839,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2790
	},
	{
	"epoch": 5.6,
	"learning_rate": 3.5190380761523046e-05,
	"loss": 0.2733,
	"step": 2795
	},
	{
	"epoch": 5.61,
	"learning_rate": 3.511022044088176e-05,
	"loss": 0.3532,
	"step": 2800
	},
	{
	"epoch": 5.61,
	"eval_loss": 0.3638099730014801,
	"eval_runtime": 31.2946,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 2800
	},
	{
	"epoch": 5.62,
	"learning_rate": 3.503006012024049e-05,
	"loss": 0.4112,
	"step": 2805
	},
	{
	"epoch": 5.63,
	"learning_rate": 3.49498997995992e-05,
	"loss": 0.4123,
	"step": 2810
	},
	{
	"epoch": 5.63,
	"eval_loss": 0.36417555809020996,
	"eval_runtime": 31.2926,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2810
	},
	{
	"epoch": 5.64,
	"learning_rate": 3.486973947895792e-05,
	"loss": 0.4427,
	"step": 2815
	},
	{
	"epoch": 5.65,
	"learning_rate": 3.478957915831664e-05,
	"loss": 0.3195,
	"step": 2820
	},
	{
	"epoch": 5.65,
	"eval_loss": 0.36552584171295166,
	"eval_runtime": 31.2936,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2820
	},
	{
	"epoch": 5.66,
	"learning_rate": 3.4709418837675353e-05,
	"loss": 0.2884,
	"step": 2825
	},
	{
	"epoch": 5.67,
	"learning_rate": 3.462925851703407e-05,
	"loss": 0.3161,
	"step": 2830
	},
	{
	"epoch": 5.67,
	"eval_loss": 0.3598646819591522,
	"eval_runtime": 31.292,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2830
	},
	{
	"epoch": 5.68,
	"learning_rate": 3.454909819639279e-05,
	"loss": 0.323,
	"step": 2835
	},
	{
	"epoch": 5.69,
	"learning_rate": 3.4468937875751504e-05,
	"loss": 0.4152,
	"step": 2840
	},
	{
	"epoch": 5.69,
	"eval_loss": 0.3621058464050293,
	"eval_runtime": 31.2915,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2840
	},
	{
	"epoch": 5.7,
	"learning_rate": 3.438877755511022e-05,
	"loss": 0.3332,
	"step": 2845
	},
	{
	"epoch": 5.71,
	"learning_rate": 3.430861723446894e-05,
	"loss": 0.2802,
	"step": 2850
	},
	{
	"epoch": 5.71,
	"eval_loss": 0.36484986543655396,
	"eval_runtime": 31.2933,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2850
	},
	{
	"epoch": 5.72,
	"learning_rate": 3.4228456913827654e-05,
	"loss": 0.37,
	"step": 2855
	},
	{
	"epoch": 5.73,
	"learning_rate": 3.414829659318638e-05,
	"loss": 0.2909,
	"step": 2860
	},
	{
	"epoch": 5.73,
	"eval_loss": 0.36040765047073364,
	"eval_runtime": 31.2907,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2860
	},
	{
	"epoch": 5.74,
	"learning_rate": 3.4068136272545094e-05,
	"loss": 0.3928,
	"step": 2865
	},
	{
	"epoch": 5.75,
	"learning_rate": 3.398797595190381e-05,
	"loss": 0.3105,
	"step": 2870
	},
	{
	"epoch": 5.75,
	"eval_loss": 0.3604431748390198,
	"eval_runtime": 31.2918,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2870
	},
	{
	"epoch": 5.76,
	"learning_rate": 3.390781563126253e-05,
	"loss": 0.3766,
	"step": 2875
	},
	{
	"epoch": 5.77,
	"learning_rate": 3.3827655310621244e-05,
	"loss": 0.3291,
	"step": 2880
	},
	{
	"epoch": 5.77,
	"eval_loss": 0.355290025472641,
	"eval_runtime": 31.2907,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2880
	},
	{
	"epoch": 5.78,
	"learning_rate": 3.374749498997996e-05,
	"loss": 0.3502,
	"step": 2885
	},
	{
	"epoch": 5.79,
	"learning_rate": 3.366733466933868e-05,
	"loss": 0.3916,
	"step": 2890
	},
	{
	"epoch": 5.79,
	"eval_loss": 0.36026230454444885,
	"eval_runtime": 31.2896,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2890
	},
	{
	"epoch": 5.8,
	"learning_rate": 3.3587174348697394e-05,
	"loss": 0.31,
	"step": 2895
	},
	{
	"epoch": 5.81,
	"learning_rate": 3.350701402805611e-05,
	"loss": 0.3657,
	"step": 2900
	},
	{
	"epoch": 5.81,
	"eval_loss": 0.3543720543384552,
	"eval_runtime": 31.2877,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2900
	},
	{
	"epoch": 5.82,
	"learning_rate": 3.342685370741483e-05,
	"loss": 0.3137,
	"step": 2905
	},
	{
	"epoch": 5.83,
	"learning_rate": 3.3346693386773544e-05,
	"loss": 0.3745,
	"step": 2910
	},
	{
	"epoch": 5.83,
	"eval_loss": 0.35586270689964294,
	"eval_runtime": 31.2748,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 2910
	},
	{
	"epoch": 5.84,
	"learning_rate": 3.326653306613227e-05,
	"loss": 0.3075,
	"step": 2915
	},
	{
	"epoch": 5.85,
	"learning_rate": 3.3186372745490984e-05,
	"loss": 0.3281,
	"step": 2920
	},
	{
	"epoch": 5.85,
	"eval_loss": 0.35174089670181274,
	"eval_runtime": 31.2876,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2920
	},
	{
	"epoch": 5.86,
	"learning_rate": 3.31062124248497e-05,
	"loss": 0.2976,
	"step": 2925
	},
	{
	"epoch": 5.87,
	"learning_rate": 3.3026052104208425e-05,
	"loss": 0.2892,
	"step": 2930
	},
	{
	"epoch": 5.87,
	"eval_loss": 0.3550553023815155,
	"eval_runtime": 31.2925,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2930
	},
	{
	"epoch": 5.88,
	"learning_rate": 3.294589178356714e-05,
	"loss": 0.2826,
	"step": 2935
	},
	{
	"epoch": 5.89,
	"learning_rate": 3.286573146292586e-05,
	"loss": 0.4121,
	"step": 2940
	},
	{
	"epoch": 5.89,
	"eval_loss": 0.34888410568237305,
	"eval_runtime": 31.2869,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2940
	},
	{
	"epoch": 5.9,
	"learning_rate": 3.2785571142284575e-05,
	"loss": 0.3921,
	"step": 2945
	},
	{
	"epoch": 5.91,
	"learning_rate": 3.270541082164329e-05,
	"loss": 0.2908,
	"step": 2950
	},
	{
	"epoch": 5.91,
	"eval_loss": 0.35319554805755615,
	"eval_runtime": 31.2849,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 2950
	},
	{
	"epoch": 5.92,
	"learning_rate": 3.262525050100201e-05,
	"loss": 0.2526,
	"step": 2955
	},
	{
	"epoch": 5.93,
	"learning_rate": 3.2545090180360725e-05,
	"loss": 0.3677,
	"step": 2960
	},
	{
	"epoch": 5.93,
	"eval_loss": 0.3468542993068695,
	"eval_runtime": 31.2952,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 2960
	},
	{
	"epoch": 5.94,
	"learning_rate": 3.246492985971944e-05,
	"loss": 0.303,
	"step": 2965
	},
	{
	"epoch": 5.95,
	"learning_rate": 3.238476953907816e-05,
	"loss": 0.341,
	"step": 2970
	},
	{
	"epoch": 5.95,
	"eval_loss": 0.3503284752368927,
	"eval_runtime": 31.2896,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 2970
	},
	{
	"epoch": 5.96,
	"learning_rate": 3.2304609218436875e-05,
	"loss": 0.3035,
	"step": 2975
	},
	{
	"epoch": 5.97,
	"learning_rate": 3.222444889779559e-05,
	"loss": 0.2319,
	"step": 2980
	},
	{
	"epoch": 5.97,
	"eval_loss": 0.3496892750263214,
	"eval_runtime": 31.3066,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 2980
	},
	{
	"epoch": 5.98,
	"learning_rate": 3.2144288577154315e-05,
	"loss": 0.2791,
	"step": 2985
	},
	{
	"epoch": 5.99,
	"learning_rate": 3.206412825651303e-05,
	"loss": 0.2624,
	"step": 2990
	},
	{
	"epoch": 5.99,
	"eval_loss": 0.34680891036987305,
	"eval_runtime": 31.2925,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 2990
	},
	{
	"epoch": 6.0,
	"learning_rate": 3.198396793587175e-05,
	"loss": 0.2614,
	"step": 2995
	},
	{
	"epoch": 6.01,
	"learning_rate": 3.1903807615230465e-05,
	"loss": 0.3324,
	"step": 3000
	},
	{
	"epoch": 6.01,
	"eval_loss": 0.3479662537574768,
	"eval_runtime": 31.2947,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3000
	},
	{
	"epoch": 6.02,
	"learning_rate": 3.182364729458918e-05,
	"loss": 0.3096,
	"step": 3005
	},
	{
	"epoch": 6.03,
	"learning_rate": 3.17434869739479e-05,
	"loss": 0.2114,
	"step": 3010
	},
	{
	"epoch": 6.03,
	"eval_loss": 0.35304367542266846,
	"eval_runtime": 31.2007,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 1.795,
	"step": 3010
	},
	{
	"epoch": 6.04,
	"learning_rate": 3.1663326653306616e-05,
	"loss": 0.2836,
	"step": 3015
	},
	{
	"epoch": 6.05,
	"learning_rate": 3.158316633266533e-05,
	"loss": 0.256,
	"step": 3020
	},
	{
	"epoch": 6.05,
	"eval_loss": 0.3500817120075226,
	"eval_runtime": 31.2754,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.791,
	"step": 3020
	},
	{
	"epoch": 6.06,
	"learning_rate": 3.150300601202405e-05,
	"loss": 0.2611,
	"step": 3025
	},
	{
	"epoch": 6.07,
	"learning_rate": 3.1422845691382766e-05,
	"loss": 0.2716,
	"step": 3030
	},
	{
	"epoch": 6.07,
	"eval_loss": 0.3489656150341034,
	"eval_runtime": 31.2904,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 3030
	},
	{
	"epoch": 6.08,
	"learning_rate": 3.134268537074149e-05,
	"loss": 0.2764,
	"step": 3035
	},
	{
	"epoch": 6.09,
	"learning_rate": 3.1262525050100206e-05,
	"loss": 0.2921,
	"step": 3040
	},
	{
	"epoch": 6.09,
	"eval_loss": 0.34664395451545715,
	"eval_runtime": 31.2969,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3040
	},
	{
	"epoch": 6.1,
	"learning_rate": 3.118236472945892e-05,
	"loss": 0.256,
	"step": 3045
	},
	{
	"epoch": 6.11,
	"learning_rate": 3.110220440881764e-05,
	"loss": 0.2924,
	"step": 3050
	},
	{
	"epoch": 6.11,
	"eval_loss": 0.35313141345977783,
	"eval_runtime": 31.2961,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3050
	},
	{
	"epoch": 6.12,
	"learning_rate": 3.1022044088176356e-05,
	"loss": 0.3146,
	"step": 3055
	},
	{
	"epoch": 6.13,
	"learning_rate": 3.094188376753507e-05,
	"loss": 0.3267,
	"step": 3060
	},
	{
	"epoch": 6.13,
	"eval_loss": 0.3454523980617523,
	"eval_runtime": 31.2999,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3060
	},
	{
	"epoch": 6.14,
	"learning_rate": 3.086172344689379e-05,
	"loss": 0.3476,
	"step": 3065
	},
	{
	"epoch": 6.15,
	"learning_rate": 3.0781563126252506e-05,
	"loss": 0.3488,
	"step": 3070
	},
	{
	"epoch": 6.15,
	"eval_loss": 0.3427518606185913,
	"eval_runtime": 31.2904,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 3070
	},
	{
	"epoch": 6.16,
	"learning_rate": 3.070140280561122e-05,
	"loss": 0.3351,
	"step": 3075
	},
	{
	"epoch": 6.17,
	"learning_rate": 3.062124248496994e-05,
	"loss": 0.301,
	"step": 3080
	},
	{
	"epoch": 6.17,
	"eval_loss": 0.3455488681793213,
	"eval_runtime": 31.288,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 3080
	},
	{
	"epoch": 6.18,
	"learning_rate": 3.0541082164328656e-05,
	"loss": 0.287,
	"step": 3085
	},
	{
	"epoch": 6.19,
	"learning_rate": 3.0460921843687376e-05,
	"loss": 0.2656,
	"step": 3090
	},
	{
	"epoch": 6.19,
	"eval_loss": 0.34496939182281494,
	"eval_runtime": 31.2947,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3090
	},
	{
	"epoch": 6.2,
	"learning_rate": 3.0380761523046093e-05,
	"loss": 0.2814,
	"step": 3095
	},
	{
	"epoch": 6.21,
	"learning_rate": 3.030060120240481e-05,
	"loss": 0.2377,
	"step": 3100
	},
	{
	"epoch": 6.21,
	"eval_loss": 0.3474458158016205,
	"eval_runtime": 31.2977,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3100
	},
	{
	"epoch": 6.22,
	"learning_rate": 3.022044088176353e-05,
	"loss": 0.2179,
	"step": 3105
	},
	{
	"epoch": 6.23,
	"learning_rate": 3.0140280561122247e-05,
	"loss": 0.2344,
	"step": 3110
	},
	{
	"epoch": 6.23,
	"eval_loss": 0.34611740708351135,
	"eval_runtime": 31.2932,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3110
	},
	{
	"epoch": 6.24,
	"learning_rate": 3.0060120240480963e-05,
	"loss": 0.3124,
	"step": 3115
	},
	{
	"epoch": 6.25,
	"learning_rate": 2.997995991983968e-05,
	"loss": 0.2816,
	"step": 3120
	},
	{
	"epoch": 6.25,
	"eval_loss": 0.3488862216472626,
	"eval_runtime": 31.3005,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3120
	},
	{
	"epoch": 6.26,
	"learning_rate": 2.9899799599198397e-05,
	"loss": 0.3506,
	"step": 3125
	},
	{
	"epoch": 6.27,
	"learning_rate": 2.9819639278557117e-05,
	"loss": 0.2675,
	"step": 3130
	},
	{
	"epoch": 6.27,
	"eval_loss": 0.34268468618392944,
	"eval_runtime": 31.3,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3130
	},
	{
	"epoch": 6.28,
	"learning_rate": 2.9739478957915833e-05,
	"loss": 0.375,
	"step": 3135
	},
	{
	"epoch": 6.29,
	"learning_rate": 2.965931863727455e-05,
	"loss": 0.3315,
	"step": 3140
	},
	{
	"epoch": 6.29,
	"eval_loss": 0.3393230736255646,
	"eval_runtime": 31.3008,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3140
	},
	{
	"epoch": 6.3,
	"learning_rate": 2.9579158316633267e-05,
	"loss": 0.2561,
	"step": 3145
	},
	{
	"epoch": 6.31,
	"learning_rate": 2.9498997995991984e-05,
	"loss": 0.335,
	"step": 3150
	},
	{
	"epoch": 6.31,
	"eval_loss": 0.3406154215335846,
	"eval_runtime": 31.3005,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3150
	},
	{
	"epoch": 6.32,
	"learning_rate": 2.9418837675350704e-05,
	"loss": 0.3748,
	"step": 3155
	},
	{
	"epoch": 6.33,
	"learning_rate": 2.933867735470942e-05,
	"loss": 0.2418,
	"step": 3160
	},
	{
	"epoch": 6.33,
	"eval_loss": 0.3384529948234558,
	"eval_runtime": 31.2977,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3160
	},
	{
	"epoch": 6.34,
	"learning_rate": 2.9258517034068137e-05,
	"loss": 0.3214,
	"step": 3165
	},
	{
	"epoch": 6.35,
	"learning_rate": 2.9178356713426854e-05,
	"loss": 0.215,
	"step": 3170
	},
	{
	"epoch": 6.35,
	"eval_loss": 0.33930283784866333,
	"eval_runtime": 31.3001,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3170
	},
	{
	"epoch": 6.36,
	"learning_rate": 2.909819639278557e-05,
	"loss": 0.2009,
	"step": 3175
	},
	{
	"epoch": 6.37,
	"learning_rate": 2.9018036072144287e-05,
	"loss": 0.2279,
	"step": 3180
	},
	{
	"epoch": 6.37,
	"eval_loss": 0.342680424451828,
	"eval_runtime": 31.3037,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3180
	},
	{
	"epoch": 6.38,
	"learning_rate": 2.8937875751503007e-05,
	"loss": 0.2684,
	"step": 3185
	},
	{
	"epoch": 6.39,
	"learning_rate": 2.8857715430861727e-05,
	"loss": 0.2907,
	"step": 3190
	},
	{
	"epoch": 6.39,
	"eval_loss": 0.33792585134506226,
	"eval_runtime": 31.3001,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3190
	},
	{
	"epoch": 6.4,
	"learning_rate": 2.8777555110220444e-05,
	"loss": 0.284,
	"step": 3195
	},
	{
	"epoch": 6.41,
	"learning_rate": 2.8697394789579164e-05,
	"loss": 0.2184,
	"step": 3200
	},
	{
	"epoch": 6.41,
	"eval_loss": 0.34375742077827454,
	"eval_runtime": 31.3016,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3200
	},
	{
	"epoch": 6.42,
	"learning_rate": 2.861723446893788e-05,
	"loss": 0.3549,
	"step": 3205
	},
	{
	"epoch": 6.43,
	"learning_rate": 2.8537074148296598e-05,
	"loss": 0.3484,
	"step": 3210
	},
	{
	"epoch": 6.43,
	"eval_loss": 0.33638885617256165,
	"eval_runtime": 31.3083,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3210
	},
	{
	"epoch": 6.44,
	"learning_rate": 2.8456913827655314e-05,
	"loss": 0.2836,
	"step": 3215
	},
	{
	"epoch": 6.45,
	"learning_rate": 2.837675350701403e-05,
	"loss": 0.2327,
	"step": 3220
	},
	{
	"epoch": 6.45,
	"eval_loss": 0.3405826687812805,
	"eval_runtime": 31.3055,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3220
	},
	{
	"epoch": 6.46,
	"learning_rate": 2.8296593186372748e-05,
	"loss": 0.2421,
	"step": 3225
	},
	{
	"epoch": 6.47,
	"learning_rate": 2.8216432865731468e-05,
	"loss": 0.2571,
	"step": 3230
	},
	{
	"epoch": 6.47,
	"eval_loss": 0.3399759531021118,
	"eval_runtime": 31.3102,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 3230
	},
	{
	"epoch": 6.48,
	"learning_rate": 2.8136272545090185e-05,
	"loss": 0.2913,
	"step": 3235
	},
	{
	"epoch": 6.49,
	"learning_rate": 2.80561122244489e-05,
	"loss": 0.2864,
	"step": 3240
	},
	{
	"epoch": 6.49,
	"eval_loss": 0.3367003798484802,
	"eval_runtime": 31.3053,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3240
	},
	{
	"epoch": 6.5,
	"learning_rate": 2.7975951903807618e-05,
	"loss": 0.2917,
	"step": 3245
	},
	{
	"epoch": 6.51,
	"learning_rate": 2.7895791583166335e-05,
	"loss": 0.2383,
	"step": 3250
	},
	{
	"epoch": 6.51,
	"eval_loss": 0.3376709818840027,
	"eval_runtime": 31.3097,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 3250
	},
	{
	"epoch": 6.52,
	"learning_rate": 2.7815631262525055e-05,
	"loss": 0.2364,
	"step": 3255
	},
	{
	"epoch": 6.53,
	"learning_rate": 2.773547094188377e-05,
	"loss": 0.187,
	"step": 3260
	},
	{
	"epoch": 6.53,
	"eval_loss": 0.334637314081192,
	"eval_runtime": 31.3083,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3260
	},
	{
	"epoch": 6.54,
	"learning_rate": 2.7655310621242488e-05,
	"loss": 0.2886,
	"step": 3265
	},
	{
	"epoch": 6.55,
	"learning_rate": 2.7575150300601205e-05,
	"loss": 0.2453,
	"step": 3270
	},
	{
	"epoch": 6.55,
	"eval_loss": 0.33486467599868774,
	"eval_runtime": 31.3013,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3270
	},
	{
	"epoch": 6.56,
	"learning_rate": 2.749498997995992e-05,
	"loss": 0.3396,
	"step": 3275
	},
	{
	"epoch": 6.57,
	"learning_rate": 2.7414829659318642e-05,
	"loss": 0.296,
	"step": 3280
	},
	{
	"epoch": 6.57,
	"eval_loss": 0.33391273021698,
	"eval_runtime": 31.3077,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3280
	},
	{
	"epoch": 6.58,
	"learning_rate": 2.733466933867736e-05,
	"loss": 0.2475,
	"step": 3285
	},
	{
	"epoch": 6.59,
	"learning_rate": 2.7254509018036075e-05,
	"loss": 0.2601,
	"step": 3290
	},
	{
	"epoch": 6.59,
	"eval_loss": 0.3335227370262146,
	"eval_runtime": 31.2966,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3290
	},
	{
	"epoch": 6.6,
	"learning_rate": 2.7174348697394792e-05,
	"loss": 0.2877,
	"step": 3295
	},
	{
	"epoch": 6.61,
	"learning_rate": 2.709418837675351e-05,
	"loss": 0.2927,
	"step": 3300
	},
	{
	"epoch": 6.61,
	"eval_loss": 0.33400464057922363,
	"eval_runtime": 31.2901,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 3300
	},
	{
	"epoch": 6.62,
	"learning_rate": 2.701402805611223e-05,
	"loss": 0.246,
	"step": 3305
	},
	{
	"epoch": 6.63,
	"learning_rate": 2.6933867735470945e-05,
	"loss": 0.2796,
	"step": 3310
	},
	{
	"epoch": 6.63,
	"eval_loss": 0.33034074306488037,
	"eval_runtime": 31.2965,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3310
	},
	{
	"epoch": 6.64,
	"learning_rate": 2.6853707414829662e-05,
	"loss": 0.307,
	"step": 3315
	},
	{
	"epoch": 6.65,
	"learning_rate": 2.677354709418838e-05,
	"loss": 0.2393,
	"step": 3320
	},
	{
	"epoch": 6.65,
	"eval_loss": 0.3351325988769531,
	"eval_runtime": 31.3032,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3320
	},
	{
	"epoch": 6.66,
	"learning_rate": 2.6693386773547095e-05,
	"loss": 0.3415,
	"step": 3325
	},
	{
	"epoch": 6.67,
	"learning_rate": 2.6613226452905812e-05,
	"loss": 0.2764,
	"step": 3330
	},
	{
	"epoch": 6.67,
	"eval_loss": 0.3287622332572937,
	"eval_runtime": 31.3032,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3330
	},
	{
	"epoch": 6.68,
	"learning_rate": 2.6533066132264532e-05,
	"loss": 0.3419,
	"step": 3335
	},
	{
	"epoch": 6.69,
	"learning_rate": 2.645290581162325e-05,
	"loss": 0.2547,
	"step": 3340
	},
	{
	"epoch": 6.69,
	"eval_loss": 0.3326658010482788,
	"eval_runtime": 31.3149,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 3340
	},
	{
	"epoch": 6.7,
	"learning_rate": 2.6372745490981966e-05,
	"loss": 0.2263,
	"step": 3345
	},
	{
	"epoch": 6.71,
	"learning_rate": 2.6292585170340682e-05,
	"loss": 0.3247,
	"step": 3350
	},
	{
	"epoch": 6.71,
	"eval_loss": 0.3279091715812683,
	"eval_runtime": 31.3129,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 3350
	},
	{
	"epoch": 6.72,
	"learning_rate": 2.62124248496994e-05,
	"loss": 0.2162,
	"step": 3355
	},
	{
	"epoch": 6.73,
	"learning_rate": 2.613226452905812e-05,
	"loss": 0.3217,
	"step": 3360
	},
	{
	"epoch": 6.73,
	"eval_loss": 0.32833293080329895,
	"eval_runtime": 31.3104,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 3360
	},
	{
	"epoch": 6.74,
	"learning_rate": 2.6052104208416836e-05,
	"loss": 0.3017,
	"step": 3365
	},
	{
	"epoch": 6.75,
	"learning_rate": 2.5971943887775553e-05,
	"loss": 0.2881,
	"step": 3370
	},
	{
	"epoch": 6.75,
	"eval_loss": 0.33072584867477417,
	"eval_runtime": 31.3091,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3370
	},
	{
	"epoch": 6.76,
	"learning_rate": 2.589178356713427e-05,
	"loss": 0.2871,
	"step": 3375
	},
	{
	"epoch": 6.77,
	"learning_rate": 2.5811623246492986e-05,
	"loss": 0.2897,
	"step": 3380
	},
	{
	"epoch": 6.77,
	"eval_loss": 0.3281080722808838,
	"eval_runtime": 31.3013,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3380
	},
	{
	"epoch": 6.78,
	"learning_rate": 2.5731462925851706e-05,
	"loss": 0.2671,
	"step": 3385
	},
	{
	"epoch": 6.79,
	"learning_rate": 2.5651302605210423e-05,
	"loss": 0.3096,
	"step": 3390
	},
	{
	"epoch": 6.79,
	"eval_loss": 0.3256888687610626,
	"eval_runtime": 31.3048,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3390
	},
	{
	"epoch": 6.8,
	"learning_rate": 2.557114228456914e-05,
	"loss": 0.3105,
	"step": 3395
	},
	{
	"epoch": 6.81,
	"learning_rate": 2.5490981963927856e-05,
	"loss": 0.2463,
	"step": 3400
	},
	{
	"epoch": 6.81,
	"eval_loss": 0.3243662714958191,
	"eval_runtime": 31.3033,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3400
	},
	{
	"epoch": 6.82,
	"learning_rate": 2.5410821643286573e-05,
	"loss": 0.3127,
	"step": 3405
	},
	{
	"epoch": 6.83,
	"learning_rate": 2.533066132264529e-05,
	"loss": 0.2404,
	"step": 3410
	},
	{
	"epoch": 6.83,
	"eval_loss": 0.32544904947280884,
	"eval_runtime": 31.3022,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3410
	},
	{
	"epoch": 6.84,
	"learning_rate": 2.525050100200401e-05,
	"loss": 0.2506,
	"step": 3415
	},
	{
	"epoch": 6.85,
	"learning_rate": 2.5170340681362726e-05,
	"loss": 0.2907,
	"step": 3420
	},
	{
	"epoch": 6.85,
	"eval_loss": 0.32269883155822754,
	"eval_runtime": 31.2987,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3420
	},
	{
	"epoch": 6.86,
	"learning_rate": 2.5090180360721443e-05,
	"loss": 0.2479,
	"step": 3425
	},
	{
	"epoch": 6.87,
	"learning_rate": 2.501002004008016e-05,
	"loss": 0.2749,
	"step": 3430
	},
	{
	"epoch": 6.87,
	"eval_loss": 0.3225778043270111,
	"eval_runtime": 31.3034,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3430
	},
	{
	"epoch": 6.88,
	"learning_rate": 2.4929859719438877e-05,
	"loss": 0.2815,
	"step": 3435
	},
	{
	"epoch": 6.89,
	"learning_rate": 2.4849699398797597e-05,
	"loss": 0.2262,
	"step": 3440
	},
	{
	"epoch": 6.89,
	"eval_loss": 0.32259687781333923,
	"eval_runtime": 31.3032,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3440
	},
	{
	"epoch": 6.9,
	"learning_rate": 2.4769539078156313e-05,
	"loss": 0.3338,
	"step": 3445
	},
	{
	"epoch": 6.91,
	"learning_rate": 2.468937875751503e-05,
	"loss": 0.2799,
	"step": 3450
	},
	{
	"epoch": 6.91,
	"eval_loss": 0.3232540488243103,
	"eval_runtime": 31.2972,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3450
	},
	{
	"epoch": 6.92,
	"learning_rate": 2.4609218436873747e-05,
	"loss": 0.2203,
	"step": 3455
	},
	{
	"epoch": 6.93,
	"learning_rate": 2.4529058116232464e-05,
	"loss": 0.2764,
	"step": 3460
	},
	{
	"epoch": 6.93,
	"eval_loss": 0.31978297233581543,
	"eval_runtime": 31.3045,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3460
	},
	{
	"epoch": 6.94,
	"learning_rate": 2.4448897795591184e-05,
	"loss": 0.3449,
	"step": 3465
	},
	{
	"epoch": 6.95,
	"learning_rate": 2.4368737474949904e-05,
	"loss": 0.2644,
	"step": 3470
	},
	{
	"epoch": 6.95,
	"eval_loss": 0.3230922222137451,
	"eval_runtime": 31.3046,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3470
	},
	{
	"epoch": 6.96,
	"learning_rate": 2.428857715430862e-05,
	"loss": 0.2169,
	"step": 3475
	},
	{
	"epoch": 6.97,
	"learning_rate": 2.4208416833667337e-05,
	"loss": 0.2733,
	"step": 3480
	},
	{
	"epoch": 6.97,
	"eval_loss": 0.3187558650970459,
	"eval_runtime": 31.3014,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3480
	},
	{
	"epoch": 6.98,
	"learning_rate": 2.4128256513026057e-05,
	"loss": 0.2509,
	"step": 3485
	},
	{
	"epoch": 6.99,
	"learning_rate": 2.4048096192384774e-05,
	"loss": 0.2861,
	"step": 3490
	},
	{
	"epoch": 6.99,
	"eval_loss": 0.3191593587398529,
	"eval_runtime": 31.3055,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3490
	},
	{
	"epoch": 7.0,
	"learning_rate": 2.396793587174349e-05,
	"loss": 0.3167,
	"step": 3495
	},
	{
	"epoch": 7.01,
	"learning_rate": 2.3887775551102207e-05,
	"loss": 0.1757,
	"step": 3500
	},
	{
	"epoch": 7.01,
	"eval_loss": 0.3242829144001007,
	"eval_runtime": 31.3027,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3500
	},
	{
	"epoch": 7.02,
	"learning_rate": 2.3807615230460924e-05,
	"loss": 0.2188,
	"step": 3505
	},
	{
	"epoch": 7.03,
	"learning_rate": 2.3727454909819644e-05,
	"loss": 0.2588,
	"step": 3510
	},
	{
	"epoch": 7.03,
	"eval_loss": 0.3237724304199219,
	"eval_runtime": 31.201,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 1.795,
	"step": 3510
	},
	{
	"epoch": 7.04,
	"learning_rate": 2.364729458917836e-05,
	"loss": 0.2842,
	"step": 3515
	},
	{
	"epoch": 7.05,
	"learning_rate": 2.3567134268537078e-05,
	"loss": 0.2132,
	"step": 3520
	},
	{
	"epoch": 7.05,
	"eval_loss": 0.3207135498523712,
	"eval_runtime": 31.2833,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 3520
	},
	{
	"epoch": 7.06,
	"learning_rate": 2.3486973947895794e-05,
	"loss": 0.2001,
	"step": 3525
	},
	{
	"epoch": 7.07,
	"learning_rate": 2.340681362725451e-05,
	"loss": 0.2787,
	"step": 3530
	},
	{
	"epoch": 7.07,
	"eval_loss": 0.32723355293273926,
	"eval_runtime": 31.2924,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3530
	},
	{
	"epoch": 7.08,
	"learning_rate": 2.332665330661323e-05,
	"loss": 0.1942,
	"step": 3535
	},
	{
	"epoch": 7.09,
	"learning_rate": 2.3246492985971948e-05,
	"loss": 0.2786,
	"step": 3540
	},
	{
	"epoch": 7.09,
	"eval_loss": 0.32288235425949097,
	"eval_runtime": 31.2971,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3540
	},
	{
	"epoch": 7.1,
	"learning_rate": 2.3166332665330665e-05,
	"loss": 0.1944,
	"step": 3545
	},
	{
	"epoch": 7.11,
	"learning_rate": 2.308617234468938e-05,
	"loss": 0.2854,
	"step": 3550
	},
	{
	"epoch": 7.11,
	"eval_loss": 0.32317566871643066,
	"eval_runtime": 31.2981,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3550
	},
	{
	"epoch": 7.12,
	"learning_rate": 2.3006012024048098e-05,
	"loss": 0.224,
	"step": 3555
	},
	{
	"epoch": 7.13,
	"learning_rate": 2.2925851703406815e-05,
	"loss": 0.1982,
	"step": 3560
	},
	{
	"epoch": 7.13,
	"eval_loss": 0.3237103521823883,
	"eval_runtime": 31.3037,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3560
	},
	{
	"epoch": 7.14,
	"learning_rate": 2.2845691382765535e-05,
	"loss": 0.2057,
	"step": 3565
	},
	{
	"epoch": 7.15,
	"learning_rate": 2.276553106212425e-05,
	"loss": 0.2022,
	"step": 3570
	},
	{
	"epoch": 7.15,
	"eval_loss": 0.3253968060016632,
	"eval_runtime": 31.3005,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3570
	},
	{
	"epoch": 7.16,
	"learning_rate": 2.2685370741482968e-05,
	"loss": 0.1863,
	"step": 3575
	},
	{
	"epoch": 7.17,
	"learning_rate": 2.2605210420841685e-05,
	"loss": 0.2592,
	"step": 3580
	},
	{
	"epoch": 7.17,
	"eval_loss": 0.32580825686454773,
	"eval_runtime": 31.2975,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3580
	},
	{
	"epoch": 7.18,
	"learning_rate": 2.25250501002004e-05,
	"loss": 0.2837,
	"step": 3585
	},
	{
	"epoch": 7.19,
	"learning_rate": 2.2444889779559122e-05,
	"loss": 0.2299,
	"step": 3590
	},
	{
	"epoch": 7.19,
	"eval_loss": 0.32067885994911194,
	"eval_runtime": 31.2956,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3590
	},
	{
	"epoch": 7.2,
	"learning_rate": 2.236472945891784e-05,
	"loss": 0.1787,
	"step": 3595
	},
	{
	"epoch": 7.21,
	"learning_rate": 2.2284569138276555e-05,
	"loss": 0.2054,
	"step": 3600
	},
	{
	"epoch": 7.21,
	"eval_loss": 0.31973427534103394,
	"eval_runtime": 31.2985,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3600
	},
	{
	"epoch": 7.22,
	"learning_rate": 2.2204408817635272e-05,
	"loss": 0.2326,
	"step": 3605
	},
	{
	"epoch": 7.23,
	"learning_rate": 2.212424849699399e-05,
	"loss": 0.208,
	"step": 3610
	},
	{
	"epoch": 7.23,
	"eval_loss": 0.32161736488342285,
	"eval_runtime": 31.2934,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3610
	},
	{
	"epoch": 7.24,
	"learning_rate": 2.204408817635271e-05,
	"loss": 0.283,
	"step": 3615
	},
	{
	"epoch": 7.25,
	"learning_rate": 2.1963927855711425e-05,
	"loss": 0.2432,
	"step": 3620
	},
	{
	"epoch": 7.25,
	"eval_loss": 0.3228018283843994,
	"eval_runtime": 31.2953,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3620
	},
	{
	"epoch": 7.26,
	"learning_rate": 2.1883767535070142e-05,
	"loss": 0.2692,
	"step": 3625
	},
	{
	"epoch": 7.27,
	"learning_rate": 2.180360721442886e-05,
	"loss": 0.2452,
	"step": 3630
	},
	{
	"epoch": 7.27,
	"eval_loss": 0.3180503249168396,
	"eval_runtime": 31.2954,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3630
	},
	{
	"epoch": 7.28,
	"learning_rate": 2.1723446893787575e-05,
	"loss": 0.284,
	"step": 3635
	},
	{
	"epoch": 7.29,
	"learning_rate": 2.1643286573146292e-05,
	"loss": 0.264,
	"step": 3640
	},
	{
	"epoch": 7.29,
	"eval_loss": 0.3237510919570923,
	"eval_runtime": 31.3062,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3640
	},
	{
	"epoch": 7.3,
	"learning_rate": 2.1563126252505012e-05,
	"loss": 0.1818,
	"step": 3645
	},
	{
	"epoch": 7.31,
	"learning_rate": 2.148296593186373e-05,
	"loss": 0.2019,
	"step": 3650
	},
	{
	"epoch": 7.31,
	"eval_loss": 0.3177684545516968,
	"eval_runtime": 31.3017,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3650
	},
	{
	"epoch": 7.32,
	"learning_rate": 2.1402805611222446e-05,
	"loss": 0.2007,
	"step": 3655
	},
	{
	"epoch": 7.33,
	"learning_rate": 2.1322645290581162e-05,
	"loss": 0.2299,
	"step": 3660
	},
	{
	"epoch": 7.33,
	"eval_loss": 0.32181212306022644,
	"eval_runtime": 31.3118,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 3660
	},
	{
	"epoch": 7.34,
	"learning_rate": 2.124248496993988e-05,
	"loss": 0.242,
	"step": 3665
	},
	{
	"epoch": 7.35,
	"learning_rate": 2.11623246492986e-05,
	"loss": 0.2465,
	"step": 3670
	},
	{
	"epoch": 7.35,
	"eval_loss": 0.3172205090522766,
	"eval_runtime": 31.3041,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3670
	},
	{
	"epoch": 7.36,
	"learning_rate": 2.1082164328657316e-05,
	"loss": 0.2447,
	"step": 3675
	},
	{
	"epoch": 7.37,
	"learning_rate": 2.1002004008016033e-05,
	"loss": 0.2466,
	"step": 3680
	},
	{
	"epoch": 7.37,
	"eval_loss": 0.3167315125465393,
	"eval_runtime": 31.3046,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3680
	},
	{
	"epoch": 7.38,
	"learning_rate": 2.092184368737475e-05,
	"loss": 0.3394,
	"step": 3685
	},
	{
	"epoch": 7.39,
	"learning_rate": 2.0841683366733466e-05,
	"loss": 0.2824,
	"step": 3690
	},
	{
	"epoch": 7.39,
	"eval_loss": 0.3142654299736023,
	"eval_runtime": 31.3029,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3690
	},
	{
	"epoch": 7.4,
	"learning_rate": 2.0761523046092186e-05,
	"loss": 0.2809,
	"step": 3695
	},
	{
	"epoch": 7.41,
	"learning_rate": 2.0681362725450903e-05,
	"loss": 0.2314,
	"step": 3700
	},
	{
	"epoch": 7.41,
	"eval_loss": 0.3143279254436493,
	"eval_runtime": 31.3083,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3700
	},
	{
	"epoch": 7.42,
	"learning_rate": 2.060120240480962e-05,
	"loss": 0.2344,
	"step": 3705
	},
	{
	"epoch": 7.43,
	"learning_rate": 2.0521042084168336e-05,
	"loss": 0.2822,
	"step": 3710
	},
	{
	"epoch": 7.43,
	"eval_loss": 0.31426194310188293,
	"eval_runtime": 31.3051,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3710
	},
	{
	"epoch": 7.44,
	"learning_rate": 2.0440881763527053e-05,
	"loss": 0.2441,
	"step": 3715
	},
	{
	"epoch": 7.45,
	"learning_rate": 2.036072144288577e-05,
	"loss": 0.2254,
	"step": 3720
	},
	{
	"epoch": 7.45,
	"eval_loss": 0.3139478862285614,
	"eval_runtime": 31.3076,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3720
	},
	{
	"epoch": 7.46,
	"learning_rate": 2.028056112224449e-05,
	"loss": 0.3121,
	"step": 3725
	},
	{
	"epoch": 7.47,
	"learning_rate": 2.0200400801603206e-05,
	"loss": 0.2454,
	"step": 3730
	},
	{
	"epoch": 7.47,
	"eval_loss": 0.32176563143730164,
	"eval_runtime": 31.3037,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3730
	},
	{
	"epoch": 7.48,
	"learning_rate": 2.0120240480961923e-05,
	"loss": 0.178,
	"step": 3735
	},
	{
	"epoch": 7.49,
	"learning_rate": 2.004008016032064e-05,
	"loss": 0.2656,
	"step": 3740
	},
	{
	"epoch": 7.49,
	"eval_loss": 0.3115682899951935,
	"eval_runtime": 31.3043,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3740
	},
	{
	"epoch": 7.5,
	"learning_rate": 1.995991983967936e-05,
	"loss": 0.2158,
	"step": 3745
	},
	{
	"epoch": 7.51,
	"learning_rate": 1.9879759519038077e-05,
	"loss": 0.2172,
	"step": 3750
	},
	{
	"epoch": 7.51,
	"eval_loss": 0.3154009282588959,
	"eval_runtime": 31.3017,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3750
	},
	{
	"epoch": 7.52,
	"learning_rate": 1.9799599198396793e-05,
	"loss": 0.1828,
	"step": 3755
	},
	{
	"epoch": 7.53,
	"learning_rate": 1.9719438877755514e-05,
	"loss": 0.2408,
	"step": 3760
	},
	{
	"epoch": 7.53,
	"eval_loss": 0.3127301037311554,
	"eval_runtime": 31.2971,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3760
	},
	{
	"epoch": 7.54,
	"learning_rate": 1.963927855711423e-05,
	"loss": 0.262,
	"step": 3765
	},
	{
	"epoch": 7.55,
	"learning_rate": 1.9559118236472947e-05,
	"loss": 0.1761,
	"step": 3770
	},
	{
	"epoch": 7.55,
	"eval_loss": 0.3148895502090454,
	"eval_runtime": 31.2992,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3770
	},
	{
	"epoch": 7.56,
	"learning_rate": 1.9478957915831664e-05,
	"loss": 0.2206,
	"step": 3775
	},
	{
	"epoch": 7.57,
	"learning_rate": 1.939879759519038e-05,
	"loss": 0.2232,
	"step": 3780
	},
	{
	"epoch": 7.57,
	"eval_loss": 0.3114352226257324,
	"eval_runtime": 31.2962,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3780
	},
	{
	"epoch": 7.58,
	"learning_rate": 1.93186372745491e-05,
	"loss": 0.2738,
	"step": 3785
	},
	{
	"epoch": 7.59,
	"learning_rate": 1.9238476953907817e-05,
	"loss": 0.2902,
	"step": 3790
	},
	{
	"epoch": 7.59,
	"eval_loss": 0.3135593831539154,
	"eval_runtime": 31.304,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3790
	},
	{
	"epoch": 7.6,
	"learning_rate": 1.9158316633266534e-05,
	"loss": 0.1814,
	"step": 3795
	},
	{
	"epoch": 7.61,
	"learning_rate": 1.907815631262525e-05,
	"loss": 0.2485,
	"step": 3800
	},
	{
	"epoch": 7.61,
	"eval_loss": 0.31458309292793274,
	"eval_runtime": 31.3021,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3800
	},
	{
	"epoch": 7.62,
	"learning_rate": 1.8997995991983967e-05,
	"loss": 0.2788,
	"step": 3805
	},
	{
	"epoch": 7.63,
	"learning_rate": 1.8917835671342687e-05,
	"loss": 0.1901,
	"step": 3810
	},
	{
	"epoch": 7.63,
	"eval_loss": 0.30936095118522644,
	"eval_runtime": 31.3065,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3810
	},
	{
	"epoch": 7.64,
	"learning_rate": 1.8837675350701404e-05,
	"loss": 0.2153,
	"step": 3815
	},
	{
	"epoch": 7.65,
	"learning_rate": 1.8757515030060124e-05,
	"loss": 0.2962,
	"step": 3820
	},
	{
	"epoch": 7.65,
	"eval_loss": 0.3120403587818146,
	"eval_runtime": 31.3087,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 3820
	},
	{
	"epoch": 7.66,
	"learning_rate": 1.867735470941884e-05,
	"loss": 0.253,
	"step": 3825
	},
	{
	"epoch": 7.67,
	"learning_rate": 1.8597194388777558e-05,
	"loss": 0.2093,
	"step": 3830
	},
	{
	"epoch": 7.67,
	"eval_loss": 0.31331053376197815,
	"eval_runtime": 31.2958,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3830
	},
	{
	"epoch": 7.68,
	"learning_rate": 1.8517034068136274e-05,
	"loss": 0.2398,
	"step": 3835
	},
	{
	"epoch": 7.69,
	"learning_rate": 1.843687374749499e-05,
	"loss": 0.368,
	"step": 3840
	},
	{
	"epoch": 7.69,
	"eval_loss": 0.3063763976097107,
	"eval_runtime": 31.3038,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 3840
	},
	{
	"epoch": 7.7,
	"learning_rate": 1.835671342685371e-05,
	"loss": 0.2372,
	"step": 3845
	},
	{
	"epoch": 7.71,
	"learning_rate": 1.8276553106212428e-05,
	"loss": 0.2849,
	"step": 3850
	},
	{
	"epoch": 7.71,
	"eval_loss": 0.3091437518596649,
	"eval_runtime": 31.2956,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3850
	},
	{
	"epoch": 7.72,
	"learning_rate": 1.8196392785571145e-05,
	"loss": 0.2551,
	"step": 3855
	},
	{
	"epoch": 7.73,
	"learning_rate": 1.811623246492986e-05,
	"loss": 0.1948,
	"step": 3860
	},
	{
	"epoch": 7.73,
	"eval_loss": 0.3075093924999237,
	"eval_runtime": 31.2948,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3860
	},
	{
	"epoch": 7.74,
	"learning_rate": 1.8036072144288578e-05,
	"loss": 0.2395,
	"step": 3865
	},
	{
	"epoch": 7.75,
	"learning_rate": 1.7955911823647295e-05,
	"loss": 0.2241,
	"step": 3870
	},
	{
	"epoch": 7.75,
	"eval_loss": 0.30777955055236816,
	"eval_runtime": 31.2961,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3870
	},
	{
	"epoch": 7.76,
	"learning_rate": 1.7875751503006015e-05,
	"loss": 0.2796,
	"step": 3875
	},
	{
	"epoch": 7.77,
	"learning_rate": 1.779559118236473e-05,
	"loss": 0.1935,
	"step": 3880
	},
	{
	"epoch": 7.77,
	"eval_loss": 0.30446866154670715,
	"eval_runtime": 31.2946,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3880
	},
	{
	"epoch": 7.78,
	"learning_rate": 1.7715430861723448e-05,
	"loss": 0.2199,
	"step": 3885
	},
	{
	"epoch": 7.79,
	"learning_rate": 1.7635270541082165e-05,
	"loss": 0.2045,
	"step": 3890
	},
	{
	"epoch": 7.79,
	"eval_loss": 0.3065406084060669,
	"eval_runtime": 31.2936,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3890
	},
	{
	"epoch": 7.8,
	"learning_rate": 1.755511022044088e-05,
	"loss": 0.1856,
	"step": 3895
	},
	{
	"epoch": 7.81,
	"learning_rate": 1.74749498997996e-05,
	"loss": 0.159,
	"step": 3900
	},
	{
	"epoch": 7.81,
	"eval_loss": 0.30820584297180176,
	"eval_runtime": 31.2972,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3900
	},
	{
	"epoch": 7.82,
	"learning_rate": 1.739478957915832e-05,
	"loss": 0.3111,
	"step": 3905
	},
	{
	"epoch": 7.83,
	"learning_rate": 1.7314629258517035e-05,
	"loss": 0.1714,
	"step": 3910
	},
	{
	"epoch": 7.83,
	"eval_loss": 0.3057255148887634,
	"eval_runtime": 31.2961,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 3910
	},
	{
	"epoch": 7.84,
	"learning_rate": 1.7234468937875752e-05,
	"loss": 0.1983,
	"step": 3915
	},
	{
	"epoch": 7.85,
	"learning_rate": 1.715430861723447e-05,
	"loss": 0.1984,
	"step": 3920
	},
	{
	"epoch": 7.85,
	"eval_loss": 0.3059474527835846,
	"eval_runtime": 31.3004,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3920
	},
	{
	"epoch": 7.86,
	"learning_rate": 1.707414829659319e-05,
	"loss": 0.2186,
	"step": 3925
	},
	{
	"epoch": 7.87,
	"learning_rate": 1.6993987975951905e-05,
	"loss": 0.2397,
	"step": 3930
	},
	{
	"epoch": 7.87,
	"eval_loss": 0.30371129512786865,
	"eval_runtime": 31.2982,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3930
	},
	{
	"epoch": 7.88,
	"learning_rate": 1.6913827655310622e-05,
	"loss": 0.2559,
	"step": 3935
	},
	{
	"epoch": 7.89,
	"learning_rate": 1.683366733466934e-05,
	"loss": 0.1884,
	"step": 3940
	},
	{
	"epoch": 7.89,
	"eval_loss": 0.3053794205188751,
	"eval_runtime": 31.2925,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3940
	},
	{
	"epoch": 7.9,
	"learning_rate": 1.6753507014028055e-05,
	"loss": 0.2414,
	"step": 3945
	},
	{
	"epoch": 7.91,
	"learning_rate": 1.6673346693386772e-05,
	"loss": 0.2585,
	"step": 3950
	},
	{
	"epoch": 7.91,
	"eval_loss": 0.30300775170326233,
	"eval_runtime": 31.3,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 3950
	},
	{
	"epoch": 7.92,
	"learning_rate": 1.6593186372745492e-05,
	"loss": 0.2049,
	"step": 3955
	},
	{
	"epoch": 7.93,
	"learning_rate": 1.6513026052104212e-05,
	"loss": 0.2476,
	"step": 3960
	},
	{
	"epoch": 7.93,
	"eval_loss": 0.30583810806274414,
	"eval_runtime": 31.2909,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 3960
	},
	{
	"epoch": 7.94,
	"learning_rate": 1.643286573146293e-05,
	"loss": 0.2572,
	"step": 3965
	},
	{
	"epoch": 7.95,
	"learning_rate": 1.6352705410821646e-05,
	"loss": 0.2525,
	"step": 3970
	},
	{
	"epoch": 7.95,
	"eval_loss": 0.3032612204551697,
	"eval_runtime": 31.2935,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3970
	},
	{
	"epoch": 7.96,
	"learning_rate": 1.6272545090180362e-05,
	"loss": 0.2901,
	"step": 3975
	},
	{
	"epoch": 7.97,
	"learning_rate": 1.619238476953908e-05,
	"loss": 0.2001,
	"step": 3980
	},
	{
	"epoch": 7.97,
	"eval_loss": 0.30624955892562866,
	"eval_runtime": 31.2914,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 3980
	},
	{
	"epoch": 7.98,
	"learning_rate": 1.6112224448897796e-05,
	"loss": 0.1784,
	"step": 3985
	},
	{
	"epoch": 7.99,
	"learning_rate": 1.6032064128256516e-05,
	"loss": 0.1985,
	"step": 3990
	},
	{
	"epoch": 7.99,
	"eval_loss": 0.3039126992225647,
	"eval_runtime": 31.2929,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 3990
	},
	{
	"epoch": 8.01,
	"learning_rate": 1.5951903807615233e-05,
	"loss": 0.247,
	"step": 3995
	},
	{
	"epoch": 8.02,
	"learning_rate": 1.587174348697395e-05,
	"loss": 0.1984,
	"step": 4000
	},
	{
	"epoch": 8.02,
	"eval_loss": 0.3139249384403229,
	"eval_runtime": 31.2927,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4000
	},
	{
	"epoch": 8.03,
	"learning_rate": 1.5791583166332666e-05,
	"loss": 0.1848,
	"step": 4005
	},
	{
	"epoch": 8.04,
	"learning_rate": 1.5711422845691383e-05,
	"loss": 0.2008,
	"step": 4010
	},
	{
	"epoch": 8.04,
	"eval_loss": 0.3099471926689148,
	"eval_runtime": 31.2217,
	"eval_samples_per_second": 7.11,
	"eval_steps_per_second": 1.794,
	"step": 4010
	},
	{
	"epoch": 8.05,
	"learning_rate": 1.5631262525050103e-05,
	"loss": 0.1658,
	"step": 4015
	},
	{
	"epoch": 8.06,
	"learning_rate": 1.555110220440882e-05,
	"loss": 0.2159,
	"step": 4020
	},
	{
	"epoch": 8.06,
	"eval_loss": 0.3085058629512787,
	"eval_runtime": 31.2776,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.79,
	"step": 4020
	},
	{
	"epoch": 8.07,
	"learning_rate": 1.5470941883767536e-05,
	"loss": 0.2254,
	"step": 4025
	},
	{
	"epoch": 8.08,
	"learning_rate": 1.5390781563126253e-05,
	"loss": 0.2305,
	"step": 4030
	},
	{
	"epoch": 8.08,
	"eval_loss": 0.3107781410217285,
	"eval_runtime": 31.2779,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 1.79,
	"step": 4030
	},
	{
	"epoch": 8.09,
	"learning_rate": 1.531062124248497e-05,
	"loss": 0.1916,
	"step": 4035
	},
	{
	"epoch": 8.1,
	"learning_rate": 1.5230460921843688e-05,
	"loss": 0.2007,
	"step": 4040
	},
	{
	"epoch": 8.1,
	"eval_loss": 0.30502209067344666,
	"eval_runtime": 31.29,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 4040
	},
	{
	"epoch": 8.11,
	"learning_rate": 1.5150300601202405e-05,
	"loss": 0.2161,
	"step": 4045
	},
	{
	"epoch": 8.12,
	"learning_rate": 1.5070140280561123e-05,
	"loss": 0.2124,
	"step": 4050
	},
	{
	"epoch": 8.12,
	"eval_loss": 0.31148508191108704,
	"eval_runtime": 31.2984,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4050
	},
	{
	"epoch": 8.13,
	"learning_rate": 1.498997995991984e-05,
	"loss": 0.2602,
	"step": 4055
	},
	{
	"epoch": 8.14,
	"learning_rate": 1.4909819639278558e-05,
	"loss": 0.1435,
	"step": 4060
	},
	{
	"epoch": 8.14,
	"eval_loss": 0.3084125816822052,
	"eval_runtime": 31.2938,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4060
	},
	{
	"epoch": 8.15,
	"learning_rate": 1.4829659318637275e-05,
	"loss": 0.192,
	"step": 4065
	},
	{
	"epoch": 8.16,
	"learning_rate": 1.4749498997995992e-05,
	"loss": 0.1968,
	"step": 4070
	},
	{
	"epoch": 8.16,
	"eval_loss": 0.3087104856967926,
	"eval_runtime": 31.2947,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4070
	},
	{
	"epoch": 8.17,
	"learning_rate": 1.466933867735471e-05,
	"loss": 0.167,
	"step": 4075
	},
	{
	"epoch": 8.18,
	"learning_rate": 1.4589178356713427e-05,
	"loss": 0.2507,
	"step": 4080
	},
	{
	"epoch": 8.18,
	"eval_loss": 0.3084275722503662,
	"eval_runtime": 31.2993,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4080
	},
	{
	"epoch": 8.19,
	"learning_rate": 1.4509018036072144e-05,
	"loss": 0.164,
	"step": 4085
	},
	{
	"epoch": 8.2,
	"learning_rate": 1.4428857715430864e-05,
	"loss": 0.1703,
	"step": 4090
	},
	{
	"epoch": 8.2,
	"eval_loss": 0.3060537874698639,
	"eval_runtime": 31.2962,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4090
	},
	{
	"epoch": 8.21,
	"learning_rate": 1.4348697394789582e-05,
	"loss": 0.2239,
	"step": 4095
	},
	{
	"epoch": 8.22,
	"learning_rate": 1.4268537074148299e-05,
	"loss": 0.2511,
	"step": 4100
	},
	{
	"epoch": 8.22,
	"eval_loss": 0.310585081577301,
	"eval_runtime": 31.2934,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4100
	},
	{
	"epoch": 8.23,
	"learning_rate": 1.4188376753507016e-05,
	"loss": 0.1675,
	"step": 4105
	},
	{
	"epoch": 8.24,
	"learning_rate": 1.4108216432865734e-05,
	"loss": 0.1698,
	"step": 4110
	},
	{
	"epoch": 8.24,
	"eval_loss": 0.3134320378303528,
	"eval_runtime": 31.2953,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4110
	},
	{
	"epoch": 8.25,
	"learning_rate": 1.402805611222445e-05,
	"loss": 0.1757,
	"step": 4115
	},
	{
	"epoch": 8.26,
	"learning_rate": 1.3947895791583167e-05,
	"loss": 0.2518,
	"step": 4120
	},
	{
	"epoch": 8.26,
	"eval_loss": 0.3101155757904053,
	"eval_runtime": 31.2883,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 4120
	},
	{
	"epoch": 8.27,
	"learning_rate": 1.3867735470941886e-05,
	"loss": 0.1248,
	"step": 4125
	},
	{
	"epoch": 8.28,
	"learning_rate": 1.3787575150300602e-05,
	"loss": 0.1489,
	"step": 4130
	},
	{
	"epoch": 8.28,
	"eval_loss": 0.3090272843837738,
	"eval_runtime": 31.2934,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4130
	},
	{
	"epoch": 8.29,
	"learning_rate": 1.3707414829659321e-05,
	"loss": 0.1893,
	"step": 4135
	},
	{
	"epoch": 8.3,
	"learning_rate": 1.3627254509018038e-05,
	"loss": 0.1759,
	"step": 4140
	},
	{
	"epoch": 8.3,
	"eval_loss": 0.3098497688770294,
	"eval_runtime": 31.2929,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4140
	},
	{
	"epoch": 8.31,
	"learning_rate": 1.3547094188376754e-05,
	"loss": 0.2406,
	"step": 4145
	},
	{
	"epoch": 8.32,
	"learning_rate": 1.3466933867735473e-05,
	"loss": 0.1939,
	"step": 4150
	},
	{
	"epoch": 8.32,
	"eval_loss": 0.305558979511261,
	"eval_runtime": 31.2912,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 4150
	},
	{
	"epoch": 8.33,
	"learning_rate": 1.338677354709419e-05,
	"loss": 0.211,
	"step": 4155
	},
	{
	"epoch": 8.34,
	"learning_rate": 1.3306613226452906e-05,
	"loss": 0.2168,
	"step": 4160
	},
	{
	"epoch": 8.34,
	"eval_loss": 0.31060683727264404,
	"eval_runtime": 31.2852,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 4160
	},
	{
	"epoch": 8.35,
	"learning_rate": 1.3226452905811624e-05,
	"loss": 0.2253,
	"step": 4165
	},
	{
	"epoch": 8.36,
	"learning_rate": 1.3146292585170341e-05,
	"loss": 0.2119,
	"step": 4170
	},
	{
	"epoch": 8.36,
	"eval_loss": 0.3051324188709259,
	"eval_runtime": 31.2925,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4170
	},
	{
	"epoch": 8.37,
	"learning_rate": 1.306613226452906e-05,
	"loss": 0.1942,
	"step": 4175
	},
	{
	"epoch": 8.38,
	"learning_rate": 1.2985971943887776e-05,
	"loss": 0.1793,
	"step": 4180
	},
	{
	"epoch": 8.38,
	"eval_loss": 0.30557873845100403,
	"eval_runtime": 31.3033,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4180
	},
	{
	"epoch": 8.39,
	"learning_rate": 1.2905811623246493e-05,
	"loss": 0.1906,
	"step": 4185
	},
	{
	"epoch": 8.4,
	"learning_rate": 1.2825651302605211e-05,
	"loss": 0.2434,
	"step": 4190
	},
	{
	"epoch": 8.4,
	"eval_loss": 0.30504488945007324,
	"eval_runtime": 31.2924,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4190
	},
	{
	"epoch": 8.41,
	"learning_rate": 1.2745490981963928e-05,
	"loss": 0.1886,
	"step": 4195
	},
	{
	"epoch": 8.42,
	"learning_rate": 1.2665330661322645e-05,
	"loss": 0.2601,
	"step": 4200
	},
	{
	"epoch": 8.42,
	"eval_loss": 0.30650991201400757,
	"eval_runtime": 31.2933,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4200
	},
	{
	"epoch": 8.43,
	"learning_rate": 1.2585170340681363e-05,
	"loss": 0.1338,
	"step": 4205
	},
	{
	"epoch": 8.44,
	"learning_rate": 1.250501002004008e-05,
	"loss": 0.1791,
	"step": 4210
	},
	{
	"epoch": 8.44,
	"eval_loss": 0.3051263391971588,
	"eval_runtime": 31.3026,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4210
	},
	{
	"epoch": 8.45,
	"learning_rate": 1.2424849699398798e-05,
	"loss": 0.2534,
	"step": 4215
	},
	{
	"epoch": 8.46,
	"learning_rate": 1.2344689378757515e-05,
	"loss": 0.1404,
	"step": 4220
	},
	{
	"epoch": 8.46,
	"eval_loss": 0.3057839870452881,
	"eval_runtime": 31.8248,
	"eval_samples_per_second": 6.976,
	"eval_steps_per_second": 1.76,
	"step": 4220
	},
	{
	"epoch": 8.47,
	"learning_rate": 1.2264529058116232e-05,
	"loss": 0.2097,
	"step": 4225
	},
	{
	"epoch": 8.48,
	"learning_rate": 1.2184368737474952e-05,
	"loss": 0.222,
	"step": 4230
	},
	{
	"epoch": 8.48,
	"eval_loss": 0.3059149384498596,
	"eval_runtime": 31.2917,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 4230
	},
	{
	"epoch": 8.49,
	"learning_rate": 1.2104208416833669e-05,
	"loss": 0.1822,
	"step": 4235
	},
	{
	"epoch": 8.5,
	"learning_rate": 1.2024048096192387e-05,
	"loss": 0.1809,
	"step": 4240
	},
	{
	"epoch": 8.5,
	"eval_loss": 0.30699098110198975,
	"eval_runtime": 31.297,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4240
	},
	{
	"epoch": 8.51,
	"learning_rate": 1.1943887775551104e-05,
	"loss": 0.1847,
	"step": 4245
	},
	{
	"epoch": 8.52,
	"learning_rate": 1.1863727454909822e-05,
	"loss": 0.1745,
	"step": 4250
	},
	{
	"epoch": 8.52,
	"eval_loss": 0.30655932426452637,
	"eval_runtime": 31.8903,
	"eval_samples_per_second": 6.961,
	"eval_steps_per_second": 1.756,
	"step": 4250
	},
	{
	"epoch": 8.53,
	"learning_rate": 1.1783567134268539e-05,
	"loss": 0.2631,
	"step": 4255
	},
	{
	"epoch": 8.54,
	"learning_rate": 1.1703406813627256e-05,
	"loss": 0.2236,
	"step": 4260
	},
	{
	"epoch": 8.54,
	"eval_loss": 0.30122604966163635,
	"eval_runtime": 31.2919,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4260
	},
	{
	"epoch": 8.55,
	"learning_rate": 1.1623246492985974e-05,
	"loss": 0.1922,
	"step": 4265
	},
	{
	"epoch": 8.56,
	"learning_rate": 1.154308617234469e-05,
	"loss": 0.1965,
	"step": 4270
	},
	{
	"epoch": 8.56,
	"eval_loss": 0.30368027091026306,
	"eval_runtime": 31.3086,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4270
	},
	{
	"epoch": 8.57,
	"learning_rate": 1.1462925851703407e-05,
	"loss": 0.1554,
	"step": 4275
	},
	{
	"epoch": 8.58,
	"learning_rate": 1.1382765531062126e-05,
	"loss": 0.1836,
	"step": 4280
	},
	{
	"epoch": 8.58,
	"eval_loss": 0.3051268458366394,
	"eval_runtime": 31.6028,
	"eval_samples_per_second": 7.025,
	"eval_steps_per_second": 1.772,
	"step": 4280
	},
	{
	"epoch": 8.59,
	"learning_rate": 1.1302605210420842e-05,
	"loss": 0.1924,
	"step": 4285
	},
	{
	"epoch": 8.6,
	"learning_rate": 1.1222444889779561e-05,
	"loss": 0.1912,
	"step": 4290
	},
	{
	"epoch": 8.6,
	"eval_loss": 0.30165210366249084,
	"eval_runtime": 31.2902,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 4290
	},
	{
	"epoch": 8.61,
	"learning_rate": 1.1142284569138278e-05,
	"loss": 0.1751,
	"step": 4295
	},
	{
	"epoch": 8.62,
	"learning_rate": 1.1062124248496994e-05,
	"loss": 0.2207,
	"step": 4300
	},
	{
	"epoch": 8.62,
	"eval_loss": 0.30252379179000854,
	"eval_runtime": 31.3027,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4300
	},
	{
	"epoch": 8.63,
	"learning_rate": 1.0981963927855713e-05,
	"loss": 0.1475,
	"step": 4305
	},
	{
	"epoch": 8.64,
	"learning_rate": 1.090180360721443e-05,
	"loss": 0.2481,
	"step": 4310
	},
	{
	"epoch": 8.64,
	"eval_loss": 0.29974907636642456,
	"eval_runtime": 31.3079,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4310
	},
	{
	"epoch": 8.65,
	"learning_rate": 1.0821643286573146e-05,
	"loss": 0.124,
	"step": 4315
	},
	{
	"epoch": 8.66,
	"learning_rate": 1.0741482965931864e-05,
	"loss": 0.1506,
	"step": 4320
	},
	{
	"epoch": 8.66,
	"eval_loss": 0.30026939511299133,
	"eval_runtime": 31.4042,
	"eval_samples_per_second": 7.069,
	"eval_steps_per_second": 1.783,
	"step": 4320
	},
	{
	"epoch": 8.67,
	"learning_rate": 1.0661322645290581e-05,
	"loss": 0.1864,
	"step": 4325
	},
	{
	"epoch": 8.68,
	"learning_rate": 1.05811623246493e-05,
	"loss": 0.2216,
	"step": 4330
	},
	{
	"epoch": 8.68,
	"eval_loss": 0.30346396565437317,
	"eval_runtime": 31.3544,
	"eval_samples_per_second": 7.08,
	"eval_steps_per_second": 1.786,
	"step": 4330
	},
	{
	"epoch": 8.69,
	"learning_rate": 1.0501002004008016e-05,
	"loss": 0.1759,
	"step": 4335
	},
	{
	"epoch": 8.7,
	"learning_rate": 1.0420841683366733e-05,
	"loss": 0.1866,
	"step": 4340
	},
	{
	"epoch": 8.7,
	"eval_loss": 0.301408588886261,
	"eval_runtime": 31.3231,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 4340
	},
	{
	"epoch": 8.71,
	"learning_rate": 1.0340681362725451e-05,
	"loss": 0.1588,
	"step": 4345
	},
	{
	"epoch": 8.72,
	"learning_rate": 1.0260521042084168e-05,
	"loss": 0.2025,
	"step": 4350
	},
	{
	"epoch": 8.72,
	"eval_loss": 0.30352672934532166,
	"eval_runtime": 31.2959,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4350
	},
	{
	"epoch": 8.73,
	"learning_rate": 1.0180360721442885e-05,
	"loss": 0.1465,
	"step": 4355
	},
	{
	"epoch": 8.74,
	"learning_rate": 1.0100200400801603e-05,
	"loss": 0.1521,
	"step": 4360
	},
	{
	"epoch": 8.74,
	"eval_loss": 0.2992115318775177,
	"eval_runtime": 31.3056,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4360
	},
	{
	"epoch": 8.75,
	"learning_rate": 1.002004008016032e-05,
	"loss": 0.2296,
	"step": 4365
	},
	{
	"epoch": 8.76,
	"learning_rate": 9.939879759519038e-06,
	"loss": 0.1598,
	"step": 4370
	},
	{
	"epoch": 8.76,
	"eval_loss": 0.30343157052993774,
	"eval_runtime": 31.304,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4370
	},
	{
	"epoch": 8.77,
	"learning_rate": 9.859719438877757e-06,
	"loss": 0.2342,
	"step": 4375
	},
	{
	"epoch": 8.78,
	"learning_rate": 9.779559118236473e-06,
	"loss": 0.185,
	"step": 4380
	},
	{
	"epoch": 8.78,
	"eval_loss": 0.3016977906227112,
	"eval_runtime": 31.3084,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4380
	},
	{
	"epoch": 8.79,
	"learning_rate": 9.69939879759519e-06,
	"loss": 0.1527,
	"step": 4385
	},
	{
	"epoch": 8.8,
	"learning_rate": 9.619238476953909e-06,
	"loss": 0.2427,
	"step": 4390
	},
	{
	"epoch": 8.8,
	"eval_loss": 0.2971956133842468,
	"eval_runtime": 31.2993,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4390
	},
	{
	"epoch": 8.81,
	"learning_rate": 9.539078156312625e-06,
	"loss": 0.1416,
	"step": 4395
	},
	{
	"epoch": 8.82,
	"learning_rate": 9.458917835671344e-06,
	"loss": 0.2343,
	"step": 4400
	},
	{
	"epoch": 8.82,
	"eval_loss": 0.2979062795639038,
	"eval_runtime": 31.2918,
	"eval_samples_per_second": 7.095,
	"eval_steps_per_second": 1.79,
	"step": 4400
	},
	{
	"epoch": 8.83,
	"learning_rate": 9.378757515030062e-06,
	"loss": 0.2002,
	"step": 4405
	},
	{
	"epoch": 8.84,
	"learning_rate": 9.298597194388779e-06,
	"loss": 0.1994,
	"step": 4410
	},
	{
	"epoch": 8.84,
	"eval_loss": 0.2994498908519745,
	"eval_runtime": 31.2999,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4410
	},
	{
	"epoch": 8.85,
	"learning_rate": 9.218436873747496e-06,
	"loss": 0.2031,
	"step": 4415
	},
	{
	"epoch": 8.86,
	"learning_rate": 9.138276553106214e-06,
	"loss": 0.2671,
	"step": 4420
	},
	{
	"epoch": 8.86,
	"eval_loss": 0.29864001274108887,
	"eval_runtime": 31.9081,
	"eval_samples_per_second": 6.957,
	"eval_steps_per_second": 1.755,
	"step": 4420
	},
	{
	"epoch": 8.87,
	"learning_rate": 9.05811623246493e-06,
	"loss": 0.202,
	"step": 4425
	},
	{
	"epoch": 8.88,
	"learning_rate": 8.977955911823647e-06,
	"loss": 0.1158,
	"step": 4430
	},
	{
	"epoch": 8.88,
	"eval_loss": 0.2991441786289215,
	"eval_runtime": 31.5574,
	"eval_samples_per_second": 7.035,
	"eval_steps_per_second": 1.775,
	"step": 4430
	},
	{
	"epoch": 8.89,
	"learning_rate": 8.897795591182366e-06,
	"loss": 0.2213,
	"step": 4435
	},
	{
	"epoch": 8.9,
	"learning_rate": 8.817635270541082e-06,
	"loss": 0.2127,
	"step": 4440
	},
	{
	"epoch": 8.9,
	"eval_loss": 0.3000405430793762,
	"eval_runtime": 31.2838,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 1.79,
	"step": 4440
	},
	{
	"epoch": 8.91,
	"learning_rate": 8.7374749498998e-06,
	"loss": 0.1603,
	"step": 4445
	},
	{
	"epoch": 8.92,
	"learning_rate": 8.657314629258518e-06,
	"loss": 0.1691,
	"step": 4450
	},
	{
	"epoch": 8.92,
	"eval_loss": 0.2980547845363617,
	"eval_runtime": 31.2967,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4450
	},
	{
	"epoch": 8.93,
	"learning_rate": 8.577154308617234e-06,
	"loss": 0.2523,
	"step": 4455
	},
	{
	"epoch": 8.94,
	"learning_rate": 8.496993987975953e-06,
	"loss": 0.2103,
	"step": 4460
	},
	{
	"epoch": 8.94,
	"eval_loss": 0.2978658080101013,
	"eval_runtime": 31.3156,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 4460
	},
	{
	"epoch": 8.95,
	"learning_rate": 8.41683366733467e-06,
	"loss": 0.1574,
	"step": 4465
	},
	{
	"epoch": 8.96,
	"learning_rate": 8.336673346693386e-06,
	"loss": 0.1392,
	"step": 4470
	},
	{
	"epoch": 8.96,
	"eval_loss": 0.29815390706062317,
	"eval_runtime": 31.3016,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4470
	},
	{
	"epoch": 8.97,
	"learning_rate": 8.256513026052106e-06,
	"loss": 0.2192,
	"step": 4475
	},
	{
	"epoch": 8.98,
	"learning_rate": 8.176352705410823e-06,
	"loss": 0.1712,
	"step": 4480
	},
	{
	"epoch": 8.98,
	"eval_loss": 0.2943491041660309,
	"eval_runtime": 31.3127,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 4480
	},
	{
	"epoch": 8.99,
	"learning_rate": 8.09619238476954e-06,
	"loss": 0.1652,
	"step": 4485
	},
	{
	"epoch": 9.0,
	"learning_rate": 8.016032064128258e-06,
	"loss": 0.2435,
	"step": 4490
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.2958294153213501,
	"eval_runtime": 31.2931,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.79,
	"step": 4490
	},
	{
	"epoch": 9.01,
	"learning_rate": 7.935871743486975e-06,
	"loss": 0.1859,
	"step": 4495
	},
	{
	"epoch": 9.02,
	"learning_rate": 7.855711422845691e-06,
	"loss": 0.1715,
	"step": 4500
	},
	{
	"epoch": 9.02,
	"eval_loss": 0.30551087856292725,
	"eval_runtime": 31.309,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4500
	},
	{
	"epoch": 9.03,
	"learning_rate": 7.77555110220441e-06,
	"loss": 0.1663,
	"step": 4505
	},
	{
	"epoch": 9.04,
	"learning_rate": 7.695390781563127e-06,
	"loss": 0.1641,
	"step": 4510
	},
	{
	"epoch": 9.04,
	"eval_loss": 0.3048071563243866,
	"eval_runtime": 31.2037,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 1.795,
	"step": 4510
	},
	{
	"epoch": 9.05,
	"learning_rate": 7.615230460921844e-06,
	"loss": 0.17,
	"step": 4515
	},
	{
	"epoch": 9.06,
	"learning_rate": 7.535070140280562e-06,
	"loss": 0.1529,
	"step": 4520
	},
	{
	"epoch": 9.06,
	"eval_loss": 0.30287060141563416,
	"eval_runtime": 31.2814,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 1.79,
	"step": 4520
	},
	{
	"epoch": 9.07,
	"learning_rate": 7.454909819639279e-06,
	"loss": 0.175,
	"step": 4525
	},
	{
	"epoch": 9.08,
	"learning_rate": 7.374749498997996e-06,
	"loss": 0.1566,
	"step": 4530
	},
	{
	"epoch": 9.08,
	"eval_loss": 0.3046806752681732,
	"eval_runtime": 31.2973,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4530
	},
	{
	"epoch": 9.09,
	"learning_rate": 7.2945891783567134e-06,
	"loss": 0.1749,
	"step": 4535
	},
	{
	"epoch": 9.1,
	"learning_rate": 7.214428857715432e-06,
	"loss": 0.1382,
	"step": 4540
	},
	{
	"epoch": 9.1,
	"eval_loss": 0.30272936820983887,
	"eval_runtime": 31.302,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4540
	},
	{
	"epoch": 9.11,
	"learning_rate": 7.134268537074149e-06,
	"loss": 0.1956,
	"step": 4545
	},
	{
	"epoch": 9.12,
	"learning_rate": 7.054108216432867e-06,
	"loss": 0.1605,
	"step": 4550
	},
	{
	"epoch": 9.12,
	"eval_loss": 0.30227676033973694,
	"eval_runtime": 31.3042,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4550
	},
	{
	"epoch": 9.13,
	"learning_rate": 6.973947895791584e-06,
	"loss": 0.1675,
	"step": 4555
	},
	{
	"epoch": 9.14,
	"learning_rate": 6.893787575150301e-06,
	"loss": 0.2167,
	"step": 4560
	},
	{
	"epoch": 9.14,
	"eval_loss": 0.3055172264575958,
	"eval_runtime": 31.3016,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4560
	},
	{
	"epoch": 9.15,
	"learning_rate": 6.813627254509019e-06,
	"loss": 0.1603,
	"step": 4565
	},
	{
	"epoch": 9.16,
	"learning_rate": 6.733466933867736e-06,
	"loss": 0.1506,
	"step": 4570
	},
	{
	"epoch": 9.16,
	"eval_loss": 0.303718626499176,
	"eval_runtime": 31.323,
	"eval_samples_per_second": 7.087,
	"eval_steps_per_second": 1.788,
	"step": 4570
	},
	{
	"epoch": 9.17,
	"learning_rate": 6.653306613226453e-06,
	"loss": 0.2345,
	"step": 4575
	},
	{
	"epoch": 9.18,
	"learning_rate": 6.573146292585171e-06,
	"loss": 0.192,
	"step": 4580
	},
	{
	"epoch": 9.18,
	"eval_loss": 0.30387794971466064,
	"eval_runtime": 31.3084,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4580
	},
	{
	"epoch": 9.19,
	"learning_rate": 6.492985971943888e-06,
	"loss": 0.1714,
	"step": 4585
	},
	{
	"epoch": 9.2,
	"learning_rate": 6.412825651302606e-06,
	"loss": 0.139,
	"step": 4590
	},
	{
	"epoch": 9.2,
	"eval_loss": 0.3030008375644684,
	"eval_runtime": 31.311,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 4590
	},
	{
	"epoch": 9.21,
	"learning_rate": 6.332665330661322e-06,
	"loss": 0.1492,
	"step": 4595
	},
	{
	"epoch": 9.22,
	"learning_rate": 6.25250501002004e-06,
	"loss": 0.1974,
	"step": 4600
	},
	{
	"epoch": 9.22,
	"eval_loss": 0.30382072925567627,
	"eval_runtime": 31.314,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 4600
	},
	{
	"epoch": 9.23,
	"learning_rate": 6.1723446893787575e-06,
	"loss": 0.1619,
	"step": 4605
	},
	{
	"epoch": 9.24,
	"learning_rate": 6.092184368737476e-06,
	"loss": 0.167,
	"step": 4610
	},
	{
	"epoch": 9.24,
	"eval_loss": 0.303739070892334,
	"eval_runtime": 31.3071,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4610
	},
	{
	"epoch": 9.25,
	"learning_rate": 6.0120240480961935e-06,
	"loss": 0.1597,
	"step": 4615
	},
	{
	"epoch": 9.26,
	"learning_rate": 5.931863727454911e-06,
	"loss": 0.2409,
	"step": 4620
	},
	{
	"epoch": 9.26,
	"eval_loss": 0.3033643066883087,
	"eval_runtime": 31.3054,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4620
	},
	{
	"epoch": 9.27,
	"learning_rate": 5.851703406813628e-06,
	"loss": 0.1673,
	"step": 4625
	},
	{
	"epoch": 9.28,
	"learning_rate": 5.771543086172345e-06,
	"loss": 0.1494,
	"step": 4630
	},
	{
	"epoch": 9.28,
	"eval_loss": 0.30480068922042847,
	"eval_runtime": 31.3033,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4630
	},
	{
	"epoch": 9.29,
	"learning_rate": 5.691382765531063e-06,
	"loss": 0.1907,
	"step": 4635
	},
	{
	"epoch": 9.3,
	"learning_rate": 5.6112224448897804e-06,
	"loss": 0.1762,
	"step": 4640
	},
	{
	"epoch": 9.3,
	"eval_loss": 0.30366069078445435,
	"eval_runtime": 31.2972,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4640
	},
	{
	"epoch": 9.31,
	"learning_rate": 5.531062124248497e-06,
	"loss": 0.1336,
	"step": 4645
	},
	{
	"epoch": 9.32,
	"learning_rate": 5.450901803607215e-06,
	"loss": 0.183,
	"step": 4650
	},
	{
	"epoch": 9.32,
	"eval_loss": 0.3042277991771698,
	"eval_runtime": 31.3048,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4650
	},
	{
	"epoch": 9.33,
	"learning_rate": 5.370741482965932e-06,
	"loss": 0.2423,
	"step": 4655
	},
	{
	"epoch": 9.34,
	"learning_rate": 5.29058116232465e-06,
	"loss": 0.1773,
	"step": 4660
	},
	{
	"epoch": 9.34,
	"eval_loss": 0.3042871356010437,
	"eval_runtime": 31.3002,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 1.789,
	"step": 4660
	},
	{
	"epoch": 9.35,
	"learning_rate": 5.2104208416833665e-06,
	"loss": 0.1586,
	"step": 4665
	},
	{
	"epoch": 9.36,
	"learning_rate": 5.130260521042084e-06,
	"loss": 0.1509,
	"step": 4670
	},
	{
	"epoch": 9.36,
	"eval_loss": 0.3053213059902191,
	"eval_runtime": 31.3174,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 4670
	},
	{
	"epoch": 9.37,
	"learning_rate": 5.050100200400802e-06,
	"loss": 0.136,
	"step": 4675
	},
	{
	"epoch": 9.38,
	"learning_rate": 4.969939879759519e-06,
	"loss": 0.1994,
	"step": 4680
	},
	{
	"epoch": 9.38,
	"eval_loss": 0.30446866154670715,
	"eval_runtime": 31.3129,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 4680
	},
	{
	"epoch": 9.39,
	"learning_rate": 4.889779559118237e-06,
	"loss": 0.2068,
	"step": 4685
	},
	{
	"epoch": 9.4,
	"learning_rate": 4.809619238476954e-06,
	"loss": 0.1928,
	"step": 4690
	},
	{
	"epoch": 9.4,
	"eval_loss": 0.30361202359199524,
	"eval_runtime": 31.3048,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4690
	},
	{
	"epoch": 9.41,
	"learning_rate": 4.729458917835672e-06,
	"loss": 0.212,
	"step": 4695
	},
	{
	"epoch": 9.42,
	"learning_rate": 4.649298597194389e-06,
	"loss": 0.1158,
	"step": 4700
	},
	{
	"epoch": 9.42,
	"eval_loss": 0.30384451150894165,
	"eval_runtime": 31.3031,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4700
	},
	{
	"epoch": 9.43,
	"learning_rate": 4.569138276553107e-06,
	"loss": 0.2038,
	"step": 4705
	},
	{
	"epoch": 9.44,
	"learning_rate": 4.488977955911824e-06,
	"loss": 0.1503,
	"step": 4710
	},
	{
	"epoch": 9.44,
	"eval_loss": 0.3019496500492096,
	"eval_runtime": 31.3092,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4710
	},
	{
	"epoch": 9.45,
	"learning_rate": 4.408817635270541e-06,
	"loss": 0.1511,
	"step": 4715
	},
	{
	"epoch": 9.46,
	"learning_rate": 4.328657314629259e-06,
	"loss": 0.1556,
	"step": 4720
	},
	{
	"epoch": 9.46,
	"eval_loss": 0.3029373288154602,
	"eval_runtime": 31.305,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4720
	},
	{
	"epoch": 9.47,
	"learning_rate": 4.248496993987976e-06,
	"loss": 0.182,
	"step": 4725
	},
	{
	"epoch": 9.48,
	"learning_rate": 4.168336673346693e-06,
	"loss": 0.1327,
	"step": 4730
	},
	{
	"epoch": 9.48,
	"eval_loss": 0.30504941940307617,
	"eval_runtime": 31.3165,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 4730
	},
	{
	"epoch": 9.49,
	"learning_rate": 4.0881763527054114e-06,
	"loss": 0.1574,
	"step": 4735
	},
	{
	"epoch": 9.5,
	"learning_rate": 4.008016032064129e-06,
	"loss": 0.1772,
	"step": 4740
	},
	{
	"epoch": 9.5,
	"eval_loss": 0.3057289719581604,
	"eval_runtime": 31.3047,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4740
	},
	{
	"epoch": 9.51,
	"learning_rate": 3.927855711422846e-06,
	"loss": 0.1497,
	"step": 4745
	},
	{
	"epoch": 9.52,
	"learning_rate": 3.847695390781563e-06,
	"loss": 0.1555,
	"step": 4750
	},
	{
	"epoch": 9.52,
	"eval_loss": 0.30276989936828613,
	"eval_runtime": 31.3062,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4750
	},
	{
	"epoch": 9.53,
	"learning_rate": 3.767535070140281e-06,
	"loss": 0.1281,
	"step": 4755
	},
	{
	"epoch": 9.54,
	"learning_rate": 3.687374749498998e-06,
	"loss": 0.1363,
	"step": 4760
	},
	{
	"epoch": 9.54,
	"eval_loss": 0.3013622760772705,
	"eval_runtime": 31.3134,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 4760
	},
	{
	"epoch": 9.55,
	"learning_rate": 3.607214428857716e-06,
	"loss": 0.1461,
	"step": 4765
	},
	{
	"epoch": 9.56,
	"learning_rate": 3.5270541082164335e-06,
	"loss": 0.139,
	"step": 4770
	},
	{
	"epoch": 9.56,
	"eval_loss": 0.3009650707244873,
	"eval_runtime": 31.3047,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4770
	},
	{
	"epoch": 9.57,
	"learning_rate": 3.4468937875751506e-06,
	"loss": 0.1519,
	"step": 4775
	},
	{
	"epoch": 9.58,
	"learning_rate": 3.366733466933868e-06,
	"loss": 0.1639,
	"step": 4780
	},
	{
	"epoch": 9.58,
	"eval_loss": 0.30125322937965393,
	"eval_runtime": 31.3146,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 4780
	},
	{
	"epoch": 9.59,
	"learning_rate": 3.2865731462925853e-06,
	"loss": 0.1735,
	"step": 4785
	},
	{
	"epoch": 9.6,
	"learning_rate": 3.206412825651303e-06,
	"loss": 0.1669,
	"step": 4790
	},
	{
	"epoch": 9.6,
	"eval_loss": 0.30152443051338196,
	"eval_runtime": 31.3073,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4790
	},
	{
	"epoch": 9.61,
	"learning_rate": 3.12625250501002e-06,
	"loss": 0.1085,
	"step": 4795
	},
	{
	"epoch": 9.62,
	"learning_rate": 3.046092184368738e-06,
	"loss": 0.144,
	"step": 4800
	},
	{
	"epoch": 9.62,
	"eval_loss": 0.30229106545448303,
	"eval_runtime": 31.3106,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 4800
	},
	{
	"epoch": 9.63,
	"learning_rate": 2.9659318637274555e-06,
	"loss": 0.1607,
	"step": 4805
	},
	{
	"epoch": 9.64,
	"learning_rate": 2.8857715430861727e-06,
	"loss": 0.1925,
	"step": 4810
	},
	{
	"epoch": 9.64,
	"eval_loss": 0.3034406900405884,
	"eval_runtime": 31.3159,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 1.788,
	"step": 4810
	},
	{
	"epoch": 9.65,
	"learning_rate": 2.8056112224448902e-06,
	"loss": 0.1486,
	"step": 4815
	},
	{
	"epoch": 9.66,
	"learning_rate": 2.7254509018036073e-06,
	"loss": 0.1615,
	"step": 4820
	},
	{
	"epoch": 9.66,
	"eval_loss": 0.3025255501270294,
	"eval_runtime": 31.295,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4820
	},
	{
	"epoch": 9.67,
	"learning_rate": 2.645290581162325e-06,
	"loss": 0.1677,
	"step": 4825
	},
	{
	"epoch": 9.68,
	"learning_rate": 2.565130260521042e-06,
	"loss": 0.1625,
	"step": 4830
	},
	{
	"epoch": 9.68,
	"eval_loss": 0.3018721044063568,
	"eval_runtime": 31.3106,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 4830
	},
	{
	"epoch": 9.69,
	"learning_rate": 2.4849699398797596e-06,
	"loss": 0.1508,
	"step": 4835
	},
	{
	"epoch": 9.7,
	"learning_rate": 2.404809619238477e-06,
	"loss": 0.1355,
	"step": 4840
	},
	{
	"epoch": 9.7,
	"eval_loss": 0.3022632300853729,
	"eval_runtime": 31.3118,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 4840
	},
	{
	"epoch": 9.71,
	"learning_rate": 2.3246492985971947e-06,
	"loss": 0.142,
	"step": 4845
	},
	{
	"epoch": 9.72,
	"learning_rate": 2.244488977955912e-06,
	"loss": 0.1671,
	"step": 4850
	},
	{
	"epoch": 9.72,
	"eval_loss": 0.30193448066711426,
	"eval_runtime": 31.3088,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4850
	},
	{
	"epoch": 9.73,
	"learning_rate": 2.1643286573146294e-06,
	"loss": 0.1557,
	"step": 4855
	},
	{
	"epoch": 9.74,
	"learning_rate": 2.0841683366733465e-06,
	"loss": 0.1447,
	"step": 4860
	},
	{
	"epoch": 9.74,
	"eval_loss": 0.30213478207588196,
	"eval_runtime": 31.3072,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4860
	},
	{
	"epoch": 9.75,
	"learning_rate": 2.0040080160320645e-06,
	"loss": 0.1617,
	"step": 4865
	},
	{
	"epoch": 9.76,
	"learning_rate": 1.9238476953907816e-06,
	"loss": 0.1465,
	"step": 4870
	},
	{
	"epoch": 9.76,
	"eval_loss": 0.3024033308029175,
	"eval_runtime": 31.3039,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4870
	},
	{
	"epoch": 9.77,
	"learning_rate": 1.843687374749499e-06,
	"loss": 0.144,
	"step": 4875
	},
	{
	"epoch": 9.78,
	"learning_rate": 1.7635270541082167e-06,
	"loss": 0.1794,
	"step": 4880
	},
	{
	"epoch": 9.78,
	"eval_loss": 0.3020671606063843,
	"eval_runtime": 31.3114,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.788,
	"step": 4880
	},
	{
	"epoch": 9.79,
	"learning_rate": 1.683366733466934e-06,
	"loss": 0.1762,
	"step": 4885
	},
	{
	"epoch": 9.8,
	"learning_rate": 1.6032064128256514e-06,
	"loss": 0.156,
	"step": 4890
	},
	{
	"epoch": 9.8,
	"eval_loss": 0.30112236738204956,
	"eval_runtime": 31.3062,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4890
	},
	{
	"epoch": 9.81,
	"learning_rate": 1.523046092184369e-06,
	"loss": 0.139,
	"step": 4895
	},
	{
	"epoch": 9.82,
	"learning_rate": 1.4428857715430863e-06,
	"loss": 0.1018,
	"step": 4900
	},
	{
	"epoch": 9.82,
	"eval_loss": 0.30046290159225464,
	"eval_runtime": 31.3036,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4900
	},
	{
	"epoch": 9.83,
	"learning_rate": 1.3627254509018037e-06,
	"loss": 0.1524,
	"step": 4905
	},
	{
	"epoch": 9.84,
	"learning_rate": 1.282565130260521e-06,
	"loss": 0.1403,
	"step": 4910
	},
	{
	"epoch": 9.84,
	"eval_loss": 0.3010559380054474,
	"eval_runtime": 31.303,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4910
	},
	{
	"epoch": 9.85,
	"learning_rate": 1.2024048096192386e-06,
	"loss": 0.1495,
	"step": 4915
	},
	{
	"epoch": 9.86,
	"learning_rate": 1.122244488977956e-06,
	"loss": 0.1126,
	"step": 4920
	},
	{
	"epoch": 9.86,
	"eval_loss": 0.30058878660202026,
	"eval_runtime": 31.3099,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 1.789,
	"step": 4920
	},
	{
	"epoch": 9.87,
	"learning_rate": 1.0420841683366733e-06,
	"loss": 0.1365,
	"step": 4925
	},
	{
	"epoch": 9.88,
	"learning_rate": 9.619238476953908e-07,
	"loss": 0.1595,
	"step": 4930
	},
	{
	"epoch": 9.88,
	"eval_loss": 0.3006744682788849,
	"eval_runtime": 31.302,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4930
	},
	{
	"epoch": 9.89,
	"learning_rate": 8.817635270541084e-07,
	"loss": 0.1921,
	"step": 4935
	},
	{
	"epoch": 9.9,
	"learning_rate": 8.016032064128257e-07,
	"loss": 0.1415,
	"step": 4940
	},
	{
	"epoch": 9.9,
	"eval_loss": 0.3012050986289978,
	"eval_runtime": 31.3083,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4940
	},
	{
	"epoch": 9.91,
	"learning_rate": 7.214428857715432e-07,
	"loss": 0.1173,
	"step": 4945
	},
	{
	"epoch": 9.92,
	"learning_rate": 6.412825651302605e-07,
	"loss": 0.1651,
	"step": 4950
	},
	{
	"epoch": 9.92,
	"eval_loss": 0.30145999789237976,
	"eval_runtime": 31.3009,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 1.789,
	"step": 4950
	},
	{
	"epoch": 9.93,
	"learning_rate": 5.61122244488978e-07,
	"loss": 0.148,
	"step": 4955
	},
	{
	"epoch": 9.94,
	"learning_rate": 4.809619238476954e-07,
	"loss": 0.1558,
	"step": 4960
	},
	{
	"epoch": 9.94,
	"eval_loss": 0.30154505372047424,
	"eval_runtime": 31.3072,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4960
	},
	{
	"epoch": 9.95,
	"learning_rate": 4.0080160320641286e-07,
	"loss": 0.191,
	"step": 4965
	},
	{
	"epoch": 9.96,
	"learning_rate": 3.2064128256513025e-07,
	"loss": 0.1734,
	"step": 4970
	},
	{
	"epoch": 9.96,
	"eval_loss": 0.301419734954834,
	"eval_runtime": 31.296,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4970
	},
	{
	"epoch": 9.97,
	"learning_rate": 2.404809619238477e-07,
	"loss": 0.1638,
	"step": 4975
	},
	{
	"epoch": 9.98,
	"learning_rate": 1.6032064128256513e-07,
	"loss": 0.1909,
	"step": 4980
	},
	{
	"epoch": 9.98,
	"eval_loss": 0.30140334367752075,
	"eval_runtime": 31.2942,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 1.789,
	"step": 4980
	},
	{
	"epoch": 9.99,
	"learning_rate": 8.016032064128256e-08,
	"loss": 0.1475,
	"step": 4985
	},
	{
	"epoch": 10.0,
	"learning_rate": 0.0,
	"loss": 0.1246,
	"step": 4990
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.30139291286468506,
	"eval_runtime": 31.307,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 1.789,
	"step": 4990
	},
	{
	"epoch": 10.0,
	"step": 4990,
	"total_flos": 8.69904317939712e+16,
	"train_loss": 0.5887919666891347,
	"train_runtime": 25757.7329,
	"train_samples_per_second": 0.776,
	"train_steps_per_second": 0.194
	}
	],
	"max_steps": 4990,
	"num_train_epochs": 10,
	"total_flos": 8.69904317939712e+16,
	"trial_name": null,
	"trial_params": null
	}