2020-Q4-50p-filtered-random-prog_from_Q3 / trainer_state.json

End of training

f148ac9 verified 6 months ago

No virus

80.8 kB

	{
	"best_metric": 2.270662546157837,
	"best_model_checkpoint": "./model_tweets_2020_Q4_50_rand/checkpoint-2240000",
	"epoch": 10.105220609597433,
	"eval_steps": 8000,
	"global_step": 2400000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"eval_loss": 2.3816494941711426,
	"eval_runtime": 236.9637,
	"eval_samples_per_second": 844.011,
	"eval_steps_per_second": 52.751,
	"step": 8000
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.0726666666666665e-07,
	"loss": 2.5089,
	"step": 16000
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.364738702774048,
	"eval_runtime": 237.3943,
	"eval_samples_per_second": 842.48,
	"eval_steps_per_second": 52.655,
	"step": 16000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.355194091796875,
	"eval_runtime": 237.9121,
	"eval_samples_per_second": 840.647,
	"eval_steps_per_second": 52.54,
	"step": 24000
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.0453333333333336e-07,
	"loss": 2.4989,
	"step": 32000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.3528289794921875,
	"eval_runtime": 238.6586,
	"eval_samples_per_second": 838.017,
	"eval_steps_per_second": 52.376,
	"step": 32000
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.3485841751098633,
	"eval_runtime": 239.5908,
	"eval_samples_per_second": 834.756,
	"eval_steps_per_second": 52.172,
	"step": 40000
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.018e-07,
	"loss": 2.4836,
	"step": 48000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.34626841545105,
	"eval_runtime": 238.7656,
	"eval_samples_per_second": 837.642,
	"eval_steps_per_second": 52.353,
	"step": 48000
	},
	{
	"epoch": 0.24,
	"eval_loss": 2.3410613536834717,
	"eval_runtime": 240.0423,
	"eval_samples_per_second": 833.186,
	"eval_steps_per_second": 52.074,
	"step": 56000
	},
	{
	"epoch": 0.27,
	"learning_rate": 3.9906666666666667e-07,
	"loss": 2.4904,
	"step": 64000
	},
	{
	"epoch": 0.27,
	"eval_loss": 2.3394079208374023,
	"eval_runtime": 239.0867,
	"eval_samples_per_second": 836.517,
	"eval_steps_per_second": 52.282,
	"step": 64000
	},
	{
	"epoch": 0.3,
	"eval_loss": 2.3349857330322266,
	"eval_runtime": 238.1477,
	"eval_samples_per_second": 839.815,
	"eval_steps_per_second": 52.488,
	"step": 72000
	},
	{
	"epoch": 0.34,
	"learning_rate": 3.963333333333333e-07,
	"loss": 2.4733,
	"step": 80000
	},
	{
	"epoch": 0.34,
	"eval_loss": 2.330885410308838,
	"eval_runtime": 239.5566,
	"eval_samples_per_second": 834.876,
	"eval_steps_per_second": 52.18,
	"step": 80000
	},
	{
	"epoch": 0.37,
	"eval_loss": 2.3288557529449463,
	"eval_runtime": 239.3525,
	"eval_samples_per_second": 835.588,
	"eval_steps_per_second": 52.224,
	"step": 88000
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.936e-07,
	"loss": 2.4675,
	"step": 96000
	},
	{
	"epoch": 0.4,
	"eval_loss": 2.3381102085113525,
	"eval_runtime": 239.1998,
	"eval_samples_per_second": 836.121,
	"eval_steps_per_second": 52.258,
	"step": 96000
	},
	{
	"epoch": 0.44,
	"eval_loss": 2.331658363342285,
	"eval_runtime": 237.7084,
	"eval_samples_per_second": 841.367,
	"eval_steps_per_second": 52.585,
	"step": 104000
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.908666666666667e-07,
	"loss": 2.4762,
	"step": 112000
	},
	{
	"epoch": 0.47,
	"eval_loss": 2.3218166828155518,
	"eval_runtime": 239.0796,
	"eval_samples_per_second": 836.541,
	"eval_steps_per_second": 52.284,
	"step": 112000
	},
	{
	"epoch": 0.51,
	"eval_loss": 2.326749086380005,
	"eval_runtime": 239.0317,
	"eval_samples_per_second": 836.709,
	"eval_steps_per_second": 52.294,
	"step": 120000
	},
	{
	"epoch": 0.54,
	"learning_rate": 3.8813333333333334e-07,
	"loss": 2.4616,
	"step": 128000
	},
	{
	"epoch": 0.54,
	"eval_loss": 2.3240551948547363,
	"eval_runtime": 238.0739,
	"eval_samples_per_second": 840.075,
	"eval_steps_per_second": 52.505,
	"step": 128000
	},
	{
	"epoch": 0.57,
	"eval_loss": 2.3280670642852783,
	"eval_runtime": 238.6608,
	"eval_samples_per_second": 838.009,
	"eval_steps_per_second": 52.376,
	"step": 136000
	},
	{
	"epoch": 0.61,
	"learning_rate": 3.854e-07,
	"loss": 2.4601,
	"step": 144000
	},
	{
	"epoch": 0.61,
	"eval_loss": 2.315213680267334,
	"eval_runtime": 238.6484,
	"eval_samples_per_second": 838.053,
	"eval_steps_per_second": 52.378,
	"step": 144000
	},
	{
	"epoch": 0.64,
	"eval_loss": 2.3242688179016113,
	"eval_runtime": 239.0187,
	"eval_samples_per_second": 836.755,
	"eval_steps_per_second": 52.297,
	"step": 152000
	},
	{
	"epoch": 0.67,
	"learning_rate": 3.8266666666666665e-07,
	"loss": 2.4563,
	"step": 160000
	},
	{
	"epoch": 0.67,
	"eval_loss": 2.3201961517333984,
	"eval_runtime": 240.1294,
	"eval_samples_per_second": 832.884,
	"eval_steps_per_second": 52.055,
	"step": 160000
	},
	{
	"epoch": 0.71,
	"eval_loss": 2.3193206787109375,
	"eval_runtime": 241.1825,
	"eval_samples_per_second": 829.247,
	"eval_steps_per_second": 51.828,
	"step": 168000
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.799333333333333e-07,
	"loss": 2.459,
	"step": 176000
	},
	{
	"epoch": 0.74,
	"eval_loss": 2.318166732788086,
	"eval_runtime": 238.5889,
	"eval_samples_per_second": 838.262,
	"eval_steps_per_second": 52.391,
	"step": 176000
	},
	{
	"epoch": 0.77,
	"eval_loss": 2.324726104736328,
	"eval_runtime": 238.4567,
	"eval_samples_per_second": 838.727,
	"eval_steps_per_second": 52.42,
	"step": 184000
	},
	{
	"epoch": 0.81,
	"learning_rate": 3.772e-07,
	"loss": 2.4639,
	"step": 192000
	},
	{
	"epoch": 0.81,
	"eval_loss": 2.320105791091919,
	"eval_runtime": 238.6268,
	"eval_samples_per_second": 838.129,
	"eval_steps_per_second": 52.383,
	"step": 192000
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.3243095874786377,
	"eval_runtime": 239.9922,
	"eval_samples_per_second": 833.36,
	"eval_steps_per_second": 52.085,
	"step": 200000
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.7446666666666667e-07,
	"loss": 2.4561,
	"step": 208000
	},
	{
	"epoch": 0.88,
	"eval_loss": 2.321760416030884,
	"eval_runtime": 239.3254,
	"eval_samples_per_second": 835.682,
	"eval_steps_per_second": 52.23,
	"step": 208000
	},
	{
	"epoch": 0.91,
	"eval_loss": 2.3137271404266357,
	"eval_runtime": 240.8808,
	"eval_samples_per_second": 830.286,
	"eval_steps_per_second": 51.893,
	"step": 216000
	},
	{
	"epoch": 0.94,
	"learning_rate": 3.7173333333333333e-07,
	"loss": 2.4556,
	"step": 224000
	},
	{
	"epoch": 0.94,
	"eval_loss": 2.318033456802368,
	"eval_runtime": 239.3207,
	"eval_samples_per_second": 835.699,
	"eval_steps_per_second": 52.231,
	"step": 224000
	},
	{
	"epoch": 0.98,
	"eval_loss": 2.314727783203125,
	"eval_runtime": 238.4213,
	"eval_samples_per_second": 838.851,
	"eval_steps_per_second": 52.428,
	"step": 232000
	},
	{
	"epoch": 1.01,
	"learning_rate": 3.69e-07,
	"loss": 2.4573,
	"step": 240000
	},
	{
	"epoch": 1.01,
	"eval_loss": 2.309976100921631,
	"eval_runtime": 238.672,
	"eval_samples_per_second": 837.97,
	"eval_steps_per_second": 52.373,
	"step": 240000
	},
	{
	"epoch": 1.04,
	"eval_loss": 2.311811923980713,
	"eval_runtime": 239.3065,
	"eval_samples_per_second": 835.748,
	"eval_steps_per_second": 52.234,
	"step": 248000
	},
	{
	"epoch": 1.08,
	"learning_rate": 3.6626666666666664e-07,
	"loss": 2.4516,
	"step": 256000
	},
	{
	"epoch": 1.08,
	"eval_loss": 2.315763235092163,
	"eval_runtime": 239.6224,
	"eval_samples_per_second": 834.646,
	"eval_steps_per_second": 52.165,
	"step": 256000
	},
	{
	"epoch": 1.11,
	"eval_loss": 2.3132565021514893,
	"eval_runtime": 241.721,
	"eval_samples_per_second": 827.4,
	"eval_steps_per_second": 51.713,
	"step": 264000
	},
	{
	"epoch": 1.15,
	"learning_rate": 3.6353333333333335e-07,
	"loss": 2.4561,
	"step": 272000
	},
	{
	"epoch": 1.15,
	"eval_loss": 2.3065385818481445,
	"eval_runtime": 241.1529,
	"eval_samples_per_second": 829.349,
	"eval_steps_per_second": 51.834,
	"step": 272000
	},
	{
	"epoch": 1.18,
	"eval_loss": 2.318328857421875,
	"eval_runtime": 240.9143,
	"eval_samples_per_second": 830.171,
	"eval_steps_per_second": 51.886,
	"step": 280000
	},
	{
	"epoch": 1.21,
	"learning_rate": 3.608e-07,
	"loss": 2.4476,
	"step": 288000
	},
	{
	"epoch": 1.21,
	"eval_loss": 2.310638666152954,
	"eval_runtime": 240.8865,
	"eval_samples_per_second": 830.267,
	"eval_steps_per_second": 51.892,
	"step": 288000
	},
	{
	"epoch": 1.25,
	"eval_loss": 2.3131144046783447,
	"eval_runtime": 238.8251,
	"eval_samples_per_second": 837.433,
	"eval_steps_per_second": 52.34,
	"step": 296000
	},
	{
	"epoch": 1.28,
	"learning_rate": 3.5806666666666666e-07,
	"loss": 2.4503,
	"step": 304000
	},
	{
	"epoch": 1.28,
	"eval_loss": 2.3103673458099365,
	"eval_runtime": 238.9913,
	"eval_samples_per_second": 836.851,
	"eval_steps_per_second": 52.303,
	"step": 304000
	},
	{
	"epoch": 1.31,
	"eval_loss": 2.310051679611206,
	"eval_runtime": 239.4298,
	"eval_samples_per_second": 835.318,
	"eval_steps_per_second": 52.207,
	"step": 312000
	},
	{
	"epoch": 1.35,
	"learning_rate": 3.553333333333333e-07,
	"loss": 2.4495,
	"step": 320000
	},
	{
	"epoch": 1.35,
	"eval_loss": 2.3085968494415283,
	"eval_runtime": 239.7653,
	"eval_samples_per_second": 834.149,
	"eval_steps_per_second": 52.134,
	"step": 320000
	},
	{
	"epoch": 1.38,
	"eval_loss": 2.3057291507720947,
	"eval_runtime": 240.7073,
	"eval_samples_per_second": 830.885,
	"eval_steps_per_second": 51.93,
	"step": 328000
	},
	{
	"epoch": 1.41,
	"learning_rate": 3.5259999999999997e-07,
	"loss": 2.4534,
	"step": 336000
	},
	{
	"epoch": 1.41,
	"eval_loss": 2.3085904121398926,
	"eval_runtime": 240.303,
	"eval_samples_per_second": 832.282,
	"eval_steps_per_second": 52.018,
	"step": 336000
	},
	{
	"epoch": 1.45,
	"eval_loss": 2.309332847595215,
	"eval_runtime": 240.8676,
	"eval_samples_per_second": 830.332,
	"eval_steps_per_second": 51.896,
	"step": 344000
	},
	{
	"epoch": 1.48,
	"learning_rate": 3.498666666666667e-07,
	"loss": 2.4486,
	"step": 352000
	},
	{
	"epoch": 1.48,
	"eval_loss": 2.3018343448638916,
	"eval_runtime": 241.3997,
	"eval_samples_per_second": 828.501,
	"eval_steps_per_second": 51.781,
	"step": 352000
	},
	{
	"epoch": 1.52,
	"eval_loss": 2.305995464324951,
	"eval_runtime": 239.2635,
	"eval_samples_per_second": 835.898,
	"eval_steps_per_second": 52.244,
	"step": 360000
	},
	{
	"epoch": 1.55,
	"learning_rate": 3.4713333333333333e-07,
	"loss": 2.4457,
	"step": 368000
	},
	{
	"epoch": 1.55,
	"eval_loss": 2.3082966804504395,
	"eval_runtime": 239.5152,
	"eval_samples_per_second": 835.02,
	"eval_steps_per_second": 52.189,
	"step": 368000
	},
	{
	"epoch": 1.58,
	"eval_loss": 2.3109591007232666,
	"eval_runtime": 240.8072,
	"eval_samples_per_second": 830.54,
	"eval_steps_per_second": 51.909,
	"step": 376000
	},
	{
	"epoch": 1.62,
	"learning_rate": 3.444e-07,
	"loss": 2.4443,
	"step": 384000
	},
	{
	"epoch": 1.62,
	"eval_loss": 2.297455310821533,
	"eval_runtime": 240.6668,
	"eval_samples_per_second": 831.024,
	"eval_steps_per_second": 51.939,
	"step": 384000
	},
	{
	"epoch": 1.65,
	"eval_loss": 2.300872564315796,
	"eval_runtime": 240.6097,
	"eval_samples_per_second": 831.222,
	"eval_steps_per_second": 51.951,
	"step": 392000
	},
	{
	"epoch": 1.68,
	"learning_rate": 3.416666666666667e-07,
	"loss": 2.4405,
	"step": 400000
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.3067097663879395,
	"eval_runtime": 240.2686,
	"eval_samples_per_second": 832.402,
	"eval_steps_per_second": 52.025,
	"step": 400000
	},
	{
	"epoch": 1.72,
	"eval_loss": 2.30265212059021,
	"eval_runtime": 240.64,
	"eval_samples_per_second": 831.117,
	"eval_steps_per_second": 51.945,
	"step": 408000
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.3893333333333335e-07,
	"loss": 2.4531,
	"step": 416000
	},
	{
	"epoch": 1.75,
	"eval_loss": 2.3050363063812256,
	"eval_runtime": 240.3135,
	"eval_samples_per_second": 832.246,
	"eval_steps_per_second": 52.015,
	"step": 416000
	},
	{
	"epoch": 1.79,
	"eval_loss": 2.302565574645996,
	"eval_runtime": 239.3844,
	"eval_samples_per_second": 835.476,
	"eval_steps_per_second": 52.217,
	"step": 424000
	},
	{
	"epoch": 1.82,
	"learning_rate": 3.3619999999999995e-07,
	"loss": 2.4539,
	"step": 432000
	},
	{
	"epoch": 1.82,
	"eval_loss": 2.2928755283355713,
	"eval_runtime": 241.5914,
	"eval_samples_per_second": 827.844,
	"eval_steps_per_second": 51.74,
	"step": 432000
	},
	{
	"epoch": 1.85,
	"eval_loss": 2.305102825164795,
	"eval_runtime": 241.5249,
	"eval_samples_per_second": 828.072,
	"eval_steps_per_second": 51.754,
	"step": 440000
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.3346666666666666e-07,
	"loss": 2.4499,
	"step": 448000
	},
	{
	"epoch": 1.89,
	"eval_loss": 2.3034677505493164,
	"eval_runtime": 241.4767,
	"eval_samples_per_second": 828.237,
	"eval_steps_per_second": 51.765,
	"step": 448000
	},
	{
	"epoch": 1.92,
	"eval_loss": 2.301123857498169,
	"eval_runtime": 239.2116,
	"eval_samples_per_second": 836.08,
	"eval_steps_per_second": 52.255,
	"step": 456000
	},
	{
	"epoch": 1.95,
	"learning_rate": 3.307333333333333e-07,
	"loss": 2.4401,
	"step": 464000
	},
	{
	"epoch": 1.95,
	"eval_loss": 2.291990280151367,
	"eval_runtime": 241.865,
	"eval_samples_per_second": 826.907,
	"eval_steps_per_second": 51.682,
	"step": 464000
	},
	{
	"epoch": 1.99,
	"eval_loss": 2.299881935119629,
	"eval_runtime": 239.8579,
	"eval_samples_per_second": 833.827,
	"eval_steps_per_second": 52.114,
	"step": 472000
	},
	{
	"epoch": 2.02,
	"learning_rate": 3.28e-07,
	"loss": 2.4401,
	"step": 480000
	},
	{
	"epoch": 2.02,
	"eval_loss": 2.303424119949341,
	"eval_runtime": 240.1835,
	"eval_samples_per_second": 832.697,
	"eval_steps_per_second": 52.044,
	"step": 480000
	},
	{
	"epoch": 2.05,
	"eval_loss": 2.30208683013916,
	"eval_runtime": 239.7131,
	"eval_samples_per_second": 834.331,
	"eval_steps_per_second": 52.146,
	"step": 488000
	},
	{
	"epoch": 2.09,
	"learning_rate": 3.252666666666667e-07,
	"loss": 2.4433,
	"step": 496000
	},
	{
	"epoch": 2.09,
	"eval_loss": 2.3102383613586426,
	"eval_runtime": 239.6539,
	"eval_samples_per_second": 834.537,
	"eval_steps_per_second": 52.159,
	"step": 496000
	},
	{
	"epoch": 2.12,
	"eval_loss": 2.2985267639160156,
	"eval_runtime": 239.3303,
	"eval_samples_per_second": 835.665,
	"eval_steps_per_second": 52.229,
	"step": 504000
	},
	{
	"epoch": 2.16,
	"learning_rate": 3.2253333333333334e-07,
	"loss": 2.4445,
	"step": 512000
	},
	{
	"epoch": 2.16,
	"eval_loss": 2.3018200397491455,
	"eval_runtime": 239.5684,
	"eval_samples_per_second": 834.835,
	"eval_steps_per_second": 52.177,
	"step": 512000
	},
	{
	"epoch": 2.19,
	"eval_loss": 2.2995855808258057,
	"eval_runtime": 242.6094,
	"eval_samples_per_second": 824.37,
	"eval_steps_per_second": 51.523,
	"step": 520000
	},
	{
	"epoch": 2.22,
	"learning_rate": 3.198e-07,
	"loss": 2.4379,
	"step": 528000
	},
	{
	"epoch": 2.22,
	"eval_loss": 2.3006343841552734,
	"eval_runtime": 241.6485,
	"eval_samples_per_second": 827.648,
	"eval_steps_per_second": 51.728,
	"step": 528000
	},
	{
	"epoch": 2.26,
	"eval_loss": 2.2969799041748047,
	"eval_runtime": 240.3777,
	"eval_samples_per_second": 832.024,
	"eval_steps_per_second": 52.001,
	"step": 536000
	},
	{
	"epoch": 2.29,
	"learning_rate": 3.1706666666666665e-07,
	"loss": 2.4454,
	"step": 544000
	},
	{
	"epoch": 2.29,
	"eval_loss": 2.30135178565979,
	"eval_runtime": 241.5787,
	"eval_samples_per_second": 827.887,
	"eval_steps_per_second": 51.743,
	"step": 544000
	},
	{
	"epoch": 2.32,
	"eval_loss": 2.2992091178894043,
	"eval_runtime": 241.4245,
	"eval_samples_per_second": 828.416,
	"eval_steps_per_second": 51.776,
	"step": 552000
	},
	{
	"epoch": 2.36,
	"learning_rate": 3.1433333333333336e-07,
	"loss": 2.4457,
	"step": 560000
	},
	{
	"epoch": 2.36,
	"eval_loss": 2.2961883544921875,
	"eval_runtime": 242.857,
	"eval_samples_per_second": 823.53,
	"eval_steps_per_second": 51.471,
	"step": 560000
	},
	{
	"epoch": 2.39,
	"eval_loss": 2.300924301147461,
	"eval_runtime": 253.3263,
	"eval_samples_per_second": 789.495,
	"eval_steps_per_second": 49.343,
	"step": 568000
	},
	{
	"epoch": 2.43,
	"learning_rate": 3.116e-07,
	"loss": 2.4354,
	"step": 576000
	},
	{
	"epoch": 2.43,
	"eval_loss": 2.2960214614868164,
	"eval_runtime": 251.8236,
	"eval_samples_per_second": 794.207,
	"eval_steps_per_second": 49.638,
	"step": 576000
	},
	{
	"epoch": 2.46,
	"eval_loss": 2.3008430004119873,
	"eval_runtime": 255.1,
	"eval_samples_per_second": 784.006,
	"eval_steps_per_second": 49.0,
	"step": 584000
	},
	{
	"epoch": 2.49,
	"learning_rate": 3.0886666666666667e-07,
	"loss": 2.4361,
	"step": 592000
	},
	{
	"epoch": 2.49,
	"eval_loss": 2.289783239364624,
	"eval_runtime": 253.1447,
	"eval_samples_per_second": 790.062,
	"eval_steps_per_second": 49.379,
	"step": 592000
	},
	{
	"epoch": 2.53,
	"eval_loss": 2.306014060974121,
	"eval_runtime": 253.3664,
	"eval_samples_per_second": 789.371,
	"eval_steps_per_second": 49.336,
	"step": 600000
	},
	{
	"epoch": 2.56,
	"learning_rate": 3.061333333333333e-07,
	"loss": 2.4377,
	"step": 608000
	},
	{
	"epoch": 2.56,
	"eval_loss": 2.298966884613037,
	"eval_runtime": 254.531,
	"eval_samples_per_second": 785.759,
	"eval_steps_per_second": 49.11,
	"step": 608000
	},
	{
	"epoch": 2.59,
	"eval_loss": 2.298924684524536,
	"eval_runtime": 253.6979,
	"eval_samples_per_second": 788.339,
	"eval_steps_per_second": 49.271,
	"step": 616000
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.034e-07,
	"loss": 2.4416,
	"step": 624000
	},
	{
	"epoch": 2.63,
	"eval_loss": 2.296922206878662,
	"eval_runtime": 252.7348,
	"eval_samples_per_second": 791.343,
	"eval_steps_per_second": 49.459,
	"step": 624000
	},
	{
	"epoch": 2.66,
	"eval_loss": 2.2932701110839844,
	"eval_runtime": 249.9057,
	"eval_samples_per_second": 800.302,
	"eval_steps_per_second": 50.019,
	"step": 632000
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.0066666666666663e-07,
	"loss": 2.434,
	"step": 640000
	},
	{
	"epoch": 2.69,
	"eval_loss": 2.29982852935791,
	"eval_runtime": 250.7868,
	"eval_samples_per_second": 797.49,
	"eval_steps_per_second": 49.843,
	"step": 640000
	},
	{
	"epoch": 2.73,
	"eval_loss": 2.294802665710449,
	"eval_runtime": 251.6635,
	"eval_samples_per_second": 794.712,
	"eval_steps_per_second": 49.669,
	"step": 648000
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.9793333333333334e-07,
	"loss": 2.433,
	"step": 656000
	},
	{
	"epoch": 2.76,
	"eval_loss": 2.2891652584075928,
	"eval_runtime": 250.4466,
	"eval_samples_per_second": 798.574,
	"eval_steps_per_second": 49.911,
	"step": 656000
	},
	{
	"epoch": 2.8,
	"eval_loss": 2.292858362197876,
	"eval_runtime": 254.5309,
	"eval_samples_per_second": 785.759,
	"eval_steps_per_second": 49.11,
	"step": 664000
	},
	{
	"epoch": 2.83,
	"learning_rate": 2.952e-07,
	"loss": 2.44,
	"step": 672000
	},
	{
	"epoch": 2.83,
	"eval_loss": 2.2973103523254395,
	"eval_runtime": 250.641,
	"eval_samples_per_second": 797.954,
	"eval_steps_per_second": 49.872,
	"step": 672000
	},
	{
	"epoch": 2.86,
	"eval_loss": 2.292598009109497,
	"eval_runtime": 250.7654,
	"eval_samples_per_second": 797.558,
	"eval_steps_per_second": 49.847,
	"step": 680000
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.9246666666666665e-07,
	"loss": 2.4291,
	"step": 688000
	},
	{
	"epoch": 2.9,
	"eval_loss": 2.298957109451294,
	"eval_runtime": 249.6027,
	"eval_samples_per_second": 801.273,
	"eval_steps_per_second": 50.08,
	"step": 688000
	},
	{
	"epoch": 2.93,
	"eval_loss": 2.2936558723449707,
	"eval_runtime": 254.0075,
	"eval_samples_per_second": 787.378,
	"eval_steps_per_second": 49.211,
	"step": 696000
	},
	{
	"epoch": 2.96,
	"learning_rate": 2.897333333333333e-07,
	"loss": 2.4336,
	"step": 704000
	},
	{
	"epoch": 2.96,
	"eval_loss": 2.2894132137298584,
	"eval_runtime": 251.6948,
	"eval_samples_per_second": 794.613,
	"eval_steps_per_second": 49.663,
	"step": 704000
	},
	{
	"epoch": 3.0,
	"eval_loss": 2.295807123184204,
	"eval_runtime": 250.3917,
	"eval_samples_per_second": 798.748,
	"eval_steps_per_second": 49.922,
	"step": 712000
	},
	{
	"epoch": 3.03,
	"learning_rate": 2.8699999999999996e-07,
	"loss": 2.439,
	"step": 720000
	},
	{
	"epoch": 3.03,
	"eval_loss": 2.295633554458618,
	"eval_runtime": 249.5836,
	"eval_samples_per_second": 801.335,
	"eval_steps_per_second": 50.083,
	"step": 720000
	},
	{
	"epoch": 3.07,
	"eval_loss": 2.2927510738372803,
	"eval_runtime": 252.6433,
	"eval_samples_per_second": 791.63,
	"eval_steps_per_second": 49.477,
	"step": 728000
	},
	{
	"epoch": 3.1,
	"learning_rate": 2.8426666666666667e-07,
	"loss": 2.4405,
	"step": 736000
	},
	{
	"epoch": 3.1,
	"eval_loss": 2.295588970184326,
	"eval_runtime": 254.3928,
	"eval_samples_per_second": 786.186,
	"eval_steps_per_second": 49.137,
	"step": 736000
	},
	{
	"epoch": 3.13,
	"eval_loss": 2.290548324584961,
	"eval_runtime": 251.5538,
	"eval_samples_per_second": 795.058,
	"eval_steps_per_second": 49.691,
	"step": 744000
	},
	{
	"epoch": 3.17,
	"learning_rate": 2.815333333333333e-07,
	"loss": 2.4332,
	"step": 752000
	},
	{
	"epoch": 3.17,
	"eval_loss": 2.2921102046966553,
	"eval_runtime": 250.7706,
	"eval_samples_per_second": 797.542,
	"eval_steps_per_second": 49.846,
	"step": 752000
	},
	{
	"epoch": 3.2,
	"eval_loss": 2.2907326221466064,
	"eval_runtime": 252.731,
	"eval_samples_per_second": 791.355,
	"eval_steps_per_second": 49.46,
	"step": 760000
	},
	{
	"epoch": 3.23,
	"learning_rate": 2.7880000000000003e-07,
	"loss": 2.4353,
	"step": 768000
	},
	{
	"epoch": 3.23,
	"eval_loss": 2.2879087924957275,
	"eval_runtime": 249.8593,
	"eval_samples_per_second": 800.45,
	"eval_steps_per_second": 50.028,
	"step": 768000
	},
	{
	"epoch": 3.27,
	"eval_loss": 2.292853355407715,
	"eval_runtime": 255.5473,
	"eval_samples_per_second": 782.634,
	"eval_steps_per_second": 48.915,
	"step": 776000
	},
	{
	"epoch": 3.3,
	"learning_rate": 2.7606666666666664e-07,
	"loss": 2.4273,
	"step": 784000
	},
	{
	"epoch": 3.3,
	"eval_loss": 2.29532527923584,
	"eval_runtime": 249.121,
	"eval_samples_per_second": 802.823,
	"eval_steps_per_second": 50.176,
	"step": 784000
	},
	{
	"epoch": 3.33,
	"eval_loss": 2.2917468547821045,
	"eval_runtime": 252.7811,
	"eval_samples_per_second": 791.198,
	"eval_steps_per_second": 49.45,
	"step": 792000
	},
	{
	"epoch": 3.37,
	"learning_rate": 2.733333333333333e-07,
	"loss": 2.4233,
	"step": 800000
	},
	{
	"epoch": 3.37,
	"eval_loss": 2.294677734375,
	"eval_runtime": 251.4379,
	"eval_samples_per_second": 795.425,
	"eval_steps_per_second": 49.714,
	"step": 800000
	},
	{
	"epoch": 3.4,
	"eval_loss": 2.294262170791626,
	"eval_runtime": 249.692,
	"eval_samples_per_second": 800.987,
	"eval_steps_per_second": 50.062,
	"step": 808000
	},
	{
	"epoch": 3.44,
	"learning_rate": 2.706e-07,
	"loss": 2.4324,
	"step": 816000
	},
	{
	"epoch": 3.44,
	"eval_loss": 2.2940258979797363,
	"eval_runtime": 251.4645,
	"eval_samples_per_second": 795.341,
	"eval_steps_per_second": 49.709,
	"step": 816000
	},
	{
	"epoch": 3.47,
	"eval_loss": 2.291130781173706,
	"eval_runtime": 250.9475,
	"eval_samples_per_second": 796.979,
	"eval_steps_per_second": 49.811,
	"step": 824000
	},
	{
	"epoch": 3.5,
	"learning_rate": 2.6786666666666666e-07,
	"loss": 2.4461,
	"step": 832000
	},
	{
	"epoch": 3.5,
	"eval_loss": 2.2919955253601074,
	"eval_runtime": 251.5475,
	"eval_samples_per_second": 795.078,
	"eval_steps_per_second": 49.692,
	"step": 832000
	},
	{
	"epoch": 3.54,
	"eval_loss": 2.291116952896118,
	"eval_runtime": 247.564,
	"eval_samples_per_second": 807.872,
	"eval_steps_per_second": 50.492,
	"step": 840000
	},
	{
	"epoch": 3.57,
	"learning_rate": 2.651333333333333e-07,
	"loss": 2.4267,
	"step": 848000
	},
	{
	"epoch": 3.57,
	"eval_loss": 2.294036865234375,
	"eval_runtime": 248.8076,
	"eval_samples_per_second": 803.834,
	"eval_steps_per_second": 50.24,
	"step": 848000
	},
	{
	"epoch": 3.6,
	"eval_loss": 2.2889564037323,
	"eval_runtime": 250.7173,
	"eval_samples_per_second": 797.711,
	"eval_steps_per_second": 49.857,
	"step": 856000
	},
	{
	"epoch": 3.64,
	"learning_rate": 2.624e-07,
	"loss": 2.4313,
	"step": 864000
	},
	{
	"epoch": 3.64,
	"eval_loss": 2.2913272380828857,
	"eval_runtime": 251.8602,
	"eval_samples_per_second": 794.091,
	"eval_steps_per_second": 49.631,
	"step": 864000
	},
	{
	"epoch": 3.67,
	"eval_loss": 2.296712875366211,
	"eval_runtime": 250.3469,
	"eval_samples_per_second": 798.891,
	"eval_steps_per_second": 49.931,
	"step": 872000
	},
	{
	"epoch": 3.71,
	"learning_rate": 2.596666666666667e-07,
	"loss": 2.4388,
	"step": 880000
	},
	{
	"epoch": 3.71,
	"eval_loss": 2.29068660736084,
	"eval_runtime": 252.8984,
	"eval_samples_per_second": 790.831,
	"eval_steps_per_second": 49.427,
	"step": 880000
	},
	{
	"epoch": 3.74,
	"eval_loss": 2.295198440551758,
	"eval_runtime": 250.9204,
	"eval_samples_per_second": 797.065,
	"eval_steps_per_second": 49.817,
	"step": 888000
	},
	{
	"epoch": 3.77,
	"learning_rate": 2.5693333333333333e-07,
	"loss": 2.4326,
	"step": 896000
	},
	{
	"epoch": 3.77,
	"eval_loss": 2.287299394607544,
	"eval_runtime": 250.3015,
	"eval_samples_per_second": 799.036,
	"eval_steps_per_second": 49.94,
	"step": 896000
	},
	{
	"epoch": 3.81,
	"eval_loss": 2.287095308303833,
	"eval_runtime": 251.9856,
	"eval_samples_per_second": 793.696,
	"eval_steps_per_second": 49.606,
	"step": 904000
	},
	{
	"epoch": 3.84,
	"learning_rate": 2.542e-07,
	"loss": 2.4312,
	"step": 912000
	},
	{
	"epoch": 3.84,
	"eval_loss": 2.2880072593688965,
	"eval_runtime": 250.0793,
	"eval_samples_per_second": 799.746,
	"eval_steps_per_second": 49.984,
	"step": 912000
	},
	{
	"epoch": 3.87,
	"eval_loss": 2.2941174507141113,
	"eval_runtime": 250.5896,
	"eval_samples_per_second": 798.118,
	"eval_steps_per_second": 49.882,
	"step": 920000
	},
	{
	"epoch": 3.91,
	"learning_rate": 2.5146666666666664e-07,
	"loss": 2.4398,
	"step": 928000
	},
	{
	"epoch": 3.91,
	"eval_loss": 2.292538642883301,
	"eval_runtime": 248.6711,
	"eval_samples_per_second": 804.275,
	"eval_steps_per_second": 50.267,
	"step": 928000
	},
	{
	"epoch": 3.94,
	"eval_loss": 2.296539545059204,
	"eval_runtime": 250.5232,
	"eval_samples_per_second": 798.329,
	"eval_steps_per_second": 49.896,
	"step": 936000
	},
	{
	"epoch": 3.97,
	"learning_rate": 2.4873333333333335e-07,
	"loss": 2.441,
	"step": 944000
	},
	{
	"epoch": 3.97,
	"eval_loss": 2.289044141769409,
	"eval_runtime": 251.7273,
	"eval_samples_per_second": 794.511,
	"eval_steps_per_second": 49.657,
	"step": 944000
	},
	{
	"epoch": 4.01,
	"eval_loss": 2.2945752143859863,
	"eval_runtime": 250.3966,
	"eval_samples_per_second": 798.733,
	"eval_steps_per_second": 49.921,
	"step": 952000
	},
	{
	"epoch": 4.04,
	"learning_rate": 2.46e-07,
	"loss": 2.4345,
	"step": 960000
	},
	{
	"epoch": 4.04,
	"eval_loss": 2.291003704071045,
	"eval_runtime": 250.1466,
	"eval_samples_per_second": 799.531,
	"eval_steps_per_second": 49.971,
	"step": 960000
	},
	{
	"epoch": 4.08,
	"eval_loss": 2.279160737991333,
	"eval_runtime": 251.3138,
	"eval_samples_per_second": 795.818,
	"eval_steps_per_second": 49.739,
	"step": 968000
	},
	{
	"epoch": 4.11,
	"learning_rate": 2.4326666666666666e-07,
	"loss": 2.4332,
	"step": 976000
	},
	{
	"epoch": 4.11,
	"eval_loss": 2.285647392272949,
	"eval_runtime": 251.6666,
	"eval_samples_per_second": 794.702,
	"eval_steps_per_second": 49.669,
	"step": 976000
	},
	{
	"epoch": 4.14,
	"eval_loss": 2.2878894805908203,
	"eval_runtime": 249.5029,
	"eval_samples_per_second": 801.594,
	"eval_steps_per_second": 50.1,
	"step": 984000
	},
	{
	"epoch": 4.18,
	"learning_rate": 2.405333333333333e-07,
	"loss": 2.4375,
	"step": 992000
	},
	{
	"epoch": 4.18,
	"eval_loss": 2.2861104011535645,
	"eval_runtime": 249.5689,
	"eval_samples_per_second": 801.382,
	"eval_steps_per_second": 50.086,
	"step": 992000
	},
	{
	"epoch": 4.21,
	"eval_loss": 2.2892367839813232,
	"eval_runtime": 250.1781,
	"eval_samples_per_second": 799.43,
	"eval_steps_per_second": 49.964,
	"step": 1000000
	},
	{
	"epoch": 4.24,
	"learning_rate": 2.3779999999999997e-07,
	"loss": 2.4282,
	"step": 1008000
	},
	{
	"epoch": 4.24,
	"eval_loss": 2.2894413471221924,
	"eval_runtime": 252.3508,
	"eval_samples_per_second": 792.548,
	"eval_steps_per_second": 49.534,
	"step": 1008000
	},
	{
	"epoch": 4.28,
	"eval_loss": 2.290153980255127,
	"eval_runtime": 250.4413,
	"eval_samples_per_second": 798.59,
	"eval_steps_per_second": 49.912,
	"step": 1016000
	},
	{
	"epoch": 4.31,
	"learning_rate": 2.3506666666666668e-07,
	"loss": 2.4231,
	"step": 1024000
	},
	{
	"epoch": 4.31,
	"eval_loss": 2.282951831817627,
	"eval_runtime": 251.0777,
	"eval_samples_per_second": 796.566,
	"eval_steps_per_second": 49.785,
	"step": 1024000
	},
	{
	"epoch": 4.35,
	"eval_loss": 2.294783353805542,
	"eval_runtime": 249.9563,
	"eval_samples_per_second": 800.14,
	"eval_steps_per_second": 50.009,
	"step": 1032000
	},
	{
	"epoch": 4.38,
	"learning_rate": 2.3233333333333334e-07,
	"loss": 2.4299,
	"step": 1040000
	},
	{
	"epoch": 4.38,
	"eval_loss": 2.2915213108062744,
	"eval_runtime": 251.5141,
	"eval_samples_per_second": 795.184,
	"eval_steps_per_second": 49.699,
	"step": 1040000
	},
	{
	"epoch": 4.41,
	"eval_loss": 2.2921574115753174,
	"eval_runtime": 250.6578,
	"eval_samples_per_second": 797.9,
	"eval_steps_per_second": 49.869,
	"step": 1048000
	},
	{
	"epoch": 4.45,
	"learning_rate": 2.2960000000000002e-07,
	"loss": 2.4353,
	"step": 1056000
	},
	{
	"epoch": 4.45,
	"eval_loss": 2.287623882293701,
	"eval_runtime": 249.9183,
	"eval_samples_per_second": 800.262,
	"eval_steps_per_second": 50.016,
	"step": 1056000
	},
	{
	"epoch": 4.48,
	"eval_loss": 2.2892725467681885,
	"eval_runtime": 249.4102,
	"eval_samples_per_second": 801.892,
	"eval_steps_per_second": 50.118,
	"step": 1064000
	},
	{
	"epoch": 4.51,
	"learning_rate": 2.2686666666666667e-07,
	"loss": 2.4308,
	"step": 1072000
	},
	{
	"epoch": 4.51,
	"eval_loss": 2.292046070098877,
	"eval_runtime": 247.5504,
	"eval_samples_per_second": 807.916,
	"eval_steps_per_second": 50.495,
	"step": 1072000
	},
	{
	"epoch": 4.55,
	"eval_loss": 2.285968780517578,
	"eval_runtime": 247.5335,
	"eval_samples_per_second": 807.971,
	"eval_steps_per_second": 50.498,
	"step": 1080000
	},
	{
	"epoch": 4.58,
	"learning_rate": 2.2413333333333333e-07,
	"loss": 2.4358,
	"step": 1088000
	},
	{
	"epoch": 4.58,
	"eval_loss": 2.2907297611236572,
	"eval_runtime": 248.9275,
	"eval_samples_per_second": 803.447,
	"eval_steps_per_second": 50.215,
	"step": 1088000
	},
	{
	"epoch": 4.61,
	"eval_loss": 2.2807979583740234,
	"eval_runtime": 249.3116,
	"eval_samples_per_second": 802.209,
	"eval_steps_per_second": 50.138,
	"step": 1096000
	},
	{
	"epoch": 4.65,
	"learning_rate": 2.214e-07,
	"loss": 2.4341,
	"step": 1104000
	},
	{
	"epoch": 4.65,
	"eval_loss": 2.290224313735962,
	"eval_runtime": 249.5198,
	"eval_samples_per_second": 801.54,
	"eval_steps_per_second": 50.096,
	"step": 1104000
	},
	{
	"epoch": 4.68,
	"eval_loss": 2.281525135040283,
	"eval_runtime": 249.0717,
	"eval_samples_per_second": 802.982,
	"eval_steps_per_second": 50.186,
	"step": 1112000
	},
	{
	"epoch": 4.72,
	"learning_rate": 2.1866666666666667e-07,
	"loss": 2.4315,
	"step": 1120000
	},
	{
	"epoch": 4.72,
	"eval_loss": 2.296067237854004,
	"eval_runtime": 246.4788,
	"eval_samples_per_second": 811.429,
	"eval_steps_per_second": 50.714,
	"step": 1120000
	},
	{
	"epoch": 4.75,
	"eval_loss": 2.288472890853882,
	"eval_runtime": 243.6257,
	"eval_samples_per_second": 820.932,
	"eval_steps_per_second": 51.308,
	"step": 1128000
	},
	{
	"epoch": 4.78,
	"learning_rate": 2.1593333333333332e-07,
	"loss": 2.434,
	"step": 1136000
	},
	{
	"epoch": 4.78,
	"eval_loss": 2.2916722297668457,
	"eval_runtime": 242.6981,
	"eval_samples_per_second": 824.069,
	"eval_steps_per_second": 51.504,
	"step": 1136000
	},
	{
	"epoch": 4.82,
	"eval_loss": 2.285139560699463,
	"eval_runtime": 243.3147,
	"eval_samples_per_second": 821.981,
	"eval_steps_per_second": 51.374,
	"step": 1144000
	},
	{
	"epoch": 4.85,
	"learning_rate": 2.132e-07,
	"loss": 2.4324,
	"step": 1152000
	},
	{
	"epoch": 4.85,
	"eval_loss": 2.2837140560150146,
	"eval_runtime": 243.7667,
	"eval_samples_per_second": 820.457,
	"eval_steps_per_second": 51.279,
	"step": 1152000
	},
	{
	"epoch": 4.88,
	"eval_loss": 2.288276195526123,
	"eval_runtime": 243.0553,
	"eval_samples_per_second": 822.858,
	"eval_steps_per_second": 51.429,
	"step": 1160000
	},
	{
	"epoch": 4.92,
	"learning_rate": 2.1046666666666666e-07,
	"loss": 2.4297,
	"step": 1168000
	},
	{
	"epoch": 4.92,
	"eval_loss": 2.282362222671509,
	"eval_runtime": 243.4119,
	"eval_samples_per_second": 821.652,
	"eval_steps_per_second": 51.353,
	"step": 1168000
	},
	{
	"epoch": 4.95,
	"eval_loss": 2.283245086669922,
	"eval_runtime": 242.8004,
	"eval_samples_per_second": 823.722,
	"eval_steps_per_second": 51.483,
	"step": 1176000
	},
	{
	"epoch": 4.99,
	"learning_rate": 2.0773333333333334e-07,
	"loss": 2.436,
	"step": 1184000
	},
	{
	"epoch": 4.99,
	"eval_loss": 2.286545515060425,
	"eval_runtime": 243.7626,
	"eval_samples_per_second": 820.471,
	"eval_steps_per_second": 51.279,
	"step": 1184000
	},
	{
	"epoch": 5.02,
	"eval_loss": 2.281639337539673,
	"eval_runtime": 242.7206,
	"eval_samples_per_second": 823.993,
	"eval_steps_per_second": 51.5,
	"step": 1192000
	},
	{
	"epoch": 5.05,
	"learning_rate": 2.05e-07,
	"loss": 2.4329,
	"step": 1200000
	},
	{
	"epoch": 5.05,
	"eval_loss": 2.2862467765808105,
	"eval_runtime": 242.9508,
	"eval_samples_per_second": 823.212,
	"eval_steps_per_second": 51.451,
	"step": 1200000
	},
	{
	"epoch": 5.09,
	"eval_loss": 2.284660577774048,
	"eval_runtime": 244.035,
	"eval_samples_per_second": 819.554,
	"eval_steps_per_second": 51.222,
	"step": 1208000
	},
	{
	"epoch": 5.12,
	"learning_rate": 2.0226666666666668e-07,
	"loss": 2.4276,
	"step": 1216000
	},
	{
	"epoch": 5.12,
	"eval_loss": 2.295132875442505,
	"eval_runtime": 243.547,
	"eval_samples_per_second": 821.197,
	"eval_steps_per_second": 51.325,
	"step": 1216000
	},
	{
	"epoch": 5.15,
	"eval_loss": 2.297971487045288,
	"eval_runtime": 243.0459,
	"eval_samples_per_second": 822.89,
	"eval_steps_per_second": 51.431,
	"step": 1224000
	},
	{
	"epoch": 5.19,
	"learning_rate": 1.9953333333333333e-07,
	"loss": 2.4362,
	"step": 1232000
	},
	{
	"epoch": 5.19,
	"eval_loss": 2.2889420986175537,
	"eval_runtime": 245.3823,
	"eval_samples_per_second": 815.055,
	"eval_steps_per_second": 50.941,
	"step": 1232000
	},
	{
	"epoch": 5.22,
	"eval_loss": 2.2913663387298584,
	"eval_runtime": 243.0295,
	"eval_samples_per_second": 822.945,
	"eval_steps_per_second": 51.434,
	"step": 1240000
	},
	{
	"epoch": 5.25,
	"learning_rate": 1.968e-07,
	"loss": 2.4309,
	"step": 1248000
	},
	{
	"epoch": 5.25,
	"eval_loss": 2.2914836406707764,
	"eval_runtime": 245.1791,
	"eval_samples_per_second": 815.73,
	"eval_steps_per_second": 50.983,
	"step": 1248000
	},
	{
	"epoch": 5.29,
	"eval_loss": 2.2822399139404297,
	"eval_runtime": 243.1242,
	"eval_samples_per_second": 822.625,
	"eval_steps_per_second": 51.414,
	"step": 1256000
	},
	{
	"epoch": 5.32,
	"learning_rate": 1.9406666666666667e-07,
	"loss": 2.4414,
	"step": 1264000
	},
	{
	"epoch": 5.32,
	"eval_loss": 2.287137269973755,
	"eval_runtime": 243.2167,
	"eval_samples_per_second": 822.312,
	"eval_steps_per_second": 51.395,
	"step": 1264000
	},
	{
	"epoch": 5.36,
	"eval_loss": 2.2890405654907227,
	"eval_runtime": 246.4538,
	"eval_samples_per_second": 811.511,
	"eval_steps_per_second": 50.719,
	"step": 1272000
	},
	{
	"epoch": 5.39,
	"learning_rate": 1.9133333333333333e-07,
	"loss": 2.4241,
	"step": 1280000
	},
	{
	"epoch": 5.39,
	"eval_loss": 2.2844035625457764,
	"eval_runtime": 243.8151,
	"eval_samples_per_second": 820.294,
	"eval_steps_per_second": 51.268,
	"step": 1280000
	},
	{
	"epoch": 5.42,
	"eval_loss": 2.281158924102783,
	"eval_runtime": 244.4232,
	"eval_samples_per_second": 818.253,
	"eval_steps_per_second": 51.141,
	"step": 1288000
	},
	{
	"epoch": 5.46,
	"learning_rate": 1.886e-07,
	"loss": 2.4251,
	"step": 1296000
	},
	{
	"epoch": 5.46,
	"eval_loss": 2.2873995304107666,
	"eval_runtime": 245.6666,
	"eval_samples_per_second": 814.111,
	"eval_steps_per_second": 50.882,
	"step": 1296000
	},
	{
	"epoch": 5.49,
	"eval_loss": 2.2846264839172363,
	"eval_runtime": 244.5062,
	"eval_samples_per_second": 817.975,
	"eval_steps_per_second": 51.123,
	"step": 1304000
	},
	{
	"epoch": 5.52,
	"learning_rate": 1.8586666666666666e-07,
	"loss": 2.4318,
	"step": 1312000
	},
	{
	"epoch": 5.52,
	"eval_loss": 2.283116340637207,
	"eval_runtime": 245.4301,
	"eval_samples_per_second": 814.896,
	"eval_steps_per_second": 50.931,
	"step": 1312000
	},
	{
	"epoch": 5.56,
	"eval_loss": 2.2895309925079346,
	"eval_runtime": 244.3142,
	"eval_samples_per_second": 818.618,
	"eval_steps_per_second": 51.164,
	"step": 1320000
	},
	{
	"epoch": 5.59,
	"learning_rate": 1.8313333333333332e-07,
	"loss": 2.4247,
	"step": 1328000
	},
	{
	"epoch": 5.59,
	"eval_loss": 2.2795751094818115,
	"eval_runtime": 246.3547,
	"eval_samples_per_second": 811.838,
	"eval_steps_per_second": 50.74,
	"step": 1328000
	},
	{
	"epoch": 5.63,
	"eval_loss": 2.2833728790283203,
	"eval_runtime": 244.3038,
	"eval_samples_per_second": 818.653,
	"eval_steps_per_second": 51.166,
	"step": 1336000
	},
	{
	"epoch": 5.66,
	"learning_rate": 1.804e-07,
	"loss": 2.4305,
	"step": 1344000
	},
	{
	"epoch": 5.66,
	"eval_loss": 2.2810542583465576,
	"eval_runtime": 245.8027,
	"eval_samples_per_second": 813.661,
	"eval_steps_per_second": 50.854,
	"step": 1344000
	},
	{
	"epoch": 5.69,
	"eval_loss": 2.2922263145446777,
	"eval_runtime": 244.3162,
	"eval_samples_per_second": 818.611,
	"eval_steps_per_second": 51.163,
	"step": 1352000
	},
	{
	"epoch": 5.73,
	"learning_rate": 1.7766666666666666e-07,
	"loss": 2.4336,
	"step": 1360000
	},
	{
	"epoch": 5.73,
	"eval_loss": 2.2830028533935547,
	"eval_runtime": 245.6363,
	"eval_samples_per_second": 814.212,
	"eval_steps_per_second": 50.888,
	"step": 1360000
	},
	{
	"epoch": 5.76,
	"eval_loss": 2.2903530597686768,
	"eval_runtime": 244.3808,
	"eval_samples_per_second": 818.395,
	"eval_steps_per_second": 51.15,
	"step": 1368000
	},
	{
	"epoch": 5.79,
	"learning_rate": 1.7493333333333334e-07,
	"loss": 2.428,
	"step": 1376000
	},
	{
	"epoch": 5.79,
	"eval_loss": 2.284269332885742,
	"eval_runtime": 243.8962,
	"eval_samples_per_second": 820.021,
	"eval_steps_per_second": 51.251,
	"step": 1376000
	},
	{
	"epoch": 5.83,
	"eval_loss": 2.2804477214813232,
	"eval_runtime": 243.7523,
	"eval_samples_per_second": 820.505,
	"eval_steps_per_second": 51.282,
	"step": 1384000
	},
	{
	"epoch": 5.86,
	"learning_rate": 1.722e-07,
	"loss": 2.4254,
	"step": 1392000
	},
	{
	"epoch": 5.86,
	"eval_loss": 2.285198211669922,
	"eval_runtime": 244.494,
	"eval_samples_per_second": 818.016,
	"eval_steps_per_second": 51.126,
	"step": 1392000
	},
	{
	"epoch": 5.89,
	"eval_loss": 2.285767078399658,
	"eval_runtime": 245.3316,
	"eval_samples_per_second": 815.223,
	"eval_steps_per_second": 50.951,
	"step": 1400000
	},
	{
	"epoch": 5.93,
	"learning_rate": 1.6946666666666668e-07,
	"loss": 2.4287,
	"step": 1408000
	},
	{
	"epoch": 5.93,
	"eval_loss": 2.2921693325042725,
	"eval_runtime": 246.0396,
	"eval_samples_per_second": 812.877,
	"eval_steps_per_second": 50.805,
	"step": 1408000
	},
	{
	"epoch": 5.96,
	"eval_loss": 2.2846784591674805,
	"eval_runtime": 243.9013,
	"eval_samples_per_second": 820.004,
	"eval_steps_per_second": 51.25,
	"step": 1416000
	},
	{
	"epoch": 6.0,
	"learning_rate": 1.6673333333333333e-07,
	"loss": 2.4291,
	"step": 1424000
	},
	{
	"epoch": 6.0,
	"eval_loss": 2.285550117492676,
	"eval_runtime": 244.514,
	"eval_samples_per_second": 817.949,
	"eval_steps_per_second": 51.122,
	"step": 1424000
	},
	{
	"epoch": 6.03,
	"eval_loss": 2.287602186203003,
	"eval_runtime": 245.7265,
	"eval_samples_per_second": 813.913,
	"eval_steps_per_second": 50.87,
	"step": 1432000
	},
	{
	"epoch": 6.06,
	"learning_rate": 1.64e-07,
	"loss": 2.4289,
	"step": 1440000
	},
	{
	"epoch": 6.06,
	"eval_loss": 2.282216787338257,
	"eval_runtime": 247.3389,
	"eval_samples_per_second": 808.607,
	"eval_steps_per_second": 50.538,
	"step": 1440000
	},
	{
	"epoch": 6.1,
	"eval_loss": 2.2787294387817383,
	"eval_runtime": 247.7887,
	"eval_samples_per_second": 807.139,
	"eval_steps_per_second": 50.446,
	"step": 1448000
	},
	{
	"epoch": 6.13,
	"learning_rate": 1.6126666666666667e-07,
	"loss": 2.4272,
	"step": 1456000
	},
	{
	"epoch": 6.13,
	"eval_loss": 2.2810943126678467,
	"eval_runtime": 244.5008,
	"eval_samples_per_second": 817.993,
	"eval_steps_per_second": 51.125,
	"step": 1456000
	},
	{
	"epoch": 6.16,
	"eval_loss": 2.285348415374756,
	"eval_runtime": 246.9617,
	"eval_samples_per_second": 809.842,
	"eval_steps_per_second": 50.615,
	"step": 1464000
	},
	{
	"epoch": 6.2,
	"learning_rate": 1.5853333333333332e-07,
	"loss": 2.4267,
	"step": 1472000
	},
	{
	"epoch": 6.2,
	"eval_loss": 2.2818119525909424,
	"eval_runtime": 245.9708,
	"eval_samples_per_second": 813.105,
	"eval_steps_per_second": 50.819,
	"step": 1472000
	},
	{
	"epoch": 6.23,
	"eval_loss": 2.2764692306518555,
	"eval_runtime": 249.5295,
	"eval_samples_per_second": 801.509,
	"eval_steps_per_second": 50.094,
	"step": 1480000
	},
	{
	"epoch": 6.27,
	"learning_rate": 1.558e-07,
	"loss": 2.4237,
	"step": 1488000
	},
	{
	"epoch": 6.27,
	"eval_loss": 2.2790732383728027,
	"eval_runtime": 247.115,
	"eval_samples_per_second": 809.34,
	"eval_steps_per_second": 50.584,
	"step": 1488000
	},
	{
	"epoch": 6.3,
	"eval_loss": 2.2768290042877197,
	"eval_runtime": 246.6491,
	"eval_samples_per_second": 810.868,
	"eval_steps_per_second": 50.679,
	"step": 1496000
	},
	{
	"epoch": 6.33,
	"learning_rate": 1.5306666666666666e-07,
	"loss": 2.4277,
	"step": 1504000
	},
	{
	"epoch": 6.33,
	"eval_loss": 2.286600351333618,
	"eval_runtime": 247.5007,
	"eval_samples_per_second": 808.078,
	"eval_steps_per_second": 50.505,
	"step": 1504000
	},
	{
	"epoch": 6.37,
	"eval_loss": 2.282073974609375,
	"eval_runtime": 245.5734,
	"eval_samples_per_second": 814.42,
	"eval_steps_per_second": 50.901,
	"step": 1512000
	},
	{
	"epoch": 6.4,
	"learning_rate": 1.5033333333333332e-07,
	"loss": 2.4316,
	"step": 1520000
	},
	{
	"epoch": 6.4,
	"eval_loss": 2.285618305206299,
	"eval_runtime": 245.7388,
	"eval_samples_per_second": 813.872,
	"eval_steps_per_second": 50.867,
	"step": 1520000
	},
	{
	"epoch": 6.43,
	"eval_loss": 2.2820215225219727,
	"eval_runtime": 247.4957,
	"eval_samples_per_second": 808.095,
	"eval_steps_per_second": 50.506,
	"step": 1528000
	},
	{
	"epoch": 6.47,
	"learning_rate": 1.476e-07,
	"loss": 2.4222,
	"step": 1536000
	},
	{
	"epoch": 6.47,
	"eval_loss": 2.2891499996185303,
	"eval_runtime": 245.6614,
	"eval_samples_per_second": 814.129,
	"eval_steps_per_second": 50.883,
	"step": 1536000
	},
	{
	"epoch": 6.5,
	"eval_loss": 2.2802817821502686,
	"eval_runtime": 246.4523,
	"eval_samples_per_second": 811.516,
	"eval_steps_per_second": 50.72,
	"step": 1544000
	},
	{
	"epoch": 6.53,
	"learning_rate": 1.4486666666666665e-07,
	"loss": 2.426,
	"step": 1552000
	},
	{
	"epoch": 6.53,
	"eval_loss": 2.279686689376831,
	"eval_runtime": 247.3876,
	"eval_samples_per_second": 808.448,
	"eval_steps_per_second": 50.528,
	"step": 1552000
	},
	{
	"epoch": 6.57,
	"eval_loss": 2.284360408782959,
	"eval_runtime": 246.8856,
	"eval_samples_per_second": 810.092,
	"eval_steps_per_second": 50.631,
	"step": 1560000
	},
	{
	"epoch": 6.6,
	"learning_rate": 1.4213333333333334e-07,
	"loss": 2.422,
	"step": 1568000
	},
	{
	"epoch": 6.6,
	"eval_loss": 2.287179708480835,
	"eval_runtime": 245.0018,
	"eval_samples_per_second": 816.321,
	"eval_steps_per_second": 51.02,
	"step": 1568000
	},
	{
	"epoch": 6.64,
	"eval_loss": 2.2903947830200195,
	"eval_runtime": 244.8984,
	"eval_samples_per_second": 816.665,
	"eval_steps_per_second": 51.042,
	"step": 1576000
	},
	{
	"epoch": 6.67,
	"learning_rate": 1.3940000000000002e-07,
	"loss": 2.4323,
	"step": 1584000
	},
	{
	"epoch": 6.67,
	"eval_loss": 2.2796852588653564,
	"eval_runtime": 245.135,
	"eval_samples_per_second": 815.877,
	"eval_steps_per_second": 50.992,
	"step": 1584000
	},
	{
	"epoch": 6.7,
	"eval_loss": 2.275681495666504,
	"eval_runtime": 247.5616,
	"eval_samples_per_second": 807.88,
	"eval_steps_per_second": 50.492,
	"step": 1592000
	},
	{
	"epoch": 6.74,
	"learning_rate": 1.3666666666666665e-07,
	"loss": 2.4315,
	"step": 1600000
	},
	{
	"epoch": 6.74,
	"eval_loss": 2.287421703338623,
	"eval_runtime": 247.5879,
	"eval_samples_per_second": 807.794,
	"eval_steps_per_second": 50.487,
	"step": 1600000
	},
	{
	"epoch": 6.77,
	"eval_loss": 2.276327133178711,
	"eval_runtime": 245.1196,
	"eval_samples_per_second": 815.928,
	"eval_steps_per_second": 50.996,
	"step": 1608000
	},
	{
	"epoch": 6.8,
	"learning_rate": 1.3393333333333333e-07,
	"loss": 2.421,
	"step": 1616000
	},
	{
	"epoch": 6.8,
	"eval_loss": 2.2857308387756348,
	"eval_runtime": 245.1941,
	"eval_samples_per_second": 815.68,
	"eval_steps_per_second": 50.98,
	"step": 1616000
	},
	{
	"epoch": 6.84,
	"eval_loss": 2.280374765396118,
	"eval_runtime": 247.8166,
	"eval_samples_per_second": 807.048,
	"eval_steps_per_second": 50.441,
	"step": 1624000
	},
	{
	"epoch": 6.87,
	"learning_rate": 1.312e-07,
	"loss": 2.4299,
	"step": 1632000
	},
	{
	"epoch": 6.87,
	"eval_loss": 2.282515287399292,
	"eval_runtime": 245.4773,
	"eval_samples_per_second": 814.739,
	"eval_steps_per_second": 50.921,
	"step": 1632000
	},
	{
	"epoch": 6.91,
	"eval_loss": 2.2819290161132812,
	"eval_runtime": 247.6539,
	"eval_samples_per_second": 807.579,
	"eval_steps_per_second": 50.474,
	"step": 1640000
	},
	{
	"epoch": 6.94,
	"learning_rate": 1.2846666666666667e-07,
	"loss": 2.4289,
	"step": 1648000
	},
	{
	"epoch": 6.94,
	"eval_loss": 2.28240704536438,
	"eval_runtime": 245.8148,
	"eval_samples_per_second": 813.621,
	"eval_steps_per_second": 50.851,
	"step": 1648000
	},
	{
	"epoch": 6.97,
	"eval_loss": 2.282073974609375,
	"eval_runtime": 247.9192,
	"eval_samples_per_second": 806.714,
	"eval_steps_per_second": 50.42,
	"step": 1656000
	},
	{
	"epoch": 7.01,
	"learning_rate": 1.2573333333333332e-07,
	"loss": 2.4257,
	"step": 1664000
	},
	{
	"epoch": 7.01,
	"eval_loss": 2.2802059650421143,
	"eval_runtime": 248.4226,
	"eval_samples_per_second": 805.08,
	"eval_steps_per_second": 50.317,
	"step": 1664000
	},
	{
	"epoch": 7.04,
	"eval_loss": 2.2760419845581055,
	"eval_runtime": 246.2143,
	"eval_samples_per_second": 812.3,
	"eval_steps_per_second": 50.769,
	"step": 1672000
	},
	{
	"epoch": 7.07,
	"learning_rate": 1.23e-07,
	"loss": 2.4227,
	"step": 1680000
	},
	{
	"epoch": 7.07,
	"eval_loss": 2.28104305267334,
	"eval_runtime": 247.8478,
	"eval_samples_per_second": 806.947,
	"eval_steps_per_second": 50.434,
	"step": 1680000
	},
	{
	"epoch": 7.11,
	"eval_loss": 2.2776732444763184,
	"eval_runtime": 245.7431,
	"eval_samples_per_second": 813.858,
	"eval_steps_per_second": 50.866,
	"step": 1688000
	},
	{
	"epoch": 7.14,
	"learning_rate": 1.2026666666666666e-07,
	"loss": 2.4287,
	"step": 1696000
	},
	{
	"epoch": 7.14,
	"eval_loss": 2.277235984802246,
	"eval_runtime": 245.5934,
	"eval_samples_per_second": 814.354,
	"eval_steps_per_second": 50.897,
	"step": 1696000
	},
	{
	"epoch": 7.17,
	"eval_loss": 2.2786269187927246,
	"eval_runtime": 246.4934,
	"eval_samples_per_second": 811.381,
	"eval_steps_per_second": 50.711,
	"step": 1704000
	},
	{
	"epoch": 7.21,
	"learning_rate": 1.1753333333333334e-07,
	"loss": 2.4227,
	"step": 1712000
	},
	{
	"epoch": 7.21,
	"eval_loss": 2.285905361175537,
	"eval_runtime": 246.4981,
	"eval_samples_per_second": 811.365,
	"eval_steps_per_second": 50.71,
	"step": 1712000
	},
	{
	"epoch": 7.24,
	"eval_loss": 2.2862019538879395,
	"eval_runtime": 247.148,
	"eval_samples_per_second": 809.232,
	"eval_steps_per_second": 50.577,
	"step": 1720000
	},
	{
	"epoch": 7.28,
	"learning_rate": 1.1480000000000001e-07,
	"loss": 2.4262,
	"step": 1728000
	},
	{
	"epoch": 7.28,
	"eval_loss": 2.278900146484375,
	"eval_runtime": 246.4039,
	"eval_samples_per_second": 811.675,
	"eval_steps_per_second": 50.73,
	"step": 1728000
	},
	{
	"epoch": 7.31,
	"eval_loss": 2.2848124504089355,
	"eval_runtime": 246.3089,
	"eval_samples_per_second": 811.988,
	"eval_steps_per_second": 50.749,
	"step": 1736000
	},
	{
	"epoch": 7.34,
	"learning_rate": 1.1206666666666666e-07,
	"loss": 2.4263,
	"step": 1744000
	},
	{
	"epoch": 7.34,
	"eval_loss": 2.275432586669922,
	"eval_runtime": 246.8456,
	"eval_samples_per_second": 810.223,
	"eval_steps_per_second": 50.639,
	"step": 1744000
	},
	{
	"epoch": 7.38,
	"eval_loss": 2.2777817249298096,
	"eval_runtime": 247.2848,
	"eval_samples_per_second": 808.784,
	"eval_steps_per_second": 50.549,
	"step": 1752000
	},
	{
	"epoch": 7.41,
	"learning_rate": 1.0933333333333333e-07,
	"loss": 2.4246,
	"step": 1760000
	},
	{
	"epoch": 7.41,
	"eval_loss": 2.27353572845459,
	"eval_runtime": 247.6065,
	"eval_samples_per_second": 807.733,
	"eval_steps_per_second": 50.483,
	"step": 1760000
	},
	{
	"epoch": 7.44,
	"eval_loss": 2.2827255725860596,
	"eval_runtime": 246.5965,
	"eval_samples_per_second": 811.041,
	"eval_steps_per_second": 50.69,
	"step": 1768000
	},
	{
	"epoch": 7.48,
	"learning_rate": 1.066e-07,
	"loss": 2.4147,
	"step": 1776000
	},
	{
	"epoch": 7.48,
	"eval_loss": 2.285012722015381,
	"eval_runtime": 246.8181,
	"eval_samples_per_second": 810.313,
	"eval_steps_per_second": 50.645,
	"step": 1776000
	},
	{
	"epoch": 7.51,
	"eval_loss": 2.282083511352539,
	"eval_runtime": 246.9583,
	"eval_samples_per_second": 809.853,
	"eval_steps_per_second": 50.616,
	"step": 1784000
	},
	{
	"epoch": 7.55,
	"learning_rate": 1.0386666666666667e-07,
	"loss": 2.4288,
	"step": 1792000
	},
	{
	"epoch": 7.55,
	"eval_loss": 2.280324935913086,
	"eval_runtime": 246.1706,
	"eval_samples_per_second": 812.445,
	"eval_steps_per_second": 50.778,
	"step": 1792000
	},
	{
	"epoch": 7.58,
	"eval_loss": 2.2760393619537354,
	"eval_runtime": 246.0656,
	"eval_samples_per_second": 812.791,
	"eval_steps_per_second": 50.799,
	"step": 1800000
	},
	{
	"epoch": 7.61,
	"learning_rate": 1.0113333333333334e-07,
	"loss": 2.4231,
	"step": 1808000
	},
	{
	"epoch": 7.61,
	"eval_loss": 2.2748613357543945,
	"eval_runtime": 246.3683,
	"eval_samples_per_second": 811.793,
	"eval_steps_per_second": 50.737,
	"step": 1808000
	},
	{
	"epoch": 7.65,
	"eval_loss": 2.2749080657958984,
	"eval_runtime": 246.3319,
	"eval_samples_per_second": 811.913,
	"eval_steps_per_second": 50.745,
	"step": 1816000
	},
	{
	"epoch": 7.68,
	"learning_rate": 9.84e-08,
	"loss": 2.4243,
	"step": 1824000
	},
	{
	"epoch": 7.68,
	"eval_loss": 2.274254322052002,
	"eval_runtime": 245.7767,
	"eval_samples_per_second": 813.747,
	"eval_steps_per_second": 50.859,
	"step": 1824000
	},
	{
	"epoch": 7.71,
	"eval_loss": 2.2792415618896484,
	"eval_runtime": 247.2515,
	"eval_samples_per_second": 808.893,
	"eval_steps_per_second": 50.556,
	"step": 1832000
	},
	{
	"epoch": 7.75,
	"learning_rate": 9.566666666666666e-08,
	"loss": 2.4215,
	"step": 1840000
	},
	{
	"epoch": 7.75,
	"eval_loss": 2.275153398513794,
	"eval_runtime": 247.4479,
	"eval_samples_per_second": 808.251,
	"eval_steps_per_second": 50.516,
	"step": 1840000
	},
	{
	"epoch": 7.78,
	"eval_loss": 2.2769758701324463,
	"eval_runtime": 247.8276,
	"eval_samples_per_second": 807.013,
	"eval_steps_per_second": 50.438,
	"step": 1848000
	},
	{
	"epoch": 7.81,
	"learning_rate": 9.293333333333333e-08,
	"loss": 2.4213,
	"step": 1856000
	},
	{
	"epoch": 7.81,
	"eval_loss": 2.280165672302246,
	"eval_runtime": 246.5191,
	"eval_samples_per_second": 811.296,
	"eval_steps_per_second": 50.706,
	"step": 1856000
	},
	{
	"epoch": 7.85,
	"eval_loss": 2.27955961227417,
	"eval_runtime": 248.3255,
	"eval_samples_per_second": 805.394,
	"eval_steps_per_second": 50.337,
	"step": 1864000
	},
	{
	"epoch": 7.88,
	"learning_rate": 9.02e-08,
	"loss": 2.4236,
	"step": 1872000
	},
	{
	"epoch": 7.88,
	"eval_loss": 2.2882931232452393,
	"eval_runtime": 246.4462,
	"eval_samples_per_second": 811.536,
	"eval_steps_per_second": 50.721,
	"step": 1872000
	},
	{
	"epoch": 7.92,
	"eval_loss": 2.279242515563965,
	"eval_runtime": 246.5281,
	"eval_samples_per_second": 811.266,
	"eval_steps_per_second": 50.704,
	"step": 1880000
	},
	{
	"epoch": 7.95,
	"learning_rate": 8.746666666666667e-08,
	"loss": 2.4237,
	"step": 1888000
	},
	{
	"epoch": 7.95,
	"eval_loss": 2.272642135620117,
	"eval_runtime": 247.5094,
	"eval_samples_per_second": 808.05,
	"eval_steps_per_second": 50.503,
	"step": 1888000
	},
	{
	"epoch": 7.98,
	"eval_loss": 2.2816178798675537,
	"eval_runtime": 248.3802,
	"eval_samples_per_second": 805.217,
	"eval_steps_per_second": 50.326,
	"step": 1896000
	},
	{
	"epoch": 8.02,
	"learning_rate": 8.473333333333334e-08,
	"loss": 2.4183,
	"step": 1904000
	},
	{
	"epoch": 8.02,
	"eval_loss": 2.2790186405181885,
	"eval_runtime": 247.7385,
	"eval_samples_per_second": 807.303,
	"eval_steps_per_second": 50.456,
	"step": 1904000
	},
	{
	"epoch": 8.05,
	"eval_loss": 2.2814745903015137,
	"eval_runtime": 248.3044,
	"eval_samples_per_second": 805.463,
	"eval_steps_per_second": 50.341,
	"step": 1912000
	},
	{
	"epoch": 8.08,
	"learning_rate": 8.2e-08,
	"loss": 2.4215,
	"step": 1920000
	},
	{
	"epoch": 8.08,
	"eval_loss": 2.277374744415283,
	"eval_runtime": 246.8648,
	"eval_samples_per_second": 810.16,
	"eval_steps_per_second": 50.635,
	"step": 1920000
	},
	{
	"epoch": 8.12,
	"eval_loss": 2.270047664642334,
	"eval_runtime": 246.8413,
	"eval_samples_per_second": 810.237,
	"eval_steps_per_second": 50.64,
	"step": 1928000
	},
	{
	"epoch": 8.15,
	"learning_rate": 7.926666666666666e-08,
	"loss": 2.4258,
	"step": 1936000
	},
	{
	"epoch": 8.15,
	"eval_loss": 2.276344060897827,
	"eval_runtime": 246.9748,
	"eval_samples_per_second": 809.799,
	"eval_steps_per_second": 50.612,
	"step": 1936000
	},
	{
	"epoch": 8.19,
	"eval_loss": 2.278593063354492,
	"eval_runtime": 248.7283,
	"eval_samples_per_second": 804.09,
	"eval_steps_per_second": 50.256,
	"step": 1944000
	},
	{
	"epoch": 8.22,
	"learning_rate": 7.653333333333333e-08,
	"loss": 2.4209,
	"step": 1952000
	},
	{
	"epoch": 8.22,
	"eval_loss": 2.2763326168060303,
	"eval_runtime": 247.5692,
	"eval_samples_per_second": 807.855,
	"eval_steps_per_second": 50.491,
	"step": 1952000
	},
	{
	"epoch": 8.25,
	"eval_loss": 2.278881072998047,
	"eval_runtime": 247.8151,
	"eval_samples_per_second": 807.053,
	"eval_steps_per_second": 50.441,
	"step": 1960000
	},
	{
	"epoch": 8.29,
	"learning_rate": 7.38e-08,
	"loss": 2.4217,
	"step": 1968000
	},
	{
	"epoch": 8.29,
	"eval_loss": 2.2783920764923096,
	"eval_runtime": 248.9593,
	"eval_samples_per_second": 803.344,
	"eval_steps_per_second": 50.209,
	"step": 1968000
	},
	{
	"epoch": 8.32,
	"eval_loss": 2.2773079872131348,
	"eval_runtime": 247.6818,
	"eval_samples_per_second": 807.488,
	"eval_steps_per_second": 50.468,
	"step": 1976000
	},
	{
	"epoch": 8.35,
	"learning_rate": 7.106666666666667e-08,
	"loss": 2.4279,
	"step": 1984000
	},
	{
	"epoch": 8.35,
	"eval_loss": 2.286058187484741,
	"eval_runtime": 247.013,
	"eval_samples_per_second": 809.674,
	"eval_steps_per_second": 50.605,
	"step": 1984000
	},
	{
	"epoch": 8.39,
	"eval_loss": 2.2728214263916016,
	"eval_runtime": 247.152,
	"eval_samples_per_second": 809.219,
	"eval_steps_per_second": 50.576,
	"step": 1992000
	},
	{
	"epoch": 8.42,
	"learning_rate": 6.833333333333332e-08,
	"loss": 2.4268,
	"step": 2000000
	},
	{
	"epoch": 8.42,
	"eval_loss": 2.276221513748169,
	"eval_runtime": 247.3718,
	"eval_samples_per_second": 808.5,
	"eval_steps_per_second": 50.531,
	"step": 2000000
	},
	{
	"epoch": 8.45,
	"eval_loss": 2.2788944244384766,
	"eval_runtime": 247.8322,
	"eval_samples_per_second": 806.998,
	"eval_steps_per_second": 50.437,
	"step": 2008000
	},
	{
	"epoch": 8.49,
	"learning_rate": 6.56e-08,
	"loss": 2.4177,
	"step": 2016000
	},
	{
	"epoch": 8.49,
	"eval_loss": 2.282210350036621,
	"eval_runtime": 247.9565,
	"eval_samples_per_second": 806.593,
	"eval_steps_per_second": 50.412,
	"step": 2016000
	},
	{
	"epoch": 8.52,
	"eval_loss": 2.275873899459839,
	"eval_runtime": 247.5408,
	"eval_samples_per_second": 807.948,
	"eval_steps_per_second": 50.497,
	"step": 2024000
	},
	{
	"epoch": 8.56,
	"learning_rate": 6.286666666666666e-08,
	"loss": 2.4166,
	"step": 2032000
	},
	{
	"epoch": 8.56,
	"eval_loss": 2.2791593074798584,
	"eval_runtime": 248.9215,
	"eval_samples_per_second": 803.466,
	"eval_steps_per_second": 50.217,
	"step": 2032000
	},
	{
	"epoch": 8.59,
	"eval_loss": 2.272076368331909,
	"eval_runtime": 248.0422,
	"eval_samples_per_second": 806.315,
	"eval_steps_per_second": 50.395,
	"step": 2040000
	},
	{
	"epoch": 8.62,
	"learning_rate": 6.013333333333333e-08,
	"loss": 2.4223,
	"step": 2048000
	},
	{
	"epoch": 8.62,
	"eval_loss": 2.2768054008483887,
	"eval_runtime": 247.9612,
	"eval_samples_per_second": 806.578,
	"eval_steps_per_second": 50.411,
	"step": 2048000
	},
	{
	"epoch": 8.66,
	"eval_loss": 2.2726008892059326,
	"eval_runtime": 247.7176,
	"eval_samples_per_second": 807.371,
	"eval_steps_per_second": 50.461,
	"step": 2056000
	},
	{
	"epoch": 8.69,
	"learning_rate": 5.7400000000000004e-08,
	"loss": 2.4139,
	"step": 2064000
	},
	{
	"epoch": 8.69,
	"eval_loss": 2.282505512237549,
	"eval_runtime": 247.6026,
	"eval_samples_per_second": 807.746,
	"eval_steps_per_second": 50.484,
	"step": 2064000
	},
	{
	"epoch": 8.72,
	"eval_loss": 2.2738897800445557,
	"eval_runtime": 248.4813,
	"eval_samples_per_second": 804.89,
	"eval_steps_per_second": 50.306,
	"step": 2072000
	},
	{
	"epoch": 8.76,
	"learning_rate": 5.4666666666666666e-08,
	"loss": 2.4236,
	"step": 2080000
	},
	{
	"epoch": 8.76,
	"eval_loss": 2.2834410667419434,
	"eval_runtime": 248.3802,
	"eval_samples_per_second": 805.217,
	"eval_steps_per_second": 50.326,
	"step": 2080000
	},
	{
	"epoch": 8.79,
	"eval_loss": 2.2750093936920166,
	"eval_runtime": 247.5076,
	"eval_samples_per_second": 808.056,
	"eval_steps_per_second": 50.503,
	"step": 2088000
	},
	{
	"epoch": 8.83,
	"learning_rate": 5.1933333333333335e-08,
	"loss": 2.4235,
	"step": 2096000
	},
	{
	"epoch": 8.83,
	"eval_loss": 2.275216817855835,
	"eval_runtime": 248.1106,
	"eval_samples_per_second": 806.092,
	"eval_steps_per_second": 50.381,
	"step": 2096000
	},
	{
	"epoch": 8.86,
	"eval_loss": 2.28031587600708,
	"eval_runtime": 247.6614,
	"eval_samples_per_second": 807.554,
	"eval_steps_per_second": 50.472,
	"step": 2104000
	},
	{
	"epoch": 8.89,
	"learning_rate": 4.92e-08,
	"loss": 2.4193,
	"step": 2112000
	},
	{
	"epoch": 8.89,
	"eval_loss": 2.2762908935546875,
	"eval_runtime": 247.8319,
	"eval_samples_per_second": 806.999,
	"eval_steps_per_second": 50.437,
	"step": 2112000
	},
	{
	"epoch": 8.93,
	"eval_loss": 2.2754592895507812,
	"eval_runtime": 247.5134,
	"eval_samples_per_second": 808.037,
	"eval_steps_per_second": 50.502,
	"step": 2120000
	},
	{
	"epoch": 8.96,
	"learning_rate": 4.6466666666666666e-08,
	"loss": 2.4179,
	"step": 2128000
	},
	{
	"epoch": 8.96,
	"eval_loss": 2.279421091079712,
	"eval_runtime": 248.0477,
	"eval_samples_per_second": 806.297,
	"eval_steps_per_second": 50.394,
	"step": 2128000
	},
	{
	"epoch": 8.99,
	"eval_loss": 2.2710611820220947,
	"eval_runtime": 247.3731,
	"eval_samples_per_second": 808.495,
	"eval_steps_per_second": 50.531,
	"step": 2136000
	},
	{
	"epoch": 9.03,
	"learning_rate": 4.3733333333333335e-08,
	"loss": 2.4181,
	"step": 2144000
	},
	{
	"epoch": 9.03,
	"eval_loss": 2.279233932495117,
	"eval_runtime": 248.7527,
	"eval_samples_per_second": 804.011,
	"eval_steps_per_second": 50.251,
	"step": 2144000
	},
	{
	"epoch": 9.06,
	"eval_loss": 2.275193691253662,
	"eval_runtime": 248.241,
	"eval_samples_per_second": 805.669,
	"eval_steps_per_second": 50.354,
	"step": 2152000
	},
	{
	"epoch": 9.09,
	"learning_rate": 4.1e-08,
	"loss": 2.4173,
	"step": 2160000
	},
	{
	"epoch": 9.09,
	"eval_loss": 2.2775352001190186,
	"eval_runtime": 248.2377,
	"eval_samples_per_second": 805.679,
	"eval_steps_per_second": 50.355,
	"step": 2160000
	},
	{
	"epoch": 9.13,
	"eval_loss": 2.2751924991607666,
	"eval_runtime": 248.4267,
	"eval_samples_per_second": 805.066,
	"eval_steps_per_second": 50.317,
	"step": 2168000
	},
	{
	"epoch": 9.16,
	"learning_rate": 3.8266666666666665e-08,
	"loss": 2.4242,
	"step": 2176000
	},
	{
	"epoch": 9.16,
	"eval_loss": 2.272923469543457,
	"eval_runtime": 248.2584,
	"eval_samples_per_second": 805.612,
	"eval_steps_per_second": 50.351,
	"step": 2176000
	},
	{
	"epoch": 9.2,
	"eval_loss": 2.2793116569519043,
	"eval_runtime": 248.8342,
	"eval_samples_per_second": 803.748,
	"eval_steps_per_second": 50.234,
	"step": 2184000
	},
	{
	"epoch": 9.23,
	"learning_rate": 3.5533333333333334e-08,
	"loss": 2.4166,
	"step": 2192000
	},
	{
	"epoch": 9.23,
	"eval_loss": 2.2719197273254395,
	"eval_runtime": 249.6006,
	"eval_samples_per_second": 801.28,
	"eval_steps_per_second": 50.08,
	"step": 2192000
	},
	{
	"epoch": 9.26,
	"eval_loss": 2.281975507736206,
	"eval_runtime": 248.1074,
	"eval_samples_per_second": 806.103,
	"eval_steps_per_second": 50.381,
	"step": 2200000
	},
	{
	"epoch": 9.3,
	"learning_rate": 3.28e-08,
	"loss": 2.4181,
	"step": 2208000
	},
	{
	"epoch": 9.3,
	"eval_loss": 2.2715933322906494,
	"eval_runtime": 249.4343,
	"eval_samples_per_second": 801.814,
	"eval_steps_per_second": 50.113,
	"step": 2208000
	},
	{
	"epoch": 9.33,
	"eval_loss": 2.285536050796509,
	"eval_runtime": 250.2462,
	"eval_samples_per_second": 799.213,
	"eval_steps_per_second": 49.951,
	"step": 2216000
	},
	{
	"epoch": 9.36,
	"learning_rate": 3.0066666666666665e-08,
	"loss": 2.4245,
	"step": 2224000
	},
	{
	"epoch": 9.36,
	"eval_loss": 2.2805118560791016,
	"eval_runtime": 248.8621,
	"eval_samples_per_second": 803.658,
	"eval_steps_per_second": 50.229,
	"step": 2224000
	},
	{
	"epoch": 9.4,
	"eval_loss": 2.272109270095825,
	"eval_runtime": 250.3664,
	"eval_samples_per_second": 798.829,
	"eval_steps_per_second": 49.927,
	"step": 2232000
	},
	{
	"epoch": 9.43,
	"learning_rate": 2.7333333333333333e-08,
	"loss": 2.4204,
	"step": 2240000
	},
	{
	"epoch": 9.43,
	"eval_loss": 2.270662546157837,
	"eval_runtime": 248.4336,
	"eval_samples_per_second": 805.044,
	"eval_steps_per_second": 50.315,
	"step": 2240000
	},
	{
	"epoch": 9.47,
	"eval_loss": 2.2766847610473633,
	"eval_runtime": 248.6132,
	"eval_samples_per_second": 804.462,
	"eval_steps_per_second": 50.279,
	"step": 2248000
	},
	{
	"epoch": 9.5,
	"learning_rate": 2.46e-08,
	"loss": 2.4255,
	"step": 2256000
	},
	{
	"epoch": 9.5,
	"eval_loss": 2.2710325717926025,
	"eval_runtime": 248.6879,
	"eval_samples_per_second": 804.221,
	"eval_steps_per_second": 50.264,
	"step": 2256000
	},
	{
	"epoch": 9.53,
	"eval_loss": 2.2814137935638428,
	"eval_runtime": 249.0563,
	"eval_samples_per_second": 803.031,
	"eval_steps_per_second": 50.189,
	"step": 2264000
	},
	{
	"epoch": 9.57,
	"learning_rate": 2.1866666666666667e-08,
	"loss": 2.4254,
	"step": 2272000
	},
	{
	"epoch": 9.57,
	"eval_loss": 2.274559259414673,
	"eval_runtime": 249.1887,
	"eval_samples_per_second": 802.605,
	"eval_steps_per_second": 50.163,
	"step": 2272000
	},
	{
	"epoch": 9.6,
	"eval_loss": 2.2766289710998535,
	"eval_runtime": 248.6168,
	"eval_samples_per_second": 804.451,
	"eval_steps_per_second": 50.278,
	"step": 2280000
	},
	{
	"epoch": 9.63,
	"learning_rate": 1.9133333333333333e-08,
	"loss": 2.4232,
	"step": 2288000
	},
	{
	"epoch": 9.63,
	"eval_loss": 2.2724950313568115,
	"eval_runtime": 248.9678,
	"eval_samples_per_second": 803.317,
	"eval_steps_per_second": 50.207,
	"step": 2288000
	},
	{
	"epoch": 9.67,
	"eval_loss": 2.2764828205108643,
	"eval_runtime": 248.7636,
	"eval_samples_per_second": 803.976,
	"eval_steps_per_second": 50.249,
	"step": 2296000
	},
	{
	"epoch": 9.7,
	"learning_rate": 1.64e-08,
	"loss": 2.4189,
	"step": 2304000
	},
	{
	"epoch": 9.7,
	"eval_loss": 2.275614023208618,
	"eval_runtime": 249.9482,
	"eval_samples_per_second": 800.166,
	"eval_steps_per_second": 50.01,
	"step": 2304000
	},
	{
	"epoch": 9.73,
	"eval_loss": 2.2767763137817383,
	"eval_runtime": 248.8725,
	"eval_samples_per_second": 803.624,
	"eval_steps_per_second": 50.227,
	"step": 2312000
	},
	{
	"epoch": 9.77,
	"learning_rate": 1.3666666666666667e-08,
	"loss": 2.4105,
	"step": 2320000
	},
	{
	"epoch": 9.77,
	"eval_loss": 2.280364751815796,
	"eval_runtime": 248.8287,
	"eval_samples_per_second": 803.766,
	"eval_steps_per_second": 50.235,
	"step": 2320000
	},
	{
	"epoch": 9.8,
	"eval_loss": 2.2873153686523438,
	"eval_runtime": 248.9747,
	"eval_samples_per_second": 803.295,
	"eval_steps_per_second": 50.206,
	"step": 2328000
	},
	{
	"epoch": 9.84,
	"learning_rate": 1.0933333333333334e-08,
	"loss": 2.415,
	"step": 2336000
	},
	{
	"epoch": 9.84,
	"eval_loss": 2.278338670730591,
	"eval_runtime": 248.9743,
	"eval_samples_per_second": 803.296,
	"eval_steps_per_second": 50.206,
	"step": 2336000
	},
	{
	"epoch": 9.87,
	"eval_loss": 2.2737488746643066,
	"eval_runtime": 250.6409,
	"eval_samples_per_second": 797.954,
	"eval_steps_per_second": 49.872,
	"step": 2344000
	},
	{
	"epoch": 9.9,
	"learning_rate": 8.2e-09,
	"loss": 2.4174,
	"step": 2352000
	},
	{
	"epoch": 9.9,
	"eval_loss": 2.278608798980713,
	"eval_runtime": 251.8413,
	"eval_samples_per_second": 794.151,
	"eval_steps_per_second": 49.634,
	"step": 2352000
	},
	{
	"epoch": 9.94,
	"eval_loss": 2.2729651927948,
	"eval_runtime": 250.8498,
	"eval_samples_per_second": 797.29,
	"eval_steps_per_second": 49.831,
	"step": 2360000
	},
	{
	"epoch": 9.97,
	"learning_rate": 5.466666666666667e-09,
	"loss": 2.4199,
	"step": 2368000
	},
	{
	"epoch": 9.97,
	"eval_loss": 2.2793538570404053,
	"eval_runtime": 253.8866,
	"eval_samples_per_second": 787.753,
	"eval_steps_per_second": 49.235,
	"step": 2368000
	},
	{
	"epoch": 10.0,
	"eval_loss": 2.284799337387085,
	"eval_runtime": 252.1889,
	"eval_samples_per_second": 793.056,
	"eval_steps_per_second": 49.566,
	"step": 2376000
	},
	{
	"epoch": 10.04,
	"learning_rate": 2.7333333333333334e-09,
	"loss": 2.4224,
	"step": 2384000
	},
	{
	"epoch": 10.04,
	"eval_loss": 2.2810616493225098,
	"eval_runtime": 251.6013,
	"eval_samples_per_second": 794.909,
	"eval_steps_per_second": 49.682,
	"step": 2384000
	},
	{
	"epoch": 10.07,
	"eval_loss": 2.281796932220459,
	"eval_runtime": 251.0825,
	"eval_samples_per_second": 796.551,
	"eval_steps_per_second": 49.784,
	"step": 2392000
	},
	{
	"epoch": 10.11,
	"learning_rate": 0.0,
	"loss": 2.4226,
	"step": 2400000
	},
	{
	"epoch": 10.11,
	"eval_loss": 2.279843330383301,
	"eval_runtime": 250.0989,
	"eval_samples_per_second": 799.684,
	"eval_steps_per_second": 49.98,
	"step": 2400000
	},
	{
	"epoch": 10.11,
	"step": 2400000,
	"total_flos": 8.368611666112401e+17,
	"train_loss": 2.4345372688802085,
	"train_runtime": 232385.3236,
	"train_samples_per_second": 165.243,
	"train_steps_per_second": 10.328
	}
	],
	"logging_steps": 16000,
	"max_steps": 2400000,
	"num_train_epochs": 11,
	"save_steps": 32000,
	"total_flos": 8.368611666112401e+17,
	"trial_name": null,
	"trial_params": null
	}