2020-Q4-50p-filtered-random / trainer_state.json

End of training

545012d verified 9 months ago

80.8 kB

	{
	"best_metric": 2.2555091381073,
	"best_model_checkpoint": "./model_tweets_2020_Q4_50/checkpoint-1888000",
	"epoch": 10.105220609597433,
	"eval_steps": 8000,
	"global_step": 2400000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"eval_loss": 2.5887866020202637,
	"eval_runtime": 216.7175,
	"eval_samples_per_second": 922.861,
	"eval_steps_per_second": 57.679,
	"step": 8000
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.0726666666666665e-07,
	"loss": 2.8176,
	"step": 16000
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.4814112186431885,
	"eval_runtime": 217.5699,
	"eval_samples_per_second": 919.245,
	"eval_steps_per_second": 57.453,
	"step": 16000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.4264183044433594,
	"eval_runtime": 216.8809,
	"eval_samples_per_second": 922.165,
	"eval_steps_per_second": 57.635,
	"step": 24000
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.0453333333333336e-07,
	"loss": 2.5609,
	"step": 32000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.399319648742676,
	"eval_runtime": 217.2097,
	"eval_samples_per_second": 920.769,
	"eval_steps_per_second": 57.548,
	"step": 32000
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.3761138916015625,
	"eval_runtime": 216.9751,
	"eval_samples_per_second": 921.765,
	"eval_steps_per_second": 57.61,
	"step": 40000
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.018e-07,
	"loss": 2.4969,
	"step": 48000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.36236834526062,
	"eval_runtime": 216.8241,
	"eval_samples_per_second": 922.407,
	"eval_steps_per_second": 57.65,
	"step": 48000
	},
	{
	"epoch": 0.24,
	"eval_loss": 2.3481316566467285,
	"eval_runtime": 216.9521,
	"eval_samples_per_second": 921.863,
	"eval_steps_per_second": 57.616,
	"step": 56000
	},
	{
	"epoch": 0.27,
	"learning_rate": 3.9906666666666667e-07,
	"loss": 2.48,
	"step": 64000
	},
	{
	"epoch": 0.27,
	"eval_loss": 2.3399147987365723,
	"eval_runtime": 219.158,
	"eval_samples_per_second": 912.584,
	"eval_steps_per_second": 57.036,
	"step": 64000
	},
	{
	"epoch": 0.3,
	"eval_loss": 2.328866481781006,
	"eval_runtime": 219.1421,
	"eval_samples_per_second": 912.65,
	"eval_steps_per_second": 57.041,
	"step": 72000
	},
	{
	"epoch": 0.34,
	"learning_rate": 3.963333333333333e-07,
	"loss": 2.451,
	"step": 80000
	},
	{
	"epoch": 0.34,
	"eval_loss": 2.32210111618042,
	"eval_runtime": 218.0716,
	"eval_samples_per_second": 917.13,
	"eval_steps_per_second": 57.321,
	"step": 80000
	},
	{
	"epoch": 0.37,
	"eval_loss": 2.3182730674743652,
	"eval_runtime": 218.3195,
	"eval_samples_per_second": 916.089,
	"eval_steps_per_second": 57.256,
	"step": 88000
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.936e-07,
	"loss": 2.4367,
	"step": 96000
	},
	{
	"epoch": 0.4,
	"eval_loss": 2.322084903717041,
	"eval_runtime": 217.4065,
	"eval_samples_per_second": 919.936,
	"eval_steps_per_second": 57.496,
	"step": 96000
	},
	{
	"epoch": 0.44,
	"eval_loss": 2.314160108566284,
	"eval_runtime": 217.8202,
	"eval_samples_per_second": 918.188,
	"eval_steps_per_second": 57.387,
	"step": 104000
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.908666666666667e-07,
	"loss": 2.4388,
	"step": 112000
	},
	{
	"epoch": 0.47,
	"eval_loss": 2.3028244972229004,
	"eval_runtime": 217.5405,
	"eval_samples_per_second": 919.369,
	"eval_steps_per_second": 57.461,
	"step": 112000
	},
	{
	"epoch": 0.51,
	"eval_loss": 2.306605577468872,
	"eval_runtime": 218.1044,
	"eval_samples_per_second": 916.992,
	"eval_steps_per_second": 57.312,
	"step": 120000
	},
	{
	"epoch": 0.54,
	"learning_rate": 3.8813333333333334e-07,
	"loss": 2.4215,
	"step": 128000
	},
	{
	"epoch": 0.54,
	"eval_loss": 2.301295042037964,
	"eval_runtime": 218.4251,
	"eval_samples_per_second": 915.646,
	"eval_steps_per_second": 57.228,
	"step": 128000
	},
	{
	"epoch": 0.57,
	"eval_loss": 2.3038744926452637,
	"eval_runtime": 218.8722,
	"eval_samples_per_second": 913.775,
	"eval_steps_per_second": 57.111,
	"step": 136000
	},
	{
	"epoch": 0.61,
	"learning_rate": 3.854e-07,
	"loss": 2.4178,
	"step": 144000
	},
	{
	"epoch": 0.61,
	"eval_loss": 2.290666103363037,
	"eval_runtime": 218.3099,
	"eval_samples_per_second": 916.129,
	"eval_steps_per_second": 57.258,
	"step": 144000
	},
	{
	"epoch": 0.64,
	"eval_loss": 2.2995846271514893,
	"eval_runtime": 220.1216,
	"eval_samples_per_second": 908.589,
	"eval_steps_per_second": 56.787,
	"step": 152000
	},
	{
	"epoch": 0.67,
	"learning_rate": 3.8266666666666665e-07,
	"loss": 2.4103,
	"step": 160000
	},
	{
	"epoch": 0.67,
	"eval_loss": 2.2943038940429688,
	"eval_runtime": 218.0389,
	"eval_samples_per_second": 917.268,
	"eval_steps_per_second": 57.329,
	"step": 160000
	},
	{
	"epoch": 0.71,
	"eval_loss": 2.2900478839874268,
	"eval_runtime": 218.1701,
	"eval_samples_per_second": 916.716,
	"eval_steps_per_second": 57.295,
	"step": 168000
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.799333333333333e-07,
	"loss": 2.4122,
	"step": 176000
	},
	{
	"epoch": 0.74,
	"eval_loss": 2.29017972946167,
	"eval_runtime": 218.4455,
	"eval_samples_per_second": 915.56,
	"eval_steps_per_second": 57.223,
	"step": 176000
	},
	{
	"epoch": 0.77,
	"eval_loss": 2.296131134033203,
	"eval_runtime": 219.9191,
	"eval_samples_per_second": 909.425,
	"eval_steps_per_second": 56.839,
	"step": 184000
	},
	{
	"epoch": 0.81,
	"learning_rate": 3.772e-07,
	"loss": 2.4173,
	"step": 192000
	},
	{
	"epoch": 0.81,
	"eval_loss": 2.2905569076538086,
	"eval_runtime": 218.1432,
	"eval_samples_per_second": 916.829,
	"eval_steps_per_second": 57.302,
	"step": 192000
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.292479991912842,
	"eval_runtime": 220.4219,
	"eval_samples_per_second": 907.351,
	"eval_steps_per_second": 56.709,
	"step": 200000
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.7446666666666667e-07,
	"loss": 2.4067,
	"step": 208000
	},
	{
	"epoch": 0.88,
	"eval_loss": 2.291149854660034,
	"eval_runtime": 217.8176,
	"eval_samples_per_second": 918.2,
	"eval_steps_per_second": 57.387,
	"step": 208000
	},
	{
	"epoch": 0.91,
	"eval_loss": 2.2843503952026367,
	"eval_runtime": 219.0777,
	"eval_samples_per_second": 912.918,
	"eval_steps_per_second": 57.057,
	"step": 216000
	},
	{
	"epoch": 0.94,
	"learning_rate": 3.7173333333333333e-07,
	"loss": 2.4059,
	"step": 224000
	},
	{
	"epoch": 0.94,
	"eval_loss": 2.285491704940796,
	"eval_runtime": 218.3509,
	"eval_samples_per_second": 915.957,
	"eval_steps_per_second": 57.247,
	"step": 224000
	},
	{
	"epoch": 0.98,
	"eval_loss": 2.2811498641967773,
	"eval_runtime": 218.6393,
	"eval_samples_per_second": 914.748,
	"eval_steps_per_second": 57.172,
	"step": 232000
	},
	{
	"epoch": 1.01,
	"learning_rate": 3.69e-07,
	"loss": 2.4089,
	"step": 240000
	},
	{
	"epoch": 1.01,
	"eval_loss": 2.278843641281128,
	"eval_runtime": 220.6049,
	"eval_samples_per_second": 906.598,
	"eval_steps_per_second": 56.662,
	"step": 240000
	},
	{
	"epoch": 1.04,
	"eval_loss": 2.2795870304107666,
	"eval_runtime": 219.0559,
	"eval_samples_per_second": 913.009,
	"eval_steps_per_second": 57.063,
	"step": 248000
	},
	{
	"epoch": 1.08,
	"learning_rate": 3.6626666666666664e-07,
	"loss": 2.4034,
	"step": 256000
	},
	{
	"epoch": 1.08,
	"eval_loss": 2.2827401161193848,
	"eval_runtime": 218.7125,
	"eval_samples_per_second": 914.443,
	"eval_steps_per_second": 57.153,
	"step": 256000
	},
	{
	"epoch": 1.11,
	"eval_loss": 2.2802786827087402,
	"eval_runtime": 219.2099,
	"eval_samples_per_second": 912.367,
	"eval_steps_per_second": 57.023,
	"step": 264000
	},
	{
	"epoch": 1.15,
	"learning_rate": 3.6353333333333335e-07,
	"loss": 2.408,
	"step": 272000
	},
	{
	"epoch": 1.15,
	"eval_loss": 2.274564743041992,
	"eval_runtime": 219.6977,
	"eval_samples_per_second": 910.342,
	"eval_steps_per_second": 56.896,
	"step": 272000
	},
	{
	"epoch": 1.18,
	"eval_loss": 2.2851319313049316,
	"eval_runtime": 218.0645,
	"eval_samples_per_second": 917.16,
	"eval_steps_per_second": 57.322,
	"step": 280000
	},
	{
	"epoch": 1.21,
	"learning_rate": 3.608e-07,
	"loss": 2.3985,
	"step": 288000
	},
	{
	"epoch": 1.21,
	"eval_loss": 2.278090715408325,
	"eval_runtime": 218.0657,
	"eval_samples_per_second": 917.155,
	"eval_steps_per_second": 57.322,
	"step": 288000
	},
	{
	"epoch": 1.25,
	"eval_loss": 2.2795450687408447,
	"eval_runtime": 218.2597,
	"eval_samples_per_second": 916.34,
	"eval_steps_per_second": 57.271,
	"step": 296000
	},
	{
	"epoch": 1.28,
	"learning_rate": 3.5806666666666666e-07,
	"loss": 2.4009,
	"step": 304000
	},
	{
	"epoch": 1.28,
	"eval_loss": 2.2776622772216797,
	"eval_runtime": 219.2647,
	"eval_samples_per_second": 912.139,
	"eval_steps_per_second": 57.009,
	"step": 304000
	},
	{
	"epoch": 1.31,
	"eval_loss": 2.277045965194702,
	"eval_runtime": 219.5251,
	"eval_samples_per_second": 911.058,
	"eval_steps_per_second": 56.941,
	"step": 312000
	},
	{
	"epoch": 1.35,
	"learning_rate": 3.553333333333333e-07,
	"loss": 2.4017,
	"step": 320000
	},
	{
	"epoch": 1.35,
	"eval_loss": 2.276277542114258,
	"eval_runtime": 219.8102,
	"eval_samples_per_second": 909.876,
	"eval_steps_per_second": 56.867,
	"step": 320000
	},
	{
	"epoch": 1.38,
	"eval_loss": 2.2734155654907227,
	"eval_runtime": 220.6191,
	"eval_samples_per_second": 906.54,
	"eval_steps_per_second": 56.659,
	"step": 328000
	},
	{
	"epoch": 1.41,
	"learning_rate": 3.5259999999999997e-07,
	"loss": 2.4056,
	"step": 336000
	},
	{
	"epoch": 1.41,
	"eval_loss": 2.2757761478424072,
	"eval_runtime": 221.6624,
	"eval_samples_per_second": 902.273,
	"eval_steps_per_second": 56.392,
	"step": 336000
	},
	{
	"epoch": 1.45,
	"eval_loss": 2.2763161659240723,
	"eval_runtime": 222.3238,
	"eval_samples_per_second": 899.589,
	"eval_steps_per_second": 56.224,
	"step": 344000
	},
	{
	"epoch": 1.48,
	"learning_rate": 3.498666666666667e-07,
	"loss": 2.4017,
	"step": 352000
	},
	{
	"epoch": 1.48,
	"eval_loss": 2.270019769668579,
	"eval_runtime": 220.8315,
	"eval_samples_per_second": 905.668,
	"eval_steps_per_second": 56.604,
	"step": 352000
	},
	{
	"epoch": 1.52,
	"eval_loss": 2.273576021194458,
	"eval_runtime": 220.9072,
	"eval_samples_per_second": 905.357,
	"eval_steps_per_second": 56.585,
	"step": 360000
	},
	{
	"epoch": 1.55,
	"learning_rate": 3.4713333333333333e-07,
	"loss": 2.3993,
	"step": 368000
	},
	{
	"epoch": 1.55,
	"eval_loss": 2.276346206665039,
	"eval_runtime": 219.9681,
	"eval_samples_per_second": 909.223,
	"eval_steps_per_second": 56.826,
	"step": 368000
	},
	{
	"epoch": 1.58,
	"eval_loss": 2.2792067527770996,
	"eval_runtime": 222.5804,
	"eval_samples_per_second": 898.552,
	"eval_steps_per_second": 56.159,
	"step": 376000
	},
	{
	"epoch": 1.62,
	"learning_rate": 3.444e-07,
	"loss": 2.3994,
	"step": 384000
	},
	{
	"epoch": 1.62,
	"eval_loss": 2.2666120529174805,
	"eval_runtime": 219.905,
	"eval_samples_per_second": 909.484,
	"eval_steps_per_second": 56.843,
	"step": 384000
	},
	{
	"epoch": 1.65,
	"eval_loss": 2.269867181777954,
	"eval_runtime": 218.7838,
	"eval_samples_per_second": 914.144,
	"eval_steps_per_second": 57.134,
	"step": 392000
	},
	{
	"epoch": 1.68,
	"learning_rate": 3.416666666666667e-07,
	"loss": 2.3969,
	"step": 400000
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.2753376960754395,
	"eval_runtime": 218.9459,
	"eval_samples_per_second": 913.468,
	"eval_steps_per_second": 57.092,
	"step": 400000
	},
	{
	"epoch": 1.72,
	"eval_loss": 2.2707459926605225,
	"eval_runtime": 220.7386,
	"eval_samples_per_second": 906.049,
	"eval_steps_per_second": 56.628,
	"step": 408000
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.3893333333333335e-07,
	"loss": 2.4094,
	"step": 416000
	},
	{
	"epoch": 1.75,
	"eval_loss": 2.2730772495269775,
	"eval_runtime": 222.0881,
	"eval_samples_per_second": 900.544,
	"eval_steps_per_second": 56.284,
	"step": 416000
	},
	{
	"epoch": 1.79,
	"eval_loss": 2.2708933353424072,
	"eval_runtime": 220.3139,
	"eval_samples_per_second": 907.796,
	"eval_steps_per_second": 56.737,
	"step": 424000
	},
	{
	"epoch": 1.82,
	"learning_rate": 3.3619999999999995e-07,
	"loss": 2.4102,
	"step": 432000
	},
	{
	"epoch": 1.82,
	"eval_loss": 2.26228928565979,
	"eval_runtime": 220.0528,
	"eval_samples_per_second": 908.873,
	"eval_steps_per_second": 56.805,
	"step": 432000
	},
	{
	"epoch": 1.85,
	"eval_loss": 2.275142192840576,
	"eval_runtime": 220.7214,
	"eval_samples_per_second": 906.12,
	"eval_steps_per_second": 56.632,
	"step": 440000
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.3346666666666666e-07,
	"loss": 2.4042,
	"step": 448000
	},
	{
	"epoch": 1.89,
	"eval_loss": 2.2727537155151367,
	"eval_runtime": 221.6731,
	"eval_samples_per_second": 902.229,
	"eval_steps_per_second": 56.389,
	"step": 448000
	},
	{
	"epoch": 1.92,
	"eval_loss": 2.2713754177093506,
	"eval_runtime": 221.8045,
	"eval_samples_per_second": 901.695,
	"eval_steps_per_second": 56.356,
	"step": 456000
	},
	{
	"epoch": 1.95,
	"learning_rate": 3.307333333333333e-07,
	"loss": 2.3991,
	"step": 464000
	},
	{
	"epoch": 1.95,
	"eval_loss": 2.2634403705596924,
	"eval_runtime": 221.7619,
	"eval_samples_per_second": 901.868,
	"eval_steps_per_second": 56.367,
	"step": 464000
	},
	{
	"epoch": 1.99,
	"eval_loss": 2.269524574279785,
	"eval_runtime": 221.8231,
	"eval_samples_per_second": 901.619,
	"eval_steps_per_second": 56.351,
	"step": 472000
	},
	{
	"epoch": 2.02,
	"learning_rate": 3.28e-07,
	"loss": 2.3976,
	"step": 480000
	},
	{
	"epoch": 2.02,
	"eval_loss": 2.273146867752075,
	"eval_runtime": 224.0138,
	"eval_samples_per_second": 892.802,
	"eval_steps_per_second": 55.8,
	"step": 480000
	},
	{
	"epoch": 2.05,
	"eval_loss": 2.273585081100464,
	"eval_runtime": 221.4843,
	"eval_samples_per_second": 902.999,
	"eval_steps_per_second": 56.437,
	"step": 488000
	},
	{
	"epoch": 2.09,
	"learning_rate": 3.252666666666667e-07,
	"loss": 2.4019,
	"step": 496000
	},
	{
	"epoch": 2.09,
	"eval_loss": 2.2802646160125732,
	"eval_runtime": 221.6775,
	"eval_samples_per_second": 902.211,
	"eval_steps_per_second": 56.388,
	"step": 496000
	},
	{
	"epoch": 2.12,
	"eval_loss": 2.269887685775757,
	"eval_runtime": 221.3661,
	"eval_samples_per_second": 903.481,
	"eval_steps_per_second": 56.468,
	"step": 504000
	},
	{
	"epoch": 2.16,
	"learning_rate": 3.2253333333333334e-07,
	"loss": 2.4044,
	"step": 512000
	},
	{
	"epoch": 2.16,
	"eval_loss": 2.2731282711029053,
	"eval_runtime": 219.7787,
	"eval_samples_per_second": 910.006,
	"eval_steps_per_second": 56.875,
	"step": 512000
	},
	{
	"epoch": 2.19,
	"eval_loss": 2.270852565765381,
	"eval_runtime": 220.5634,
	"eval_samples_per_second": 906.769,
	"eval_steps_per_second": 56.673,
	"step": 520000
	},
	{
	"epoch": 2.22,
	"learning_rate": 3.198e-07,
	"loss": 2.3989,
	"step": 528000
	},
	{
	"epoch": 2.22,
	"eval_loss": 2.271571159362793,
	"eval_runtime": 219.4998,
	"eval_samples_per_second": 911.163,
	"eval_steps_per_second": 56.948,
	"step": 528000
	},
	{
	"epoch": 2.26,
	"eval_loss": 2.266845226287842,
	"eval_runtime": 220.9802,
	"eval_samples_per_second": 905.059,
	"eval_steps_per_second": 56.566,
	"step": 536000
	},
	{
	"epoch": 2.29,
	"learning_rate": 3.1706666666666665e-07,
	"loss": 2.4068,
	"step": 544000
	},
	{
	"epoch": 2.29,
	"eval_loss": 2.2728312015533447,
	"eval_runtime": 220.4691,
	"eval_samples_per_second": 907.157,
	"eval_steps_per_second": 56.697,
	"step": 544000
	},
	{
	"epoch": 2.32,
	"eval_loss": 2.270872116088867,
	"eval_runtime": 219.8484,
	"eval_samples_per_second": 909.718,
	"eval_steps_per_second": 56.857,
	"step": 552000
	},
	{
	"epoch": 2.36,
	"learning_rate": 3.1433333333333336e-07,
	"loss": 2.4047,
	"step": 560000
	},
	{
	"epoch": 2.36,
	"eval_loss": 2.2683322429656982,
	"eval_runtime": 220.4584,
	"eval_samples_per_second": 907.201,
	"eval_steps_per_second": 56.7,
	"step": 560000
	},
	{
	"epoch": 2.39,
	"eval_loss": 2.273055076599121,
	"eval_runtime": 221.0997,
	"eval_samples_per_second": 904.569,
	"eval_steps_per_second": 56.536,
	"step": 568000
	},
	{
	"epoch": 2.43,
	"learning_rate": 3.116e-07,
	"loss": 2.3976,
	"step": 576000
	},
	{
	"epoch": 2.43,
	"eval_loss": 2.2676217555999756,
	"eval_runtime": 220.0504,
	"eval_samples_per_second": 908.883,
	"eval_steps_per_second": 56.805,
	"step": 576000
	},
	{
	"epoch": 2.46,
	"eval_loss": 2.273590087890625,
	"eval_runtime": 220.4205,
	"eval_samples_per_second": 907.357,
	"eval_steps_per_second": 56.71,
	"step": 584000
	},
	{
	"epoch": 2.49,
	"learning_rate": 3.0886666666666667e-07,
	"loss": 2.3994,
	"step": 592000
	},
	{
	"epoch": 2.49,
	"eval_loss": 2.262376070022583,
	"eval_runtime": 220.1116,
	"eval_samples_per_second": 908.63,
	"eval_steps_per_second": 56.789,
	"step": 592000
	},
	{
	"epoch": 2.53,
	"eval_loss": 2.277287721633911,
	"eval_runtime": 219.7424,
	"eval_samples_per_second": 910.157,
	"eval_steps_per_second": 56.885,
	"step": 600000
	},
	{
	"epoch": 2.56,
	"learning_rate": 3.061333333333333e-07,
	"loss": 2.3997,
	"step": 608000
	},
	{
	"epoch": 2.56,
	"eval_loss": 2.271933078765869,
	"eval_runtime": 220.0867,
	"eval_samples_per_second": 908.733,
	"eval_steps_per_second": 56.796,
	"step": 608000
	},
	{
	"epoch": 2.59,
	"eval_loss": 2.2700679302215576,
	"eval_runtime": 219.9319,
	"eval_samples_per_second": 909.372,
	"eval_steps_per_second": 56.836,
	"step": 616000
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.034e-07,
	"loss": 2.4042,
	"step": 624000
	},
	{
	"epoch": 2.63,
	"eval_loss": 2.269540786743164,
	"eval_runtime": 219.4074,
	"eval_samples_per_second": 911.546,
	"eval_steps_per_second": 56.972,
	"step": 624000
	},
	{
	"epoch": 2.66,
	"eval_loss": 2.266604423522949,
	"eval_runtime": 219.9462,
	"eval_samples_per_second": 909.313,
	"eval_steps_per_second": 56.832,
	"step": 632000
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.0066666666666663e-07,
	"loss": 2.3994,
	"step": 640000
	},
	{
	"epoch": 2.69,
	"eval_loss": 2.2719104290008545,
	"eval_runtime": 220.2045,
	"eval_samples_per_second": 908.247,
	"eval_steps_per_second": 56.765,
	"step": 640000
	},
	{
	"epoch": 2.73,
	"eval_loss": 2.2686047554016113,
	"eval_runtime": 220.4578,
	"eval_samples_per_second": 907.203,
	"eval_steps_per_second": 56.7,
	"step": 648000
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.9793333333333334e-07,
	"loss": 2.3953,
	"step": 656000
	},
	{
	"epoch": 2.76,
	"eval_loss": 2.262254476547241,
	"eval_runtime": 221.498,
	"eval_samples_per_second": 902.943,
	"eval_steps_per_second": 56.434,
	"step": 656000
	},
	{
	"epoch": 2.8,
	"eval_loss": 2.2661547660827637,
	"eval_runtime": 221.6611,
	"eval_samples_per_second": 902.278,
	"eval_steps_per_second": 56.392,
	"step": 664000
	},
	{
	"epoch": 2.83,
	"learning_rate": 2.952e-07,
	"loss": 2.402,
	"step": 672000
	},
	{
	"epoch": 2.83,
	"eval_loss": 2.2706589698791504,
	"eval_runtime": 220.6441,
	"eval_samples_per_second": 906.437,
	"eval_steps_per_second": 56.652,
	"step": 672000
	},
	{
	"epoch": 2.86,
	"eval_loss": 2.2661819458007812,
	"eval_runtime": 220.8287,
	"eval_samples_per_second": 905.68,
	"eval_steps_per_second": 56.605,
	"step": 680000
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.9246666666666665e-07,
	"loss": 2.3929,
	"step": 688000
	},
	{
	"epoch": 2.9,
	"eval_loss": 2.272554397583008,
	"eval_runtime": 220.9902,
	"eval_samples_per_second": 905.018,
	"eval_steps_per_second": 56.564,
	"step": 688000
	},
	{
	"epoch": 2.93,
	"eval_loss": 2.2682108879089355,
	"eval_runtime": 222.033,
	"eval_samples_per_second": 900.767,
	"eval_steps_per_second": 56.298,
	"step": 696000
	},
	{
	"epoch": 2.96,
	"learning_rate": 2.897333333333333e-07,
	"loss": 2.3977,
	"step": 704000
	},
	{
	"epoch": 2.96,
	"eval_loss": 2.2633628845214844,
	"eval_runtime": 222.1182,
	"eval_samples_per_second": 900.421,
	"eval_steps_per_second": 56.276,
	"step": 704000
	},
	{
	"epoch": 3.0,
	"eval_loss": 2.268484115600586,
	"eval_runtime": 221.6773,
	"eval_samples_per_second": 902.212,
	"eval_steps_per_second": 56.388,
	"step": 712000
	},
	{
	"epoch": 3.03,
	"learning_rate": 2.8699999999999996e-07,
	"loss": 2.4022,
	"step": 720000
	},
	{
	"epoch": 3.03,
	"eval_loss": 2.269312858581543,
	"eval_runtime": 222.1528,
	"eval_samples_per_second": 900.281,
	"eval_steps_per_second": 56.268,
	"step": 720000
	},
	{
	"epoch": 3.07,
	"eval_loss": 2.2666163444519043,
	"eval_runtime": 222.1483,
	"eval_samples_per_second": 900.3,
	"eval_steps_per_second": 56.269,
	"step": 728000
	},
	{
	"epoch": 3.1,
	"learning_rate": 2.8426666666666667e-07,
	"loss": 2.4046,
	"step": 736000
	},
	{
	"epoch": 3.1,
	"eval_loss": 2.2689616680145264,
	"eval_runtime": 221.9037,
	"eval_samples_per_second": 901.292,
	"eval_steps_per_second": 56.331,
	"step": 736000
	},
	{
	"epoch": 3.13,
	"eval_loss": 2.264061212539673,
	"eval_runtime": 220.0575,
	"eval_samples_per_second": 908.853,
	"eval_steps_per_second": 56.803,
	"step": 744000
	},
	{
	"epoch": 3.17,
	"learning_rate": 2.815333333333333e-07,
	"loss": 2.3977,
	"step": 752000
	},
	{
	"epoch": 3.17,
	"eval_loss": 2.2657768726348877,
	"eval_runtime": 220.5638,
	"eval_samples_per_second": 906.767,
	"eval_steps_per_second": 56.673,
	"step": 752000
	},
	{
	"epoch": 3.2,
	"eval_loss": 2.2645480632781982,
	"eval_runtime": 220.3761,
	"eval_samples_per_second": 907.539,
	"eval_steps_per_second": 56.721,
	"step": 760000
	},
	{
	"epoch": 3.23,
	"learning_rate": 2.7880000000000003e-07,
	"loss": 2.4015,
	"step": 768000
	},
	{
	"epoch": 3.23,
	"eval_loss": 2.2619261741638184,
	"eval_runtime": 220.4749,
	"eval_samples_per_second": 907.133,
	"eval_steps_per_second": 56.696,
	"step": 768000
	},
	{
	"epoch": 3.27,
	"eval_loss": 2.2670981884002686,
	"eval_runtime": 220.7154,
	"eval_samples_per_second": 906.144,
	"eval_steps_per_second": 56.634,
	"step": 776000
	},
	{
	"epoch": 3.3,
	"learning_rate": 2.7606666666666664e-07,
	"loss": 2.393,
	"step": 784000
	},
	{
	"epoch": 3.3,
	"eval_loss": 2.269420862197876,
	"eval_runtime": 220.8088,
	"eval_samples_per_second": 905.761,
	"eval_steps_per_second": 56.61,
	"step": 784000
	},
	{
	"epoch": 3.33,
	"eval_loss": 2.2661561965942383,
	"eval_runtime": 221.1785,
	"eval_samples_per_second": 904.247,
	"eval_steps_per_second": 56.515,
	"step": 792000
	},
	{
	"epoch": 3.37,
	"learning_rate": 2.733333333333333e-07,
	"loss": 2.3907,
	"step": 800000
	},
	{
	"epoch": 3.37,
	"eval_loss": 2.269092321395874,
	"eval_runtime": 221.7626,
	"eval_samples_per_second": 901.866,
	"eval_steps_per_second": 56.367,
	"step": 800000
	},
	{
	"epoch": 3.4,
	"eval_loss": 2.267885684967041,
	"eval_runtime": 221.0272,
	"eval_samples_per_second": 904.866,
	"eval_steps_per_second": 56.554,
	"step": 808000
	},
	{
	"epoch": 3.44,
	"learning_rate": 2.706e-07,
	"loss": 2.3987,
	"step": 816000
	},
	{
	"epoch": 3.44,
	"eval_loss": 2.2688350677490234,
	"eval_runtime": 221.0596,
	"eval_samples_per_second": 904.733,
	"eval_steps_per_second": 56.546,
	"step": 816000
	},
	{
	"epoch": 3.47,
	"eval_loss": 2.2654759883880615,
	"eval_runtime": 221.5078,
	"eval_samples_per_second": 902.903,
	"eval_steps_per_second": 56.431,
	"step": 824000
	},
	{
	"epoch": 3.5,
	"learning_rate": 2.6786666666666666e-07,
	"loss": 2.4116,
	"step": 832000
	},
	{
	"epoch": 3.5,
	"eval_loss": 2.2667653560638428,
	"eval_runtime": 221.628,
	"eval_samples_per_second": 902.413,
	"eval_steps_per_second": 56.401,
	"step": 832000
	},
	{
	"epoch": 3.54,
	"eval_loss": 2.2675483226776123,
	"eval_runtime": 221.5303,
	"eval_samples_per_second": 902.811,
	"eval_steps_per_second": 56.426,
	"step": 840000
	},
	{
	"epoch": 3.57,
	"learning_rate": 2.651333333333333e-07,
	"loss": 2.3913,
	"step": 848000
	},
	{
	"epoch": 3.57,
	"eval_loss": 2.268878698348999,
	"eval_runtime": 221.2163,
	"eval_samples_per_second": 904.092,
	"eval_steps_per_second": 56.506,
	"step": 848000
	},
	{
	"epoch": 3.6,
	"eval_loss": 2.264200448989868,
	"eval_runtime": 221.433,
	"eval_samples_per_second": 903.208,
	"eval_steps_per_second": 56.45,
	"step": 856000
	},
	{
	"epoch": 3.64,
	"learning_rate": 2.624e-07,
	"loss": 2.3974,
	"step": 864000
	},
	{
	"epoch": 3.64,
	"eval_loss": 2.266655683517456,
	"eval_runtime": 221.8397,
	"eval_samples_per_second": 901.552,
	"eval_steps_per_second": 56.347,
	"step": 864000
	},
	{
	"epoch": 3.67,
	"eval_loss": 2.2716777324676514,
	"eval_runtime": 221.8664,
	"eval_samples_per_second": 901.443,
	"eval_steps_per_second": 56.34,
	"step": 872000
	},
	{
	"epoch": 3.71,
	"learning_rate": 2.596666666666667e-07,
	"loss": 2.4046,
	"step": 880000
	},
	{
	"epoch": 3.71,
	"eval_loss": 2.2660932540893555,
	"eval_runtime": 222.07,
	"eval_samples_per_second": 900.617,
	"eval_steps_per_second": 56.289,
	"step": 880000
	},
	{
	"epoch": 3.74,
	"eval_loss": 2.2704615592956543,
	"eval_runtime": 222.1781,
	"eval_samples_per_second": 900.179,
	"eval_steps_per_second": 56.261,
	"step": 888000
	},
	{
	"epoch": 3.77,
	"learning_rate": 2.5693333333333333e-07,
	"loss": 2.4006,
	"step": 896000
	},
	{
	"epoch": 3.77,
	"eval_loss": 2.2636570930480957,
	"eval_runtime": 222.1854,
	"eval_samples_per_second": 900.149,
	"eval_steps_per_second": 56.259,
	"step": 896000
	},
	{
	"epoch": 3.81,
	"eval_loss": 2.2635083198547363,
	"eval_runtime": 221.5878,
	"eval_samples_per_second": 902.577,
	"eval_steps_per_second": 56.411,
	"step": 904000
	},
	{
	"epoch": 3.84,
	"learning_rate": 2.542e-07,
	"loss": 2.3987,
	"step": 912000
	},
	{
	"epoch": 3.84,
	"eval_loss": 2.2642478942871094,
	"eval_runtime": 222.1466,
	"eval_samples_per_second": 900.307,
	"eval_steps_per_second": 56.269,
	"step": 912000
	},
	{
	"epoch": 3.87,
	"eval_loss": 2.2691242694854736,
	"eval_runtime": 223.1322,
	"eval_samples_per_second": 896.329,
	"eval_steps_per_second": 56.021,
	"step": 920000
	},
	{
	"epoch": 3.91,
	"learning_rate": 2.5146666666666664e-07,
	"loss": 2.4068,
	"step": 928000
	},
	{
	"epoch": 3.91,
	"eval_loss": 2.2689340114593506,
	"eval_runtime": 221.9213,
	"eval_samples_per_second": 901.221,
	"eval_steps_per_second": 56.326,
	"step": 928000
	},
	{
	"epoch": 3.94,
	"eval_loss": 2.273003101348877,
	"eval_runtime": 222.4938,
	"eval_samples_per_second": 898.901,
	"eval_steps_per_second": 56.181,
	"step": 936000
	},
	{
	"epoch": 3.97,
	"learning_rate": 2.4873333333333335e-07,
	"loss": 2.4092,
	"step": 944000
	},
	{
	"epoch": 3.97,
	"eval_loss": 2.264439821243286,
	"eval_runtime": 222.2034,
	"eval_samples_per_second": 900.076,
	"eval_steps_per_second": 56.255,
	"step": 944000
	},
	{
	"epoch": 4.01,
	"eval_loss": 2.2705814838409424,
	"eval_runtime": 222.2217,
	"eval_samples_per_second": 900.002,
	"eval_steps_per_second": 56.25,
	"step": 952000
	},
	{
	"epoch": 4.04,
	"learning_rate": 2.46e-07,
	"loss": 2.4035,
	"step": 960000
	},
	{
	"epoch": 4.04,
	"eval_loss": 2.2671456336975098,
	"eval_runtime": 222.4973,
	"eval_samples_per_second": 898.887,
	"eval_steps_per_second": 56.18,
	"step": 960000
	},
	{
	"epoch": 4.08,
	"eval_loss": 2.2561941146850586,
	"eval_runtime": 223.5368,
	"eval_samples_per_second": 894.707,
	"eval_steps_per_second": 55.919,
	"step": 968000
	},
	{
	"epoch": 4.11,
	"learning_rate": 2.4326666666666666e-07,
	"loss": 2.4005,
	"step": 976000
	},
	{
	"epoch": 4.11,
	"eval_loss": 2.2622148990631104,
	"eval_runtime": 223.9417,
	"eval_samples_per_second": 893.09,
	"eval_steps_per_second": 55.818,
	"step": 976000
	},
	{
	"epoch": 4.14,
	"eval_loss": 2.2642323970794678,
	"eval_runtime": 223.503,
	"eval_samples_per_second": 894.843,
	"eval_steps_per_second": 55.928,
	"step": 984000
	},
	{
	"epoch": 4.18,
	"learning_rate": 2.405333333333333e-07,
	"loss": 2.406,
	"step": 992000
	},
	{
	"epoch": 4.18,
	"eval_loss": 2.2624897956848145,
	"eval_runtime": 222.524,
	"eval_samples_per_second": 898.78,
	"eval_steps_per_second": 56.174,
	"step": 992000
	},
	{
	"epoch": 4.21,
	"eval_loss": 2.2661561965942383,
	"eval_runtime": 222.2451,
	"eval_samples_per_second": 899.907,
	"eval_steps_per_second": 56.244,
	"step": 1000000
	},
	{
	"epoch": 4.24,
	"learning_rate": 2.3779999999999997e-07,
	"loss": 2.3972,
	"step": 1008000
	},
	{
	"epoch": 4.24,
	"eval_loss": 2.2657644748687744,
	"eval_runtime": 222.766,
	"eval_samples_per_second": 897.803,
	"eval_steps_per_second": 56.113,
	"step": 1008000
	},
	{
	"epoch": 4.28,
	"eval_loss": 2.266777753829956,
	"eval_runtime": 222.8713,
	"eval_samples_per_second": 897.379,
	"eval_steps_per_second": 56.086,
	"step": 1016000
	},
	{
	"epoch": 4.31,
	"learning_rate": 2.3506666666666668e-07,
	"loss": 2.3937,
	"step": 1024000
	},
	{
	"epoch": 4.31,
	"eval_loss": 2.2593226432800293,
	"eval_runtime": 222.3904,
	"eval_samples_per_second": 899.319,
	"eval_steps_per_second": 56.207,
	"step": 1024000
	},
	{
	"epoch": 4.35,
	"eval_loss": 2.271193027496338,
	"eval_runtime": 223.0366,
	"eval_samples_per_second": 896.714,
	"eval_steps_per_second": 56.045,
	"step": 1032000
	},
	{
	"epoch": 4.38,
	"learning_rate": 2.3233333333333334e-07,
	"loss": 2.3982,
	"step": 1040000
	},
	{
	"epoch": 4.38,
	"eval_loss": 2.2694575786590576,
	"eval_runtime": 222.864,
	"eval_samples_per_second": 897.408,
	"eval_steps_per_second": 56.088,
	"step": 1040000
	},
	{
	"epoch": 4.41,
	"eval_loss": 2.2683589458465576,
	"eval_runtime": 222.5301,
	"eval_samples_per_second": 898.755,
	"eval_steps_per_second": 56.172,
	"step": 1048000
	},
	{
	"epoch": 4.45,
	"learning_rate": 2.2960000000000002e-07,
	"loss": 2.4034,
	"step": 1056000
	},
	{
	"epoch": 4.45,
	"eval_loss": 2.264348268508911,
	"eval_runtime": 223.8718,
	"eval_samples_per_second": 893.368,
	"eval_steps_per_second": 55.836,
	"step": 1056000
	},
	{
	"epoch": 4.48,
	"eval_loss": 2.2664988040924072,
	"eval_runtime": 222.6269,
	"eval_samples_per_second": 898.364,
	"eval_steps_per_second": 56.148,
	"step": 1064000
	},
	{
	"epoch": 4.51,
	"learning_rate": 2.2686666666666667e-07,
	"loss": 2.3996,
	"step": 1072000
	},
	{
	"epoch": 4.51,
	"eval_loss": 2.269209861755371,
	"eval_runtime": 222.9129,
	"eval_samples_per_second": 897.211,
	"eval_steps_per_second": 56.076,
	"step": 1072000
	},
	{
	"epoch": 4.55,
	"eval_loss": 2.262779474258423,
	"eval_runtime": 223.2712,
	"eval_samples_per_second": 895.772,
	"eval_steps_per_second": 55.986,
	"step": 1080000
	},
	{
	"epoch": 4.58,
	"learning_rate": 2.2413333333333333e-07,
	"loss": 2.4054,
	"step": 1088000
	},
	{
	"epoch": 4.58,
	"eval_loss": 2.2673189640045166,
	"eval_runtime": 222.9981,
	"eval_samples_per_second": 896.868,
	"eval_steps_per_second": 56.054,
	"step": 1088000
	},
	{
	"epoch": 4.61,
	"eval_loss": 2.257735252380371,
	"eval_runtime": 222.7368,
	"eval_samples_per_second": 897.921,
	"eval_steps_per_second": 56.12,
	"step": 1096000
	},
	{
	"epoch": 4.65,
	"learning_rate": 2.214e-07,
	"loss": 2.4039,
	"step": 1104000
	},
	{
	"epoch": 4.65,
	"eval_loss": 2.2671241760253906,
	"eval_runtime": 222.5791,
	"eval_samples_per_second": 898.557,
	"eval_steps_per_second": 56.16,
	"step": 1104000
	},
	{
	"epoch": 4.68,
	"eval_loss": 2.2585532665252686,
	"eval_runtime": 223.9638,
	"eval_samples_per_second": 893.002,
	"eval_steps_per_second": 55.813,
	"step": 1112000
	},
	{
	"epoch": 4.72,
	"learning_rate": 2.1866666666666667e-07,
	"loss": 2.4033,
	"step": 1120000
	},
	{
	"epoch": 4.72,
	"eval_loss": 2.273033380508423,
	"eval_runtime": 222.5415,
	"eval_samples_per_second": 898.709,
	"eval_steps_per_second": 56.169,
	"step": 1120000
	},
	{
	"epoch": 4.75,
	"eval_loss": 2.265512228012085,
	"eval_runtime": 223.5172,
	"eval_samples_per_second": 894.786,
	"eval_steps_per_second": 55.924,
	"step": 1128000
	},
	{
	"epoch": 4.78,
	"learning_rate": 2.1593333333333332e-07,
	"loss": 2.4036,
	"step": 1136000
	},
	{
	"epoch": 4.78,
	"eval_loss": 2.2693560123443604,
	"eval_runtime": 223.6735,
	"eval_samples_per_second": 894.16,
	"eval_steps_per_second": 55.885,
	"step": 1136000
	},
	{
	"epoch": 4.82,
	"eval_loss": 2.262967586517334,
	"eval_runtime": 223.3051,
	"eval_samples_per_second": 895.636,
	"eval_steps_per_second": 55.977,
	"step": 1144000
	},
	{
	"epoch": 4.85,
	"learning_rate": 2.132e-07,
	"loss": 2.4036,
	"step": 1152000
	},
	{
	"epoch": 4.85,
	"eval_loss": 2.2618250846862793,
	"eval_runtime": 223.3316,
	"eval_samples_per_second": 895.53,
	"eval_steps_per_second": 55.971,
	"step": 1152000
	},
	{
	"epoch": 4.88,
	"eval_loss": 2.2664525508880615,
	"eval_runtime": 223.7674,
	"eval_samples_per_second": 893.785,
	"eval_steps_per_second": 55.862,
	"step": 1160000
	},
	{
	"epoch": 4.92,
	"learning_rate": 2.1046666666666666e-07,
	"loss": 2.4005,
	"step": 1168000
	},
	{
	"epoch": 4.92,
	"eval_loss": 2.260852098464966,
	"eval_runtime": 223.4125,
	"eval_samples_per_second": 895.205,
	"eval_steps_per_second": 55.95,
	"step": 1168000
	},
	{
	"epoch": 4.95,
	"eval_loss": 2.2616682052612305,
	"eval_runtime": 223.5697,
	"eval_samples_per_second": 894.575,
	"eval_steps_per_second": 55.911,
	"step": 1176000
	},
	{
	"epoch": 4.99,
	"learning_rate": 2.0773333333333334e-07,
	"loss": 2.4065,
	"step": 1184000
	},
	{
	"epoch": 4.99,
	"eval_loss": 2.2646331787109375,
	"eval_runtime": 223.403,
	"eval_samples_per_second": 895.243,
	"eval_steps_per_second": 55.953,
	"step": 1184000
	},
	{
	"epoch": 5.02,
	"eval_loss": 2.2605783939361572,
	"eval_runtime": 224.1683,
	"eval_samples_per_second": 892.187,
	"eval_steps_per_second": 55.762,
	"step": 1192000
	},
	{
	"epoch": 5.05,
	"learning_rate": 2.05e-07,
	"loss": 2.4044,
	"step": 1200000
	},
	{
	"epoch": 5.05,
	"eval_loss": 2.265641450881958,
	"eval_runtime": 223.3231,
	"eval_samples_per_second": 895.563,
	"eval_steps_per_second": 55.973,
	"step": 1200000
	},
	{
	"epoch": 5.09,
	"eval_loss": 2.2630460262298584,
	"eval_runtime": 223.3094,
	"eval_samples_per_second": 895.619,
	"eval_steps_per_second": 55.976,
	"step": 1208000
	},
	{
	"epoch": 5.12,
	"learning_rate": 2.0226666666666668e-07,
	"loss": 2.3997,
	"step": 1216000
	},
	{
	"epoch": 5.12,
	"eval_loss": 2.273655414581299,
	"eval_runtime": 223.5116,
	"eval_samples_per_second": 894.808,
	"eval_steps_per_second": 55.926,
	"step": 1216000
	},
	{
	"epoch": 5.15,
	"eval_loss": 2.2762105464935303,
	"eval_runtime": 223.4158,
	"eval_samples_per_second": 895.192,
	"eval_steps_per_second": 55.949,
	"step": 1224000
	},
	{
	"epoch": 5.19,
	"learning_rate": 1.9953333333333333e-07,
	"loss": 2.407,
	"step": 1232000
	},
	{
	"epoch": 5.19,
	"eval_loss": 2.266941785812378,
	"eval_runtime": 224.5804,
	"eval_samples_per_second": 890.55,
	"eval_steps_per_second": 55.659,
	"step": 1232000
	},
	{
	"epoch": 5.22,
	"eval_loss": 2.2694592475891113,
	"eval_runtime": 223.4055,
	"eval_samples_per_second": 895.233,
	"eval_steps_per_second": 55.952,
	"step": 1240000
	},
	{
	"epoch": 5.25,
	"learning_rate": 1.968e-07,
	"loss": 2.4013,
	"step": 1248000
	},
	{
	"epoch": 5.25,
	"eval_loss": 2.2704169750213623,
	"eval_runtime": 223.2939,
	"eval_samples_per_second": 895.681,
	"eval_steps_per_second": 55.98,
	"step": 1248000
	},
	{
	"epoch": 5.29,
	"eval_loss": 2.2612156867980957,
	"eval_runtime": 226.3055,
	"eval_samples_per_second": 883.761,
	"eval_steps_per_second": 55.235,
	"step": 1256000
	},
	{
	"epoch": 5.32,
	"learning_rate": 1.9406666666666667e-07,
	"loss": 2.4118,
	"step": 1264000
	},
	{
	"epoch": 5.32,
	"eval_loss": 2.2653887271881104,
	"eval_runtime": 225.9762,
	"eval_samples_per_second": 885.049,
	"eval_steps_per_second": 55.316,
	"step": 1264000
	},
	{
	"epoch": 5.36,
	"eval_loss": 2.268294095993042,
	"eval_runtime": 224.2422,
	"eval_samples_per_second": 891.893,
	"eval_steps_per_second": 55.743,
	"step": 1272000
	},
	{
	"epoch": 5.39,
	"learning_rate": 1.9133333333333333e-07,
	"loss": 2.3953,
	"step": 1280000
	},
	{
	"epoch": 5.39,
	"eval_loss": 2.262761116027832,
	"eval_runtime": 226.4697,
	"eval_samples_per_second": 883.12,
	"eval_steps_per_second": 55.195,
	"step": 1280000
	},
	{
	"epoch": 5.42,
	"eval_loss": 2.260498523712158,
	"eval_runtime": 226.1386,
	"eval_samples_per_second": 884.413,
	"eval_steps_per_second": 55.276,
	"step": 1288000
	},
	{
	"epoch": 5.46,
	"learning_rate": 1.886e-07,
	"loss": 2.3973,
	"step": 1296000
	},
	{
	"epoch": 5.46,
	"eval_loss": 2.2666938304901123,
	"eval_runtime": 224.5257,
	"eval_samples_per_second": 890.767,
	"eval_steps_per_second": 55.673,
	"step": 1296000
	},
	{
	"epoch": 5.49,
	"eval_loss": 2.2640185356140137,
	"eval_runtime": 225.0478,
	"eval_samples_per_second": 888.7,
	"eval_steps_per_second": 55.544,
	"step": 1304000
	},
	{
	"epoch": 5.52,
	"learning_rate": 1.8586666666666666e-07,
	"loss": 2.4027,
	"step": 1312000
	},
	{
	"epoch": 5.52,
	"eval_loss": 2.2619457244873047,
	"eval_runtime": 225.0768,
	"eval_samples_per_second": 888.585,
	"eval_steps_per_second": 55.537,
	"step": 1312000
	},
	{
	"epoch": 5.56,
	"eval_loss": 2.268733501434326,
	"eval_runtime": 225.2893,
	"eval_samples_per_second": 887.748,
	"eval_steps_per_second": 55.484,
	"step": 1320000
	},
	{
	"epoch": 5.59,
	"learning_rate": 1.8313333333333332e-07,
	"loss": 2.3967,
	"step": 1328000
	},
	{
	"epoch": 5.59,
	"eval_loss": 2.2597830295562744,
	"eval_runtime": 226.5788,
	"eval_samples_per_second": 882.695,
	"eval_steps_per_second": 55.168,
	"step": 1328000
	},
	{
	"epoch": 5.63,
	"eval_loss": 2.2620811462402344,
	"eval_runtime": 225.5192,
	"eval_samples_per_second": 886.843,
	"eval_steps_per_second": 55.428,
	"step": 1336000
	},
	{
	"epoch": 5.66,
	"learning_rate": 1.804e-07,
	"loss": 2.4028,
	"step": 1344000
	},
	{
	"epoch": 5.66,
	"eval_loss": 2.260154962539673,
	"eval_runtime": 224.8281,
	"eval_samples_per_second": 889.568,
	"eval_steps_per_second": 55.598,
	"step": 1344000
	},
	{
	"epoch": 5.69,
	"eval_loss": 2.27129864692688,
	"eval_runtime": 224.9298,
	"eval_samples_per_second": 889.166,
	"eval_steps_per_second": 55.573,
	"step": 1352000
	},
	{
	"epoch": 5.73,
	"learning_rate": 1.7766666666666666e-07,
	"loss": 2.4053,
	"step": 1360000
	},
	{
	"epoch": 5.73,
	"eval_loss": 2.262296676635742,
	"eval_runtime": 224.3709,
	"eval_samples_per_second": 891.381,
	"eval_steps_per_second": 55.711,
	"step": 1360000
	},
	{
	"epoch": 5.76,
	"eval_loss": 2.269651174545288,
	"eval_runtime": 224.6103,
	"eval_samples_per_second": 890.431,
	"eval_steps_per_second": 55.652,
	"step": 1368000
	},
	{
	"epoch": 5.79,
	"learning_rate": 1.7493333333333334e-07,
	"loss": 2.3987,
	"step": 1376000
	},
	{
	"epoch": 5.79,
	"eval_loss": 2.2638049125671387,
	"eval_runtime": 226.2602,
	"eval_samples_per_second": 883.938,
	"eval_steps_per_second": 55.246,
	"step": 1376000
	},
	{
	"epoch": 5.83,
	"eval_loss": 2.260105848312378,
	"eval_runtime": 225.6939,
	"eval_samples_per_second": 886.156,
	"eval_steps_per_second": 55.385,
	"step": 1384000
	},
	{
	"epoch": 5.86,
	"learning_rate": 1.722e-07,
	"loss": 2.3987,
	"step": 1392000
	},
	{
	"epoch": 5.86,
	"eval_loss": 2.2642433643341064,
	"eval_runtime": 226.9293,
	"eval_samples_per_second": 881.332,
	"eval_steps_per_second": 55.083,
	"step": 1392000
	},
	{
	"epoch": 5.89,
	"eval_loss": 2.2656021118164062,
	"eval_runtime": 225.2151,
	"eval_samples_per_second": 888.04,
	"eval_steps_per_second": 55.503,
	"step": 1400000
	},
	{
	"epoch": 5.93,
	"learning_rate": 1.6946666666666668e-07,
	"loss": 2.401,
	"step": 1408000
	},
	{
	"epoch": 5.93,
	"eval_loss": 2.271221160888672,
	"eval_runtime": 225.0802,
	"eval_samples_per_second": 888.572,
	"eval_steps_per_second": 55.536,
	"step": 1408000
	},
	{
	"epoch": 5.96,
	"eval_loss": 2.263915538787842,
	"eval_runtime": 226.0165,
	"eval_samples_per_second": 884.891,
	"eval_steps_per_second": 55.306,
	"step": 1416000
	},
	{
	"epoch": 6.0,
	"learning_rate": 1.6673333333333333e-07,
	"loss": 2.4011,
	"step": 1424000
	},
	{
	"epoch": 6.0,
	"eval_loss": 2.264575719833374,
	"eval_runtime": 225.8969,
	"eval_samples_per_second": 885.36,
	"eval_steps_per_second": 55.335,
	"step": 1424000
	},
	{
	"epoch": 6.03,
	"eval_loss": 2.2668521404266357,
	"eval_runtime": 225.9347,
	"eval_samples_per_second": 885.212,
	"eval_steps_per_second": 55.326,
	"step": 1432000
	},
	{
	"epoch": 6.06,
	"learning_rate": 1.64e-07,
	"loss": 2.4022,
	"step": 1440000
	},
	{
	"epoch": 6.06,
	"eval_loss": 2.2619283199310303,
	"eval_runtime": 226.3334,
	"eval_samples_per_second": 883.652,
	"eval_steps_per_second": 55.228,
	"step": 1440000
	},
	{
	"epoch": 6.1,
	"eval_loss": 2.2580013275146484,
	"eval_runtime": 224.9472,
	"eval_samples_per_second": 889.098,
	"eval_steps_per_second": 55.569,
	"step": 1448000
	},
	{
	"epoch": 6.13,
	"learning_rate": 1.6126666666666667e-07,
	"loss": 2.3998,
	"step": 1456000
	},
	{
	"epoch": 6.13,
	"eval_loss": 2.261179208755493,
	"eval_runtime": 224.7075,
	"eval_samples_per_second": 890.046,
	"eval_steps_per_second": 55.628,
	"step": 1456000
	},
	{
	"epoch": 6.16,
	"eval_loss": 2.265193223953247,
	"eval_runtime": 224.7843,
	"eval_samples_per_second": 889.742,
	"eval_steps_per_second": 55.609,
	"step": 1464000
	},
	{
	"epoch": 6.2,
	"learning_rate": 1.5853333333333332e-07,
	"loss": 2.3999,
	"step": 1472000
	},
	{
	"epoch": 6.2,
	"eval_loss": 2.261007070541382,
	"eval_runtime": 224.9598,
	"eval_samples_per_second": 889.048,
	"eval_steps_per_second": 55.565,
	"step": 1472000
	},
	{
	"epoch": 6.23,
	"eval_loss": 2.2566797733306885,
	"eval_runtime": 225.9016,
	"eval_samples_per_second": 885.341,
	"eval_steps_per_second": 55.334,
	"step": 1480000
	},
	{
	"epoch": 6.27,
	"learning_rate": 1.558e-07,
	"loss": 2.3984,
	"step": 1488000
	},
	{
	"epoch": 6.27,
	"eval_loss": 2.258964776992798,
	"eval_runtime": 225.206,
	"eval_samples_per_second": 888.076,
	"eval_steps_per_second": 55.505,
	"step": 1488000
	},
	{
	"epoch": 6.3,
	"eval_loss": 2.2564964294433594,
	"eval_runtime": 224.6663,
	"eval_samples_per_second": 890.209,
	"eval_steps_per_second": 55.638,
	"step": 1496000
	},
	{
	"epoch": 6.33,
	"learning_rate": 1.5306666666666666e-07,
	"loss": 2.4017,
	"step": 1504000
	},
	{
	"epoch": 6.33,
	"eval_loss": 2.26582932472229,
	"eval_runtime": 225.0873,
	"eval_samples_per_second": 888.544,
	"eval_steps_per_second": 55.534,
	"step": 1504000
	},
	{
	"epoch": 6.37,
	"eval_loss": 2.2625739574432373,
	"eval_runtime": 225.1271,
	"eval_samples_per_second": 888.387,
	"eval_steps_per_second": 55.524,
	"step": 1512000
	},
	{
	"epoch": 6.4,
	"learning_rate": 1.5033333333333332e-07,
	"loss": 2.4055,
	"step": 1520000
	},
	{
	"epoch": 6.4,
	"eval_loss": 2.2655694484710693,
	"eval_runtime": 225.1568,
	"eval_samples_per_second": 888.27,
	"eval_steps_per_second": 55.517,
	"step": 1520000
	},
	{
	"epoch": 6.43,
	"eval_loss": 2.262152910232544,
	"eval_runtime": 225.5421,
	"eval_samples_per_second": 886.752,
	"eval_steps_per_second": 55.422,
	"step": 1528000
	},
	{
	"epoch": 6.47,
	"learning_rate": 1.476e-07,
	"loss": 2.3959,
	"step": 1536000
	},
	{
	"epoch": 6.47,
	"eval_loss": 2.2691304683685303,
	"eval_runtime": 225.3681,
	"eval_samples_per_second": 887.437,
	"eval_steps_per_second": 55.465,
	"step": 1536000
	},
	{
	"epoch": 6.5,
	"eval_loss": 2.2604479789733887,
	"eval_runtime": 225.7386,
	"eval_samples_per_second": 885.981,
	"eval_steps_per_second": 55.374,
	"step": 1544000
	},
	{
	"epoch": 6.53,
	"learning_rate": 1.4486666666666665e-07,
	"loss": 2.4016,
	"step": 1552000
	},
	{
	"epoch": 6.53,
	"eval_loss": 2.2599384784698486,
	"eval_runtime": 224.9652,
	"eval_samples_per_second": 889.027,
	"eval_steps_per_second": 55.564,
	"step": 1552000
	},
	{
	"epoch": 6.57,
	"eval_loss": 2.265510082244873,
	"eval_runtime": 225.2586,
	"eval_samples_per_second": 887.869,
	"eval_steps_per_second": 55.492,
	"step": 1560000
	},
	{
	"epoch": 6.6,
	"learning_rate": 1.4213333333333334e-07,
	"loss": 2.3986,
	"step": 1568000
	},
	{
	"epoch": 6.6,
	"eval_loss": 2.2683568000793457,
	"eval_runtime": 225.0992,
	"eval_samples_per_second": 888.497,
	"eval_steps_per_second": 55.531,
	"step": 1568000
	},
	{
	"epoch": 6.64,
	"eval_loss": 2.271608352661133,
	"eval_runtime": 225.9171,
	"eval_samples_per_second": 885.28,
	"eval_steps_per_second": 55.33,
	"step": 1576000
	},
	{
	"epoch": 6.67,
	"learning_rate": 1.3940000000000002e-07,
	"loss": 2.4051,
	"step": 1584000
	},
	{
	"epoch": 6.67,
	"eval_loss": 2.2605140209198,
	"eval_runtime": 225.4,
	"eval_samples_per_second": 887.311,
	"eval_steps_per_second": 55.457,
	"step": 1584000
	},
	{
	"epoch": 6.7,
	"eval_loss": 2.256896734237671,
	"eval_runtime": 226.0831,
	"eval_samples_per_second": 884.63,
	"eval_steps_per_second": 55.289,
	"step": 1592000
	},
	{
	"epoch": 6.74,
	"learning_rate": 1.3666666666666665e-07,
	"loss": 2.4057,
	"step": 1600000
	},
	{
	"epoch": 6.74,
	"eval_loss": 2.26871657371521,
	"eval_runtime": 225.6937,
	"eval_samples_per_second": 886.157,
	"eval_steps_per_second": 55.385,
	"step": 1600000
	},
	{
	"epoch": 6.77,
	"eval_loss": 2.257054328918457,
	"eval_runtime": 226.7282,
	"eval_samples_per_second": 882.113,
	"eval_steps_per_second": 55.132,
	"step": 1608000
	},
	{
	"epoch": 6.8,
	"learning_rate": 1.3393333333333333e-07,
	"loss": 2.3956,
	"step": 1616000
	},
	{
	"epoch": 6.8,
	"eval_loss": 2.2663533687591553,
	"eval_runtime": 226.7887,
	"eval_samples_per_second": 881.878,
	"eval_steps_per_second": 55.117,
	"step": 1616000
	},
	{
	"epoch": 6.84,
	"eval_loss": 2.2612051963806152,
	"eval_runtime": 225.5095,
	"eval_samples_per_second": 886.88,
	"eval_steps_per_second": 55.43,
	"step": 1624000
	},
	{
	"epoch": 6.87,
	"learning_rate": 1.312e-07,
	"loss": 2.4048,
	"step": 1632000
	},
	{
	"epoch": 6.87,
	"eval_loss": 2.2642533779144287,
	"eval_runtime": 226.096,
	"eval_samples_per_second": 884.58,
	"eval_steps_per_second": 55.286,
	"step": 1632000
	},
	{
	"epoch": 6.91,
	"eval_loss": 2.263303279876709,
	"eval_runtime": 226.56,
	"eval_samples_per_second": 882.768,
	"eval_steps_per_second": 55.173,
	"step": 1640000
	},
	{
	"epoch": 6.94,
	"learning_rate": 1.2846666666666667e-07,
	"loss": 2.4042,
	"step": 1648000
	},
	{
	"epoch": 6.94,
	"eval_loss": 2.263399600982666,
	"eval_runtime": 226.7213,
	"eval_samples_per_second": 882.14,
	"eval_steps_per_second": 55.134,
	"step": 1648000
	},
	{
	"epoch": 6.97,
	"eval_loss": 2.263664484024048,
	"eval_runtime": 226.6084,
	"eval_samples_per_second": 882.58,
	"eval_steps_per_second": 55.161,
	"step": 1656000
	},
	{
	"epoch": 7.01,
	"learning_rate": 1.2573333333333332e-07,
	"loss": 2.4008,
	"step": 1664000
	},
	{
	"epoch": 7.01,
	"eval_loss": 2.261906623840332,
	"eval_runtime": 226.1236,
	"eval_samples_per_second": 884.472,
	"eval_steps_per_second": 55.28,
	"step": 1664000
	},
	{
	"epoch": 7.04,
	"eval_loss": 2.257910966873169,
	"eval_runtime": 226.922,
	"eval_samples_per_second": 881.36,
	"eval_steps_per_second": 55.085,
	"step": 1672000
	},
	{
	"epoch": 7.07,
	"learning_rate": 1.23e-07,
	"loss": 2.397,
	"step": 1680000
	},
	{
	"epoch": 7.07,
	"eval_loss": 2.2627782821655273,
	"eval_runtime": 226.807,
	"eval_samples_per_second": 881.807,
	"eval_steps_per_second": 55.113,
	"step": 1680000
	},
	{
	"epoch": 7.11,
	"eval_loss": 2.259258985519409,
	"eval_runtime": 226.2859,
	"eval_samples_per_second": 883.838,
	"eval_steps_per_second": 55.24,
	"step": 1688000
	},
	{
	"epoch": 7.14,
	"learning_rate": 1.2026666666666666e-07,
	"loss": 2.4044,
	"step": 1696000
	},
	{
	"epoch": 7.14,
	"eval_loss": 2.259258985519409,
	"eval_runtime": 226.2815,
	"eval_samples_per_second": 883.855,
	"eval_steps_per_second": 55.241,
	"step": 1696000
	},
	{
	"epoch": 7.17,
	"eval_loss": 2.2612924575805664,
	"eval_runtime": 226.2915,
	"eval_samples_per_second": 883.816,
	"eval_steps_per_second": 55.238,
	"step": 1704000
	},
	{
	"epoch": 7.21,
	"learning_rate": 1.1753333333333334e-07,
	"loss": 2.3979,
	"step": 1712000
	},
	{
	"epoch": 7.21,
	"eval_loss": 2.2685186862945557,
	"eval_runtime": 226.2415,
	"eval_samples_per_second": 884.011,
	"eval_steps_per_second": 55.251,
	"step": 1712000
	},
	{
	"epoch": 7.24,
	"eval_loss": 2.2682557106018066,
	"eval_runtime": 228.1808,
	"eval_samples_per_second": 876.498,
	"eval_steps_per_second": 54.781,
	"step": 1720000
	},
	{
	"epoch": 7.28,
	"learning_rate": 1.1480000000000001e-07,
	"loss": 2.4017,
	"step": 1728000
	},
	{
	"epoch": 7.28,
	"eval_loss": 2.2610981464385986,
	"eval_runtime": 227.0977,
	"eval_samples_per_second": 880.678,
	"eval_steps_per_second": 55.042,
	"step": 1728000
	},
	{
	"epoch": 7.31,
	"eval_loss": 2.26719069480896,
	"eval_runtime": 226.5466,
	"eval_samples_per_second": 882.82,
	"eval_steps_per_second": 55.176,
	"step": 1736000
	},
	{
	"epoch": 7.34,
	"learning_rate": 1.1206666666666666e-07,
	"loss": 2.4017,
	"step": 1744000
	},
	{
	"epoch": 7.34,
	"eval_loss": 2.257659912109375,
	"eval_runtime": 226.917,
	"eval_samples_per_second": 881.38,
	"eval_steps_per_second": 55.086,
	"step": 1744000
	},
	{
	"epoch": 7.38,
	"eval_loss": 2.260923385620117,
	"eval_runtime": 226.8147,
	"eval_samples_per_second": 881.777,
	"eval_steps_per_second": 55.111,
	"step": 1752000
	},
	{
	"epoch": 7.41,
	"learning_rate": 1.0933333333333333e-07,
	"loss": 2.4018,
	"step": 1760000
	},
	{
	"epoch": 7.41,
	"eval_loss": 2.2566895484924316,
	"eval_runtime": 227.0079,
	"eval_samples_per_second": 881.027,
	"eval_steps_per_second": 55.064,
	"step": 1760000
	},
	{
	"epoch": 7.44,
	"eval_loss": 2.2661075592041016,
	"eval_runtime": 227.2997,
	"eval_samples_per_second": 879.895,
	"eval_steps_per_second": 54.993,
	"step": 1768000
	},
	{
	"epoch": 7.48,
	"learning_rate": 1.066e-07,
	"loss": 2.3905,
	"step": 1776000
	},
	{
	"epoch": 7.48,
	"eval_loss": 2.267139196395874,
	"eval_runtime": 227.1381,
	"eval_samples_per_second": 880.521,
	"eval_steps_per_second": 55.033,
	"step": 1776000
	},
	{
	"epoch": 7.51,
	"eval_loss": 2.2662744522094727,
	"eval_runtime": 226.9973,
	"eval_samples_per_second": 881.068,
	"eval_steps_per_second": 55.067,
	"step": 1784000
	},
	{
	"epoch": 7.55,
	"learning_rate": 1.0386666666666667e-07,
	"loss": 2.4063,
	"step": 1792000
	},
	{
	"epoch": 7.55,
	"eval_loss": 2.2618532180786133,
	"eval_runtime": 226.687,
	"eval_samples_per_second": 882.274,
	"eval_steps_per_second": 55.142,
	"step": 1792000
	},
	{
	"epoch": 7.58,
	"eval_loss": 2.2586686611175537,
	"eval_runtime": 227.2446,
	"eval_samples_per_second": 880.109,
	"eval_steps_per_second": 55.007,
	"step": 1800000
	},
	{
	"epoch": 7.61,
	"learning_rate": 1.0113333333333334e-07,
	"loss": 2.4015,
	"step": 1808000
	},
	{
	"epoch": 7.61,
	"eval_loss": 2.258416175842285,
	"eval_runtime": 227.4785,
	"eval_samples_per_second": 879.204,
	"eval_steps_per_second": 54.95,
	"step": 1808000
	},
	{
	"epoch": 7.65,
	"eval_loss": 2.257967472076416,
	"eval_runtime": 227.6528,
	"eval_samples_per_second": 878.531,
	"eval_steps_per_second": 54.908,
	"step": 1816000
	},
	{
	"epoch": 7.68,
	"learning_rate": 9.84e-08,
	"loss": 2.3984,
	"step": 1824000
	},
	{
	"epoch": 7.68,
	"eval_loss": 2.258634328842163,
	"eval_runtime": 227.272,
	"eval_samples_per_second": 880.003,
	"eval_steps_per_second": 55.0,
	"step": 1824000
	},
	{
	"epoch": 7.71,
	"eval_loss": 2.2620370388031006,
	"eval_runtime": 228.1105,
	"eval_samples_per_second": 876.768,
	"eval_steps_per_second": 54.798,
	"step": 1832000
	},
	{
	"epoch": 7.75,
	"learning_rate": 9.566666666666666e-08,
	"loss": 2.3962,
	"step": 1840000
	},
	{
	"epoch": 7.75,
	"eval_loss": 2.258413553237915,
	"eval_runtime": 228.1193,
	"eval_samples_per_second": 876.734,
	"eval_steps_per_second": 54.796,
	"step": 1840000
	},
	{
	"epoch": 7.78,
	"eval_loss": 2.2606983184814453,
	"eval_runtime": 227.7783,
	"eval_samples_per_second": 878.047,
	"eval_steps_per_second": 54.878,
	"step": 1848000
	},
	{
	"epoch": 7.81,
	"learning_rate": 9.293333333333333e-08,
	"loss": 2.3998,
	"step": 1856000
	},
	{
	"epoch": 7.81,
	"eval_loss": 2.263800859451294,
	"eval_runtime": 228.4066,
	"eval_samples_per_second": 875.631,
	"eval_steps_per_second": 54.727,
	"step": 1856000
	},
	{
	"epoch": 7.85,
	"eval_loss": 2.2628862857818604,
	"eval_runtime": 227.703,
	"eval_samples_per_second": 878.337,
	"eval_steps_per_second": 54.896,
	"step": 1864000
	},
	{
	"epoch": 7.88,
	"learning_rate": 9.02e-08,
	"loss": 2.4005,
	"step": 1872000
	},
	{
	"epoch": 7.88,
	"eval_loss": 2.2716283798217773,
	"eval_runtime": 229.1031,
	"eval_samples_per_second": 872.969,
	"eval_steps_per_second": 54.561,
	"step": 1872000
	},
	{
	"epoch": 7.92,
	"eval_loss": 2.262329339981079,
	"eval_runtime": 228.2985,
	"eval_samples_per_second": 876.046,
	"eval_steps_per_second": 54.753,
	"step": 1880000
	},
	{
	"epoch": 7.95,
	"learning_rate": 8.746666666666667e-08,
	"loss": 2.4006,
	"step": 1888000
	},
	{
	"epoch": 7.95,
	"eval_loss": 2.2555091381073,
	"eval_runtime": 228.2221,
	"eval_samples_per_second": 876.339,
	"eval_steps_per_second": 54.771,
	"step": 1888000
	},
	{
	"epoch": 7.98,
	"eval_loss": 2.265327215194702,
	"eval_runtime": 228.2153,
	"eval_samples_per_second": 876.366,
	"eval_steps_per_second": 54.773,
	"step": 1896000
	},
	{
	"epoch": 8.02,
	"learning_rate": 8.473333333333334e-08,
	"loss": 2.3946,
	"step": 1904000
	},
	{
	"epoch": 8.02,
	"eval_loss": 2.2629194259643555,
	"eval_runtime": 228.8579,
	"eval_samples_per_second": 873.905,
	"eval_steps_per_second": 54.619,
	"step": 1904000
	},
	{
	"epoch": 8.05,
	"eval_loss": 2.2653591632843018,
	"eval_runtime": 228.8815,
	"eval_samples_per_second": 873.815,
	"eval_steps_per_second": 54.613,
	"step": 1912000
	},
	{
	"epoch": 8.08,
	"learning_rate": 8.2e-08,
	"loss": 2.3983,
	"step": 1920000
	},
	{
	"epoch": 8.08,
	"eval_loss": 2.2623238563537598,
	"eval_runtime": 228.0552,
	"eval_samples_per_second": 876.981,
	"eval_steps_per_second": 54.811,
	"step": 1920000
	},
	{
	"epoch": 8.12,
	"eval_loss": 2.2543911933898926,
	"eval_runtime": 228.5407,
	"eval_samples_per_second": 875.117,
	"eval_steps_per_second": 54.695,
	"step": 1928000
	},
	{
	"epoch": 8.15,
	"learning_rate": 7.926666666666666e-08,
	"loss": 2.4038,
	"step": 1936000
	},
	{
	"epoch": 8.15,
	"eval_loss": 2.2604944705963135,
	"eval_runtime": 228.827,
	"eval_samples_per_second": 874.023,
	"eval_steps_per_second": 54.626,
	"step": 1936000
	},
	{
	"epoch": 8.19,
	"eval_loss": 2.262247085571289,
	"eval_runtime": 228.9768,
	"eval_samples_per_second": 873.451,
	"eval_steps_per_second": 54.591,
	"step": 1944000
	},
	{
	"epoch": 8.22,
	"learning_rate": 7.653333333333333e-08,
	"loss": 2.399,
	"step": 1952000
	},
	{
	"epoch": 8.22,
	"eval_loss": 2.259986162185669,
	"eval_runtime": 229.2304,
	"eval_samples_per_second": 872.485,
	"eval_steps_per_second": 54.53,
	"step": 1952000
	},
	{
	"epoch": 8.25,
	"eval_loss": 2.262876510620117,
	"eval_runtime": 228.1951,
	"eval_samples_per_second": 876.443,
	"eval_steps_per_second": 54.778,
	"step": 1960000
	},
	{
	"epoch": 8.29,
	"learning_rate": 7.38e-08,
	"loss": 2.3983,
	"step": 1968000
	},
	{
	"epoch": 8.29,
	"eval_loss": 2.262101650238037,
	"eval_runtime": 228.0209,
	"eval_samples_per_second": 877.112,
	"eval_steps_per_second": 54.82,
	"step": 1968000
	},
	{
	"epoch": 8.32,
	"eval_loss": 2.260881185531616,
	"eval_runtime": 228.1689,
	"eval_samples_per_second": 876.544,
	"eval_steps_per_second": 54.784,
	"step": 1976000
	},
	{
	"epoch": 8.35,
	"learning_rate": 7.106666666666667e-08,
	"loss": 2.4059,
	"step": 1984000
	},
	{
	"epoch": 8.35,
	"eval_loss": 2.270512104034424,
	"eval_runtime": 227.7957,
	"eval_samples_per_second": 877.98,
	"eval_steps_per_second": 54.874,
	"step": 1984000
	},
	{
	"epoch": 8.39,
	"eval_loss": 2.257223129272461,
	"eval_runtime": 228.1846,
	"eval_samples_per_second": 876.483,
	"eval_steps_per_second": 54.78,
	"step": 1992000
	},
	{
	"epoch": 8.42,
	"learning_rate": 6.833333333333332e-08,
	"loss": 2.4058,
	"step": 2000000
	},
	{
	"epoch": 8.42,
	"eval_loss": 2.260244131088257,
	"eval_runtime": 229.4664,
	"eval_samples_per_second": 871.587,
	"eval_steps_per_second": 54.474,
	"step": 2000000
	},
	{
	"epoch": 8.45,
	"eval_loss": 2.262561798095703,
	"eval_runtime": 228.3318,
	"eval_samples_per_second": 875.918,
	"eval_steps_per_second": 54.745,
	"step": 2008000
	},
	{
	"epoch": 8.49,
	"learning_rate": 6.56e-08,
	"loss": 2.3954,
	"step": 2016000
	},
	{
	"epoch": 8.49,
	"eval_loss": 2.2668232917785645,
	"eval_runtime": 228.6362,
	"eval_samples_per_second": 874.752,
	"eval_steps_per_second": 54.672,
	"step": 2016000
	},
	{
	"epoch": 8.52,
	"eval_loss": 2.259946346282959,
	"eval_runtime": 229.6395,
	"eval_samples_per_second": 870.93,
	"eval_steps_per_second": 54.433,
	"step": 2024000
	},
	{
	"epoch": 8.56,
	"learning_rate": 6.286666666666666e-08,
	"loss": 2.3932,
	"step": 2032000
	},
	{
	"epoch": 8.56,
	"eval_loss": 2.2642552852630615,
	"eval_runtime": 229.5584,
	"eval_samples_per_second": 871.238,
	"eval_steps_per_second": 54.452,
	"step": 2032000
	},
	{
	"epoch": 8.59,
	"eval_loss": 2.2559218406677246,
	"eval_runtime": 229.3623,
	"eval_samples_per_second": 871.983,
	"eval_steps_per_second": 54.499,
	"step": 2040000
	},
	{
	"epoch": 8.62,
	"learning_rate": 6.013333333333333e-08,
	"loss": 2.4001,
	"step": 2048000
	},
	{
	"epoch": 8.62,
	"eval_loss": 2.2613954544067383,
	"eval_runtime": 229.5433,
	"eval_samples_per_second": 871.295,
	"eval_steps_per_second": 54.456,
	"step": 2048000
	},
	{
	"epoch": 8.66,
	"eval_loss": 2.257690191268921,
	"eval_runtime": 228.1881,
	"eval_samples_per_second": 876.47,
	"eval_steps_per_second": 54.779,
	"step": 2056000
	},
	{
	"epoch": 8.69,
	"learning_rate": 5.7400000000000004e-08,
	"loss": 2.3912,
	"step": 2064000
	},
	{
	"epoch": 8.69,
	"eval_loss": 2.2664942741394043,
	"eval_runtime": 227.8758,
	"eval_samples_per_second": 877.671,
	"eval_steps_per_second": 54.854,
	"step": 2064000
	},
	{
	"epoch": 8.72,
	"eval_loss": 2.2575674057006836,
	"eval_runtime": 228.9153,
	"eval_samples_per_second": 873.686,
	"eval_steps_per_second": 54.605,
	"step": 2072000
	},
	{
	"epoch": 8.76,
	"learning_rate": 5.4666666666666666e-08,
	"loss": 2.4015,
	"step": 2080000
	},
	{
	"epoch": 8.76,
	"eval_loss": 2.2671656608581543,
	"eval_runtime": 228.6924,
	"eval_samples_per_second": 874.537,
	"eval_steps_per_second": 54.659,
	"step": 2080000
	},
	{
	"epoch": 8.79,
	"eval_loss": 2.2598161697387695,
	"eval_runtime": 228.6829,
	"eval_samples_per_second": 874.573,
	"eval_steps_per_second": 54.661,
	"step": 2088000
	},
	{
	"epoch": 8.83,
	"learning_rate": 5.1933333333333335e-08,
	"loss": 2.4015,
	"step": 2096000
	},
	{
	"epoch": 8.83,
	"eval_loss": 2.2599310874938965,
	"eval_runtime": 228.7991,
	"eval_samples_per_second": 874.129,
	"eval_steps_per_second": 54.633,
	"step": 2096000
	},
	{
	"epoch": 8.86,
	"eval_loss": 2.264104127883911,
	"eval_runtime": 229.58,
	"eval_samples_per_second": 871.156,
	"eval_steps_per_second": 54.447,
	"step": 2104000
	},
	{
	"epoch": 8.89,
	"learning_rate": 4.92e-08,
	"loss": 2.399,
	"step": 2112000
	},
	{
	"epoch": 8.89,
	"eval_loss": 2.261198043823242,
	"eval_runtime": 229.3315,
	"eval_samples_per_second": 872.1,
	"eval_steps_per_second": 54.506,
	"step": 2112000
	},
	{
	"epoch": 8.93,
	"eval_loss": 2.2607319355010986,
	"eval_runtime": 228.6664,
	"eval_samples_per_second": 874.636,
	"eval_steps_per_second": 54.665,
	"step": 2120000
	},
	{
	"epoch": 8.96,
	"learning_rate": 4.6466666666666666e-08,
	"loss": 2.3963,
	"step": 2128000
	},
	{
	"epoch": 8.96,
	"eval_loss": 2.2632904052734375,
	"eval_runtime": 230.0677,
	"eval_samples_per_second": 869.309,
	"eval_steps_per_second": 54.332,
	"step": 2128000
	},
	{
	"epoch": 8.99,
	"eval_loss": 2.2566514015197754,
	"eval_runtime": 229.6181,
	"eval_samples_per_second": 871.012,
	"eval_steps_per_second": 54.438,
	"step": 2136000
	},
	{
	"epoch": 9.03,
	"learning_rate": 4.3733333333333335e-08,
	"loss": 2.3957,
	"step": 2144000
	},
	{
	"epoch": 9.03,
	"eval_loss": 2.262989044189453,
	"eval_runtime": 230.9515,
	"eval_samples_per_second": 865.983,
	"eval_steps_per_second": 54.124,
	"step": 2144000
	},
	{
	"epoch": 9.06,
	"eval_loss": 2.2597482204437256,
	"eval_runtime": 229.6566,
	"eval_samples_per_second": 870.865,
	"eval_steps_per_second": 54.429,
	"step": 2152000
	},
	{
	"epoch": 9.09,
	"learning_rate": 4.1e-08,
	"loss": 2.3943,
	"step": 2160000
	},
	{
	"epoch": 9.09,
	"eval_loss": 2.262383222579956,
	"eval_runtime": 229.6771,
	"eval_samples_per_second": 870.788,
	"eval_steps_per_second": 54.424,
	"step": 2160000
	},
	{
	"epoch": 9.13,
	"eval_loss": 2.2599358558654785,
	"eval_runtime": 229.4487,
	"eval_samples_per_second": 871.655,
	"eval_steps_per_second": 54.478,
	"step": 2168000
	},
	{
	"epoch": 9.16,
	"learning_rate": 3.8266666666666665e-08,
	"loss": 2.4025,
	"step": 2176000
	},
	{
	"epoch": 9.16,
	"eval_loss": 2.257822275161743,
	"eval_runtime": 228.6424,
	"eval_samples_per_second": 874.728,
	"eval_steps_per_second": 54.671,
	"step": 2176000
	},
	{
	"epoch": 9.2,
	"eval_loss": 2.263963222503662,
	"eval_runtime": 229.0818,
	"eval_samples_per_second": 873.051,
	"eval_steps_per_second": 54.566,
	"step": 2184000
	},
	{
	"epoch": 9.23,
	"learning_rate": 3.5533333333333334e-08,
	"loss": 2.3944,
	"step": 2192000
	},
	{
	"epoch": 9.23,
	"eval_loss": 2.256235361099243,
	"eval_runtime": 228.9818,
	"eval_samples_per_second": 873.432,
	"eval_steps_per_second": 54.589,
	"step": 2192000
	},
	{
	"epoch": 9.26,
	"eval_loss": 2.266007661819458,
	"eval_runtime": 228.4461,
	"eval_samples_per_second": 875.48,
	"eval_steps_per_second": 54.718,
	"step": 2200000
	},
	{
	"epoch": 9.3,
	"learning_rate": 3.28e-08,
	"loss": 2.3964,
	"step": 2208000
	},
	{
	"epoch": 9.3,
	"eval_loss": 2.255579948425293,
	"eval_runtime": 229.3027,
	"eval_samples_per_second": 872.21,
	"eval_steps_per_second": 54.513,
	"step": 2208000
	},
	{
	"epoch": 9.33,
	"eval_loss": 2.2696852684020996,
	"eval_runtime": 229.8697,
	"eval_samples_per_second": 870.058,
	"eval_steps_per_second": 54.379,
	"step": 2216000
	},
	{
	"epoch": 9.36,
	"learning_rate": 3.0066666666666665e-08,
	"loss": 2.4026,
	"step": 2224000
	},
	{
	"epoch": 9.36,
	"eval_loss": 2.2651665210723877,
	"eval_runtime": 228.8329,
	"eval_samples_per_second": 874.0,
	"eval_steps_per_second": 54.625,
	"step": 2224000
	},
	{
	"epoch": 9.4,
	"eval_loss": 2.257103681564331,
	"eval_runtime": 229.0441,
	"eval_samples_per_second": 873.194,
	"eval_steps_per_second": 54.575,
	"step": 2232000
	},
	{
	"epoch": 9.43,
	"learning_rate": 2.7333333333333333e-08,
	"loss": 2.398,
	"step": 2240000
	},
	{
	"epoch": 9.43,
	"eval_loss": 2.255521059036255,
	"eval_runtime": 229.5252,
	"eval_samples_per_second": 871.364,
	"eval_steps_per_second": 54.46,
	"step": 2240000
	},
	{
	"epoch": 9.47,
	"eval_loss": 2.260723829269409,
	"eval_runtime": 228.7063,
	"eval_samples_per_second": 874.484,
	"eval_steps_per_second": 54.655,
	"step": 2248000
	},
	{
	"epoch": 9.5,
	"learning_rate": 2.46e-08,
	"loss": 2.4038,
	"step": 2256000
	},
	{
	"epoch": 9.5,
	"eval_loss": 2.255791187286377,
	"eval_runtime": 230.3295,
	"eval_samples_per_second": 868.321,
	"eval_steps_per_second": 54.27,
	"step": 2256000
	},
	{
	"epoch": 9.53,
	"eval_loss": 2.266036033630371,
	"eval_runtime": 231.0768,
	"eval_samples_per_second": 865.513,
	"eval_steps_per_second": 54.095,
	"step": 2264000
	},
	{
	"epoch": 9.57,
	"learning_rate": 2.1866666666666667e-08,
	"loss": 2.4027,
	"step": 2272000
	},
	{
	"epoch": 9.57,
	"eval_loss": 2.258697032928467,
	"eval_runtime": 229.4808,
	"eval_samples_per_second": 871.533,
	"eval_steps_per_second": 54.471,
	"step": 2272000
	},
	{
	"epoch": 9.6,
	"eval_loss": 2.2604668140411377,
	"eval_runtime": 230.34,
	"eval_samples_per_second": 868.282,
	"eval_steps_per_second": 54.268,
	"step": 2280000
	},
	{
	"epoch": 9.63,
	"learning_rate": 1.9133333333333333e-08,
	"loss": 2.4025,
	"step": 2288000
	},
	{
	"epoch": 9.63,
	"eval_loss": 2.257755994796753,
	"eval_runtime": 229.319,
	"eval_samples_per_second": 872.148,
	"eval_steps_per_second": 54.509,
	"step": 2288000
	},
	{
	"epoch": 9.67,
	"eval_loss": 2.260878324508667,
	"eval_runtime": 229.2443,
	"eval_samples_per_second": 872.432,
	"eval_steps_per_second": 54.527,
	"step": 2296000
	},
	{
	"epoch": 9.7,
	"learning_rate": 1.64e-08,
	"loss": 2.3969,
	"step": 2304000
	},
	{
	"epoch": 9.7,
	"eval_loss": 2.2597248554229736,
	"eval_runtime": 229.1154,
	"eval_samples_per_second": 872.922,
	"eval_steps_per_second": 54.558,
	"step": 2304000
	},
	{
	"epoch": 9.73,
	"eval_loss": 2.2619054317474365,
	"eval_runtime": 229.4244,
	"eval_samples_per_second": 871.747,
	"eval_steps_per_second": 54.484,
	"step": 2312000
	},
	{
	"epoch": 9.77,
	"learning_rate": 1.3666666666666667e-08,
	"loss": 2.3886,
	"step": 2320000
	},
	{
	"epoch": 9.77,
	"eval_loss": 2.2644739151000977,
	"eval_runtime": 228.6735,
	"eval_samples_per_second": 874.61,
	"eval_steps_per_second": 54.663,
	"step": 2320000
	},
	{
	"epoch": 9.8,
	"eval_loss": 2.2717080116271973,
	"eval_runtime": 228.5831,
	"eval_samples_per_second": 874.955,
	"eval_steps_per_second": 54.685,
	"step": 2328000
	},
	{
	"epoch": 9.84,
	"learning_rate": 1.0933333333333334e-08,
	"loss": 2.3942,
	"step": 2336000
	},
	{
	"epoch": 9.84,
	"eval_loss": 2.262681722640991,
	"eval_runtime": 228.7669,
	"eval_samples_per_second": 874.252,
	"eval_steps_per_second": 54.641,
	"step": 2336000
	},
	{
	"epoch": 9.87,
	"eval_loss": 2.258165121078491,
	"eval_runtime": 228.5731,
	"eval_samples_per_second": 874.994,
	"eval_steps_per_second": 54.687,
	"step": 2344000
	},
	{
	"epoch": 9.9,
	"learning_rate": 8.2e-09,
	"loss": 2.396,
	"step": 2352000
	},
	{
	"epoch": 9.9,
	"eval_loss": 2.263418674468994,
	"eval_runtime": 228.7526,
	"eval_samples_per_second": 874.307,
	"eval_steps_per_second": 54.644,
	"step": 2352000
	},
	{
	"epoch": 9.94,
	"eval_loss": 2.2582454681396484,
	"eval_runtime": 228.7496,
	"eval_samples_per_second": 874.318,
	"eval_steps_per_second": 54.645,
	"step": 2360000
	},
	{
	"epoch": 9.97,
	"learning_rate": 5.466666666666667e-09,
	"loss": 2.3998,
	"step": 2368000
	},
	{
	"epoch": 9.97,
	"eval_loss": 2.264343500137329,
	"eval_runtime": 229.0211,
	"eval_samples_per_second": 873.282,
	"eval_steps_per_second": 54.58,
	"step": 2368000
	},
	{
	"epoch": 10.0,
	"eval_loss": 2.2689995765686035,
	"eval_runtime": 228.2268,
	"eval_samples_per_second": 876.321,
	"eval_steps_per_second": 54.77,
	"step": 2376000
	},
	{
	"epoch": 10.04,
	"learning_rate": 2.7333333333333334e-09,
	"loss": 2.4014,
	"step": 2384000
	},
	{
	"epoch": 10.04,
	"eval_loss": 2.2655410766601562,
	"eval_runtime": 228.0312,
	"eval_samples_per_second": 877.073,
	"eval_steps_per_second": 54.817,
	"step": 2384000
	},
	{
	"epoch": 10.07,
	"eval_loss": 2.2659504413604736,
	"eval_runtime": 228.4835,
	"eval_samples_per_second": 875.337,
	"eval_steps_per_second": 54.709,
	"step": 2392000
	},
	{
	"epoch": 10.11,
	"learning_rate": 0.0,
	"loss": 2.4004,
	"step": 2400000
	},
	{
	"epoch": 10.11,
	"eval_loss": 2.2650294303894043,
	"eval_runtime": 228.8168,
	"eval_samples_per_second": 874.062,
	"eval_steps_per_second": 54.629,
	"step": 2400000
	},
	{
	"epoch": 10.11,
	"step": 2400000,
	"total_flos": 8.368611666112401e+17,
	"train_loss": 2.4070425341796877,
	"train_runtime": 215269.6307,
	"train_samples_per_second": 178.381,
	"train_steps_per_second": 11.149
	}
	],
	"logging_steps": 16000,
	"max_steps": 2400000,
	"num_train_epochs": 11,
	"save_steps": 32000,
	"total_flos": 8.368611666112401e+17,
	"trial_name": null,
	"trial_params": null
	}