2020-Q1-90p-filtered-random / trainer_state.json

Training in progress, step 32000

46eb42d verified 10 months ago

81.3 kB

	{
	"best_metric": 3.23770809173584,
	"best_model_checkpoint": "./model_tweets_2020_Q1_90/checkpoint-128000",
	"epoch": 49.171259398881354,
	"eval_steps": 8000,
	"global_step": 2400000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.16,
	"eval_loss": 3.4494731426239014,
	"eval_runtime": 46.3964,
	"eval_samples_per_second": 885.888,
	"eval_steps_per_second": 55.371,
	"step": 8000
	},
	{
	"epoch": 0.33,
	"learning_rate": 9.939131159843243e-06,
	"loss": 3.5684,
	"step": 16000
	},
	{
	"epoch": 0.33,
	"eval_loss": 3.416630744934082,
	"eval_runtime": 46.3565,
	"eval_samples_per_second": 886.65,
	"eval_steps_per_second": 55.418,
	"step": 16000
	},
	{
	"epoch": 0.49,
	"eval_loss": 3.3847219944000244,
	"eval_runtime": 47.2297,
	"eval_samples_per_second": 870.258,
	"eval_steps_per_second": 54.394,
	"step": 24000
	},
	{
	"epoch": 0.66,
	"learning_rate": 9.872425581589261e-06,
	"loss": 3.3755,
	"step": 32000
	},
	{
	"epoch": 0.66,
	"eval_loss": 3.3664660453796387,
	"eval_runtime": 47.0495,
	"eval_samples_per_second": 873.591,
	"eval_steps_per_second": 54.602,
	"step": 32000
	},
	{
	"epoch": 0.82,
	"eval_loss": 3.3654134273529053,
	"eval_runtime": 46.3932,
	"eval_samples_per_second": 885.949,
	"eval_steps_per_second": 55.374,
	"step": 40000
	},
	{
	"epoch": 0.98,
	"learning_rate": 9.80572000333528e-06,
	"loss": 3.3533,
	"step": 48000
	},
	{
	"epoch": 0.98,
	"eval_loss": 3.3654167652130127,
	"eval_runtime": 46.5322,
	"eval_samples_per_second": 883.301,
	"eval_steps_per_second": 55.209,
	"step": 48000
	},
	{
	"epoch": 1.15,
	"eval_loss": 3.332759380340576,
	"eval_runtime": 46.4492,
	"eval_samples_per_second": 884.88,
	"eval_steps_per_second": 55.308,
	"step": 56000
	},
	{
	"epoch": 1.31,
	"learning_rate": 9.739014425081299e-06,
	"loss": 3.3014,
	"step": 64000
	},
	{
	"epoch": 1.31,
	"eval_loss": 3.3209590911865234,
	"eval_runtime": 45.8973,
	"eval_samples_per_second": 895.521,
	"eval_steps_per_second": 55.973,
	"step": 64000
	},
	{
	"epoch": 1.48,
	"eval_loss": 3.3491690158843994,
	"eval_runtime": 46.3252,
	"eval_samples_per_second": 887.249,
	"eval_steps_per_second": 55.456,
	"step": 72000
	},
	{
	"epoch": 1.64,
	"learning_rate": 9.672308846827316e-06,
	"loss": 3.2888,
	"step": 80000
	},
	{
	"epoch": 1.64,
	"eval_loss": 3.3213465213775635,
	"eval_runtime": 45.915,
	"eval_samples_per_second": 895.177,
	"eval_steps_per_second": 55.951,
	"step": 80000
	},
	{
	"epoch": 1.8,
	"eval_loss": 3.2708065509796143,
	"eval_runtime": 45.9723,
	"eval_samples_per_second": 894.061,
	"eval_steps_per_second": 55.882,
	"step": 88000
	},
	{
	"epoch": 1.97,
	"learning_rate": 9.605603268573334e-06,
	"loss": 3.2609,
	"step": 96000
	},
	{
	"epoch": 1.97,
	"eval_loss": 3.290764808654785,
	"eval_runtime": 46.6916,
	"eval_samples_per_second": 880.287,
	"eval_steps_per_second": 55.021,
	"step": 96000
	},
	{
	"epoch": 2.13,
	"eval_loss": 3.2766778469085693,
	"eval_runtime": 45.6527,
	"eval_samples_per_second": 900.318,
	"eval_steps_per_second": 56.273,
	"step": 104000
	},
	{
	"epoch": 2.29,
	"learning_rate": 9.538897690319354e-06,
	"loss": 3.2159,
	"step": 112000
	},
	{
	"epoch": 2.29,
	"eval_loss": 3.259241819381714,
	"eval_runtime": 45.9077,
	"eval_samples_per_second": 895.319,
	"eval_steps_per_second": 55.96,
	"step": 112000
	},
	{
	"epoch": 2.46,
	"eval_loss": 3.2411258220672607,
	"eval_runtime": 46.8974,
	"eval_samples_per_second": 876.424,
	"eval_steps_per_second": 54.779,
	"step": 120000
	},
	{
	"epoch": 2.62,
	"learning_rate": 9.472192112065373e-06,
	"loss": 3.2167,
	"step": 128000
	},
	{
	"epoch": 2.62,
	"eval_loss": 3.23770809173584,
	"eval_runtime": 46.0285,
	"eval_samples_per_second": 892.969,
	"eval_steps_per_second": 55.813,
	"step": 128000
	},
	{
	"epoch": 2.79,
	"eval_loss": 3.2485291957855225,
	"eval_runtime": 46.313,
	"eval_samples_per_second": 887.483,
	"eval_steps_per_second": 55.47,
	"step": 136000
	},
	{
	"epoch": 2.95,
	"learning_rate": 9.405486533811392e-06,
	"loss": 3.199,
	"step": 144000
	},
	{
	"epoch": 2.95,
	"eval_loss": 3.2608513832092285,
	"eval_runtime": 46.3737,
	"eval_samples_per_second": 886.322,
	"eval_steps_per_second": 55.398,
	"step": 144000
	},
	{
	"epoch": 3.11,
	"eval_loss": 3.2552711963653564,
	"eval_runtime": 45.7073,
	"eval_samples_per_second": 899.243,
	"eval_steps_per_second": 56.205,
	"step": 152000
	},
	{
	"epoch": 3.28,
	"learning_rate": 9.338780955557409e-06,
	"loss": 3.1905,
	"step": 160000
	},
	{
	"epoch": 3.28,
	"eval_loss": 3.2425193786621094,
	"eval_runtime": 46.3189,
	"eval_samples_per_second": 887.37,
	"eval_steps_per_second": 55.463,
	"step": 160000
	},
	{
	"epoch": 3.44,
	"eval_loss": 3.2421696186065674,
	"eval_runtime": 46.3489,
	"eval_samples_per_second": 886.796,
	"eval_steps_per_second": 55.427,
	"step": 168000
	},
	{
	"epoch": 3.61,
	"learning_rate": 9.272075377303427e-06,
	"loss": 3.1822,
	"step": 176000
	},
	{
	"epoch": 3.61,
	"eval_loss": 3.262392997741699,
	"eval_runtime": 46.6763,
	"eval_samples_per_second": 880.575,
	"eval_steps_per_second": 55.039,
	"step": 176000
	},
	{
	"epoch": 3.77,
	"eval_loss": 3.2507119178771973,
	"eval_runtime": 46.8277,
	"eval_samples_per_second": 877.728,
	"eval_steps_per_second": 54.861,
	"step": 184000
	},
	{
	"epoch": 3.93,
	"learning_rate": 9.205369799049446e-06,
	"loss": 3.1852,
	"step": 192000
	},
	{
	"epoch": 3.93,
	"eval_loss": 3.2483315467834473,
	"eval_runtime": 45.7607,
	"eval_samples_per_second": 898.195,
	"eval_steps_per_second": 56.14,
	"step": 192000
	},
	{
	"epoch": 4.1,
	"eval_loss": 3.251424789428711,
	"eval_runtime": 46.3642,
	"eval_samples_per_second": 886.503,
	"eval_steps_per_second": 55.409,
	"step": 200000
	},
	{
	"epoch": 4.26,
	"learning_rate": 9.138664220795464e-06,
	"loss": 3.1767,
	"step": 208000
	},
	{
	"epoch": 4.26,
	"eval_loss": 3.242562770843506,
	"eval_runtime": 46.886,
	"eval_samples_per_second": 876.637,
	"eval_steps_per_second": 54.792,
	"step": 208000
	},
	{
	"epoch": 4.43,
	"eval_loss": 3.234778642654419,
	"eval_runtime": 46.4949,
	"eval_samples_per_second": 884.01,
	"eval_steps_per_second": 55.253,
	"step": 216000
	},
	{
	"epoch": 4.59,
	"learning_rate": 9.071958642541483e-06,
	"loss": 3.1767,
	"step": 224000
	},
	{
	"epoch": 4.59,
	"eval_loss": 3.2734625339508057,
	"eval_runtime": 46.0486,
	"eval_samples_per_second": 892.58,
	"eval_steps_per_second": 55.789,
	"step": 224000
	},
	{
	"epoch": 4.75,
	"eval_loss": 3.2471694946289062,
	"eval_runtime": 46.5054,
	"eval_samples_per_second": 883.811,
	"eval_steps_per_second": 55.241,
	"step": 232000
	},
	{
	"epoch": 4.92,
	"learning_rate": 9.005253064287502e-06,
	"loss": 3.1973,
	"step": 240000
	},
	{
	"epoch": 4.92,
	"eval_loss": 3.259644031524658,
	"eval_runtime": 45.8405,
	"eval_samples_per_second": 896.631,
	"eval_steps_per_second": 56.042,
	"step": 240000
	},
	{
	"epoch": 5.08,
	"eval_loss": 3.2605602741241455,
	"eval_runtime": 45.4485,
	"eval_samples_per_second": 904.365,
	"eval_steps_per_second": 56.526,
	"step": 248000
	},
	{
	"epoch": 5.24,
	"learning_rate": 8.93854748603352e-06,
	"loss": 3.1781,
	"step": 256000
	},
	{
	"epoch": 5.24,
	"eval_loss": 3.281527519226074,
	"eval_runtime": 46.3336,
	"eval_samples_per_second": 887.089,
	"eval_steps_per_second": 55.446,
	"step": 256000
	},
	{
	"epoch": 5.41,
	"eval_loss": 3.273421049118042,
	"eval_runtime": 45.4558,
	"eval_samples_per_second": 904.218,
	"eval_steps_per_second": 56.516,
	"step": 264000
	},
	{
	"epoch": 5.57,
	"learning_rate": 8.871841907779539e-06,
	"loss": 3.1803,
	"step": 272000
	},
	{
	"epoch": 5.57,
	"eval_loss": 3.2739477157592773,
	"eval_runtime": 45.6455,
	"eval_samples_per_second": 900.462,
	"eval_steps_per_second": 56.282,
	"step": 272000
	},
	{
	"epoch": 5.74,
	"eval_loss": 3.2712481021881104,
	"eval_runtime": 46.5973,
	"eval_samples_per_second": 882.068,
	"eval_steps_per_second": 55.132,
	"step": 280000
	},
	{
	"epoch": 5.9,
	"learning_rate": 8.805136329525557e-06,
	"loss": 3.1989,
	"step": 288000
	},
	{
	"epoch": 5.9,
	"eval_loss": 3.273439884185791,
	"eval_runtime": 46.318,
	"eval_samples_per_second": 887.387,
	"eval_steps_per_second": 55.464,
	"step": 288000
	},
	{
	"epoch": 6.06,
	"eval_loss": 3.293893814086914,
	"eval_runtime": 45.8003,
	"eval_samples_per_second": 897.418,
	"eval_steps_per_second": 56.091,
	"step": 296000
	},
	{
	"epoch": 6.23,
	"learning_rate": 8.738430751271576e-06,
	"loss": 3.1929,
	"step": 304000
	},
	{
	"epoch": 6.23,
	"eval_loss": 3.288043737411499,
	"eval_runtime": 46.6462,
	"eval_samples_per_second": 881.144,
	"eval_steps_per_second": 55.074,
	"step": 304000
	},
	{
	"epoch": 6.39,
	"eval_loss": 3.289358139038086,
	"eval_runtime": 45.8512,
	"eval_samples_per_second": 896.422,
	"eval_steps_per_second": 56.029,
	"step": 312000
	},
	{
	"epoch": 6.56,
	"learning_rate": 8.671725173017595e-06,
	"loss": 3.2083,
	"step": 320000
	},
	{
	"epoch": 6.56,
	"eval_loss": 3.308645725250244,
	"eval_runtime": 46.2317,
	"eval_samples_per_second": 889.043,
	"eval_steps_per_second": 55.568,
	"step": 320000
	},
	{
	"epoch": 6.72,
	"eval_loss": 3.3066623210906982,
	"eval_runtime": 46.8669,
	"eval_samples_per_second": 876.995,
	"eval_steps_per_second": 54.815,
	"step": 328000
	},
	{
	"epoch": 6.88,
	"learning_rate": 8.605019594763613e-06,
	"loss": 3.2013,
	"step": 336000
	},
	{
	"epoch": 6.88,
	"eval_loss": 3.278655529022217,
	"eval_runtime": 45.904,
	"eval_samples_per_second": 895.391,
	"eval_steps_per_second": 55.965,
	"step": 336000
	},
	{
	"epoch": 7.05,
	"eval_loss": 3.3152964115142822,
	"eval_runtime": 46.5312,
	"eval_samples_per_second": 883.322,
	"eval_steps_per_second": 55.21,
	"step": 344000
	},
	{
	"epoch": 7.21,
	"learning_rate": 8.538314016509632e-06,
	"loss": 3.2111,
	"step": 352000
	},
	{
	"epoch": 7.21,
	"eval_loss": 3.3246278762817383,
	"eval_runtime": 46.7247,
	"eval_samples_per_second": 879.664,
	"eval_steps_per_second": 54.982,
	"step": 352000
	},
	{
	"epoch": 7.38,
	"eval_loss": 3.3322579860687256,
	"eval_runtime": 45.9989,
	"eval_samples_per_second": 893.543,
	"eval_steps_per_second": 55.849,
	"step": 360000
	},
	{
	"epoch": 7.54,
	"learning_rate": 8.471608438255649e-06,
	"loss": 3.2186,
	"step": 368000
	},
	{
	"epoch": 7.54,
	"eval_loss": 3.2938337326049805,
	"eval_runtime": 46.144,
	"eval_samples_per_second": 890.734,
	"eval_steps_per_second": 55.674,
	"step": 368000
	},
	{
	"epoch": 7.7,
	"eval_loss": 3.3499817848205566,
	"eval_runtime": 45.582,
	"eval_samples_per_second": 901.717,
	"eval_steps_per_second": 56.36,
	"step": 376000
	},
	{
	"epoch": 7.87,
	"learning_rate": 8.404902860001667e-06,
	"loss": 3.2268,
	"step": 384000
	},
	{
	"epoch": 7.87,
	"eval_loss": 3.3179759979248047,
	"eval_runtime": 45.2091,
	"eval_samples_per_second": 909.153,
	"eval_steps_per_second": 56.825,
	"step": 384000
	},
	{
	"epoch": 8.03,
	"eval_loss": 3.3171069622039795,
	"eval_runtime": 46.0196,
	"eval_samples_per_second": 893.141,
	"eval_steps_per_second": 55.824,
	"step": 392000
	},
	{
	"epoch": 8.2,
	"learning_rate": 8.338197281747686e-06,
	"loss": 3.233,
	"step": 400000
	},
	{
	"epoch": 8.2,
	"eval_loss": 3.3461642265319824,
	"eval_runtime": 45.5487,
	"eval_samples_per_second": 902.375,
	"eval_steps_per_second": 56.401,
	"step": 400000
	},
	{
	"epoch": 8.36,
	"eval_loss": 3.341256618499756,
	"eval_runtime": 45.4264,
	"eval_samples_per_second": 904.804,
	"eval_steps_per_second": 56.553,
	"step": 408000
	},
	{
	"epoch": 8.52,
	"learning_rate": 8.271491703493705e-06,
	"loss": 3.2432,
	"step": 416000
	},
	{
	"epoch": 8.52,
	"eval_loss": 3.328122615814209,
	"eval_runtime": 45.9787,
	"eval_samples_per_second": 893.936,
	"eval_steps_per_second": 55.874,
	"step": 416000
	},
	{
	"epoch": 8.69,
	"eval_loss": 3.342041492462158,
	"eval_runtime": 45.4274,
	"eval_samples_per_second": 904.784,
	"eval_steps_per_second": 56.552,
	"step": 424000
	},
	{
	"epoch": 8.85,
	"learning_rate": 8.204786125239725e-06,
	"loss": 3.2586,
	"step": 432000
	},
	{
	"epoch": 8.85,
	"eval_loss": 3.3609066009521484,
	"eval_runtime": 45.3913,
	"eval_samples_per_second": 905.504,
	"eval_steps_per_second": 56.597,
	"step": 432000
	},
	{
	"epoch": 9.01,
	"eval_loss": 3.352691173553467,
	"eval_runtime": 46.0515,
	"eval_samples_per_second": 892.522,
	"eval_steps_per_second": 55.785,
	"step": 440000
	},
	{
	"epoch": 9.18,
	"learning_rate": 8.138080546985743e-06,
	"loss": 3.2567,
	"step": 448000
	},
	{
	"epoch": 9.18,
	"eval_loss": 3.359393358230591,
	"eval_runtime": 45.57,
	"eval_samples_per_second": 901.953,
	"eval_steps_per_second": 56.375,
	"step": 448000
	},
	{
	"epoch": 9.34,
	"eval_loss": 3.3497443199157715,
	"eval_runtime": 45.4208,
	"eval_samples_per_second": 904.915,
	"eval_steps_per_second": 56.56,
	"step": 456000
	},
	{
	"epoch": 9.51,
	"learning_rate": 8.07137496873176e-06,
	"loss": 3.2592,
	"step": 464000
	},
	{
	"epoch": 9.51,
	"eval_loss": 3.3606550693511963,
	"eval_runtime": 46.15,
	"eval_samples_per_second": 890.617,
	"eval_steps_per_second": 55.666,
	"step": 464000
	},
	{
	"epoch": 9.67,
	"eval_loss": 3.3839540481567383,
	"eval_runtime": 45.5702,
	"eval_samples_per_second": 901.95,
	"eval_steps_per_second": 56.375,
	"step": 472000
	},
	{
	"epoch": 9.83,
	"learning_rate": 8.004669390477779e-06,
	"loss": 3.2793,
	"step": 480000
	},
	{
	"epoch": 9.83,
	"eval_loss": 3.366785764694214,
	"eval_runtime": 45.749,
	"eval_samples_per_second": 898.424,
	"eval_steps_per_second": 56.154,
	"step": 480000
	},
	{
	"epoch": 10.0,
	"eval_loss": 3.3609416484832764,
	"eval_runtime": 47.1383,
	"eval_samples_per_second": 871.945,
	"eval_steps_per_second": 54.499,
	"step": 488000
	},
	{
	"epoch": 10.16,
	"learning_rate": 7.937963812223798e-06,
	"loss": 3.257,
	"step": 496000
	},
	{
	"epoch": 10.16,
	"eval_loss": 3.368229389190674,
	"eval_runtime": 45.5778,
	"eval_samples_per_second": 901.798,
	"eval_steps_per_second": 56.365,
	"step": 496000
	},
	{
	"epoch": 10.33,
	"eval_loss": 3.4005918502807617,
	"eval_runtime": 46.5843,
	"eval_samples_per_second": 882.314,
	"eval_steps_per_second": 55.147,
	"step": 504000
	},
	{
	"epoch": 10.49,
	"learning_rate": 7.871258233969816e-06,
	"loss": 3.2656,
	"step": 512000
	},
	{
	"epoch": 10.49,
	"eval_loss": 3.358835220336914,
	"eval_runtime": 46.2545,
	"eval_samples_per_second": 888.605,
	"eval_steps_per_second": 55.541,
	"step": 512000
	},
	{
	"epoch": 10.65,
	"eval_loss": 3.379861831665039,
	"eval_runtime": 45.613,
	"eval_samples_per_second": 901.103,
	"eval_steps_per_second": 56.322,
	"step": 520000
	},
	{
	"epoch": 10.82,
	"learning_rate": 7.804552655715835e-06,
	"loss": 3.2727,
	"step": 528000
	},
	{
	"epoch": 10.82,
	"eval_loss": 3.383315086364746,
	"eval_runtime": 46.0041,
	"eval_samples_per_second": 893.442,
	"eval_steps_per_second": 55.843,
	"step": 528000
	},
	{
	"epoch": 10.98,
	"eval_loss": 3.356590747833252,
	"eval_runtime": 45.9202,
	"eval_samples_per_second": 895.074,
	"eval_steps_per_second": 55.945,
	"step": 536000
	},
	{
	"epoch": 11.15,
	"learning_rate": 7.737847077461853e-06,
	"loss": 3.2705,
	"step": 544000
	},
	{
	"epoch": 11.15,
	"eval_loss": 3.3793959617614746,
	"eval_runtime": 45.6075,
	"eval_samples_per_second": 901.211,
	"eval_steps_per_second": 56.328,
	"step": 544000
	},
	{
	"epoch": 11.31,
	"eval_loss": 3.3838233947753906,
	"eval_runtime": 46.1859,
	"eval_samples_per_second": 889.925,
	"eval_steps_per_second": 55.623,
	"step": 552000
	},
	{
	"epoch": 11.47,
	"learning_rate": 7.671141499207872e-06,
	"loss": 3.2676,
	"step": 560000
	},
	{
	"epoch": 11.47,
	"eval_loss": 3.3659656047821045,
	"eval_runtime": 45.7183,
	"eval_samples_per_second": 899.027,
	"eval_steps_per_second": 56.192,
	"step": 560000
	},
	{
	"epoch": 11.64,
	"eval_loss": 3.3937699794769287,
	"eval_runtime": 45.9326,
	"eval_samples_per_second": 894.832,
	"eval_steps_per_second": 55.93,
	"step": 568000
	},
	{
	"epoch": 11.8,
	"learning_rate": 7.604435920953891e-06,
	"loss": 3.258,
	"step": 576000
	},
	{
	"epoch": 11.8,
	"eval_loss": 3.3661420345306396,
	"eval_runtime": 46.4625,
	"eval_samples_per_second": 884.627,
	"eval_steps_per_second": 55.292,
	"step": 576000
	},
	{
	"epoch": 11.97,
	"eval_loss": 3.3490447998046875,
	"eval_runtime": 45.8318,
	"eval_samples_per_second": 896.801,
	"eval_steps_per_second": 56.053,
	"step": 584000
	},
	{
	"epoch": 12.13,
	"learning_rate": 7.537730342699909e-06,
	"loss": 3.2646,
	"step": 592000
	},
	{
	"epoch": 12.13,
	"eval_loss": 3.3716230392456055,
	"eval_runtime": 45.6734,
	"eval_samples_per_second": 899.91,
	"eval_steps_per_second": 56.247,
	"step": 592000
	},
	{
	"epoch": 12.29,
	"eval_loss": 3.3877346515655518,
	"eval_runtime": 46.2161,
	"eval_samples_per_second": 889.344,
	"eval_steps_per_second": 55.587,
	"step": 600000
	},
	{
	"epoch": 12.46,
	"learning_rate": 7.471024764445928e-06,
	"loss": 3.2578,
	"step": 608000
	},
	{
	"epoch": 12.46,
	"eval_loss": 3.3930206298828125,
	"eval_runtime": 45.3985,
	"eval_samples_per_second": 905.361,
	"eval_steps_per_second": 56.588,
	"step": 608000
	},
	{
	"epoch": 12.62,
	"eval_loss": 3.392077922821045,
	"eval_runtime": 45.1724,
	"eval_samples_per_second": 909.893,
	"eval_steps_per_second": 56.871,
	"step": 616000
	},
	{
	"epoch": 12.78,
	"learning_rate": 7.4043191861919465e-06,
	"loss": 3.2719,
	"step": 624000
	},
	{
	"epoch": 12.78,
	"eval_loss": 3.395730495452881,
	"eval_runtime": 45.8195,
	"eval_samples_per_second": 897.042,
	"eval_steps_per_second": 56.068,
	"step": 624000
	},
	{
	"epoch": 12.95,
	"eval_loss": 3.4196434020996094,
	"eval_runtime": 45.2614,
	"eval_samples_per_second": 908.103,
	"eval_steps_per_second": 56.759,
	"step": 632000
	},
	{
	"epoch": 13.11,
	"learning_rate": 7.337613607937964e-06,
	"loss": 3.2828,
	"step": 640000
	},
	{
	"epoch": 13.11,
	"eval_loss": 3.4077515602111816,
	"eval_runtime": 45.5674,
	"eval_samples_per_second": 902.004,
	"eval_steps_per_second": 56.378,
	"step": 640000
	},
	{
	"epoch": 13.28,
	"eval_loss": 3.4202864170074463,
	"eval_runtime": 46.3249,
	"eval_samples_per_second": 887.255,
	"eval_steps_per_second": 55.456,
	"step": 648000
	},
	{
	"epoch": 13.44,
	"learning_rate": 7.270908029683983e-06,
	"loss": 3.2805,
	"step": 656000
	},
	{
	"epoch": 13.44,
	"eval_loss": 3.3899548053741455,
	"eval_runtime": 46.1588,
	"eval_samples_per_second": 890.448,
	"eval_steps_per_second": 55.656,
	"step": 656000
	},
	{
	"epoch": 13.6,
	"eval_loss": 3.4037835597991943,
	"eval_runtime": 46.9454,
	"eval_samples_per_second": 875.527,
	"eval_steps_per_second": 54.723,
	"step": 664000
	},
	{
	"epoch": 13.77,
	"learning_rate": 7.2042024514300015e-06,
	"loss": 3.2975,
	"step": 672000
	},
	{
	"epoch": 13.77,
	"eval_loss": 3.405585765838623,
	"eval_runtime": 46.2706,
	"eval_samples_per_second": 888.297,
	"eval_steps_per_second": 55.521,
	"step": 672000
	},
	{
	"epoch": 13.93,
	"eval_loss": 3.428373336791992,
	"eval_runtime": 45.9889,
	"eval_samples_per_second": 893.738,
	"eval_steps_per_second": 55.861,
	"step": 680000
	},
	{
	"epoch": 14.1,
	"learning_rate": 7.13749687317602e-06,
	"loss": 3.2965,
	"step": 688000
	},
	{
	"epoch": 14.1,
	"eval_loss": 3.41803240776062,
	"eval_runtime": 46.9126,
	"eval_samples_per_second": 876.14,
	"eval_steps_per_second": 54.761,
	"step": 688000
	},
	{
	"epoch": 14.26,
	"eval_loss": 3.419599771499634,
	"eval_runtime": 46.1796,
	"eval_samples_per_second": 890.047,
	"eval_steps_per_second": 55.631,
	"step": 696000
	},
	{
	"epoch": 14.42,
	"learning_rate": 7.070791294922038e-06,
	"loss": 3.3069,
	"step": 704000
	},
	{
	"epoch": 14.42,
	"eval_loss": 3.425711154937744,
	"eval_runtime": 46.2298,
	"eval_samples_per_second": 889.08,
	"eval_steps_per_second": 55.57,
	"step": 704000
	},
	{
	"epoch": 14.59,
	"eval_loss": 3.4299447536468506,
	"eval_runtime": 46.768,
	"eval_samples_per_second": 878.85,
	"eval_steps_per_second": 54.931,
	"step": 712000
	},
	{
	"epoch": 14.75,
	"learning_rate": 7.0040857166680564e-06,
	"loss": 3.3152,
	"step": 720000
	},
	{
	"epoch": 14.75,
	"eval_loss": 3.4787514209747314,
	"eval_runtime": 46.0913,
	"eval_samples_per_second": 891.752,
	"eval_steps_per_second": 55.737,
	"step": 720000
	},
	{
	"epoch": 14.92,
	"eval_loss": 3.4424662590026855,
	"eval_runtime": 46.3411,
	"eval_samples_per_second": 886.945,
	"eval_steps_per_second": 55.437,
	"step": 728000
	},
	{
	"epoch": 15.08,
	"learning_rate": 6.937380138414076e-06,
	"loss": 3.3125,
	"step": 736000
	},
	{
	"epoch": 15.08,
	"eval_loss": 3.430126667022705,
	"eval_runtime": 46.9882,
	"eval_samples_per_second": 874.73,
	"eval_steps_per_second": 54.673,
	"step": 736000
	},
	{
	"epoch": 15.24,
	"eval_loss": 3.4440979957580566,
	"eval_runtime": 46.1825,
	"eval_samples_per_second": 889.99,
	"eval_steps_per_second": 55.627,
	"step": 744000
	},
	{
	"epoch": 15.41,
	"learning_rate": 6.8706745601600945e-06,
	"loss": 3.3174,
	"step": 752000
	},
	{
	"epoch": 15.41,
	"eval_loss": 3.4396116733551025,
	"eval_runtime": 46.2686,
	"eval_samples_per_second": 888.334,
	"eval_steps_per_second": 55.524,
	"step": 752000
	},
	{
	"epoch": 15.57,
	"eval_loss": 3.463931083679199,
	"eval_runtime": 46.7798,
	"eval_samples_per_second": 878.627,
	"eval_steps_per_second": 54.917,
	"step": 760000
	},
	{
	"epoch": 15.73,
	"learning_rate": 6.803968981906113e-06,
	"loss": 3.3242,
	"step": 768000
	},
	{
	"epoch": 15.73,
	"eval_loss": 3.4523837566375732,
	"eval_runtime": 45.7867,
	"eval_samples_per_second": 897.685,
	"eval_steps_per_second": 56.108,
	"step": 768000
	},
	{
	"epoch": 15.9,
	"eval_loss": 3.455958366394043,
	"eval_runtime": 45.3124,
	"eval_samples_per_second": 907.08,
	"eval_steps_per_second": 56.695,
	"step": 776000
	},
	{
	"epoch": 16.06,
	"learning_rate": 6.737263403652131e-06,
	"loss": 3.3385,
	"step": 784000
	},
	{
	"epoch": 16.06,
	"eval_loss": 3.4779999256134033,
	"eval_runtime": 46.0072,
	"eval_samples_per_second": 893.383,
	"eval_steps_per_second": 55.839,
	"step": 784000
	},
	{
	"epoch": 16.23,
	"eval_loss": 3.4773714542388916,
	"eval_runtime": 45.131,
	"eval_samples_per_second": 910.727,
	"eval_steps_per_second": 56.923,
	"step": 792000
	},
	{
	"epoch": 16.39,
	"learning_rate": 6.6705578253981495e-06,
	"loss": 3.3371,
	"step": 800000
	},
	{
	"epoch": 16.39,
	"eval_loss": 3.47719669342041,
	"eval_runtime": 45.6308,
	"eval_samples_per_second": 900.751,
	"eval_steps_per_second": 56.3,
	"step": 800000
	},
	{
	"epoch": 16.55,
	"eval_loss": 3.4955241680145264,
	"eval_runtime": 46.0477,
	"eval_samples_per_second": 892.597,
	"eval_steps_per_second": 55.79,
	"step": 808000
	},
	{
	"epoch": 16.72,
	"learning_rate": 6.603852247144168e-06,
	"loss": 3.3633,
	"step": 816000
	},
	{
	"epoch": 16.72,
	"eval_loss": 3.486057996749878,
	"eval_runtime": 44.9231,
	"eval_samples_per_second": 914.941,
	"eval_steps_per_second": 57.187,
	"step": 816000
	},
	{
	"epoch": 16.88,
	"eval_loss": 3.506316661834717,
	"eval_runtime": 45.7078,
	"eval_samples_per_second": 899.234,
	"eval_steps_per_second": 56.205,
	"step": 824000
	},
	{
	"epoch": 17.05,
	"learning_rate": 6.537146668890187e-06,
	"loss": 3.3678,
	"step": 832000
	},
	{
	"epoch": 17.05,
	"eval_loss": 3.50439190864563,
	"eval_runtime": 45.0245,
	"eval_samples_per_second": 912.882,
	"eval_steps_per_second": 57.058,
	"step": 832000
	},
	{
	"epoch": 17.21,
	"eval_loss": 3.520247220993042,
	"eval_runtime": 45.2071,
	"eval_samples_per_second": 909.193,
	"eval_steps_per_second": 56.827,
	"step": 840000
	},
	{
	"epoch": 17.37,
	"learning_rate": 6.4704410906362044e-06,
	"loss": 3.3634,
	"step": 848000
	},
	{
	"epoch": 17.37,
	"eval_loss": 3.4941418170928955,
	"eval_runtime": 46.4208,
	"eval_samples_per_second": 885.423,
	"eval_steps_per_second": 55.342,
	"step": 848000
	},
	{
	"epoch": 17.54,
	"eval_loss": 3.522303819656372,
	"eval_runtime": 46.164,
	"eval_samples_per_second": 890.347,
	"eval_steps_per_second": 55.649,
	"step": 856000
	},
	{
	"epoch": 17.7,
	"learning_rate": 6.403735512382223e-06,
	"loss": 3.3797,
	"step": 864000
	},
	{
	"epoch": 17.7,
	"eval_loss": 3.502774715423584,
	"eval_runtime": 45.8285,
	"eval_samples_per_second": 896.865,
	"eval_steps_per_second": 56.057,
	"step": 864000
	},
	{
	"epoch": 17.87,
	"eval_loss": 3.526393175125122,
	"eval_runtime": 46.6422,
	"eval_samples_per_second": 881.219,
	"eval_steps_per_second": 55.079,
	"step": 872000
	},
	{
	"epoch": 18.03,
	"learning_rate": 6.337029934128242e-06,
	"loss": 3.3802,
	"step": 880000
	},
	{
	"epoch": 18.03,
	"eval_loss": 3.531257152557373,
	"eval_runtime": 46.217,
	"eval_samples_per_second": 889.327,
	"eval_steps_per_second": 55.586,
	"step": 880000
	},
	{
	"epoch": 18.19,
	"eval_loss": 3.496319055557251,
	"eval_runtime": 45.9803,
	"eval_samples_per_second": 893.904,
	"eval_steps_per_second": 55.872,
	"step": 888000
	},
	{
	"epoch": 18.36,
	"learning_rate": 6.270324355874261e-06,
	"loss": 3.357,
	"step": 896000
	},
	{
	"epoch": 18.36,
	"eval_loss": 3.5171141624450684,
	"eval_runtime": 47.1622,
	"eval_samples_per_second": 871.504,
	"eval_steps_per_second": 54.472,
	"step": 896000
	},
	{
	"epoch": 18.52,
	"eval_loss": 3.530701160430908,
	"eval_runtime": 46.113,
	"eval_samples_per_second": 891.332,
	"eval_steps_per_second": 55.711,
	"step": 904000
	},
	{
	"epoch": 18.69,
	"learning_rate": 6.20361877762028e-06,
	"loss": 3.3866,
	"step": 912000
	},
	{
	"epoch": 18.69,
	"eval_loss": 3.5221967697143555,
	"eval_runtime": 46.035,
	"eval_samples_per_second": 892.843,
	"eval_steps_per_second": 55.805,
	"step": 912000
	},
	{
	"epoch": 18.85,
	"eval_loss": 3.5319056510925293,
	"eval_runtime": 46.8446,
	"eval_samples_per_second": 877.412,
	"eval_steps_per_second": 54.841,
	"step": 920000
	},
	{
	"epoch": 19.01,
	"learning_rate": 6.1369131993662975e-06,
	"loss": 3.3818,
	"step": 928000
	},
	{
	"epoch": 19.01,
	"eval_loss": 3.532552480697632,
	"eval_runtime": 46.3901,
	"eval_samples_per_second": 886.007,
	"eval_steps_per_second": 55.378,
	"step": 928000
	},
	{
	"epoch": 19.18,
	"eval_loss": 3.5116307735443115,
	"eval_runtime": 45.2931,
	"eval_samples_per_second": 907.466,
	"eval_steps_per_second": 56.719,
	"step": 936000
	},
	{
	"epoch": 19.34,
	"learning_rate": 6.070207621112316e-06,
	"loss": 3.3754,
	"step": 944000
	},
	{
	"epoch": 19.34,
	"eval_loss": 3.5228991508483887,
	"eval_runtime": 47.0715,
	"eval_samples_per_second": 873.183,
	"eval_steps_per_second": 54.577,
	"step": 944000
	},
	{
	"epoch": 19.5,
	"eval_loss": 3.538318634033203,
	"eval_runtime": 45.9256,
	"eval_samples_per_second": 894.97,
	"eval_steps_per_second": 55.938,
	"step": 952000
	},
	{
	"epoch": 19.67,
	"learning_rate": 6.003502042858335e-06,
	"loss": 3.3893,
	"step": 960000
	},
	{
	"epoch": 19.67,
	"eval_loss": 3.544513463973999,
	"eval_runtime": 46.8245,
	"eval_samples_per_second": 877.788,
	"eval_steps_per_second": 54.864,
	"step": 960000
	},
	{
	"epoch": 19.83,
	"eval_loss": 3.5230634212493896,
	"eval_runtime": 47.3348,
	"eval_samples_per_second": 868.325,
	"eval_steps_per_second": 54.273,
	"step": 968000
	},
	{
	"epoch": 20.0,
	"learning_rate": 5.936796464604353e-06,
	"loss": 3.3899,
	"step": 976000
	},
	{
	"epoch": 20.0,
	"eval_loss": 3.531026840209961,
	"eval_runtime": 45.7886,
	"eval_samples_per_second": 897.647,
	"eval_steps_per_second": 56.106,
	"step": 976000
	},
	{
	"epoch": 20.16,
	"eval_loss": 3.53287935256958,
	"eval_runtime": 46.7771,
	"eval_samples_per_second": 878.677,
	"eval_steps_per_second": 54.92,
	"step": 984000
	},
	{
	"epoch": 20.32,
	"learning_rate": 5.870090886350371e-06,
	"loss": 3.3918,
	"step": 992000
	},
	{
	"epoch": 20.32,
	"eval_loss": 3.5158653259277344,
	"eval_runtime": 46.2173,
	"eval_samples_per_second": 889.32,
	"eval_steps_per_second": 55.585,
	"step": 992000
	},
	{
	"epoch": 20.49,
	"eval_loss": 3.562788486480713,
	"eval_runtime": 45.7474,
	"eval_samples_per_second": 898.456,
	"eval_steps_per_second": 56.156,
	"step": 1000000
	},
	{
	"epoch": 20.65,
	"learning_rate": 5.80338530809639e-06,
	"loss": 3.3786,
	"step": 1008000
	},
	{
	"epoch": 20.65,
	"eval_loss": 3.5290534496307373,
	"eval_runtime": 46.4581,
	"eval_samples_per_second": 884.711,
	"eval_steps_per_second": 55.297,
	"step": 1008000
	},
	{
	"epoch": 20.82,
	"eval_loss": 3.5163111686706543,
	"eval_runtime": 45.899,
	"eval_samples_per_second": 895.487,
	"eval_steps_per_second": 55.971,
	"step": 1016000
	},
	{
	"epoch": 20.98,
	"learning_rate": 5.736679729842408e-06,
	"loss": 3.3862,
	"step": 1024000
	},
	{
	"epoch": 20.98,
	"eval_loss": 3.531219959259033,
	"eval_runtime": 45.4959,
	"eval_samples_per_second": 903.423,
	"eval_steps_per_second": 56.467,
	"step": 1024000
	},
	{
	"epoch": 21.14,
	"eval_loss": 3.514033317565918,
	"eval_runtime": 46.6408,
	"eval_samples_per_second": 881.245,
	"eval_steps_per_second": 55.08,
	"step": 1032000
	},
	{
	"epoch": 21.31,
	"learning_rate": 5.669974151588427e-06,
	"loss": 3.3855,
	"step": 1040000
	},
	{
	"epoch": 21.31,
	"eval_loss": 3.5617153644561768,
	"eval_runtime": 45.7071,
	"eval_samples_per_second": 899.248,
	"eval_steps_per_second": 56.206,
	"step": 1040000
	},
	{
	"epoch": 21.47,
	"eval_loss": 3.5374927520751953,
	"eval_runtime": 45.668,
	"eval_samples_per_second": 900.018,
	"eval_steps_per_second": 56.254,
	"step": 1048000
	},
	{
	"epoch": 21.64,
	"learning_rate": 5.603268573334446e-06,
	"loss": 3.3872,
	"step": 1056000
	},
	{
	"epoch": 21.64,
	"eval_loss": 3.532823085784912,
	"eval_runtime": 46.5514,
	"eval_samples_per_second": 882.938,
	"eval_steps_per_second": 55.186,
	"step": 1056000
	},
	{
	"epoch": 21.8,
	"eval_loss": 3.561626434326172,
	"eval_runtime": 45.9586,
	"eval_samples_per_second": 894.327,
	"eval_steps_per_second": 55.898,
	"step": 1064000
	},
	{
	"epoch": 21.96,
	"learning_rate": 5.536562995080464e-06,
	"loss": 3.3931,
	"step": 1072000
	},
	{
	"epoch": 21.96,
	"eval_loss": 3.5647873878479004,
	"eval_runtime": 46.8936,
	"eval_samples_per_second": 876.495,
	"eval_steps_per_second": 54.784,
	"step": 1072000
	},
	{
	"epoch": 22.13,
	"eval_loss": 3.544335126876831,
	"eval_runtime": 46.3686,
	"eval_samples_per_second": 886.419,
	"eval_steps_per_second": 55.404,
	"step": 1080000
	},
	{
	"epoch": 22.29,
	"learning_rate": 5.469857416826483e-06,
	"loss": 3.3708,
	"step": 1088000
	},
	{
	"epoch": 22.29,
	"eval_loss": 3.5400941371917725,
	"eval_runtime": 45.8359,
	"eval_samples_per_second": 896.72,
	"eval_steps_per_second": 56.048,
	"step": 1088000
	},
	{
	"epoch": 22.45,
	"eval_loss": 3.55292010307312,
	"eval_runtime": 46.8082,
	"eval_samples_per_second": 878.095,
	"eval_steps_per_second": 54.884,
	"step": 1096000
	},
	{
	"epoch": 22.62,
	"learning_rate": 5.403151838572501e-06,
	"loss": 3.4099,
	"step": 1104000
	},
	{
	"epoch": 22.62,
	"eval_loss": 3.533414602279663,
	"eval_runtime": 46.1107,
	"eval_samples_per_second": 891.377,
	"eval_steps_per_second": 55.714,
	"step": 1104000
	},
	{
	"epoch": 22.78,
	"eval_loss": 3.5325212478637695,
	"eval_runtime": 46.1351,
	"eval_samples_per_second": 890.905,
	"eval_steps_per_second": 55.684,
	"step": 1112000
	},
	{
	"epoch": 22.95,
	"learning_rate": 5.33644626031852e-06,
	"loss": 3.4027,
	"step": 1120000
	},
	{
	"epoch": 22.95,
	"eval_loss": 3.5818660259246826,
	"eval_runtime": 46.7428,
	"eval_samples_per_second": 879.323,
	"eval_steps_per_second": 54.96,
	"step": 1120000
	},
	{
	"epoch": 23.11,
	"eval_loss": 3.5470829010009766,
	"eval_runtime": 46.1344,
	"eval_samples_per_second": 890.92,
	"eval_steps_per_second": 55.685,
	"step": 1128000
	},
	{
	"epoch": 23.27,
	"learning_rate": 5.269740682064538e-06,
	"loss": 3.4035,
	"step": 1136000
	},
	{
	"epoch": 23.27,
	"eval_loss": 3.548552989959717,
	"eval_runtime": 46.1071,
	"eval_samples_per_second": 891.446,
	"eval_steps_per_second": 55.718,
	"step": 1136000
	},
	{
	"epoch": 23.44,
	"eval_loss": 3.5470151901245117,
	"eval_runtime": 46.849,
	"eval_samples_per_second": 877.33,
	"eval_steps_per_second": 54.836,
	"step": 1144000
	},
	{
	"epoch": 23.6,
	"learning_rate": 5.203035103810556e-06,
	"loss": 3.3964,
	"step": 1152000
	},
	{
	"epoch": 23.6,
	"eval_loss": 3.572176694869995,
	"eval_runtime": 46.3661,
	"eval_samples_per_second": 886.467,
	"eval_steps_per_second": 55.407,
	"step": 1152000
	},
	{
	"epoch": 23.77,
	"eval_loss": 3.55098295211792,
	"eval_runtime": 46.1812,
	"eval_samples_per_second": 890.015,
	"eval_steps_per_second": 55.629,
	"step": 1160000
	},
	{
	"epoch": 23.93,
	"learning_rate": 5.136329525556575e-06,
	"loss": 3.4115,
	"step": 1168000
	},
	{
	"epoch": 23.93,
	"eval_loss": 3.561007499694824,
	"eval_runtime": 47.5429,
	"eval_samples_per_second": 864.525,
	"eval_steps_per_second": 54.035,
	"step": 1168000
	},
	{
	"epoch": 24.09,
	"eval_loss": 3.5757482051849365,
	"eval_runtime": 46.3962,
	"eval_samples_per_second": 885.891,
	"eval_steps_per_second": 55.371,
	"step": 1176000
	},
	{
	"epoch": 24.26,
	"learning_rate": 5.0696239473025935e-06,
	"loss": 3.4173,
	"step": 1184000
	},
	{
	"epoch": 24.26,
	"eval_loss": 3.554094076156616,
	"eval_runtime": 45.5708,
	"eval_samples_per_second": 901.936,
	"eval_steps_per_second": 56.374,
	"step": 1184000
	},
	{
	"epoch": 24.42,
	"eval_loss": 3.577660083770752,
	"eval_runtime": 47.0565,
	"eval_samples_per_second": 873.461,
	"eval_steps_per_second": 54.594,
	"step": 1192000
	},
	{
	"epoch": 24.59,
	"learning_rate": 5.002918369048611e-06,
	"loss": 3.4169,
	"step": 1200000
	},
	{
	"epoch": 24.59,
	"eval_loss": 3.5637948513031006,
	"eval_runtime": 47.0711,
	"eval_samples_per_second": 873.19,
	"eval_steps_per_second": 54.577,
	"step": 1200000
	},
	{
	"epoch": 24.75,
	"eval_loss": 3.5462896823883057,
	"eval_runtime": 46.8215,
	"eval_samples_per_second": 877.845,
	"eval_steps_per_second": 54.868,
	"step": 1208000
	},
	{
	"epoch": 24.91,
	"learning_rate": 4.936212790794631e-06,
	"loss": 3.4031,
	"step": 1216000
	},
	{
	"epoch": 24.91,
	"eval_loss": 3.5299670696258545,
	"eval_runtime": 46.9742,
	"eval_samples_per_second": 874.99,
	"eval_steps_per_second": 54.69,
	"step": 1216000
	},
	{
	"epoch": 25.08,
	"eval_loss": 3.558427333831787,
	"eval_runtime": 46.1322,
	"eval_samples_per_second": 890.961,
	"eval_steps_per_second": 55.688,
	"step": 1224000
	},
	{
	"epoch": 25.24,
	"learning_rate": 4.869507212540649e-06,
	"loss": 3.4094,
	"step": 1232000
	},
	{
	"epoch": 25.24,
	"eval_loss": 3.568174123764038,
	"eval_runtime": 46.3049,
	"eval_samples_per_second": 887.638,
	"eval_steps_per_second": 55.48,
	"step": 1232000
	},
	{
	"epoch": 25.41,
	"eval_loss": 3.555844783782959,
	"eval_runtime": 46.0676,
	"eval_samples_per_second": 892.211,
	"eval_steps_per_second": 55.766,
	"step": 1240000
	},
	{
	"epoch": 25.57,
	"learning_rate": 4.802801634286667e-06,
	"loss": 3.4116,
	"step": 1248000
	},
	{
	"epoch": 25.57,
	"eval_loss": 3.5629091262817383,
	"eval_runtime": 45.5765,
	"eval_samples_per_second": 901.825,
	"eval_steps_per_second": 56.367,
	"step": 1248000
	},
	{
	"epoch": 25.73,
	"eval_loss": 3.5490224361419678,
	"eval_runtime": 46.4409,
	"eval_samples_per_second": 885.039,
	"eval_steps_per_second": 55.318,
	"step": 1256000
	},
	{
	"epoch": 25.9,
	"learning_rate": 4.7360960560326865e-06,
	"loss": 3.4199,
	"step": 1264000
	},
	{
	"epoch": 25.9,
	"eval_loss": 3.567878484725952,
	"eval_runtime": 46.1595,
	"eval_samples_per_second": 890.434,
	"eval_steps_per_second": 55.655,
	"step": 1264000
	},
	{
	"epoch": 26.06,
	"eval_loss": 3.5885465145111084,
	"eval_runtime": 45.9316,
	"eval_samples_per_second": 894.853,
	"eval_steps_per_second": 55.931,
	"step": 1272000
	},
	{
	"epoch": 26.22,
	"learning_rate": 4.669390477778704e-06,
	"loss": 3.412,
	"step": 1280000
	},
	{
	"epoch": 26.22,
	"eval_loss": 3.5578629970550537,
	"eval_runtime": 46.4337,
	"eval_samples_per_second": 885.176,
	"eval_steps_per_second": 55.326,
	"step": 1280000
	},
	{
	"epoch": 26.39,
	"eval_loss": 3.5465352535247803,
	"eval_runtime": 45.7517,
	"eval_samples_per_second": 898.371,
	"eval_steps_per_second": 56.151,
	"step": 1288000
	},
	{
	"epoch": 26.55,
	"learning_rate": 4.602684899524723e-06,
	"loss": 3.4123,
	"step": 1296000
	},
	{
	"epoch": 26.55,
	"eval_loss": 3.572610855102539,
	"eval_runtime": 45.5426,
	"eval_samples_per_second": 902.496,
	"eval_steps_per_second": 56.409,
	"step": 1296000
	},
	{
	"epoch": 26.72,
	"eval_loss": 3.577484130859375,
	"eval_runtime": 46.4204,
	"eval_samples_per_second": 885.431,
	"eval_steps_per_second": 55.342,
	"step": 1304000
	},
	{
	"epoch": 26.88,
	"learning_rate": 4.5359793212707415e-06,
	"loss": 3.4132,
	"step": 1312000
	},
	{
	"epoch": 26.88,
	"eval_loss": 3.5477850437164307,
	"eval_runtime": 45.6512,
	"eval_samples_per_second": 900.348,
	"eval_steps_per_second": 56.275,
	"step": 1312000
	},
	{
	"epoch": 27.04,
	"eval_loss": 3.5588574409484863,
	"eval_runtime": 46.0446,
	"eval_samples_per_second": 892.657,
	"eval_steps_per_second": 55.794,
	"step": 1320000
	},
	{
	"epoch": 27.21,
	"learning_rate": 4.46927374301676e-06,
	"loss": 3.4161,
	"step": 1328000
	},
	{
	"epoch": 27.21,
	"eval_loss": 3.56620717048645,
	"eval_runtime": 46.4839,
	"eval_samples_per_second": 884.22,
	"eval_steps_per_second": 55.266,
	"step": 1328000
	},
	{
	"epoch": 27.37,
	"eval_loss": 3.589487075805664,
	"eval_runtime": 46.3966,
	"eval_samples_per_second": 885.884,
	"eval_steps_per_second": 55.37,
	"step": 1336000
	},
	{
	"epoch": 27.54,
	"learning_rate": 4.402568164762779e-06,
	"loss": 3.4097,
	"step": 1344000
	},
	{
	"epoch": 27.54,
	"eval_loss": 3.5940632820129395,
	"eval_runtime": 46.4364,
	"eval_samples_per_second": 885.125,
	"eval_steps_per_second": 55.323,
	"step": 1344000
	},
	{
	"epoch": 27.7,
	"eval_loss": 3.5912110805511475,
	"eval_runtime": 45.9687,
	"eval_samples_per_second": 894.131,
	"eval_steps_per_second": 55.886,
	"step": 1352000
	},
	{
	"epoch": 27.86,
	"learning_rate": 4.335862586508797e-06,
	"loss": 3.415,
	"step": 1360000
	},
	{
	"epoch": 27.86,
	"eval_loss": 3.565756320953369,
	"eval_runtime": 45.7621,
	"eval_samples_per_second": 898.168,
	"eval_steps_per_second": 56.138,
	"step": 1360000
	},
	{
	"epoch": 28.03,
	"eval_loss": 3.5553781986236572,
	"eval_runtime": 46.2903,
	"eval_samples_per_second": 887.919,
	"eval_steps_per_second": 55.498,
	"step": 1368000
	},
	{
	"epoch": 28.19,
	"learning_rate": 4.269157008254816e-06,
	"loss": 3.4193,
	"step": 1376000
	},
	{
	"epoch": 28.19,
	"eval_loss": 3.589851140975952,
	"eval_runtime": 45.8411,
	"eval_samples_per_second": 896.618,
	"eval_steps_per_second": 56.041,
	"step": 1376000
	},
	{
	"epoch": 28.36,
	"eval_loss": 3.5652260780334473,
	"eval_runtime": 45.5538,
	"eval_samples_per_second": 902.275,
	"eval_steps_per_second": 56.395,
	"step": 1384000
	},
	{
	"epoch": 28.52,
	"learning_rate": 4.202451430000834e-06,
	"loss": 3.4136,
	"step": 1392000
	},
	{
	"epoch": 28.52,
	"eval_loss": 3.5832390785217285,
	"eval_runtime": 46.575,
	"eval_samples_per_second": 882.491,
	"eval_steps_per_second": 55.158,
	"step": 1392000
	},
	{
	"epoch": 28.68,
	"eval_loss": 3.5885210037231445,
	"eval_runtime": 45.9659,
	"eval_samples_per_second": 894.184,
	"eval_steps_per_second": 55.889,
	"step": 1400000
	},
	{
	"epoch": 28.85,
	"learning_rate": 4.135745851746852e-06,
	"loss": 3.4294,
	"step": 1408000
	},
	{
	"epoch": 28.85,
	"eval_loss": 3.583249807357788,
	"eval_runtime": 45.7927,
	"eval_samples_per_second": 897.568,
	"eval_steps_per_second": 56.101,
	"step": 1408000
	},
	{
	"epoch": 29.01,
	"eval_loss": 3.6025209426879883,
	"eval_runtime": 46.362,
	"eval_samples_per_second": 886.546,
	"eval_steps_per_second": 55.412,
	"step": 1416000
	},
	{
	"epoch": 29.17,
	"learning_rate": 4.069040273492872e-06,
	"loss": 3.4243,
	"step": 1424000
	},
	{
	"epoch": 29.17,
	"eval_loss": 3.6040360927581787,
	"eval_runtime": 45.7855,
	"eval_samples_per_second": 897.708,
	"eval_steps_per_second": 56.11,
	"step": 1424000
	},
	{
	"epoch": 29.34,
	"eval_loss": 3.5890395641326904,
	"eval_runtime": 46.5109,
	"eval_samples_per_second": 883.707,
	"eval_steps_per_second": 55.234,
	"step": 1432000
	},
	{
	"epoch": 29.5,
	"learning_rate": 4.0023346952388895e-06,
	"loss": 3.4427,
	"step": 1440000
	},
	{
	"epoch": 29.5,
	"eval_loss": 3.58347749710083,
	"eval_runtime": 46.2896,
	"eval_samples_per_second": 887.931,
	"eval_steps_per_second": 55.498,
	"step": 1440000
	},
	{
	"epoch": 29.67,
	"eval_loss": 3.6185286045074463,
	"eval_runtime": 46.4189,
	"eval_samples_per_second": 885.459,
	"eval_steps_per_second": 55.344,
	"step": 1448000
	},
	{
	"epoch": 29.83,
	"learning_rate": 3.935629116984908e-06,
	"loss": 3.4293,
	"step": 1456000
	},
	{
	"epoch": 29.83,
	"eval_loss": 3.6028919219970703,
	"eval_runtime": 46.7251,
	"eval_samples_per_second": 879.656,
	"eval_steps_per_second": 54.981,
	"step": 1456000
	},
	{
	"epoch": 29.99,
	"eval_loss": 3.616161823272705,
	"eval_runtime": 45.7265,
	"eval_samples_per_second": 898.865,
	"eval_steps_per_second": 56.182,
	"step": 1464000
	},
	{
	"epoch": 30.16,
	"learning_rate": 3.868923538730927e-06,
	"loss": 3.4363,
	"step": 1472000
	},
	{
	"epoch": 30.16,
	"eval_loss": 3.6257941722869873,
	"eval_runtime": 45.6532,
	"eval_samples_per_second": 900.308,
	"eval_steps_per_second": 56.272,
	"step": 1472000
	},
	{
	"epoch": 30.32,
	"eval_loss": 3.6038014888763428,
	"eval_runtime": 46.717,
	"eval_samples_per_second": 879.808,
	"eval_steps_per_second": 54.991,
	"step": 1480000
	},
	{
	"epoch": 30.49,
	"learning_rate": 3.8022179604769453e-06,
	"loss": 3.4532,
	"step": 1488000
	},
	{
	"epoch": 30.49,
	"eval_loss": 3.6039483547210693,
	"eval_runtime": 45.742,
	"eval_samples_per_second": 898.562,
	"eval_steps_per_second": 56.163,
	"step": 1488000
	},
	{
	"epoch": 30.65,
	"eval_loss": 3.605367422103882,
	"eval_runtime": 45.7078,
	"eval_samples_per_second": 899.234,
	"eval_steps_per_second": 56.205,
	"step": 1496000
	},
	{
	"epoch": 30.81,
	"learning_rate": 3.735512382222964e-06,
	"loss": 3.4401,
	"step": 1504000
	},
	{
	"epoch": 30.81,
	"eval_loss": 3.6269376277923584,
	"eval_runtime": 46.6124,
	"eval_samples_per_second": 881.783,
	"eval_steps_per_second": 55.114,
	"step": 1504000
	},
	{
	"epoch": 30.98,
	"eval_loss": 3.600417137145996,
	"eval_runtime": 47.0146,
	"eval_samples_per_second": 874.239,
	"eval_steps_per_second": 54.643,
	"step": 1512000
	},
	{
	"epoch": 31.14,
	"learning_rate": 3.668806803968982e-06,
	"loss": 3.4491,
	"step": 1520000
	},
	{
	"epoch": 31.14,
	"eval_loss": 3.6095597743988037,
	"eval_runtime": 47.1653,
	"eval_samples_per_second": 871.446,
	"eval_steps_per_second": 54.468,
	"step": 1520000
	},
	{
	"epoch": 31.31,
	"eval_loss": 3.6216766834259033,
	"eval_runtime": 48.343,
	"eval_samples_per_second": 850.216,
	"eval_steps_per_second": 53.141,
	"step": 1528000
	},
	{
	"epoch": 31.47,
	"learning_rate": 3.6021012257150007e-06,
	"loss": 3.4438,
	"step": 1536000
	},
	{
	"epoch": 31.47,
	"eval_loss": 3.6081080436706543,
	"eval_runtime": 47.4804,
	"eval_samples_per_second": 865.663,
	"eval_steps_per_second": 54.107,
	"step": 1536000
	},
	{
	"epoch": 31.63,
	"eval_loss": 3.6190168857574463,
	"eval_runtime": 48.3587,
	"eval_samples_per_second": 849.941,
	"eval_steps_per_second": 53.124,
	"step": 1544000
	},
	{
	"epoch": 31.8,
	"learning_rate": 3.535395647461019e-06,
	"loss": 3.4337,
	"step": 1552000
	},
	{
	"epoch": 31.8,
	"eval_loss": 3.611992835998535,
	"eval_runtime": 47.5342,
	"eval_samples_per_second": 864.683,
	"eval_steps_per_second": 54.045,
	"step": 1552000
	},
	{
	"epoch": 31.96,
	"eval_loss": 3.586127996444702,
	"eval_runtime": 46.8726,
	"eval_samples_per_second": 876.888,
	"eval_steps_per_second": 54.808,
	"step": 1560000
	},
	{
	"epoch": 32.13,
	"learning_rate": 3.468690069207038e-06,
	"loss": 3.4475,
	"step": 1568000
	},
	{
	"epoch": 32.13,
	"eval_loss": 3.620932102203369,
	"eval_runtime": 48.2654,
	"eval_samples_per_second": 851.582,
	"eval_steps_per_second": 53.226,
	"step": 1568000
	},
	{
	"epoch": 32.29,
	"eval_loss": 3.6301937103271484,
	"eval_runtime": 47.2416,
	"eval_samples_per_second": 870.039,
	"eval_steps_per_second": 54.38,
	"step": 1576000
	},
	{
	"epoch": 32.45,
	"learning_rate": 3.4019844909530565e-06,
	"loss": 3.4406,
	"step": 1584000
	},
	{
	"epoch": 32.45,
	"eval_loss": 3.6052932739257812,
	"eval_runtime": 46.0861,
	"eval_samples_per_second": 891.852,
	"eval_steps_per_second": 55.743,
	"step": 1584000
	},
	{
	"epoch": 32.62,
	"eval_loss": 3.593369960784912,
	"eval_runtime": 49.6475,
	"eval_samples_per_second": 827.876,
	"eval_steps_per_second": 51.745,
	"step": 1592000
	},
	{
	"epoch": 32.78,
	"learning_rate": 3.3352789126990747e-06,
	"loss": 3.4392,
	"step": 1600000
	},
	{
	"epoch": 32.78,
	"eval_loss": 3.594203472137451,
	"eval_runtime": 47.8907,
	"eval_samples_per_second": 858.246,
	"eval_steps_per_second": 53.643,
	"step": 1600000
	},
	{
	"epoch": 32.94,
	"eval_loss": 3.601329803466797,
	"eval_runtime": 46.6549,
	"eval_samples_per_second": 880.98,
	"eval_steps_per_second": 55.064,
	"step": 1608000
	},
	{
	"epoch": 33.11,
	"learning_rate": 3.2685733344450933e-06,
	"loss": 3.4514,
	"step": 1616000
	},
	{
	"epoch": 33.11,
	"eval_loss": 3.6505630016326904,
	"eval_runtime": 47.3453,
	"eval_samples_per_second": 868.132,
	"eval_steps_per_second": 54.261,
	"step": 1616000
	},
	{
	"epoch": 33.27,
	"eval_loss": 3.604905128479004,
	"eval_runtime": 47.3478,
	"eval_samples_per_second": 868.087,
	"eval_steps_per_second": 54.258,
	"step": 1624000
	},
	{
	"epoch": 33.44,
	"learning_rate": 3.2018677561911115e-06,
	"loss": 3.4406,
	"step": 1632000
	},
	{
	"epoch": 33.44,
	"eval_loss": 3.6285159587860107,
	"eval_runtime": 45.2665,
	"eval_samples_per_second": 908.001,
	"eval_steps_per_second": 56.753,
	"step": 1632000
	},
	{
	"epoch": 33.6,
	"eval_loss": 3.6107122898101807,
	"eval_runtime": 47.0075,
	"eval_samples_per_second": 874.372,
	"eval_steps_per_second": 54.651,
	"step": 1640000
	},
	{
	"epoch": 33.76,
	"learning_rate": 3.1351621779371306e-06,
	"loss": 3.4522,
	"step": 1648000
	},
	{
	"epoch": 33.76,
	"eval_loss": 3.6080775260925293,
	"eval_runtime": 46.384,
	"eval_samples_per_second": 886.124,
	"eval_steps_per_second": 55.385,
	"step": 1648000
	},
	{
	"epoch": 33.93,
	"eval_loss": 3.6121394634246826,
	"eval_runtime": 47.5808,
	"eval_samples_per_second": 863.836,
	"eval_steps_per_second": 53.992,
	"step": 1656000
	},
	{
	"epoch": 34.09,
	"learning_rate": 3.0684565996831487e-06,
	"loss": 3.4592,
	"step": 1664000
	},
	{
	"epoch": 34.09,
	"eval_loss": 3.639568567276001,
	"eval_runtime": 47.4907,
	"eval_samples_per_second": 865.474,
	"eval_steps_per_second": 54.095,
	"step": 1664000
	},
	{
	"epoch": 34.26,
	"eval_loss": 3.628408432006836,
	"eval_runtime": 45.8805,
	"eval_samples_per_second": 895.849,
	"eval_steps_per_second": 55.993,
	"step": 1672000
	},
	{
	"epoch": 34.42,
	"learning_rate": 3.0017510214291673e-06,
	"loss": 3.4587,
	"step": 1680000
	},
	{
	"epoch": 34.42,
	"eval_loss": 3.619464635848999,
	"eval_runtime": 46.7813,
	"eval_samples_per_second": 878.599,
	"eval_steps_per_second": 54.915,
	"step": 1680000
	},
	{
	"epoch": 34.58,
	"eval_loss": 3.6168148517608643,
	"eval_runtime": 46.0408,
	"eval_samples_per_second": 892.731,
	"eval_steps_per_second": 55.798,
	"step": 1688000
	},
	{
	"epoch": 34.75,
	"learning_rate": 2.9350454431751855e-06,
	"loss": 3.4589,
	"step": 1696000
	},
	{
	"epoch": 34.75,
	"eval_loss": 3.631527900695801,
	"eval_runtime": 45.9831,
	"eval_samples_per_second": 893.85,
	"eval_steps_per_second": 55.868,
	"step": 1696000
	},
	{
	"epoch": 34.91,
	"eval_loss": 3.6044745445251465,
	"eval_runtime": 46.5293,
	"eval_samples_per_second": 883.356,
	"eval_steps_per_second": 55.212,
	"step": 1704000
	},
	{
	"epoch": 35.08,
	"learning_rate": 2.868339864921204e-06,
	"loss": 3.4703,
	"step": 1712000
	},
	{
	"epoch": 35.08,
	"eval_loss": 3.6251227855682373,
	"eval_runtime": 45.5912,
	"eval_samples_per_second": 901.533,
	"eval_steps_per_second": 56.349,
	"step": 1712000
	},
	{
	"epoch": 35.24,
	"eval_loss": 3.6251931190490723,
	"eval_runtime": 45.7404,
	"eval_samples_per_second": 898.593,
	"eval_steps_per_second": 56.165,
	"step": 1720000
	},
	{
	"epoch": 35.4,
	"learning_rate": 2.801634286667223e-06,
	"loss": 3.4565,
	"step": 1728000
	},
	{
	"epoch": 35.4,
	"eval_loss": 3.62538743019104,
	"eval_runtime": 46.4207,
	"eval_samples_per_second": 885.423,
	"eval_steps_per_second": 55.342,
	"step": 1728000
	},
	{
	"epoch": 35.57,
	"eval_loss": 3.6544113159179688,
	"eval_runtime": 45.7864,
	"eval_samples_per_second": 897.691,
	"eval_steps_per_second": 56.108,
	"step": 1736000
	},
	{
	"epoch": 35.73,
	"learning_rate": 2.7349287084132413e-06,
	"loss": 3.4634,
	"step": 1744000
	},
	{
	"epoch": 35.73,
	"eval_loss": 3.629049062728882,
	"eval_runtime": 46.556,
	"eval_samples_per_second": 882.85,
	"eval_steps_per_second": 55.181,
	"step": 1744000
	},
	{
	"epoch": 35.9,
	"eval_loss": 3.612429618835449,
	"eval_runtime": 46.5059,
	"eval_samples_per_second": 883.802,
	"eval_steps_per_second": 55.24,
	"step": 1752000
	},
	{
	"epoch": 36.06,
	"learning_rate": 2.66822313015926e-06,
	"loss": 3.4625,
	"step": 1760000
	},
	{
	"epoch": 36.06,
	"eval_loss": 3.6262378692626953,
	"eval_runtime": 45.8554,
	"eval_samples_per_second": 896.34,
	"eval_steps_per_second": 56.024,
	"step": 1760000
	},
	{
	"epoch": 36.22,
	"eval_loss": 3.6317975521087646,
	"eval_runtime": 46.7318,
	"eval_samples_per_second": 879.529,
	"eval_steps_per_second": 54.973,
	"step": 1768000
	},
	{
	"epoch": 36.39,
	"learning_rate": 2.601517551905278e-06,
	"loss": 3.457,
	"step": 1776000
	},
	{
	"epoch": 36.39,
	"eval_loss": 3.640812397003174,
	"eval_runtime": 45.9688,
	"eval_samples_per_second": 894.129,
	"eval_steps_per_second": 55.886,
	"step": 1776000
	},
	{
	"epoch": 36.55,
	"eval_loss": 3.6433026790618896,
	"eval_runtime": 45.8154,
	"eval_samples_per_second": 897.122,
	"eval_steps_per_second": 56.073,
	"step": 1784000
	},
	{
	"epoch": 36.71,
	"learning_rate": 2.5348119736512967e-06,
	"loss": 3.4618,
	"step": 1792000
	},
	{
	"epoch": 36.71,
	"eval_loss": 3.627612352371216,
	"eval_runtime": 46.6149,
	"eval_samples_per_second": 881.735,
	"eval_steps_per_second": 55.111,
	"step": 1792000
	},
	{
	"epoch": 36.88,
	"eval_loss": 3.631366014480591,
	"eval_runtime": 46.0925,
	"eval_samples_per_second": 891.729,
	"eval_steps_per_second": 55.736,
	"step": 1800000
	},
	{
	"epoch": 37.04,
	"learning_rate": 2.4681063953973154e-06,
	"loss": 3.4611,
	"step": 1808000
	},
	{
	"epoch": 37.04,
	"eval_loss": 3.6415860652923584,
	"eval_runtime": 46.287,
	"eval_samples_per_second": 887.982,
	"eval_steps_per_second": 55.502,
	"step": 1808000
	},
	{
	"epoch": 37.21,
	"eval_loss": 3.665800094604492,
	"eval_runtime": 46.839,
	"eval_samples_per_second": 877.517,
	"eval_steps_per_second": 54.847,
	"step": 1816000
	},
	{
	"epoch": 37.37,
	"learning_rate": 2.4014008171433335e-06,
	"loss": 3.4651,
	"step": 1824000
	},
	{
	"epoch": 37.37,
	"eval_loss": 3.638195037841797,
	"eval_runtime": 46.0815,
	"eval_samples_per_second": 891.942,
	"eval_steps_per_second": 55.749,
	"step": 1824000
	},
	{
	"epoch": 37.53,
	"eval_loss": 3.656243085861206,
	"eval_runtime": 45.3257,
	"eval_samples_per_second": 906.815,
	"eval_steps_per_second": 56.679,
	"step": 1832000
	},
	{
	"epoch": 37.7,
	"learning_rate": 2.334695238889352e-06,
	"loss": 3.4625,
	"step": 1840000
	},
	{
	"epoch": 37.7,
	"eval_loss": 3.6376214027404785,
	"eval_runtime": 47.1734,
	"eval_samples_per_second": 871.296,
	"eval_steps_per_second": 54.459,
	"step": 1840000
	},
	{
	"epoch": 37.86,
	"eval_loss": 3.651963710784912,
	"eval_runtime": 46.059,
	"eval_samples_per_second": 892.377,
	"eval_steps_per_second": 55.776,
	"step": 1848000
	},
	{
	"epoch": 38.03,
	"learning_rate": 2.2679896606353707e-06,
	"loss": 3.4561,
	"step": 1856000
	},
	{
	"epoch": 38.03,
	"eval_loss": 3.6300716400146484,
	"eval_runtime": 46.8158,
	"eval_samples_per_second": 877.951,
	"eval_steps_per_second": 54.875,
	"step": 1856000
	},
	{
	"epoch": 38.19,
	"eval_loss": 3.619462728500366,
	"eval_runtime": 45.8596,
	"eval_samples_per_second": 896.258,
	"eval_steps_per_second": 56.019,
	"step": 1864000
	},
	{
	"epoch": 38.35,
	"learning_rate": 2.2012840823813894e-06,
	"loss": 3.4655,
	"step": 1872000
	},
	{
	"epoch": 38.35,
	"eval_loss": 3.6279447078704834,
	"eval_runtime": 46.2215,
	"eval_samples_per_second": 889.241,
	"eval_steps_per_second": 55.58,
	"step": 1872000
	},
	{
	"epoch": 38.52,
	"eval_loss": 3.636460542678833,
	"eval_runtime": 46.7533,
	"eval_samples_per_second": 879.125,
	"eval_steps_per_second": 54.948,
	"step": 1880000
	},
	{
	"epoch": 38.68,
	"learning_rate": 2.134578504127408e-06,
	"loss": 3.4637,
	"step": 1888000
	},
	{
	"epoch": 38.68,
	"eval_loss": 3.638620138168335,
	"eval_runtime": 46.2177,
	"eval_samples_per_second": 889.313,
	"eval_steps_per_second": 55.585,
	"step": 1888000
	},
	{
	"epoch": 38.85,
	"eval_loss": 3.643373489379883,
	"eval_runtime": 45.9947,
	"eval_samples_per_second": 893.624,
	"eval_steps_per_second": 55.854,
	"step": 1896000
	},
	{
	"epoch": 39.01,
	"learning_rate": 2.067872925873426e-06,
	"loss": 3.458,
	"step": 1904000
	},
	{
	"epoch": 39.01,
	"eval_loss": 3.65189266204834,
	"eval_runtime": 46.7003,
	"eval_samples_per_second": 880.122,
	"eval_steps_per_second": 55.01,
	"step": 1904000
	},
	{
	"epoch": 39.17,
	"eval_loss": 3.6438076496124268,
	"eval_runtime": 46.3785,
	"eval_samples_per_second": 886.229,
	"eval_steps_per_second": 55.392,
	"step": 1912000
	},
	{
	"epoch": 39.34,
	"learning_rate": 2.0011673476194448e-06,
	"loss": 3.4523,
	"step": 1920000
	},
	{
	"epoch": 39.34,
	"eval_loss": 3.640777349472046,
	"eval_runtime": 46.701,
	"eval_samples_per_second": 880.109,
	"eval_steps_per_second": 55.01,
	"step": 1920000
	},
	{
	"epoch": 39.5,
	"eval_loss": 3.6513171195983887,
	"eval_runtime": 46.884,
	"eval_samples_per_second": 876.675,
	"eval_steps_per_second": 54.795,
	"step": 1928000
	},
	{
	"epoch": 39.66,
	"learning_rate": 1.9344617693654634e-06,
	"loss": 3.4743,
	"step": 1936000
	},
	{
	"epoch": 39.66,
	"eval_loss": 3.6177797317504883,
	"eval_runtime": 46.0686,
	"eval_samples_per_second": 892.192,
	"eval_steps_per_second": 55.765,
	"step": 1936000
	},
	{
	"epoch": 39.83,
	"eval_loss": 3.6398518085479736,
	"eval_runtime": 46.8575,
	"eval_samples_per_second": 877.171,
	"eval_steps_per_second": 54.826,
	"step": 1944000
	},
	{
	"epoch": 39.99,
	"learning_rate": 1.867756191111482e-06,
	"loss": 3.4626,
	"step": 1952000
	},
	{
	"epoch": 39.99,
	"eval_loss": 3.624283790588379,
	"eval_runtime": 46.1682,
	"eval_samples_per_second": 890.266,
	"eval_steps_per_second": 55.644,
	"step": 1952000
	},
	{
	"epoch": 40.16,
	"eval_loss": 3.6325714588165283,
	"eval_runtime": 45.9837,
	"eval_samples_per_second": 893.838,
	"eval_steps_per_second": 55.868,
	"step": 1960000
	},
	{
	"epoch": 40.32,
	"learning_rate": 1.8010506128575004e-06,
	"loss": 3.4692,
	"step": 1968000
	},
	{
	"epoch": 40.32,
	"eval_loss": 3.6723103523254395,
	"eval_runtime": 46.8787,
	"eval_samples_per_second": 876.773,
	"eval_steps_per_second": 54.801,
	"step": 1968000
	},
	{
	"epoch": 40.48,
	"eval_loss": 3.6456410884857178,
	"eval_runtime": 46.0442,
	"eval_samples_per_second": 892.664,
	"eval_steps_per_second": 55.794,
	"step": 1976000
	},
	{
	"epoch": 40.65,
	"learning_rate": 1.734345034603519e-06,
	"loss": 3.4765,
	"step": 1984000
	},
	{
	"epoch": 40.65,
	"eval_loss": 3.6437156200408936,
	"eval_runtime": 45.2826,
	"eval_samples_per_second": 907.678,
	"eval_steps_per_second": 56.733,
	"step": 1984000
	},
	{
	"epoch": 40.81,
	"eval_loss": 3.647704839706421,
	"eval_runtime": 46.8981,
	"eval_samples_per_second": 876.41,
	"eval_steps_per_second": 54.778,
	"step": 1992000
	},
	{
	"epoch": 40.98,
	"learning_rate": 1.6676394563495374e-06,
	"loss": 3.4747,
	"step": 2000000
	},
	{
	"epoch": 40.98,
	"eval_loss": 3.638388156890869,
	"eval_runtime": 46.0328,
	"eval_samples_per_second": 892.886,
	"eval_steps_per_second": 55.808,
	"step": 2000000
	},
	{
	"epoch": 41.14,
	"eval_loss": 3.6370368003845215,
	"eval_runtime": 46.7372,
	"eval_samples_per_second": 879.427,
	"eval_steps_per_second": 54.967,
	"step": 2008000
	},
	{
	"epoch": 41.3,
	"learning_rate": 1.6009338780955558e-06,
	"loss": 3.4683,
	"step": 2016000
	},
	{
	"epoch": 41.3,
	"eval_loss": 3.662468433380127,
	"eval_runtime": 46.61,
	"eval_samples_per_second": 881.828,
	"eval_steps_per_second": 55.117,
	"step": 2016000
	},
	{
	"epoch": 41.47,
	"eval_loss": 3.6453213691711426,
	"eval_runtime": 45.8611,
	"eval_samples_per_second": 896.229,
	"eval_steps_per_second": 56.017,
	"step": 2024000
	},
	{
	"epoch": 41.63,
	"learning_rate": 1.5342282998415744e-06,
	"loss": 3.4599,
	"step": 2032000
	},
	{
	"epoch": 41.63,
	"eval_loss": 3.64886212348938,
	"eval_runtime": 46.762,
	"eval_samples_per_second": 878.962,
	"eval_steps_per_second": 54.938,
	"step": 2032000
	},
	{
	"epoch": 41.8,
	"eval_loss": 3.6310884952545166,
	"eval_runtime": 46.4576,
	"eval_samples_per_second": 884.72,
	"eval_steps_per_second": 55.298,
	"step": 2040000
	},
	{
	"epoch": 41.96,
	"learning_rate": 1.4675227215875928e-06,
	"loss": 3.4713,
	"step": 2048000
	},
	{
	"epoch": 41.96,
	"eval_loss": 3.619154691696167,
	"eval_runtime": 45.9184,
	"eval_samples_per_second": 895.109,
	"eval_steps_per_second": 55.947,
	"step": 2048000
	},
	{
	"epoch": 42.12,
	"eval_loss": 3.651060104370117,
	"eval_runtime": 47.0032,
	"eval_samples_per_second": 874.451,
	"eval_steps_per_second": 54.656,
	"step": 2056000
	},
	{
	"epoch": 42.29,
	"learning_rate": 1.4008171433336116e-06,
	"loss": 3.4677,
	"step": 2064000
	},
	{
	"epoch": 42.29,
	"eval_loss": 3.6425869464874268,
	"eval_runtime": 46.3503,
	"eval_samples_per_second": 886.769,
	"eval_steps_per_second": 55.426,
	"step": 2064000
	},
	{
	"epoch": 42.45,
	"eval_loss": 3.6362836360931396,
	"eval_runtime": 46.2845,
	"eval_samples_per_second": 888.029,
	"eval_steps_per_second": 55.505,
	"step": 2072000
	},
	{
	"epoch": 42.62,
	"learning_rate": 1.33411156507963e-06,
	"loss": 3.4689,
	"step": 2080000
	},
	{
	"epoch": 42.62,
	"eval_loss": 3.6378438472747803,
	"eval_runtime": 47.0132,
	"eval_samples_per_second": 874.265,
	"eval_steps_per_second": 54.644,
	"step": 2080000
	},
	{
	"epoch": 42.78,
	"eval_loss": 3.6450445652008057,
	"eval_runtime": 46.1055,
	"eval_samples_per_second": 891.478,
	"eval_steps_per_second": 55.72,
	"step": 2088000
	},
	{
	"epoch": 42.94,
	"learning_rate": 1.2674059868256484e-06,
	"loss": 3.4598,
	"step": 2096000
	},
	{
	"epoch": 42.94,
	"eval_loss": 3.64805006980896,
	"eval_runtime": 46.8684,
	"eval_samples_per_second": 876.967,
	"eval_steps_per_second": 54.813,
	"step": 2096000
	},
	{
	"epoch": 43.11,
	"eval_loss": 3.6675028800964355,
	"eval_runtime": 46.4765,
	"eval_samples_per_second": 884.36,
	"eval_steps_per_second": 55.275,
	"step": 2104000
	},
	{
	"epoch": 43.27,
	"learning_rate": 1.2007004085716668e-06,
	"loss": 3.4487,
	"step": 2112000
	},
	{
	"epoch": 43.27,
	"eval_loss": 3.6557657718658447,
	"eval_runtime": 46.0356,
	"eval_samples_per_second": 892.83,
	"eval_steps_per_second": 55.805,
	"step": 2112000
	},
	{
	"epoch": 43.43,
	"eval_loss": 3.6451427936553955,
	"eval_runtime": 47.3121,
	"eval_samples_per_second": 868.741,
	"eval_steps_per_second": 54.299,
	"step": 2120000
	},
	{
	"epoch": 43.6,
	"learning_rate": 1.1339948303176854e-06,
	"loss": 3.4555,
	"step": 2128000
	},
	{
	"epoch": 43.6,
	"eval_loss": 3.643132448196411,
	"eval_runtime": 46.2499,
	"eval_samples_per_second": 888.694,
	"eval_steps_per_second": 55.546,
	"step": 2128000
	},
	{
	"epoch": 43.76,
	"eval_loss": 3.6470389366149902,
	"eval_runtime": 45.8331,
	"eval_samples_per_second": 896.776,
	"eval_steps_per_second": 56.051,
	"step": 2136000
	},
	{
	"epoch": 43.93,
	"learning_rate": 1.067289252063704e-06,
	"loss": 3.4727,
	"step": 2144000
	},
	{
	"epoch": 43.93,
	"eval_loss": 3.6265406608581543,
	"eval_runtime": 47.1162,
	"eval_samples_per_second": 872.353,
	"eval_steps_per_second": 54.525,
	"step": 2144000
	},
	{
	"epoch": 44.09,
	"eval_loss": 3.6335132122039795,
	"eval_runtime": 45.9499,
	"eval_samples_per_second": 894.497,
	"eval_steps_per_second": 55.909,
	"step": 2152000
	},
	{
	"epoch": 44.25,
	"learning_rate": 1.0005836738097224e-06,
	"loss": 3.4626,
	"step": 2160000
	},
	{
	"epoch": 44.25,
	"eval_loss": 3.639557123184204,
	"eval_runtime": 46.75,
	"eval_samples_per_second": 879.187,
	"eval_steps_per_second": 54.952,
	"step": 2160000
	},
	{
	"epoch": 44.42,
	"eval_loss": 3.653687000274658,
	"eval_runtime": 47.165,
	"eval_samples_per_second": 871.452,
	"eval_steps_per_second": 54.468,
	"step": 2168000
	},
	{
	"epoch": 44.58,
	"learning_rate": 9.33878095555741e-07,
	"loss": 3.4724,
	"step": 2176000
	},
	{
	"epoch": 44.58,
	"eval_loss": 3.61678409576416,
	"eval_runtime": 46.2585,
	"eval_samples_per_second": 888.528,
	"eval_steps_per_second": 55.536,
	"step": 2176000
	},
	{
	"epoch": 44.75,
	"eval_loss": 3.644352674484253,
	"eval_runtime": 47.0469,
	"eval_samples_per_second": 873.64,
	"eval_steps_per_second": 54.605,
	"step": 2184000
	},
	{
	"epoch": 44.91,
	"learning_rate": 8.671725173017595e-07,
	"loss": 3.4545,
	"step": 2192000
	},
	{
	"epoch": 44.91,
	"eval_loss": 3.6440114974975586,
	"eval_runtime": 46.2426,
	"eval_samples_per_second": 888.835,
	"eval_steps_per_second": 55.555,
	"step": 2192000
	},
	{
	"epoch": 45.07,
	"eval_loss": 3.6327061653137207,
	"eval_runtime": 46.09,
	"eval_samples_per_second": 891.776,
	"eval_steps_per_second": 55.739,
	"step": 2200000
	},
	{
	"epoch": 45.24,
	"learning_rate": 8.004669390477779e-07,
	"loss": 3.461,
	"step": 2208000
	},
	{
	"epoch": 45.24,
	"eval_loss": 3.6362533569335938,
	"eval_runtime": 47.1445,
	"eval_samples_per_second": 871.831,
	"eval_steps_per_second": 54.492,
	"step": 2208000
	},
	{
	"epoch": 45.4,
	"eval_loss": 3.653747081756592,
	"eval_runtime": 46.2235,
	"eval_samples_per_second": 889.202,
	"eval_steps_per_second": 55.578,
	"step": 2216000
	},
	{
	"epoch": 45.57,
	"learning_rate": 7.337613607937964e-07,
	"loss": 3.4702,
	"step": 2224000
	},
	{
	"epoch": 45.57,
	"eval_loss": 3.6123247146606445,
	"eval_runtime": 46.168,
	"eval_samples_per_second": 890.27,
	"eval_steps_per_second": 55.645,
	"step": 2224000
	},
	{
	"epoch": 45.73,
	"eval_loss": 3.6554455757141113,
	"eval_runtime": 47.1193,
	"eval_samples_per_second": 872.296,
	"eval_steps_per_second": 54.521,
	"step": 2232000
	},
	{
	"epoch": 45.89,
	"learning_rate": 6.67055782539815e-07,
	"loss": 3.4565,
	"step": 2240000
	},
	{
	"epoch": 45.89,
	"eval_loss": 3.6522979736328125,
	"eval_runtime": 46.1449,
	"eval_samples_per_second": 890.716,
	"eval_steps_per_second": 55.672,
	"step": 2240000
	},
	{
	"epoch": 46.06,
	"eval_loss": 3.6339659690856934,
	"eval_runtime": 47.2579,
	"eval_samples_per_second": 869.739,
	"eval_steps_per_second": 54.361,
	"step": 2248000
	},
	{
	"epoch": 46.22,
	"learning_rate": 6.003502042858334e-07,
	"loss": 3.4517,
	"step": 2256000
	},
	{
	"epoch": 46.22,
	"eval_loss": 3.6459498405456543,
	"eval_runtime": 46.9038,
	"eval_samples_per_second": 876.305,
	"eval_steps_per_second": 54.772,
	"step": 2256000
	},
	{
	"epoch": 46.38,
	"eval_loss": 3.656141996383667,
	"eval_runtime": 46.3654,
	"eval_samples_per_second": 886.48,
	"eval_steps_per_second": 55.408,
	"step": 2264000
	},
	{
	"epoch": 46.55,
	"learning_rate": 5.33644626031852e-07,
	"loss": 3.4631,
	"step": 2272000
	},
	{
	"epoch": 46.55,
	"eval_loss": 3.6547927856445312,
	"eval_runtime": 47.1154,
	"eval_samples_per_second": 872.368,
	"eval_steps_per_second": 54.526,
	"step": 2272000
	},
	{
	"epoch": 46.71,
	"eval_loss": 3.6228716373443604,
	"eval_runtime": 46.2908,
	"eval_samples_per_second": 887.908,
	"eval_steps_per_second": 55.497,
	"step": 2280000
	},
	{
	"epoch": 46.88,
	"learning_rate": 4.669390477778705e-07,
	"loss": 3.4518,
	"step": 2288000
	},
	{
	"epoch": 46.88,
	"eval_loss": 3.6350128650665283,
	"eval_runtime": 46.3584,
	"eval_samples_per_second": 886.613,
	"eval_steps_per_second": 55.416,
	"step": 2288000
	},
	{
	"epoch": 47.04,
	"eval_loss": 3.6483192443847656,
	"eval_runtime": 47.24,
	"eval_samples_per_second": 870.067,
	"eval_steps_per_second": 54.382,
	"step": 2296000
	},
	{
	"epoch": 47.2,
	"learning_rate": 4.0023346952388894e-07,
	"loss": 3.4592,
	"step": 2304000
	},
	{
	"epoch": 47.2,
	"eval_loss": 3.6263089179992676,
	"eval_runtime": 47.0185,
	"eval_samples_per_second": 874.166,
	"eval_steps_per_second": 54.638,
	"step": 2304000
	},
	{
	"epoch": 47.37,
	"eval_loss": 3.6339097023010254,
	"eval_runtime": 46.0199,
	"eval_samples_per_second": 893.135,
	"eval_steps_per_second": 55.824,
	"step": 2312000
	},
	{
	"epoch": 47.53,
	"learning_rate": 3.335278912699075e-07,
	"loss": 3.4569,
	"step": 2320000
	},
	{
	"epoch": 47.53,
	"eval_loss": 3.659444808959961,
	"eval_runtime": 47.1636,
	"eval_samples_per_second": 871.477,
	"eval_steps_per_second": 54.47,
	"step": 2320000
	},
	{
	"epoch": 47.7,
	"eval_loss": 3.638535737991333,
	"eval_runtime": 46.1693,
	"eval_samples_per_second": 890.246,
	"eval_steps_per_second": 55.643,
	"step": 2328000
	},
	{
	"epoch": 47.86,
	"learning_rate": 2.66822313015926e-07,
	"loss": 3.4524,
	"step": 2336000
	},
	{
	"epoch": 47.86,
	"eval_loss": 3.6434078216552734,
	"eval_runtime": 47.0318,
	"eval_samples_per_second": 873.919,
	"eval_steps_per_second": 54.623,
	"step": 2336000
	},
	{
	"epoch": 48.02,
	"eval_loss": 3.650230646133423,
	"eval_runtime": 46.5514,
	"eval_samples_per_second": 882.938,
	"eval_steps_per_second": 55.186,
	"step": 2344000
	},
	{
	"epoch": 48.19,
	"learning_rate": 2.0011673476194447e-07,
	"loss": 3.4644,
	"step": 2352000
	},
	{
	"epoch": 48.19,
	"eval_loss": 3.617619276046753,
	"eval_runtime": 46.2116,
	"eval_samples_per_second": 889.43,
	"eval_steps_per_second": 55.592,
	"step": 2352000
	},
	{
	"epoch": 48.35,
	"eval_loss": 3.6293184757232666,
	"eval_runtime": 47.399,
	"eval_samples_per_second": 867.15,
	"eval_steps_per_second": 54.199,
	"step": 2360000
	},
	{
	"epoch": 48.52,
	"learning_rate": 1.33411156507963e-07,
	"loss": 3.4586,
	"step": 2368000
	},
	{
	"epoch": 48.52,
	"eval_loss": 3.630380392074585,
	"eval_runtime": 46.3912,
	"eval_samples_per_second": 885.987,
	"eval_steps_per_second": 55.377,
	"step": 2368000
	},
	{
	"epoch": 48.68,
	"eval_loss": 3.6343326568603516,
	"eval_runtime": 46.2144,
	"eval_samples_per_second": 889.376,
	"eval_steps_per_second": 55.589,
	"step": 2376000
	},
	{
	"epoch": 48.84,
	"learning_rate": 6.67055782539815e-08,
	"loss": 3.4439,
	"step": 2384000
	},
	{
	"epoch": 48.84,
	"eval_loss": 3.6090333461761475,
	"eval_runtime": 47.3482,
	"eval_samples_per_second": 868.08,
	"eval_steps_per_second": 54.258,
	"step": 2384000
	},
	{
	"epoch": 49.01,
	"eval_loss": 3.6414153575897217,
	"eval_runtime": 46.5994,
	"eval_samples_per_second": 882.029,
	"eval_steps_per_second": 55.13,
	"step": 2392000
	},
	{
	"epoch": 49.17,
	"learning_rate": 0.0,
	"loss": 3.4474,
	"step": 2400000
	},
	{
	"epoch": 49.17,
	"eval_loss": 3.620838165283203,
	"eval_runtime": 46.9825,
	"eval_samples_per_second": 874.835,
	"eval_steps_per_second": 54.68,
	"step": 2400000
	},
	{
	"epoch": 49.17,
	"step": 2400000,
	"total_flos": 6.906141294629226e+17,
	"train_loss": 3.376089767252604,
	"train_runtime": 158003.2062,
	"train_samples_per_second": 243.033,
	"train_steps_per_second": 15.19
	}
	],
	"logging_steps": 16000,
	"max_steps": 2400000,
	"num_train_epochs": 50,
	"save_steps": 32000,
	"total_flos": 6.906141294629226e+17,
	"trial_name": null,
	"trial_params": null
	}