b-atmaja

wav2vec2.0 model

9c3cfb1 about 3 years ago

80 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"global_step": 21600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"learning_rate": 9.953703703703704e-05,
	"loss": 1.1352,
	"step": 100
	},
	{
	"epoch": 0.02,
	"eval_accuracy": 0.7482928037643433,
	"eval_loss": 0.6091228127479553,
	"eval_runtime": 1960.8351,
	"eval_samples_per_second": 17.625,
	"eval_steps_per_second": 4.406,
	"step": 100
	},
	{
	"epoch": 0.05,
	"learning_rate": 9.907407407407407e-05,
	"loss": 0.5497,
	"step": 200
	},
	{
	"epoch": 0.05,
	"eval_accuracy": 0.9043981432914734,
	"eval_loss": 0.2794453501701355,
	"eval_runtime": 2070.7116,
	"eval_samples_per_second": 16.69,
	"eval_steps_per_second": 4.172,
	"step": 200
	},
	{
	"epoch": 0.07,
	"learning_rate": 9.861111111111112e-05,
	"loss": 0.4001,
	"step": 300
	},
	{
	"epoch": 0.07,
	"eval_accuracy": 0.9633391499519348,
	"eval_loss": 0.1039256900548935,
	"eval_runtime": 2051.9615,
	"eval_samples_per_second": 16.842,
	"eval_steps_per_second": 4.211,
	"step": 300
	},
	{
	"epoch": 0.09,
	"learning_rate": 9.814814814814815e-05,
	"loss": 0.2967,
	"step": 400
	},
	{
	"epoch": 0.09,
	"eval_accuracy": 0.9760127067565918,
	"eval_loss": 0.0726834237575531,
	"eval_runtime": 1976.3465,
	"eval_samples_per_second": 17.487,
	"eval_steps_per_second": 4.372,
	"step": 400
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.768518518518519e-05,
	"loss": 0.2572,
	"step": 500
	},
	{
	"epoch": 0.12,
	"eval_accuracy": 0.9752025604248047,
	"eval_loss": 0.07836401462554932,
	"eval_runtime": 1953.8972,
	"eval_samples_per_second": 17.688,
	"eval_steps_per_second": 4.422,
	"step": 500
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.722222222222223e-05,
	"loss": 0.1858,
	"step": 600
	},
	{
	"epoch": 0.14,
	"eval_accuracy": 0.987442135810852,
	"eval_loss": 0.03908771649003029,
	"eval_runtime": 1933.1285,
	"eval_samples_per_second": 17.878,
	"eval_steps_per_second": 4.469,
	"step": 600
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.675925925925926e-05,
	"loss": 0.1776,
	"step": 700
	},
	{
	"epoch": 0.16,
	"eval_accuracy": 0.9870080947875977,
	"eval_loss": 0.046012409031391144,
	"eval_runtime": 2073.2574,
	"eval_samples_per_second": 16.669,
	"eval_steps_per_second": 4.167,
	"step": 700
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.62962962962963e-05,
	"loss": 0.1253,
	"step": 800
	},
	{
	"epoch": 0.19,
	"eval_accuracy": 0.987442135810852,
	"eval_loss": 0.04302794486284256,
	"eval_runtime": 2100.3436,
	"eval_samples_per_second": 16.454,
	"eval_steps_per_second": 4.114,
	"step": 800
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.583333333333334e-05,
	"loss": 0.1509,
	"step": 900
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 0.9821469783782959,
	"eval_loss": 0.06500900536775589,
	"eval_runtime": 2096.1889,
	"eval_samples_per_second": 16.487,
	"eval_steps_per_second": 4.122,
	"step": 900
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.537037037037038e-05,
	"loss": 0.1574,
	"step": 1000
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 0.9847221970558167,
	"eval_loss": 0.059933874756097794,
	"eval_runtime": 2109.7765,
	"eval_samples_per_second": 16.381,
	"eval_steps_per_second": 4.095,
	"step": 1000
	},
	{
	"epoch": 0.25,
	"learning_rate": 9.490740740740742e-05,
	"loss": 0.1506,
	"step": 1100
	},
	{
	"epoch": 0.25,
	"eval_accuracy": 0.9896122813224792,
	"eval_loss": 0.034695032984018326,
	"eval_runtime": 2117.6815,
	"eval_samples_per_second": 16.32,
	"eval_steps_per_second": 4.08,
	"step": 1100
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.444444444444444e-05,
	"loss": 0.118,
	"step": 1200
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 0.9911168813705444,
	"eval_loss": 0.03316599503159523,
	"eval_runtime": 2107.0764,
	"eval_samples_per_second": 16.402,
	"eval_steps_per_second": 4.1,
	"step": 1200
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.398148148148148e-05,
	"loss": 0.0885,
	"step": 1300
	},
	{
	"epoch": 0.3,
	"eval_accuracy": 0.9947627186775208,
	"eval_loss": 0.019724205136299133,
	"eval_runtime": 2100.2147,
	"eval_samples_per_second": 16.455,
	"eval_steps_per_second": 4.114,
	"step": 1300
	},
	{
	"epoch": 0.32,
	"learning_rate": 9.351851851851852e-05,
	"loss": 0.0967,
	"step": 1400
	},
	{
	"epoch": 0.32,
	"eval_accuracy": 0.9936053156852722,
	"eval_loss": 0.022701723501086235,
	"eval_runtime": 2110.6117,
	"eval_samples_per_second": 16.374,
	"eval_steps_per_second": 4.094,
	"step": 1400
	},
	{
	"epoch": 0.35,
	"learning_rate": 9.305555555555556e-05,
	"loss": 0.0882,
	"step": 1500
	},
	{
	"epoch": 0.35,
	"eval_accuracy": 0.992274284362793,
	"eval_loss": 0.02855427749454975,
	"eval_runtime": 2115.7419,
	"eval_samples_per_second": 16.335,
	"eval_steps_per_second": 4.084,
	"step": 1500
	},
	{
	"epoch": 0.37,
	"learning_rate": 9.25925925925926e-05,
	"loss": 0.1056,
	"step": 1600
	},
	{
	"epoch": 0.37,
	"eval_accuracy": 0.9962384104728699,
	"eval_loss": 0.015638431534171104,
	"eval_runtime": 2093.1202,
	"eval_samples_per_second": 16.511,
	"eval_steps_per_second": 4.128,
	"step": 1600
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.212962962962963e-05,
	"loss": 0.1124,
	"step": 1700
	},
	{
	"epoch": 0.39,
	"eval_accuracy": 0.9942708611488342,
	"eval_loss": 0.023519381880760193,
	"eval_runtime": 2715.3988,
	"eval_samples_per_second": 12.727,
	"eval_steps_per_second": 3.182,
	"step": 1700
	},
	{
	"epoch": 0.42,
	"learning_rate": 9.166666666666667e-05,
	"loss": 0.0813,
	"step": 1800
	},
	{
	"epoch": 0.42,
	"eval_accuracy": 0.995341420173645,
	"eval_loss": 0.017750833183526993,
	"eval_runtime": 2099.7025,
	"eval_samples_per_second": 16.459,
	"eval_steps_per_second": 4.115,
	"step": 1800
	},
	{
	"epoch": 0.44,
	"learning_rate": 9.120370370370371e-05,
	"loss": 0.0609,
	"step": 1900
	},
	{
	"epoch": 0.44,
	"eval_accuracy": 0.9971932768821716,
	"eval_loss": 0.011351389810442924,
	"eval_runtime": 2142.3716,
	"eval_samples_per_second": 16.132,
	"eval_steps_per_second": 4.033,
	"step": 1900
	},
	{
	"epoch": 0.46,
	"learning_rate": 9.074074074074075e-05,
	"loss": 0.0891,
	"step": 2000
	},
	{
	"epoch": 0.46,
	"eval_accuracy": 0.9973379373550415,
	"eval_loss": 0.012310467660427094,
	"eval_runtime": 2095.1245,
	"eval_samples_per_second": 16.495,
	"eval_steps_per_second": 4.124,
	"step": 2000
	},
	{
	"epoch": 0.49,
	"learning_rate": 9.027777777777779e-05,
	"loss": 0.0424,
	"step": 2100
	},
	{
	"epoch": 0.49,
	"eval_accuracy": 0.9985821843147278,
	"eval_loss": 0.00660862447693944,
	"eval_runtime": 2101.8862,
	"eval_samples_per_second": 16.442,
	"eval_steps_per_second": 4.111,
	"step": 2100
	},
	{
	"epoch": 0.51,
	"learning_rate": 8.981481481481481e-05,
	"loss": 0.0546,
	"step": 2200
	},
	{
	"epoch": 0.51,
	"eval_accuracy": 0.9950520992279053,
	"eval_loss": 0.021980540826916695,
	"eval_runtime": 2121.7281,
	"eval_samples_per_second": 16.289,
	"eval_steps_per_second": 4.072,
	"step": 2200
	},
	{
	"epoch": 0.53,
	"learning_rate": 8.935185185185185e-05,
	"loss": 0.146,
	"step": 2300
	},
	{
	"epoch": 0.53,
	"eval_accuracy": 0.9940393567085266,
	"eval_loss": 0.02473669871687889,
	"eval_runtime": 2062.8449,
	"eval_samples_per_second": 16.754,
	"eval_steps_per_second": 4.188,
	"step": 2300
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.888888888888889e-05,
	"loss": 0.1174,
	"step": 2400
	},
	{
	"epoch": 0.56,
	"eval_accuracy": 0.9958622455596924,
	"eval_loss": 0.01570066250860691,
	"eval_runtime": 2017.5974,
	"eval_samples_per_second": 17.129,
	"eval_steps_per_second": 4.282,
	"step": 2400
	},
	{
	"epoch": 0.58,
	"learning_rate": 8.842592592592593e-05,
	"loss": 0.0848,
	"step": 2500
	},
	{
	"epoch": 0.58,
	"eval_accuracy": 0.9978298544883728,
	"eval_loss": 0.008064490742981434,
	"eval_runtime": 2005.1771,
	"eval_samples_per_second": 17.235,
	"eval_steps_per_second": 4.309,
	"step": 2500
	},
	{
	"epoch": 0.6,
	"learning_rate": 8.796296296296297e-05,
	"loss": 0.0792,
	"step": 2600
	},
	{
	"epoch": 0.6,
	"eval_accuracy": 0.9986110925674438,
	"eval_loss": 0.004222337622195482,
	"eval_runtime": 1999.0902,
	"eval_samples_per_second": 17.288,
	"eval_steps_per_second": 4.322,
	"step": 2600
	},
	{
	"epoch": 0.62,
	"learning_rate": 8.75e-05,
	"loss": 0.0482,
	"step": 2700
	},
	{
	"epoch": 0.62,
	"eval_accuracy": 0.9971354007720947,
	"eval_loss": 0.01219157688319683,
	"eval_runtime": 2001.1288,
	"eval_samples_per_second": 17.27,
	"eval_steps_per_second": 4.318,
	"step": 2700
	},
	{
	"epoch": 0.65,
	"learning_rate": 8.703703703703704e-05,
	"loss": 0.0697,
	"step": 2800
	},
	{
	"epoch": 0.65,
	"eval_accuracy": 0.9931133985519409,
	"eval_loss": 0.027987554669380188,
	"eval_runtime": 1997.1851,
	"eval_samples_per_second": 17.304,
	"eval_steps_per_second": 4.326,
	"step": 2800
	},
	{
	"epoch": 0.67,
	"learning_rate": 8.657407407407408e-05,
	"loss": 0.106,
	"step": 2900
	},
	{
	"epoch": 0.67,
	"eval_accuracy": 0.9977430701255798,
	"eval_loss": 0.008220946416258812,
	"eval_runtime": 2609.175,
	"eval_samples_per_second": 13.246,
	"eval_steps_per_second": 3.311,
	"step": 2900
	},
	{
	"epoch": 0.69,
	"learning_rate": 8.611111111111112e-05,
	"loss": 0.052,
	"step": 3000
	},
	{
	"epoch": 0.69,
	"eval_accuracy": 0.9971932768821716,
	"eval_loss": 0.01051583793014288,
	"eval_runtime": 1971.9035,
	"eval_samples_per_second": 17.526,
	"eval_steps_per_second": 4.382,
	"step": 3000
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.564814814814816e-05,
	"loss": 0.047,
	"step": 3100
	},
	{
	"epoch": 0.72,
	"eval_accuracy": 0.9978588223457336,
	"eval_loss": 0.009094738401472569,
	"eval_runtime": 1980.5023,
	"eval_samples_per_second": 17.45,
	"eval_steps_per_second": 4.363,
	"step": 3100
	},
	{
	"epoch": 0.74,
	"learning_rate": 8.518518518518518e-05,
	"loss": 0.0495,
	"step": 3200
	},
	{
	"epoch": 0.74,
	"eval_accuracy": 0.998466432094574,
	"eval_loss": 0.006100042257457972,
	"eval_runtime": 2070.7502,
	"eval_samples_per_second": 16.69,
	"eval_steps_per_second": 4.172,
	"step": 3200
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.472222222222222e-05,
	"loss": 0.0979,
	"step": 3300
	},
	{
	"epoch": 0.76,
	"eval_accuracy": 0.9978588223457336,
	"eval_loss": 0.009109850972890854,
	"eval_runtime": 1970.0999,
	"eval_samples_per_second": 17.542,
	"eval_steps_per_second": 4.386,
	"step": 3300
	},
	{
	"epoch": 0.79,
	"learning_rate": 8.425925925925926e-05,
	"loss": 0.0381,
	"step": 3400
	},
	{
	"epoch": 0.79,
	"eval_accuracy": 0.9951099753379822,
	"eval_loss": 0.021163903176784515,
	"eval_runtime": 1977.6331,
	"eval_samples_per_second": 17.475,
	"eval_steps_per_second": 4.369,
	"step": 3400
	},
	{
	"epoch": 0.81,
	"learning_rate": 8.379629629629629e-05,
	"loss": 0.0268,
	"step": 3500
	},
	{
	"epoch": 0.81,
	"eval_accuracy": 0.9980034828186035,
	"eval_loss": 0.008532223291695118,
	"eval_runtime": 1971.1529,
	"eval_samples_per_second": 17.533,
	"eval_steps_per_second": 4.383,
	"step": 3500
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.333333333333334e-05,
	"loss": 0.073,
	"step": 3600
	},
	{
	"epoch": 0.83,
	"eval_accuracy": 0.9961516261100769,
	"eval_loss": 0.017610933631658554,
	"eval_runtime": 1957.2329,
	"eval_samples_per_second": 17.658,
	"eval_steps_per_second": 4.414,
	"step": 3600
	},
	{
	"epoch": 0.86,
	"learning_rate": 8.287037037037037e-05,
	"loss": 0.0585,
	"step": 3700
	},
	{
	"epoch": 0.86,
	"eval_accuracy": 0.9971354007720947,
	"eval_loss": 0.011580849066376686,
	"eval_runtime": 1962.4064,
	"eval_samples_per_second": 17.611,
	"eval_steps_per_second": 4.403,
	"step": 3700
	},
	{
	"epoch": 0.88,
	"learning_rate": 8.240740740740741e-05,
	"loss": 0.0868,
	"step": 3800
	},
	{
	"epoch": 0.88,
	"eval_accuracy": 0.9994502067565918,
	"eval_loss": 0.00212017516605556,
	"eval_runtime": 1982.4259,
	"eval_samples_per_second": 17.433,
	"eval_steps_per_second": 4.358,
	"step": 3800
	},
	{
	"epoch": 0.9,
	"learning_rate": 8.194444444444445e-05,
	"loss": 0.0496,
	"step": 3900
	},
	{
	"epoch": 0.9,
	"eval_accuracy": 0.9978877305984497,
	"eval_loss": 0.008284298703074455,
	"eval_runtime": 1983.4898,
	"eval_samples_per_second": 17.424,
	"eval_steps_per_second": 4.356,
	"step": 3900
	},
	{
	"epoch": 0.93,
	"learning_rate": 8.148148148148148e-05,
	"loss": 0.0641,
	"step": 4000
	},
	{
	"epoch": 0.93,
	"eval_accuracy": 0.9967592358589172,
	"eval_loss": 0.013520145788788795,
	"eval_runtime": 1998.2946,
	"eval_samples_per_second": 17.295,
	"eval_steps_per_second": 4.324,
	"step": 4000
	},
	{
	"epoch": 0.95,
	"learning_rate": 8.101851851851853e-05,
	"loss": 0.0858,
	"step": 4100
	},
	{
	"epoch": 0.95,
	"eval_accuracy": 0.9989872574806213,
	"eval_loss": 0.003793817013502121,
	"eval_runtime": 2125.8264,
	"eval_samples_per_second": 16.257,
	"eval_steps_per_second": 4.064,
	"step": 4100
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.055555555555556e-05,
	"loss": 0.0483,
	"step": 4200
	},
	{
	"epoch": 0.97,
	"eval_accuracy": 0.9978588223457336,
	"eval_loss": 0.009265501983463764,
	"eval_runtime": 2260.2096,
	"eval_samples_per_second": 15.291,
	"eval_steps_per_second": 3.823,
	"step": 4200
	},
	{
	"epoch": 1.0,
	"learning_rate": 8.00925925925926e-05,
	"loss": 0.1115,
	"step": 4300
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.9990162253379822,
	"eval_loss": 0.003752070013433695,
	"eval_runtime": 1992.5237,
	"eval_samples_per_second": 17.345,
	"eval_steps_per_second": 4.336,
	"step": 4300
	},
	{
	"epoch": 1.02,
	"learning_rate": 7.962962962962964e-05,
	"loss": 0.0486,
	"step": 4400
	},
	{
	"epoch": 1.02,
	"eval_accuracy": 0.9991897940635681,
	"eval_loss": 0.0031358152627944946,
	"eval_runtime": 1985.6758,
	"eval_samples_per_second": 17.405,
	"eval_steps_per_second": 4.351,
	"step": 4400
	},
	{
	"epoch": 1.04,
	"learning_rate": 7.916666666666666e-05,
	"loss": 0.0166,
	"step": 4500
	},
	{
	"epoch": 1.04,
	"eval_accuracy": 0.9995370507240295,
	"eval_loss": 0.002144153229892254,
	"eval_runtime": 2034.5738,
	"eval_samples_per_second": 16.986,
	"eval_steps_per_second": 4.247,
	"step": 4500
	},
	{
	"epoch": 1.06,
	"learning_rate": 7.870370370370372e-05,
	"loss": 0.0084,
	"step": 4600
	},
	{
	"epoch": 1.06,
	"eval_accuracy": 0.9986979365348816,
	"eval_loss": 0.006190824322402477,
	"eval_runtime": 2022.3112,
	"eval_samples_per_second": 17.089,
	"eval_steps_per_second": 4.272,
	"step": 4600
	},
	{
	"epoch": 1.09,
	"learning_rate": 7.824074074074074e-05,
	"loss": 0.0205,
	"step": 4700
	},
	{
	"epoch": 1.09,
	"eval_accuracy": 0.999160885810852,
	"eval_loss": 0.0034529021941125393,
	"eval_runtime": 2036.3231,
	"eval_samples_per_second": 16.972,
	"eval_steps_per_second": 4.243,
	"step": 4700
	},
	{
	"epoch": 1.11,
	"learning_rate": 7.777777777777778e-05,
	"loss": 0.0217,
	"step": 4800
	},
	{
	"epoch": 1.11,
	"eval_accuracy": 0.9973379373550415,
	"eval_loss": 0.012433897703886032,
	"eval_runtime": 2054.4934,
	"eval_samples_per_second": 16.822,
	"eval_steps_per_second": 4.205,
	"step": 4800
	},
	{
	"epoch": 1.13,
	"learning_rate": 7.731481481481482e-05,
	"loss": 0.0407,
	"step": 4900
	},
	{
	"epoch": 1.13,
	"eval_accuracy": 0.9991030097007751,
	"eval_loss": 0.004298593383282423,
	"eval_runtime": 2009.8166,
	"eval_samples_per_second": 17.196,
	"eval_steps_per_second": 4.299,
	"step": 4900
	},
	{
	"epoch": 1.16,
	"learning_rate": 7.685185185185185e-05,
	"loss": 0.0598,
	"step": 5000
	},
	{
	"epoch": 1.16,
	"eval_accuracy": 0.9981771111488342,
	"eval_loss": 0.007797444239258766,
	"eval_runtime": 1996.948,
	"eval_samples_per_second": 17.306,
	"eval_steps_per_second": 4.327,
	"step": 5000
	},
	{
	"epoch": 1.18,
	"learning_rate": 7.638888888888889e-05,
	"loss": 0.058,
	"step": 5100
	},
	{
	"epoch": 1.18,
	"eval_accuracy": 0.9981192350387573,
	"eval_loss": 0.009161165915429592,
	"eval_runtime": 2007.394,
	"eval_samples_per_second": 17.216,
	"eval_steps_per_second": 4.304,
	"step": 5100
	},
	{
	"epoch": 1.2,
	"learning_rate": 7.592592592592593e-05,
	"loss": 0.0119,
	"step": 5200
	},
	{
	"epoch": 1.2,
	"eval_accuracy": 0.9994502067565918,
	"eval_loss": 0.0023240004666149616,
	"eval_runtime": 2021.6614,
	"eval_samples_per_second": 17.095,
	"eval_steps_per_second": 4.274,
	"step": 5200
	},
	{
	"epoch": 1.23,
	"learning_rate": 7.546296296296297e-05,
	"loss": 0.08,
	"step": 5300
	},
	{
	"epoch": 1.23,
	"eval_accuracy": 0.9976562261581421,
	"eval_loss": 0.009528687223792076,
	"eval_runtime": 2024.2247,
	"eval_samples_per_second": 17.073,
	"eval_steps_per_second": 4.268,
	"step": 5300
	},
	{
	"epoch": 1.25,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.0336,
	"step": 5400
	},
	{
	"epoch": 1.25,
	"eval_accuracy": 0.9995949268341064,
	"eval_loss": 0.0020153559744358063,
	"eval_runtime": 2005.7373,
	"eval_samples_per_second": 17.231,
	"eval_steps_per_second": 4.308,
	"step": 5400
	},
	{
	"epoch": 1.27,
	"learning_rate": 7.453703703703703e-05,
	"loss": 0.0508,
	"step": 5500
	},
	{
	"epoch": 1.27,
	"eval_accuracy": 0.9989004731178284,
	"eval_loss": 0.00367682590149343,
	"eval_runtime": 2024.401,
	"eval_samples_per_second": 17.072,
	"eval_steps_per_second": 4.268,
	"step": 5500
	},
	{
	"epoch": 1.3,
	"learning_rate": 7.407407407407407e-05,
	"loss": 0.0146,
	"step": 5600
	},
	{
	"epoch": 1.3,
	"eval_accuracy": 0.9992766380310059,
	"eval_loss": 0.002618621801957488,
	"eval_runtime": 2017.6548,
	"eval_samples_per_second": 17.129,
	"eval_steps_per_second": 4.282,
	"step": 5600
	},
	{
	"epoch": 1.32,
	"learning_rate": 7.361111111111111e-05,
	"loss": 0.038,
	"step": 5700
	},
	{
	"epoch": 1.32,
	"eval_accuracy": 0.9988425970077515,
	"eval_loss": 0.00465565687045455,
	"eval_runtime": 2002.1508,
	"eval_samples_per_second": 17.261,
	"eval_steps_per_second": 4.315,
	"step": 5700
	},
	{
	"epoch": 1.34,
	"learning_rate": 7.314814814814815e-05,
	"loss": 0.0613,
	"step": 5800
	},
	{
	"epoch": 1.34,
	"eval_accuracy": 0.998379647731781,
	"eval_loss": 0.005978360306471586,
	"eval_runtime": 2001.292,
	"eval_samples_per_second": 17.269,
	"eval_steps_per_second": 4.317,
	"step": 5800
	},
	{
	"epoch": 1.37,
	"learning_rate": 7.268518518518519e-05,
	"loss": 0.0364,
	"step": 5900
	},
	{
	"epoch": 1.37,
	"eval_accuracy": 0.9971064925193787,
	"eval_loss": 0.01282673142850399,
	"eval_runtime": 2012.1731,
	"eval_samples_per_second": 17.175,
	"eval_steps_per_second": 4.294,
	"step": 5900
	},
	{
	"epoch": 1.39,
	"learning_rate": 7.222222222222222e-05,
	"loss": 0.108,
	"step": 6000
	},
	{
	"epoch": 1.39,
	"eval_accuracy": 0.998379647731781,
	"eval_loss": 0.005587506573647261,
	"eval_runtime": 2228.721,
	"eval_samples_per_second": 15.507,
	"eval_steps_per_second": 3.877,
	"step": 6000
	},
	{
	"epoch": 1.41,
	"learning_rate": 7.175925925925926e-05,
	"loss": 0.0134,
	"step": 6100
	},
	{
	"epoch": 1.41,
	"eval_accuracy": 0.9985821843147278,
	"eval_loss": 0.0066048940643668175,
	"eval_runtime": 2000.8975,
	"eval_samples_per_second": 17.272,
	"eval_steps_per_second": 4.318,
	"step": 6100
	},
	{
	"epoch": 1.44,
	"learning_rate": 7.12962962962963e-05,
	"loss": 0.0389,
	"step": 6200
	},
	{
	"epoch": 1.44,
	"eval_accuracy": 0.9972511529922485,
	"eval_loss": 0.012162311002612114,
	"eval_runtime": 1997.5848,
	"eval_samples_per_second": 17.301,
	"eval_steps_per_second": 4.325,
	"step": 6200
	},
	{
	"epoch": 1.46,
	"learning_rate": 7.083333333333334e-05,
	"loss": 0.0208,
	"step": 6300
	},
	{
	"epoch": 1.46,
	"eval_accuracy": 0.9991030097007751,
	"eval_loss": 0.0034532626159489155,
	"eval_runtime": 2007.9035,
	"eval_samples_per_second": 17.212,
	"eval_steps_per_second": 4.303,
	"step": 6300
	},
	{
	"epoch": 1.48,
	"learning_rate": 7.037037037037038e-05,
	"loss": 0.0376,
	"step": 6400
	},
	{
	"epoch": 1.48,
	"eval_accuracy": 0.9991897940635681,
	"eval_loss": 0.004356299061328173,
	"eval_runtime": 1996.8911,
	"eval_samples_per_second": 17.307,
	"eval_steps_per_second": 4.327,
	"step": 6400
	},
	{
	"epoch": 1.5,
	"learning_rate": 6.99074074074074e-05,
	"loss": 0.0346,
	"step": 6500
	},
	{
	"epoch": 1.5,
	"eval_accuracy": 0.9969907402992249,
	"eval_loss": 0.017812130972743034,
	"eval_runtime": 2004.911,
	"eval_samples_per_second": 17.238,
	"eval_steps_per_second": 4.309,
	"step": 6500
	},
	{
	"epoch": 1.53,
	"learning_rate": 6.944444444444444e-05,
	"loss": 0.0189,
	"step": 6600
	},
	{
	"epoch": 1.53,
	"eval_accuracy": 0.9987847208976746,
	"eval_loss": 0.0057495711371302605,
	"eval_runtime": 2011.102,
	"eval_samples_per_second": 17.185,
	"eval_steps_per_second": 4.296,
	"step": 6600
	},
	{
	"epoch": 1.55,
	"learning_rate": 6.898148148148148e-05,
	"loss": 0.0141,
	"step": 6700
	},
	{
	"epoch": 1.55,
	"eval_accuracy": 0.9992766380310059,
	"eval_loss": 0.003152304096147418,
	"eval_runtime": 1989.9017,
	"eval_samples_per_second": 17.368,
	"eval_steps_per_second": 4.342,
	"step": 6700
	},
	{
	"epoch": 1.57,
	"learning_rate": 6.851851851851852e-05,
	"loss": 0.0719,
	"step": 6800
	},
	{
	"epoch": 1.57,
	"eval_accuracy": 0.9987847208976746,
	"eval_loss": 0.005420052912086248,
	"eval_runtime": 1969.8998,
	"eval_samples_per_second": 17.544,
	"eval_steps_per_second": 4.386,
	"step": 6800
	},
	{
	"epoch": 1.6,
	"learning_rate": 6.805555555555556e-05,
	"loss": 0.0225,
	"step": 6900
	},
	{
	"epoch": 1.6,
	"eval_accuracy": 0.9971932768821716,
	"eval_loss": 0.012641699984669685,
	"eval_runtime": 1981.1809,
	"eval_samples_per_second": 17.444,
	"eval_steps_per_second": 4.361,
	"step": 6900
	},
	{
	"epoch": 1.62,
	"learning_rate": 6.759259259259259e-05,
	"loss": 0.0682,
	"step": 7000
	},
	{
	"epoch": 1.62,
	"eval_accuracy": 0.9989583492279053,
	"eval_loss": 0.003953148610889912,
	"eval_runtime": 1973.9678,
	"eval_samples_per_second": 17.508,
	"eval_steps_per_second": 4.377,
	"step": 7000
	},
	{
	"epoch": 1.64,
	"learning_rate": 6.712962962962963e-05,
	"loss": 0.0521,
	"step": 7100
	},
	{
	"epoch": 1.64,
	"eval_accuracy": 0.998466432094574,
	"eval_loss": 0.005261498969048262,
	"eval_runtime": 1989.7692,
	"eval_samples_per_second": 17.369,
	"eval_steps_per_second": 4.342,
	"step": 7100
	},
	{
	"epoch": 1.67,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.0358,
	"step": 7200
	},
	{
	"epoch": 1.67,
	"eval_accuracy": 0.9993634223937988,
	"eval_loss": 0.002406924497336149,
	"eval_runtime": 1975.9496,
	"eval_samples_per_second": 17.49,
	"eval_steps_per_second": 4.373,
	"step": 7200
	},
	{
	"epoch": 1.69,
	"learning_rate": 6.620370370370371e-05,
	"loss": 0.0255,
	"step": 7300
	},
	{
	"epoch": 1.69,
	"eval_accuracy": 0.9984953999519348,
	"eval_loss": 0.007655243389308453,
	"eval_runtime": 1972.1073,
	"eval_samples_per_second": 17.524,
	"eval_steps_per_second": 4.381,
	"step": 7300
	},
	{
	"epoch": 1.71,
	"learning_rate": 6.574074074074075e-05,
	"loss": 0.0424,
	"step": 7400
	},
	{
	"epoch": 1.71,
	"eval_accuracy": 0.9996238350868225,
	"eval_loss": 0.0017167649930343032,
	"eval_runtime": 1980.6249,
	"eval_samples_per_second": 17.449,
	"eval_steps_per_second": 4.362,
	"step": 7400
	},
	{
	"epoch": 1.74,
	"learning_rate": 6.527777777777778e-05,
	"loss": 0.0214,
	"step": 7500
	},
	{
	"epoch": 1.74,
	"eval_accuracy": 0.9997106194496155,
	"eval_loss": 0.0009764753049239516,
	"eval_runtime": 2005.2649,
	"eval_samples_per_second": 17.235,
	"eval_steps_per_second": 4.309,
	"step": 7500
	},
	{
	"epoch": 1.76,
	"learning_rate": 6.481481481481482e-05,
	"loss": 0.0429,
	"step": 7600
	},
	{
	"epoch": 1.76,
	"eval_accuracy": 0.996006965637207,
	"eval_loss": 0.019011829048395157,
	"eval_runtime": 2045.2435,
	"eval_samples_per_second": 16.898,
	"eval_steps_per_second": 4.224,
	"step": 7600
	},
	{
	"epoch": 1.78,
	"learning_rate": 6.435185185185186e-05,
	"loss": 0.0783,
	"step": 7700
	},
	{
	"epoch": 1.78,
	"eval_accuracy": 0.9976562261581421,
	"eval_loss": 0.008234655484557152,
	"eval_runtime": 2041.1233,
	"eval_samples_per_second": 16.932,
	"eval_steps_per_second": 4.233,
	"step": 7700
	},
	{
	"epoch": 1.81,
	"learning_rate": 6.388888888888888e-05,
	"loss": 0.0141,
	"step": 7800
	},
	{
	"epoch": 1.81,
	"eval_accuracy": 0.9996238350868225,
	"eval_loss": 0.0018950661178678274,
	"eval_runtime": 1994.0408,
	"eval_samples_per_second": 17.332,
	"eval_steps_per_second": 4.333,
	"step": 7800
	},
	{
	"epoch": 1.83,
	"learning_rate": 6.342592592592594e-05,
	"loss": 0.0203,
	"step": 7900
	},
	{
	"epoch": 1.83,
	"eval_accuracy": 0.9994502067565918,
	"eval_loss": 0.0022274223156273365,
	"eval_runtime": 1978.2563,
	"eval_samples_per_second": 17.47,
	"eval_steps_per_second": 4.367,
	"step": 7900
	},
	{
	"epoch": 1.85,
	"learning_rate": 6.296296296296296e-05,
	"loss": 0.0439,
	"step": 8000
	},
	{
	"epoch": 1.85,
	"eval_accuracy": 0.9979166388511658,
	"eval_loss": 0.007150179240852594,
	"eval_runtime": 1990.4775,
	"eval_samples_per_second": 17.363,
	"eval_steps_per_second": 4.341,
	"step": 8000
	},
	{
	"epoch": 1.88,
	"learning_rate": 6.25e-05,
	"loss": 0.0228,
	"step": 8100
	},
	{
	"epoch": 1.88,
	"eval_accuracy": 0.9973090291023254,
	"eval_loss": 0.010999325662851334,
	"eval_runtime": 1995.6933,
	"eval_samples_per_second": 17.317,
	"eval_steps_per_second": 4.329,
	"step": 8100
	},
	{
	"epoch": 1.9,
	"learning_rate": 6.203703703703704e-05,
	"loss": 0.0386,
	"step": 8200
	},
	{
	"epoch": 1.9,
	"eval_accuracy": 0.9996817111968994,
	"eval_loss": 0.001689778990112245,
	"eval_runtime": 1983.468,
	"eval_samples_per_second": 17.424,
	"eval_steps_per_second": 4.356,
	"step": 8200
	},
	{
	"epoch": 1.92,
	"learning_rate": 6.157407407407407e-05,
	"loss": 0.023,
	"step": 8300
	},
	{
	"epoch": 1.92,
	"eval_accuracy": 0.9997106194496155,
	"eval_loss": 0.001407949603162706,
	"eval_runtime": 1979.2035,
	"eval_samples_per_second": 17.462,
	"eval_steps_per_second": 4.365,
	"step": 8300
	},
	{
	"epoch": 1.94,
	"learning_rate": 6.111111111111112e-05,
	"loss": 0.0188,
	"step": 8400
	},
	{
	"epoch": 1.94,
	"eval_accuracy": 0.9997395873069763,
	"eval_loss": 0.001248441985808313,
	"eval_runtime": 1986.8349,
	"eval_samples_per_second": 17.395,
	"eval_steps_per_second": 4.349,
	"step": 8400
	},
	{
	"epoch": 1.97,
	"learning_rate": 6.0648148148148154e-05,
	"loss": 0.0301,
	"step": 8500
	},
	{
	"epoch": 1.97,
	"eval_accuracy": 0.9998553395271301,
	"eval_loss": 0.0005934939254075289,
	"eval_runtime": 2006.6093,
	"eval_samples_per_second": 17.223,
	"eval_steps_per_second": 4.306,
	"step": 8500
	},
	{
	"epoch": 1.99,
	"learning_rate": 6.018518518518519e-05,
	"loss": 0.0077,
	"step": 8600
	},
	{
	"epoch": 1.99,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.00026703893672674894,
	"eval_runtime": 2048.5713,
	"eval_samples_per_second": 16.87,
	"eval_steps_per_second": 4.218,
	"step": 8600
	},
	{
	"epoch": 2.01,
	"learning_rate": 5.972222222222223e-05,
	"loss": 0.0291,
	"step": 8700
	},
	{
	"epoch": 2.01,
	"eval_accuracy": 0.9989872574806213,
	"eval_loss": 0.004098657984286547,
	"eval_runtime": 2031.7661,
	"eval_samples_per_second": 17.01,
	"eval_steps_per_second": 4.252,
	"step": 8700
	},
	{
	"epoch": 2.04,
	"learning_rate": 5.925925925925926e-05,
	"loss": 0.0274,
	"step": 8800
	},
	{
	"epoch": 2.04,
	"eval_accuracy": 0.9995949268341064,
	"eval_loss": 0.001983657479286194,
	"eval_runtime": 2040.4005,
	"eval_samples_per_second": 16.938,
	"eval_steps_per_second": 4.234,
	"step": 8800
	},
	{
	"epoch": 2.06,
	"learning_rate": 5.879629629629629e-05,
	"loss": 0.0193,
	"step": 8900
	},
	{
	"epoch": 2.06,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0003717490180861205,
	"eval_runtime": 2041.1098,
	"eval_samples_per_second": 16.932,
	"eval_steps_per_second": 4.233,
	"step": 8900
	},
	{
	"epoch": 2.08,
	"learning_rate": 5.833333333333334e-05,
	"loss": 0.0296,
	"step": 9000
	},
	{
	"epoch": 2.08,
	"eval_accuracy": 0.9997684955596924,
	"eval_loss": 0.0011291600530967116,
	"eval_runtime": 2004.7261,
	"eval_samples_per_second": 17.239,
	"eval_steps_per_second": 4.31,
	"step": 9000
	},
	{
	"epoch": 2.11,
	"learning_rate": 5.787037037037037e-05,
	"loss": 0.0033,
	"step": 9100
	},
	{
	"epoch": 2.11,
	"eval_accuracy": 0.9998553395271301,
	"eval_loss": 0.0005978959961794317,
	"eval_runtime": 2001.4449,
	"eval_samples_per_second": 17.268,
	"eval_steps_per_second": 4.317,
	"step": 9100
	},
	{
	"epoch": 2.13,
	"learning_rate": 5.740740740740741e-05,
	"loss": 0.0218,
	"step": 9200
	},
	{
	"epoch": 2.13,
	"eval_accuracy": 0.999160885810852,
	"eval_loss": 0.0025338120758533478,
	"eval_runtime": 1990.5201,
	"eval_samples_per_second": 17.362,
	"eval_steps_per_second": 4.341,
	"step": 9200
	},
	{
	"epoch": 2.15,
	"learning_rate": 5.6944444444444445e-05,
	"loss": 0.0238,
	"step": 9300
	},
	{
	"epoch": 2.15,
	"eval_accuracy": 0.999218761920929,
	"eval_loss": 0.0033705937676131725,
	"eval_runtime": 2019.0619,
	"eval_samples_per_second": 17.117,
	"eval_steps_per_second": 4.279,
	"step": 9300
	},
	{
	"epoch": 2.18,
	"learning_rate": 5.648148148148148e-05,
	"loss": 0.0319,
	"step": 9400
	},
	{
	"epoch": 2.18,
	"eval_accuracy": 0.9994791746139526,
	"eval_loss": 0.0017771282000467181,
	"eval_runtime": 1997.4844,
	"eval_samples_per_second": 17.302,
	"eval_steps_per_second": 4.325,
	"step": 9400
	},
	{
	"epoch": 2.2,
	"learning_rate": 5.6018518518518525e-05,
	"loss": 0.0465,
	"step": 9500
	},
	{
	"epoch": 2.2,
	"eval_accuracy": 0.9994502067565918,
	"eval_loss": 0.002331700176000595,
	"eval_runtime": 2012.3132,
	"eval_samples_per_second": 17.174,
	"eval_steps_per_second": 4.294,
	"step": 9500
	},
	{
	"epoch": 2.22,
	"learning_rate": 5.555555555555556e-05,
	"loss": 0.0412,
	"step": 9600
	},
	{
	"epoch": 2.22,
	"eval_accuracy": 0.9997395873069763,
	"eval_loss": 0.001237583113834262,
	"eval_runtime": 1999.8191,
	"eval_samples_per_second": 17.282,
	"eval_steps_per_second": 4.32,
	"step": 9600
	},
	{
	"epoch": 2.25,
	"learning_rate": 5.50925925925926e-05,
	"loss": 0.02,
	"step": 9700
	},
	{
	"epoch": 2.25,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0009390079067088664,
	"eval_runtime": 2008.6286,
	"eval_samples_per_second": 17.206,
	"eval_steps_per_second": 4.301,
	"step": 9700
	},
	{
	"epoch": 2.27,
	"learning_rate": 5.462962962962963e-05,
	"loss": 0.0226,
	"step": 9800
	},
	{
	"epoch": 2.27,
	"eval_accuracy": 0.9995949268341064,
	"eval_loss": 0.0017483533592894673,
	"eval_runtime": 2005.0151,
	"eval_samples_per_second": 17.237,
	"eval_steps_per_second": 4.309,
	"step": 9800
	},
	{
	"epoch": 2.29,
	"learning_rate": 5.4166666666666664e-05,
	"loss": 0.0104,
	"step": 9900
	},
	{
	"epoch": 2.29,
	"eval_accuracy": 0.9997684955596924,
	"eval_loss": 0.0008292018319480121,
	"eval_runtime": 1992.6545,
	"eval_samples_per_second": 17.344,
	"eval_steps_per_second": 4.336,
	"step": 9900
	},
	{
	"epoch": 2.31,
	"learning_rate": 5.370370370370371e-05,
	"loss": 0.0021,
	"step": 10000
	},
	{
	"epoch": 2.31,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.000292919430648908,
	"eval_runtime": 1987.2006,
	"eval_samples_per_second": 17.391,
	"eval_steps_per_second": 4.348,
	"step": 10000
	},
	{
	"epoch": 2.34,
	"learning_rate": 5.3240740740740744e-05,
	"loss": 0.0135,
	"step": 10100
	},
	{
	"epoch": 2.34,
	"eval_accuracy": 0.9987558126449585,
	"eval_loss": 0.005596287082880735,
	"eval_runtime": 2007.3126,
	"eval_samples_per_second": 17.217,
	"eval_steps_per_second": 4.304,
	"step": 10100
	},
	{
	"epoch": 2.36,
	"learning_rate": 5.2777777777777784e-05,
	"loss": 0.0319,
	"step": 10200
	},
	{
	"epoch": 2.36,
	"eval_accuracy": 0.9995949268341064,
	"eval_loss": 0.001722234534099698,
	"eval_runtime": 2007.5056,
	"eval_samples_per_second": 17.215,
	"eval_steps_per_second": 4.304,
	"step": 10200
	},
	{
	"epoch": 2.38,
	"learning_rate": 5.231481481481482e-05,
	"loss": 0.0279,
	"step": 10300
	},
	{
	"epoch": 2.38,
	"eval_accuracy": 0.9997106194496155,
	"eval_loss": 0.001128367381170392,
	"eval_runtime": 1980.2057,
	"eval_samples_per_second": 17.453,
	"eval_steps_per_second": 4.363,
	"step": 10300
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.185185185185185e-05,
	"loss": 0.0017,
	"step": 10400
	},
	{
	"epoch": 2.41,
	"eval_accuracy": 0.9997106194496155,
	"eval_loss": 0.0013848639791831374,
	"eval_runtime": 2007.1812,
	"eval_samples_per_second": 17.218,
	"eval_steps_per_second": 4.305,
	"step": 10400
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.138888888888889e-05,
	"loss": 0.0296,
	"step": 10500
	},
	{
	"epoch": 2.43,
	"eval_accuracy": 0.9989583492279053,
	"eval_loss": 0.005161995068192482,
	"eval_runtime": 1986.761,
	"eval_samples_per_second": 17.395,
	"eval_steps_per_second": 4.349,
	"step": 10500
	},
	{
	"epoch": 2.45,
	"learning_rate": 5.092592592592593e-05,
	"loss": 0.0168,
	"step": 10600
	},
	{
	"epoch": 2.45,
	"eval_accuracy": 0.9997974634170532,
	"eval_loss": 0.0004770481900777668,
	"eval_runtime": 2003.7003,
	"eval_samples_per_second": 17.248,
	"eval_steps_per_second": 4.312,
	"step": 10600
	},
	{
	"epoch": 2.48,
	"learning_rate": 5.046296296296297e-05,
	"loss": 0.0194,
	"step": 10700
	},
	{
	"epoch": 2.48,
	"eval_accuracy": 0.9997684955596924,
	"eval_loss": 0.000735765672288835,
	"eval_runtime": 1994.758,
	"eval_samples_per_second": 17.325,
	"eval_steps_per_second": 4.331,
	"step": 10700
	},
	{
	"epoch": 2.5,
	"learning_rate": 5e-05,
	"loss": 0.0006,
	"step": 10800
	},
	{
	"epoch": 2.5,
	"eval_accuracy": 0.9998263716697693,
	"eval_loss": 0.0009093827102333307,
	"eval_runtime": 2000.8621,
	"eval_samples_per_second": 17.273,
	"eval_steps_per_second": 4.318,
	"step": 10800
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.9537037037037035e-05,
	"loss": 0.0293,
	"step": 10900
	},
	{
	"epoch": 2.52,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.0005157970590516925,
	"eval_runtime": 2011.0169,
	"eval_samples_per_second": 17.185,
	"eval_steps_per_second": 4.296,
	"step": 10900
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.9074074074074075e-05,
	"loss": 0.0016,
	"step": 11000
	},
	{
	"epoch": 2.55,
	"eval_accuracy": 0.9994791746139526,
	"eval_loss": 0.0025301428977400064,
	"eval_runtime": 2000.9133,
	"eval_samples_per_second": 17.272,
	"eval_steps_per_second": 4.318,
	"step": 11000
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.8611111111111115e-05,
	"loss": 0.0069,
	"step": 11100
	},
	{
	"epoch": 2.57,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0004891157150268555,
	"eval_runtime": 2006.7369,
	"eval_samples_per_second": 17.222,
	"eval_steps_per_second": 4.305,
	"step": 11100
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.814814814814815e-05,
	"loss": 0.0001,
	"step": 11200
	},
	{
	"epoch": 2.59,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.00020419809152372181,
	"eval_runtime": 1993.3725,
	"eval_samples_per_second": 17.337,
	"eval_steps_per_second": 4.334,
	"step": 11200
	},
	{
	"epoch": 2.62,
	"learning_rate": 4.768518518518519e-05,
	"loss": 0.0108,
	"step": 11300
	},
	{
	"epoch": 2.62,
	"eval_accuracy": 0.9997974634170532,
	"eval_loss": 0.0010758559219539165,
	"eval_runtime": 2001.2763,
	"eval_samples_per_second": 17.269,
	"eval_steps_per_second": 4.317,
	"step": 11300
	},
	{
	"epoch": 2.64,
	"learning_rate": 4.722222222222222e-05,
	"loss": 0.0165,
	"step": 11400
	},
	{
	"epoch": 2.64,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0006313551566563547,
	"eval_runtime": 1995.5247,
	"eval_samples_per_second": 17.319,
	"eval_steps_per_second": 4.33,
	"step": 11400
	},
	{
	"epoch": 2.66,
	"learning_rate": 4.675925925925926e-05,
	"loss": 0.0001,
	"step": 11500
	},
	{
	"epoch": 2.66,
	"eval_accuracy": 0.9997974634170532,
	"eval_loss": 0.0007648964528925717,
	"eval_runtime": 2001.09,
	"eval_samples_per_second": 17.271,
	"eval_steps_per_second": 4.318,
	"step": 11500
	},
	{
	"epoch": 2.69,
	"learning_rate": 4.62962962962963e-05,
	"loss": 0.0244,
	"step": 11600
	},
	{
	"epoch": 2.69,
	"eval_accuracy": 0.9998553395271301,
	"eval_loss": 0.000668107473757118,
	"eval_runtime": 2000.7577,
	"eval_samples_per_second": 17.273,
	"eval_steps_per_second": 4.318,
	"step": 11600
	},
	{
	"epoch": 2.71,
	"learning_rate": 4.5833333333333334e-05,
	"loss": 0.0312,
	"step": 11700
	},
	{
	"epoch": 2.71,
	"eval_accuracy": 0.9995659589767456,
	"eval_loss": 0.001716578146442771,
	"eval_runtime": 1997.1256,
	"eval_samples_per_second": 17.305,
	"eval_steps_per_second": 4.326,
	"step": 11700
	},
	{
	"epoch": 2.73,
	"learning_rate": 4.5370370370370374e-05,
	"loss": 0.0191,
	"step": 11800
	},
	{
	"epoch": 2.73,
	"eval_accuracy": 0.9997395873069763,
	"eval_loss": 0.0007975550834089518,
	"eval_runtime": 1967.8746,
	"eval_samples_per_second": 17.562,
	"eval_steps_per_second": 4.391,
	"step": 11800
	},
	{
	"epoch": 2.75,
	"learning_rate": 4.490740740740741e-05,
	"loss": 0.0005,
	"step": 11900
	},
	{
	"epoch": 2.75,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0004628011374734342,
	"eval_runtime": 1958.7798,
	"eval_samples_per_second": 17.644,
	"eval_steps_per_second": 4.411,
	"step": 11900
	},
	{
	"epoch": 2.78,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 0.0259,
	"step": 12000
	},
	{
	"epoch": 2.78,
	"eval_accuracy": 0.9996238350868225,
	"eval_loss": 0.001358355744741857,
	"eval_runtime": 1971.0225,
	"eval_samples_per_second": 17.534,
	"eval_steps_per_second": 4.384,
	"step": 12000
	},
	{
	"epoch": 2.8,
	"learning_rate": 4.3981481481481486e-05,
	"loss": 0.0226,
	"step": 12100
	},
	{
	"epoch": 2.8,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00019500043708831072,
	"eval_runtime": 1970.5019,
	"eval_samples_per_second": 17.539,
	"eval_steps_per_second": 4.385,
	"step": 12100
	},
	{
	"epoch": 2.82,
	"learning_rate": 4.351851851851852e-05,
	"loss": 0.0,
	"step": 12200
	},
	{
	"epoch": 2.82,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.0002164940524380654,
	"eval_runtime": 1961.9305,
	"eval_samples_per_second": 17.615,
	"eval_steps_per_second": 4.404,
	"step": 12200
	},
	{
	"epoch": 2.85,
	"learning_rate": 4.305555555555556e-05,
	"loss": 0.0,
	"step": 12300
	},
	{
	"epoch": 2.85,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.00010657820530468598,
	"eval_runtime": 1973.4403,
	"eval_samples_per_second": 17.513,
	"eval_steps_per_second": 4.378,
	"step": 12300
	},
	{
	"epoch": 2.87,
	"learning_rate": 4.259259259259259e-05,
	"loss": 0.0145,
	"step": 12400
	},
	{
	"epoch": 2.87,
	"eval_accuracy": 1.0,
	"eval_loss": 4.758801151183434e-05,
	"eval_runtime": 1977.328,
	"eval_samples_per_second": 17.478,
	"eval_steps_per_second": 4.37,
	"step": 12400
	},
	{
	"epoch": 2.89,
	"learning_rate": 4.212962962962963e-05,
	"loss": 0.0083,
	"step": 12500
	},
	{
	"epoch": 2.89,
	"eval_accuracy": 0.9995659589767456,
	"eval_loss": 0.001972577767446637,
	"eval_runtime": 1962.5085,
	"eval_samples_per_second": 17.61,
	"eval_steps_per_second": 4.403,
	"step": 12500
	},
	{
	"epoch": 2.92,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.02,
	"step": 12600
	},
	{
	"epoch": 2.92,
	"eval_accuracy": 0.9994791746139526,
	"eval_loss": 0.00198388216085732,
	"eval_runtime": 1956.5161,
	"eval_samples_per_second": 17.664,
	"eval_steps_per_second": 4.416,
	"step": 12600
	},
	{
	"epoch": 2.94,
	"learning_rate": 4.1203703703703705e-05,
	"loss": 0.0293,
	"step": 12700
	},
	{
	"epoch": 2.94,
	"eval_accuracy": 0.9994212985038757,
	"eval_loss": 0.0031591171864420176,
	"eval_runtime": 1997.7409,
	"eval_samples_per_second": 17.3,
	"eval_steps_per_second": 4.325,
	"step": 12700
	},
	{
	"epoch": 2.96,
	"learning_rate": 4.074074074074074e-05,
	"loss": 0.0164,
	"step": 12800
	},
	{
	"epoch": 2.96,
	"eval_accuracy": 0.9997395873069763,
	"eval_loss": 0.0012433998053893447,
	"eval_runtime": 2019.1263,
	"eval_samples_per_second": 17.116,
	"eval_steps_per_second": 4.279,
	"step": 12800
	},
	{
	"epoch": 2.99,
	"learning_rate": 4.027777777777778e-05,
	"loss": 0.0147,
	"step": 12900
	},
	{
	"epoch": 2.99,
	"eval_accuracy": 0.9997684955596924,
	"eval_loss": 0.001224155188538134,
	"eval_runtime": 2015.6572,
	"eval_samples_per_second": 17.146,
	"eval_steps_per_second": 4.286,
	"step": 12900
	},
	{
	"epoch": 3.01,
	"learning_rate": 3.981481481481482e-05,
	"loss": 0.0112,
	"step": 13000
	},
	{
	"epoch": 3.01,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.0008148940978571773,
	"eval_runtime": 1991.7022,
	"eval_samples_per_second": 17.352,
	"eval_steps_per_second": 4.338,
	"step": 13000
	},
	{
	"epoch": 3.03,
	"learning_rate": 3.935185185185186e-05,
	"loss": 0.002,
	"step": 13100
	},
	{
	"epoch": 3.03,
	"eval_accuracy": 0.9997395873069763,
	"eval_loss": 0.0012871942017227411,
	"eval_runtime": 2016.2834,
	"eval_samples_per_second": 17.14,
	"eval_steps_per_second": 4.285,
	"step": 13100
	},
	{
	"epoch": 3.06,
	"learning_rate": 3.888888888888889e-05,
	"loss": 0.017,
	"step": 13200
	},
	{
	"epoch": 3.06,
	"eval_accuracy": 0.9997106194496155,
	"eval_loss": 0.0010973262833431363,
	"eval_runtime": 2017.4262,
	"eval_samples_per_second": 17.131,
	"eval_steps_per_second": 4.283,
	"step": 13200
	},
	{
	"epoch": 3.08,
	"learning_rate": 3.8425925925925924e-05,
	"loss": 0.0142,
	"step": 13300
	},
	{
	"epoch": 3.08,
	"eval_accuracy": 0.9996528029441833,
	"eval_loss": 0.0019141812808811665,
	"eval_runtime": 2002.6757,
	"eval_samples_per_second": 17.257,
	"eval_steps_per_second": 4.314,
	"step": 13300
	},
	{
	"epoch": 3.1,
	"learning_rate": 3.7962962962962964e-05,
	"loss": 0.008,
	"step": 13400
	},
	{
	"epoch": 3.1,
	"eval_accuracy": 0.9997395873069763,
	"eval_loss": 0.00135290517937392,
	"eval_runtime": 2020.5372,
	"eval_samples_per_second": 17.104,
	"eval_steps_per_second": 4.276,
	"step": 13400
	},
	{
	"epoch": 3.12,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.0411,
	"step": 13500
	},
	{
	"epoch": 3.12,
	"eval_accuracy": 0.9997974634170532,
	"eval_loss": 0.000736766669433564,
	"eval_runtime": 2162.1556,
	"eval_samples_per_second": 15.984,
	"eval_steps_per_second": 3.996,
	"step": 13500
	},
	{
	"epoch": 3.15,
	"learning_rate": 3.7037037037037037e-05,
	"loss": 0.0262,
	"step": 13600
	},
	{
	"epoch": 3.15,
	"eval_accuracy": 0.9998553395271301,
	"eval_loss": 0.000846204929985106,
	"eval_runtime": 2119.0303,
	"eval_samples_per_second": 16.309,
	"eval_steps_per_second": 4.077,
	"step": 13600
	},
	{
	"epoch": 3.17,
	"learning_rate": 3.6574074074074076e-05,
	"loss": 0.0198,
	"step": 13700
	},
	{
	"epoch": 3.17,
	"eval_accuracy": 0.9997106194496155,
	"eval_loss": 0.0010991438757628202,
	"eval_runtime": 2095.0628,
	"eval_samples_per_second": 16.496,
	"eval_steps_per_second": 4.124,
	"step": 13700
	},
	{
	"epoch": 3.19,
	"learning_rate": 3.611111111111111e-05,
	"loss": 0.0178,
	"step": 13800
	},
	{
	"epoch": 3.19,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.00029710811213590205,
	"eval_runtime": 2130.6792,
	"eval_samples_per_second": 16.22,
	"eval_steps_per_second": 4.055,
	"step": 13800
	},
	{
	"epoch": 3.22,
	"learning_rate": 3.564814814814815e-05,
	"loss": 0.0072,
	"step": 13900
	},
	{
	"epoch": 3.22,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00018699387146625668,
	"eval_runtime": 2082.0917,
	"eval_samples_per_second": 16.599,
	"eval_steps_per_second": 4.15,
	"step": 13900
	},
	{
	"epoch": 3.24,
	"learning_rate": 3.518518518518519e-05,
	"loss": 0.0004,
	"step": 14000
	},
	{
	"epoch": 3.24,
	"eval_accuracy": 0.9998263716697693,
	"eval_loss": 0.0013777822023257613,
	"eval_runtime": 2053.664,
	"eval_samples_per_second": 16.828,
	"eval_steps_per_second": 4.207,
	"step": 14000
	},
	{
	"epoch": 3.26,
	"learning_rate": 3.472222222222222e-05,
	"loss": 0.0191,
	"step": 14100
	},
	{
	"epoch": 3.26,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.0004184871504548937,
	"eval_runtime": 2048.7946,
	"eval_samples_per_second": 16.868,
	"eval_steps_per_second": 4.217,
	"step": 14100
	},
	{
	"epoch": 3.29,
	"learning_rate": 3.425925925925926e-05,
	"loss": 0.007,
	"step": 14200
	},
	{
	"epoch": 3.29,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.0004062869702465832,
	"eval_runtime": 2055.664,
	"eval_samples_per_second": 16.812,
	"eval_steps_per_second": 4.203,
	"step": 14200
	},
	{
	"epoch": 3.31,
	"learning_rate": 3.3796296296296295e-05,
	"loss": 0.0108,
	"step": 14300
	},
	{
	"epoch": 3.31,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.00011388419807190076,
	"eval_runtime": 2043.6545,
	"eval_samples_per_second": 16.911,
	"eval_steps_per_second": 4.228,
	"step": 14300
	},
	{
	"epoch": 3.33,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.0,
	"step": 14400
	},
	{
	"epoch": 3.33,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 7.532363088103011e-05,
	"eval_runtime": 2040.9204,
	"eval_samples_per_second": 16.934,
	"eval_steps_per_second": 4.233,
	"step": 14400
	},
	{
	"epoch": 3.36,
	"learning_rate": 3.2870370370370375e-05,
	"loss": 0.0006,
	"step": 14500
	},
	{
	"epoch": 3.36,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.0003408396732993424,
	"eval_runtime": 2057.5647,
	"eval_samples_per_second": 16.797,
	"eval_steps_per_second": 4.199,
	"step": 14500
	},
	{
	"epoch": 3.38,
	"learning_rate": 3.240740740740741e-05,
	"loss": 0.0085,
	"step": 14600
	},
	{
	"epoch": 3.38,
	"eval_accuracy": 0.9992766380310059,
	"eval_loss": 0.0034337618853896856,
	"eval_runtime": 2027.249,
	"eval_samples_per_second": 17.048,
	"eval_steps_per_second": 4.262,
	"step": 14600
	},
	{
	"epoch": 3.4,
	"learning_rate": 3.194444444444444e-05,
	"loss": 0.0002,
	"step": 14700
	},
	{
	"epoch": 3.4,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.0006225552642717957,
	"eval_runtime": 2004.1478,
	"eval_samples_per_second": 17.244,
	"eval_steps_per_second": 4.311,
	"step": 14700
	},
	{
	"epoch": 3.43,
	"learning_rate": 3.148148148148148e-05,
	"loss": 0.0181,
	"step": 14800
	},
	{
	"epoch": 3.43,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.000251033779932186,
	"eval_runtime": 2016.4131,
	"eval_samples_per_second": 17.139,
	"eval_steps_per_second": 4.285,
	"step": 14800
	},
	{
	"epoch": 3.45,
	"learning_rate": 3.101851851851852e-05,
	"loss": 0.0021,
	"step": 14900
	},
	{
	"epoch": 3.45,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.00040141510544344783,
	"eval_runtime": 2000.3942,
	"eval_samples_per_second": 17.277,
	"eval_steps_per_second": 4.319,
	"step": 14900
	},
	{
	"epoch": 3.47,
	"learning_rate": 3.055555555555556e-05,
	"loss": 0.0069,
	"step": 15000
	},
	{
	"epoch": 3.47,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0006463331519626081,
	"eval_runtime": 2015.2783,
	"eval_samples_per_second": 17.149,
	"eval_steps_per_second": 4.287,
	"step": 15000
	},
	{
	"epoch": 3.5,
	"learning_rate": 3.0092592592592593e-05,
	"loss": 0.0156,
	"step": 15100
	},
	{
	"epoch": 3.5,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.0001428252726327628,
	"eval_runtime": 1995.7618,
	"eval_samples_per_second": 17.317,
	"eval_steps_per_second": 4.329,
	"step": 15100
	},
	{
	"epoch": 3.52,
	"learning_rate": 2.962962962962963e-05,
	"loss": 0.0042,
	"step": 15200
	},
	{
	"epoch": 3.52,
	"eval_accuracy": 0.9997974634170532,
	"eval_loss": 0.000510143639985472,
	"eval_runtime": 2000.972,
	"eval_samples_per_second": 17.272,
	"eval_steps_per_second": 4.318,
	"step": 15200
	},
	{
	"epoch": 3.54,
	"learning_rate": 2.916666666666667e-05,
	"loss": 0.0233,
	"step": 15300
	},
	{
	"epoch": 3.54,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00019888828683178872,
	"eval_runtime": 2002.1598,
	"eval_samples_per_second": 17.261,
	"eval_steps_per_second": 4.315,
	"step": 15300
	},
	{
	"epoch": 3.56,
	"learning_rate": 2.8703703703703706e-05,
	"loss": 0.003,
	"step": 15400
	},
	{
	"epoch": 3.56,
	"eval_accuracy": 0.9997974634170532,
	"eval_loss": 0.0006905001355335116,
	"eval_runtime": 2000.419,
	"eval_samples_per_second": 17.276,
	"eval_steps_per_second": 4.319,
	"step": 15400
	},
	{
	"epoch": 3.59,
	"learning_rate": 2.824074074074074e-05,
	"loss": 0.0149,
	"step": 15500
	},
	{
	"epoch": 3.59,
	"eval_accuracy": 0.9998553395271301,
	"eval_loss": 0.000585312838666141,
	"eval_runtime": 1997.3791,
	"eval_samples_per_second": 17.303,
	"eval_steps_per_second": 4.326,
	"step": 15500
	},
	{
	"epoch": 3.61,
	"learning_rate": 2.777777777777778e-05,
	"loss": 0.0072,
	"step": 15600
	},
	{
	"epoch": 3.61,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.000229826764552854,
	"eval_runtime": 2001.2597,
	"eval_samples_per_second": 17.269,
	"eval_steps_per_second": 4.317,
	"step": 15600
	},
	{
	"epoch": 3.63,
	"learning_rate": 2.7314814814814816e-05,
	"loss": 0.0004,
	"step": 15700
	},
	{
	"epoch": 3.63,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 5.024338679504581e-05,
	"eval_runtime": 2013.5805,
	"eval_samples_per_second": 17.163,
	"eval_steps_per_second": 4.291,
	"step": 15700
	},
	{
	"epoch": 3.66,
	"learning_rate": 2.6851851851851855e-05,
	"loss": 0.0001,
	"step": 15800
	},
	{
	"epoch": 3.66,
	"eval_accuracy": 0.999913215637207,
	"eval_loss": 0.00017916383512783796,
	"eval_runtime": 1994.345,
	"eval_samples_per_second": 17.329,
	"eval_steps_per_second": 4.332,
	"step": 15800
	},
	{
	"epoch": 3.68,
	"learning_rate": 2.6388888888888892e-05,
	"loss": 0.0186,
	"step": 15900
	},
	{
	"epoch": 3.68,
	"eval_accuracy": 1.0,
	"eval_loss": 9.207503353536595e-06,
	"eval_runtime": 2056.2161,
	"eval_samples_per_second": 16.808,
	"eval_steps_per_second": 4.202,
	"step": 15900
	},
	{
	"epoch": 3.7,
	"learning_rate": 2.5925925925925925e-05,
	"loss": 0.0115,
	"step": 16000
	},
	{
	"epoch": 3.7,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00022165325935930014,
	"eval_runtime": 2044.6907,
	"eval_samples_per_second": 16.902,
	"eval_steps_per_second": 4.226,
	"step": 16000
	},
	{
	"epoch": 3.73,
	"learning_rate": 2.5462962962962965e-05,
	"loss": 0.0011,
	"step": 16100
	},
	{
	"epoch": 3.73,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00027788631268776953,
	"eval_runtime": 2046.6409,
	"eval_samples_per_second": 16.886,
	"eval_steps_per_second": 4.222,
	"step": 16100
	},
	{
	"epoch": 3.75,
	"learning_rate": 2.5e-05,
	"loss": 0.0048,
	"step": 16200
	},
	{
	"epoch": 3.75,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 5.909843821427785e-05,
	"eval_runtime": 2008.3137,
	"eval_samples_per_second": 17.208,
	"eval_steps_per_second": 4.302,
	"step": 16200
	},
	{
	"epoch": 3.77,
	"learning_rate": 2.4537037037037038e-05,
	"loss": 0.0042,
	"step": 16300
	},
	{
	"epoch": 3.77,
	"eval_accuracy": 1.0,
	"eval_loss": 6.828932328062365e-06,
	"eval_runtime": 2129.8226,
	"eval_samples_per_second": 16.227,
	"eval_steps_per_second": 4.057,
	"step": 16300
	},
	{
	"epoch": 3.8,
	"learning_rate": 2.4074074074074074e-05,
	"loss": 0.0024,
	"step": 16400
	},
	{
	"epoch": 3.8,
	"eval_accuracy": 1.0,
	"eval_loss": 8.2383139670128e-06,
	"eval_runtime": 2113.6583,
	"eval_samples_per_second": 16.351,
	"eval_steps_per_second": 4.088,
	"step": 16400
	},
	{
	"epoch": 3.82,
	"learning_rate": 2.361111111111111e-05,
	"loss": 0.0,
	"step": 16500
	},
	{
	"epoch": 3.82,
	"eval_accuracy": 1.0,
	"eval_loss": 5.800426606583642e-06,
	"eval_runtime": 2122.3997,
	"eval_samples_per_second": 16.283,
	"eval_steps_per_second": 4.071,
	"step": 16500
	},
	{
	"epoch": 3.84,
	"learning_rate": 2.314814814814815e-05,
	"loss": 0.0003,
	"step": 16600
	},
	{
	"epoch": 3.84,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00010272156214341521,
	"eval_runtime": 2128.9658,
	"eval_samples_per_second": 16.233,
	"eval_steps_per_second": 4.058,
	"step": 16600
	},
	{
	"epoch": 3.87,
	"learning_rate": 2.2685185185185187e-05,
	"loss": 0.0,
	"step": 16700
	},
	{
	"epoch": 3.87,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 7.889495464041829e-05,
	"eval_runtime": 2147.2327,
	"eval_samples_per_second": 16.095,
	"eval_steps_per_second": 4.024,
	"step": 16700
	},
	{
	"epoch": 3.89,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 0.0,
	"step": 16800
	},
	{
	"epoch": 3.89,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 7.938377530081198e-05,
	"eval_runtime": 2139.4855,
	"eval_samples_per_second": 16.153,
	"eval_steps_per_second": 4.038,
	"step": 16800
	},
	{
	"epoch": 3.91,
	"learning_rate": 2.175925925925926e-05,
	"loss": 0.0029,
	"step": 16900
	},
	{
	"epoch": 3.91,
	"eval_accuracy": 0.9998842477798462,
	"eval_loss": 0.0005274215945973992,
	"eval_runtime": 2142.1862,
	"eval_samples_per_second": 16.133,
	"eval_steps_per_second": 4.033,
	"step": 16900
	},
	{
	"epoch": 3.94,
	"learning_rate": 2.1296296296296296e-05,
	"loss": 0.0066,
	"step": 17000
	},
	{
	"epoch": 3.94,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00019657429947983474,
	"eval_runtime": 2149.2032,
	"eval_samples_per_second": 16.08,
	"eval_steps_per_second": 4.02,
	"step": 17000
	},
	{
	"epoch": 3.96,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 0.0079,
	"step": 17100
	},
	{
	"epoch": 3.96,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 5.7856173953041434e-05,
	"eval_runtime": 2135.9752,
	"eval_samples_per_second": 16.18,
	"eval_steps_per_second": 4.045,
	"step": 17100
	},
	{
	"epoch": 3.98,
	"learning_rate": 2.037037037037037e-05,
	"loss": 0.0091,
	"step": 17200
	},
	{
	"epoch": 3.98,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.00015575718134641647,
	"eval_runtime": 2158.5953,
	"eval_samples_per_second": 16.01,
	"eval_steps_per_second": 4.003,
	"step": 17200
	},
	{
	"epoch": 4.0,
	"learning_rate": 1.990740740740741e-05,
	"loss": 0.0951,
	"step": 17300
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 6.823511648690328e-05,
	"eval_runtime": 2106.2766,
	"eval_samples_per_second": 16.408,
	"eval_steps_per_second": 4.102,
	"step": 17300
	},
	{
	"epoch": 4.03,
	"learning_rate": 1.9444444444444445e-05,
	"loss": 0.0578,
	"step": 17400
	},
	{
	"epoch": 4.03,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.00031872568069957197,
	"eval_runtime": 2091.5056,
	"eval_samples_per_second": 16.524,
	"eval_steps_per_second": 4.131,
	"step": 17400
	},
	{
	"epoch": 4.05,
	"learning_rate": 1.8981481481481482e-05,
	"loss": 0.0171,
	"step": 17500
	},
	{
	"epoch": 4.05,
	"eval_accuracy": 0.9999421238899231,
	"eval_loss": 0.0003504869237076491,
	"eval_runtime": 2076.2302,
	"eval_samples_per_second": 16.646,
	"eval_steps_per_second": 4.161,
	"step": 17500
	},
	{
	"epoch": 4.07,
	"learning_rate": 1.8518518518518518e-05,
	"loss": 0.0305,
	"step": 17600
	},
	{
	"epoch": 4.07,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00012279333896003664,
	"eval_runtime": 2072.7643,
	"eval_samples_per_second": 16.673,
	"eval_steps_per_second": 4.168,
	"step": 17600
	},
	{
	"epoch": 4.1,
	"learning_rate": 1.8055555555555555e-05,
	"loss": 0.0449,
	"step": 17700
	},
	{
	"epoch": 4.1,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00021972648391965777,
	"eval_runtime": 2090.628,
	"eval_samples_per_second": 16.531,
	"eval_steps_per_second": 4.133,
	"step": 17700
	},
	{
	"epoch": 4.12,
	"learning_rate": 1.7592592592592595e-05,
	"loss": 0.0161,
	"step": 17800
	},
	{
	"epoch": 4.12,
	"eval_accuracy": 1.0,
	"eval_loss": 2.7198611860512756e-05,
	"eval_runtime": 2085.7289,
	"eval_samples_per_second": 16.57,
	"eval_steps_per_second": 4.142,
	"step": 17800
	},
	{
	"epoch": 4.14,
	"learning_rate": 1.712962962962963e-05,
	"loss": 0.0322,
	"step": 17900
	},
	{
	"epoch": 4.14,
	"eval_accuracy": 1.0,
	"eval_loss": 2.2180371161084622e-05,
	"eval_runtime": 2061.6769,
	"eval_samples_per_second": 16.763,
	"eval_steps_per_second": 4.191,
	"step": 17900
	},
	{
	"epoch": 4.17,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.0358,
	"step": 18000
	},
	{
	"epoch": 4.17,
	"eval_accuracy": 0.9999710917472839,
	"eval_loss": 0.00010751090303529054,
	"eval_runtime": 2107.1409,
	"eval_samples_per_second": 16.401,
	"eval_steps_per_second": 4.1,
	"step": 18000
	},
	{
	"epoch": 4.19,
	"learning_rate": 1.6203703703703704e-05,
	"loss": 0.0264,
	"step": 18100
	},
	{
	"epoch": 4.19,
	"eval_accuracy": 1.0,
	"eval_loss": 6.194192792463582e-06,
	"eval_runtime": 2091.7086,
	"eval_samples_per_second": 16.522,
	"eval_steps_per_second": 4.131,
	"step": 18100
	},
	{
	"epoch": 4.21,
	"learning_rate": 1.574074074074074e-05,
	"loss": 0.0199,
	"step": 18200
	},
	{
	"epoch": 4.21,
	"eval_accuracy": 1.0,
	"eval_loss": 6.114233656262513e-06,
	"eval_runtime": 2093.6259,
	"eval_samples_per_second": 16.507,
	"eval_steps_per_second": 4.127,
	"step": 18200
	},
	{
	"epoch": 4.24,
	"learning_rate": 1.527777777777778e-05,
	"loss": 0.0266,
	"step": 18300
	},
	{
	"epoch": 4.24,
	"eval_accuracy": 1.0,
	"eval_loss": 6.532317456731107e-06,
	"eval_runtime": 2103.3039,
	"eval_samples_per_second": 16.431,
	"eval_steps_per_second": 4.108,
	"step": 18300
	},
	{
	"epoch": 4.26,
	"learning_rate": 1.4814814814814815e-05,
	"loss": 0.0162,
	"step": 18400
	},
	{
	"epoch": 4.26,
	"eval_accuracy": 1.0,
	"eval_loss": 6.056379334040685e-06,
	"eval_runtime": 2141.6719,
	"eval_samples_per_second": 16.137,
	"eval_steps_per_second": 4.034,
	"step": 18400
	},
	{
	"epoch": 4.28,
	"learning_rate": 1.4351851851851853e-05,
	"loss": 0.0142,
	"step": 18500
	},
	{
	"epoch": 4.28,
	"eval_accuracy": 1.0,
	"eval_loss": 6.732083420502022e-06,
	"eval_runtime": 2137.4831,
	"eval_samples_per_second": 16.169,
	"eval_steps_per_second": 4.042,
	"step": 18500
	},
	{
	"epoch": 4.31,
	"learning_rate": 1.388888888888889e-05,
	"loss": 0.0353,
	"step": 18600
	},
	{
	"epoch": 4.31,
	"eval_accuracy": 1.0,
	"eval_loss": 5.884473466721829e-06,
	"eval_runtime": 2111.534,
	"eval_samples_per_second": 16.367,
	"eval_steps_per_second": 4.092,
	"step": 18600
	},
	{
	"epoch": 4.33,
	"learning_rate": 1.3425925925925928e-05,
	"loss": 0.0435,
	"step": 18700
	},
	{
	"epoch": 4.33,
	"eval_accuracy": 1.0,
	"eval_loss": 6.438468062697211e-06,
	"eval_runtime": 2127.2273,
	"eval_samples_per_second": 16.247,
	"eval_steps_per_second": 4.062,
	"step": 18700
	},
	{
	"epoch": 4.35,
	"learning_rate": 1.2962962962962962e-05,
	"loss": 0.0067,
	"step": 18800
	},
	{
	"epoch": 4.35,
	"eval_accuracy": 1.0,
	"eval_loss": 9.256172234017868e-06,
	"eval_runtime": 2183.0463,
	"eval_samples_per_second": 15.831,
	"eval_steps_per_second": 3.958,
	"step": 18800
	},
	{
	"epoch": 4.38,
	"learning_rate": 1.25e-05,
	"loss": 0.0299,
	"step": 18900
	},
	{
	"epoch": 4.38,
	"eval_accuracy": 1.0,
	"eval_loss": 6.904490419401554e-06,
	"eval_runtime": 2110.4592,
	"eval_samples_per_second": 16.376,
	"eval_steps_per_second": 4.094,
	"step": 18900
	},
	{
	"epoch": 4.4,
	"learning_rate": 1.2037037037037037e-05,
	"loss": 0.0063,
	"step": 19000
	},
	{
	"epoch": 4.4,
	"eval_accuracy": 1.0,
	"eval_loss": 6.991323061811272e-06,
	"eval_runtime": 2074.4391,
	"eval_samples_per_second": 16.66,
	"eval_steps_per_second": 4.165,
	"step": 19000
	},
	{
	"epoch": 4.42,
	"learning_rate": 1.1574074074074075e-05,
	"loss": 0.0117,
	"step": 19100
	},
	{
	"epoch": 4.42,
	"eval_accuracy": 1.0,
	"eval_loss": 5.223146672506118e-06,
	"eval_runtime": 2093.0232,
	"eval_samples_per_second": 16.512,
	"eval_steps_per_second": 4.128,
	"step": 19100
	},
	{
	"epoch": 4.44,
	"learning_rate": 1.1111111111111112e-05,
	"loss": 0.0107,
	"step": 19200
	},
	{
	"epoch": 4.44,
	"eval_accuracy": 1.0,
	"eval_loss": 7.764682777633425e-06,
	"eval_runtime": 2092.3489,
	"eval_samples_per_second": 16.517,
	"eval_steps_per_second": 4.129,
	"step": 19200
	},
	{
	"epoch": 4.47,
	"learning_rate": 1.0648148148148148e-05,
	"loss": 0.0162,
	"step": 19300
	},
	{
	"epoch": 4.47,
	"eval_accuracy": 1.0,
	"eval_loss": 5.700497240468394e-06,
	"eval_runtime": 2095.1985,
	"eval_samples_per_second": 16.495,
	"eval_steps_per_second": 4.124,
	"step": 19300
	},
	{
	"epoch": 4.49,
	"learning_rate": 1.0185185185185185e-05,
	"loss": 0.0138,
	"step": 19400
	},
	{
	"epoch": 4.49,
	"eval_accuracy": 1.0,
	"eval_loss": 5.209324172028573e-06,
	"eval_runtime": 2073.7497,
	"eval_samples_per_second": 16.665,
	"eval_steps_per_second": 4.166,
	"step": 19400
	},
	{
	"epoch": 4.51,
	"learning_rate": 9.722222222222223e-06,
	"loss": 0.0124,
	"step": 19500
	},
	{
	"epoch": 4.51,
	"eval_accuracy": 1.0,
	"eval_loss": 5.243016858003102e-06,
	"eval_runtime": 2056.3515,
	"eval_samples_per_second": 16.806,
	"eval_steps_per_second": 4.202,
	"step": 19500
	},
	{
	"epoch": 4.54,
	"learning_rate": 9.259259259259259e-06,
	"loss": 0.0083,
	"step": 19600
	},
	{
	"epoch": 4.54,
	"eval_accuracy": 1.0,
	"eval_loss": 5.0634776016522665e-06,
	"eval_runtime": 2077.8389,
	"eval_samples_per_second": 16.633,
	"eval_steps_per_second": 4.158,
	"step": 19600
	},
	{
	"epoch": 4.56,
	"learning_rate": 8.796296296296297e-06,
	"loss": 0.0066,
	"step": 19700
	},
	{
	"epoch": 4.56,
	"eval_accuracy": 1.0,
	"eval_loss": 4.925776011077687e-06,
	"eval_runtime": 2073.5316,
	"eval_samples_per_second": 16.667,
	"eval_steps_per_second": 4.167,
	"step": 19700
	},
	{
	"epoch": 4.58,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.0058,
	"step": 19800
	},
	{
	"epoch": 4.58,
	"eval_accuracy": 1.0,
	"eval_loss": 4.750945663545281e-06,
	"eval_runtime": 2057.702,
	"eval_samples_per_second": 16.795,
	"eval_steps_per_second": 4.199,
	"step": 19800
	},
	{
	"epoch": 4.61,
	"learning_rate": 7.87037037037037e-06,
	"loss": 0.0032,
	"step": 19900
	},
	{
	"epoch": 4.61,
	"eval_accuracy": 1.0,
	"eval_loss": 6.96109145792434e-06,
	"eval_runtime": 2071.5479,
	"eval_samples_per_second": 16.683,
	"eval_steps_per_second": 4.171,
	"step": 19900
	},
	{
	"epoch": 4.63,
	"learning_rate": 7.4074074074074075e-06,
	"loss": 0.0205,
	"step": 20000
	},
	{
	"epoch": 4.63,
	"eval_accuracy": 1.0,
	"eval_loss": 4.608726612786995e-06,
	"eval_runtime": 2066.372,
	"eval_samples_per_second": 16.725,
	"eval_steps_per_second": 4.181,
	"step": 20000
	},
	{
	"epoch": 4.65,
	"learning_rate": 6.944444444444445e-06,
	"loss": 0.0094,
	"step": 20100
	},
	{
	"epoch": 4.65,
	"eval_accuracy": 1.0,
	"eval_loss": 4.8284973672707565e-06,
	"eval_runtime": 2054.9166,
	"eval_samples_per_second": 16.818,
	"eval_steps_per_second": 4.205,
	"step": 20100
	},
	{
	"epoch": 4.68,
	"learning_rate": 6.481481481481481e-06,
	"loss": 0.003,
	"step": 20200
	},
	{
	"epoch": 4.68,
	"eval_accuracy": 1.0,
	"eval_loss": 4.495966550166486e-06,
	"eval_runtime": 2072.6571,
	"eval_samples_per_second": 16.674,
	"eval_steps_per_second": 4.169,
	"step": 20200
	},
	{
	"epoch": 4.7,
	"learning_rate": 6.0185185185185185e-06,
	"loss": 0.0035,
	"step": 20300
	},
	{
	"epoch": 4.7,
	"eval_accuracy": 1.0,
	"eval_loss": 5.835635420226026e-06,
	"eval_runtime": 2047.8141,
	"eval_samples_per_second": 16.877,
	"eval_steps_per_second": 4.219,
	"step": 20300
	},
	{
	"epoch": 4.72,
	"learning_rate": 5.555555555555556e-06,
	"loss": 0.0257,
	"step": 20400
	},
	{
	"epoch": 4.72,
	"eval_accuracy": 1.0,
	"eval_loss": 5.829508609167533e-06,
	"eval_runtime": 2091.8646,
	"eval_samples_per_second": 16.521,
	"eval_steps_per_second": 4.13,
	"step": 20400
	},
	{
	"epoch": 4.75,
	"learning_rate": 5.092592592592592e-06,
	"loss": 0.0019,
	"step": 20500
	},
	{
	"epoch": 4.75,
	"eval_accuracy": 1.0,
	"eval_loss": 6.3429124566027895e-06,
	"eval_runtime": 2040.9379,
	"eval_samples_per_second": 16.933,
	"eval_steps_per_second": 4.233,
	"step": 20500
	},
	{
	"epoch": 4.77,
	"learning_rate": 4.6296296296296296e-06,
	"loss": 0.0023,
	"step": 20600
	},
	{
	"epoch": 4.77,
	"eval_accuracy": 1.0,
	"eval_loss": 8.131992217386141e-06,
	"eval_runtime": 2048.3614,
	"eval_samples_per_second": 16.872,
	"eval_steps_per_second": 4.218,
	"step": 20600
	},
	{
	"epoch": 4.79,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.0062,
	"step": 20700
	},
	{
	"epoch": 4.79,
	"eval_accuracy": 1.0,
	"eval_loss": 8.594151950092055e-06,
	"eval_runtime": 2094.5382,
	"eval_samples_per_second": 16.5,
	"eval_steps_per_second": 4.125,
	"step": 20700
	},
	{
	"epoch": 4.81,
	"learning_rate": 3.7037037037037037e-06,
	"loss": 0.0039,
	"step": 20800
	},
	{
	"epoch": 4.81,
	"eval_accuracy": 1.0,
	"eval_loss": 7.4294948717579246e-06,
	"eval_runtime": 2104.354,
	"eval_samples_per_second": 16.423,
	"eval_steps_per_second": 4.106,
	"step": 20800
	},
	{
	"epoch": 4.84,
	"learning_rate": 3.2407407407407406e-06,
	"loss": 0.0144,
	"step": 20900
	},
	{
	"epoch": 4.84,
	"eval_accuracy": 1.0,
	"eval_loss": 6.862039299448952e-06,
	"eval_runtime": 2101.0817,
	"eval_samples_per_second": 16.449,
	"eval_steps_per_second": 4.112,
	"step": 20900
	},
	{
	"epoch": 4.86,
	"learning_rate": 2.777777777777778e-06,
	"loss": 0.0109,
	"step": 21000
	},
	{
	"epoch": 4.86,
	"eval_accuracy": 1.0,
	"eval_loss": 6.136932825029362e-06,
	"eval_runtime": 2119.5964,
	"eval_samples_per_second": 16.305,
	"eval_steps_per_second": 4.076,
	"step": 21000
	},
	{
	"epoch": 4.88,
	"learning_rate": 2.3148148148148148e-06,
	"loss": 0.0148,
	"step": 21100
	},
	{
	"epoch": 4.88,
	"eval_accuracy": 1.0,
	"eval_loss": 6.497817139461404e-06,
	"eval_runtime": 2115.6009,
	"eval_samples_per_second": 16.336,
	"eval_steps_per_second": 4.084,
	"step": 21100
	},
	{
	"epoch": 4.91,
	"learning_rate": 1.8518518518518519e-06,
	"loss": 0.0308,
	"step": 21200
	},
	{
	"epoch": 4.91,
	"eval_accuracy": 1.0,
	"eval_loss": 7.753816134936642e-06,
	"eval_runtime": 2118.9207,
	"eval_samples_per_second": 16.31,
	"eval_steps_per_second": 4.078,
	"step": 21200
	},
	{
	"epoch": 4.93,
	"learning_rate": 1.388888888888889e-06,
	"loss": 0.0023,
	"step": 21300
	},
	{
	"epoch": 4.93,
	"eval_accuracy": 1.0,
	"eval_loss": 7.5415960054669995e-06,
	"eval_runtime": 2120.9953,
	"eval_samples_per_second": 16.294,
	"eval_steps_per_second": 4.074,
	"step": 21300
	},
	{
	"epoch": 4.95,
	"learning_rate": 9.259259259259259e-07,
	"loss": 0.0243,
	"step": 21400
	},
	{
	"epoch": 4.95,
	"eval_accuracy": 1.0,
	"eval_loss": 7.68591053201817e-06,
	"eval_runtime": 2120.6941,
	"eval_samples_per_second": 16.297,
	"eval_steps_per_second": 4.074,
	"step": 21400
	},
	{
	"epoch": 4.98,
	"learning_rate": 4.6296296296296297e-07,
	"loss": 0.0031,
	"step": 21500
	},
	{
	"epoch": 4.98,
	"eval_accuracy": 1.0,
	"eval_loss": 7.5350230872572865e-06,
	"eval_runtime": 2105.7948,
	"eval_samples_per_second": 16.412,
	"eval_steps_per_second": 4.103,
	"step": 21500
	},
	{
	"epoch": 5.0,
	"learning_rate": 0.0,
	"loss": 0.0272,
	"step": 21600
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 1.0,
	"eval_loss": 7.493398243241245e-06,
	"eval_runtime": 2100.1734,
	"eval_samples_per_second": 16.456,
	"eval_steps_per_second": 4.114,
	"step": 21600
	},
	{
	"epoch": 5.0,
	"step": 21600,
	"total_flos": 2.295560541703184e+19,
	"train_loss": 0.003923701412147946,
	"train_runtime": 97975.3145,
	"train_samples_per_second": 1.764,
	"train_steps_per_second": 0.22
	}
	],
	"max_steps": 21600,
	"num_train_epochs": 5,
	"total_flos": 2.295560541703184e+19,
	"trial_name": null,
	"trial_params": null
	}