distilbert-imdb-demo / trainer_state.json

Training in progress, epoch 1

ee6afe1 over 2 years ago

162 kB

	{
	"best_metric": 0.6920435428619385,
	"best_model_checkpoint": "./imdb_outputs/checkpoint-5314",
	"epoch": 5.0,
	"global_step": 13285,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.5048908954100828e-05,
	"loss": 0.6896,
	"step": 10
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.0097817908201657e-05,
	"loss": 0.684,
	"step": 20
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.514672686230249e-05,
	"loss": 0.6176,
	"step": 30
	},
	{
	"epoch": 0.02,
	"learning_rate": 6.0195635816403313e-05,
	"loss": 0.4737,
	"step": 40
	},
	{
	"epoch": 0.02,
	"learning_rate": 7.524454477050414e-05,
	"loss": 0.3974,
	"step": 50
	},
	{
	"epoch": 0.02,
	"learning_rate": 9.029345372460498e-05,
	"loss": 0.4758,
	"step": 60
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0001053423626787058,
	"loss": 0.3866,
	"step": 70
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00012039127163280663,
	"loss": 0.5445,
	"step": 80
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00013544018058690745,
	"loss": 0.4375,
	"step": 90
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00015048908954100828,
	"loss": 0.4384,
	"step": 100
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00016553799849510913,
	"loss": 0.3477,
	"step": 110
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00018058690744920995,
	"loss": 0.4281,
	"step": 120
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00019563581640331078,
	"loss": 0.5325,
	"step": 130
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002106847253574116,
	"loss": 0.6339,
	"step": 140
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00022573363431151243,
	"loss": 0.6693,
	"step": 150
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00024078254326561325,
	"loss": 0.5224,
	"step": 160
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002558314522197141,
	"loss": 0.6391,
	"step": 170
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002708803611738149,
	"loss": 0.5047,
	"step": 180
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00028592927012791573,
	"loss": 0.5958,
	"step": 190
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00030097817908201655,
	"loss": 0.59,
	"step": 200
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0003160270880361174,
	"loss": 0.7813,
	"step": 210
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00033107599699021826,
	"loss": 0.7294,
	"step": 220
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0003461249059443191,
	"loss": 0.7803,
	"step": 230
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0003611738148984199,
	"loss": 0.5583,
	"step": 240
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00037622272385252073,
	"loss": 0.4703,
	"step": 250
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00039127163280662156,
	"loss": 0.6904,
	"step": 260
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0004063205417607224,
	"loss": 0.5762,
	"step": 270
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0004213694507148232,
	"loss": 0.5184,
	"step": 280
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00043641835966892403,
	"loss": 0.5477,
	"step": 290
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00045146726862302486,
	"loss": 0.7142,
	"step": 300
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0004665161775771257,
	"loss": 0.6237,
	"step": 310
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0004815650865312265,
	"loss": 0.7138,
	"step": 320
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0004966139954853273,
	"loss": 0.7844,
	"step": 330
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0005116629044394282,
	"loss": 0.5712,
	"step": 340
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.000526711813393529,
	"loss": 0.7358,
	"step": 350
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0005417607223476298,
	"loss": 0.665,
	"step": 360
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0005568096313017306,
	"loss": 0.6351,
	"step": 370
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0005718585402558315,
	"loss": 0.5413,
	"step": 380
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0005869074492099323,
	"loss": 0.5889,
	"step": 390
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0006019563581640331,
	"loss": 0.5156,
	"step": 400
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0006170052671181339,
	"loss": 0.7493,
	"step": 410
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0006320541760722348,
	"loss": 0.5993,
	"step": 420
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0006471030850263356,
	"loss": 0.8799,
	"step": 430
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0006621519939804365,
	"loss": 0.7169,
	"step": 440
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0006772009029345373,
	"loss": 0.7097,
	"step": 450
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0006922498118886382,
	"loss": 0.6949,
	"step": 460
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.000707298720842739,
	"loss": 0.74,
	"step": 470
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0007223476297968398,
	"loss": 0.6673,
	"step": 480
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0007373965387509406,
	"loss": 0.7596,
	"step": 490
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0007524454477050415,
	"loss": 0.6971,
	"step": 500
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0007674943566591423,
	"loss": 0.712,
	"step": 510
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0007825432656132431,
	"loss": 0.7116,
	"step": 520
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0007975921745673439,
	"loss": 0.7192,
	"step": 530
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0008126410835214448,
	"loss": 0.7081,
	"step": 540
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0008276899924755456,
	"loss": 0.6847,
	"step": 550
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0008427389014296464,
	"loss": 0.7171,
	"step": 560
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0008577878103837472,
	"loss": 0.7274,
	"step": 570
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0008728367193378481,
	"loss": 0.7037,
	"step": 580
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0008878856282919489,
	"loss": 0.7008,
	"step": 590
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0009029345372460497,
	"loss": 0.6321,
	"step": 600
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0009179834462001505,
	"loss": 0.6766,
	"step": 610
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0009330323551542514,
	"loss": 0.6484,
	"step": 620
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0009480812641083522,
	"loss": 0.8377,
	"step": 630
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.000963130173062453,
	"loss": 0.5908,
	"step": 640
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0009781790820165537,
	"loss": 0.7359,
	"step": 650
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0009932279909706547,
	"loss": 0.6451,
	"step": 660
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0010082768999247556,
	"loss": 0.6498,
	"step": 670
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0010233258088788563,
	"loss": 0.609,
	"step": 680
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0010383747178329572,
	"loss": 0.5956,
	"step": 690
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.001053423626787058,
	"loss": 0.717,
	"step": 700
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.001068472535741159,
	"loss": 0.6324,
	"step": 710
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0010835214446952596,
	"loss": 0.5219,
	"step": 720
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0010985703536493605,
	"loss": 0.6154,
	"step": 730
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0011136192626034613,
	"loss": 0.6573,
	"step": 740
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0011286681715575622,
	"loss": 0.6134,
	"step": 750
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.001143717080511663,
	"loss": 0.5372,
	"step": 760
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0011587659894657638,
	"loss": 0.7781,
	"step": 770
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0011738148984198646,
	"loss": 0.7011,
	"step": 780
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0011888638073739655,
	"loss": 0.7259,
	"step": 790
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0012039127163280662,
	"loss": 0.7233,
	"step": 800
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0012189616252821671,
	"loss": 0.6953,
	"step": 810
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0012340105342362679,
	"loss": 0.6927,
	"step": 820
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0012490594431903688,
	"loss": 0.7095,
	"step": 830
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0012641083521444695,
	"loss": 0.6834,
	"step": 840
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0012791572610985704,
	"loss": 0.7397,
	"step": 850
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0012942061700526712,
	"loss": 0.7163,
	"step": 860
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.001309255079006772,
	"loss": 0.6996,
	"step": 870
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.001324303987960873,
	"loss": 0.695,
	"step": 880
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0013393528969149737,
	"loss": 0.6984,
	"step": 890
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0013544018058690747,
	"loss": 0.6935,
	"step": 900
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0013694507148231754,
	"loss": 0.6973,
	"step": 910
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0013844996237772763,
	"loss": 0.6817,
	"step": 920
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.001399548532731377,
	"loss": 0.7045,
	"step": 930
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.001414597441685478,
	"loss": 0.694,
	"step": 940
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0014296463506395787,
	"loss": 0.6823,
	"step": 950
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0014446952595936796,
	"loss": 0.6979,
	"step": 960
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0014597441685477803,
	"loss": 0.705,
	"step": 970
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0014747930775018813,
	"loss": 0.6959,
	"step": 980
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.001489841986455982,
	"loss": 0.6947,
	"step": 990
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.001504890895410083,
	"loss": 0.6952,
	"step": 1000
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0015199398043641836,
	"loss": 0.6948,
	"step": 1010
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0015349887133182846,
	"loss": 0.6909,
	"step": 1020
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0015500376222723853,
	"loss": 0.6985,
	"step": 1030
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0015650865312264862,
	"loss": 0.7143,
	"step": 1040
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.001580135440180587,
	"loss": 0.697,
	"step": 1050
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0015951843491346879,
	"loss": 0.6959,
	"step": 1060
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0016102332580887886,
	"loss": 0.6934,
	"step": 1070
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0016252821670428895,
	"loss": 0.6992,
	"step": 1080
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0016403310759969902,
	"loss": 0.691,
	"step": 1090
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0016553799849510912,
	"loss": 0.6852,
	"step": 1100
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.001670428893905192,
	"loss": 0.7017,
	"step": 1110
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0016854778028592928,
	"loss": 0.693,
	"step": 1120
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0017005267118133935,
	"loss": 0.6965,
	"step": 1130
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0017155756207674945,
	"loss": 0.6937,
	"step": 1140
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0017306245297215952,
	"loss": 0.7005,
	"step": 1150
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0017456734386756961,
	"loss": 0.6956,
	"step": 1160
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0017607223476297968,
	"loss": 0.6928,
	"step": 1170
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0017757712565838978,
	"loss": 0.6934,
	"step": 1180
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0017908201655379985,
	"loss": 0.7013,
	"step": 1190
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0018058690744920994,
	"loss": 0.698,
	"step": 1200
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0018209179834462001,
	"loss": 0.6863,
	"step": 1210
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.001835966892400301,
	"loss": 0.6931,
	"step": 1220
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0018510158013544018,
	"loss": 0.6951,
	"step": 1230
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0018660647103085027,
	"loss": 0.694,
	"step": 1240
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0018811136192626034,
	"loss": 0.6931,
	"step": 1250
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0018961625282167044,
	"loss": 0.6925,
	"step": 1260
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.001911211437170805,
	"loss": 0.695,
	"step": 1270
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.001926260346124906,
	"loss": 0.6915,
	"step": 1280
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0019413092550790067,
	"loss": 0.694,
	"step": 1290
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0019563581640331075,
	"loss": 0.6902,
	"step": 1300
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0019714070729872084,
	"loss": 0.6961,
	"step": 1310
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0019864559819413093,
	"loss": 0.6944,
	"step": 1320
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.001999999965477842,
	"loss": 0.6952,
	"step": 1330
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0019999958228217795,
	"loss": 0.685,
	"step": 1340
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.001999984775766913,
	"loss": 0.6935,
	"step": 1350
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0019999668243895164,
	"loss": 0.6931,
	"step": 1360
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0019999419688135336,
	"loss": 0.6905,
	"step": 1370
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.001999910209210578,
	"loss": 0.6937,
	"step": 1380
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.001999871545799931,
	"loss": 0.6893,
	"step": 1390
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0019998259788485424,
	"loss": 0.6946,
	"step": 1400
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0019997735086710253,
	"loss": 0.6913,
	"step": 1410
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.001999714135629656,
	"loss": 0.6934,
	"step": 1420
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0019996478601343724,
	"loss": 0.6917,
	"step": 1430
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0019995746826427675,
	"loss": 0.6967,
	"step": 1440
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0019994946036600908,
	"loss": 0.6893,
	"step": 1450
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0019994076237392416,
	"loss": 0.694,
	"step": 1460
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0019993137434807665,
	"loss": 0.6936,
	"step": 1470
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0019992129635328553,
	"loss": 0.6949,
	"step": 1480
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.001999105284591335,
	"loss": 0.6946,
	"step": 1490
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0019989907073996683,
	"loss": 0.691,
	"step": 1500
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.001998869232748944,
	"loss": 0.6935,
	"step": 1510
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0019987408614778753,
	"loss": 0.6934,
	"step": 1520
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.001998605594472793,
	"loss": 0.6913,
	"step": 1530
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.001998463432667638,
	"loss": 0.6945,
	"step": 1540
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0019983143770439557,
	"loss": 0.6966,
	"step": 1550
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00199815842863089,
	"loss": 0.6945,
	"step": 1560
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0019979955885051763,
	"loss": 0.691,
	"step": 1570
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0019978258577911315,
	"loss": 0.6933,
	"step": 1580
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.0019976492376606496,
	"loss": 0.6921,
	"step": 1590
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.0019974657293331914,
	"loss": 0.6867,
	"step": 1600
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0019972753340757763,
	"loss": 0.6898,
	"step": 1610
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0019970780532029752,
	"loss": 0.6981,
	"step": 1620
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0019968738880768995,
	"loss": 0.6923,
	"step": 1630
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0019966628401071928,
	"loss": 0.6938,
	"step": 1640
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0019964449107510197,
	"loss": 0.6926,
	"step": 1650
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0019962201015130587,
	"loss": 0.6921,
	"step": 1660
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.0019959884139454883,
	"loss": 0.6929,
	"step": 1670
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.0019957498496479785,
	"loss": 0.695,
	"step": 1680
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.0019955044102676796,
	"loss": 0.6921,
	"step": 1690
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.0019952520974992095,
	"loss": 0.6956,
	"step": 1700
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.001994992913084644,
	"loss": 0.693,
	"step": 1710
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.001994726858813503,
	"loss": 0.6938,
	"step": 1720
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.001994453936522739,
	"loss": 0.6935,
	"step": 1730
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0019941741480967237,
	"loss": 0.6934,
	"step": 1740
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.001993887495467237,
	"loss": 0.6932,
	"step": 1750
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0019935939806134504,
	"loss": 0.6933,
	"step": 1760
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.0019932936055619163,
	"loss": 0.6933,
	"step": 1770
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.001992986372386552,
	"loss": 0.693,
	"step": 1780
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.001992672283208628,
	"loss": 0.6934,
	"step": 1790
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.001992351340196749,
	"loss": 0.6929,
	"step": 1800
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.0019920235455668433,
	"loss": 0.693,
	"step": 1810
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.0019916889015821455,
	"loss": 0.6924,
	"step": 1820
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.0019913474105531805,
	"loss": 0.6953,
	"step": 1830
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.0019909990748377482,
	"loss": 0.6941,
	"step": 1840
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0019906438968409074,
	"loss": 0.6936,
	"step": 1850
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0019902818790149593,
	"loss": 0.6922,
	"step": 1860
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.001989913023859429,
	"loss": 0.6921,
	"step": 1870
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.0019895373339210514,
	"loss": 0.6854,
	"step": 1880
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.0019891548117937498,
	"loss": 0.6922,
	"step": 1890
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.00198876546011862,
	"loss": 0.7152,
	"step": 1900
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.0019883692815839136,
	"loss": 0.6951,
	"step": 1910
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.0019879662789250158,
	"loss": 0.7333,
	"step": 1920
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0019875564549244294,
	"loss": 0.8859,
	"step": 1930
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0019871398124117552,
	"loss": 0.7755,
	"step": 1940
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0019867163542636704,
	"loss": 0.6947,
	"step": 1950
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.001986286083403912,
	"loss": 0.6954,
	"step": 1960
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.0019858490028032533,
	"loss": 0.6845,
	"step": 1970
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.001985405115479486,
	"loss": 0.7309,
	"step": 1980
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.001984954424497398,
	"loss": 0.6955,
	"step": 1990
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.0019844969329687527,
	"loss": 0.6931,
	"step": 2000
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.0019840326440522665,
	"loss": 0.6959,
	"step": 2010
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.0019835615609535896,
	"loss": 0.7009,
	"step": 2020
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.001983083686925281,
	"loss": 0.6944,
	"step": 2030
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.001982599025266787,
	"loss": 0.6921,
	"step": 2040
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.001982107579324419,
	"loss": 0.6901,
	"step": 2050
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.0019816093524913305,
	"loss": 0.6989,
	"step": 2060
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.001981104348207492,
	"loss": 0.6946,
	"step": 2070
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.001980592569959669,
	"loss": 0.6934,
	"step": 2080
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.0019800740212813977,
	"loss": 0.6943,
	"step": 2090
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.00197954870575296,
	"loss": 0.693,
	"step": 2100
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.0019790166270013585,
	"loss": 0.6933,
	"step": 2110
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.0019784777887002928,
	"loss": 0.6935,
	"step": 2120
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.001977932194570133,
	"loss": 0.6927,
	"step": 2130
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.001977379848377894,
	"loss": 0.6936,
	"step": 2140
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.0019768207539372106,
	"loss": 0.6937,
	"step": 2150
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.001976254915108309,
	"loss": 0.6924,
	"step": 2160
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.001975682335797984,
	"loss": 0.694,
	"step": 2170
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.0019751030199595663,
	"loss": 0.6942,
	"step": 2180
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.0019745169715929016,
	"loss": 0.6933,
	"step": 2190
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.001973924194744317,
	"loss": 0.6935,
	"step": 2200
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.001973324693506599,
	"loss": 0.6926,
	"step": 2210
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.0019727184720189595,
	"loss": 0.6913,
	"step": 2220
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.001972105534467011,
	"loss": 0.6933,
	"step": 2230
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.0019714858850827365,
	"loss": 0.683,
	"step": 2240
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.0019708595281444606,
	"loss": 0.6899,
	"step": 2250
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.001970226467976819,
	"loss": 0.6823,
	"step": 2260
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.0019695867089507303,
	"loss": 0.6966,
	"step": 2270
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.0019689402554833643,
	"loss": 0.6996,
	"step": 2280
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.001968287112038112,
	"loss": 0.6908,
	"step": 2290
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.001967627283124555,
	"loss": 0.6949,
	"step": 2300
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.001966960773298435,
	"loss": 0.6946,
	"step": 2310
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00196628758716162,
	"loss": 0.6923,
	"step": 2320
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.001965607729362075,
	"loss": 0.6897,
	"step": 2330
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.0019649212045938294,
	"loss": 0.6915,
	"step": 2340
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.001964228017596944,
	"loss": 0.6869,
	"step": 2350
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.0019635281731574775,
	"loss": 0.6827,
	"step": 2360
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.0019628216761074556,
	"loss": 0.6839,
	"step": 2370
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0019621085313248367,
	"loss": 0.6982,
	"step": 2380
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0019613887437334764,
	"loss": 0.6873,
	"step": 2390
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.001960662318303096,
	"loss": 0.7014,
	"step": 2400
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.001959929260049248,
	"loss": 0.6921,
	"step": 2410
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.00195918957403328,
	"loss": 0.6934,
	"step": 2420
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.0019584432653623005,
	"loss": 0.6919,
	"step": 2430
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.001957690339189143,
	"loss": 0.7,
	"step": 2440
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.0019569308007123328,
	"loss": 0.6966,
	"step": 2450
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.0019561646551760478,
	"loss": 0.694,
	"step": 2460
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.0019553919078700846,
	"loss": 0.691,
	"step": 2470
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.0019546125641298207,
	"loss": 0.7014,
	"step": 2480
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.001953826629336179,
	"loss": 0.6845,
	"step": 2490
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0019530341089155892,
	"loss": 0.6948,
	"step": 2500
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0019522350083399516,
	"loss": 0.6923,
	"step": 2510
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.0019514293331265977,
	"loss": 0.6866,
	"step": 2520
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.0019506170888382544,
	"loss": 0.69,
	"step": 2530
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.0019497982810830028,
	"loss": 0.6961,
	"step": 2540
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.0019489729155142423,
	"loss": 0.6899,
	"step": 2550
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.0019481409978306496,
	"loss": 0.6959,
	"step": 2560
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.0019473025337761408,
	"loss": 0.6955,
	"step": 2570
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.001946457529139829,
	"loss": 0.6928,
	"step": 2580
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.0019456059897559887,
	"loss": 0.694,
	"step": 2590
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.0019447479215040113,
	"loss": 0.6924,
	"step": 2600
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.0019438833303083677,
	"loss": 0.6933,
	"step": 2610
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0019430122221385645,
	"loss": 0.6842,
	"step": 2620
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0019421346030091052,
	"loss": 0.6916,
	"step": 2630
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0019412504789794477,
	"loss": 0.6916,
	"step": 2640
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0019403598561539624,
	"loss": 0.6924,
	"step": 2650
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.504,
	"eval_loss": 0.6922000050544739,
	"eval_runtime": 38.3652,
	"eval_samples_per_second": 97.745,
	"eval_steps_per_second": 12.225,
	"step": 2657
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0019394627406818903,
	"loss": 0.6941,
	"step": 2660
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0019385591387572998,
	"loss": 0.6897,
	"step": 2670
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.0019376490566190454,
	"loss": 0.6907,
	"step": 2680
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.0019367325005507233,
	"loss": 0.6996,
	"step": 2690
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0019358094768806287,
	"loss": 0.6957,
	"step": 2700
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0019348799919817114,
	"loss": 0.6968,
	"step": 2710
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0019339440522715327,
	"loss": 0.6899,
	"step": 2720
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.0019330016642122212,
	"loss": 0.6922,
	"step": 2730
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.0019320528343104262,
	"loss": 0.692,
	"step": 2740
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.0019310975691172753,
	"loss": 0.6929,
	"step": 2750
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.0019301358752283285,
	"loss": 0.6943,
	"step": 2760
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.0019291677592835313,
	"loss": 0.6964,
	"step": 2770
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0019281932279671698,
	"loss": 0.6955,
	"step": 2780
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0019272122880078255,
	"loss": 0.6942,
	"step": 2790
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0019262249461783273,
	"loss": 0.6941,
	"step": 2800
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.0019252312092957055,
	"loss": 0.6931,
	"step": 2810
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.0019242310842211442,
	"loss": 0.6927,
	"step": 2820
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.0019232245778599345,
	"loss": 0.694,
	"step": 2830
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.001922211697161427,
	"loss": 0.6935,
	"step": 2840
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.0019211924491189835,
	"loss": 0.6931,
	"step": 2850
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.0019201668407699275,
	"loss": 0.6933,
	"step": 2860
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.0019191348791954988,
	"loss": 0.6932,
	"step": 2870
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.0019180965715208003,
	"loss": 0.693,
	"step": 2880
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.0019170519249147532,
	"loss": 0.6929,
	"step": 2890
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.0019160009465900437,
	"loss": 0.6921,
	"step": 2900
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.0019149436438030756,
	"loss": 0.6941,
	"step": 2910
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.00191388002385392,
	"loss": 0.6937,
	"step": 2920
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.0019128100940862636,
	"loss": 0.6909,
	"step": 2930
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.0019117338618873587,
	"loss": 0.6943,
	"step": 2940
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.0019106513346879735,
	"loss": 0.695,
	"step": 2950
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.0019095625199623378,
	"loss": 0.6931,
	"step": 2960
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.001908467425228095,
	"loss": 0.6915,
	"step": 2970
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.0019073660580462466,
	"loss": 0.6907,
	"step": 2980
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.001906258426021103,
	"loss": 0.6924,
	"step": 2990
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.0019051445368002296,
	"loss": 0.6877,
	"step": 3000
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.0019040243980743936,
	"loss": 0.7014,
	"step": 3010
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.0019028980175775118,
	"loss": 0.6954,
	"step": 3020
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.001901765403086597,
	"loss": 0.6839,
	"step": 3030
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.001900626562421704,
	"loss": 0.6973,
	"step": 3040
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0018994815034458754,
	"loss": 0.6955,
	"step": 3050
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0018983302340650889,
	"loss": 0.6927,
	"step": 3060
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.0018971727622281995,
	"loss": 0.6924,
	"step": 3070
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.0018960090959268885,
	"loss": 0.693,
	"step": 3080
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.0018948392431956057,
	"loss": 0.6958,
	"step": 3090
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0018936632121115142,
	"loss": 0.6932,
	"step": 3100
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0018924810107944362,
	"loss": 0.693,
	"step": 3110
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0018912926474067943,
	"loss": 0.6938,
	"step": 3120
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.001890098130153558,
	"loss": 0.6848,
	"step": 3130
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.0018888974672821854,
	"loss": 0.6917,
	"step": 3140
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.0018876906670825663,
	"loss": 0.6941,
	"step": 3150
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.0018864777378869652,
	"loss": 0.6902,
	"step": 3160
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.0018852586880699638,
	"loss": 0.6952,
	"step": 3170
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.0018840335260484039,
	"loss": 0.6947,
	"step": 3180
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.0018828022602813276,
	"loss": 0.6905,
	"step": 3190
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.0018815648992699203,
	"loss": 0.6915,
	"step": 3200
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.0018803214515574521,
	"loss": 0.6943,
	"step": 3210
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.0018790719257292172,
	"loss": 0.6906,
	"step": 3220
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.0018778163304124765,
	"loss": 0.6973,
	"step": 3230
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.001876554674276397,
	"loss": 0.6928,
	"step": 3240
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.001875286966031992,
	"loss": 0.695,
	"step": 3250
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0018740132144320616,
	"loss": 0.6846,
	"step": 3260
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0018727334282711318,
	"loss": 0.6941,
	"step": 3270
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0018714476163853929,
	"loss": 0.6929,
	"step": 3280
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.0018701557876526402,
	"loss": 0.6941,
	"step": 3290
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.001868857950992212,
	"loss": 0.6923,
	"step": 3300
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.0018675541153649277,
	"loss": 0.6941,
	"step": 3310
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.0018662442897730256,
	"loss": 0.6907,
	"step": 3320
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.0018649284832601021,
	"loss": 0.6945,
	"step": 3330
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.001863606704911048,
	"loss": 0.6894,
	"step": 3340
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.001862278963851986,
	"loss": 0.6922,
	"step": 3350
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.0018609452692502084,
	"loss": 0.6876,
	"step": 3360
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.0018596056303141133,
	"loss": 0.693,
	"step": 3370
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.0018582600562931405,
	"loss": 0.692,
	"step": 3380
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.001856908556477708,
	"loss": 0.6969,
	"step": 3390
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.0018555511401991498,
	"loss": 0.6972,
	"step": 3400
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.001854187816829647,
	"loss": 0.6985,
	"step": 3410
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.0018528185957821682,
	"loss": 0.6846,
	"step": 3420
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.0018514434865104007,
	"loss": 0.6961,
	"step": 3430
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.0018500624985086863,
	"loss": 0.6936,
	"step": 3440
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.0018486756413119577,
	"loss": 0.6932,
	"step": 3450
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.0018472829244956695,
	"loss": 0.693,
	"step": 3460
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.0018458843576757344,
	"loss": 0.693,
	"step": 3470
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.001844479950508456,
	"loss": 0.6942,
	"step": 3480
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.0018430697126904617,
	"loss": 0.6936,
	"step": 3490
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.0018416536539586363,
	"loss": 0.6939,
	"step": 3500
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.0018402317840900554,
	"loss": 0.6933,
	"step": 3510
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.001838804112901916,
	"loss": 0.6933,
	"step": 3520
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.0018373706502514708,
	"loss": 0.693,
	"step": 3530
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.0018359314060359595,
	"loss": 0.6936,
	"step": 3540
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.0018344863901925388,
	"loss": 0.6929,
	"step": 3550
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.0018330356126982164,
	"loss": 0.6918,
	"step": 3560
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.0018315790835697805,
	"loss": 0.8642,
	"step": 3570
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.001830116812863731,
	"loss": 0.695,
	"step": 3580
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.0018286488106762104,
	"loss": 0.6891,
	"step": 3590
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.0018271750871429336,
	"loss": 0.6978,
	"step": 3600
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.0018256956524391177,
	"loss": 0.6919,
	"step": 3610
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.001824210516779413,
	"loss": 0.6963,
	"step": 3620
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.001822719690417831,
	"loss": 0.6924,
	"step": 3630
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.0018212231836476744,
	"loss": 0.6923,
	"step": 3640
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.001819721006801466,
	"loss": 0.6926,
	"step": 3650
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.0018182131702508776,
	"loss": 0.693,
	"step": 3660
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.0018166996844066565,
	"loss": 0.6935,
	"step": 3670
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.001815180559718557,
	"loss": 0.6959,
	"step": 3680
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.0018136558066752656,
	"loss": 0.6903,
	"step": 3690
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.0018121254358043292,
	"loss": 0.6911,
	"step": 3700
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0018105894576720823,
	"loss": 0.6977,
	"step": 3710
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0018090478828835758,
	"loss": 0.6919,
	"step": 3720
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0018075007220825002,
	"loss": 0.696,
	"step": 3730
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.001805947985951116,
	"loss": 0.692,
	"step": 3740
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.001804389685210177,
	"loss": 0.6922,
	"step": 3750
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.0018028258306188583,
	"loss": 0.6903,
	"step": 3760
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.0018012564329746808,
	"loss": 0.6894,
	"step": 3770
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.0017996815031134368,
	"loss": 0.6913,
	"step": 3780
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.0017981010519091155,
	"loss": 0.6868,
	"step": 3790
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.001796515090273828,
	"loss": 0.6929,
	"step": 3800
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.0017949236291577315,
	"loss": 0.6899,
	"step": 3810
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.0017933266795489545,
	"loss": 0.7009,
	"step": 3820
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.0017917242524735197,
	"loss": 0.7007,
	"step": 3830
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.001790116358995269,
	"loss": 0.6912,
	"step": 3840
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.0017885030102157869,
	"loss": 0.6891,
	"step": 3850
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.0017868842172743228,
	"loss": 0.6999,
	"step": 3860
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.0017852599913477155,
	"loss": 0.6949,
	"step": 3870
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.0017836303436503155,
	"loss": 0.6984,
	"step": 3880
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.0017819952854339074,
	"loss": 0.6908,
	"step": 3890
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.0017803548279876325,
	"loss": 0.7009,
	"step": 3900
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.0017787089826379104,
	"loss": 0.7282,
	"step": 3910
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.0017770577607483613,
	"loss": 0.7153,
	"step": 3920
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.001775401173719727,
	"loss": 0.7886,
	"step": 3930
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.0017737392329897931,
	"loss": 0.707,
	"step": 3940
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.001772071950033309,
	"loss": 0.7407,
	"step": 3950
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.0017703993363619092,
	"loss": 0.7577,
	"step": 3960
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.0017687214035240343,
	"loss": 0.7342,
	"step": 3970
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.0017670381631048491,
	"loss": 0.6956,
	"step": 3980
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.0017653496267261662,
	"loss": 0.7053,
	"step": 3990
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0017636558060463625,
	"loss": 0.6903,
	"step": 4000
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0017619567127603003,
	"loss": 0.6924,
	"step": 4010
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0017602523585992463,
	"loss": 0.6992,
	"step": 4020
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.0017585427553307904,
	"loss": 0.6895,
	"step": 4030
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.001756827914758765,
	"loss": 0.7226,
	"step": 4040
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.0017551078487231622,
	"loss": 0.7086,
	"step": 4050
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.001753382569100054,
	"loss": 0.7017,
	"step": 4060
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.0017516520878015085,
	"loss": 0.6944,
	"step": 4070
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.0017499164167755087,
	"loss": 0.6866,
	"step": 4080
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.0017481755680058698,
	"loss": 0.6916,
	"step": 4090
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.0017464295535121555,
	"loss": 0.6988,
	"step": 4100
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.001744678385349597,
	"loss": 0.7135,
	"step": 4110
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.0017429220756090085,
	"loss": 0.7316,
	"step": 4120
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.0017411606364167028,
	"loss": 0.7037,
	"step": 4130
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.0017393940799344098,
	"loss": 0.7085,
	"step": 4140
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.001737622418359191,
	"loss": 0.706,
	"step": 4150
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.0017358456639233553,
	"loss": 0.6924,
	"step": 4160
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.0017340638288943753,
	"loss": 0.7171,
	"step": 4170
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.001732276925574802,
	"loss": 0.71,
	"step": 4180
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.0017304849663021798,
	"loss": 0.6981,
	"step": 4190
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.0017286879634489623,
	"loss": 0.6916,
	"step": 4200
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.0017268859294224256,
	"loss": 0.6921,
	"step": 4210
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.0017250788766645828,
	"loss": 0.692,
	"step": 4220
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.0017232668176520997,
	"loss": 0.6963,
	"step": 4230
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.0017214497648962057,
	"loss": 0.6856,
	"step": 4240
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.0017196277309426105,
	"loss": 0.6941,
	"step": 4250
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.0017178007283714161,
	"loss": 0.6942,
	"step": 4260
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.001715968769797029,
	"loss": 0.6926,
	"step": 4270
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0017141318678680747,
	"loss": 0.6929,
	"step": 4280
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0017122900352673103,
	"loss": 0.694,
	"step": 4290
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.001710443284711535,
	"loss": 0.6938,
	"step": 4300
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.0017085916289515043,
	"loss": 0.6934,
	"step": 4310
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.0017067350807718421,
	"loss": 0.6932,
	"step": 4320
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.0017048736529909506,
	"loss": 0.6845,
	"step": 4330
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.0017030073584609231,
	"loss": 0.6933,
	"step": 4340
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.0017011362100674554,
	"loss": 0.6932,
	"step": 4350
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.001699260220729756,
	"loss": 0.6928,
	"step": 4360
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.0016973794034004577,
	"loss": 0.6925,
	"step": 4370
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.0016954937710655274,
	"loss": 0.6947,
	"step": 4380
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.0016936033367441774,
	"loss": 0.6939,
	"step": 4390
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.0016917081134887747,
	"loss": 0.6937,
	"step": 4400
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.0016898081143847507,
	"loss": 0.6927,
	"step": 4410
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.0016879033525505126,
	"loss": 0.692,
	"step": 4420
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.0016859938411373499,
	"loss": 0.6924,
	"step": 4430
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.0016840795933293462,
	"loss": 0.6933,
	"step": 4440
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.0016821606223432867,
	"loss": 0.6923,
	"step": 4450
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.0016802369414285687,
	"loss": 0.695,
	"step": 4460
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.0016783085638671068,
	"loss": 0.6929,
	"step": 4470
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.001676375502973245,
	"loss": 0.6954,
	"step": 4480
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.001674437772093662,
	"loss": 0.6939,
	"step": 4490
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.0016724953846072807,
	"loss": 0.6935,
	"step": 4500
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.0016705483539251748,
	"loss": 0.6933,
	"step": 4510
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.0016685966934904767,
	"loss": 0.6929,
	"step": 4520
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.001666640416778285,
	"loss": 0.693,
	"step": 4530
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.0016646795372955703,
	"loss": 0.6843,
	"step": 4540
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.0016627140685810833,
	"loss": 0.6918,
	"step": 4550
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.0016607440242052606,
	"loss": 0.6888,
	"step": 4560
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.001658769417770131,
	"loss": 0.6933,
	"step": 4570
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.0016567902629092217,
	"loss": 0.6934,
	"step": 4580
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.0016548065732874644,
	"loss": 0.6847,
	"step": 4590
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.0016528183626011003,
	"loss": 0.6931,
	"step": 4600
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.0016508256445775867,
	"loss": 0.6937,
	"step": 4610
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.0016488284329755003,
	"loss": 0.6928,
	"step": 4620
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.001646826741584445,
	"loss": 0.6928,
	"step": 4630
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.001644820584224953,
	"loss": 0.6938,
	"step": 4640
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.0016428099747483936,
	"loss": 0.6921,
	"step": 4650
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.001640794927036874,
	"loss": 0.6913,
	"step": 4660
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.0016387754550031457,
	"loss": 0.6922,
	"step": 4670
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.0016367515725905066,
	"loss": 0.6955,
	"step": 4680
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.0016347232937727072,
	"loss": 0.6869,
	"step": 4690
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.0016326906325538513,
	"loss": 0.6944,
	"step": 4700
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.0016306536029683013,
	"loss": 0.6939,
	"step": 4710
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.0016286122190805805,
	"loss": 0.6928,
	"step": 4720
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.0016265664949852766,
	"loss": 0.6845,
	"step": 4730
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.0016245164448069431,
	"loss": 0.6936,
	"step": 4740
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.0016224620827000036,
	"loss": 0.6932,
	"step": 4750
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.0016204034228486524,
	"loss": 0.6925,
	"step": 4760
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.0016183404794667573,
	"loss": 0.6948,
	"step": 4770
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.0016162732667977622,
	"loss": 0.6934,
	"step": 4780
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.0016142017991145866,
	"loss": 0.6931,
	"step": 4790
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.0016121260907195302,
	"loss": 0.6934,
	"step": 4800
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00161004615594417,
	"loss": 0.6933,
	"step": 4810
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.0016079620091492667,
	"loss": 0.6928,
	"step": 4820
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.0016058736647246604,
	"loss": 0.6926,
	"step": 4830
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.0016037811370891739,
	"loss": 0.6848,
	"step": 4840
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.001601684440690513,
	"loss": 0.6931,
	"step": 4850
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.0015995835900051666,
	"loss": 0.694,
	"step": 4860
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.0015974785995383053,
	"loss": 0.6942,
	"step": 4870
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.0015953694838236846,
	"loss": 0.6925,
	"step": 4880
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.001593256257423541,
	"loss": 0.6927,
	"step": 4890
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.0015911389349284929,
	"loss": 0.6927,
	"step": 4900
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.0015890175309574404,
	"loss": 0.6945,
	"step": 4910
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.0015868920601574642,
	"loss": 0.6932,
	"step": 4920
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.0015847625372037229,
	"loss": 0.6941,
	"step": 4930
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.001582628976799354,
	"loss": 0.685,
	"step": 4940
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.0015804913936753712,
	"loss": 0.6841,
	"step": 4950
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.0015783498025905623,
	"loss": 0.6923,
	"step": 4960
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.001576204218331388,
	"loss": 0.6933,
	"step": 4970
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.0015740546557118796,
	"loss": 0.6929,
	"step": 4980
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.0015719011295735365,
	"loss": 0.6938,
	"step": 4990
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.0015697436547852243,
	"loss": 0.6919,
	"step": 5000
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.0015675822462430714,
	"loss": 0.6864,
	"step": 5010
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.0015654169188703668,
	"loss": 0.692,
	"step": 5020
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.001563247687617457,
	"loss": 0.6938,
	"step": 5030
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.0015610745674616412,
	"loss": 0.693,
	"step": 5040
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.0015588975734070717,
	"loss": 0.6924,
	"step": 5050
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.0015567167204846453,
	"loss": 0.6892,
	"step": 5060
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.0015545320237519036,
	"loss": 0.6896,
	"step": 5070
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.0015523434982929274,
	"loss": 0.7004,
	"step": 5080
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.001550151159218232,
	"loss": 0.694,
	"step": 5090
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.001547955021664664,
	"loss": 0.6921,
	"step": 5100
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.0015457551007952962,
	"loss": 0.6929,
	"step": 5110
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.0015435514117993232,
	"loss": 0.6835,
	"step": 5120
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.001541343969891956,
	"loss": 0.6959,
	"step": 5130
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.001539132790314318,
	"loss": 0.6902,
	"step": 5140
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.0015369178883333382,
	"loss": 0.694,
	"step": 5150
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.001534699279241647,
	"loss": 0.6969,
	"step": 5160
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.0015324769783574706,
	"loss": 0.692,
	"step": 5170
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.0015302510010245243,
	"loss": 0.6908,
	"step": 5180
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.0015280213626119082,
	"loss": 0.6924,
	"step": 5190
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.0015257880785139988,
	"loss": 0.6812,
	"step": 5200
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.0015235511641503447,
	"loss": 0.6953,
	"step": 5210
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.0015213106349655598,
	"loss": 0.6959,
	"step": 5220
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.0015190665064292149,
	"loss": 0.6918,
	"step": 5230
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.0015168187940357335,
	"loss": 0.685,
	"step": 5240
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.001514567513304283,
	"loss": 0.6921,
	"step": 5250
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.0015123126797786685,
	"loss": 0.6953,
	"step": 5260
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.0015100543090272255,
	"loss": 0.6974,
	"step": 5270
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00150779241664271,
	"loss": 0.6934,
	"step": 5280
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.0015055270182421957,
	"loss": 0.6921,
	"step": 5290
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.0015032581294669612,
	"loss": 0.6842,
	"step": 5300
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.0015009857659823852,
	"loss": 0.6919,
	"step": 5310
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.504,
	"eval_loss": 0.6920435428619385,
	"eval_runtime": 38.4869,
	"eval_samples_per_second": 97.436,
	"eval_steps_per_second": 12.186,
	"step": 5314
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.0014987099434778369,
	"loss": 0.6916,
	"step": 5320
	},
	{
	"epoch": 2.01,
	"learning_rate": 0.001496430677666568,
	"loss": 0.6905,
	"step": 5330
	},
	{
	"epoch": 2.01,
	"learning_rate": 0.0014941479842856046,
	"loss": 0.6943,
	"step": 5340
	},
	{
	"epoch": 2.01,
	"learning_rate": 0.0014918618790956376,
	"loss": 0.6871,
	"step": 5350
	},
	{
	"epoch": 2.02,
	"learning_rate": 0.0014895723778809151,
	"loss": 0.693,
	"step": 5360
	},
	{
	"epoch": 2.02,
	"learning_rate": 0.0014872794964491327,
	"loss": 0.6978,
	"step": 5370
	},
	{
	"epoch": 2.02,
	"learning_rate": 0.0014849832506313243,
	"loss": 0.7012,
	"step": 5380
	},
	{
	"epoch": 2.03,
	"learning_rate": 0.0014826836562817527,
	"loss": 0.6927,
	"step": 5390
	},
	{
	"epoch": 2.03,
	"learning_rate": 0.001480380729277801,
	"loss": 0.6942,
	"step": 5400
	},
	{
	"epoch": 2.04,
	"learning_rate": 0.001478074485519862,
	"loss": 0.6929,
	"step": 5410
	},
	{
	"epoch": 2.04,
	"learning_rate": 0.001475764940931229,
	"loss": 0.6949,
	"step": 5420
	},
	{
	"epoch": 2.04,
	"learning_rate": 0.0014734521114579853,
	"loss": 0.6947,
	"step": 5430
	},
	{
	"epoch": 2.05,
	"learning_rate": 0.001471136013068895,
	"loss": 0.6929,
	"step": 5440
	},
	{
	"epoch": 2.05,
	"learning_rate": 0.0014688166617552911,
	"loss": 0.6931,
	"step": 5450
	},
	{
	"epoch": 2.05,
	"learning_rate": 0.0014664940735309676,
	"loss": 0.693,
	"step": 5460
	},
	{
	"epoch": 2.06,
	"learning_rate": 0.0014641682644320666,
	"loss": 0.6931,
	"step": 5470
	},
	{
	"epoch": 2.06,
	"learning_rate": 0.0014618392505169689,
	"loss": 0.6939,
	"step": 5480
	},
	{
	"epoch": 2.07,
	"learning_rate": 0.0014595070478661822,
	"loss": 0.6925,
	"step": 5490
	},
	{
	"epoch": 2.07,
	"learning_rate": 0.0014571716725822314,
	"loss": 0.6939,
	"step": 5500
	},
	{
	"epoch": 2.07,
	"learning_rate": 0.001454833140789546,
	"loss": 0.6843,
	"step": 5510
	},
	{
	"epoch": 2.08,
	"learning_rate": 0.0014524914686343494,
	"loss": 0.6937,
	"step": 5520
	},
	{
	"epoch": 2.08,
	"learning_rate": 0.0014501466722845477,
	"loss": 0.6934,
	"step": 5530
	},
	{
	"epoch": 2.09,
	"learning_rate": 0.0014477987679296174,
	"loss": 0.6933,
	"step": 5540
	},
	{
	"epoch": 2.09,
	"learning_rate": 0.0014454477717804949,
	"loss": 0.6932,
	"step": 5550
	},
	{
	"epoch": 2.09,
	"learning_rate": 0.0014430937000694624,
	"loss": 0.6928,
	"step": 5560
	},
	{
	"epoch": 2.1,
	"learning_rate": 0.0014407365690500377,
	"loss": 0.6937,
	"step": 5570
	},
	{
	"epoch": 2.1,
	"learning_rate": 0.0014383763949968617,
	"loss": 0.6925,
	"step": 5580
	},
	{
	"epoch": 2.1,
	"learning_rate": 0.0014360131942055853,
	"loss": 0.6923,
	"step": 5590
	},
	{
	"epoch": 2.11,
	"learning_rate": 0.0014336469829927573,
	"loss": 0.6941,
	"step": 5600
	},
	{
	"epoch": 2.11,
	"learning_rate": 0.0014312777776957115,
	"loss": 0.6927,
	"step": 5610
	},
	{
	"epoch": 2.12,
	"learning_rate": 0.001428905594672455,
	"loss": 0.6839,
	"step": 5620
	},
	{
	"epoch": 2.12,
	"learning_rate": 0.0014265304503015535,
	"loss": 0.6853,
	"step": 5630
	},
	{
	"epoch": 2.12,
	"learning_rate": 0.0014241523609820198,
	"loss": 0.6844,
	"step": 5640
	},
	{
	"epoch": 2.13,
	"learning_rate": 0.001421771343133199,
	"loss": 0.6921,
	"step": 5650
	},
	{
	"epoch": 2.13,
	"learning_rate": 0.001419387413194657,
	"loss": 0.6916,
	"step": 5660
	},
	{
	"epoch": 2.13,
	"learning_rate": 0.001417000587626065,
	"loss": 0.695,
	"step": 5670
	},
	{
	"epoch": 2.14,
	"learning_rate": 0.0014146108829070883,
	"loss": 0.6921,
	"step": 5680
	},
	{
	"epoch": 2.14,
	"learning_rate": 0.00141221831553727,
	"loss": 0.6921,
	"step": 5690
	},
	{
	"epoch": 2.15,
	"learning_rate": 0.0014098229020359178,
	"loss": 0.6944,
	"step": 5700
	},
	{
	"epoch": 2.15,
	"learning_rate": 0.0014074246589419913,
	"loss": 0.696,
	"step": 5710
	},
	{
	"epoch": 2.15,
	"learning_rate": 0.0014050236028139865,
	"loss": 0.6941,
	"step": 5720
	},
	{
	"epoch": 2.16,
	"learning_rate": 0.0014026197502298215,
	"loss": 0.684,
	"step": 5730
	},
	{
	"epoch": 2.16,
	"learning_rate": 0.0014002131177867226,
	"loss": 0.6942,
	"step": 5740
	},
	{
	"epoch": 2.16,
	"learning_rate": 0.0013978037221011096,
	"loss": 0.6945,
	"step": 5750
	},
	{
	"epoch": 2.17,
	"learning_rate": 0.0013953915798084805,
	"loss": 0.6932,
	"step": 5760
	},
	{
	"epoch": 2.17,
	"learning_rate": 0.0013929767075632968,
	"loss": 0.6939,
	"step": 5770
	},
	{
	"epoch": 2.18,
	"learning_rate": 0.00139055912203887,
	"loss": 0.6932,
	"step": 5780
	},
	{
	"epoch": 2.18,
	"learning_rate": 0.0013881388399272442,
	"loss": 0.6933,
	"step": 5790
	},
	{
	"epoch": 2.18,
	"learning_rate": 0.0013857158779390813,
	"loss": 0.6933,
	"step": 5800
	},
	{
	"epoch": 2.19,
	"learning_rate": 0.001383290252803548,
	"loss": 0.6933,
	"step": 5810
	},
	{
	"epoch": 2.19,
	"learning_rate": 0.0013808619812681977,
	"loss": 0.6932,
	"step": 5820
	},
	{
	"epoch": 2.19,
	"learning_rate": 0.0013784310800988547,
	"loss": 0.6933,
	"step": 5830
	},
	{
	"epoch": 2.2,
	"learning_rate": 0.0013759975660795004,
	"loss": 0.6937,
	"step": 5840
	},
	{
	"epoch": 2.2,
	"learning_rate": 0.0013735614560121566,
	"loss": 0.6931,
	"step": 5850
	},
	{
	"epoch": 2.21,
	"learning_rate": 0.0013711227667167689,
	"loss": 0.6936,
	"step": 5860
	},
	{
	"epoch": 2.21,
	"learning_rate": 0.001368681515031091,
	"loss": 0.6939,
	"step": 5870
	},
	{
	"epoch": 2.21,
	"learning_rate": 0.0013662377178105685,
	"loss": 0.6931,
	"step": 5880
	},
	{
	"epoch": 2.22,
	"learning_rate": 0.0013637913919282226,
	"loss": 0.6931,
	"step": 5890
	},
	{
	"epoch": 2.22,
	"learning_rate": 0.001361342554274533,
	"loss": 0.6926,
	"step": 5900
	},
	{
	"epoch": 2.22,
	"learning_rate": 0.0013588912217573229,
	"loss": 0.6936,
	"step": 5910
	},
	{
	"epoch": 2.23,
	"learning_rate": 0.0013564374113016395,
	"loss": 0.6924,
	"step": 5920
	},
	{
	"epoch": 2.23,
	"learning_rate": 0.00135398113984964,
	"loss": 0.694,
	"step": 5930
	},
	{
	"epoch": 2.24,
	"learning_rate": 0.0013515224243604727,
	"loss": 0.6943,
	"step": 5940
	},
	{
	"epoch": 2.24,
	"learning_rate": 0.0013490612818101606,
	"loss": 0.6929,
	"step": 5950
	},
	{
	"epoch": 2.24,
	"learning_rate": 0.001346597729191485,
	"loss": 0.693,
	"step": 5960
	},
	{
	"epoch": 2.25,
	"learning_rate": 0.001344131783513866,
	"loss": 0.6936,
	"step": 5970
	},
	{
	"epoch": 2.25,
	"learning_rate": 0.0013416634618032477,
	"loss": 0.6932,
	"step": 5980
	},
	{
	"epoch": 2.25,
	"learning_rate": 0.0013391927811019781,
	"loss": 0.6849,
	"step": 5990
	},
	{
	"epoch": 2.26,
	"learning_rate": 0.001336719758468694,
	"loss": 0.6932,
	"step": 6000
	},
	{
	"epoch": 2.26,
	"learning_rate": 0.001334244410978201,
	"loss": 0.6933,
	"step": 6010
	},
	{
	"epoch": 2.27,
	"learning_rate": 0.0013317667557213567,
	"loss": 0.6932,
	"step": 6020
	},
	{
	"epoch": 2.27,
	"learning_rate": 0.001329286809804952,
	"loss": 0.6931,
	"step": 6030
	},
	{
	"epoch": 2.27,
	"learning_rate": 0.0013268045903515953,
	"loss": 0.6931,
	"step": 6040
	},
	{
	"epoch": 2.28,
	"learning_rate": 0.00132432011449959,
	"loss": 0.6929,
	"step": 6050
	},
	{
	"epoch": 2.28,
	"learning_rate": 0.0013218333994028206,
	"loss": 0.6935,
	"step": 6060
	},
	{
	"epoch": 2.28,
	"learning_rate": 0.0013193444622306314,
	"loss": 0.6938,
	"step": 6070
	},
	{
	"epoch": 2.29,
	"learning_rate": 0.001316853320167709,
	"loss": 0.6929,
	"step": 6080
	},
	{
	"epoch": 2.29,
	"learning_rate": 0.001314359990413963,
	"loss": 0.694,
	"step": 6090
	},
	{
	"epoch": 2.3,
	"learning_rate": 0.0013118644901844092,
	"loss": 0.693,
	"step": 6100
	},
	{
	"epoch": 2.3,
	"learning_rate": 0.0013093668367090477,
	"loss": 0.6932,
	"step": 6110
	},
	{
	"epoch": 2.3,
	"learning_rate": 0.0013068670472327465,
	"loss": 0.6933,
	"step": 6120
	},
	{
	"epoch": 2.31,
	"learning_rate": 0.001304365139015121,
	"loss": 0.6932,
	"step": 6130
	},
	{
	"epoch": 2.31,
	"learning_rate": 0.0013018611293304156,
	"loss": 0.6932,
	"step": 6140
	},
	{
	"epoch": 2.31,
	"learning_rate": 0.0012993550354673839,
	"loss": 0.6933,
	"step": 6150
	},
	{
	"epoch": 2.32,
	"learning_rate": 0.0012968468747291695,
	"loss": 0.6932,
	"step": 6160
	},
	{
	"epoch": 2.32,
	"learning_rate": 0.0012943366644331874,
	"loss": 0.6846,
	"step": 6170
	},
	{
	"epoch": 2.33,
	"learning_rate": 0.001291824421911002,
	"loss": 0.6929,
	"step": 6180
	},
	{
	"epoch": 2.33,
	"learning_rate": 0.0012893101645082108,
	"loss": 0.6847,
	"step": 6190
	},
	{
	"epoch": 2.33,
	"learning_rate": 0.0012867939095843218,
	"loss": 0.6849,
	"step": 6200
	},
	{
	"epoch": 2.34,
	"learning_rate": 0.0012842756745126349,
	"loss": 0.6935,
	"step": 6210
	},
	{
	"epoch": 2.34,
	"learning_rate": 0.0012817554766801223,
	"loss": 0.6933,
	"step": 6220
	},
	{
	"epoch": 2.34,
	"learning_rate": 0.0012792333334873075,
	"loss": 0.6934,
	"step": 6230
	},
	{
	"epoch": 2.35,
	"learning_rate": 0.0012767092623481454,
	"loss": 0.6925,
	"step": 6240
	},
	{
	"epoch": 2.35,
	"learning_rate": 0.0012741832806899027,
	"loss": 0.6934,
	"step": 6250
	},
	{
	"epoch": 2.36,
	"learning_rate": 0.0012716554059530373,
	"loss": 0.693,
	"step": 6260
	},
	{
	"epoch": 2.36,
	"learning_rate": 0.001269125655591077,
	"loss": 0.694,
	"step": 6270
	},
	{
	"epoch": 2.36,
	"learning_rate": 0.0012665940470705003,
	"loss": 0.6924,
	"step": 6280
	},
	{
	"epoch": 2.37,
	"learning_rate": 0.0012640605978706148,
	"loss": 0.6912,
	"step": 6290
	},
	{
	"epoch": 2.37,
	"learning_rate": 0.0012615253254834378,
	"loss": 0.6936,
	"step": 6300
	},
	{
	"epoch": 2.37,
	"learning_rate": 0.0012589882474135735,
	"loss": 0.694,
	"step": 6310
	},
	{
	"epoch": 2.38,
	"learning_rate": 0.001256449381178094,
	"loss": 0.6929,
	"step": 6320
	},
	{
	"epoch": 2.38,
	"learning_rate": 0.001253908744306418,
	"loss": 0.6943,
	"step": 6330
	},
	{
	"epoch": 2.39,
	"learning_rate": 0.0012513663543401881,
	"loss": 0.6932,
	"step": 6340
	},
	{
	"epoch": 2.39,
	"learning_rate": 0.0012488222288331524,
	"loss": 0.6921,
	"step": 6350
	},
	{
	"epoch": 2.39,
	"learning_rate": 0.0012462763853510412,
	"loss": 0.692,
	"step": 6360
	},
	{
	"epoch": 2.4,
	"learning_rate": 0.001243728841471447,
	"loss": 0.6929,
	"step": 6370
	},
	{
	"epoch": 2.4,
	"learning_rate": 0.0012411796147837016,
	"loss": 0.6857,
	"step": 6380
	},
	{
	"epoch": 2.4,
	"learning_rate": 0.0012386287228887567,
	"loss": 0.6943,
	"step": 6390
	},
	{
	"epoch": 2.41,
	"learning_rate": 0.0012360761833990605,
	"loss": 0.6947,
	"step": 6400
	},
	{
	"epoch": 2.41,
	"learning_rate": 0.0012335220139384373,
	"loss": 0.6929,
	"step": 6410
	},
	{
	"epoch": 2.42,
	"learning_rate": 0.0012309662321419656,
	"loss": 0.6946,
	"step": 6420
	},
	{
	"epoch": 2.42,
	"learning_rate": 0.0012284088556558555,
	"loss": 0.6928,
	"step": 6430
	},
	{
	"epoch": 2.42,
	"learning_rate": 0.0012258499021373282,
	"loss": 0.6933,
	"step": 6440
	},
	{
	"epoch": 2.43,
	"learning_rate": 0.0012232893892544928,
	"loss": 0.6932,
	"step": 6450
	},
	{
	"epoch": 2.43,
	"learning_rate": 0.0012207273346862256,
	"loss": 0.6929,
	"step": 6460
	},
	{
	"epoch": 2.44,
	"learning_rate": 0.0012181637561220467,
	"loss": 0.6935,
	"step": 6470
	},
	{
	"epoch": 2.44,
	"learning_rate": 0.001215598671261999,
	"loss": 0.6933,
	"step": 6480
	},
	{
	"epoch": 2.44,
	"learning_rate": 0.001213032097816525,
	"loss": 0.6935,
	"step": 6490
	},
	{
	"epoch": 2.45,
	"learning_rate": 0.001210464053506346,
	"loss": 0.693,
	"step": 6500
	},
	{
	"epoch": 2.45,
	"learning_rate": 0.0012078945560623374,
	"loss": 0.692,
	"step": 6510
	},
	{
	"epoch": 2.45,
	"learning_rate": 0.0012053236232254085,
	"loss": 0.6953,
	"step": 6520
	},
	{
	"epoch": 2.46,
	"learning_rate": 0.0012027512727463795,
	"loss": 0.6932,
	"step": 6530
	},
	{
	"epoch": 2.46,
	"learning_rate": 0.001200177522385858,
	"loss": 0.6841,
	"step": 6540
	},
	{
	"epoch": 2.47,
	"learning_rate": 0.001197602389914117,
	"loss": 0.6939,
	"step": 6550
	},
	{
	"epoch": 2.47,
	"learning_rate": 0.0011950258931109723,
	"loss": 0.6941,
	"step": 6560
	},
	{
	"epoch": 2.47,
	"learning_rate": 0.0011924480497656597,
	"loss": 0.6922,
	"step": 6570
	},
	{
	"epoch": 2.48,
	"learning_rate": 0.0011898688776767123,
	"loss": 0.6818,
	"step": 6580
	},
	{
	"epoch": 2.48,
	"learning_rate": 0.001187288394651837,
	"loss": 0.7391,
	"step": 6590
	},
	{
	"epoch": 2.48,
	"learning_rate": 0.0011847066185077919,
	"loss": 0.6951,
	"step": 6600
	},
	{
	"epoch": 2.49,
	"learning_rate": 0.001182123567070264,
	"loss": 0.6944,
	"step": 6610
	},
	{
	"epoch": 2.49,
	"learning_rate": 0.0011795392581737448,
	"loss": 0.8711,
	"step": 6620
	},
	{
	"epoch": 2.5,
	"learning_rate": 0.0011769537096614079,
	"loss": 0.6888,
	"step": 6630
	},
	{
	"epoch": 2.5,
	"learning_rate": 0.0011743669393849863,
	"loss": 0.7258,
	"step": 6640
	},
	{
	"epoch": 2.5,
	"learning_rate": 0.001171778965204648,
	"loss": 0.6932,
	"step": 6650
	},
	{
	"epoch": 2.51,
	"learning_rate": 0.0011691898049888733,
	"loss": 0.6774,
	"step": 6660
	},
	{
	"epoch": 2.51,
	"learning_rate": 0.001166599476614332,
	"loss": 0.7073,
	"step": 6670
	},
	{
	"epoch": 2.51,
	"learning_rate": 0.0011640079979657587,
	"loss": 0.7117,
	"step": 6680
	},
	{
	"epoch": 2.52,
	"learning_rate": 0.0011614153869358307,
	"loss": 0.7077,
	"step": 6690
	},
	{
	"epoch": 2.52,
	"learning_rate": 0.0011588216614250423,
	"loss": 0.6959,
	"step": 6700
	},
	{
	"epoch": 2.53,
	"learning_rate": 0.0011562268393415845,
	"loss": 0.6969,
	"step": 6710
	},
	{
	"epoch": 2.53,
	"learning_rate": 0.0011536309386012181,
	"loss": 0.6933,
	"step": 6720
	},
	{
	"epoch": 2.53,
	"learning_rate": 0.001151033977127152,
	"loss": 0.6991,
	"step": 6730
	},
	{
	"epoch": 2.54,
	"learning_rate": 0.001148435972849919,
	"loss": 0.6912,
	"step": 6740
	},
	{
	"epoch": 2.54,
	"learning_rate": 0.0011458369437072516,
	"loss": 0.6984,
	"step": 6750
	},
	{
	"epoch": 2.54,
	"learning_rate": 0.0011432369076439586,
	"loss": 0.6976,
	"step": 6760
	},
	{
	"epoch": 2.55,
	"learning_rate": 0.0011406358826118004,
	"loss": 0.698,
	"step": 6770
	},
	{
	"epoch": 2.55,
	"learning_rate": 0.0011380338865693664,
	"loss": 0.6933,
	"step": 6780
	},
	{
	"epoch": 2.56,
	"learning_rate": 0.0011354309374819503,
	"loss": 0.6949,
	"step": 6790
	},
	{
	"epoch": 2.56,
	"learning_rate": 0.0011328270533214253,
	"loss": 0.6944,
	"step": 6800
	},
	{
	"epoch": 2.56,
	"learning_rate": 0.0011302222520661214,
	"loss": 0.6944,
	"step": 6810
	},
	{
	"epoch": 2.57,
	"learning_rate": 0.0011276165517007004,
	"loss": 0.6929,
	"step": 6820
	},
	{
	"epoch": 2.57,
	"learning_rate": 0.0011250099702160318,
	"loss": 0.7,
	"step": 6830
	},
	{
	"epoch": 2.57,
	"learning_rate": 0.001122402525609069,
	"loss": 0.6856,
	"step": 6840
	},
	{
	"epoch": 2.58,
	"learning_rate": 0.0011197942358827247,
	"loss": 0.6936,
	"step": 6850
	},
	{
	"epoch": 2.58,
	"learning_rate": 0.0011171851190457463,
	"loss": 0.6923,
	"step": 6860
	},
	{
	"epoch": 2.59,
	"learning_rate": 0.0011145751931125926,
	"loss": 0.6961,
	"step": 6870
	},
	{
	"epoch": 2.59,
	"learning_rate": 0.0011119644761033078,
	"loss": 0.6947,
	"step": 6880
	},
	{
	"epoch": 2.59,
	"learning_rate": 0.0011093529860433994,
	"loss": 0.6971,
	"step": 6890
	},
	{
	"epoch": 2.6,
	"learning_rate": 0.0011067407409637107,
	"loss": 0.6933,
	"step": 6900
	},
	{
	"epoch": 2.6,
	"learning_rate": 0.0011041277589002997,
	"loss": 0.692,
	"step": 6910
	},
	{
	"epoch": 2.6,
	"learning_rate": 0.001101514057894311,
	"loss": 0.69,
	"step": 6920
	},
	{
	"epoch": 2.61,
	"learning_rate": 0.001098899655991855,
	"loss": 0.7112,
	"step": 6930
	},
	{
	"epoch": 2.61,
	"learning_rate": 0.0010962845712438798,
	"loss": 0.6939,
	"step": 6940
	},
	{
	"epoch": 2.62,
	"learning_rate": 0.0010936688217060495,
	"loss": 0.6893,
	"step": 6950
	},
	{
	"epoch": 2.62,
	"learning_rate": 0.001091052425438617,
	"loss": 0.7141,
	"step": 6960
	},
	{
	"epoch": 2.62,
	"learning_rate": 0.001088435400506301,
	"loss": 0.6952,
	"step": 6970
	},
	{
	"epoch": 2.63,
	"learning_rate": 0.0010858177649781613,
	"loss": 0.6988,
	"step": 6980
	},
	{
	"epoch": 2.63,
	"learning_rate": 0.0010831995369274723,
	"loss": 0.6745,
	"step": 6990
	},
	{
	"epoch": 2.63,
	"learning_rate": 0.0010805807344316009,
	"loss": 0.7222,
	"step": 7000
	},
	{
	"epoch": 2.64,
	"learning_rate": 0.0010779613755718788,
	"loss": 0.6888,
	"step": 7010
	},
	{
	"epoch": 2.64,
	"learning_rate": 0.0010753414784334797,
	"loss": 0.69,
	"step": 7020
	},
	{
	"epoch": 2.65,
	"learning_rate": 0.0010727210611052947,
	"loss": 0.6989,
	"step": 7030
	},
	{
	"epoch": 2.65,
	"learning_rate": 0.0010701001416798047,
	"loss": 0.682,
	"step": 7040
	},
	{
	"epoch": 2.65,
	"learning_rate": 0.0010674787382529585,
	"loss": 0.6947,
	"step": 7050
	},
	{
	"epoch": 2.66,
	"learning_rate": 0.0010648568689240467,
	"loss": 0.7027,
	"step": 7060
	},
	{
	"epoch": 2.66,
	"learning_rate": 0.001062234551795576,
	"loss": 0.6927,
	"step": 7070
	},
	{
	"epoch": 2.66,
	"learning_rate": 0.0010596118049731454,
	"loss": 0.7177,
	"step": 7080
	},
	{
	"epoch": 2.67,
	"learning_rate": 0.0010569886465653206,
	"loss": 0.7045,
	"step": 7090
	},
	{
	"epoch": 2.67,
	"learning_rate": 0.0010543650946835091,
	"loss": 0.7008,
	"step": 7100
	},
	{
	"epoch": 2.68,
	"learning_rate": 0.0010517411674418348,
	"loss": 0.6965,
	"step": 7110
	},
	{
	"epoch": 2.68,
	"learning_rate": 0.0010491168829570136,
	"loss": 0.7021,
	"step": 7120
	},
	{
	"epoch": 2.68,
	"learning_rate": 0.001046492259348228,
	"loss": 0.6951,
	"step": 7130
	},
	{
	"epoch": 2.69,
	"learning_rate": 0.0010438673147370016,
	"loss": 0.6969,
	"step": 7140
	},
	{
	"epoch": 2.69,
	"learning_rate": 0.0010412420672470746,
	"loss": 0.6841,
	"step": 7150
	},
	{
	"epoch": 2.69,
	"learning_rate": 0.0010386165350042785,
	"loss": 0.6862,
	"step": 7160
	},
	{
	"epoch": 2.7,
	"learning_rate": 0.0010359907361364104,
	"loss": 0.7211,
	"step": 7170
	},
	{
	"epoch": 2.7,
	"learning_rate": 0.001033364688773109,
	"loss": 0.6906,
	"step": 7180
	},
	{
	"epoch": 2.71,
	"learning_rate": 0.001030738411045728,
	"loss": 0.6924,
	"step": 7190
	},
	{
	"epoch": 2.71,
	"learning_rate": 0.001028111921087212,
	"loss": 0.6955,
	"step": 7200
	},
	{
	"epoch": 2.71,
	"learning_rate": 0.001025485237031971,
	"loss": 0.6951,
	"step": 7210
	},
	{
	"epoch": 2.72,
	"learning_rate": 0.0010228583770157547,
	"loss": 0.6955,
	"step": 7220
	},
	{
	"epoch": 2.72,
	"learning_rate": 0.0010202313591755282,
	"loss": 0.6929,
	"step": 7230
	},
	{
	"epoch": 2.72,
	"learning_rate": 0.0010176042016493464,
	"loss": 0.6947,
	"step": 7240
	},
	{
	"epoch": 2.73,
	"learning_rate": 0.0010149769225762278,
	"loss": 0.6934,
	"step": 7250
	},
	{
	"epoch": 2.73,
	"learning_rate": 0.001012349540096031,
	"loss": 0.6949,
	"step": 7260
	},
	{
	"epoch": 2.74,
	"learning_rate": 0.0010097220723493281,
	"loss": 0.692,
	"step": 7270
	},
	{
	"epoch": 2.74,
	"learning_rate": 0.0010070945374772802,
	"loss": 0.6946,
	"step": 7280
	},
	{
	"epoch": 2.74,
	"learning_rate": 0.0010044669536215113,
	"loss": 0.6937,
	"step": 7290
	},
	{
	"epoch": 2.75,
	"learning_rate": 0.0010018393389239846,
	"loss": 0.6931,
	"step": 7300
	},
	{
	"epoch": 2.75,
	"learning_rate": 0.0009992117115268757,
	"loss": 0.6942,
	"step": 7310
	},
	{
	"epoch": 2.75,
	"learning_rate": 0.0009965840895724471,
	"loss": 0.6915,
	"step": 7320
	},
	{
	"epoch": 2.76,
	"learning_rate": 0.000993956491202925,
	"loss": 0.6913,
	"step": 7330
	},
	{
	"epoch": 2.76,
	"learning_rate": 0.000991328934560372,
	"loss": 0.694,
	"step": 7340
	},
	{
	"epoch": 2.77,
	"learning_rate": 0.0009887014377865631,
	"loss": 0.7042,
	"step": 7350
	},
	{
	"epoch": 2.77,
	"learning_rate": 0.0009860740190228594,
	"loss": 0.6927,
	"step": 7360
	},
	{
	"epoch": 2.77,
	"learning_rate": 0.000983446696410084,
	"loss": 0.6935,
	"step": 7370
	},
	{
	"epoch": 2.78,
	"learning_rate": 0.0009808194880883952,
	"loss": 0.6934,
	"step": 7380
	},
	{
	"epoch": 2.78,
	"learning_rate": 0.000978192412197163,
	"loss": 0.6931,
	"step": 7390
	},
	{
	"epoch": 2.79,
	"learning_rate": 0.000975565486874843,
	"loss": 0.6921,
	"step": 7400
	},
	{
	"epoch": 2.79,
	"learning_rate": 0.000972938730258851,
	"loss": 0.693,
	"step": 7410
	},
	{
	"epoch": 2.79,
	"learning_rate": 0.000970312160485438,
	"loss": 0.6944,
	"step": 7420
	},
	{
	"epoch": 2.8,
	"learning_rate": 0.0009676857956895647,
	"loss": 0.6941,
	"step": 7430
	},
	{
	"epoch": 2.8,
	"learning_rate": 0.000965059654004777,
	"loss": 0.6952,
	"step": 7440
	},
	{
	"epoch": 2.8,
	"learning_rate": 0.0009624337535630802,
	"loss": 0.694,
	"step": 7450
	},
	{
	"epoch": 2.81,
	"learning_rate": 0.0009598081124948137,
	"loss": 0.6941,
	"step": 7460
	},
	{
	"epoch": 2.81,
	"learning_rate": 0.0009571827489285264,
	"loss": 0.6955,
	"step": 7470
	},
	{
	"epoch": 2.82,
	"learning_rate": 0.0009545576809908511,
	"loss": 0.6932,
	"step": 7480
	},
	{
	"epoch": 2.82,
	"learning_rate": 0.0009519329268063794,
	"loss": 0.6937,
	"step": 7490
	},
	{
	"epoch": 2.82,
	"learning_rate": 0.0009493085044975368,
	"loss": 0.6936,
	"step": 7500
	},
	{
	"epoch": 2.83,
	"learning_rate": 0.000946684432184457,
	"loss": 0.6932,
	"step": 7510
	},
	{
	"epoch": 2.83,
	"learning_rate": 0.0009440607279848573,
	"loss": 0.6933,
	"step": 7520
	},
	{
	"epoch": 2.83,
	"learning_rate": 0.0009414374100139139,
	"loss": 0.6937,
	"step": 7530
	},
	{
	"epoch": 2.84,
	"learning_rate": 0.0009388144963841359,
	"loss": 0.6931,
	"step": 7540
	},
	{
	"epoch": 2.84,
	"learning_rate": 0.0009361920052052404,
	"loss": 0.6933,
	"step": 7550
	},
	{
	"epoch": 2.85,
	"learning_rate": 0.0009335699545840282,
	"loss": 0.6927,
	"step": 7560
	},
	{
	"epoch": 2.85,
	"learning_rate": 0.0009309483626242581,
	"loss": 0.6943,
	"step": 7570
	},
	{
	"epoch": 2.85,
	"learning_rate": 0.0009283272474265218,
	"loss": 0.6934,
	"step": 7580
	},
	{
	"epoch": 2.86,
	"learning_rate": 0.0009257066270881199,
	"loss": 0.6929,
	"step": 7590
	},
	{
	"epoch": 2.86,
	"learning_rate": 0.0009230865197029358,
	"loss": 0.6933,
	"step": 7600
	},
	{
	"epoch": 2.86,
	"learning_rate": 0.0009204669433613112,
	"loss": 0.6936,
	"step": 7610
	},
	{
	"epoch": 2.87,
	"learning_rate": 0.0009178479161499217,
	"loss": 0.6925,
	"step": 7620
	},
	{
	"epoch": 2.87,
	"learning_rate": 0.0009152294561516509,
	"loss": 0.6928,
	"step": 7630
	},
	{
	"epoch": 2.88,
	"learning_rate": 0.0009126115814454666,
	"loss": 0.693,
	"step": 7640
	},
	{
	"epoch": 2.88,
	"learning_rate": 0.0009099943101062948,
	"loss": 0.6912,
	"step": 7650
	},
	{
	"epoch": 2.88,
	"learning_rate": 0.0009073776602048968,
	"loss": 0.6908,
	"step": 7660
	},
	{
	"epoch": 2.89,
	"learning_rate": 0.0009047616498077425,
	"loss": 0.6951,
	"step": 7670
	},
	{
	"epoch": 2.89,
	"learning_rate": 0.0009021462969768857,
	"loss": 0.6923,
	"step": 7680
	},
	{
	"epoch": 2.89,
	"learning_rate": 0.0008995316197698415,
	"loss": 0.6941,
	"step": 7690
	},
	{
	"epoch": 2.9,
	"learning_rate": 0.0008969176362394591,
	"loss": 0.6934,
	"step": 7700
	},
	{
	"epoch": 2.9,
	"learning_rate": 0.0008943043644337987,
	"loss": 0.6943,
	"step": 7710
	},
	{
	"epoch": 2.91,
	"learning_rate": 0.0008916918223960066,
	"loss": 0.6912,
	"step": 7720
	},
	{
	"epoch": 2.91,
	"learning_rate": 0.0008890800281641899,
	"loss": 0.6918,
	"step": 7730
	},
	{
	"epoch": 2.91,
	"learning_rate": 0.0008864689997712933,
	"loss": 0.6879,
	"step": 7740
	},
	{
	"epoch": 2.92,
	"learning_rate": 0.0008838587552449731,
	"loss": 0.6923,
	"step": 7750
	},
	{
	"epoch": 2.92,
	"learning_rate": 0.0008812493126074739,
	"loss": 0.6935,
	"step": 7760
	},
	{
	"epoch": 2.92,
	"learning_rate": 0.0008786406898755037,
	"loss": 0.6875,
	"step": 7770
	},
	{
	"epoch": 2.93,
	"learning_rate": 0.000876032905060109,
	"loss": 0.7034,
	"step": 7780
	},
	{
	"epoch": 2.93,
	"learning_rate": 0.0008734259761665518,
	"loss": 0.6968,
	"step": 7790
	},
	{
	"epoch": 2.94,
	"learning_rate": 0.0008708199211941841,
	"loss": 0.6948,
	"step": 7800
	},
	{
	"epoch": 2.94,
	"learning_rate": 0.0008682147581363234,
	"loss": 0.6923,
	"step": 7810
	},
	{
	"epoch": 2.94,
	"learning_rate": 0.0008656105049801299,
	"loss": 0.694,
	"step": 7820
	},
	{
	"epoch": 2.95,
	"learning_rate": 0.0008630071797064811,
	"loss": 0.6958,
	"step": 7830
	},
	{
	"epoch": 2.95,
	"learning_rate": 0.0008604048002898479,
	"loss": 0.6937,
	"step": 7840
	},
	{
	"epoch": 2.95,
	"learning_rate": 0.0008578033846981705,
	"loss": 0.6937,
	"step": 7850
	},
	{
	"epoch": 2.96,
	"learning_rate": 0.0008552029508927349,
	"loss": 0.693,
	"step": 7860
	},
	{
	"epoch": 2.96,
	"learning_rate": 0.0008526035168280482,
	"loss": 0.6936,
	"step": 7870
	},
	{
	"epoch": 2.97,
	"learning_rate": 0.0008500051004517145,
	"loss": 0.6931,
	"step": 7880
	},
	{
	"epoch": 2.97,
	"learning_rate": 0.0008474077197043118,
	"loss": 0.694,
	"step": 7890
	},
	{
	"epoch": 2.97,
	"learning_rate": 0.0008448113925192676,
	"loss": 0.6962,
	"step": 7900
	},
	{
	"epoch": 2.98,
	"learning_rate": 0.0008422161368227349,
	"loss": 0.6916,
	"step": 7910
	},
	{
	"epoch": 2.98,
	"learning_rate": 0.0008396219705334693,
	"loss": 0.6928,
	"step": 7920
	},
	{
	"epoch": 2.98,
	"learning_rate": 0.0008370289115627038,
	"loss": 0.6899,
	"step": 7930
	},
	{
	"epoch": 2.99,
	"learning_rate": 0.0008344369778140267,
	"loss": 0.6992,
	"step": 7940
	},
	{
	"epoch": 2.99,
	"learning_rate": 0.000831846187183257,
	"loss": 0.6821,
	"step": 7950
	},
	{
	"epoch": 3.0,
	"learning_rate": 0.0008292565575583211,
	"loss": 0.6652,
	"step": 7960
	},
	{
	"epoch": 3.0,
	"learning_rate": 0.0008266681068191294,
	"loss": 0.7404,
	"step": 7970
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.496,
	"eval_loss": 0.7076430916786194,
	"eval_runtime": 38.5319,
	"eval_samples_per_second": 97.322,
	"eval_steps_per_second": 12.172,
	"step": 7971
	},
	{
	"epoch": 3.0,
	"learning_rate": 0.0008240808528374526,
	"loss": 0.6898,
	"step": 7980
	},
	{
	"epoch": 3.01,
	"learning_rate": 0.0008214948134767989,
	"loss": 0.7064,
	"step": 7990
	},
	{
	"epoch": 3.01,
	"learning_rate": 0.0008189100065922896,
	"loss": 0.6986,
	"step": 8000
	},
	{
	"epoch": 3.01,
	"learning_rate": 0.0008163264500305372,
	"loss": 0.6959,
	"step": 8010
	},
	{
	"epoch": 3.02,
	"learning_rate": 0.0008137441616295207,
	"loss": 0.6893,
	"step": 8020
	},
	{
	"epoch": 3.02,
	"learning_rate": 0.0008111631592184638,
	"loss": 0.7089,
	"step": 8030
	},
	{
	"epoch": 3.03,
	"learning_rate": 0.0008085834606177104,
	"loss": 0.6972,
	"step": 8040
	},
	{
	"epoch": 3.03,
	"learning_rate": 0.0008060050836386035,
	"loss": 0.6989,
	"step": 8050
	},
	{
	"epoch": 3.03,
	"learning_rate": 0.00080342804608336,
	"loss": 0.6932,
	"step": 8060
	},
	{
	"epoch": 3.04,
	"learning_rate": 0.0008008523657449493,
	"loss": 0.6927,
	"step": 8070
	},
	{
	"epoch": 3.04,
	"learning_rate": 0.0007982780604069701,
	"loss": 0.6936,
	"step": 8080
	},
	{
	"epoch": 3.04,
	"learning_rate": 0.0007957051478435272,
	"loss": 0.6934,
	"step": 8090
	},
	{
	"epoch": 3.05,
	"learning_rate": 0.0007931336458191091,
	"loss": 0.6929,
	"step": 8100
	},
	{
	"epoch": 3.05,
	"learning_rate": 0.0007905635720884659,
	"loss": 0.6802,
	"step": 8110
	},
	{
	"epoch": 3.06,
	"learning_rate": 0.0007879949443964851,
	"loss": 0.6782,
	"step": 8120
	},
	{
	"epoch": 3.06,
	"learning_rate": 0.0007854277804780712,
	"loss": 0.7108,
	"step": 8130
	},
	{
	"epoch": 3.06,
	"learning_rate": 0.0007828620980580217,
	"loss": 0.6865,
	"step": 8140
	},
	{
	"epoch": 3.07,
	"learning_rate": 0.0007802979148509049,
	"loss": 0.6867,
	"step": 8150
	},
	{
	"epoch": 3.07,
	"learning_rate": 0.0007777352485609385,
	"loss": 0.6991,
	"step": 8160
	},
	{
	"epoch": 3.07,
	"learning_rate": 0.0007751741168818663,
	"loss": 0.6899,
	"step": 8170
	},
	{
	"epoch": 3.08,
	"learning_rate": 0.000772614537496837,
	"loss": 0.6976,
	"step": 8180
	},
	{
	"epoch": 3.08,
	"learning_rate": 0.000770056528078281,
	"loss": 0.6906,
	"step": 8190
	},
	{
	"epoch": 3.09,
	"learning_rate": 0.0007675001062877892,
	"loss": 0.6952,
	"step": 8200
	},
	{
	"epoch": 3.09,
	"learning_rate": 0.0007649452897759911,
	"loss": 0.6864,
	"step": 8210
	},
	{
	"epoch": 3.09,
	"learning_rate": 0.0007623920961824323,
	"loss": 0.7033,
	"step": 8220
	},
	{
	"epoch": 3.1,
	"learning_rate": 0.0007598405431354533,
	"loss": 0.6934,
	"step": 8230
	},
	{
	"epoch": 3.1,
	"learning_rate": 0.0007572906482520673,
	"loss": 0.694,
	"step": 8240
	},
	{
	"epoch": 3.11,
	"learning_rate": 0.0007547424291378394,
	"loss": 0.696,
	"step": 8250
	},
	{
	"epoch": 3.11,
	"learning_rate": 0.0007521959033867638,
	"loss": 0.6949,
	"step": 8260
	},
	{
	"epoch": 3.11,
	"learning_rate": 0.0007496510885811433,
	"loss": 0.6942,
	"step": 8270
	},
	{
	"epoch": 3.12,
	"learning_rate": 0.0007471080022914678,
	"loss": 0.6935,
	"step": 8280
	},
	{
	"epoch": 3.12,
	"learning_rate": 0.0007445666620762923,
	"loss": 0.6903,
	"step": 8290
	},
	{
	"epoch": 3.12,
	"learning_rate": 0.0007420270854821167,
	"loss": 0.6907,
	"step": 8300
	},
	{
	"epoch": 3.13,
	"learning_rate": 0.0007394892900432635,
	"loss": 0.6905,
	"step": 8310
	},
	{
	"epoch": 3.13,
	"learning_rate": 0.000736953293281758,
	"loss": 0.6896,
	"step": 8320
	},
	{
	"epoch": 3.14,
	"learning_rate": 0.0007344191127072065,
	"loss": 0.7011,
	"step": 8330
	},
	{
	"epoch": 3.14,
	"learning_rate": 0.000731886765816675,
	"loss": 0.6993,
	"step": 8340
	},
	{
	"epoch": 3.14,
	"learning_rate": 0.0007293562700945696,
	"loss": 0.6936,
	"step": 8350
	},
	{
	"epoch": 3.15,
	"learning_rate": 0.0007268276430125149,
	"loss": 0.6912,
	"step": 8360
	},
	{
	"epoch": 3.15,
	"learning_rate": 0.0007243009020292335,
	"loss": 0.708,
	"step": 8370
	},
	{
	"epoch": 3.15,
	"learning_rate": 0.0007217760645904259,
	"loss": 0.6942,
	"step": 8380
	},
	{
	"epoch": 3.16,
	"learning_rate": 0.0007192531481286493,
	"loss": 0.6937,
	"step": 8390
	},
	{
	"epoch": 3.16,
	"learning_rate": 0.0007167321700631981,
	"loss": 0.693,
	"step": 8400
	},
	{
	"epoch": 3.17,
	"learning_rate": 0.0007142131477999826,
	"loss": 0.6929,
	"step": 8410
	},
	{
	"epoch": 3.17,
	"learning_rate": 0.0007116960987314103,
	"loss": 0.6935,
	"step": 8420
	},
	{
	"epoch": 3.17,
	"learning_rate": 0.000709181040236264,
	"loss": 0.6935,
	"step": 8430
	},
	{
	"epoch": 3.18,
	"learning_rate": 0.0007066679896795827,
	"loss": 0.6939,
	"step": 8440
	},
	{
	"epoch": 3.18,
	"learning_rate": 0.0007041569644125429,
	"loss": 0.6932,
	"step": 8450
	},
	{
	"epoch": 3.18,
	"learning_rate": 0.0007016479817723367,
	"loss": 0.6929,
	"step": 8460
	},
	{
	"epoch": 3.19,
	"learning_rate": 0.0006991410590820529,
	"loss": 0.693,
	"step": 8470
	},
	{
	"epoch": 3.19,
	"learning_rate": 0.000696636213650558,
	"loss": 0.6938,
	"step": 8480
	},
	{
	"epoch": 3.2,
	"learning_rate": 0.0006941334627723761,
	"loss": 0.6921,
	"step": 8490
	},
	{
	"epoch": 3.2,
	"learning_rate": 0.0006916328237275694,
	"loss": 0.6955,
	"step": 8500
	},
	{
	"epoch": 3.2,
	"learning_rate": 0.0006891343137816195,
	"loss": 0.6915,
	"step": 8510
	},
	{
	"epoch": 3.21,
	"learning_rate": 0.0006866379501853073,
	"loss": 0.6935,
	"step": 8520
	},
	{
	"epoch": 3.21,
	"learning_rate": 0.0006841437501745947,
	"loss": 0.6936,
	"step": 8530
	},
	{
	"epoch": 3.21,
	"learning_rate": 0.0006816517309705051,
	"loss": 0.698,
	"step": 8540
	},
	{
	"epoch": 3.22,
	"learning_rate": 0.0006791619097790049,
	"loss": 0.6925,
	"step": 8550
	},
	{
	"epoch": 3.22,
	"learning_rate": 0.0006766743037908844,
	"loss": 0.6916,
	"step": 8560
	},
	{
	"epoch": 3.23,
	"learning_rate": 0.0006741889301816391,
	"loss": 0.6941,
	"step": 8570
	},
	{
	"epoch": 3.23,
	"learning_rate": 0.0006717058061113513,
	"loss": 0.6939,
	"step": 8580
	},
	{
	"epoch": 3.23,
	"learning_rate": 0.0006692249487245714,
	"loss": 0.6959,
	"step": 8590
	},
	{
	"epoch": 3.24,
	"learning_rate": 0.0006667463751501996,
	"loss": 0.6951,
	"step": 8600
	},
	{
	"epoch": 3.24,
	"learning_rate": 0.0006642701025013682,
	"loss": 0.6924,
	"step": 8610
	},
	{
	"epoch": 3.24,
	"learning_rate": 0.0006617961478753223,
	"loss": 0.6897,
	"step": 8620
	},
	{
	"epoch": 3.25,
	"learning_rate": 0.0006593245283533025,
	"loss": 0.6893,
	"step": 8630
	},
	{
	"epoch": 3.25,
	"learning_rate": 0.000656855261000427,
	"loss": 0.6887,
	"step": 8640
	},
	{
	"epoch": 3.26,
	"learning_rate": 0.0006543883628655738,
	"loss": 0.691,
	"step": 8650
	},
	{
	"epoch": 3.26,
	"learning_rate": 0.0006519238509812623,
	"loss": 0.6933,
	"step": 8660
	},
	{
	"epoch": 3.26,
	"learning_rate": 0.0006494617423635367,
	"loss": 0.703,
	"step": 8670
	},
	{
	"epoch": 3.27,
	"learning_rate": 0.0006470020540118478,
	"loss": 0.6978,
	"step": 8680
	},
	{
	"epoch": 3.27,
	"learning_rate": 0.0006445448029089356,
	"loss": 0.6925,
	"step": 8690
	},
	{
	"epoch": 3.27,
	"learning_rate": 0.0006420900060207129,
	"loss": 0.6941,
	"step": 8700
	},
	{
	"epoch": 3.28,
	"learning_rate": 0.0006396376802961468,
	"loss": 0.6933,
	"step": 8710
	},
	{
	"epoch": 3.28,
	"learning_rate": 0.0006371878426671431,
	"loss": 0.6912,
	"step": 8720
	},
	{
	"epoch": 3.29,
	"learning_rate": 0.0006347405100484285,
	"loss": 0.6882,
	"step": 8730
	},
	{
	"epoch": 3.29,
	"learning_rate": 0.0006322956993374338,
	"loss": 0.6938,
	"step": 8740
	},
	{
	"epoch": 3.29,
	"learning_rate": 0.0006298534274141778,
	"loss": 0.7052,
	"step": 8750
	},
	{
	"epoch": 3.3,
	"learning_rate": 0.0006274137111411501,
	"loss": 0.6937,
	"step": 8760
	},
	{
	"epoch": 3.3,
	"learning_rate": 0.0006249765673631953,
	"loss": 0.6942,
	"step": 8770
	},
	{
	"epoch": 3.3,
	"learning_rate": 0.0006225420129073962,
	"loss": 0.6926,
	"step": 8780
	},
	{
	"epoch": 3.31,
	"learning_rate": 0.0006201100645829582,
	"loss": 0.6935,
	"step": 8790
	},
	{
	"epoch": 3.31,
	"learning_rate": 0.0006176807391810922,
	"loss": 0.6958,
	"step": 8800
	},
	{
	"epoch": 3.32,
	"learning_rate": 0.0006152540534748998,
	"loss": 0.6935,
	"step": 8810
	},
	{
	"epoch": 3.32,
	"learning_rate": 0.0006128300242192568,
	"loss": 0.6928,
	"step": 8820
	},
	{
	"epoch": 3.32,
	"learning_rate": 0.000610408668150698,
	"loss": 0.6935,
	"step": 8830
	},
	{
	"epoch": 3.33,
	"learning_rate": 0.0006079900019873008,
	"loss": 0.6925,
	"step": 8840
	},
	{
	"epoch": 3.33,
	"learning_rate": 0.0006055740424285712,
	"loss": 0.6948,
	"step": 8850
	},
	{
	"epoch": 3.33,
	"learning_rate": 0.0006031608061553267,
	"loss": 0.6939,
	"step": 8860
	},
	{
	"epoch": 3.34,
	"learning_rate": 0.0006007503098295828,
	"loss": 0.6937,
	"step": 8870
	},
	{
	"epoch": 3.34,
	"learning_rate": 0.000598342570094437,
	"loss": 0.6938,
	"step": 8880
	},
	{
	"epoch": 3.35,
	"learning_rate": 0.000595937603573954,
	"loss": 0.6933,
	"step": 8890
	},
	{
	"epoch": 3.35,
	"learning_rate": 0.0005935354268730509,
	"loss": 0.6933,
	"step": 8900
	},
	{
	"epoch": 3.35,
	"learning_rate": 0.0005911360565773833,
	"loss": 0.6932,
	"step": 8910
	},
	{
	"epoch": 3.36,
	"learning_rate": 0.0005887395092532299,
	"loss": 0.694,
	"step": 8920
	},
	{
	"epoch": 3.36,
	"learning_rate": 0.0005863458014473779,
	"loss": 0.6893,
	"step": 8930
	},
	{
	"epoch": 3.36,
	"learning_rate": 0.0005839549496870098,
	"loss": 0.6985,
	"step": 8940
	},
	{
	"epoch": 3.37,
	"learning_rate": 0.0005815669704795887,
	"loss": 0.6949,
	"step": 8950
	},
	{
	"epoch": 3.37,
	"learning_rate": 0.0005791818803127443,
	"loss": 0.6927,
	"step": 8960
	},
	{
	"epoch": 3.38,
	"learning_rate": 0.0005767996956541583,
	"loss": 0.693,
	"step": 8970
	},
	{
	"epoch": 3.38,
	"learning_rate": 0.0005744204329514533,
	"loss": 0.6939,
	"step": 8980
	},
	{
	"epoch": 3.38,
	"learning_rate": 0.0005720441086320763,
	"loss": 0.6931,
	"step": 8990
	},
	{
	"epoch": 3.39,
	"learning_rate": 0.0005696707391031861,
	"loss": 0.6924,
	"step": 9000
	},
	{
	"epoch": 3.39,
	"learning_rate": 0.0005673003407515417,
	"loss": 0.6942,
	"step": 9010
	},
	{
	"epoch": 3.39,
	"learning_rate": 0.0005649329299433861,
	"loss": 0.6939,
	"step": 9020
	},
	{
	"epoch": 3.4,
	"learning_rate": 0.0005625685230243369,
	"loss": 0.6935,
	"step": 9030
	},
	{
	"epoch": 3.4,
	"learning_rate": 0.0005602071363192695,
	"loss": 0.6909,
	"step": 9040
	},
	{
	"epoch": 3.41,
	"learning_rate": 0.0005578487861322086,
	"loss": 0.6917,
	"step": 9050
	},
	{
	"epoch": 3.41,
	"learning_rate": 0.0005554934887462116,
	"loss": 0.6911,
	"step": 9060
	},
	{
	"epoch": 3.41,
	"learning_rate": 0.0005531412604232595,
	"loss": 0.6953,
	"step": 9070
	},
	{
	"epoch": 3.42,
	"learning_rate": 0.0005507921174041419,
	"loss": 0.6914,
	"step": 9080
	},
	{
	"epoch": 3.42,
	"learning_rate": 0.0005484460759083478,
	"loss": 0.6914,
	"step": 9090
	},
	{
	"epoch": 3.42,
	"learning_rate": 0.0005461031521339498,
	"loss": 0.6963,
	"step": 9100
	},
	{
	"epoch": 3.43,
	"learning_rate": 0.0005437633622574961,
	"loss": 0.69,
	"step": 9110
	},
	{
	"epoch": 3.43,
	"learning_rate": 0.0005414267224338971,
	"loss": 0.6921,
	"step": 9120
	},
	{
	"epoch": 3.44,
	"learning_rate": 0.0005390932487963125,
	"loss": 0.6899,
	"step": 9130
	},
	{
	"epoch": 3.44,
	"learning_rate": 0.0005367629574560431,
	"loss": 0.6983,
	"step": 9140
	},
	{
	"epoch": 3.44,
	"learning_rate": 0.0005344358645024159,
	"loss": 0.6912,
	"step": 9150
	},
	{
	"epoch": 3.45,
	"learning_rate": 0.0005321119860026766,
	"loss": 0.6927,
	"step": 9160
	},
	{
	"epoch": 3.45,
	"learning_rate": 0.0005297913380018758,
	"loss": 0.6944,
	"step": 9170
	},
	{
	"epoch": 3.46,
	"learning_rate": 0.0005274739365227599,
	"loss": 0.6939,
	"step": 9180
	},
	{
	"epoch": 3.46,
	"learning_rate": 0.0005251597975656591,
	"loss": 0.6927,
	"step": 9190
	},
	{
	"epoch": 3.46,
	"learning_rate": 0.0005228489371083794,
	"loss": 0.6934,
	"step": 9200
	},
	{
	"epoch": 3.47,
	"learning_rate": 0.0005205413711060888,
	"loss": 0.6897,
	"step": 9210
	},
	{
	"epoch": 3.47,
	"learning_rate": 0.0005182371154912104,
	"loss": 0.6963,
	"step": 9220
	},
	{
	"epoch": 3.47,
	"learning_rate": 0.0005159361861733099,
	"loss": 0.6926,
	"step": 9230
	},
	{
	"epoch": 3.48,
	"learning_rate": 0.0005136385990389871,
	"loss": 0.6953,
	"step": 9240
	},
	{
	"epoch": 3.48,
	"learning_rate": 0.0005113443699517673,
	"loss": 0.6982,
	"step": 9250
	},
	{
	"epoch": 3.49,
	"learning_rate": 0.0005090535147519877,
	"loss": 0.6939,
	"step": 9260
	},
	{
	"epoch": 3.49,
	"learning_rate": 0.0005067660492566935,
	"loss": 0.6924,
	"step": 9270
	},
	{
	"epoch": 3.49,
	"learning_rate": 0.0005044819892595239,
	"loss": 0.6935,
	"step": 9280
	},
	{
	"epoch": 3.5,
	"learning_rate": 0.0005022013505306067,
	"loss": 0.6965,
	"step": 9290
	},
	{
	"epoch": 3.5,
	"learning_rate": 0.0004999241488164458,
	"loss": 0.6936,
	"step": 9300
	},
	{
	"epoch": 3.5,
	"learning_rate": 0.0004976503998398168,
	"loss": 0.6938,
	"step": 9310
	},
	{
	"epoch": 3.51,
	"learning_rate": 0.0004953801192996543,
	"loss": 0.6938,
	"step": 9320
	},
	{
	"epoch": 3.51,
	"learning_rate": 0.0004931133228709467,
	"loss": 0.6909,
	"step": 9330
	},
	{
	"epoch": 3.52,
	"learning_rate": 0.000490850026204625,
	"loss": 0.6926,
	"step": 9340
	},
	{
	"epoch": 3.52,
	"learning_rate": 0.0004885902449274581,
	"loss": 0.693,
	"step": 9350
	},
	{
	"epoch": 3.52,
	"learning_rate": 0.0004863339946419416,
	"loss": 0.693,
	"step": 9360
	},
	{
	"epoch": 3.53,
	"learning_rate": 0.0004840812909261928,
	"loss": 0.6952,
	"step": 9370
	},
	{
	"epoch": 3.53,
	"learning_rate": 0.0004818321493338418,
	"loss": 0.6877,
	"step": 9380
	},
	{
	"epoch": 3.53,
	"learning_rate": 0.00047958658539392317,
	"loss": 0.7037,
	"step": 9390
	},
	{
	"epoch": 3.54,
	"learning_rate": 0.0004773446146107716,
	"loss": 0.6961,
	"step": 9400
	},
	{
	"epoch": 3.54,
	"learning_rate": 0.00047510625246391126,
	"loss": 0.6933,
	"step": 9410
	},
	{
	"epoch": 3.55,
	"learning_rate": 0.0004728715144079524,
	"loss": 0.6932,
	"step": 9420
	},
	{
	"epoch": 3.55,
	"learning_rate": 0.0004706404158724815,
	"loss": 0.6942,
	"step": 9430
	},
	{
	"epoch": 3.55,
	"learning_rate": 0.00046841297226195777,
	"loss": 0.6925,
	"step": 9440
	},
	{
	"epoch": 3.56,
	"learning_rate": 0.0004661891989556035,
	"loss": 0.6919,
	"step": 9450
	},
	{
	"epoch": 3.56,
	"learning_rate": 0.0004639691113073017,
	"loss": 0.6938,
	"step": 9460
	},
	{
	"epoch": 3.56,
	"learning_rate": 0.00046175272464548566,
	"loss": 0.6914,
	"step": 9470
	},
	{
	"epoch": 3.57,
	"learning_rate": 0.0004595400542730379,
	"loss": 0.6967,
	"step": 9480
	},
	{
	"epoch": 3.57,
	"learning_rate": 0.00045733111546718,
	"loss": 0.6926,
	"step": 9490
	},
	{
	"epoch": 3.58,
	"learning_rate": 0.0004551259234793704,
	"loss": 0.6952,
	"step": 9500
	},
	{
	"epoch": 3.58,
	"learning_rate": 0.00045292449353519817,
	"loss": 0.693,
	"step": 9510
	},
	{
	"epoch": 3.58,
	"learning_rate": 0.00045072684083427616,
	"loss": 0.694,
	"step": 9520
	},
	{
	"epoch": 3.59,
	"learning_rate": 0.00044853298055013937,
	"loss": 0.6932,
	"step": 9530
	},
	{
	"epoch": 3.59,
	"learning_rate": 0.0004463429278301364,
	"loss": 0.6926,
	"step": 9540
	},
	{
	"epoch": 3.59,
	"learning_rate": 0.00044415669779532876,
	"loss": 0.6922,
	"step": 9550
	},
	{
	"epoch": 3.6,
	"learning_rate": 0.00044197430554038263,
	"loss": 0.695,
	"step": 9560
	},
	{
	"epoch": 3.6,
	"learning_rate": 0.0004397957661334684,
	"loss": 0.694,
	"step": 9570
	},
	{
	"epoch": 3.61,
	"learning_rate": 0.0004376210946161529,
	"loss": 0.6929,
	"step": 9580
	},
	{
	"epoch": 3.61,
	"learning_rate": 0.0004354503060032988,
	"loss": 0.694,
	"step": 9590
	},
	{
	"epoch": 3.61,
	"learning_rate": 0.00043328341528295854,
	"loss": 0.6932,
	"step": 9600
	},
	{
	"epoch": 3.62,
	"learning_rate": 0.000431120437416273,
	"loss": 0.693,
	"step": 9610
	},
	{
	"epoch": 3.62,
	"learning_rate": 0.0004289613873373657,
	"loss": 0.6935,
	"step": 9620
	},
	{
	"epoch": 3.62,
	"learning_rate": 0.00042680627995324196,
	"loss": 0.6929,
	"step": 9630
	},
	{
	"epoch": 3.63,
	"learning_rate": 0.0004246551301436851,
	"loss": 0.6937,
	"step": 9640
	},
	{
	"epoch": 3.63,
	"learning_rate": 0.0004225079527611526,
	"loss": 0.6933,
	"step": 9650
	},
	{
	"epoch": 3.64,
	"learning_rate": 0.0004203647626306761,
	"loss": 0.6905,
	"step": 9660
	},
	{
	"epoch": 3.64,
	"learning_rate": 0.0004182255745497562,
	"loss": 0.6992,
	"step": 9670
	},
	{
	"epoch": 3.64,
	"learning_rate": 0.00041609040328826274,
	"loss": 0.6947,
	"step": 9680
	},
	{
	"epoch": 3.65,
	"learning_rate": 0.00041395926358833067,
	"loss": 0.6949,
	"step": 9690
	},
	{
	"epoch": 3.65,
	"learning_rate": 0.00041183217016426034,
	"loss": 0.6935,
	"step": 9700
	},
	{
	"epoch": 3.65,
	"learning_rate": 0.00040970913770241427,
	"loss": 0.6932,
	"step": 9710
	},
	{
	"epoch": 3.66,
	"learning_rate": 0.000407590180861116,
	"loss": 0.6939,
	"step": 9720
	},
	{
	"epoch": 3.66,
	"learning_rate": 0.0004054753142705504,
	"loss": 0.6935,
	"step": 9730
	},
	{
	"epoch": 3.67,
	"learning_rate": 0.0004033645525326601,
	"loss": 0.6925,
	"step": 9740
	},
	{
	"epoch": 3.67,
	"learning_rate": 0.00040125791022104776,
	"loss": 0.6932,
	"step": 9750
	},
	{
	"epoch": 3.67,
	"learning_rate": 0.00039915540188087173,
	"loss": 0.692,
	"step": 9760
	},
	{
	"epoch": 3.68,
	"learning_rate": 0.0003970570420287496,
	"loss": 0.6951,
	"step": 9770
	},
	{
	"epoch": 3.68,
	"learning_rate": 0.00039496284515265446,
	"loss": 0.6932,
	"step": 9780
	},
	{
	"epoch": 3.68,
	"learning_rate": 0.0003928728257118178,
	"loss": 0.6932,
	"step": 9790
	},
	{
	"epoch": 3.69,
	"learning_rate": 0.0003907869981366269,
	"loss": 0.6936,
	"step": 9800
	},
	{
	"epoch": 3.69,
	"learning_rate": 0.000388705376828528,
	"loss": 0.6931,
	"step": 9810
	},
	{
	"epoch": 3.7,
	"learning_rate": 0.00038662797615992417,
	"loss": 0.6932,
	"step": 9820
	},
	{
	"epoch": 3.7,
	"learning_rate": 0.00038455481047407826,
	"loss": 0.6947,
	"step": 9830
	},
	{
	"epoch": 3.7,
	"learning_rate": 0.00038248589408501334,
	"loss": 0.692,
	"step": 9840
	},
	{
	"epoch": 3.71,
	"learning_rate": 0.00038042124127741193,
	"loss": 0.6947,
	"step": 9850
	},
	{
	"epoch": 3.71,
	"learning_rate": 0.00037836086630652077,
	"loss": 0.6932,
	"step": 9860
	},
	{
	"epoch": 3.71,
	"learning_rate": 0.00037630478339804906,
	"loss": 0.694,
	"step": 9870
	},
	{
	"epoch": 3.72,
	"learning_rate": 0.0003742530067480733,
	"loss": 0.6935,
	"step": 9880
	},
	{
	"epoch": 3.72,
	"learning_rate": 0.000372205550522936,
	"loss": 0.693,
	"step": 9890
	},
	{
	"epoch": 3.73,
	"learning_rate": 0.0003701624288591514,
	"loss": 0.6929,
	"step": 9900
	},
	{
	"epoch": 3.73,
	"learning_rate": 0.0003681236558633044,
	"loss": 0.6931,
	"step": 9910
	},
	{
	"epoch": 3.73,
	"learning_rate": 0.00036608924561195634,
	"loss": 0.6936,
	"step": 9920
	},
	{
	"epoch": 3.74,
	"learning_rate": 0.00036405921215154494,
	"loss": 0.6939,
	"step": 9930
	},
	{
	"epoch": 3.74,
	"learning_rate": 0.00036203356949829005,
	"loss": 0.6926,
	"step": 9940
	},
	{
	"epoch": 3.74,
	"learning_rate": 0.000360012331638094,
	"loss": 0.6931,
	"step": 9950
	},
	{
	"epoch": 3.75,
	"learning_rate": 0.00035799551252644777,
	"loss": 0.6933,
	"step": 9960
	},
	{
	"epoch": 3.75,
	"learning_rate": 0.0003559831260883334,
	"loss": 0.6934,
	"step": 9970
	},
	{
	"epoch": 3.76,
	"learning_rate": 0.0003539751862181267,
	"loss": 0.6939,
	"step": 9980
	},
	{
	"epoch": 3.76,
	"learning_rate": 0.00035197170677950387,
	"loss": 0.6931,
	"step": 9990
	},
	{
	"epoch": 3.76,
	"learning_rate": 0.0003499727016053431,
	"loss": 0.6933,
	"step": 10000
	},
	{
	"epoch": 3.77,
	"learning_rate": 0.0003479781844976316,
	"loss": 0.6932,
	"step": 10010
	},
	{
	"epoch": 3.77,
	"learning_rate": 0.0003459881692273678,
	"loss": 0.6917,
	"step": 10020
	},
	{
	"epoch": 3.77,
	"learning_rate": 0.0003440026695344688,
	"loss": 0.6925,
	"step": 10030
	},
	{
	"epoch": 3.78,
	"learning_rate": 0.0003420216991276729,
	"loss": 0.6926,
	"step": 10040
	},
	{
	"epoch": 3.78,
	"learning_rate": 0.00034004527168444754,
	"loss": 0.6949,
	"step": 10050
	},
	{
	"epoch": 3.79,
	"learning_rate": 0.00033807340085089256,
	"loss": 0.6928,
	"step": 10060
	},
	{
	"epoch": 3.79,
	"learning_rate": 0.0003361061002416479,
	"loss": 0.6933,
	"step": 10070
	},
	{
	"epoch": 3.79,
	"learning_rate": 0.00033414338343979756,
	"loss": 0.6946,
	"step": 10080
	},
	{
	"epoch": 3.8,
	"learning_rate": 0.0003321852639967783,
	"loss": 0.6939,
	"step": 10090
	},
	{
	"epoch": 3.8,
	"learning_rate": 0.0003302317554322841,
	"loss": 0.6933,
	"step": 10100
	},
	{
	"epoch": 3.81,
	"learning_rate": 0.00032828287123417324,
	"loss": 0.6928,
	"step": 10110
	},
	{
	"epoch": 3.81,
	"learning_rate": 0.00032633862485837594,
	"loss": 0.6926,
	"step": 10120
	},
	{
	"epoch": 3.81,
	"learning_rate": 0.0003243990297288002,
	"loss": 0.6938,
	"step": 10130
	},
	{
	"epoch": 3.82,
	"learning_rate": 0.00032246409923724083,
	"loss": 0.6925,
	"step": 10140
	},
	{
	"epoch": 3.82,
	"learning_rate": 0.00032053384674328477,
	"loss": 0.6931,
	"step": 10150
	},
	{
	"epoch": 3.82,
	"learning_rate": 0.0003186082855742213,
	"loss": 0.6925,
	"step": 10160
	},
	{
	"epoch": 3.83,
	"learning_rate": 0.00031668742902494763,
	"loss": 0.6926,
	"step": 10170
	},
	{
	"epoch": 3.83,
	"learning_rate": 0.00031477129035787944,
	"loss": 0.6923,
	"step": 10180
	},
	{
	"epoch": 3.84,
	"learning_rate": 0.0003128598828028568,
	"loss": 0.6927,
	"step": 10190
	},
	{
	"epoch": 3.84,
	"learning_rate": 0.0003109532195570556,
	"loss": 0.6913,
	"step": 10200
	},
	{
	"epoch": 3.84,
	"learning_rate": 0.0003090513137848936,
	"loss": 0.6948,
	"step": 10210
	},
	{
	"epoch": 3.85,
	"learning_rate": 0.0003071541786179418,
	"loss": 0.6943,
	"step": 10220
	},
	{
	"epoch": 3.85,
	"learning_rate": 0.0003052618271548332,
	"loss": 0.6923,
	"step": 10230
	},
	{
	"epoch": 3.85,
	"learning_rate": 0.0003033742724611709,
	"loss": 0.6922,
	"step": 10240
	},
	{
	"epoch": 3.86,
	"learning_rate": 0.0003014915275694401,
	"loss": 0.6886,
	"step": 10250
	},
	{
	"epoch": 3.86,
	"learning_rate": 0.00029961360547891636,
	"loss": 0.6932,
	"step": 10260
	},
	{
	"epoch": 3.87,
	"learning_rate": 0.0002977405191555773,
	"loss": 0.6934,
	"step": 10270
	},
	{
	"epoch": 3.87,
	"learning_rate": 0.0002958722815320114,
	"loss": 0.6911,
	"step": 10280
	},
	{
	"epoch": 3.87,
	"learning_rate": 0.00029400890550733064,
	"loss": 0.6908,
	"step": 10290
	},
	{
	"epoch": 3.88,
	"learning_rate": 0.0002921504039470795,
	"loss": 0.6829,
	"step": 10300
	},
	{
	"epoch": 3.88,
	"learning_rate": 0.0002902967896831481,
	"loss": 0.697,
	"step": 10310
	},
	{
	"epoch": 3.88,
	"learning_rate": 0.00028844807551368137,
	"loss": 0.7049,
	"step": 10320
	},
	{
	"epoch": 3.89,
	"learning_rate": 0.0002866042742029931,
	"loss": 0.6985,
	"step": 10330
	},
	{
	"epoch": 3.89,
	"learning_rate": 0.00028476539848147544,
	"loss": 0.6987,
	"step": 10340
	},
	{
	"epoch": 3.9,
	"learning_rate": 0.00028293146104551307,
	"loss": 0.6929,
	"step": 10350
	},
	{
	"epoch": 3.9,
	"learning_rate": 0.00028110247455739466,
	"loss": 0.6934,
	"step": 10360
	},
	{
	"epoch": 3.9,
	"learning_rate": 0.00027927845164522447,
	"loss": 0.6924,
	"step": 10370
	},
	{
	"epoch": 3.91,
	"learning_rate": 0.00027745940490283725,
	"loss": 0.6944,
	"step": 10380
	},
	{
	"epoch": 3.91,
	"learning_rate": 0.0002756453468897092,
	"loss": 0.6945,
	"step": 10390
	},
	{
	"epoch": 3.91,
	"learning_rate": 0.00027383629013087295,
	"loss": 0.693,
	"step": 10400
	},
	{
	"epoch": 3.92,
	"learning_rate": 0.0002720322471168296,
	"loss": 0.6932,
	"step": 10410
	},
	{
	"epoch": 3.92,
	"learning_rate": 0.00027023323030346416,
	"loss": 0.6931,
	"step": 10420
	},
	{
	"epoch": 3.93,
	"learning_rate": 0.00026843925211195743,
	"loss": 0.6932,
	"step": 10430
	},
	{
	"epoch": 3.93,
	"learning_rate": 0.00026665032492870255,
	"loss": 0.6927,
	"step": 10440
	},
	{
	"epoch": 3.93,
	"learning_rate": 0.00026486646110521737,
	"loss": 0.6932,
	"step": 10450
	},
	{
	"epoch": 3.94,
	"learning_rate": 0.00026308767295806114,
	"loss": 0.6933,
	"step": 10460
	},
	{
	"epoch": 3.94,
	"learning_rate": 0.0002613139727687472,
	"loss": 0.6925,
	"step": 10470
	},
	{
	"epoch": 3.94,
	"learning_rate": 0.0002595453727836606,
	"loss": 0.6925,
	"step": 10480
	},
	{
	"epoch": 3.95,
	"learning_rate": 0.0002577818852139723,
	"loss": 0.6928,
	"step": 10490
	},
	{
	"epoch": 3.95,
	"learning_rate": 0.0002560235222355539,
	"loss": 0.6917,
	"step": 10500
	},
	{
	"epoch": 3.96,
	"learning_rate": 0.00025427029598889606,
	"loss": 0.6929,
	"step": 10510
	},
	{
	"epoch": 3.96,
	"learning_rate": 0.0002525222185790219,
	"loss": 0.6959,
	"step": 10520
	},
	{
	"epoch": 3.96,
	"learning_rate": 0.000250779302075406,
	"loss": 0.6946,
	"step": 10530
	},
	{
	"epoch": 3.97,
	"learning_rate": 0.0002490415585118887,
	"loss": 0.6934,
	"step": 10540
	},
	{
	"epoch": 3.97,
	"learning_rate": 0.0002473089998865953,
	"loss": 0.6931,
	"step": 10550
	},
	{
	"epoch": 3.97,
	"learning_rate": 0.00024558163816185076,
	"loss": 0.6948,
	"step": 10560
	},
	{
	"epoch": 3.98,
	"learning_rate": 0.00024385948526409984,
	"loss": 0.6935,
	"step": 10570
	},
	{
	"epoch": 3.98,
	"learning_rate": 0.00024214255308382195,
	"loss": 0.6922,
	"step": 10580
	},
	{
	"epoch": 3.99,
	"learning_rate": 0.0002404308534754517,
	"loss": 0.6937,
	"step": 10590
	},
	{
	"epoch": 3.99,
	"learning_rate": 0.00023872439825729463,
	"loss": 0.6922,
	"step": 10600
	},
	{
	"epoch": 3.99,
	"learning_rate": 0.00023702319921144798,
	"loss": 0.694,
	"step": 10610
	},
	{
	"epoch": 4.0,
	"learning_rate": 0.00023532726808371673,
	"loss": 0.6939,
	"step": 10620
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.496,
	"eval_loss": 0.6932018399238586,
	"eval_runtime": 38.6192,
	"eval_samples_per_second": 97.102,
	"eval_steps_per_second": 12.144,
	"step": 10628
	},
	{
	"epoch": 4.0,
	"learning_rate": 0.00023363661658353508,
	"loss": 0.6935,
	"step": 10630
	},
	{
	"epoch": 4.0,
	"learning_rate": 0.00023195125638388425,
	"loss": 0.6942,
	"step": 10640
	},
	{
	"epoch": 4.01,
	"learning_rate": 0.00023027119912121107,
	"loss": 0.6928,
	"step": 10650
	},
	{
	"epoch": 4.01,
	"learning_rate": 0.0002285964563953501,
	"loss": 0.6944,
	"step": 10660
	},
	{
	"epoch": 4.02,
	"learning_rate": 0.00022692703976944062,
	"loss": 0.694,
	"step": 10670
	},
	{
	"epoch": 4.02,
	"learning_rate": 0.00022526296076984953,
	"loss": 0.6931,
	"step": 10680
	},
	{
	"epoch": 4.02,
	"learning_rate": 0.00022360423088608938,
	"loss": 0.6924,
	"step": 10690
	},
	{
	"epoch": 4.03,
	"learning_rate": 0.00022195086157074118,
	"loss": 0.6938,
	"step": 10700
	},
	{
	"epoch": 4.03,
	"learning_rate": 0.00022030286423937307,
	"loss": 0.6934,
	"step": 10710
	},
	{
	"epoch": 4.03,
	"learning_rate": 0.0002186602502704641,
	"loss": 0.6929,
	"step": 10720
	},
	{
	"epoch": 4.04,
	"learning_rate": 0.00021702303100532285,
	"loss": 0.6926,
	"step": 10730
	},
	{
	"epoch": 4.04,
	"learning_rate": 0.00021539121774801195,
	"loss": 0.6941,
	"step": 10740
	},
	{
	"epoch": 4.05,
	"learning_rate": 0.00021376482176526735,
	"loss": 0.6938,
	"step": 10750
	},
	{
	"epoch": 4.05,
	"learning_rate": 0.0002121438542864228,
	"loss": 0.6926,
	"step": 10760
	},
	{
	"epoch": 4.05,
	"learning_rate": 0.0002105283265033311,
	"loss": 0.6927,
	"step": 10770
	},
	{
	"epoch": 4.06,
	"learning_rate": 0.0002089182495702866,
	"loss": 0.6948,
	"step": 10780
	},
	{
	"epoch": 4.06,
	"learning_rate": 0.00020731363460394926,
	"loss": 0.6931,
	"step": 10790
	},
	{
	"epoch": 4.06,
	"learning_rate": 0.0002057144926832667,
	"loss": 0.6926,
	"step": 10800
	},
	{
	"epoch": 4.07,
	"learning_rate": 0.00020412083484939902,
	"loss": 0.6941,
	"step": 10810
	},
	{
	"epoch": 4.07,
	"learning_rate": 0.00020253267210564098,
	"loss": 0.6938,
	"step": 10820
	},
	{
	"epoch": 4.08,
	"learning_rate": 0.0002009500154173477,
	"loss": 0.694,
	"step": 10830
	},
	{
	"epoch": 4.08,
	"learning_rate": 0.00019937287571185748,
	"loss": 0.6936,
	"step": 10840
	},
	{
	"epoch": 4.08,
	"learning_rate": 0.00019780126387841768,
	"loss": 0.6936,
	"step": 10850
	},
	{
	"epoch": 4.09,
	"learning_rate": 0.00019623519076810792,
	"loss": 0.6926,
	"step": 10860
	},
	{
	"epoch": 4.09,
	"learning_rate": 0.00019467466719376726,
	"loss": 0.6932,
	"step": 10870
	},
	{
	"epoch": 4.09,
	"learning_rate": 0.0001931197039299174,
	"loss": 0.6938,
	"step": 10880
	},
	{
	"epoch": 4.1,
	"learning_rate": 0.0001915703117126897,
	"loss": 0.6933,
	"step": 10890
	},
	{
	"epoch": 4.1,
	"learning_rate": 0.0001900265012397514,
	"loss": 0.6933,
	"step": 10900
	},
	{
	"epoch": 4.11,
	"learning_rate": 0.0001884882831702289,
	"loss": 0.6935,
	"step": 10910
	},
	{
	"epoch": 4.11,
	"learning_rate": 0.0001869556681246386,
	"loss": 0.6934,
	"step": 10920
	},
	{
	"epoch": 4.11,
	"learning_rate": 0.0001854286666848096,
	"loss": 0.6932,
	"step": 10930
	},
	{
	"epoch": 4.12,
	"learning_rate": 0.0001839072893938133,
	"loss": 0.6929,
	"step": 10940
	},
	{
	"epoch": 4.12,
	"learning_rate": 0.00018239154675588854,
	"loss": 0.6929,
	"step": 10950
	},
	{
	"epoch": 4.12,
	"learning_rate": 0.00018088144923637117,
	"loss": 0.6937,
	"step": 10960
	},
	{
	"epoch": 4.13,
	"learning_rate": 0.00017937700726162033,
	"loss": 0.6933,
	"step": 10970
	},
	{
	"epoch": 4.13,
	"learning_rate": 0.0001778782312189463,
	"loss": 0.6929,
	"step": 10980
	},
	{
	"epoch": 4.14,
	"learning_rate": 0.00017638513145654033,
	"loss": 0.6933,
	"step": 10990
	},
	{
	"epoch": 4.14,
	"learning_rate": 0.0001748977182834013,
	"loss": 0.6929,
	"step": 11000
	},
	{
	"epoch": 4.14,
	"learning_rate": 0.00017341600196926632,
	"loss": 0.6926,
	"step": 11010
	},
	{
	"epoch": 4.15,
	"learning_rate": 0.00017193999274453775,
	"loss": 0.6929,
	"step": 11020
	},
	{
	"epoch": 4.15,
	"learning_rate": 0.0001704697008002153,
	"loss": 0.693,
	"step": 11030
	},
	{
	"epoch": 4.16,
	"learning_rate": 0.00016900513628782254,
	"loss": 0.6932,
	"step": 11040
	},
	{
	"epoch": 4.16,
	"learning_rate": 0.0001675463093193399,
	"loss": 0.6937,
	"step": 11050
	},
	{
	"epoch": 4.16,
	"learning_rate": 0.00016609322996713195,
	"loss": 0.6928,
	"step": 11060
	},
	{
	"epoch": 4.17,
	"learning_rate": 0.0001646459082638806,
	"loss": 0.6921,
	"step": 11070
	},
	{
	"epoch": 4.17,
	"learning_rate": 0.00016320435420251323,
	"loss": 0.692,
	"step": 11080
	},
	{
	"epoch": 4.17,
	"learning_rate": 0.00016176857773613575,
	"loss": 0.6936,
	"step": 11090
	},
	{
	"epoch": 4.18,
	"learning_rate": 0.00016033858877796326,
	"loss": 0.6964,
	"step": 11100
	},
	{
	"epoch": 4.18,
	"learning_rate": 0.00015891439720125056,
	"loss": 0.6933,
	"step": 11110
	},
	{
	"epoch": 4.19,
	"learning_rate": 0.00015749601283922567,
	"loss": 0.6933,
	"step": 11120
	},
	{
	"epoch": 4.19,
	"learning_rate": 0.0001560834454850205,
	"loss": 0.693,
	"step": 11130
	},
	{
	"epoch": 4.19,
	"learning_rate": 0.00015467670489160447,
	"loss": 0.6941,
	"step": 11140
	},
	{
	"epoch": 4.2,
	"learning_rate": 0.0001532758007717159,
	"loss": 0.6933,
	"step": 11150
	},
	{
	"epoch": 4.2,
	"learning_rate": 0.0001518807427977963,
	"loss": 0.6932,
	"step": 11160
	},
	{
	"epoch": 4.2,
	"learning_rate": 0.00015049154060192194,
	"loss": 0.6934,
	"step": 11170
	},
	{
	"epoch": 4.21,
	"learning_rate": 0.00014910820377573954,
	"loss": 0.6937,
	"step": 11180
	},
	{
	"epoch": 4.21,
	"learning_rate": 0.00014773074187039758,
	"loss": 0.6927,
	"step": 11190
	},
	{
	"epoch": 4.22,
	"learning_rate": 0.00014635916439648255,
	"loss": 0.6937,
	"step": 11200
	},
	{
	"epoch": 4.22,
	"learning_rate": 0.00014499348082395137,
	"loss": 0.6934,
	"step": 11210
	},
	{
	"epoch": 4.22,
	"learning_rate": 0.0001436337005820678,
	"loss": 0.6935,
	"step": 11220
	},
	{
	"epoch": 4.23,
	"learning_rate": 0.00014227983305933634,
	"loss": 0.6931,
	"step": 11230
	},
	{
	"epoch": 4.23,
	"learning_rate": 0.00014093188760343678,
	"loss": 0.6927,
	"step": 11240
	},
	{
	"epoch": 4.23,
	"learning_rate": 0.0001395898735211616,
	"loss": 0.6932,
	"step": 11250
	},
	{
	"epoch": 4.24,
	"learning_rate": 0.00013825380007834932,
	"loss": 0.6928,
	"step": 11260
	},
	{
	"epoch": 4.24,
	"learning_rate": 0.00013692367649982296,
	"loss": 0.6939,
	"step": 11270
	},
	{
	"epoch": 4.25,
	"learning_rate": 0.00013559951196932384,
	"loss": 0.6936,
	"step": 11280
	},
	{
	"epoch": 4.25,
	"learning_rate": 0.0001342813156294509,
	"loss": 0.6933,
	"step": 11290
	},
	{
	"epoch": 4.25,
	"learning_rate": 0.00013296909658159473,
	"loss": 0.6932,
	"step": 11300
	},
	{
	"epoch": 4.26,
	"learning_rate": 0.00013166286388587733,
	"loss": 0.6935,
	"step": 11310
	},
	{
	"epoch": 4.26,
	"learning_rate": 0.00013036262656108743,
	"loss": 0.6933,
	"step": 11320
	},
	{
	"epoch": 4.26,
	"learning_rate": 0.00012906839358461987,
	"loss": 0.6929,
	"step": 11330
	},
	{
	"epoch": 4.27,
	"learning_rate": 0.00012778017389241224,
	"loss": 0.6936,
	"step": 11340
	},
	{
	"epoch": 4.27,
	"learning_rate": 0.0001264979763788845,
	"loss": 0.6932,
	"step": 11350
	},
	{
	"epoch": 4.28,
	"learning_rate": 0.0001252218098968766,
	"loss": 0.6925,
	"step": 11360
	},
	{
	"epoch": 4.28,
	"learning_rate": 0.00012395168325758744,
	"loss": 0.6938,
	"step": 11370
	},
	{
	"epoch": 4.28,
	"learning_rate": 0.0001226876052305148,
	"loss": 0.6931,
	"step": 11380
	},
	{
	"epoch": 4.29,
	"learning_rate": 0.0001214295845433937,
	"loss": 0.6933,
	"step": 11390
	},
	{
	"epoch": 4.29,
	"learning_rate": 0.00012017762988213721,
	"loss": 0.693,
	"step": 11400
	},
	{
	"epoch": 4.29,
	"learning_rate": 0.00011893174989077537,
	"loss": 0.6937,
	"step": 11410
	},
	{
	"epoch": 4.3,
	"learning_rate": 0.0001176919531713968,
	"loss": 0.6931,
	"step": 11420
	},
	{
	"epoch": 4.3,
	"learning_rate": 0.0001164582482840878,
	"loss": 0.6933,
	"step": 11430
	},
	{
	"epoch": 4.31,
	"learning_rate": 0.00011523064374687497,
	"loss": 0.6936,
	"step": 11440
	},
	{
	"epoch": 4.31,
	"learning_rate": 0.00011400914803566464,
	"loss": 0.6926,
	"step": 11450
	},
	{
	"epoch": 4.31,
	"learning_rate": 0.00011279376958418597,
	"loss": 0.693,
	"step": 11460
	},
	{
	"epoch": 4.32,
	"learning_rate": 0.00011158451678393111,
	"loss": 0.6928,
	"step": 11470
	},
	{
	"epoch": 4.32,
	"learning_rate": 0.00011038139798409862,
	"loss": 0.6927,
	"step": 11480
	},
	{
	"epoch": 4.32,
	"learning_rate": 0.00010918442149153551,
	"loss": 0.6937,
	"step": 11490
	},
	{
	"epoch": 4.33,
	"learning_rate": 0.000107993595570679,
	"loss": 0.6938,
	"step": 11500
	},
	{
	"epoch": 4.33,
	"learning_rate": 0.00010680892844350076,
	"loss": 0.6934,
	"step": 11510
	},
	{
	"epoch": 4.34,
	"learning_rate": 0.00010563042828944902,
	"loss": 0.6927,
	"step": 11520
	},
	{
	"epoch": 4.34,
	"learning_rate": 0.00010445810324539306,
	"loss": 0.6934,
	"step": 11530
	},
	{
	"epoch": 4.34,
	"learning_rate": 0.00010329196140556608,
	"loss": 0.6936,
	"step": 11540
	},
	{
	"epoch": 4.35,
	"learning_rate": 0.00010213201082151036,
	"loss": 0.6936,
	"step": 11550
	},
	{
	"epoch": 4.35,
	"learning_rate": 0.00010097825950202033,
	"loss": 0.6937,
	"step": 11560
	},
	{
	"epoch": 4.35,
	"learning_rate": 9.983071541308897e-05,
	"loss": 0.6929,
	"step": 11570
	},
	{
	"epoch": 4.36,
	"learning_rate": 9.868938647785097e-05,
	"loss": 0.6934,
	"step": 11580
	},
	{
	"epoch": 4.36,
	"learning_rate": 9.755428057652982e-05,
	"loss": 0.6932,
	"step": 11590
	},
	{
	"epoch": 4.37,
	"learning_rate": 9.642540554638169e-05,
	"loss": 0.6932,
	"step": 11600
	},
	{
	"epoch": 4.37,
	"learning_rate": 9.530276918164271e-05,
	"loss": 0.6933,
	"step": 11610
	},
	{
	"epoch": 4.37,
	"learning_rate": 9.418637923347462e-05,
	"loss": 0.6934,
	"step": 11620
	},
	{
	"epoch": 4.38,
	"learning_rate": 9.307624340991072e-05,
	"loss": 0.6935,
	"step": 11630
	},
	{
	"epoch": 4.38,
	"learning_rate": 9.197236937580378e-05,
	"loss": 0.6932,
	"step": 11640
	},
	{
	"epoch": 4.38,
	"learning_rate": 9.08747647527718e-05,
	"loss": 0.6933,
	"step": 11650
	},
	{
	"epoch": 4.39,
	"learning_rate": 8.978343711914694e-05,
	"loss": 0.6933,
	"step": 11660
	},
	{
	"epoch": 4.39,
	"learning_rate": 8.869839400992153e-05,
	"loss": 0.6931,
	"step": 11670
	},
	{
	"epoch": 4.4,
	"learning_rate": 8.761964291669756e-05,
	"loss": 0.6926,
	"step": 11680
	},
	{
	"epoch": 4.4,
	"learning_rate": 8.654719128763333e-05,
	"loss": 0.6933,
	"step": 11690
	},
	{
	"epoch": 4.4,
	"learning_rate": 8.548104652739419e-05,
	"loss": 0.6935,
	"step": 11700
	},
	{
	"epoch": 4.41,
	"learning_rate": 8.442121599709896e-05,
	"loss": 0.6932,
	"step": 11710
	},
	{
	"epoch": 4.41,
	"learning_rate": 8.336770701427132e-05,
	"loss": 0.6933,
	"step": 11720
	},
	{
	"epoch": 4.41,
	"learning_rate": 8.232052685278735e-05,
	"loss": 0.6932,
	"step": 11730
	},
	{
	"epoch": 4.42,
	"learning_rate": 8.127968274282683e-05,
	"loss": 0.693,
	"step": 11740
	},
	{
	"epoch": 4.42,
	"learning_rate": 8.024518187082297e-05,
	"loss": 0.693,
	"step": 11750
	},
	{
	"epoch": 4.43,
	"learning_rate": 7.921703137941172e-05,
	"loss": 0.6929,
	"step": 11760
	},
	{
	"epoch": 4.43,
	"learning_rate": 7.819523836738406e-05,
	"loss": 0.6927,
	"step": 11770
	},
	{
	"epoch": 4.43,
	"learning_rate": 7.717980988963569e-05,
	"loss": 0.6929,
	"step": 11780
	},
	{
	"epoch": 4.44,
	"learning_rate": 7.61707529571194e-05,
	"loss": 0.6929,
	"step": 11790
	},
	{
	"epoch": 4.44,
	"learning_rate": 7.516807453679531e-05,
	"loss": 0.6932,
	"step": 11800
	},
	{
	"epoch": 4.44,
	"learning_rate": 7.417178155158444e-05,
	"loss": 0.6931,
	"step": 11810
	},
	{
	"epoch": 4.45,
	"learning_rate": 7.318188088031929e-05,
	"loss": 0.6932,
	"step": 11820
	},
	{
	"epoch": 4.45,
	"learning_rate": 7.219837935769768e-05,
	"loss": 0.6933,
	"step": 11830
	},
	{
	"epoch": 4.46,
	"learning_rate": 7.122128377423454e-05,
	"loss": 0.6936,
	"step": 11840
	},
	{
	"epoch": 4.46,
	"learning_rate": 7.025060087621571e-05,
	"loss": 0.6928,
	"step": 11850
	},
	{
	"epoch": 4.46,
	"learning_rate": 6.928633736565093e-05,
	"loss": 0.6932,
	"step": 11860
	},
	{
	"epoch": 4.47,
	"learning_rate": 6.832849990022793e-05,
	"loss": 0.6933,
	"step": 11870
	},
	{
	"epoch": 4.47,
	"learning_rate": 6.737709509326628e-05,
	"loss": 0.6931,
	"step": 11880
	},
	{
	"epoch": 4.47,
	"learning_rate": 6.64321295136714e-05,
	"loss": 0.6933,
	"step": 11890
	},
	{
	"epoch": 4.48,
	"learning_rate": 6.549360968589002e-05,
	"loss": 0.6931,
	"step": 11900
	},
	{
	"epoch": 4.48,
	"learning_rate": 6.45615420898641e-05,
	"loss": 0.6934,
	"step": 11910
	},
	{
	"epoch": 4.49,
	"learning_rate": 6.363593316098725e-05,
	"loss": 0.6932,
	"step": 11920
	},
	{
	"epoch": 4.49,
	"learning_rate": 6.271678929005897e-05,
	"loss": 0.6932,
	"step": 11930
	},
	{
	"epoch": 4.49,
	"learning_rate": 6.180411682324194e-05,
	"loss": 0.6931,
	"step": 11940
	},
	{
	"epoch": 4.5,
	"learning_rate": 6.089792206201694e-05,
	"loss": 0.6932,
	"step": 11950
	},
	{
	"epoch": 4.5,
	"learning_rate": 5.9998211263140314e-05,
	"loss": 0.6927,
	"step": 11960
	},
	{
	"epoch": 4.51,
	"learning_rate": 5.9104990638599976e-05,
	"loss": 0.6933,
	"step": 11970
	},
	{
	"epoch": 4.51,
	"learning_rate": 5.8218266355573255e-05,
	"loss": 0.6935,
	"step": 11980
	},
	{
	"epoch": 4.51,
	"learning_rate": 5.7338044536383694e-05,
	"loss": 0.6932,
	"step": 11990
	},
	{
	"epoch": 4.52,
	"learning_rate": 5.646433125845929e-05,
	"loss": 0.6932,
	"step": 12000
	},
	{
	"epoch": 4.52,
	"learning_rate": 5.559713255429011e-05,
	"loss": 0.6924,
	"step": 12010
	},
	{
	"epoch": 4.52,
	"learning_rate": 5.4736454411386746e-05,
	"loss": 0.693,
	"step": 12020
	},
	{
	"epoch": 4.53,
	"learning_rate": 5.388230277223938e-05,
	"loss": 0.6936,
	"step": 12030
	},
	{
	"epoch": 4.53,
	"learning_rate": 5.303468353427587e-05,
	"loss": 0.6935,
	"step": 12040
	},
	{
	"epoch": 4.54,
	"learning_rate": 5.2193602549822307e-05,
	"loss": 0.6932,
	"step": 12050
	},
	{
	"epoch": 4.54,
	"learning_rate": 5.1359065626061186e-05,
	"loss": 0.6932,
	"step": 12060
	},
	{
	"epoch": 4.54,
	"learning_rate": 5.05310785249925e-05,
	"loss": 0.6933,
	"step": 12070
	},
	{
	"epoch": 4.55,
	"learning_rate": 4.9709646963393084e-05,
	"loss": 0.6927,
	"step": 12080
	},
	{
	"epoch": 4.55,
	"learning_rate": 4.889477661277797e-05,
	"loss": 0.693,
	"step": 12090
	},
	{
	"epoch": 4.55,
	"learning_rate": 4.808647309936043e-05,
	"loss": 0.6934,
	"step": 12100
	},
	{
	"epoch": 4.56,
	"learning_rate": 4.7284742004013445e-05,
	"loss": 0.6932,
	"step": 12110
	},
	{
	"epoch": 4.56,
	"learning_rate": 4.6489588862231534e-05,
	"loss": 0.6931,
	"step": 12120
	},
	{
	"epoch": 4.57,
	"learning_rate": 4.5701019164091865e-05,
	"loss": 0.6929,
	"step": 12130
	},
	{
	"epoch": 4.57,
	"learning_rate": 4.491903835421707e-05,
	"loss": 0.6937,
	"step": 12140
	},
	{
	"epoch": 4.57,
	"learning_rate": 4.4143651831736964e-05,
	"loss": 0.6927,
	"step": 12150
	},
	{
	"epoch": 4.58,
	"learning_rate": 4.337486495025167e-05,
	"loss": 0.6936,
	"step": 12160
	},
	{
	"epoch": 4.58,
	"learning_rate": 4.261268301779453e-05,
	"loss": 0.6927,
	"step": 12170
	},
	{
	"epoch": 4.58,
	"learning_rate": 4.185711129679581e-05,
	"loss": 0.6934,
	"step": 12180
	},
	{
	"epoch": 4.59,
	"learning_rate": 4.110815500404541e-05,
	"loss": 0.6929,
	"step": 12190
	},
	{
	"epoch": 4.59,
	"learning_rate": 4.0365819310658194e-05,
	"loss": 0.6929,
	"step": 12200
	},
	{
	"epoch": 4.6,
	"learning_rate": 3.963010934203692e-05,
	"loss": 0.6933,
	"step": 12210
	},
	{
	"epoch": 4.6,
	"learning_rate": 3.890103017783808e-05,
	"loss": 0.6936,
	"step": 12220
	},
	{
	"epoch": 4.6,
	"learning_rate": 3.817858685193609e-05,
	"loss": 0.6937,
	"step": 12230
	},
	{
	"epoch": 4.61,
	"learning_rate": 3.7462784352388365e-05,
	"loss": 0.6929,
	"step": 12240
	},
	{
	"epoch": 4.61,
	"learning_rate": 3.6753627621401666e-05,
	"loss": 0.6921,
	"step": 12250
	},
	{
	"epoch": 4.61,
	"learning_rate": 3.605112155529722e-05,
	"loss": 0.6934,
	"step": 12260
	},
	{
	"epoch": 4.62,
	"learning_rate": 3.535527100447733e-05,
	"loss": 0.6936,
	"step": 12270
	},
	{
	"epoch": 4.62,
	"learning_rate": 3.466608077339184e-05,
	"loss": 0.6932,
	"step": 12280
	},
	{
	"epoch": 4.63,
	"learning_rate": 3.3983555620504815e-05,
	"loss": 0.6927,
	"step": 12290
	},
	{
	"epoch": 4.63,
	"learning_rate": 3.330770025826169e-05,
	"loss": 0.6936,
	"step": 12300
	},
	{
	"epoch": 4.63,
	"learning_rate": 3.263851935305717e-05,
	"loss": 0.6928,
	"step": 12310
	},
	{
	"epoch": 4.64,
	"learning_rate": 3.1976017525202074e-05,
	"loss": 0.6927,
	"step": 12320
	},
	{
	"epoch": 4.64,
	"learning_rate": 3.132019934889252e-05,
	"loss": 0.6934,
	"step": 12330
	},
	{
	"epoch": 4.64,
	"learning_rate": 3.067106935217767e-05,
	"loss": 0.6936,
	"step": 12340
	},
	{
	"epoch": 4.65,
	"learning_rate": 3.0028632016928404e-05,
	"loss": 0.6934,
	"step": 12350
	},
	{
	"epoch": 4.65,
	"learning_rate": 2.9392891778807218e-05,
	"loss": 0.6932,
	"step": 12360
	},
	{
	"epoch": 4.66,
	"learning_rate": 2.8763853027236276e-05,
	"loss": 0.6933,
	"step": 12370
	},
	{
	"epoch": 4.66,
	"learning_rate": 2.814152010536819e-05,
	"loss": 0.6931,
	"step": 12380
	},
	{
	"epoch": 4.66,
	"learning_rate": 2.7525897310055504e-05,
	"loss": 0.693,
	"step": 12390
	},
	{
	"epoch": 4.67,
	"learning_rate": 2.6916988891821594e-05,
	"loss": 0.6932,
	"step": 12400
	},
	{
	"epoch": 4.67,
	"learning_rate": 2.631479905483014e-05,
	"loss": 0.6932,
	"step": 12410
	},
	{
	"epoch": 4.67,
	"learning_rate": 2.5719331956857607e-05,
	"loss": 0.693,
	"step": 12420
	},
	{
	"epoch": 4.68,
	"learning_rate": 2.5130591709263352e-05,
	"loss": 0.6932,
	"step": 12430
	},
	{
	"epoch": 4.68,
	"learning_rate": 2.454858237696189e-05,
	"loss": 0.6931,
	"step": 12440
	},
	{
	"epoch": 4.69,
	"learning_rate": 2.3973307978394475e-05,
	"loss": 0.6928,
	"step": 12450
	},
	{
	"epoch": 4.69,
	"learning_rate": 2.3404772485501657e-05,
	"loss": 0.6931,
	"step": 12460
	},
	{
	"epoch": 4.69,
	"learning_rate": 2.284297982369543e-05,
	"loss": 0.6928,
	"step": 12470
	},
	{
	"epoch": 4.7,
	"learning_rate": 2.22879338718327e-05,
	"loss": 0.6934,
	"step": 12480
	},
	{
	"epoch": 4.7,
	"learning_rate": 2.1739638462188293e-05,
	"loss": 0.6931,
	"step": 12490
	},
	{
	"epoch": 4.7,
	"learning_rate": 2.1198097380427773e-05,
	"loss": 0.693,
	"step": 12500
	},
	{
	"epoch": 4.71,
	"learning_rate": 2.0663314365582663e-05,
	"loss": 0.6931,
	"step": 12510
	},
	{
	"epoch": 4.71,
	"learning_rate": 2.013529311002349e-05,
	"loss": 0.6929,
	"step": 12520
	},
	{
	"epoch": 4.72,
	"learning_rate": 1.961403725943478e-05,
	"loss": 0.6932,
	"step": 12530
	},
	{
	"epoch": 4.72,
	"learning_rate": 1.9099550412789878e-05,
	"loss": 0.6934,
	"step": 12540
	},
	{
	"epoch": 4.72,
	"learning_rate": 1.8591836122326068e-05,
	"loss": 0.6929,
	"step": 12550
	},
	{
	"epoch": 4.73,
	"learning_rate": 1.80908978935197e-05,
	"loss": 0.6928,
	"step": 12560
	},
	{
	"epoch": 4.73,
	"learning_rate": 1.759673918506277e-05,
	"loss": 0.6934,
	"step": 12570
	},
	{
	"epoch": 4.73,
	"learning_rate": 1.7109363408838173e-05,
	"loss": 0.693,
	"step": 12580
	},
	{
	"epoch": 4.74,
	"learning_rate": 1.6628773929896922e-05,
	"loss": 0.6934,
	"step": 12590
	},
	{
	"epoch": 4.74,
	"learning_rate": 1.615497406643396e-05,
	"loss": 0.6934,
	"step": 12600
	},
	{
	"epoch": 4.75,
	"learning_rate": 1.5687967089766386e-05,
	"loss": 0.6933,
	"step": 12610
	},
	{
	"epoch": 4.75,
	"learning_rate": 1.5227756224310052e-05,
	"loss": 0.693,
	"step": 12620
	},
	{
	"epoch": 4.75,
	"learning_rate": 1.4774344647557558e-05,
	"loss": 0.6929,
	"step": 12630
	},
	{
	"epoch": 4.76,
	"learning_rate": 1.4327735490056281e-05,
	"loss": 0.6935,
	"step": 12640
	},
	{
	"epoch": 4.76,
	"learning_rate": 1.3887931835386947e-05,
	"loss": 0.6935,
	"step": 12650
	},
	{
	"epoch": 4.76,
	"learning_rate": 1.3454936720141975e-05,
	"loss": 0.6935,
	"step": 12660
	},
	{
	"epoch": 4.77,
	"learning_rate": 1.3028753133904836e-05,
	"loss": 0.6933,
	"step": 12670
	},
	{
	"epoch": 4.77,
	"learning_rate": 1.2609384019229286e-05,
	"loss": 0.6933,
	"step": 12680
	},
	{
	"epoch": 4.78,
	"learning_rate": 1.219683227161894e-05,
	"loss": 0.6927,
	"step": 12690
	},
	{
	"epoch": 4.78,
	"learning_rate": 1.1791100739507622e-05,
	"loss": 0.6929,
	"step": 12700
	},
	{
	"epoch": 4.78,
	"learning_rate": 1.1392192224239261e-05,
	"loss": 0.6929,
	"step": 12710
	},
	{
	"epoch": 4.79,
	"learning_rate": 1.1000109480048926e-05,
	"loss": 0.6931,
	"step": 12720
	},
	{
	"epoch": 4.79,
	"learning_rate": 1.0614855214043373e-05,
	"loss": 0.6935,
	"step": 12730
	},
	{
	"epoch": 4.79,
	"learning_rate": 1.0236432086182968e-05,
	"loss": 0.6931,
	"step": 12740
	},
	{
	"epoch": 4.8,
	"learning_rate": 9.8648427092628e-06,
	"loss": 0.6933,
	"step": 12750
	},
	{
	"epoch": 4.8,
	"learning_rate": 9.500089648894706e-06,
	"loss": 0.6927,
	"step": 12760
	},
	{
	"epoch": 4.81,
	"learning_rate": 9.142175423490052e-06,
	"loss": 0.693,
	"step": 12770
	},
	{
	"epoch": 4.81,
	"learning_rate": 8.791102504241422e-06,
	"loss": 0.6936,
	"step": 12780
	},
	{
	"epoch": 4.81,
	"learning_rate": 8.446873315106629e-06,
	"loss": 0.6936,
	"step": 12790
	},
	{
	"epoch": 4.82,
	"learning_rate": 8.109490232790951e-06,
	"loss": 0.6932,
	"step": 12800
	},
	{
	"epoch": 4.82,
	"learning_rate": 7.778955586731696e-06,
	"loss": 0.6929,
	"step": 12810
	},
	{
	"epoch": 4.82,
	"learning_rate": 7.455271659081331e-06,
	"loss": 0.6928,
	"step": 12820
	},
	{
	"epoch": 4.83,
	"learning_rate": 7.138440684692049e-06,
	"loss": 0.6934,
	"step": 12830
	},
	{
	"epoch": 4.83,
	"learning_rate": 6.828464851100558e-06,
	"loss": 0.6931,
	"step": 12840
	},
	{
	"epoch": 4.84,
	"learning_rate": 6.5253462985123135e-06,
	"loss": 0.6931,
	"step": 12850
	},
	{
	"epoch": 4.84,
	"learning_rate": 6.229087119787646e-06,
	"loss": 0.6931,
	"step": 12860
	},
	{
	"epoch": 4.84,
	"learning_rate": 5.939689360426548e-06,
	"loss": 0.6929,
	"step": 12870
	},
	{
	"epoch": 4.85,
	"learning_rate": 5.657155018555016e-06,
	"loss": 0.693,
	"step": 12880
	},
	{
	"epoch": 4.85,
	"learning_rate": 5.381486044910733e-06,
	"loss": 0.693,
	"step": 12890
	},
	{
	"epoch": 4.86,
	"learning_rate": 5.1126843428302985e-06,
	"loss": 0.6932,
	"step": 12900
	},
	{
	"epoch": 4.86,
	"learning_rate": 4.850751768235684e-06,
	"loss": 0.693,
	"step": 12910
	},
	{
	"epoch": 4.86,
	"learning_rate": 4.5956901296214655e-06,
	"loss": 0.693,
	"step": 12920
	},
	{
	"epoch": 4.87,
	"learning_rate": 4.347501188041947e-06,
	"loss": 0.6929,
	"step": 12930
	},
	{
	"epoch": 4.87,
	"learning_rate": 4.106186657100053e-06,
	"loss": 0.6935,
	"step": 12940
	},
	{
	"epoch": 4.87,
	"learning_rate": 3.871748202934344e-06,
	"loss": 0.6937,
	"step": 12950
	},
	{
	"epoch": 4.88,
	"learning_rate": 3.644187444208247e-06,
	"loss": 0.6928,
	"step": 12960
	},
	{
	"epoch": 4.88,
	"learning_rate": 3.4235059520983934e-06,
	"loss": 0.693,
	"step": 12970
	},
	{
	"epoch": 4.89,
	"learning_rate": 3.2097052502843004e-06,
	"loss": 0.6931,
	"step": 12980
	},
	{
	"epoch": 4.89,
	"learning_rate": 3.002786814937486e-06,
	"loss": 0.6932,
	"step": 12990
	},
	{
	"epoch": 4.89,
	"learning_rate": 2.8027520747112566e-06,
	"loss": 0.6932,
	"step": 13000
	},
	{
	"epoch": 4.9,
	"learning_rate": 2.609602410730938e-06,
	"loss": 0.6929,
	"step": 13010
	},
	{
	"epoch": 4.9,
	"learning_rate": 2.4233391565845475e-06,
	"loss": 0.6929,
	"step": 13020
	},
	{
	"epoch": 4.9,
	"learning_rate": 2.243963598313137e-06,
	"loss": 0.6935,
	"step": 13030
	},
	{
	"epoch": 4.91,
	"learning_rate": 2.071476974402353e-06,
	"loss": 0.6933,
	"step": 13040
	},
	{
	"epoch": 4.91,
	"learning_rate": 1.9058804757735582e-06,
	"loss": 0.6935,
	"step": 13050
	},
	{
	"epoch": 4.92,
	"learning_rate": 1.7471752457757228e-06,
	"loss": 0.6929,
	"step": 13060
	},
	{
	"epoch": 4.92,
	"learning_rate": 1.5953623801778783e-06,
	"loss": 0.6932,
	"step": 13070
	},
	{
	"epoch": 4.92,
	"learning_rate": 1.4504429271606778e-06,
	"loss": 0.6936,
	"step": 13080
	},
	{
	"epoch": 4.93,
	"learning_rate": 1.312417887310069e-06,
	"loss": 0.6927,
	"step": 13090
	},
	{
	"epoch": 4.93,
	"learning_rate": 1.1812882136100767e-06,
	"loss": 0.6932,
	"step": 13100
	},
	{
	"epoch": 4.93,
	"learning_rate": 1.05705481143592e-06,
	"loss": 0.6934,
	"step": 13110
	},
	{
	"epoch": 4.94,
	"learning_rate": 9.397185385482398e-07,
	"loss": 0.693,
	"step": 13120
	},
	{
	"epoch": 4.94,
	"learning_rate": 8.292802050867687e-07,
	"loss": 0.693,
	"step": 13130
	},
	{
	"epoch": 4.95,
	"learning_rate": 7.257405735650036e-07,
	"loss": 0.6931,
	"step": 13140
	},
	{
	"epoch": 4.95,
	"learning_rate": 6.291003588648759e-07,
	"loss": 0.6937,
	"step": 13150
	},
	{
	"epoch": 4.95,
	"learning_rate": 5.393602282317555e-07,
	"loss": 0.6929,
	"step": 13160
	},
	{
	"epoch": 4.96,
	"learning_rate": 4.565208012697886e-07,
	"loss": 0.6936,
	"step": 13170
	},
	{
	"epoch": 4.96,
	"learning_rate": 3.8058264993778846e-07,
	"loss": 0.6931,
	"step": 13180
	},
	{
	"epoch": 4.96,
	"learning_rate": 3.1154629854546203e-07,
	"loss": 0.6933,
	"step": 13190
	},
	{
	"epoch": 4.97,
	"learning_rate": 2.494122237490792e-07,
	"loss": 0.693,
	"step": 13200
	},
	{
	"epoch": 4.97,
	"learning_rate": 1.9418085454880886e-07,
	"loss": 0.6931,
	"step": 13210
	},
	{
	"epoch": 4.98,
	"learning_rate": 1.4585257228594272e-07,
	"loss": 0.693,
	"step": 13220
	},
	{
	"epoch": 4.98,
	"learning_rate": 1.044277106393432e-07,
	"loss": 0.6932,
	"step": 13230
	},
	{
	"epoch": 4.98,
	"learning_rate": 6.990655562411074e-08,
	"loss": 0.6929,
	"step": 13240
	},
	{
	"epoch": 4.99,
	"learning_rate": 4.2289345588919505e-08,
	"loss": 0.6929,
	"step": 13250
	},
	{
	"epoch": 4.99,
	"learning_rate": 2.1576271214907017e-08,
	"loss": 0.6934,
	"step": 13260
	},
	{
	"epoch": 4.99,
	"learning_rate": 7.767475514008915e-09,
	"loss": 0.6932,
	"step": 13270
	},
	{
	"epoch": 5.0,
	"learning_rate": 8.630538280707256e-10,
	"loss": 0.6935,
	"step": 13280
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.504,
	"eval_loss": 0.6931441426277161,
	"eval_runtime": 38.7711,
	"eval_samples_per_second": 96.722,
	"eval_steps_per_second": 12.097,
	"step": 13285
	},
	{
	"epoch": 5.0,
	"step": 13285,
	"total_flos": 1.3244422721025072e+16,
	"train_loss": 0.6908724272659411,
	"train_runtime": 3467.8448,
	"train_samples_per_second": 30.639,
	"train_steps_per_second": 3.831
	}
	],
	"max_steps": 13285,
	"num_train_epochs": 5,
	"total_flos": 1.3244422721025072e+16,
	"trial_name": null,
	"trial_params": null
	}