autotrain-5um8a-sa81u / checkpoint-7500 /trainer_state.json

Upload folder using huggingface_hub

fca0923 verified 7 months ago

53 kB

	{
	"best_metric": 0.8434039950370789,
	"best_model_checkpoint": "autotrain-5um8a-sa81u/checkpoint-7500",
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 7500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 3.13798189163208,
	"learning_rate": 1.1111111111111112e-06,
	"loss": 2.2931,
	"step": 25
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 3.3599817752838135,
	"learning_rate": 2.2222222222222225e-06,
	"loss": 2.2796,
	"step": 50
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.9536943435668945,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 2.2502,
	"step": 75
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 3.538480281829834,
	"learning_rate": 4.444444444444445e-06,
	"loss": 2.189,
	"step": 100
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 3.384152889251709,
	"learning_rate": 5.555555555555556e-06,
	"loss": 2.1509,
	"step": 125
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.4334306716918945,
	"learning_rate": 6.666666666666667e-06,
	"loss": 2.0535,
	"step": 150
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 4.605741500854492,
	"learning_rate": 7.777777777777777e-06,
	"loss": 1.875,
	"step": 175
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 5.930888652801514,
	"learning_rate": 8.88888888888889e-06,
	"loss": 1.7946,
	"step": 200
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.181428909301758,
	"learning_rate": 1e-05,
	"loss": 1.6376,
	"step": 225
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 7.74509334564209,
	"learning_rate": 1.1111111111111112e-05,
	"loss": 1.5804,
	"step": 250
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 4.1855669021606445,
	"learning_rate": 1.2177777777777778e-05,
	"loss": 1.5385,
	"step": 275
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.815659999847412,
	"learning_rate": 1.328888888888889e-05,
	"loss": 1.4515,
	"step": 300
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 7.293570041656494,
	"learning_rate": 1.44e-05,
	"loss": 1.4399,
	"step": 325
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 9.302970886230469,
	"learning_rate": 1.5511111111111114e-05,
	"loss": 1.4602,
	"step": 350
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.114165782928467,
	"learning_rate": 1.6622222222222223e-05,
	"loss": 1.3399,
	"step": 375
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 10.503884315490723,
	"learning_rate": 1.768888888888889e-05,
	"loss": 1.2846,
	"step": 400
	},
	{
	"epoch": 0.11333333333333333,
	"grad_norm": 6.395691871643066,
	"learning_rate": 1.88e-05,
	"loss": 1.178,
	"step": 425
	},
	{
	"epoch": 0.12,
	"grad_norm": 7.209555625915527,
	"learning_rate": 1.9911111111111112e-05,
	"loss": 1.1698,
	"step": 450
	},
	{
	"epoch": 0.12666666666666668,
	"grad_norm": 7.22865629196167,
	"learning_rate": 2.1022222222222225e-05,
	"loss": 1.1631,
	"step": 475
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 8.306069374084473,
	"learning_rate": 2.2133333333333334e-05,
	"loss": 1.1196,
	"step": 500
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.044536590576172,
	"learning_rate": 2.3244444444444446e-05,
	"loss": 1.0854,
	"step": 525
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 8.39782428741455,
	"learning_rate": 2.4355555555555555e-05,
	"loss": 1.1724,
	"step": 550
	},
	{
	"epoch": 0.15333333333333332,
	"grad_norm": 7.276834011077881,
	"learning_rate": 2.5466666666666668e-05,
	"loss": 1.2506,
	"step": 575
	},
	{
	"epoch": 0.16,
	"grad_norm": 6.928461074829102,
	"learning_rate": 2.657777777777778e-05,
	"loss": 1.0995,
	"step": 600
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 5.020209789276123,
	"learning_rate": 2.7688888888888893e-05,
	"loss": 1.0529,
	"step": 625
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 4.41862154006958,
	"learning_rate": 2.8755555555555557e-05,
	"loss": 1.1523,
	"step": 650
	},
	{
	"epoch": 0.18,
	"grad_norm": 17.745071411132812,
	"learning_rate": 2.986666666666667e-05,
	"loss": 1.1962,
	"step": 675
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 5.518793106079102,
	"learning_rate": 3.0977777777777776e-05,
	"loss": 1.0913,
	"step": 700
	},
	{
	"epoch": 0.19333333333333333,
	"grad_norm": 10.203434944152832,
	"learning_rate": 3.208888888888889e-05,
	"loss": 1.108,
	"step": 725
	},
	{
	"epoch": 0.2,
	"grad_norm": 6.468237400054932,
	"learning_rate": 3.32e-05,
	"loss": 1.0822,
	"step": 750
	},
	{
	"epoch": 0.20666666666666667,
	"grad_norm": 6.182399272918701,
	"learning_rate": 3.431111111111111e-05,
	"loss": 1.1224,
	"step": 775
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 9.415875434875488,
	"learning_rate": 3.5422222222222226e-05,
	"loss": 0.9095,
	"step": 800
	},
	{
	"epoch": 0.22,
	"grad_norm": 17.09987449645996,
	"learning_rate": 3.653333333333334e-05,
	"loss": 1.1613,
	"step": 825
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 8.294900894165039,
	"learning_rate": 3.764444444444445e-05,
	"loss": 1.0934,
	"step": 850
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 13.019417762756348,
	"learning_rate": 3.8755555555555556e-05,
	"loss": 1.0647,
	"step": 875
	},
	{
	"epoch": 0.24,
	"grad_norm": 10.864327430725098,
	"learning_rate": 3.986666666666667e-05,
	"loss": 1.0718,
	"step": 900
	},
	{
	"epoch": 0.24666666666666667,
	"grad_norm": 9.016544342041016,
	"learning_rate": 4.097777777777778e-05,
	"loss": 0.9817,
	"step": 925
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 5.4241485595703125,
	"learning_rate": 4.208888888888889e-05,
	"loss": 1.003,
	"step": 950
	},
	{
	"epoch": 0.26,
	"grad_norm": 10.213274955749512,
	"learning_rate": 4.32e-05,
	"loss": 1.0223,
	"step": 975
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 15.214512825012207,
	"learning_rate": 4.431111111111111e-05,
	"loss": 1.0648,
	"step": 1000
	},
	{
	"epoch": 0.2733333333333333,
	"grad_norm": 3.9258694648742676,
	"learning_rate": 4.5422222222222225e-05,
	"loss": 0.9985,
	"step": 1025
	},
	{
	"epoch": 0.28,
	"grad_norm": 7.457239151000977,
	"learning_rate": 4.653333333333334e-05,
	"loss": 1.117,
	"step": 1050
	},
	{
	"epoch": 0.2866666666666667,
	"grad_norm": 12.809249877929688,
	"learning_rate": 4.764444444444445e-05,
	"loss": 1.0538,
	"step": 1075
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 18.092700958251953,
	"learning_rate": 4.875555555555556e-05,
	"loss": 1.0866,
	"step": 1100
	},
	{
	"epoch": 0.3,
	"grad_norm": 4.2002458572387695,
	"learning_rate": 4.986666666666667e-05,
	"loss": 0.9351,
	"step": 1125
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 9.016805648803711,
	"learning_rate": 4.9891358024691356e-05,
	"loss": 0.8765,
	"step": 1150
	},
	{
	"epoch": 0.31333333333333335,
	"grad_norm": 8.664179801940918,
	"learning_rate": 4.9767901234567903e-05,
	"loss": 1.1023,
	"step": 1175
	},
	{
	"epoch": 0.32,
	"grad_norm": 11.132316589355469,
	"learning_rate": 4.964444444444445e-05,
	"loss": 0.9903,
	"step": 1200
	},
	{
	"epoch": 0.32666666666666666,
	"grad_norm": 10.408929824829102,
	"learning_rate": 4.9520987654320985e-05,
	"loss": 0.9008,
	"step": 1225
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 15.614274978637695,
	"learning_rate": 4.939753086419753e-05,
	"loss": 1.002,
	"step": 1250
	},
	{
	"epoch": 0.34,
	"grad_norm": 11.449036598205566,
	"learning_rate": 4.927407407407408e-05,
	"loss": 0.959,
	"step": 1275
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 5.918100357055664,
	"learning_rate": 4.9150617283950614e-05,
	"loss": 0.9706,
	"step": 1300
	},
	{
	"epoch": 0.35333333333333333,
	"grad_norm": 6.706690788269043,
	"learning_rate": 4.902716049382716e-05,
	"loss": 0.9262,
	"step": 1325
	},
	{
	"epoch": 0.36,
	"grad_norm": 4.575336456298828,
	"learning_rate": 4.890370370370371e-05,
	"loss": 1.0084,
	"step": 1350
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 12.109813690185547,
	"learning_rate": 4.878024691358025e-05,
	"loss": 1.0407,
	"step": 1375
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 11.848983764648438,
	"learning_rate": 4.865679012345679e-05,
	"loss": 0.9616,
	"step": 1400
	},
	{
	"epoch": 0.38,
	"grad_norm": 11.87781047821045,
	"learning_rate": 4.853333333333334e-05,
	"loss": 1.0143,
	"step": 1425
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 8.980938911437988,
	"learning_rate": 4.840987654320988e-05,
	"loss": 0.9217,
	"step": 1450
	},
	{
	"epoch": 0.3933333333333333,
	"grad_norm": 8.561235427856445,
	"learning_rate": 4.828641975308642e-05,
	"loss": 1.1442,
	"step": 1475
	},
	{
	"epoch": 0.4,
	"grad_norm": 9.980470657348633,
	"learning_rate": 4.816296296296297e-05,
	"loss": 1.0186,
	"step": 1500
	},
	{
	"epoch": 0.4066666666666667,
	"grad_norm": 7.693286418914795,
	"learning_rate": 4.803950617283951e-05,
	"loss": 0.9953,
	"step": 1525
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 5.39948034286499,
	"learning_rate": 4.791604938271605e-05,
	"loss": 0.9544,
	"step": 1550
	},
	{
	"epoch": 0.42,
	"grad_norm": 7.7968549728393555,
	"learning_rate": 4.77925925925926e-05,
	"loss": 0.898,
	"step": 1575
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 3.694169044494629,
	"learning_rate": 4.766913580246914e-05,
	"loss": 1.0325,
	"step": 1600
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 10.049742698669434,
	"learning_rate": 4.754567901234568e-05,
	"loss": 0.9118,
	"step": 1625
	},
	{
	"epoch": 0.44,
	"grad_norm": 13.797918319702148,
	"learning_rate": 4.7422222222222226e-05,
	"loss": 0.9135,
	"step": 1650
	},
	{
	"epoch": 0.44666666666666666,
	"grad_norm": 7.2649688720703125,
	"learning_rate": 4.729876543209877e-05,
	"loss": 1.0054,
	"step": 1675
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 5.670660018920898,
	"learning_rate": 4.7175308641975314e-05,
	"loss": 0.9929,
	"step": 1700
	},
	{
	"epoch": 0.46,
	"grad_norm": 10.087015151977539,
	"learning_rate": 4.7051851851851855e-05,
	"loss": 1.1383,
	"step": 1725
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 6.2626800537109375,
	"learning_rate": 4.6928395061728396e-05,
	"loss": 1.1386,
	"step": 1750
	},
	{
	"epoch": 0.47333333333333333,
	"grad_norm": 11.429990768432617,
	"learning_rate": 4.6804938271604943e-05,
	"loss": 0.9042,
	"step": 1775
	},
	{
	"epoch": 0.48,
	"grad_norm": 6.389810085296631,
	"learning_rate": 4.6681481481481484e-05,
	"loss": 0.9631,
	"step": 1800
	},
	{
	"epoch": 0.4866666666666667,
	"grad_norm": 8.779641151428223,
	"learning_rate": 4.6558024691358025e-05,
	"loss": 1.1042,
	"step": 1825
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 8.273574829101562,
	"learning_rate": 4.643456790123457e-05,
	"loss": 0.9551,
	"step": 1850
	},
	{
	"epoch": 0.5,
	"grad_norm": 7.0266194343566895,
	"learning_rate": 4.6311111111111113e-05,
	"loss": 0.9846,
	"step": 1875
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 8.741957664489746,
	"learning_rate": 4.6187654320987654e-05,
	"loss": 1.0969,
	"step": 1900
	},
	{
	"epoch": 0.5133333333333333,
	"grad_norm": 17.768611907958984,
	"learning_rate": 4.60641975308642e-05,
	"loss": 0.844,
	"step": 1925
	},
	{
	"epoch": 0.52,
	"grad_norm": 9.893391609191895,
	"learning_rate": 4.594074074074074e-05,
	"loss": 0.9731,
	"step": 1950
	},
	{
	"epoch": 0.5266666666666666,
	"grad_norm": 5.22994327545166,
	"learning_rate": 4.5817283950617283e-05,
	"loss": 0.8226,
	"step": 1975
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 13.81772232055664,
	"learning_rate": 4.569382716049383e-05,
	"loss": 0.8015,
	"step": 2000
	},
	{
	"epoch": 0.54,
	"grad_norm": 5.9889302253723145,
	"learning_rate": 4.557037037037037e-05,
	"loss": 0.9881,
	"step": 2025
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 7.382312774658203,
	"learning_rate": 4.544691358024691e-05,
	"loss": 1.0753,
	"step": 2050
	},
	{
	"epoch": 0.5533333333333333,
	"grad_norm": 13.38068962097168,
	"learning_rate": 4.532345679012346e-05,
	"loss": 0.8732,
	"step": 2075
	},
	{
	"epoch": 0.56,
	"grad_norm": 18.700225830078125,
	"learning_rate": 4.52e-05,
	"loss": 0.9685,
	"step": 2100
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 9.365460395812988,
	"learning_rate": 4.507654320987654e-05,
	"loss": 1.0779,
	"step": 2125
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 8.056510925292969,
	"learning_rate": 4.495308641975309e-05,
	"loss": 0.9673,
	"step": 2150
	},
	{
	"epoch": 0.58,
	"grad_norm": 7.804261684417725,
	"learning_rate": 4.482962962962963e-05,
	"loss": 0.9461,
	"step": 2175
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 4.484943866729736,
	"learning_rate": 4.470617283950618e-05,
	"loss": 0.9341,
	"step": 2200
	},
	{
	"epoch": 0.5933333333333334,
	"grad_norm": 7.764664173126221,
	"learning_rate": 4.458271604938272e-05,
	"loss": 0.8104,
	"step": 2225
	},
	{
	"epoch": 0.6,
	"grad_norm": 6.613196849822998,
	"learning_rate": 4.44641975308642e-05,
	"loss": 1.0037,
	"step": 2250
	},
	{
	"epoch": 0.6066666666666667,
	"grad_norm": 5.951300144195557,
	"learning_rate": 4.4340740740740744e-05,
	"loss": 0.9785,
	"step": 2275
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 4.876894474029541,
	"learning_rate": 4.421728395061729e-05,
	"loss": 0.9276,
	"step": 2300
	},
	{
	"epoch": 0.62,
	"grad_norm": 9.433537483215332,
	"learning_rate": 4.4093827160493826e-05,
	"loss": 1.0004,
	"step": 2325
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 10.541296005249023,
	"learning_rate": 4.3970370370370374e-05,
	"loss": 1.0609,
	"step": 2350
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 6.446004390716553,
	"learning_rate": 4.384691358024692e-05,
	"loss": 0.9926,
	"step": 2375
	},
	{
	"epoch": 0.64,
	"grad_norm": 8.850340843200684,
	"learning_rate": 4.3723456790123455e-05,
	"loss": 0.9382,
	"step": 2400
	},
	{
	"epoch": 0.6466666666666666,
	"grad_norm": 6.004384517669678,
	"learning_rate": 4.36e-05,
	"loss": 1.1173,
	"step": 2425
	},
	{
	"epoch": 0.6533333333333333,
	"grad_norm": 10.950887680053711,
	"learning_rate": 4.3476543209876543e-05,
	"loss": 0.8673,
	"step": 2450
	},
	{
	"epoch": 0.66,
	"grad_norm": 5.736955642700195,
	"learning_rate": 4.3353086419753084e-05,
	"loss": 0.9869,
	"step": 2475
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 9.545438766479492,
	"learning_rate": 4.322962962962963e-05,
	"loss": 1.0109,
	"step": 2500
	},
	{
	"epoch": 0.6733333333333333,
	"grad_norm": 14.54963207244873,
	"learning_rate": 4.310617283950617e-05,
	"loss": 0.8774,
	"step": 2525
	},
	{
	"epoch": 0.68,
	"grad_norm": 6.30457067489624,
	"learning_rate": 4.298271604938272e-05,
	"loss": 0.8801,
	"step": 2550
	},
	{
	"epoch": 0.6866666666666666,
	"grad_norm": 6.858036041259766,
	"learning_rate": 4.285925925925926e-05,
	"loss": 0.727,
	"step": 2575
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 5.082749366760254,
	"learning_rate": 4.27358024691358e-05,
	"loss": 0.9237,
	"step": 2600
	},
	{
	"epoch": 0.7,
	"grad_norm": 7.5763936042785645,
	"learning_rate": 4.261234567901235e-05,
	"loss": 0.8342,
	"step": 2625
	},
	{
	"epoch": 0.7066666666666667,
	"grad_norm": 8.811793327331543,
	"learning_rate": 4.248888888888889e-05,
	"loss": 1.0076,
	"step": 2650
	},
	{
	"epoch": 0.7133333333333334,
	"grad_norm": 13.048144340515137,
	"learning_rate": 4.236543209876543e-05,
	"loss": 0.9556,
	"step": 2675
	},
	{
	"epoch": 0.72,
	"grad_norm": 11.870134353637695,
	"learning_rate": 4.224197530864198e-05,
	"loss": 1.0028,
	"step": 2700
	},
	{
	"epoch": 0.7266666666666667,
	"grad_norm": 12.326855659484863,
	"learning_rate": 4.211851851851852e-05,
	"loss": 0.8794,
	"step": 2725
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 7.567747116088867,
	"learning_rate": 4.199506172839506e-05,
	"loss": 0.8812,
	"step": 2750
	},
	{
	"epoch": 0.74,
	"grad_norm": 6.114919185638428,
	"learning_rate": 4.187160493827161e-05,
	"loss": 0.8974,
	"step": 2775
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 16.97509765625,
	"learning_rate": 4.1748148148148155e-05,
	"loss": 0.8895,
	"step": 2800
	},
	{
	"epoch": 0.7533333333333333,
	"grad_norm": 9.177389144897461,
	"learning_rate": 4.162469135802469e-05,
	"loss": 0.7692,
	"step": 2825
	},
	{
	"epoch": 0.76,
	"grad_norm": 7.463740348815918,
	"learning_rate": 4.150123456790124e-05,
	"loss": 0.9168,
	"step": 2850
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 8.774567604064941,
	"learning_rate": 4.1377777777777784e-05,
	"loss": 0.8709,
	"step": 2875
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 7.635562419891357,
	"learning_rate": 4.125432098765432e-05,
	"loss": 1.059,
	"step": 2900
	},
	{
	"epoch": 0.78,
	"grad_norm": 5.951021671295166,
	"learning_rate": 4.1130864197530866e-05,
	"loss": 0.7637,
	"step": 2925
	},
	{
	"epoch": 0.7866666666666666,
	"grad_norm": 9.935166358947754,
	"learning_rate": 4.1007407407407414e-05,
	"loss": 0.9919,
	"step": 2950
	},
	{
	"epoch": 0.7933333333333333,
	"grad_norm": 5.804830074310303,
	"learning_rate": 4.088395061728395e-05,
	"loss": 0.7903,
	"step": 2975
	},
	{
	"epoch": 0.8,
	"grad_norm": 5.533348560333252,
	"learning_rate": 4.0760493827160495e-05,
	"loss": 0.9898,
	"step": 3000
	},
	{
	"epoch": 0.8066666666666666,
	"grad_norm": 8.753861427307129,
	"learning_rate": 4.063703703703704e-05,
	"loss": 0.7716,
	"step": 3025
	},
	{
	"epoch": 0.8133333333333334,
	"grad_norm": 11.261335372924805,
	"learning_rate": 4.051358024691358e-05,
	"loss": 0.9554,
	"step": 3050
	},
	{
	"epoch": 0.82,
	"grad_norm": 10.08859920501709,
	"learning_rate": 4.0390123456790124e-05,
	"loss": 0.8887,
	"step": 3075
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 3.6686923503875732,
	"learning_rate": 4.026666666666667e-05,
	"loss": 0.8084,
	"step": 3100
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 7.54130220413208,
	"learning_rate": 4.014320987654321e-05,
	"loss": 1.0297,
	"step": 3125
	},
	{
	"epoch": 0.84,
	"grad_norm": 5.28485631942749,
	"learning_rate": 4.0019753086419753e-05,
	"loss": 0.8179,
	"step": 3150
	},
	{
	"epoch": 0.8466666666666667,
	"grad_norm": 5.715919494628906,
	"learning_rate": 3.98962962962963e-05,
	"loss": 0.8925,
	"step": 3175
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 12.822041511535645,
	"learning_rate": 3.977283950617284e-05,
	"loss": 0.8126,
	"step": 3200
	},
	{
	"epoch": 0.86,
	"grad_norm": 6.913020133972168,
	"learning_rate": 3.964938271604938e-05,
	"loss": 0.9576,
	"step": 3225
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 7.729150772094727,
	"learning_rate": 3.952592592592593e-05,
	"loss": 0.8019,
	"step": 3250
	},
	{
	"epoch": 0.8733333333333333,
	"grad_norm": 14.75147819519043,
	"learning_rate": 3.940246913580247e-05,
	"loss": 0.8749,
	"step": 3275
	},
	{
	"epoch": 0.88,
	"grad_norm": 6.890247344970703,
	"learning_rate": 3.927901234567901e-05,
	"loss": 0.8219,
	"step": 3300
	},
	{
	"epoch": 0.8866666666666667,
	"grad_norm": 14.082189559936523,
	"learning_rate": 3.915555555555556e-05,
	"loss": 0.9104,
	"step": 3325
	},
	{
	"epoch": 0.8933333333333333,
	"grad_norm": 14.824267387390137,
	"learning_rate": 3.90320987654321e-05,
	"loss": 1.0422,
	"step": 3350
	},
	{
	"epoch": 0.9,
	"grad_norm": 6.831472396850586,
	"learning_rate": 3.890864197530865e-05,
	"loss": 0.955,
	"step": 3375
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 12.86788558959961,
	"learning_rate": 3.878518518518519e-05,
	"loss": 0.8177,
	"step": 3400
	},
	{
	"epoch": 0.9133333333333333,
	"grad_norm": 5.384681224822998,
	"learning_rate": 3.866172839506173e-05,
	"loss": 1.0076,
	"step": 3425
	},
	{
	"epoch": 0.92,
	"grad_norm": 7.360981464385986,
	"learning_rate": 3.853827160493828e-05,
	"loss": 0.9525,
	"step": 3450
	},
	{
	"epoch": 0.9266666666666666,
	"grad_norm": 9.476499557495117,
	"learning_rate": 3.841481481481482e-05,
	"loss": 0.8705,
	"step": 3475
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 11.018596649169922,
	"learning_rate": 3.829135802469136e-05,
	"loss": 0.8799,
	"step": 3500
	},
	{
	"epoch": 0.94,
	"grad_norm": 9.566810607910156,
	"learning_rate": 3.8167901234567906e-05,
	"loss": 0.9072,
	"step": 3525
	},
	{
	"epoch": 0.9466666666666667,
	"grad_norm": 6.946780681610107,
	"learning_rate": 3.804444444444445e-05,
	"loss": 0.9795,
	"step": 3550
	},
	{
	"epoch": 0.9533333333333334,
	"grad_norm": 11.96141242980957,
	"learning_rate": 3.792098765432099e-05,
	"loss": 0.9398,
	"step": 3575
	},
	{
	"epoch": 0.96,
	"grad_norm": 6.139281749725342,
	"learning_rate": 3.7797530864197535e-05,
	"loss": 0.877,
	"step": 3600
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 8.848674774169922,
	"learning_rate": 3.7674074074074076e-05,
	"loss": 0.9407,
	"step": 3625
	},
	{
	"epoch": 0.9733333333333334,
	"grad_norm": 8.626237869262695,
	"learning_rate": 3.755061728395062e-05,
	"loss": 0.7231,
	"step": 3650
	},
	{
	"epoch": 0.98,
	"grad_norm": 8.904046058654785,
	"learning_rate": 3.7427160493827164e-05,
	"loss": 0.7771,
	"step": 3675
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 8.304384231567383,
	"learning_rate": 3.7303703703703705e-05,
	"loss": 0.8759,
	"step": 3700
	},
	{
	"epoch": 0.9933333333333333,
	"grad_norm": 3.275665283203125,
	"learning_rate": 3.7180246913580246e-05,
	"loss": 1.0953,
	"step": 3725
	},
	{
	"epoch": 1.0,
	"grad_norm": 9.612822532653809,
	"learning_rate": 3.7056790123456794e-05,
	"loss": 0.9654,
	"step": 3750
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7091666666666666,
	"eval_f1_macro": 0.6100324685442738,
	"eval_f1_micro": 0.7091666666666666,
	"eval_f1_weighted": 0.6820074793819821,
	"eval_loss": 0.8581413626670837,
	"eval_precision_macro": 0.6409039609039581,
	"eval_precision_micro": 0.7091666666666666,
	"eval_precision_weighted": 0.6788783926303716,
	"eval_recall_macro": 0.6173398268291092,
	"eval_recall_micro": 0.7091666666666666,
	"eval_recall_weighted": 0.7091666666666666,
	"eval_runtime": 17.7272,
	"eval_samples_per_second": 338.462,
	"eval_steps_per_second": 21.154,
	"step": 3750
	},
	{
	"epoch": 1.0066666666666666,
	"grad_norm": 4.440273761749268,
	"learning_rate": 3.6933333333333334e-05,
	"loss": 0.7425,
	"step": 3775
	},
	{
	"epoch": 1.0133333333333334,
	"grad_norm": 2.8456194400787354,
	"learning_rate": 3.6809876543209875e-05,
	"loss": 0.8552,
	"step": 3800
	},
	{
	"epoch": 1.02,
	"grad_norm": 7.814695358276367,
	"learning_rate": 3.668641975308642e-05,
	"loss": 0.7137,
	"step": 3825
	},
	{
	"epoch": 1.0266666666666666,
	"grad_norm": 15.144572257995605,
	"learning_rate": 3.6562962962962964e-05,
	"loss": 0.7113,
	"step": 3850
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 7.033264636993408,
	"learning_rate": 3.643950617283951e-05,
	"loss": 0.635,
	"step": 3875
	},
	{
	"epoch": 1.04,
	"grad_norm": 9.882685661315918,
	"learning_rate": 3.631604938271605e-05,
	"loss": 0.6947,
	"step": 3900
	},
	{
	"epoch": 1.0466666666666666,
	"grad_norm": 3.8773844242095947,
	"learning_rate": 3.619259259259259e-05,
	"loss": 0.7561,
	"step": 3925
	},
	{
	"epoch": 1.0533333333333332,
	"grad_norm": 13.235457420349121,
	"learning_rate": 3.606913580246914e-05,
	"loss": 0.8613,
	"step": 3950
	},
	{
	"epoch": 1.06,
	"grad_norm": 7.09820032119751,
	"learning_rate": 3.594567901234568e-05,
	"loss": 0.6555,
	"step": 3975
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 10.326157569885254,
	"learning_rate": 3.582222222222222e-05,
	"loss": 0.7023,
	"step": 4000
	},
	{
	"epoch": 1.0733333333333333,
	"grad_norm": 26.21095085144043,
	"learning_rate": 3.569876543209877e-05,
	"loss": 0.8392,
	"step": 4025
	},
	{
	"epoch": 1.08,
	"grad_norm": 8.45411205291748,
	"learning_rate": 3.557530864197531e-05,
	"loss": 0.6542,
	"step": 4050
	},
	{
	"epoch": 1.0866666666666667,
	"grad_norm": 9.493447303771973,
	"learning_rate": 3.545185185185185e-05,
	"loss": 0.6472,
	"step": 4075
	},
	{
	"epoch": 1.0933333333333333,
	"grad_norm": 6.964524745941162,
	"learning_rate": 3.53283950617284e-05,
	"loss": 0.8216,
	"step": 4100
	},
	{
	"epoch": 1.1,
	"grad_norm": 9.059328079223633,
	"learning_rate": 3.520493827160494e-05,
	"loss": 0.8314,
	"step": 4125
	},
	{
	"epoch": 1.1066666666666667,
	"grad_norm": 6.654369831085205,
	"learning_rate": 3.508148148148148e-05,
	"loss": 0.628,
	"step": 4150
	},
	{
	"epoch": 1.1133333333333333,
	"grad_norm": 13.223770141601562,
	"learning_rate": 3.495802469135803e-05,
	"loss": 0.8023,
	"step": 4175
	},
	{
	"epoch": 1.12,
	"grad_norm": 12.41712474822998,
	"learning_rate": 3.483456790123457e-05,
	"loss": 0.8411,
	"step": 4200
	},
	{
	"epoch": 1.1266666666666667,
	"grad_norm": 6.774609565734863,
	"learning_rate": 3.471111111111111e-05,
	"loss": 0.8376,
	"step": 4225
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 7.308166980743408,
	"learning_rate": 3.4592592592592594e-05,
	"loss": 0.7768,
	"step": 4250
	},
	{
	"epoch": 1.1400000000000001,
	"grad_norm": 7.681529521942139,
	"learning_rate": 3.4469135802469135e-05,
	"loss": 0.7728,
	"step": 4275
	},
	{
	"epoch": 1.1466666666666667,
	"grad_norm": 6.580010414123535,
	"learning_rate": 3.434567901234568e-05,
	"loss": 0.6793,
	"step": 4300
	},
	{
	"epoch": 1.1533333333333333,
	"grad_norm": 3.635303497314453,
	"learning_rate": 3.4222222222222224e-05,
	"loss": 0.7412,
	"step": 4325
	},
	{
	"epoch": 1.16,
	"grad_norm": 8.876466751098633,
	"learning_rate": 3.4098765432098764e-05,
	"loss": 0.6272,
	"step": 4350
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 7.696030139923096,
	"learning_rate": 3.397530864197531e-05,
	"loss": 0.6547,
	"step": 4375
	},
	{
	"epoch": 1.1733333333333333,
	"grad_norm": 8.832601547241211,
	"learning_rate": 3.385185185185185e-05,
	"loss": 0.5395,
	"step": 4400
	},
	{
	"epoch": 1.18,
	"grad_norm": 8.13397216796875,
	"learning_rate": 3.3728395061728394e-05,
	"loss": 0.7159,
	"step": 4425
	},
	{
	"epoch": 1.1866666666666668,
	"grad_norm": 13.775779724121094,
	"learning_rate": 3.360493827160494e-05,
	"loss": 0.827,
	"step": 4450
	},
	{
	"epoch": 1.1933333333333334,
	"grad_norm": 10.165814399719238,
	"learning_rate": 3.348148148148148e-05,
	"loss": 0.6612,
	"step": 4475
	},
	{
	"epoch": 1.2,
	"grad_norm": 16.018178939819336,
	"learning_rate": 3.335802469135802e-05,
	"loss": 0.6556,
	"step": 4500
	},
	{
	"epoch": 1.2066666666666666,
	"grad_norm": 1.3013031482696533,
	"learning_rate": 3.323456790123457e-05,
	"loss": 0.8252,
	"step": 4525
	},
	{
	"epoch": 1.2133333333333334,
	"grad_norm": 7.296039581298828,
	"learning_rate": 3.311111111111112e-05,
	"loss": 0.8382,
	"step": 4550
	},
	{
	"epoch": 1.22,
	"grad_norm": 6.962835788726807,
	"learning_rate": 3.298765432098765e-05,
	"loss": 0.7487,
	"step": 4575
	},
	{
	"epoch": 1.2266666666666666,
	"grad_norm": 4.2493062019348145,
	"learning_rate": 3.28641975308642e-05,
	"loss": 0.8383,
	"step": 4600
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 9.330086708068848,
	"learning_rate": 3.274074074074075e-05,
	"loss": 0.7768,
	"step": 4625
	},
	{
	"epoch": 1.24,
	"grad_norm": 10.251571655273438,
	"learning_rate": 3.261728395061728e-05,
	"loss": 0.867,
	"step": 4650
	},
	{
	"epoch": 1.2466666666666666,
	"grad_norm": 11.619964599609375,
	"learning_rate": 3.249382716049383e-05,
	"loss": 0.7623,
	"step": 4675
	},
	{
	"epoch": 1.2533333333333334,
	"grad_norm": 3.9532220363616943,
	"learning_rate": 3.2370370370370376e-05,
	"loss": 0.7566,
	"step": 4700
	},
	{
	"epoch": 1.26,
	"grad_norm": 4.52797794342041,
	"learning_rate": 3.224691358024691e-05,
	"loss": 0.6151,
	"step": 4725
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 5.5519118309021,
	"learning_rate": 3.212345679012346e-05,
	"loss": 0.6997,
	"step": 4750
	},
	{
	"epoch": 1.2733333333333334,
	"grad_norm": 16.9818172454834,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.8484,
	"step": 4775
	},
	{
	"epoch": 1.28,
	"grad_norm": 9.749587059020996,
	"learning_rate": 3.1876543209876546e-05,
	"loss": 0.6278,
	"step": 4800
	},
	{
	"epoch": 1.2866666666666666,
	"grad_norm": 9.709831237792969,
	"learning_rate": 3.175308641975309e-05,
	"loss": 0.7075,
	"step": 4825
	},
	{
	"epoch": 1.2933333333333334,
	"grad_norm": 20.00463104248047,
	"learning_rate": 3.1629629629629634e-05,
	"loss": 0.5736,
	"step": 4850
	},
	{
	"epoch": 1.3,
	"grad_norm": 6.521317958831787,
	"learning_rate": 3.1506172839506175e-05,
	"loss": 0.778,
	"step": 4875
	},
	{
	"epoch": 1.3066666666666666,
	"grad_norm": 8.647531509399414,
	"learning_rate": 3.1382716049382716e-05,
	"loss": 0.6916,
	"step": 4900
	},
	{
	"epoch": 1.3133333333333335,
	"grad_norm": 6.482861042022705,
	"learning_rate": 3.1259259259259264e-05,
	"loss": 0.8645,
	"step": 4925
	},
	{
	"epoch": 1.32,
	"grad_norm": 11.362075805664062,
	"learning_rate": 3.1135802469135804e-05,
	"loss": 0.7179,
	"step": 4950
	},
	{
	"epoch": 1.3266666666666667,
	"grad_norm": 7.478168487548828,
	"learning_rate": 3.1012345679012345e-05,
	"loss": 0.7394,
	"step": 4975
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 8.96081256866455,
	"learning_rate": 3.088888888888889e-05,
	"loss": 0.796,
	"step": 5000
	},
	{
	"epoch": 1.34,
	"grad_norm": 7.8306450843811035,
	"learning_rate": 3.0765432098765434e-05,
	"loss": 0.6964,
	"step": 5025
	},
	{
	"epoch": 1.3466666666666667,
	"grad_norm": 10.186200141906738,
	"learning_rate": 3.064197530864198e-05,
	"loss": 0.66,
	"step": 5050
	},
	{
	"epoch": 1.3533333333333333,
	"grad_norm": 9.338884353637695,
	"learning_rate": 3.0518518518518515e-05,
	"loss": 0.7104,
	"step": 5075
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 13.582483291625977,
	"learning_rate": 3.0395061728395063e-05,
	"loss": 0.7455,
	"step": 5100
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 7.894265651702881,
	"learning_rate": 3.0271604938271607e-05,
	"loss": 0.7794,
	"step": 5125
	},
	{
	"epoch": 1.3733333333333333,
	"grad_norm": 2.8598034381866455,
	"learning_rate": 3.0148148148148148e-05,
	"loss": 0.685,
	"step": 5150
	},
	{
	"epoch": 1.38,
	"grad_norm": 2.645756244659424,
	"learning_rate": 3.0024691358024692e-05,
	"loss": 0.8207,
	"step": 5175
	},
	{
	"epoch": 1.3866666666666667,
	"grad_norm": 9.987272262573242,
	"learning_rate": 2.9901234567901236e-05,
	"loss": 0.7231,
	"step": 5200
	},
	{
	"epoch": 1.3933333333333333,
	"grad_norm": 12.924286842346191,
	"learning_rate": 2.9777777777777777e-05,
	"loss": 0.7388,
	"step": 5225
	},
	{
	"epoch": 1.4,
	"grad_norm": 16.83519744873047,
	"learning_rate": 2.965432098765432e-05,
	"loss": 0.7497,
	"step": 5250
	},
	{
	"epoch": 1.4066666666666667,
	"grad_norm": 7.9070587158203125,
	"learning_rate": 2.9530864197530865e-05,
	"loss": 0.8074,
	"step": 5275
	},
	{
	"epoch": 1.4133333333333333,
	"grad_norm": 4.564779758453369,
	"learning_rate": 2.9407407407407413e-05,
	"loss": 0.6971,
	"step": 5300
	},
	{
	"epoch": 1.42,
	"grad_norm": 8.644104957580566,
	"learning_rate": 2.928395061728395e-05,
	"loss": 0.7966,
	"step": 5325
	},
	{
	"epoch": 1.4266666666666667,
	"grad_norm": 11.114713668823242,
	"learning_rate": 2.9160493827160494e-05,
	"loss": 0.7489,
	"step": 5350
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 10.182296752929688,
	"learning_rate": 2.9037037037037042e-05,
	"loss": 0.5922,
	"step": 5375
	},
	{
	"epoch": 1.44,
	"grad_norm": 8.90845775604248,
	"learning_rate": 2.891358024691358e-05,
	"loss": 0.7728,
	"step": 5400
	},
	{
	"epoch": 1.4466666666666668,
	"grad_norm": 7.750247478485107,
	"learning_rate": 2.8790123456790124e-05,
	"loss": 0.7747,
	"step": 5425
	},
	{
	"epoch": 1.4533333333333334,
	"grad_norm": 5.938879489898682,
	"learning_rate": 2.8666666666666668e-05,
	"loss": 0.6753,
	"step": 5450
	},
	{
	"epoch": 1.46,
	"grad_norm": 9.088497161865234,
	"learning_rate": 2.854320987654321e-05,
	"loss": 0.6682,
	"step": 5475
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 18.685951232910156,
	"learning_rate": 2.8419753086419753e-05,
	"loss": 0.6772,
	"step": 5500
	},
	{
	"epoch": 1.4733333333333334,
	"grad_norm": 8.782575607299805,
	"learning_rate": 2.8296296296296297e-05,
	"loss": 0.6646,
	"step": 5525
	},
	{
	"epoch": 1.48,
	"grad_norm": 4.917479515075684,
	"learning_rate": 2.8172839506172845e-05,
	"loss": 0.7017,
	"step": 5550
	},
	{
	"epoch": 1.4866666666666668,
	"grad_norm": 8.09851360321045,
	"learning_rate": 2.8049382716049382e-05,
	"loss": 0.7154,
	"step": 5575
	},
	{
	"epoch": 1.4933333333333334,
	"grad_norm": 6.223681449890137,
	"learning_rate": 2.7925925925925926e-05,
	"loss": 0.7596,
	"step": 5600
	},
	{
	"epoch": 1.5,
	"grad_norm": 8.397703170776367,
	"learning_rate": 2.7802469135802474e-05,
	"loss": 0.809,
	"step": 5625
	},
	{
	"epoch": 1.5066666666666668,
	"grad_norm": 6.877397537231445,
	"learning_rate": 2.767901234567901e-05,
	"loss": 0.8519,
	"step": 5650
	},
	{
	"epoch": 1.5133333333333332,
	"grad_norm": 23.255901336669922,
	"learning_rate": 2.7555555555555555e-05,
	"loss": 0.5782,
	"step": 5675
	},
	{
	"epoch": 1.52,
	"grad_norm": 9.83711051940918,
	"learning_rate": 2.7432098765432103e-05,
	"loss": 0.6336,
	"step": 5700
	},
	{
	"epoch": 1.5266666666666666,
	"grad_norm": 5.23626708984375,
	"learning_rate": 2.730864197530864e-05,
	"loss": 0.7307,
	"step": 5725
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 9.331045150756836,
	"learning_rate": 2.7185185185185184e-05,
	"loss": 0.7259,
	"step": 5750
	},
	{
	"epoch": 1.54,
	"grad_norm": 8.801417350769043,
	"learning_rate": 2.7061728395061732e-05,
	"loss": 0.8571,
	"step": 5775
	},
	{
	"epoch": 1.5466666666666666,
	"grad_norm": 6.789374828338623,
	"learning_rate": 2.6938271604938276e-05,
	"loss": 0.7824,
	"step": 5800
	},
	{
	"epoch": 1.5533333333333332,
	"grad_norm": 10.509846687316895,
	"learning_rate": 2.6814814814814814e-05,
	"loss": 0.7399,
	"step": 5825
	},
	{
	"epoch": 1.56,
	"grad_norm": 8.728089332580566,
	"learning_rate": 2.669135802469136e-05,
	"loss": 0.742,
	"step": 5850
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 7.6164774894714355,
	"learning_rate": 2.6567901234567905e-05,
	"loss": 0.7879,
	"step": 5875
	},
	{
	"epoch": 1.5733333333333333,
	"grad_norm": 14.654951095581055,
	"learning_rate": 2.6444444444444443e-05,
	"loss": 0.63,
	"step": 5900
	},
	{
	"epoch": 1.58,
	"grad_norm": 5.373976707458496,
	"learning_rate": 2.632098765432099e-05,
	"loss": 0.7247,
	"step": 5925
	},
	{
	"epoch": 1.5866666666666667,
	"grad_norm": 6.956189155578613,
	"learning_rate": 2.6197530864197534e-05,
	"loss": 0.6052,
	"step": 5950
	},
	{
	"epoch": 1.5933333333333333,
	"grad_norm": 9.96907901763916,
	"learning_rate": 2.6074074074074072e-05,
	"loss": 0.8396,
	"step": 5975
	},
	{
	"epoch": 1.6,
	"grad_norm": 13.184568405151367,
	"learning_rate": 2.595061728395062e-05,
	"loss": 0.7757,
	"step": 6000
	},
	{
	"epoch": 1.6066666666666667,
	"grad_norm": 15.362314224243164,
	"learning_rate": 2.5827160493827164e-05,
	"loss": 0.893,
	"step": 6025
	},
	{
	"epoch": 1.6133333333333333,
	"grad_norm": 4.897271156311035,
	"learning_rate": 2.5703703703703708e-05,
	"loss": 0.6591,
	"step": 6050
	},
	{
	"epoch": 1.62,
	"grad_norm": 9.751553535461426,
	"learning_rate": 2.558024691358025e-05,
	"loss": 0.6348,
	"step": 6075
	},
	{
	"epoch": 1.6266666666666667,
	"grad_norm": 8.476768493652344,
	"learning_rate": 2.5456790123456793e-05,
	"loss": 0.6365,
	"step": 6100
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 8.62093734741211,
	"learning_rate": 2.5333333333333337e-05,
	"loss": 0.7576,
	"step": 6125
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 2.200514078140259,
	"learning_rate": 2.5209876543209874e-05,
	"loss": 0.6805,
	"step": 6150
	},
	{
	"epoch": 1.6466666666666665,
	"grad_norm": 2.226874828338623,
	"learning_rate": 2.5086419753086422e-05,
	"loss": 0.6033,
	"step": 6175
	},
	{
	"epoch": 1.6533333333333333,
	"grad_norm": 1.4179869890213013,
	"learning_rate": 2.4962962962962963e-05,
	"loss": 0.5945,
	"step": 6200
	},
	{
	"epoch": 1.6600000000000001,
	"grad_norm": 9.433260917663574,
	"learning_rate": 2.4839506172839507e-05,
	"loss": 0.7244,
	"step": 6225
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 10.319985389709473,
	"learning_rate": 2.471604938271605e-05,
	"loss": 0.6965,
	"step": 6250
	},
	{
	"epoch": 1.6733333333333333,
	"grad_norm": 13.357112884521484,
	"learning_rate": 2.4592592592592595e-05,
	"loss": 0.5875,
	"step": 6275
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 11.539891242980957,
	"learning_rate": 2.4469135802469136e-05,
	"loss": 0.5944,
	"step": 6300
	},
	{
	"epoch": 1.6866666666666665,
	"grad_norm": 5.3860344886779785,
	"learning_rate": 2.434567901234568e-05,
	"loss": 0.6623,
	"step": 6325
	},
	{
	"epoch": 1.6933333333333334,
	"grad_norm": 14.049308776855469,
	"learning_rate": 2.4222222222222224e-05,
	"loss": 0.6706,
	"step": 6350
	},
	{
	"epoch": 1.7,
	"grad_norm": 9.558539390563965,
	"learning_rate": 2.4098765432098765e-05,
	"loss": 0.7215,
	"step": 6375
	},
	{
	"epoch": 1.7066666666666666,
	"grad_norm": 13.506587028503418,
	"learning_rate": 2.397530864197531e-05,
	"loss": 0.6993,
	"step": 6400
	},
	{
	"epoch": 1.7133333333333334,
	"grad_norm": 9.131032943725586,
	"learning_rate": 2.3851851851851854e-05,
	"loss": 0.7986,
	"step": 6425
	},
	{
	"epoch": 1.72,
	"grad_norm": 3.78764009475708,
	"learning_rate": 2.3728395061728394e-05,
	"loss": 0.7608,
	"step": 6450
	},
	{
	"epoch": 1.7266666666666666,
	"grad_norm": 9.804962158203125,
	"learning_rate": 2.360493827160494e-05,
	"loss": 0.7245,
	"step": 6475
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 5.942134857177734,
	"learning_rate": 2.3481481481481483e-05,
	"loss": 0.6769,
	"step": 6500
	},
	{
	"epoch": 1.74,
	"grad_norm": 8.747697830200195,
	"learning_rate": 2.3358024691358027e-05,
	"loss": 0.7199,
	"step": 6525
	},
	{
	"epoch": 1.7466666666666666,
	"grad_norm": 6.169302940368652,
	"learning_rate": 2.3234567901234568e-05,
	"loss": 0.7633,
	"step": 6550
	},
	{
	"epoch": 1.7533333333333334,
	"grad_norm": 10.793547630310059,
	"learning_rate": 2.3111111111111112e-05,
	"loss": 0.543,
	"step": 6575
	},
	{
	"epoch": 1.76,
	"grad_norm": 12.748262405395508,
	"learning_rate": 2.2987654320987656e-05,
	"loss": 0.7764,
	"step": 6600
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 13.716763496398926,
	"learning_rate": 2.2864197530864197e-05,
	"loss": 0.7844,
	"step": 6625
	},
	{
	"epoch": 1.7733333333333334,
	"grad_norm": 14.565423011779785,
	"learning_rate": 2.2740740740740744e-05,
	"loss": 0.683,
	"step": 6650
	},
	{
	"epoch": 1.78,
	"grad_norm": 8.850066184997559,
	"learning_rate": 2.2617283950617285e-05,
	"loss": 0.6995,
	"step": 6675
	},
	{
	"epoch": 1.7866666666666666,
	"grad_norm": 12.295726776123047,
	"learning_rate": 2.2493827160493826e-05,
	"loss": 0.8103,
	"step": 6700
	},
	{
	"epoch": 1.7933333333333334,
	"grad_norm": 5.886265754699707,
	"learning_rate": 2.2370370370370374e-05,
	"loss": 0.6811,
	"step": 6725
	},
	{
	"epoch": 1.8,
	"grad_norm": 4.584556579589844,
	"learning_rate": 2.2246913580246914e-05,
	"loss": 0.6821,
	"step": 6750
	},
	{
	"epoch": 1.8066666666666666,
	"grad_norm": 10.706587791442871,
	"learning_rate": 2.212345679012346e-05,
	"loss": 0.7736,
	"step": 6775
	},
	{
	"epoch": 1.8133333333333335,
	"grad_norm": 9.361528396606445,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.7977,
	"step": 6800
	},
	{
	"epoch": 1.8199999999999998,
	"grad_norm": 17.178653717041016,
	"learning_rate": 2.1876543209876544e-05,
	"loss": 0.8598,
	"step": 6825
	},
	{
	"epoch": 1.8266666666666667,
	"grad_norm": 7.339766979217529,
	"learning_rate": 2.1753086419753088e-05,
	"loss": 0.571,
	"step": 6850
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 6.615869045257568,
	"learning_rate": 2.162962962962963e-05,
	"loss": 0.6702,
	"step": 6875
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 10.113656997680664,
	"learning_rate": 2.1506172839506176e-05,
	"loss": 0.7777,
	"step": 6900
	},
	{
	"epoch": 1.8466666666666667,
	"grad_norm": 7.745372295379639,
	"learning_rate": 2.1382716049382717e-05,
	"loss": 0.7539,
	"step": 6925
	},
	{
	"epoch": 1.8533333333333335,
	"grad_norm": 7.907397747039795,
	"learning_rate": 2.1259259259259258e-05,
	"loss": 0.7244,
	"step": 6950
	},
	{
	"epoch": 1.8599999999999999,
	"grad_norm": 11.474489212036133,
	"learning_rate": 2.1135802469135805e-05,
	"loss": 0.7925,
	"step": 6975
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 11.150900840759277,
	"learning_rate": 2.1012345679012346e-05,
	"loss": 0.5607,
	"step": 7000
	},
	{
	"epoch": 1.8733333333333333,
	"grad_norm": 17.480403900146484,
	"learning_rate": 2.088888888888889e-05,
	"loss": 0.8783,
	"step": 7025
	},
	{
	"epoch": 1.88,
	"grad_norm": 10.300092697143555,
	"learning_rate": 2.0765432098765434e-05,
	"loss": 0.8025,
	"step": 7050
	},
	{
	"epoch": 1.8866666666666667,
	"grad_norm": 3.967689275741577,
	"learning_rate": 2.0641975308641975e-05,
	"loss": 0.7898,
	"step": 7075
	},
	{
	"epoch": 1.8933333333333333,
	"grad_norm": 8.212587356567383,
	"learning_rate": 2.051851851851852e-05,
	"loss": 0.6461,
	"step": 7100
	},
	{
	"epoch": 1.9,
	"grad_norm": 13.606761932373047,
	"learning_rate": 2.0395061728395064e-05,
	"loss": 0.651,
	"step": 7125
	},
	{
	"epoch": 1.9066666666666667,
	"grad_norm": 7.908700942993164,
	"learning_rate": 2.0271604938271608e-05,
	"loss": 0.6489,
	"step": 7150
	},
	{
	"epoch": 1.9133333333333333,
	"grad_norm": 11.340200424194336,
	"learning_rate": 2.014814814814815e-05,
	"loss": 0.7675,
	"step": 7175
	},
	{
	"epoch": 1.92,
	"grad_norm": 5.6627373695373535,
	"learning_rate": 2.0024691358024693e-05,
	"loss": 0.6732,
	"step": 7200
	},
	{
	"epoch": 1.9266666666666667,
	"grad_norm": 21.99058723449707,
	"learning_rate": 1.9901234567901237e-05,
	"loss": 0.7135,
	"step": 7225
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 17.246597290039062,
	"learning_rate": 1.9777777777777778e-05,
	"loss": 0.7077,
	"step": 7250
	},
	{
	"epoch": 1.94,
	"grad_norm": 6.322951316833496,
	"learning_rate": 1.9654320987654322e-05,
	"loss": 0.6163,
	"step": 7275
	},
	{
	"epoch": 1.9466666666666668,
	"grad_norm": 5.832266807556152,
	"learning_rate": 1.9530864197530866e-05,
	"loss": 0.642,
	"step": 7300
	},
	{
	"epoch": 1.9533333333333334,
	"grad_norm": 5.883837699890137,
	"learning_rate": 1.9407407407407407e-05,
	"loss": 0.6955,
	"step": 7325
	},
	{
	"epoch": 1.96,
	"grad_norm": 12.114556312561035,
	"learning_rate": 1.928395061728395e-05,
	"loss": 0.772,
	"step": 7350
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 4.3004350662231445,
	"learning_rate": 1.9160493827160495e-05,
	"loss": 0.7316,
	"step": 7375
	},
	{
	"epoch": 1.9733333333333334,
	"grad_norm": 8.095020294189453,
	"learning_rate": 1.903703703703704e-05,
	"loss": 0.623,
	"step": 7400
	},
	{
	"epoch": 1.98,
	"grad_norm": 10.078492164611816,
	"learning_rate": 1.891358024691358e-05,
	"loss": 0.8212,
	"step": 7425
	},
	{
	"epoch": 1.9866666666666668,
	"grad_norm": 6.047307968139648,
	"learning_rate": 1.8790123456790124e-05,
	"loss": 0.6209,
	"step": 7450
	},
	{
	"epoch": 1.9933333333333332,
	"grad_norm": 2.696333885192871,
	"learning_rate": 1.866666666666667e-05,
	"loss": 0.7312,
	"step": 7475
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.4287543296813965,
	"learning_rate": 1.854320987654321e-05,
	"loss": 0.6442,
	"step": 7500
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.7258333333333333,
	"eval_f1_macro": 0.6405635167768103,
	"eval_f1_micro": 0.7258333333333333,
	"eval_f1_weighted": 0.7031763861072888,
	"eval_loss": 0.8434039950370789,
	"eval_precision_macro": 0.6510401126834049,
	"eval_precision_micro": 0.7258333333333333,
	"eval_precision_weighted": 0.6973286083232175,
	"eval_recall_macro": 0.6512228541854506,
	"eval_recall_micro": 0.7258333333333333,
	"eval_recall_weighted": 0.7258333333333333,
	"eval_runtime": 17.4744,
	"eval_samples_per_second": 343.359,
	"eval_steps_per_second": 21.46,
	"step": 7500
	}
	],
	"logging_steps": 25,
	"max_steps": 11250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.01
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1987294464000000.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}