whisper-large-eu / trainer_state.json

End of training

cfe270a verified about 2 months ago

63.5 kB

	{
	"best_metric": 7.215361500971087,
	"best_model_checkpoint": "./checkpoint-9000",
	"epoch": 5.048,
	"eval_steps": 500,
	"global_step": 9000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0025,
	"grad_norm": 6.131621360778809,
	"learning_rate": 2.1875e-07,
	"loss": 0.9345,
	"step": 25
	},
	{
	"epoch": 0.005,
	"grad_norm": 6.021520137786865,
	"learning_rate": 4.375e-07,
	"loss": 0.8231,
	"step": 50
	},
	{
	"epoch": 0.0075,
	"grad_norm": 5.526496410369873,
	"learning_rate": 6.5625e-07,
	"loss": 0.5623,
	"step": 75
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.9277825355529785,
	"learning_rate": 8.75e-07,
	"loss": 0.4173,
	"step": 100
	},
	{
	"epoch": 0.0125,
	"grad_norm": 4.292990684509277,
	"learning_rate": 1.09375e-06,
	"loss": 0.385,
	"step": 125
	},
	{
	"epoch": 0.015,
	"grad_norm": 5.749295234680176,
	"learning_rate": 1.3125e-06,
	"loss": 0.3931,
	"step": 150
	},
	{
	"epoch": 0.0175,
	"grad_norm": 3.8306965827941895,
	"learning_rate": 1.5312499999999997e-06,
	"loss": 0.3516,
	"step": 175
	},
	{
	"epoch": 0.02,
	"grad_norm": 4.687748908996582,
	"learning_rate": 1.75e-06,
	"loss": 0.3235,
	"step": 200
	},
	{
	"epoch": 0.0225,
	"grad_norm": 4.232759952545166,
	"learning_rate": 1.96875e-06,
	"loss": 0.3314,
	"step": 225
	},
	{
	"epoch": 0.025,
	"grad_norm": 4.185751914978027,
	"learning_rate": 2.1875e-06,
	"loss": 0.309,
	"step": 250
	},
	{
	"epoch": 0.0275,
	"grad_norm": 4.818612098693848,
	"learning_rate": 2.40625e-06,
	"loss": 0.2991,
	"step": 275
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.171736717224121,
	"learning_rate": 2.625e-06,
	"loss": 0.2832,
	"step": 300
	},
	{
	"epoch": 0.0325,
	"grad_norm": 5.217376708984375,
	"learning_rate": 2.8437499999999997e-06,
	"loss": 0.2873,
	"step": 325
	},
	{
	"epoch": 0.035,
	"grad_norm": 4.671106815338135,
	"learning_rate": 3.0624999999999995e-06,
	"loss": 0.2957,
	"step": 350
	},
	{
	"epoch": 0.0375,
	"grad_norm": 3.9175262451171875,
	"learning_rate": 3.2812499999999997e-06,
	"loss": 0.2634,
	"step": 375
	},
	{
	"epoch": 0.04,
	"grad_norm": 4.647582054138184,
	"learning_rate": 3.5e-06,
	"loss": 0.2541,
	"step": 400
	},
	{
	"epoch": 0.0425,
	"grad_norm": 3.25675368309021,
	"learning_rate": 3.7187499999999998e-06,
	"loss": 0.2244,
	"step": 425
	},
	{
	"epoch": 0.045,
	"grad_norm": 4.597206115722656,
	"learning_rate": 3.9375e-06,
	"loss": 0.2492,
	"step": 450
	},
	{
	"epoch": 0.0475,
	"grad_norm": 4.602332592010498,
	"learning_rate": 4.156249999999999e-06,
	"loss": 0.246,
	"step": 475
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.6419622898101807,
	"learning_rate": 4.375e-06,
	"loss": 0.2208,
	"step": 500
	},
	{
	"epoch": 0.05,
	"eval_loss": 0.2592349350452423,
	"eval_runtime": 4116.5906,
	"eval_samples_per_second": 3.311,
	"eval_steps_per_second": 0.414,
	"eval_wer": 20.691487412510533,
	"step": 500
	},
	{
	"epoch": 0.0525,
	"grad_norm": 3.6599488258361816,
	"learning_rate": 4.363486842105263e-06,
	"loss": 0.2539,
	"step": 525
	},
	{
	"epoch": 0.055,
	"grad_norm": 3.6934616565704346,
	"learning_rate": 4.351973684210526e-06,
	"loss": 0.2313,
	"step": 550
	},
	{
	"epoch": 0.0575,
	"grad_norm": 3.7546138763427734,
	"learning_rate": 4.340460526315789e-06,
	"loss": 0.2272,
	"step": 575
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.096877098083496,
	"learning_rate": 4.3289473684210525e-06,
	"loss": 0.2373,
	"step": 600
	},
	{
	"epoch": 0.0625,
	"grad_norm": 3.572812795639038,
	"learning_rate": 4.3174342105263155e-06,
	"loss": 0.2285,
	"step": 625
	},
	{
	"epoch": 0.065,
	"grad_norm": 3.3494396209716797,
	"learning_rate": 4.3059210526315785e-06,
	"loss": 0.2293,
	"step": 650
	},
	{
	"epoch": 0.0675,
	"grad_norm": 3.5156869888305664,
	"learning_rate": 4.2944078947368415e-06,
	"loss": 0.2063,
	"step": 675
	},
	{
	"epoch": 0.07,
	"grad_norm": 3.698807716369629,
	"learning_rate": 4.282894736842105e-06,
	"loss": 0.2113,
	"step": 700
	},
	{
	"epoch": 0.0725,
	"grad_norm": 3.716585636138916,
	"learning_rate": 4.271381578947368e-06,
	"loss": 0.2055,
	"step": 725
	},
	{
	"epoch": 0.075,
	"grad_norm": 4.204227924346924,
	"learning_rate": 4.2598684210526314e-06,
	"loss": 0.2114,
	"step": 750
	},
	{
	"epoch": 0.0775,
	"grad_norm": 3.479562282562256,
	"learning_rate": 4.2483552631578944e-06,
	"loss": 0.2224,
	"step": 775
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.5203094482421875,
	"learning_rate": 4.2368421052631575e-06,
	"loss": 0.2523,
	"step": 800
	},
	{
	"epoch": 0.0825,
	"grad_norm": 3.6081738471984863,
	"learning_rate": 4.2253289473684205e-06,
	"loss": 0.2383,
	"step": 825
	},
	{
	"epoch": 0.085,
	"grad_norm": 3.2602758407592773,
	"learning_rate": 4.2138157894736835e-06,
	"loss": 0.1808,
	"step": 850
	},
	{
	"epoch": 0.0875,
	"grad_norm": 3.6786868572235107,
	"learning_rate": 4.202302631578947e-06,
	"loss": 0.1747,
	"step": 875
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.1120803356170654,
	"learning_rate": 4.19078947368421e-06,
	"loss": 0.1662,
	"step": 900
	},
	{
	"epoch": 0.0925,
	"grad_norm": 3.1962203979492188,
	"learning_rate": 4.179276315789473e-06,
	"loss": 0.1771,
	"step": 925
	},
	{
	"epoch": 0.095,
	"grad_norm": 3.172363758087158,
	"learning_rate": 4.167763157894736e-06,
	"loss": 0.1751,
	"step": 950
	},
	{
	"epoch": 0.0975,
	"grad_norm": 2.4304590225219727,
	"learning_rate": 4.156249999999999e-06,
	"loss": 0.1701,
	"step": 975
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.193345308303833,
	"learning_rate": 4.144736842105262e-06,
	"loss": 0.1489,
	"step": 1000
	},
	{
	"epoch": 0.1,
	"eval_loss": 0.1971057653427124,
	"eval_runtime": 4130.6867,
	"eval_samples_per_second": 3.3,
	"eval_steps_per_second": 0.413,
	"eval_wer": 14.68265601524424,
	"step": 1000
	},
	{
	"epoch": 0.1025,
	"grad_norm": 3.322065591812134,
	"learning_rate": 4.133223684210526e-06,
	"loss": 0.1701,
	"step": 1025
	},
	{
	"epoch": 0.105,
	"grad_norm": 3.5462722778320312,
	"learning_rate": 4.121710526315789e-06,
	"loss": 0.1875,
	"step": 1050
	},
	{
	"epoch": 0.1075,
	"grad_norm": 3.39326810836792,
	"learning_rate": 4.110197368421052e-06,
	"loss": 0.1506,
	"step": 1075
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.9165821075439453,
	"learning_rate": 4.098684210526315e-06,
	"loss": 0.1525,
	"step": 1100
	},
	{
	"epoch": 0.1125,
	"grad_norm": 3.262007236480713,
	"learning_rate": 4.087171052631578e-06,
	"loss": 0.157,
	"step": 1125
	},
	{
	"epoch": 0.115,
	"grad_norm": 2.4523119926452637,
	"learning_rate": 4.075657894736842e-06,
	"loss": 0.1416,
	"step": 1150
	},
	{
	"epoch": 0.1175,
	"grad_norm": 2.7651798725128174,
	"learning_rate": 4.064144736842105e-06,
	"loss": 0.1527,
	"step": 1175
	},
	{
	"epoch": 0.12,
	"grad_norm": 3.609523296356201,
	"learning_rate": 4.052631578947368e-06,
	"loss": 0.1822,
	"step": 1200
	},
	{
	"epoch": 0.1225,
	"grad_norm": 3.8101985454559326,
	"learning_rate": 4.041118421052631e-06,
	"loss": 0.1703,
	"step": 1225
	},
	{
	"epoch": 0.125,
	"grad_norm": 3.8921287059783936,
	"learning_rate": 4.029605263157894e-06,
	"loss": 0.1924,
	"step": 1250
	},
	{
	"epoch": 0.1275,
	"grad_norm": 4.463279724121094,
	"learning_rate": 4.018092105263157e-06,
	"loss": 0.1818,
	"step": 1275
	},
	{
	"epoch": 0.13,
	"grad_norm": 3.6556308269500732,
	"learning_rate": 4.00657894736842e-06,
	"loss": 0.1726,
	"step": 1300
	},
	{
	"epoch": 0.1325,
	"grad_norm": 2.98067569732666,
	"learning_rate": 3.995065789473683e-06,
	"loss": 0.174,
	"step": 1325
	},
	{
	"epoch": 0.135,
	"grad_norm": 2.8287429809570312,
	"learning_rate": 3.983552631578947e-06,
	"loss": 0.1631,
	"step": 1350
	},
	{
	"epoch": 0.1375,
	"grad_norm": 2.6438794136047363,
	"learning_rate": 3.97203947368421e-06,
	"loss": 0.1475,
	"step": 1375
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.513123035430908,
	"learning_rate": 3.960526315789473e-06,
	"loss": 0.1457,
	"step": 1400
	},
	{
	"epoch": 0.1425,
	"grad_norm": 2.4688916206359863,
	"learning_rate": 3.949013157894737e-06,
	"loss": 0.1375,
	"step": 1425
	},
	{
	"epoch": 0.145,
	"grad_norm": 4.005943775177002,
	"learning_rate": 3.9375e-06,
	"loss": 0.1623,
	"step": 1450
	},
	{
	"epoch": 0.1475,
	"grad_norm": 2.91786789894104,
	"learning_rate": 3.925986842105263e-06,
	"loss": 0.1701,
	"step": 1475
	},
	{
	"epoch": 0.15,
	"grad_norm": 3.5332415103912354,
	"learning_rate": 3.914473684210526e-06,
	"loss": 0.1973,
	"step": 1500
	},
	{
	"epoch": 0.15,
	"eval_loss": 0.17469166219234467,
	"eval_runtime": 4132.0041,
	"eval_samples_per_second": 3.299,
	"eval_steps_per_second": 0.412,
	"eval_wer": 12.377697973542453,
	"step": 1500
	},
	{
	"epoch": 0.1525,
	"grad_norm": 4.05070686340332,
	"learning_rate": 3.902960526315789e-06,
	"loss": 0.1796,
	"step": 1525
	},
	{
	"epoch": 0.155,
	"grad_norm": 2.989821195602417,
	"learning_rate": 3.891447368421052e-06,
	"loss": 0.1561,
	"step": 1550
	},
	{
	"epoch": 0.1575,
	"grad_norm": 2.9603219032287598,
	"learning_rate": 3.879934210526315e-06,
	"loss": 0.1609,
	"step": 1575
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.2663583755493164,
	"learning_rate": 3.868421052631579e-06,
	"loss": 0.1833,
	"step": 1600
	},
	{
	"epoch": 0.1625,
	"grad_norm": 3.459775686264038,
	"learning_rate": 3.856907894736842e-06,
	"loss": 0.1727,
	"step": 1625
	},
	{
	"epoch": 0.165,
	"grad_norm": 3.427720069885254,
	"learning_rate": 3.845394736842105e-06,
	"loss": 0.181,
	"step": 1650
	},
	{
	"epoch": 0.1675,
	"grad_norm": 4.471118450164795,
	"learning_rate": 3.833881578947368e-06,
	"loss": 0.1536,
	"step": 1675
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.1428306102752686,
	"learning_rate": 3.822368421052632e-06,
	"loss": 0.1372,
	"step": 1700
	},
	{
	"epoch": 1.0021,
	"grad_norm": 2.8270132541656494,
	"learning_rate": 3.8108552631578944e-06,
	"loss": 0.1454,
	"step": 1725
	},
	{
	"epoch": 1.0046,
	"grad_norm": 3.0873589515686035,
	"learning_rate": 3.799342105263158e-06,
	"loss": 0.1303,
	"step": 1750
	},
	{
	"epoch": 1.0071,
	"grad_norm": 3.187711000442505,
	"learning_rate": 3.787828947368421e-06,
	"loss": 0.1383,
	"step": 1775
	},
	{
	"epoch": 1.0096,
	"grad_norm": 3.1710643768310547,
	"learning_rate": 3.776315789473684e-06,
	"loss": 0.1626,
	"step": 1800
	},
	{
	"epoch": 1.0121,
	"grad_norm": 3.4516818523406982,
	"learning_rate": 3.7648026315789473e-06,
	"loss": 0.1405,
	"step": 1825
	},
	{
	"epoch": 1.0146,
	"grad_norm": 2.930408000946045,
	"learning_rate": 3.7532894736842103e-06,
	"loss": 0.143,
	"step": 1850
	},
	{
	"epoch": 1.0171,
	"grad_norm": 3.066941261291504,
	"learning_rate": 3.7417763157894733e-06,
	"loss": 0.1437,
	"step": 1875
	},
	{
	"epoch": 1.0196,
	"grad_norm": 3.389916181564331,
	"learning_rate": 3.7302631578947363e-06,
	"loss": 0.1289,
	"step": 1900
	},
	{
	"epoch": 1.0221,
	"grad_norm": 3.048574209213257,
	"learning_rate": 3.7187499999999998e-06,
	"loss": 0.1415,
	"step": 1925
	},
	{
	"epoch": 1.0246,
	"grad_norm": 2.5267295837402344,
	"learning_rate": 3.7072368421052628e-06,
	"loss": 0.1386,
	"step": 1950
	},
	{
	"epoch": 1.0271,
	"grad_norm": 3.151757001876831,
	"learning_rate": 3.6957236842105258e-06,
	"loss": 0.1436,
	"step": 1975
	},
	{
	"epoch": 1.0296,
	"grad_norm": 3.629039764404297,
	"learning_rate": 3.684210526315789e-06,
	"loss": 0.1353,
	"step": 2000
	},
	{
	"epoch": 1.0296,
	"eval_loss": 0.1527385264635086,
	"eval_runtime": 4116.9756,
	"eval_samples_per_second": 3.311,
	"eval_steps_per_second": 0.414,
	"eval_wer": 10.719520685990693,
	"step": 2000
	},
	{
	"epoch": 1.0321,
	"grad_norm": 1.8788173198699951,
	"learning_rate": 3.6726973684210522e-06,
	"loss": 0.1322,
	"step": 2025
	},
	{
	"epoch": 1.0346,
	"grad_norm": 2.587233066558838,
	"learning_rate": 3.6611842105263157e-06,
	"loss": 0.1176,
	"step": 2050
	},
	{
	"epoch": 1.0371,
	"grad_norm": 4.001532077789307,
	"learning_rate": 3.6496710526315787e-06,
	"loss": 0.1233,
	"step": 2075
	},
	{
	"epoch": 1.0396,
	"grad_norm": 3.3947739601135254,
	"learning_rate": 3.638157894736842e-06,
	"loss": 0.1188,
	"step": 2100
	},
	{
	"epoch": 1.0421,
	"grad_norm": 3.4743120670318604,
	"learning_rate": 3.626644736842105e-06,
	"loss": 0.1318,
	"step": 2125
	},
	{
	"epoch": 1.0446,
	"grad_norm": 2.9288718700408936,
	"learning_rate": 3.615131578947368e-06,
	"loss": 0.1224,
	"step": 2150
	},
	{
	"epoch": 1.0471,
	"grad_norm": 2.6081368923187256,
	"learning_rate": 3.603618421052631e-06,
	"loss": 0.1232,
	"step": 2175
	},
	{
	"epoch": 1.0496,
	"grad_norm": 2.4068429470062256,
	"learning_rate": 3.5921052631578946e-06,
	"loss": 0.1073,
	"step": 2200
	},
	{
	"epoch": 1.0521,
	"grad_norm": 3.049074411392212,
	"learning_rate": 3.5805921052631576e-06,
	"loss": 0.1071,
	"step": 2225
	},
	{
	"epoch": 1.0546,
	"grad_norm": 2.0809032917022705,
	"learning_rate": 3.5690789473684206e-06,
	"loss": 0.1217,
	"step": 2250
	},
	{
	"epoch": 1.0571,
	"grad_norm": 3.0854332447052,
	"learning_rate": 3.5575657894736836e-06,
	"loss": 0.1332,
	"step": 2275
	},
	{
	"epoch": 1.0596,
	"grad_norm": 3.580145835876465,
	"learning_rate": 3.546052631578947e-06,
	"loss": 0.131,
	"step": 2300
	},
	{
	"epoch": 1.0621,
	"grad_norm": 3.8924479484558105,
	"learning_rate": 3.53453947368421e-06,
	"loss": 0.136,
	"step": 2325
	},
	{
	"epoch": 1.0646,
	"grad_norm": 2.8398871421813965,
	"learning_rate": 3.523026315789473e-06,
	"loss": 0.1081,
	"step": 2350
	},
	{
	"epoch": 1.0671,
	"grad_norm": 3.007026195526123,
	"learning_rate": 3.511513157894737e-06,
	"loss": 0.1115,
	"step": 2375
	},
	{
	"epoch": 1.0695999999999999,
	"grad_norm": 1.5712552070617676,
	"learning_rate": 3.5e-06,
	"loss": 0.1183,
	"step": 2400
	},
	{
	"epoch": 1.0721,
	"grad_norm": 3.844963312149048,
	"learning_rate": 3.488486842105263e-06,
	"loss": 0.113,
	"step": 2425
	},
	{
	"epoch": 1.0746,
	"grad_norm": 2.8939759731292725,
	"learning_rate": 3.476973684210526e-06,
	"loss": 0.1115,
	"step": 2450
	},
	{
	"epoch": 1.0771,
	"grad_norm": 1.8150537014007568,
	"learning_rate": 3.4654605263157894e-06,
	"loss": 0.1117,
	"step": 2475
	},
	{
	"epoch": 1.0796000000000001,
	"grad_norm": 2.839418649673462,
	"learning_rate": 3.4539473684210524e-06,
	"loss": 0.1065,
	"step": 2500
	},
	{
	"epoch": 1.0796000000000001,
	"eval_loss": 0.1456422209739685,
	"eval_runtime": 4133.4016,
	"eval_samples_per_second": 3.298,
	"eval_steps_per_second": 0.412,
	"eval_wer": 9.869361281102277,
	"step": 2500
	},
	{
	"epoch": 1.0821,
	"grad_norm": 3.4274985790252686,
	"learning_rate": 3.4424342105263154e-06,
	"loss": 0.1067,
	"step": 2525
	},
	{
	"epoch": 1.0846,
	"grad_norm": 2.2946057319641113,
	"learning_rate": 3.4309210526315784e-06,
	"loss": 0.1038,
	"step": 2550
	},
	{
	"epoch": 1.0871,
	"grad_norm": 2.5364551544189453,
	"learning_rate": 3.419407894736842e-06,
	"loss": 0.1073,
	"step": 2575
	},
	{
	"epoch": 1.0896,
	"grad_norm": 2.9779515266418457,
	"learning_rate": 3.4083552631578944e-06,
	"loss": 0.1067,
	"step": 2600
	},
	{
	"epoch": 1.0921,
	"grad_norm": 2.502685308456421,
	"learning_rate": 3.3968421052631574e-06,
	"loss": 0.1229,
	"step": 2625
	},
	{
	"epoch": 1.0946,
	"grad_norm": 2.181756019592285,
	"learning_rate": 3.3853289473684205e-06,
	"loss": 0.1071,
	"step": 2650
	},
	{
	"epoch": 1.0971,
	"grad_norm": 2.428738594055176,
	"learning_rate": 3.3738157894736843e-06,
	"loss": 0.101,
	"step": 2675
	},
	{
	"epoch": 1.0996,
	"grad_norm": 3.797952651977539,
	"learning_rate": 3.3623026315789473e-06,
	"loss": 0.1198,
	"step": 2700
	},
	{
	"epoch": 1.1021,
	"grad_norm": 2.9902758598327637,
	"learning_rate": 3.3507894736842103e-06,
	"loss": 0.1013,
	"step": 2725
	},
	{
	"epoch": 1.1046,
	"grad_norm": 3.0514307022094727,
	"learning_rate": 3.3392763157894734e-06,
	"loss": 0.1075,
	"step": 2750
	},
	{
	"epoch": 1.1071,
	"grad_norm": 3.2877554893493652,
	"learning_rate": 3.327763157894737e-06,
	"loss": 0.1059,
	"step": 2775
	},
	{
	"epoch": 1.1096,
	"grad_norm": 2.3952691555023193,
	"learning_rate": 3.31625e-06,
	"loss": 0.0926,
	"step": 2800
	},
	{
	"epoch": 1.1121,
	"grad_norm": 2.2840464115142822,
	"learning_rate": 3.304736842105263e-06,
	"loss": 0.1048,
	"step": 2825
	},
	{
	"epoch": 1.1146,
	"grad_norm": 2.7062416076660156,
	"learning_rate": 3.293223684210526e-06,
	"loss": 0.1049,
	"step": 2850
	},
	{
	"epoch": 1.1171,
	"grad_norm": 2.971315860748291,
	"learning_rate": 3.2817105263157893e-06,
	"loss": 0.1073,
	"step": 2875
	},
	{
	"epoch": 1.1196,
	"grad_norm": 2.8689844608306885,
	"learning_rate": 3.2701973684210523e-06,
	"loss": 0.1141,
	"step": 2900
	},
	{
	"epoch": 1.1221,
	"grad_norm": 3.6150734424591064,
	"learning_rate": 3.2586842105263153e-06,
	"loss": 0.1066,
	"step": 2925
	},
	{
	"epoch": 1.1246,
	"grad_norm": 2.3004024028778076,
	"learning_rate": 3.2471710526315783e-06,
	"loss": 0.1248,
	"step": 2950
	},
	{
	"epoch": 1.1271,
	"grad_norm": 2.5995240211486816,
	"learning_rate": 3.2356578947368417e-06,
	"loss": 0.0972,
	"step": 2975
	},
	{
	"epoch": 1.1296,
	"grad_norm": 2.957960367202759,
	"learning_rate": 3.224144736842105e-06,
	"loss": 0.106,
	"step": 3000
	},
	{
	"epoch": 1.1296,
	"eval_loss": 0.13624447584152222,
	"eval_runtime": 4123.4662,
	"eval_samples_per_second": 3.305,
	"eval_steps_per_second": 0.413,
	"eval_wer": 9.09249148008355,
	"step": 3000
	},
	{
	"epoch": 1.1320999999999999,
	"grad_norm": 2.653007984161377,
	"learning_rate": 3.212631578947368e-06,
	"loss": 0.1083,
	"step": 3025
	},
	{
	"epoch": 1.1346,
	"grad_norm": 2.6895744800567627,
	"learning_rate": 3.2011184210526316e-06,
	"loss": 0.1119,
	"step": 3050
	},
	{
	"epoch": 1.1371,
	"grad_norm": 2.1507463455200195,
	"learning_rate": 3.1896052631578946e-06,
	"loss": 0.0944,
	"step": 3075
	},
	{
	"epoch": 1.1396,
	"grad_norm": 3.61063289642334,
	"learning_rate": 3.1780921052631576e-06,
	"loss": 0.095,
	"step": 3100
	},
	{
	"epoch": 1.1421000000000001,
	"grad_norm": 2.570584774017334,
	"learning_rate": 3.1665789473684206e-06,
	"loss": 0.1076,
	"step": 3125
	},
	{
	"epoch": 1.1446,
	"grad_norm": 3.05507230758667,
	"learning_rate": 3.155065789473684e-06,
	"loss": 0.1175,
	"step": 3150
	},
	{
	"epoch": 1.1471,
	"grad_norm": 2.82817006111145,
	"learning_rate": 3.143552631578947e-06,
	"loss": 0.0965,
	"step": 3175
	},
	{
	"epoch": 1.1496,
	"grad_norm": 2.336517572402954,
	"learning_rate": 3.13203947368421e-06,
	"loss": 0.0955,
	"step": 3200
	},
	{
	"epoch": 1.1521,
	"grad_norm": 3.8640036582946777,
	"learning_rate": 3.120526315789473e-06,
	"loss": 0.1044,
	"step": 3225
	},
	{
	"epoch": 1.1546,
	"grad_norm": 3.7205588817596436,
	"learning_rate": 3.1090131578947366e-06,
	"loss": 0.1013,
	"step": 3250
	},
	{
	"epoch": 1.1571,
	"grad_norm": 2.1962900161743164,
	"learning_rate": 3.0974999999999996e-06,
	"loss": 0.0978,
	"step": 3275
	},
	{
	"epoch": 1.1596,
	"grad_norm": 3.3310599327087402,
	"learning_rate": 3.0859868421052626e-06,
	"loss": 0.1089,
	"step": 3300
	},
	{
	"epoch": 1.1621,
	"grad_norm": 2.699566602706909,
	"learning_rate": 3.074473684210526e-06,
	"loss": 0.1078,
	"step": 3325
	},
	{
	"epoch": 1.1646,
	"grad_norm": 3.79370379447937,
	"learning_rate": 3.0629605263157894e-06,
	"loss": 0.1118,
	"step": 3350
	},
	{
	"epoch": 1.1671,
	"grad_norm": 1.9741384983062744,
	"learning_rate": 3.0514473684210525e-06,
	"loss": 0.1119,
	"step": 3375
	},
	{
	"epoch": 1.1696,
	"grad_norm": 2.29034686088562,
	"learning_rate": 3.0399342105263155e-06,
	"loss": 0.1015,
	"step": 3400
	},
	{
	"epoch": 2.0017,
	"grad_norm": 2.011443853378296,
	"learning_rate": 3.028421052631579e-06,
	"loss": 0.0708,
	"step": 3425
	},
	{
	"epoch": 2.0042,
	"grad_norm": 1.2196134328842163,
	"learning_rate": 3.016907894736842e-06,
	"loss": 0.0668,
	"step": 3450
	},
	{
	"epoch": 2.0067,
	"grad_norm": 2.863933563232422,
	"learning_rate": 3.005394736842105e-06,
	"loss": 0.0673,
	"step": 3475
	},
	{
	"epoch": 2.0092,
	"grad_norm": 1.9341013431549072,
	"learning_rate": 2.9938815789473684e-06,
	"loss": 0.0718,
	"step": 3500
	},
	{
	"epoch": 2.0092,
	"eval_loss": 0.13255682587623596,
	"eval_runtime": 4133.4892,
	"eval_samples_per_second": 3.297,
	"eval_steps_per_second": 0.412,
	"eval_wer": 8.542819451060867,
	"step": 3500
	},
	{
	"epoch": 2.0117,
	"grad_norm": 2.795734405517578,
	"learning_rate": 2.9823684210526314e-06,
	"loss": 0.071,
	"step": 3525
	},
	{
	"epoch": 2.0142,
	"grad_norm": 1.982479214668274,
	"learning_rate": 2.9708552631578944e-06,
	"loss": 0.0629,
	"step": 3550
	},
	{
	"epoch": 2.0167,
	"grad_norm": 3.168161630630493,
	"learning_rate": 2.9593421052631574e-06,
	"loss": 0.0593,
	"step": 3575
	},
	{
	"epoch": 2.0192,
	"grad_norm": 2.259500741958618,
	"learning_rate": 2.947828947368421e-06,
	"loss": 0.0696,
	"step": 3600
	},
	{
	"epoch": 2.0217,
	"grad_norm": 2.1626062393188477,
	"learning_rate": 2.936315789473684e-06,
	"loss": 0.0687,
	"step": 3625
	},
	{
	"epoch": 2.0242,
	"grad_norm": 2.4419946670532227,
	"learning_rate": 2.924802631578947e-06,
	"loss": 0.0686,
	"step": 3650
	},
	{
	"epoch": 2.0267,
	"grad_norm": 2.445758819580078,
	"learning_rate": 2.9132894736842103e-06,
	"loss": 0.0631,
	"step": 3675
	},
	{
	"epoch": 2.0292,
	"grad_norm": 2.614476442337036,
	"learning_rate": 2.9017763157894737e-06,
	"loss": 0.0647,
	"step": 3700
	},
	{
	"epoch": 2.0317,
	"grad_norm": 1.4166672229766846,
	"learning_rate": 2.8902631578947367e-06,
	"loss": 0.0653,
	"step": 3725
	},
	{
	"epoch": 2.0342,
	"grad_norm": 1.8435245752334595,
	"learning_rate": 2.8787499999999998e-06,
	"loss": 0.0567,
	"step": 3750
	},
	{
	"epoch": 2.0367,
	"grad_norm": 1.8179950714111328,
	"learning_rate": 2.867236842105263e-06,
	"loss": 0.0636,
	"step": 3775
	},
	{
	"epoch": 2.0392,
	"grad_norm": 1.487122893333435,
	"learning_rate": 2.855723684210526e-06,
	"loss": 0.0598,
	"step": 3800
	},
	{
	"epoch": 2.0417,
	"grad_norm": 2.9211690425872803,
	"learning_rate": 2.8442105263157892e-06,
	"loss": 0.0599,
	"step": 3825
	},
	{
	"epoch": 2.0442,
	"grad_norm": 2.5018093585968018,
	"learning_rate": 2.8326973684210522e-06,
	"loss": 0.055,
	"step": 3850
	},
	{
	"epoch": 2.0467,
	"grad_norm": 2.186502456665039,
	"learning_rate": 2.8211842105263157e-06,
	"loss": 0.0533,
	"step": 3875
	},
	{
	"epoch": 2.0492,
	"grad_norm": 1.039233922958374,
	"learning_rate": 2.8096710526315787e-06,
	"loss": 0.0514,
	"step": 3900
	},
	{
	"epoch": 2.0517,
	"grad_norm": 1.871267557144165,
	"learning_rate": 2.7981578947368417e-06,
	"loss": 0.0512,
	"step": 3925
	},
	{
	"epoch": 2.0542,
	"grad_norm": 2.0849483013153076,
	"learning_rate": 2.7866447368421047e-06,
	"loss": 0.0579,
	"step": 3950
	},
	{
	"epoch": 2.0567,
	"grad_norm": 1.6887531280517578,
	"learning_rate": 2.775131578947368e-06,
	"loss": 0.0575,
	"step": 3975
	},
	{
	"epoch": 2.0592,
	"grad_norm": 1.88097083568573,
	"learning_rate": 2.763618421052631e-06,
	"loss": 0.0683,
	"step": 4000
	},
	{
	"epoch": 2.0592,
	"eval_loss": 0.1342601627111435,
	"eval_runtime": 4125.8373,
	"eval_samples_per_second": 3.304,
	"eval_steps_per_second": 0.413,
	"eval_wer": 8.485103888013485,
	"step": 4000
	},
	{
	"epoch": 2.0617,
	"grad_norm": 2.1877427101135254,
	"learning_rate": 2.7521052631578946e-06,
	"loss": 0.0614,
	"step": 4025
	},
	{
	"epoch": 2.0642,
	"grad_norm": 1.4176368713378906,
	"learning_rate": 2.740592105263158e-06,
	"loss": 0.0559,
	"step": 4050
	},
	{
	"epoch": 2.0667,
	"grad_norm": 2.4362101554870605,
	"learning_rate": 2.729078947368421e-06,
	"loss": 0.0593,
	"step": 4075
	},
	{
	"epoch": 2.0692,
	"grad_norm": 1.8663033246994019,
	"learning_rate": 2.717565789473684e-06,
	"loss": 0.0591,
	"step": 4100
	},
	{
	"epoch": 2.0717,
	"grad_norm": 1.627626657485962,
	"learning_rate": 2.706052631578947e-06,
	"loss": 0.0637,
	"step": 4125
	},
	{
	"epoch": 2.0742,
	"grad_norm": 2.2072463035583496,
	"learning_rate": 2.6945394736842105e-06,
	"loss": 0.0571,
	"step": 4150
	},
	{
	"epoch": 2.0767,
	"grad_norm": 1.7411611080169678,
	"learning_rate": 2.6830263157894735e-06,
	"loss": 0.0588,
	"step": 4175
	},
	{
	"epoch": 2.0792,
	"grad_norm": 1.324000358581543,
	"learning_rate": 2.6715131578947365e-06,
	"loss": 0.0482,
	"step": 4200
	},
	{
	"epoch": 2.0817,
	"grad_norm": 1.4138795137405396,
	"learning_rate": 2.6599999999999995e-06,
	"loss": 0.0477,
	"step": 4225
	},
	{
	"epoch": 2.0842,
	"grad_norm": 2.403547763824463,
	"learning_rate": 2.648486842105263e-06,
	"loss": 0.0558,
	"step": 4250
	},
	{
	"epoch": 2.0867,
	"grad_norm": 1.3718703985214233,
	"learning_rate": 2.636973684210526e-06,
	"loss": 0.0546,
	"step": 4275
	},
	{
	"epoch": 2.0892,
	"grad_norm": 2.296445369720459,
	"learning_rate": 2.625460526315789e-06,
	"loss": 0.0554,
	"step": 4300
	},
	{
	"epoch": 2.0917,
	"grad_norm": 2.3471312522888184,
	"learning_rate": 2.613947368421052e-06,
	"loss": 0.051,
	"step": 4325
	},
	{
	"epoch": 2.0942,
	"grad_norm": 1.6061975955963135,
	"learning_rate": 2.602434210526316e-06,
	"loss": 0.0548,
	"step": 4350
	},
	{
	"epoch": 2.0967,
	"grad_norm": 2.979126453399658,
	"learning_rate": 2.590921052631579e-06,
	"loss": 0.0492,
	"step": 4375
	},
	{
	"epoch": 2.0992,
	"grad_norm": 1.7963169813156128,
	"learning_rate": 2.579407894736842e-06,
	"loss": 0.0514,
	"step": 4400
	},
	{
	"epoch": 2.1017,
	"grad_norm": 2.4996039867401123,
	"learning_rate": 2.5678947368421053e-06,
	"loss": 0.0399,
	"step": 4425
	},
	{
	"epoch": 2.1042,
	"grad_norm": 1.7498191595077515,
	"learning_rate": 2.5563815789473683e-06,
	"loss": 0.0522,
	"step": 4450
	},
	{
	"epoch": 2.1067,
	"grad_norm": 1.413889765739441,
	"learning_rate": 2.5448684210526313e-06,
	"loss": 0.0517,
	"step": 4475
	},
	{
	"epoch": 2.1092,
	"grad_norm": 2.0956978797912598,
	"learning_rate": 2.5333552631578943e-06,
	"loss": 0.0482,
	"step": 4500
	},
	{
	"epoch": 2.1092,
	"eval_loss": 0.1336347758769989,
	"eval_runtime": 4119.9162,
	"eval_samples_per_second": 3.308,
	"eval_steps_per_second": 0.414,
	"eval_wer": 8.104914067939463,
	"step": 4500
	},
	{
	"epoch": 2.1117,
	"grad_norm": 3.138298749923706,
	"learning_rate": 2.5218421052631578e-06,
	"loss": 0.0568,
	"step": 4525
	},
	{
	"epoch": 2.1142,
	"grad_norm": 1.4262772798538208,
	"learning_rate": 2.510328947368421e-06,
	"loss": 0.0475,
	"step": 4550
	},
	{
	"epoch": 2.1167,
	"grad_norm": 3.3500139713287354,
	"learning_rate": 2.498815789473684e-06,
	"loss": 0.0474,
	"step": 4575
	},
	{
	"epoch": 2.1192,
	"grad_norm": 4.509912014007568,
	"learning_rate": 2.4873026315789472e-06,
	"loss": 0.0586,
	"step": 4600
	},
	{
	"epoch": 2.1217,
	"grad_norm": 2.1386468410491943,
	"learning_rate": 2.4757894736842102e-06,
	"loss": 0.062,
	"step": 4625
	},
	{
	"epoch": 2.1242,
	"grad_norm": 1.1121129989624023,
	"learning_rate": 2.4642763157894733e-06,
	"loss": 0.0563,
	"step": 4650
	},
	{
	"epoch": 2.1267,
	"grad_norm": 1.677538514137268,
	"learning_rate": 2.4527631578947363e-06,
	"loss": 0.0519,
	"step": 4675
	},
	{
	"epoch": 2.1292,
	"grad_norm": 1.579513430595398,
	"learning_rate": 2.44125e-06,
	"loss": 0.0544,
	"step": 4700
	},
	{
	"epoch": 2.1317,
	"grad_norm": 2.1100914478302,
	"learning_rate": 2.429736842105263e-06,
	"loss": 0.0578,
	"step": 4725
	},
	{
	"epoch": 2.1342,
	"grad_norm": 1.779682993888855,
	"learning_rate": 2.418223684210526e-06,
	"loss": 0.0486,
	"step": 4750
	},
	{
	"epoch": 2.1367,
	"grad_norm": 1.7443439960479736,
	"learning_rate": 2.4067105263157896e-06,
	"loss": 0.0534,
	"step": 4775
	},
	{
	"epoch": 2.1391999999999998,
	"grad_norm": 1.9388935565948486,
	"learning_rate": 2.3951973684210526e-06,
	"loss": 0.0516,
	"step": 4800
	},
	{
	"epoch": 2.1417,
	"grad_norm": 1.82517409324646,
	"learning_rate": 2.3836842105263156e-06,
	"loss": 0.0451,
	"step": 4825
	},
	{
	"epoch": 2.1442,
	"grad_norm": 1.9101967811584473,
	"learning_rate": 2.3721710526315786e-06,
	"loss": 0.0546,
	"step": 4850
	},
	{
	"epoch": 2.1467,
	"grad_norm": 1.7242915630340576,
	"learning_rate": 2.360657894736842e-06,
	"loss": 0.0495,
	"step": 4875
	},
	{
	"epoch": 2.1492,
	"grad_norm": 1.9127079248428345,
	"learning_rate": 2.349144736842105e-06,
	"loss": 0.0465,
	"step": 4900
	},
	{
	"epoch": 2.1517,
	"grad_norm": 2.7716519832611084,
	"learning_rate": 2.337631578947368e-06,
	"loss": 0.0493,
	"step": 4925
	},
	{
	"epoch": 2.1542,
	"grad_norm": 3.141706705093384,
	"learning_rate": 2.326118421052631e-06,
	"loss": 0.046,
	"step": 4950
	},
	{
	"epoch": 2.1567,
	"grad_norm": 2.2624270915985107,
	"learning_rate": 2.3146052631578945e-06,
	"loss": 0.0522,
	"step": 4975
	},
	{
	"epoch": 2.1592000000000002,
	"grad_norm": 1.2777652740478516,
	"learning_rate": 2.3030921052631575e-06,
	"loss": 0.0548,
	"step": 5000
	},
	{
	"epoch": 2.1592000000000002,
	"eval_loss": 0.13162237405776978,
	"eval_runtime": 4127.2085,
	"eval_samples_per_second": 3.302,
	"eval_steps_per_second": 0.413,
	"eval_wer": 7.9244384184103485,
	"step": 5000
	},
	{
	"epoch": 2.1617,
	"grad_norm": 2.106818675994873,
	"learning_rate": 2.2915789473684206e-06,
	"loss": 0.0527,
	"step": 5025
	},
	{
	"epoch": 2.1642,
	"grad_norm": 2.2705554962158203,
	"learning_rate": 2.2800657894736844e-06,
	"loss": 0.0483,
	"step": 5050
	},
	{
	"epoch": 2.1667,
	"grad_norm": 1.5468271970748901,
	"learning_rate": 2.2685526315789474e-06,
	"loss": 0.0516,
	"step": 5075
	},
	{
	"epoch": 2.1692,
	"grad_norm": 2.0331270694732666,
	"learning_rate": 2.2570394736842104e-06,
	"loss": 0.0551,
	"step": 5100
	},
	{
	"epoch": 3.0013,
	"grad_norm": 1.107423186302185,
	"learning_rate": 2.2455263157894734e-06,
	"loss": 0.0434,
	"step": 5125
	},
	{
	"epoch": 3.0038,
	"grad_norm": 3.9103100299835205,
	"learning_rate": 2.234013157894737e-06,
	"loss": 0.0362,
	"step": 5150
	},
	{
	"epoch": 3.0063,
	"grad_norm": 1.193088173866272,
	"learning_rate": 2.2225e-06,
	"loss": 0.0327,
	"step": 5175
	},
	{
	"epoch": 3.0088,
	"grad_norm": 1.0432852506637573,
	"learning_rate": 2.210986842105263e-06,
	"loss": 0.0326,
	"step": 5200
	},
	{
	"epoch": 3.0113,
	"grad_norm": 0.7116020917892456,
	"learning_rate": 2.199473684210526e-06,
	"loss": 0.0296,
	"step": 5225
	},
	{
	"epoch": 3.0138,
	"grad_norm": 2.009617805480957,
	"learning_rate": 2.1879605263157894e-06,
	"loss": 0.0367,
	"step": 5250
	},
	{
	"epoch": 3.0163,
	"grad_norm": 1.9047244787216187,
	"learning_rate": 2.1764473684210524e-06,
	"loss": 0.0347,
	"step": 5275
	},
	{
	"epoch": 3.0188,
	"grad_norm": 1.630439043045044,
	"learning_rate": 2.164934210526316e-06,
	"loss": 0.0291,
	"step": 5300
	},
	{
	"epoch": 3.0213,
	"grad_norm": 1.4158824682235718,
	"learning_rate": 2.153421052631579e-06,
	"loss": 0.0321,
	"step": 5325
	},
	{
	"epoch": 3.0238,
	"grad_norm": 1.2792794704437256,
	"learning_rate": 2.141907894736842e-06,
	"loss": 0.0338,
	"step": 5350
	},
	{
	"epoch": 3.0263,
	"grad_norm": 1.6505346298217773,
	"learning_rate": 2.1303947368421053e-06,
	"loss": 0.0348,
	"step": 5375
	},
	{
	"epoch": 3.0288,
	"grad_norm": 1.5343618392944336,
	"learning_rate": 2.1188815789473683e-06,
	"loss": 0.0318,
	"step": 5400
	},
	{
	"epoch": 3.0313,
	"grad_norm": 1.8325493335723877,
	"learning_rate": 2.1073684210526313e-06,
	"loss": 0.0333,
	"step": 5425
	},
	{
	"epoch": 3.0338,
	"grad_norm": 1.7224900722503662,
	"learning_rate": 2.0958552631578943e-06,
	"loss": 0.0322,
	"step": 5450
	},
	{
	"epoch": 3.0362999999999998,
	"grad_norm": 1.3443737030029297,
	"learning_rate": 2.0843421052631577e-06,
	"loss": 0.0304,
	"step": 5475
	},
	{
	"epoch": 3.0388,
	"grad_norm": 1.3260679244995117,
	"learning_rate": 2.0728289473684207e-06,
	"loss": 0.0282,
	"step": 5500
	},
	{
	"epoch": 3.0388,
	"eval_loss": 0.13909843564033508,
	"eval_runtime": 4135.2147,
	"eval_samples_per_second": 3.296,
	"eval_steps_per_second": 0.412,
	"eval_wer": 7.8181684927992965,
	"step": 5500
	},
	{
	"epoch": 3.0413,
	"grad_norm": 1.0075204372406006,
	"learning_rate": 2.061315789473684e-06,
	"loss": 0.0308,
	"step": 5525
	},
	{
	"epoch": 3.0438,
	"grad_norm": 1.0206842422485352,
	"learning_rate": 2.049802631578947e-06,
	"loss": 0.0306,
	"step": 5550
	},
	{
	"epoch": 3.0463,
	"grad_norm": 1.411301851272583,
	"learning_rate": 2.03828947368421e-06,
	"loss": 0.0243,
	"step": 5575
	},
	{
	"epoch": 3.0488,
	"grad_norm": 0.959862470626831,
	"learning_rate": 2.0267763157894732e-06,
	"loss": 0.0272,
	"step": 5600
	},
	{
	"epoch": 3.0513,
	"grad_norm": 2.2999842166900635,
	"learning_rate": 2.0152631578947367e-06,
	"loss": 0.0246,
	"step": 5625
	},
	{
	"epoch": 3.0538,
	"grad_norm": 2.890066146850586,
	"learning_rate": 2.00375e-06,
	"loss": 0.0299,
	"step": 5650
	},
	{
	"epoch": 3.0563,
	"grad_norm": 1.7101376056671143,
	"learning_rate": 1.992236842105263e-06,
	"loss": 0.0322,
	"step": 5675
	},
	{
	"epoch": 3.0588,
	"grad_norm": 1.531943917274475,
	"learning_rate": 1.980723684210526e-06,
	"loss": 0.0345,
	"step": 5700
	},
	{
	"epoch": 3.0613,
	"grad_norm": 1.6334413290023804,
	"learning_rate": 1.969210526315789e-06,
	"loss": 0.032,
	"step": 5725
	},
	{
	"epoch": 3.0638,
	"grad_norm": 2.112278461456299,
	"learning_rate": 1.9576973684210526e-06,
	"loss": 0.0304,
	"step": 5750
	},
	{
	"epoch": 3.0663,
	"grad_norm": 1.7582517862319946,
	"learning_rate": 1.9461842105263156e-06,
	"loss": 0.0254,
	"step": 5775
	},
	{
	"epoch": 3.0688,
	"grad_norm": 1.3391777276992798,
	"learning_rate": 1.934671052631579e-06,
	"loss": 0.0316,
	"step": 5800
	},
	{
	"epoch": 3.0713,
	"grad_norm": 0.8350562453269958,
	"learning_rate": 1.923157894736842e-06,
	"loss": 0.0329,
	"step": 5825
	},
	{
	"epoch": 3.0738,
	"grad_norm": 0.7084619402885437,
	"learning_rate": 1.911644736842105e-06,
	"loss": 0.0325,
	"step": 5850
	},
	{
	"epoch": 3.0763,
	"grad_norm": 1.2961277961730957,
	"learning_rate": 1.9001315789473683e-06,
	"loss": 0.0313,
	"step": 5875
	},
	{
	"epoch": 3.0788,
	"grad_norm": 1.032840371131897,
	"learning_rate": 1.8886184210526315e-06,
	"loss": 0.0224,
	"step": 5900
	},
	{
	"epoch": 3.0813,
	"grad_norm": 1.2073044776916504,
	"learning_rate": 1.8771052631578945e-06,
	"loss": 0.0215,
	"step": 5925
	},
	{
	"epoch": 3.0838,
	"grad_norm": 0.8210967779159546,
	"learning_rate": 1.8655921052631577e-06,
	"loss": 0.0258,
	"step": 5950
	},
	{
	"epoch": 3.0863,
	"grad_norm": 1.5273653268814087,
	"learning_rate": 1.854078947368421e-06,
	"loss": 0.0254,
	"step": 5975
	},
	{
	"epoch": 3.0888,
	"grad_norm": 3.194197177886963,
	"learning_rate": 1.8425657894736842e-06,
	"loss": 0.025,
	"step": 6000
	},
	{
	"epoch": 3.0888,
	"eval_loss": 0.14247554540634155,
	"eval_runtime": 4123.5746,
	"eval_samples_per_second": 3.305,
	"eval_steps_per_second": 0.413,
	"eval_wer": 7.940928579281029,
	"step": 6000
	},
	{
	"epoch": 3.0913,
	"grad_norm": 2.1373400688171387,
	"learning_rate": 1.8310526315789472e-06,
	"loss": 0.031,
	"step": 6025
	},
	{
	"epoch": 3.0938,
	"grad_norm": 1.0779415369033813,
	"learning_rate": 1.8195394736842104e-06,
	"loss": 0.024,
	"step": 6050
	},
	{
	"epoch": 3.0963,
	"grad_norm": 0.9637121558189392,
	"learning_rate": 1.8080263157894734e-06,
	"loss": 0.0282,
	"step": 6075
	},
	{
	"epoch": 3.0987999999999998,
	"grad_norm": 1.1645703315734863,
	"learning_rate": 1.7965131578947366e-06,
	"loss": 0.0278,
	"step": 6100
	},
	{
	"epoch": 3.1013,
	"grad_norm": 1.2814173698425293,
	"learning_rate": 1.7849999999999996e-06,
	"loss": 0.0199,
	"step": 6125
	},
	{
	"epoch": 3.1038,
	"grad_norm": 1.458809494972229,
	"learning_rate": 1.773486842105263e-06,
	"loss": 0.0264,
	"step": 6150
	},
	{
	"epoch": 3.1063,
	"grad_norm": 1.6669671535491943,
	"learning_rate": 1.7619736842105263e-06,
	"loss": 0.0272,
	"step": 6175
	},
	{
	"epoch": 3.1088,
	"grad_norm": 1.5049173831939697,
	"learning_rate": 1.7504605263157893e-06,
	"loss": 0.0243,
	"step": 6200
	},
	{
	"epoch": 3.1113,
	"grad_norm": 0.861107587814331,
	"learning_rate": 1.7389473684210525e-06,
	"loss": 0.0274,
	"step": 6225
	},
	{
	"epoch": 3.1138,
	"grad_norm": 1.0454998016357422,
	"learning_rate": 1.7274342105263155e-06,
	"loss": 0.0258,
	"step": 6250
	},
	{
	"epoch": 3.1163,
	"grad_norm": 1.7108014822006226,
	"learning_rate": 1.7159210526315788e-06,
	"loss": 0.0259,
	"step": 6275
	},
	{
	"epoch": 3.1188,
	"grad_norm": 0.8804712295532227,
	"learning_rate": 1.704407894736842e-06,
	"loss": 0.0255,
	"step": 6300
	},
	{
	"epoch": 3.1213,
	"grad_norm": 2.0050883293151855,
	"learning_rate": 1.6928947368421052e-06,
	"loss": 0.0304,
	"step": 6325
	},
	{
	"epoch": 3.1238,
	"grad_norm": 1.4400875568389893,
	"learning_rate": 1.6813815789473682e-06,
	"loss": 0.0333,
	"step": 6350
	},
	{
	"epoch": 3.1263,
	"grad_norm": 1.4423948526382446,
	"learning_rate": 1.6698684210526315e-06,
	"loss": 0.0279,
	"step": 6375
	},
	{
	"epoch": 3.1288,
	"grad_norm": 1.3972327709197998,
	"learning_rate": 1.6583552631578947e-06,
	"loss": 0.0255,
	"step": 6400
	},
	{
	"epoch": 3.1313,
	"grad_norm": 1.6908966302871704,
	"learning_rate": 1.6468421052631577e-06,
	"loss": 0.0267,
	"step": 6425
	},
	{
	"epoch": 3.1338,
	"grad_norm": 0.9540082216262817,
	"learning_rate": 1.635328947368421e-06,
	"loss": 0.0265,
	"step": 6450
	},
	{
	"epoch": 3.1363,
	"grad_norm": 1.41488778591156,
	"learning_rate": 1.6238157894736841e-06,
	"loss": 0.0224,
	"step": 6475
	},
	{
	"epoch": 3.1388,
	"grad_norm": 0.4790860116481781,
	"learning_rate": 1.6123026315789474e-06,
	"loss": 0.0274,
	"step": 6500
	},
	{
	"epoch": 3.1388,
	"eval_loss": 0.13914132118225098,
	"eval_runtime": 4133.8202,
	"eval_samples_per_second": 3.297,
	"eval_steps_per_second": 0.412,
	"eval_wer": 7.731137088204039,
	"step": 6500
	},
	{
	"epoch": 3.1413,
	"grad_norm": 2.5638585090637207,
	"learning_rate": 1.6007894736842104e-06,
	"loss": 0.025,
	"step": 6525
	},
	{
	"epoch": 3.1438,
	"grad_norm": 1.8847306966781616,
	"learning_rate": 1.5892763157894736e-06,
	"loss": 0.0294,
	"step": 6550
	},
	{
	"epoch": 3.1463,
	"grad_norm": 1.0196236371994019,
	"learning_rate": 1.5777631578947366e-06,
	"loss": 0.0255,
	"step": 6575
	},
	{
	"epoch": 3.1488,
	"grad_norm": 1.0703202486038208,
	"learning_rate": 1.5662499999999998e-06,
	"loss": 0.0246,
	"step": 6600
	},
	{
	"epoch": 3.1513,
	"grad_norm": 2.646519422531128,
	"learning_rate": 1.5547368421052628e-06,
	"loss": 0.0213,
	"step": 6625
	},
	{
	"epoch": 3.1538,
	"grad_norm": 1.7430530786514282,
	"learning_rate": 1.5432236842105263e-06,
	"loss": 0.0267,
	"step": 6650
	},
	{
	"epoch": 3.1563,
	"grad_norm": 1.0606240034103394,
	"learning_rate": 1.5317105263157895e-06,
	"loss": 0.0269,
	"step": 6675
	},
	{
	"epoch": 3.1588,
	"grad_norm": 1.4670476913452148,
	"learning_rate": 1.5201973684210525e-06,
	"loss": 0.0271,
	"step": 6700
	},
	{
	"epoch": 3.1612999999999998,
	"grad_norm": 2.345014810562134,
	"learning_rate": 1.5086842105263157e-06,
	"loss": 0.0252,
	"step": 6725
	},
	{
	"epoch": 3.1638,
	"grad_norm": 2.9098987579345703,
	"learning_rate": 1.4971710526315787e-06,
	"loss": 0.0272,
	"step": 6750
	},
	{
	"epoch": 3.1663,
	"grad_norm": 0.5682694911956787,
	"learning_rate": 1.485657894736842e-06,
	"loss": 0.0237,
	"step": 6775
	},
	{
	"epoch": 3.1688,
	"grad_norm": 1.4645904302597046,
	"learning_rate": 1.4746052631578947e-06,
	"loss": 0.0303,
	"step": 6800
	},
	{
	"epoch": 4.0009,
	"grad_norm": 1.3764489889144897,
	"learning_rate": 1.4630921052631578e-06,
	"loss": 0.0242,
	"step": 6825
	},
	{
	"epoch": 4.0034,
	"grad_norm": 0.8848748803138733,
	"learning_rate": 1.451578947368421e-06,
	"loss": 0.0163,
	"step": 6850
	},
	{
	"epoch": 4.0059,
	"grad_norm": 0.619125485420227,
	"learning_rate": 1.440065789473684e-06,
	"loss": 0.0188,
	"step": 6875
	},
	{
	"epoch": 4.0084,
	"grad_norm": 0.9328649044036865,
	"learning_rate": 1.4285526315789472e-06,
	"loss": 0.0173,
	"step": 6900
	},
	{
	"epoch": 4.0109,
	"grad_norm": 1.77474045753479,
	"learning_rate": 1.4170394736842104e-06,
	"loss": 0.0146,
	"step": 6925
	},
	{
	"epoch": 4.0134,
	"grad_norm": 1.3934537172317505,
	"learning_rate": 1.4055263157894737e-06,
	"loss": 0.0156,
	"step": 6950
	},
	{
	"epoch": 4.0159,
	"grad_norm": 1.2856354713439941,
	"learning_rate": 1.3940131578947367e-06,
	"loss": 0.0173,
	"step": 6975
	},
	{
	"epoch": 4.0184,
	"grad_norm": 2.1229758262634277,
	"learning_rate": 1.3824999999999999e-06,
	"loss": 0.0155,
	"step": 7000
	},
	{
	"epoch": 4.0184,
	"eval_loss": 0.14916160702705383,
	"eval_runtime": 4128.7355,
	"eval_samples_per_second": 3.301,
	"eval_steps_per_second": 0.413,
	"eval_wer": 7.697240646414307,
	"step": 7000
	},
	{
	"epoch": 4.0209,
	"grad_norm": 0.44512999057769775,
	"learning_rate": 1.3709868421052631e-06,
	"loss": 0.0153,
	"step": 7025
	},
	{
	"epoch": 4.0234,
	"grad_norm": 1.8791674375534058,
	"learning_rate": 1.3594736842105261e-06,
	"loss": 0.0165,
	"step": 7050
	},
	{
	"epoch": 4.0259,
	"grad_norm": 5.244405746459961,
	"learning_rate": 1.3479605263157894e-06,
	"loss": 0.0179,
	"step": 7075
	},
	{
	"epoch": 4.0284,
	"grad_norm": 1.1926153898239136,
	"learning_rate": 1.3364473684210526e-06,
	"loss": 0.0161,
	"step": 7100
	},
	{
	"epoch": 4.0309,
	"grad_norm": 1.1147819757461548,
	"learning_rate": 1.3249342105263158e-06,
	"loss": 0.015,
	"step": 7125
	},
	{
	"epoch": 4.0334,
	"grad_norm": 1.9370721578598022,
	"learning_rate": 1.3134210526315788e-06,
	"loss": 0.0142,
	"step": 7150
	},
	{
	"epoch": 4.0359,
	"grad_norm": 0.49344903230667114,
	"learning_rate": 1.301907894736842e-06,
	"loss": 0.0134,
	"step": 7175
	},
	{
	"epoch": 4.0384,
	"grad_norm": 1.8190902471542358,
	"learning_rate": 1.290394736842105e-06,
	"loss": 0.0168,
	"step": 7200
	},
	{
	"epoch": 4.0409,
	"grad_norm": 0.7560425400733948,
	"learning_rate": 1.2788815789473683e-06,
	"loss": 0.0143,
	"step": 7225
	},
	{
	"epoch": 4.0434,
	"grad_norm": 1.0451087951660156,
	"learning_rate": 1.2673684210526313e-06,
	"loss": 0.0149,
	"step": 7250
	},
	{
	"epoch": 4.0459,
	"grad_norm": 1.0334726572036743,
	"learning_rate": 1.2558552631578947e-06,
	"loss": 0.0136,
	"step": 7275
	},
	{
	"epoch": 4.0484,
	"grad_norm": 0.6531663537025452,
	"learning_rate": 1.244342105263158e-06,
	"loss": 0.0137,
	"step": 7300
	},
	{
	"epoch": 4.0509,
	"grad_norm": 0.8954887986183167,
	"learning_rate": 1.232828947368421e-06,
	"loss": 0.0118,
	"step": 7325
	},
	{
	"epoch": 4.0534,
	"grad_norm": 1.0640511512756348,
	"learning_rate": 1.2213157894736842e-06,
	"loss": 0.0126,
	"step": 7350
	},
	{
	"epoch": 4.0559,
	"grad_norm": 0.2824617922306061,
	"learning_rate": 1.2098026315789472e-06,
	"loss": 0.0139,
	"step": 7375
	},
	{
	"epoch": 4.0584,
	"grad_norm": 1.0095443725585938,
	"learning_rate": 1.1982894736842104e-06,
	"loss": 0.018,
	"step": 7400
	},
	{
	"epoch": 4.0609,
	"grad_norm": 1.1475225687026978,
	"learning_rate": 1.1867763157894734e-06,
	"loss": 0.0133,
	"step": 7425
	},
	{
	"epoch": 4.0634,
	"grad_norm": 1.5951991081237793,
	"learning_rate": 1.1752631578947369e-06,
	"loss": 0.013,
	"step": 7450
	},
	{
	"epoch": 4.0659,
	"grad_norm": 0.3482917249202728,
	"learning_rate": 1.1637499999999999e-06,
	"loss": 0.0154,
	"step": 7475
	},
	{
	"epoch": 4.0684,
	"grad_norm": 1.1572391986846924,
	"learning_rate": 1.152236842105263e-06,
	"loss": 0.0189,
	"step": 7500
	},
	{
	"epoch": 4.0684,
	"eval_loss": 0.15172211825847626,
	"eval_runtime": 4117.5679,
	"eval_samples_per_second": 3.31,
	"eval_steps_per_second": 0.414,
	"eval_wer": 7.656931364285977,
	"step": 7500
	},
	{
	"epoch": 4.0709,
	"grad_norm": 1.3942557573318481,
	"learning_rate": 1.140723684210526e-06,
	"loss": 0.0143,
	"step": 7525
	},
	{
	"epoch": 4.0734,
	"grad_norm": 0.8097572326660156,
	"learning_rate": 1.1292105263157893e-06,
	"loss": 0.0127,
	"step": 7550
	},
	{
	"epoch": 4.0759,
	"grad_norm": 0.740375816822052,
	"learning_rate": 1.1176973684210526e-06,
	"loss": 0.0124,
	"step": 7575
	},
	{
	"epoch": 4.0784,
	"grad_norm": 0.8702480792999268,
	"learning_rate": 1.1061842105263156e-06,
	"loss": 0.0137,
	"step": 7600
	},
	{
	"epoch": 4.0809,
	"grad_norm": 1.223105788230896,
	"learning_rate": 1.094671052631579e-06,
	"loss": 0.0137,
	"step": 7625
	},
	{
	"epoch": 4.0834,
	"grad_norm": 0.43614983558654785,
	"learning_rate": 1.083157894736842e-06,
	"loss": 0.0109,
	"step": 7650
	},
	{
	"epoch": 4.0859,
	"grad_norm": 1.0974986553192139,
	"learning_rate": 1.0716447368421052e-06,
	"loss": 0.0118,
	"step": 7675
	},
	{
	"epoch": 4.0884,
	"grad_norm": 0.7234652042388916,
	"learning_rate": 1.0601315789473682e-06,
	"loss": 0.0125,
	"step": 7700
	},
	{
	"epoch": 4.0909,
	"grad_norm": 0.7752431035041809,
	"learning_rate": 1.0486184210526315e-06,
	"loss": 0.0135,
	"step": 7725
	},
	{
	"epoch": 4.0934,
	"grad_norm": 0.8796952366828918,
	"learning_rate": 1.0371052631578947e-06,
	"loss": 0.0158,
	"step": 7750
	},
	{
	"epoch": 4.0959,
	"grad_norm": 3.9135661125183105,
	"learning_rate": 1.0255921052631577e-06,
	"loss": 0.0139,
	"step": 7775
	},
	{
	"epoch": 4.0984,
	"grad_norm": 0.4837290942668915,
	"learning_rate": 1.014078947368421e-06,
	"loss": 0.0103,
	"step": 7800
	},
	{
	"epoch": 4.1009,
	"grad_norm": 1.1155998706817627,
	"learning_rate": 1.0025657894736842e-06,
	"loss": 0.0106,
	"step": 7825
	},
	{
	"epoch": 4.1034,
	"grad_norm": 2.628676652908325,
	"learning_rate": 9.910526315789474e-07,
	"loss": 0.0089,
	"step": 7850
	},
	{
	"epoch": 4.1059,
	"grad_norm": 1.716665506362915,
	"learning_rate": 9.795394736842104e-07,
	"loss": 0.0132,
	"step": 7875
	},
	{
	"epoch": 4.1084,
	"grad_norm": 1.6751716136932373,
	"learning_rate": 9.680263157894736e-07,
	"loss": 0.0137,
	"step": 7900
	},
	{
	"epoch": 4.1109,
	"grad_norm": 0.9773244261741638,
	"learning_rate": 9.565131578947368e-07,
	"loss": 0.0111,
	"step": 7925
	},
	{
	"epoch": 4.1134,
	"grad_norm": 1.44219172000885,
	"learning_rate": 9.45e-07,
	"loss": 0.0139,
	"step": 7950
	},
	{
	"epoch": 4.1159,
	"grad_norm": 0.8723123073577881,
	"learning_rate": 9.334868421052631e-07,
	"loss": 0.0117,
	"step": 7975
	},
	{
	"epoch": 4.1184,
	"grad_norm": 0.6484673023223877,
	"learning_rate": 9.219736842105263e-07,
	"loss": 0.0139,
	"step": 8000
	},
	{
	"epoch": 4.1184,
	"eval_loss": 0.15393850207328796,
	"eval_runtime": 4128.9341,
	"eval_samples_per_second": 3.301,
	"eval_steps_per_second": 0.413,
	"eval_wer": 7.626699402689728,
	"step": 8000
	},
	{
	"epoch": 4.1209,
	"grad_norm": 1.3702197074890137,
	"learning_rate": 9.104605263157894e-07,
	"loss": 0.0158,
	"step": 8025
	},
	{
	"epoch": 4.1234,
	"grad_norm": 1.425645351409912,
	"learning_rate": 8.989473684210525e-07,
	"loss": 0.0117,
	"step": 8050
	},
	{
	"epoch": 4.1259,
	"grad_norm": 1.4255399703979492,
	"learning_rate": 8.874342105263158e-07,
	"loss": 0.015,
	"step": 8075
	},
	{
	"epoch": 4.1284,
	"grad_norm": 0.6988621950149536,
	"learning_rate": 8.759210526315789e-07,
	"loss": 0.0141,
	"step": 8100
	},
	{
	"epoch": 4.1309,
	"grad_norm": 1.1563546657562256,
	"learning_rate": 8.64407894736842e-07,
	"loss": 0.0122,
	"step": 8125
	},
	{
	"epoch": 4.1334,
	"grad_norm": 1.2023714780807495,
	"learning_rate": 8.528947368421051e-07,
	"loss": 0.013,
	"step": 8150
	},
	{
	"epoch": 4.1359,
	"grad_norm": 0.9450110197067261,
	"learning_rate": 8.413815789473683e-07,
	"loss": 0.0123,
	"step": 8175
	},
	{
	"epoch": 4.1384,
	"grad_norm": 0.9265995621681213,
	"learning_rate": 8.298684210526316e-07,
	"loss": 0.0114,
	"step": 8200
	},
	{
	"epoch": 4.1409,
	"grad_norm": 0.4234980046749115,
	"learning_rate": 8.183552631578947e-07,
	"loss": 0.0085,
	"step": 8225
	},
	{
	"epoch": 4.1434,
	"grad_norm": 1.3323073387145996,
	"learning_rate": 8.068421052631579e-07,
	"loss": 0.014,
	"step": 8250
	},
	{
	"epoch": 4.1459,
	"grad_norm": 1.2050007581710815,
	"learning_rate": 7.95328947368421e-07,
	"loss": 0.0106,
	"step": 8275
	},
	{
	"epoch": 4.1484,
	"grad_norm": 1.261042594909668,
	"learning_rate": 7.838157894736841e-07,
	"loss": 0.0107,
	"step": 8300
	},
	{
	"epoch": 4.1509,
	"grad_norm": 1.2892303466796875,
	"learning_rate": 7.723026315789474e-07,
	"loss": 0.0145,
	"step": 8325
	},
	{
	"epoch": 4.1534,
	"grad_norm": 1.1626112461090088,
	"learning_rate": 7.607894736842105e-07,
	"loss": 0.0139,
	"step": 8350
	},
	{
	"epoch": 4.1559,
	"grad_norm": 1.0547322034835815,
	"learning_rate": 7.492763157894736e-07,
	"loss": 0.0154,
	"step": 8375
	},
	{
	"epoch": 4.1584,
	"grad_norm": 0.44805532693862915,
	"learning_rate": 7.377631578947367e-07,
	"loss": 0.0109,
	"step": 8400
	},
	{
	"epoch": 4.1609,
	"grad_norm": 0.7095866203308105,
	"learning_rate": 7.262499999999999e-07,
	"loss": 0.0114,
	"step": 8425
	},
	{
	"epoch": 4.1634,
	"grad_norm": 1.4220194816589355,
	"learning_rate": 7.14736842105263e-07,
	"loss": 0.0134,
	"step": 8450
	},
	{
	"epoch": 4.1659,
	"grad_norm": 1.0814168453216553,
	"learning_rate": 7.032236842105263e-07,
	"loss": 0.0142,
	"step": 8475
	},
	{
	"epoch": 4.1684,
	"grad_norm": 0.7026916146278381,
	"learning_rate": 6.917105263157895e-07,
	"loss": 0.0141,
	"step": 8500
	},
	{
	"epoch": 4.1684,
	"eval_loss": 0.15496784448623657,
	"eval_runtime": 4124.1829,
	"eval_samples_per_second": 3.305,
	"eval_steps_per_second": 0.413,
	"eval_wer": 7.542416358239584,
	"step": 8500
	},
	{
	"epoch": 5.0005,
	"grad_norm": 4.648550033569336,
	"learning_rate": 6.801973684210526e-07,
	"loss": 0.0285,
	"step": 8525
	},
	{
	"epoch": 5.003,
	"grad_norm": 1.9204503297805786,
	"learning_rate": 6.691447368421053e-07,
	"loss": 0.0761,
	"step": 8550
	},
	{
	"epoch": 5.0055,
	"grad_norm": 1.7285746335983276,
	"learning_rate": 6.576315789473684e-07,
	"loss": 0.0602,
	"step": 8575
	},
	{
	"epoch": 5.008,
	"grad_norm": 1.1516830921173096,
	"learning_rate": 6.461184210526315e-07,
	"loss": 0.0585,
	"step": 8600
	},
	{
	"epoch": 5.0105,
	"grad_norm": 3.3867828845977783,
	"learning_rate": 6.346052631578947e-07,
	"loss": 0.0656,
	"step": 8625
	},
	{
	"epoch": 5.013,
	"grad_norm": 4.064920902252197,
	"learning_rate": 6.230921052631579e-07,
	"loss": 0.0683,
	"step": 8650
	},
	{
	"epoch": 5.0155,
	"grad_norm": 3.695047378540039,
	"learning_rate": 6.11578947368421e-07,
	"loss": 0.0659,
	"step": 8675
	},
	{
	"epoch": 5.018,
	"grad_norm": 2.9087939262390137,
	"learning_rate": 6.000657894736842e-07,
	"loss": 0.0611,
	"step": 8700
	},
	{
	"epoch": 5.0205,
	"grad_norm": 3.368290424346924,
	"learning_rate": 5.885526315789473e-07,
	"loss": 0.0603,
	"step": 8725
	},
	{
	"epoch": 5.023,
	"grad_norm": 3.7565319538116455,
	"learning_rate": 5.770394736842104e-07,
	"loss": 0.0614,
	"step": 8750
	},
	{
	"epoch": 5.0255,
	"grad_norm": 2.4887771606445312,
	"learning_rate": 5.655263157894735e-07,
	"loss": 0.0497,
	"step": 8775
	},
	{
	"epoch": 5.028,
	"grad_norm": 2.1670076847076416,
	"learning_rate": 5.540131578947369e-07,
	"loss": 0.0662,
	"step": 8800
	},
	{
	"epoch": 5.0305,
	"grad_norm": 1.3746148347854614,
	"learning_rate": 5.425e-07,
	"loss": 0.0507,
	"step": 8825
	},
	{
	"epoch": 5.033,
	"grad_norm": 1.8274154663085938,
	"learning_rate": 5.309868421052631e-07,
	"loss": 0.0449,
	"step": 8850
	},
	{
	"epoch": 5.0355,
	"grad_norm": 2.9424078464508057,
	"learning_rate": 5.194736842105262e-07,
	"loss": 0.0529,
	"step": 8875
	},
	{
	"epoch": 5.038,
	"grad_norm": 2.457754611968994,
	"learning_rate": 5.079605263157895e-07,
	"loss": 0.042,
	"step": 8900
	},
	{
	"epoch": 5.0405,
	"grad_norm": 2.208768606185913,
	"learning_rate": 4.964473684210526e-07,
	"loss": 0.0407,
	"step": 8925
	},
	{
	"epoch": 5.043,
	"grad_norm": 1.9554438591003418,
	"learning_rate": 4.849342105263158e-07,
	"loss": 0.0465,
	"step": 8950
	},
	{
	"epoch": 5.0455,
	"grad_norm": 1.1464567184448242,
	"learning_rate": 4.734210526315789e-07,
	"loss": 0.0537,
	"step": 8975
	},
	{
	"epoch": 5.048,
	"grad_norm": 3.1216509342193604,
	"learning_rate": 4.6190789473684203e-07,
	"loss": 0.0368,
	"step": 9000
	},
	{
	"epoch": 5.048,
	"eval_loss": 0.12588092684745789,
	"eval_runtime": 4149.257,
	"eval_samples_per_second": 3.285,
	"eval_steps_per_second": 0.411,
	"eval_wer": 7.215361500971087,
	"step": 9000
	},
	{
	"epoch": 5.048,
	"step": 9000,
	"total_flos": 4.891718061785088e+20,
	"train_loss": 0.0,
	"train_runtime": 289.8068,
	"train_samples_per_second": 552.092,
	"train_steps_per_second": 34.506
	}
	],
	"logging_steps": 25,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.891718061785088e+20,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}