data2vec-large-uk / trainer_state.json

Yurii Paniv

Add model with WER 34.1%

d2b2ff7 about 3 years ago

20.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 33.063123819800374,
	"global_step": 20400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.65,
	"learning_rate": 7.960000000000001e-05,
	"loss": 3.4697,
	"step": 400
	},
	{
	"epoch": 0.65,
	"eval_cer": 0.22712964200335575,
	"eval_loss": 0.8050351738929749,
	"eval_runtime": 237.1034,
	"eval_samples_per_second": 24.462,
	"eval_steps_per_second": 3.058,
	"eval_wer": 0.8556793503918422,
	"step": 400
	},
	{
	"epoch": 1.3,
	"learning_rate": 9.951307189542484e-05,
	"loss": 0.7017,
	"step": 800
	},
	{
	"epoch": 1.3,
	"eval_cer": 0.1719861315277592,
	"eval_loss": 0.539792537689209,
	"eval_runtime": 228.344,
	"eval_samples_per_second": 25.4,
	"eval_steps_per_second": 3.175,
	"eval_wer": 0.700901708998206,
	"step": 800
	},
	{
	"epoch": 1.94,
	"learning_rate": 9.885947712418301e-05,
	"loss": 0.5857,
	"step": 1200
	},
	{
	"epoch": 1.94,
	"eval_cer": 0.1479167594696126,
	"eval_loss": 0.49350985884666443,
	"eval_runtime": 229.0442,
	"eval_samples_per_second": 25.323,
	"eval_steps_per_second": 3.165,
	"eval_wer": 0.6321877065432915,
	"step": 1200
	},
	{
	"epoch": 2.59,
	"learning_rate": 9.820751633986929e-05,
	"loss": 0.5104,
	"step": 1600
	},
	{
	"epoch": 2.59,
	"eval_cer": 0.1555488737434481,
	"eval_loss": 0.4537821114063263,
	"eval_runtime": 228.4555,
	"eval_samples_per_second": 25.388,
	"eval_steps_per_second": 3.173,
	"eval_wer": 0.6290954584080823,
	"step": 1600
	},
	{
	"epoch": 3.24,
	"learning_rate": 9.755392156862746e-05,
	"loss": 0.4681,
	"step": 2000
	},
	{
	"epoch": 3.24,
	"eval_cer": 0.15528531337698784,
	"eval_loss": 0.4359590411186218,
	"eval_runtime": 229.3987,
	"eval_samples_per_second": 25.283,
	"eval_steps_per_second": 3.16,
	"eval_wer": 0.6121707109810216,
	"step": 2000
	},
	{
	"epoch": 3.89,
	"learning_rate": 9.690032679738562e-05,
	"loss": 0.4312,
	"step": 2400
	},
	{
	"epoch": 3.89,
	"eval_cer": 0.13666904242208264,
	"eval_loss": 0.426824152469635,
	"eval_runtime": 229.499,
	"eval_samples_per_second": 25.272,
	"eval_steps_per_second": 3.159,
	"eval_wer": 0.5816259087904825,
	"step": 2400
	},
	{
	"epoch": 4.54,
	"learning_rate": 9.624673202614379e-05,
	"loss": 0.3951,
	"step": 2800
	},
	{
	"epoch": 4.54,
	"eval_cer": 0.11381353289678828,
	"eval_loss": 0.3767826557159424,
	"eval_runtime": 228.7468,
	"eval_samples_per_second": 25.356,
	"eval_steps_per_second": 3.169,
	"eval_wer": 0.5032338778207912,
	"step": 2800
	},
	{
	"epoch": 5.19,
	"learning_rate": 9.559313725490196e-05,
	"loss": 0.3837,
	"step": 3200
	},
	{
	"epoch": 5.19,
	"eval_cer": 0.1086499769848694,
	"eval_loss": 0.3816022276878357,
	"eval_runtime": 229.1083,
	"eval_samples_per_second": 25.316,
	"eval_steps_per_second": 3.164,
	"eval_wer": 0.4897554527428949,
	"step": 3200
	},
	{
	"epoch": 5.83,
	"learning_rate": 9.493954248366013e-05,
	"loss": 0.3544,
	"step": 3600
	},
	{
	"epoch": 5.83,
	"eval_cer": 0.10945179443776264,
	"eval_loss": 0.3717349171638489,
	"eval_runtime": 228.3765,
	"eval_samples_per_second": 25.397,
	"eval_steps_per_second": 3.175,
	"eval_wer": 0.4796053252761779,
	"step": 3600
	},
	{
	"epoch": 6.48,
	"learning_rate": 9.42859477124183e-05,
	"loss": 0.3347,
	"step": 4000
	},
	{
	"epoch": 6.48,
	"eval_cer": 0.10657861523156191,
	"eval_loss": 0.36351847648620605,
	"eval_runtime": 228.5091,
	"eval_samples_per_second": 25.382,
	"eval_steps_per_second": 3.173,
	"eval_wer": 0.47561608913228215,
	"step": 4000
	},
	{
	"epoch": 7.13,
	"learning_rate": 9.363235294117648e-05,
	"loss": 0.3214,
	"step": 4400
	},
	{
	"epoch": 7.13,
	"eval_cer": 0.10085081740834781,
	"eval_loss": 0.36007240414619446,
	"eval_runtime": 228.3999,
	"eval_samples_per_second": 25.394,
	"eval_steps_per_second": 3.174,
	"eval_wer": 0.4482579548673402,
	"step": 4400
	},
	{
	"epoch": 7.78,
	"learning_rate": 9.297875816993465e-05,
	"loss": 0.3101,
	"step": 4800
	},
	{
	"epoch": 7.78,
	"eval_cer": 0.09670066966605788,
	"eval_loss": 0.3479693531990051,
	"eval_runtime": 228.8913,
	"eval_samples_per_second": 25.34,
	"eval_steps_per_second": 3.167,
	"eval_wer": 0.4366443206496082,
	"step": 4800
	},
	{
	"epoch": 8.43,
	"learning_rate": 9.232516339869282e-05,
	"loss": 0.3004,
	"step": 5200
	},
	{
	"epoch": 8.43,
	"eval_cer": 0.09928059156309858,
	"eval_loss": 0.3379470407962799,
	"eval_runtime": 229.5464,
	"eval_samples_per_second": 25.267,
	"eval_steps_per_second": 3.158,
	"eval_wer": 0.43477952978944384,
	"step": 5200
	},
	{
	"epoch": 9.08,
	"learning_rate": 9.167156862745099e-05,
	"loss": 0.2837,
	"step": 5600
	},
	{
	"epoch": 9.08,
	"eval_cer": 0.10316717893892824,
	"eval_loss": 0.3556945323944092,
	"eval_runtime": 229.7028,
	"eval_samples_per_second": 25.25,
	"eval_steps_per_second": 3.156,
	"eval_wer": 0.4406571617411009,
	"step": 5600
	},
	{
	"epoch": 9.72,
	"learning_rate": 9.101960784313725e-05,
	"loss": 0.2689,
	"step": 6000
	},
	{
	"epoch": 9.72,
	"eval_cer": 0.09850104681723017,
	"eval_loss": 0.3435617685317993,
	"eval_runtime": 228.8516,
	"eval_samples_per_second": 25.344,
	"eval_steps_per_second": 3.168,
	"eval_wer": 0.4333632329336229,
	"step": 6000
	},
	{
	"epoch": 10.37,
	"learning_rate": 9.036601307189542e-05,
	"loss": 0.2621,
	"step": 6400
	},
	{
	"epoch": 10.37,
	"eval_cer": 0.09027499368939967,
	"eval_loss": 0.3481593132019043,
	"eval_runtime": 228.9671,
	"eval_samples_per_second": 25.331,
	"eval_steps_per_second": 3.166,
	"eval_wer": 0.4050609007648003,
	"step": 6400
	},
	{
	"epoch": 11.02,
	"learning_rate": 8.97124183006536e-05,
	"loss": 0.2572,
	"step": 6800
	},
	{
	"epoch": 11.02,
	"eval_cer": 0.0916447651714256,
	"eval_loss": 0.326036661863327,
	"eval_runtime": 228.7058,
	"eval_samples_per_second": 25.36,
	"eval_steps_per_second": 3.17,
	"eval_wer": 0.4084600132187707,
	"step": 6800
	},
	{
	"epoch": 11.67,
	"learning_rate": 8.905882352941178e-05,
	"loss": 0.2413,
	"step": 7200
	},
	{
	"epoch": 11.67,
	"eval_cer": 0.08478477140778357,
	"eval_loss": 0.3280562162399292,
	"eval_runtime": 229.2353,
	"eval_samples_per_second": 25.302,
	"eval_steps_per_second": 3.163,
	"eval_wer": 0.3888679067132471,
	"step": 7200
	},
	{
	"epoch": 12.32,
	"learning_rate": 8.840522875816994e-05,
	"loss": 0.2369,
	"step": 7600
	},
	{
	"epoch": 12.32,
	"eval_cer": 0.08900173727114793,
	"eval_loss": 0.3518214523792267,
	"eval_runtime": 229.5012,
	"eval_samples_per_second": 25.272,
	"eval_steps_per_second": 3.159,
	"eval_wer": 0.3980266263808894,
	"step": 7600
	},
	{
	"epoch": 12.96,
	"learning_rate": 8.775326797385621e-05,
	"loss": 0.2331,
	"step": 8000
	},
	{
	"epoch": 12.96,
	"eval_cer": 0.08975529719215407,
	"eval_loss": 0.34484249353408813,
	"eval_runtime": 230.1435,
	"eval_samples_per_second": 25.202,
	"eval_steps_per_second": 3.15,
	"eval_wer": 0.4034793692758002,
	"step": 8000
	},
	{
	"epoch": 13.61,
	"learning_rate": 8.709967320261438e-05,
	"loss": 0.2241,
	"step": 8400
	},
	{
	"epoch": 13.61,
	"eval_cer": 0.08568310392445098,
	"eval_loss": 0.32314908504486084,
	"eval_runtime": 229.283,
	"eval_samples_per_second": 25.296,
	"eval_steps_per_second": 3.162,
	"eval_wer": 0.38374563308469456,
	"step": 8400
	},
	{
	"epoch": 14.26,
	"learning_rate": 8.644607843137255e-05,
	"loss": 0.2157,
	"step": 8800
	},
	{
	"epoch": 14.26,
	"eval_cer": 0.08689696645730322,
	"eval_loss": 0.3466608226299286,
	"eval_runtime": 229.4605,
	"eval_samples_per_second": 25.277,
	"eval_steps_per_second": 3.16,
	"eval_wer": 0.38103106411103765,
	"step": 8800
	},
	{
	"epoch": 14.91,
	"learning_rate": 8.579248366013071e-05,
	"loss": 0.2112,
	"step": 9200
	},
	{
	"epoch": 14.91,
	"eval_cer": 0.08458802916239773,
	"eval_loss": 0.33838367462158203,
	"eval_runtime": 229.7273,
	"eval_samples_per_second": 25.247,
	"eval_steps_per_second": 3.156,
	"eval_wer": 0.3752950618449627,
	"step": 9200
	},
	{
	"epoch": 15.56,
	"learning_rate": 8.51388888888889e-05,
	"loss": 0.1992,
	"step": 9600
	},
	{
	"epoch": 15.56,
	"eval_cer": 0.08213060715399349,
	"eval_loss": 0.32480093836784363,
	"eval_runtime": 229.808,
	"eval_samples_per_second": 25.238,
	"eval_steps_per_second": 3.155,
	"eval_wer": 0.36958266452648475,
	"step": 9600
	},
	{
	"epoch": 16.21,
	"learning_rate": 8.448529411764707e-05,
	"loss": 0.2,
	"step": 10000
	},
	{
	"epoch": 16.21,
	"eval_cer": 0.08102810815626531,
	"eval_loss": 0.33721038699150085,
	"eval_runtime": 229.5623,
	"eval_samples_per_second": 25.265,
	"eval_steps_per_second": 3.158,
	"eval_wer": 0.36797752808988765,
	"step": 10000
	},
	{
	"epoch": 16.85,
	"learning_rate": 8.383169934640524e-05,
	"loss": 0.1958,
	"step": 10400
	},
	{
	"epoch": 16.85,
	"eval_cer": 0.084851589528858,
	"eval_loss": 0.35948196053504944,
	"eval_runtime": 229.3013,
	"eval_samples_per_second": 25.294,
	"eval_steps_per_second": 3.162,
	"eval_wer": 0.36868567651779816,
	"step": 10400
	},
	{
	"epoch": 17.5,
	"learning_rate": 8.317810457516341e-05,
	"loss": 0.1894,
	"step": 10800
	},
	{
	"epoch": 17.5,
	"eval_cer": 0.07850015590894917,
	"eval_loss": 0.3233487606048584,
	"eval_runtime": 229.5135,
	"eval_samples_per_second": 25.271,
	"eval_steps_per_second": 3.159,
	"eval_wer": 0.3536493248984987,
	"step": 10800
	},
	{
	"epoch": 18.15,
	"learning_rate": 8.252450980392157e-05,
	"loss": 0.1851,
	"step": 11200
	},
	{
	"epoch": 18.15,
	"eval_cer": 0.08108750204166482,
	"eval_loss": 0.34047776460647583,
	"eval_runtime": 239.1856,
	"eval_samples_per_second": 24.249,
	"eval_steps_per_second": 3.031,
	"eval_wer": 0.3634217732036635,
	"step": 11200
	},
	{
	"epoch": 18.8,
	"learning_rate": 8.187254901960784e-05,
	"loss": 0.1803,
	"step": 11600
	},
	{
	"epoch": 18.8,
	"eval_cer": 0.07939477630777911,
	"eval_loss": 0.3269987404346466,
	"eval_runtime": 229.8175,
	"eval_samples_per_second": 25.237,
	"eval_steps_per_second": 3.155,
	"eval_wer": 0.3585827589462751,
	"step": 11600
	},
	{
	"epoch": 19.45,
	"learning_rate": 8.122058823529413e-05,
	"loss": 0.1745,
	"step": 12000
	},
	{
	"epoch": 19.45,
	"eval_cer": 0.08060863884063135,
	"eval_loss": 0.31651994585990906,
	"eval_runtime": 240.2409,
	"eval_samples_per_second": 24.142,
	"eval_steps_per_second": 3.018,
	"eval_wer": 0.3572608818808422,
	"step": 12000
	},
	{
	"epoch": 20.1,
	"learning_rate": 8.056699346405229e-05,
	"loss": 0.1772,
	"step": 12400
	},
	{
	"epoch": 20.1,
	"eval_cer": 0.0768519755891131,
	"eval_loss": 0.3156619668006897,
	"eval_runtime": 230.0061,
	"eval_samples_per_second": 25.217,
	"eval_steps_per_second": 3.152,
	"eval_wer": 0.3494004343310358,
	"step": 12400
	},
	{
	"epoch": 20.74,
	"learning_rate": 7.991339869281046e-05,
	"loss": 0.1643,
	"step": 12800
	},
	{
	"epoch": 20.74,
	"eval_cer": 0.0779173534084666,
	"eval_loss": 0.349098265171051,
	"eval_runtime": 238.8634,
	"eval_samples_per_second": 24.282,
	"eval_steps_per_second": 3.035,
	"eval_wer": 0.34930601454064775,
	"step": 12800
	},
	{
	"epoch": 21.39,
	"learning_rate": 7.925980392156863e-05,
	"loss": 0.1642,
	"step": 13200
	},
	{
	"epoch": 21.39,
	"eval_cer": 0.07913492805915631,
	"eval_loss": 0.33371418714523315,
	"eval_runtime": 229.4412,
	"eval_samples_per_second": 25.279,
	"eval_steps_per_second": 3.16,
	"eval_wer": 0.35093475592484186,
	"step": 13200
	},
	{
	"epoch": 22.04,
	"learning_rate": 7.86062091503268e-05,
	"loss": 0.1593,
	"step": 13600
	},
	{
	"epoch": 22.04,
	"eval_cer": 0.07605015813621988,
	"eval_loss": 0.3546375632286072,
	"eval_runtime": 229.4973,
	"eval_samples_per_second": 25.273,
	"eval_steps_per_second": 3.159,
	"eval_wer": 0.34203569068076667,
	"step": 13600
	},
	{
	"epoch": 22.69,
	"learning_rate": 7.795261437908498e-05,
	"loss": 0.1576,
	"step": 14000
	},
	{
	"epoch": 22.69,
	"eval_cer": 0.07695962700639969,
	"eval_loss": 0.3109979033470154,
	"eval_runtime": 229.6972,
	"eval_samples_per_second": 25.251,
	"eval_steps_per_second": 3.156,
	"eval_wer": 0.3458596921914833,
	"step": 14000
	},
	{
	"epoch": 23.34,
	"learning_rate": 7.729901960784313e-05,
	"loss": 0.1556,
	"step": 14400
	},
	{
	"epoch": 23.34,
	"eval_cer": 0.07288000950302166,
	"eval_loss": 0.3186021149158478,
	"eval_runtime": 229.9396,
	"eval_samples_per_second": 25.224,
	"eval_steps_per_second": 3.153,
	"eval_wer": 0.335237465772826,
	"step": 14400
	},
	{
	"epoch": 23.99,
	"learning_rate": 7.66454248366013e-05,
	"loss": 0.1501,
	"step": 14800
	},
	{
	"epoch": 23.99,
	"eval_cer": 0.07652530921941586,
	"eval_loss": 0.34097790718078613,
	"eval_runtime": 230.2076,
	"eval_samples_per_second": 25.195,
	"eval_steps_per_second": 3.149,
	"eval_wer": 0.3422245302615428,
	"step": 14800
	},
	{
	"epoch": 24.63,
	"learning_rate": 7.599183006535948e-05,
	"loss": 0.1468,
	"step": 15200
	},
	{
	"epoch": 24.63,
	"eval_cer": 0.07453561405853268,
	"eval_loss": 0.35943603515625,
	"eval_runtime": 229.9439,
	"eval_samples_per_second": 25.224,
	"eval_steps_per_second": 3.153,
	"eval_wer": 0.3392503068643188,
	"step": 15200
	},
	{
	"epoch": 25.28,
	"learning_rate": 7.533823529411765e-05,
	"loss": 0.1478,
	"step": 15600
	},
	{
	"epoch": 25.28,
	"eval_cer": 0.07782083834469242,
	"eval_loss": 0.3322964310646057,
	"eval_runtime": 229.8368,
	"eval_samples_per_second": 25.235,
	"eval_steps_per_second": 3.154,
	"eval_wer": 0.34272023416108016,
	"step": 15600
	},
	{
	"epoch": 25.93,
	"learning_rate": 7.468464052287582e-05,
	"loss": 0.1472,
	"step": 16000
	},
	{
	"epoch": 25.93,
	"eval_cer": 0.08302522755282343,
	"eval_loss": 0.3150421679019928,
	"eval_runtime": 229.9477,
	"eval_samples_per_second": 25.223,
	"eval_steps_per_second": 3.153,
	"eval_wer": 0.3516901142479464,
	"step": 16000
	},
	{
	"epoch": 26.58,
	"learning_rate": 7.40326797385621e-05,
	"loss": 0.1451,
	"step": 16400
	},
	{
	"epoch": 26.58,
	"eval_cer": 0.08323310615172168,
	"eval_loss": 0.33504411578178406,
	"eval_runtime": 230.1669,
	"eval_samples_per_second": 25.199,
	"eval_steps_per_second": 3.15,
	"eval_wer": 0.352657917099424,
	"step": 16400
	},
	{
	"epoch": 27.23,
	"learning_rate": 7.337908496732027e-05,
	"loss": 0.1405,
	"step": 16800
	},
	{
	"epoch": 27.23,
	"eval_cer": 0.08127682005137571,
	"eval_loss": 0.3452860116958618,
	"eval_runtime": 229.9933,
	"eval_samples_per_second": 25.218,
	"eval_steps_per_second": 3.152,
	"eval_wer": 0.3461665565102445,
	"step": 16800
	},
	{
	"epoch": 27.88,
	"learning_rate": 7.272549019607844e-05,
	"loss": 0.1384,
	"step": 17200
	},
	{
	"epoch": 27.88,
	"eval_cer": 0.07939477630777911,
	"eval_loss": 0.3451952338218689,
	"eval_runtime": 230.0148,
	"eval_samples_per_second": 25.216,
	"eval_steps_per_second": 3.152,
	"eval_wer": 0.343947691436125,
	"step": 17200
	},
	{
	"epoch": 28.52,
	"learning_rate": 7.20718954248366e-05,
	"loss": 0.1385,
	"step": 17600
	},
	{
	"epoch": 28.52,
	"eval_cer": 0.08665939091570522,
	"eval_loss": 0.32853472232818604,
	"eval_runtime": 230.4126,
	"eval_samples_per_second": 25.172,
	"eval_steps_per_second": 3.147,
	"eval_wer": 0.3517609290907374,
	"step": 17600
	},
	{
	"epoch": 29.17,
	"learning_rate": 7.141830065359477e-05,
	"loss": 0.133,
	"step": 18000
	},
	{
	"epoch": 29.17,
	"eval_cer": 0.08029310882444653,
	"eval_loss": 0.33895909786224365,
	"eval_runtime": 230.6075,
	"eval_samples_per_second": 25.151,
	"eval_steps_per_second": 3.144,
	"eval_wer": 0.34243697478991597,
	"step": 18000
	},
	{
	"epoch": 29.82,
	"learning_rate": 7.076470588235294e-05,
	"loss": 0.1303,
	"step": 18400
	},
	{
	"epoch": 29.82,
	"eval_cer": 0.07742735385392074,
	"eval_loss": 0.33118581771850586,
	"eval_runtime": 234.6432,
	"eval_samples_per_second": 24.718,
	"eval_steps_per_second": 3.09,
	"eval_wer": 0.33403361344537813,
	"step": 18400
	},
	{
	"epoch": 30.47,
	"learning_rate": 7.011111111111112e-05,
	"loss": 0.126,
	"step": 18800
	},
	{
	"epoch": 30.47,
	"eval_cer": 0.0883781014744532,
	"eval_loss": 0.36238303780555725,
	"eval_runtime": 230.653,
	"eval_samples_per_second": 25.146,
	"eval_steps_per_second": 3.143,
	"eval_wer": 0.3550420168067227,
	"step": 18800
	},
	{
	"epoch": 31.12,
	"learning_rate": 6.945915032679738e-05,
	"loss": 0.1282,
	"step": 19200
	},
	{
	"epoch": 31.12,
	"eval_cer": 0.08413886290406403,
	"eval_loss": 0.33442607522010803,
	"eval_runtime": 229.9326,
	"eval_samples_per_second": 25.225,
	"eval_steps_per_second": 3.153,
	"eval_wer": 0.3440893211217071,
	"step": 19200
	},
	{
	"epoch": 31.77,
	"learning_rate": 6.880555555555556e-05,
	"loss": 0.1284,
	"step": 19600
	},
	{
	"epoch": 31.77,
	"eval_cer": 0.08161833489242283,
	"eval_loss": 0.3269757628440857,
	"eval_runtime": 230.2743,
	"eval_samples_per_second": 25.187,
	"eval_steps_per_second": 3.148,
	"eval_wer": 0.3438296666981399,
	"step": 19600
	},
	{
	"epoch": 32.41,
	"learning_rate": 6.815196078431373e-05,
	"loss": 0.1258,
	"step": 20000
	},
	{
	"epoch": 32.41,
	"eval_cer": 0.08625848218925862,
	"eval_loss": 0.32494238018989563,
	"eval_runtime": 229.6629,
	"eval_samples_per_second": 25.254,
	"eval_steps_per_second": 3.157,
	"eval_wer": 0.34472665470682656,
	"step": 20000
	},
	{
	"epoch": 33.06,
	"learning_rate": 6.74983660130719e-05,
	"loss": 0.1208,
	"step": 20400
	},
	{
	"epoch": 33.06,
	"eval_cer": 0.08316628803064724,
	"eval_loss": 0.34723225235939026,
	"eval_runtime": 231.0008,
	"eval_samples_per_second": 25.108,
	"eval_steps_per_second": 3.139,
	"eval_wer": 0.34099707298649795,
	"step": 20400
	}
	],
	"max_steps": 61700,
	"num_train_epochs": 100,
	"total_flos": 1.394888039414942e+20,
	"trial_name": null,
	"trial_params": null
	}