wav2vec2-large-robust-paper / trainer_state.json

End of training

38b2ce5 about 1 year ago

16.6 kB

	{
	"best_metric": 0.8695769309997559,
	"best_model_checkpoint": "./wav2vec2-large-robust-paper/checkpoint-4355",
	"epoch": 50.0,
	"global_step": 16750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_loss": 3.9162847995758057,
	"eval_runtime": 53.7666,
	"eval_samples_per_second": 15.66,
	"eval_steps_per_second": 1.971,
	"eval_wer": 1.0,
	"step": 335
	},
	{
	"epoch": 1.49,
	"learning_rate": 4.976729944886712e-05,
	"loss": 7.1369,
	"step": 500
	},
	{
	"epoch": 2.0,
	"eval_loss": 3.342172145843506,
	"eval_runtime": 53.6439,
	"eval_samples_per_second": 15.696,
	"eval_steps_per_second": 1.976,
	"eval_wer": 1.0,
	"step": 670
	},
	{
	"epoch": 2.99,
	"learning_rate": 4.82363747703613e-05,
	"loss": 3.3448,
	"step": 1000
	},
	{
	"epoch": 3.0,
	"eval_loss": 3.335538864135742,
	"eval_runtime": 53.7095,
	"eval_samples_per_second": 15.677,
	"eval_steps_per_second": 1.974,
	"eval_wer": 1.0,
	"step": 1005
	},
	{
	"epoch": 4.0,
	"eval_loss": 3.3262581825256348,
	"eval_runtime": 53.7592,
	"eval_samples_per_second": 15.662,
	"eval_steps_per_second": 1.972,
	"eval_wer": 1.0,
	"step": 1340
	},
	{
	"epoch": 4.48,
	"learning_rate": 4.6705450091855484e-05,
	"loss": 3.3277,
	"step": 1500
	},
	{
	"epoch": 5.0,
	"eval_loss": 2.8927650451660156,
	"eval_runtime": 54.3633,
	"eval_samples_per_second": 15.488,
	"eval_steps_per_second": 1.95,
	"eval_wer": 1.0079421226156946,
	"step": 1675
	},
	{
	"epoch": 5.97,
	"learning_rate": 4.517452541334967e-05,
	"loss": 2.6655,
	"step": 2000
	},
	{
	"epoch": 6.0,
	"eval_loss": 1.7821804285049438,
	"eval_runtime": 54.4942,
	"eval_samples_per_second": 15.451,
	"eval_steps_per_second": 1.945,
	"eval_wer": 0.8787591601372186,
	"step": 2010
	},
	{
	"epoch": 7.0,
	"eval_loss": 1.3193254470825195,
	"eval_runtime": 54.3211,
	"eval_samples_per_second": 15.5,
	"eval_steps_per_second": 1.951,
	"eval_wer": 0.7055407984836553,
	"step": 2345
	},
	{
	"epoch": 7.46,
	"learning_rate": 4.364360073484385e-05,
	"loss": 1.4617,
	"step": 2500
	},
	{
	"epoch": 8.0,
	"eval_loss": 1.1407958269119263,
	"eval_runtime": 54.3418,
	"eval_samples_per_second": 15.495,
	"eval_steps_per_second": 1.951,
	"eval_wer": 0.607031781838568,
	"step": 2680
	},
	{
	"epoch": 8.96,
	"learning_rate": 4.211267605633803e-05,
	"loss": 1.0805,
	"step": 3000
	},
	{
	"epoch": 9.0,
	"eval_loss": 1.0108448266983032,
	"eval_runtime": 54.8305,
	"eval_samples_per_second": 15.356,
	"eval_steps_per_second": 1.933,
	"eval_wer": 0.542240079020783,
	"step": 3015
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.9516933560371399,
	"eval_runtime": 54.4768,
	"eval_samples_per_second": 15.456,
	"eval_steps_per_second": 1.946,
	"eval_wer": 0.515383691285022,
	"step": 3350
	},
	{
	"epoch": 10.45,
	"learning_rate": 4.058175137783221e-05,
	"loss": 0.8759,
	"step": 3500
	},
	{
	"epoch": 11.0,
	"eval_loss": 0.9081984758377075,
	"eval_runtime": 54.3156,
	"eval_samples_per_second": 15.502,
	"eval_steps_per_second": 1.952,
	"eval_wer": 0.49020916480905535,
	"step": 3685
	},
	{
	"epoch": 11.94,
	"learning_rate": 3.905082669932639e-05,
	"loss": 0.7462,
	"step": 4000
	},
	{
	"epoch": 12.0,
	"eval_loss": 0.875782310962677,
	"eval_runtime": 54.5818,
	"eval_samples_per_second": 15.426,
	"eval_steps_per_second": 1.942,
	"eval_wer": 0.47056075390098373,
	"step": 4020
	},
	{
	"epoch": 13.0,
	"eval_loss": 0.8695769309997559,
	"eval_runtime": 54.4851,
	"eval_samples_per_second": 15.454,
	"eval_steps_per_second": 1.945,
	"eval_wer": 0.457239344874995,
	"step": 4355
	},
	{
	"epoch": 13.43,
	"learning_rate": 3.7519902020820577e-05,
	"loss": 0.6429,
	"step": 4500
	},
	{
	"epoch": 14.0,
	"eval_loss": 0.8731432557106018,
	"eval_runtime": 55.2734,
	"eval_samples_per_second": 15.233,
	"eval_steps_per_second": 1.918,
	"eval_wer": 0.45348852730354927,
	"step": 4690
	},
	{
	"epoch": 14.93,
	"learning_rate": 3.598897734231476e-05,
	"loss": 0.5672,
	"step": 5000
	},
	{
	"epoch": 15.0,
	"eval_loss": 0.8749489784240723,
	"eval_runtime": 54.2876,
	"eval_samples_per_second": 15.51,
	"eval_steps_per_second": 1.953,
	"eval_wer": 0.450792210045784,
	"step": 5025
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.8752743005752563,
	"eval_runtime": 54.5671,
	"eval_samples_per_second": 15.431,
	"eval_steps_per_second": 1.943,
	"eval_wer": 0.4512460456238237,
	"step": 5360
	},
	{
	"epoch": 16.42,
	"learning_rate": 3.445805266380894e-05,
	"loss": 0.4959,
	"step": 5500
	},
	{
	"epoch": 17.0,
	"eval_loss": 0.9039203524589539,
	"eval_runtime": 54.5236,
	"eval_samples_per_second": 15.443,
	"eval_steps_per_second": 1.944,
	"eval_wer": 0.4486965575236595,
	"step": 5695
	},
	{
	"epoch": 17.91,
	"learning_rate": 3.2927127985303126e-05,
	"loss": 0.4456,
	"step": 6000
	},
	{
	"epoch": 18.0,
	"eval_loss": 0.9161030650138855,
	"eval_runtime": 54.3598,
	"eval_samples_per_second": 15.489,
	"eval_steps_per_second": 1.95,
	"eval_wer": 0.443303923008129,
	"step": 6030
	},
	{
	"epoch": 19.0,
	"eval_loss": 0.9505767226219177,
	"eval_runtime": 54.2942,
	"eval_samples_per_second": 15.508,
	"eval_steps_per_second": 1.952,
	"eval_wer": 0.4429835684824539,
	"step": 6365
	},
	{
	"epoch": 19.4,
	"learning_rate": 3.13962033067973e-05,
	"loss": 0.392,
	"step": 6500
	},
	{
	"epoch": 20.0,
	"eval_loss": 0.9411688446998596,
	"eval_runtime": 54.3336,
	"eval_samples_per_second": 15.497,
	"eval_steps_per_second": 1.951,
	"eval_wer": 0.4438511953228239,
	"step": 6700
	},
	{
	"epoch": 20.9,
	"learning_rate": 2.9865278628291486e-05,
	"loss": 0.3594,
	"step": 7000
	},
	{
	"epoch": 21.0,
	"eval_loss": 0.9884207844734192,
	"eval_runtime": 54.3631,
	"eval_samples_per_second": 15.488,
	"eval_steps_per_second": 1.95,
	"eval_wer": 0.44162206174833485,
	"step": 7035
	},
	{
	"epoch": 22.0,
	"eval_loss": 1.022162914276123,
	"eval_runtime": 54.656,
	"eval_samples_per_second": 15.405,
	"eval_steps_per_second": 1.939,
	"eval_wer": 0.45101912783480386,
	"step": 7370
	},
	{
	"epoch": 22.39,
	"learning_rate": 2.833435394978567e-05,
	"loss": 0.3175,
	"step": 7500
	},
	{
	"epoch": 23.0,
	"eval_loss": 1.0344542264938354,
	"eval_runtime": 54.3628,
	"eval_samples_per_second": 15.489,
	"eval_steps_per_second": 1.95,
	"eval_wer": 0.4439312839542427,
	"step": 7705
	},
	{
	"epoch": 23.88,
	"learning_rate": 2.6803429271279856e-05,
	"loss": 0.2947,
	"step": 8000
	},
	{
	"epoch": 24.0,
	"eval_loss": 1.084883213043213,
	"eval_runtime": 54.6337,
	"eval_samples_per_second": 15.412,
	"eval_steps_per_second": 1.94,
	"eval_wer": 0.4464807720544069,
	"step": 8040
	},
	{
	"epoch": 25.0,
	"eval_loss": 1.0879119634628296,
	"eval_runtime": 54.4682,
	"eval_samples_per_second": 15.459,
	"eval_steps_per_second": 1.946,
	"eval_wer": 0.4472416140528852,
	"step": 8375
	},
	{
	"epoch": 25.37,
	"learning_rate": 2.527556644213105e-05,
	"loss": 0.2674,
	"step": 8500
	},
	{
	"epoch": 26.0,
	"eval_loss": 1.1071442365646362,
	"eval_runtime": 54.3908,
	"eval_samples_per_second": 15.481,
	"eval_steps_per_second": 1.949,
	"eval_wer": 0.4512460456238237,
	"step": 8710
	},
	{
	"epoch": 26.87,
	"learning_rate": 2.3744641763625232e-05,
	"loss": 0.2521,
	"step": 9000
	},
	{
	"epoch": 27.0,
	"eval_loss": 1.1146758794784546,
	"eval_runtime": 54.502,
	"eval_samples_per_second": 15.449,
	"eval_steps_per_second": 1.945,
	"eval_wer": 0.4494307033116649,
	"step": 9045
	},
	{
	"epoch": 28.0,
	"eval_loss": 1.1426175832748413,
	"eval_runtime": 54.4541,
	"eval_samples_per_second": 15.463,
	"eval_steps_per_second": 1.947,
	"eval_wer": 0.4525408118317605,
	"step": 9380
	},
	{
	"epoch": 28.36,
	"learning_rate": 2.2216778934476424e-05,
	"loss": 0.2321,
	"step": 9500
	},
	{
	"epoch": 29.0,
	"eval_loss": 1.1591500043869019,
	"eval_runtime": 54.6264,
	"eval_samples_per_second": 15.414,
	"eval_steps_per_second": 1.94,
	"eval_wer": 0.4440380687961344,
	"step": 9715
	},
	{
	"epoch": 29.85,
	"learning_rate": 2.0685854255970608e-05,
	"loss": 0.2235,
	"step": 10000
	},
	{
	"epoch": 30.0,
	"eval_loss": 1.178154706954956,
	"eval_runtime": 54.3939,
	"eval_samples_per_second": 15.48,
	"eval_steps_per_second": 1.949,
	"eval_wer": 0.44495908805745027,
	"step": 10050
	},
	{
	"epoch": 31.0,
	"eval_loss": 1.2050156593322754,
	"eval_runtime": 54.4103,
	"eval_samples_per_second": 15.475,
	"eval_steps_per_second": 1.948,
	"eval_wer": 0.4436643218495135,
	"step": 10385
	},
	{
	"epoch": 31.34,
	"learning_rate": 1.9154929577464788e-05,
	"loss": 0.2071,
	"step": 10500
	},
	{
	"epoch": 32.0,
	"eval_loss": 1.2223504781723022,
	"eval_runtime": 54.4403,
	"eval_samples_per_second": 15.466,
	"eval_steps_per_second": 1.947,
	"eval_wer": 0.4399535485937771,
	"step": 10720
	},
	{
	"epoch": 32.84,
	"learning_rate": 1.7624004898958974e-05,
	"loss": 0.1951,
	"step": 11000
	},
	{
	"epoch": 33.0,
	"eval_loss": 1.2269729375839233,
	"eval_runtime": 54.7494,
	"eval_samples_per_second": 15.379,
	"eval_steps_per_second": 1.936,
	"eval_wer": 0.4470680886848112,
	"step": 11055
	},
	{
	"epoch": 34.0,
	"eval_loss": 1.246551275253296,
	"eval_runtime": 54.3927,
	"eval_samples_per_second": 15.48,
	"eval_steps_per_second": 1.949,
	"eval_wer": 0.44833615868227505,
	"step": 11390
	},
	{
	"epoch": 34.33,
	"learning_rate": 1.6093080220453154e-05,
	"loss": 0.1892,
	"step": 11500
	},
	{
	"epoch": 35.0,
	"eval_loss": 1.232478380203247,
	"eval_runtime": 54.41,
	"eval_samples_per_second": 15.475,
	"eval_steps_per_second": 1.948,
	"eval_wer": 0.44286343553532576,
	"step": 11725
	},
	{
	"epoch": 35.82,
	"learning_rate": 1.4562155541947337e-05,
	"loss": 0.1809,
	"step": 12000
	},
	{
	"epoch": 36.0,
	"eval_loss": 1.2754629850387573,
	"eval_runtime": 54.5117,
	"eval_samples_per_second": 15.446,
	"eval_steps_per_second": 1.945,
	"eval_wer": 0.44272995448296115,
	"step": 12060
	},
	{
	"epoch": 37.0,
	"eval_loss": 1.2675007581710815,
	"eval_runtime": 54.594,
	"eval_samples_per_second": 15.423,
	"eval_steps_per_second": 1.942,
	"eval_wer": 0.4421693340630298,
	"step": 12395
	},
	{
	"epoch": 37.31,
	"learning_rate": 1.3031230863441517e-05,
	"loss": 0.1746,
	"step": 12500
	},
	{
	"epoch": 38.0,
	"eval_loss": 1.3022228479385376,
	"eval_runtime": 54.757,
	"eval_samples_per_second": 15.377,
	"eval_steps_per_second": 1.936,
	"eval_wer": 0.4417688909059359,
	"step": 12730
	},
	{
	"epoch": 38.81,
	"learning_rate": 1.15003061849357e-05,
	"loss": 0.1656,
	"step": 13000
	},
	{
	"epoch": 39.0,
	"eval_loss": 1.3178575038909912,
	"eval_runtime": 54.82,
	"eval_samples_per_second": 15.359,
	"eval_steps_per_second": 1.934,
	"eval_wer": 0.4407544349079648,
	"step": 13065
	},
	{
	"epoch": 40.0,
	"eval_loss": 1.293350338935852,
	"eval_runtime": 54.6833,
	"eval_samples_per_second": 15.398,
	"eval_steps_per_second": 1.938,
	"eval_wer": 0.4425430810096507,
	"step": 13400
	},
	{
	"epoch": 40.3,
	"learning_rate": 9.972443355786895e-06,
	"loss": 0.1614,
	"step": 13500
	},
	{
	"epoch": 41.0,
	"eval_loss": 1.3303664922714233,
	"eval_runtime": 54.5126,
	"eval_samples_per_second": 15.446,
	"eval_steps_per_second": 1.945,
	"eval_wer": 0.44259647343059655,
	"step": 13735
	},
	{
	"epoch": 41.79,
	"learning_rate": 8.441518677281078e-06,
	"loss": 0.1564,
	"step": 14000
	},
	{
	"epoch": 42.0,
	"eval_loss": 1.3147845268249512,
	"eval_runtime": 54.5529,
	"eval_samples_per_second": 15.435,
	"eval_steps_per_second": 1.943,
	"eval_wer": 0.44196911248448284,
	"step": 14070
	},
	{
	"epoch": 43.0,
	"eval_loss": 1.3266962766647339,
	"eval_runtime": 54.7201,
	"eval_samples_per_second": 15.387,
	"eval_steps_per_second": 1.937,
	"eval_wer": 0.44325053058718317,
	"step": 14405
	},
	{
	"epoch": 43.28,
	"learning_rate": 6.910593998775261e-06,
	"loss": 0.1546,
	"step": 14500
	},
	{
	"epoch": 44.0,
	"eval_loss": 1.3331360816955566,
	"eval_runtime": 54.6617,
	"eval_samples_per_second": 15.404,
	"eval_steps_per_second": 1.939,
	"eval_wer": 0.4412750110121868,
	"step": 14740
	},
	{
	"epoch": 44.78,
	"learning_rate": 5.379669320269443e-06,
	"loss": 0.1515,
	"step": 15000
	},
	{
	"epoch": 45.0,
	"eval_loss": 1.344504475593567,
	"eval_runtime": 54.543,
	"eval_samples_per_second": 15.437,
	"eval_steps_per_second": 1.943,
	"eval_wer": 0.43875221912249557,
	"step": 15075
	},
	{
	"epoch": 46.0,
	"eval_loss": 1.352994441986084,
	"eval_runtime": 54.5619,
	"eval_samples_per_second": 15.432,
	"eval_steps_per_second": 1.943,
	"eval_wer": 0.4372438832307754,
	"step": 15410
	},
	{
	"epoch": 46.27,
	"learning_rate": 3.851806491120637e-06,
	"loss": 0.147,
	"step": 15500
	},
	{
	"epoch": 47.0,
	"eval_loss": 1.34428870677948,
	"eval_runtime": 54.5828,
	"eval_samples_per_second": 15.426,
	"eval_steps_per_second": 1.942,
	"eval_wer": 0.4384585608072934,
	"step": 15745
	},
	{
	"epoch": 47.76,
	"learning_rate": 2.3208818126148195e-06,
	"loss": 0.1447,
	"step": 16000
	},
	{
	"epoch": 48.0,
	"eval_loss": 1.3502939939498901,
	"eval_runtime": 54.5282,
	"eval_samples_per_second": 15.442,
	"eval_steps_per_second": 1.944,
	"eval_wer": 0.436856788178918,
	"step": 16080
	},
	{
	"epoch": 49.0,
	"eval_loss": 1.358969807624817,
	"eval_runtime": 55.1854,
	"eval_samples_per_second": 15.258,
	"eval_steps_per_second": 1.921,
	"eval_wer": 0.4393261876476634,
	"step": 16415
	},
	{
	"epoch": 49.25,
	"learning_rate": 7.930189834660135e-07,
	"loss": 0.1437,
	"step": 16500
	},
	{
	"epoch": 50.0,
	"eval_loss": 1.3668413162231445,
	"eval_runtime": 54.6805,
	"eval_samples_per_second": 15.399,
	"eval_steps_per_second": 1.939,
	"eval_wer": 0.43717714270459307,
	"step": 16750
	},
	{
	"epoch": 50.0,
	"step": 16750,
	"total_flos": 1.4087701795050537e+20,
	"train_loss": 0.8170821473989913,
	"train_runtime": 40557.4985,
	"train_samples_per_second": 4.13,
	"train_steps_per_second": 0.413
	}
	],
	"max_steps": 16750,
	"num_train_epochs": 50,
	"total_flos": 1.4087701795050537e+20,
	"trial_name": null,
	"trial_params": null
	}