whisper2 / trainer_state.json

cheers again

cfa9ac9 verified about 2 months ago

No virus

29.8 kB

	{
	"best_metric": 28.05415617128463,
	"best_model_checkpoint": "whisper2/checkpoint-430",
	"epoch": 7.042253521126761,
	"eval_steps": 10,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07042253521126761,
	"grad_norm": 43.82194137573242,
	"learning_rate": 1.0000000000000001e-07,
	"loss": 3.9547,
	"step": 5
	},
	{
	"epoch": 0.14084507042253522,
	"grad_norm": 45.53117370605469,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 3.9553,
	"step": 10
	},
	{
	"epoch": 0.14084507042253522,
	"eval_loss": 3.964555501937866,
	"eval_runtime": 264.1292,
	"eval_samples_per_second": 1.893,
	"eval_steps_per_second": 0.239,
	"eval_wer": 74.87405541561712,
	"step": 10
	},
	{
	"epoch": 0.2112676056338028,
	"grad_norm": 46.162776947021484,
	"learning_rate": 3.0000000000000004e-07,
	"loss": 3.882,
	"step": 15
	},
	{
	"epoch": 0.28169014084507044,
	"grad_norm": 46.07596206665039,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 3.9548,
	"step": 20
	},
	{
	"epoch": 0.28169014084507044,
	"eval_loss": 3.8793957233428955,
	"eval_runtime": 256.6948,
	"eval_samples_per_second": 1.948,
	"eval_steps_per_second": 0.245,
	"eval_wer": 77.67632241813602,
	"step": 20
	},
	{
	"epoch": 0.352112676056338,
	"grad_norm": 45.13657760620117,
	"learning_rate": 5.000000000000001e-07,
	"loss": 3.9469,
	"step": 25
	},
	{
	"epoch": 0.4225352112676056,
	"grad_norm": 44.565940856933594,
	"learning_rate": 6.000000000000001e-07,
	"loss": 3.8127,
	"step": 30
	},
	{
	"epoch": 0.4225352112676056,
	"eval_loss": 3.740476608276367,
	"eval_runtime": 257.3378,
	"eval_samples_per_second": 1.943,
	"eval_steps_per_second": 0.245,
	"eval_wer": 76.4168765743073,
	"step": 30
	},
	{
	"epoch": 0.49295774647887325,
	"grad_norm": 44.24871826171875,
	"learning_rate": 7.000000000000001e-07,
	"loss": 3.7507,
	"step": 35
	},
	{
	"epoch": 0.5633802816901409,
	"grad_norm": 42.1717529296875,
	"learning_rate": 8.000000000000001e-07,
	"loss": 3.6178,
	"step": 40
	},
	{
	"epoch": 0.5633802816901409,
	"eval_loss": 3.5547332763671875,
	"eval_runtime": 256.8157,
	"eval_samples_per_second": 1.947,
	"eval_steps_per_second": 0.245,
	"eval_wer": 75.31486146095719,
	"step": 40
	},
	{
	"epoch": 0.6338028169014085,
	"grad_norm": 44.667205810546875,
	"learning_rate": 9.000000000000001e-07,
	"loss": 3.4825,
	"step": 45
	},
	{
	"epoch": 0.704225352112676,
	"grad_norm": 43.76979064941406,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 3.3992,
	"step": 50
	},
	{
	"epoch": 0.704225352112676,
	"eval_loss": 3.323503255844116,
	"eval_runtime": 255.1809,
	"eval_samples_per_second": 1.959,
	"eval_steps_per_second": 0.247,
	"eval_wer": 70.27707808564232,
	"step": 50
	},
	{
	"epoch": 0.7746478873239436,
	"grad_norm": 41.28179168701172,
	"learning_rate": 1.1e-06,
	"loss": 3.3124,
	"step": 55
	},
	{
	"epoch": 0.8450704225352113,
	"grad_norm": 40.813392639160156,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 3.1416,
	"step": 60
	},
	{
	"epoch": 0.8450704225352113,
	"eval_loss": 3.040179491043091,
	"eval_runtime": 255.4069,
	"eval_samples_per_second": 1.958,
	"eval_steps_per_second": 0.247,
	"eval_wer": 67.85264483627203,
	"step": 60
	},
	{
	"epoch": 0.9154929577464789,
	"grad_norm": 40.00282287597656,
	"learning_rate": 1.3e-06,
	"loss": 2.88,
	"step": 65
	},
	{
	"epoch": 0.9859154929577465,
	"grad_norm": 40.60588455200195,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 2.8052,
	"step": 70
	},
	{
	"epoch": 0.9859154929577465,
	"eval_loss": 2.6852359771728516,
	"eval_runtime": 254.3541,
	"eval_samples_per_second": 1.966,
	"eval_steps_per_second": 0.248,
	"eval_wer": 65.96347607052897,
	"step": 70
	},
	{
	"epoch": 1.056338028169014,
	"grad_norm": 44.205726623535156,
	"learning_rate": 1.5e-06,
	"loss": 2.4894,
	"step": 75
	},
	{
	"epoch": 1.1267605633802817,
	"grad_norm": 40.45851516723633,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 2.3513,
	"step": 80
	},
	{
	"epoch": 1.1267605633802817,
	"eval_loss": 2.223541021347046,
	"eval_runtime": 256.3144,
	"eval_samples_per_second": 1.951,
	"eval_steps_per_second": 0.246,
	"eval_wer": 68.3249370277078,
	"step": 80
	},
	{
	"epoch": 1.1971830985915493,
	"grad_norm": 37.049591064453125,
	"learning_rate": 1.7000000000000002e-06,
	"loss": 2.2021,
	"step": 85
	},
	{
	"epoch": 1.267605633802817,
	"grad_norm": 32.15092468261719,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 1.893,
	"step": 90
	},
	{
	"epoch": 1.267605633802817,
	"eval_loss": 1.6707711219787598,
	"eval_runtime": 254.2495,
	"eval_samples_per_second": 1.967,
	"eval_steps_per_second": 0.248,
	"eval_wer": 63.822418136020154,
	"step": 90
	},
	{
	"epoch": 1.3380281690140845,
	"grad_norm": 29.11300277709961,
	"learning_rate": 1.9000000000000002e-06,
	"loss": 1.6227,
	"step": 95
	},
	{
	"epoch": 1.408450704225352,
	"grad_norm": 19.466663360595703,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.2871,
	"step": 100
	},
	{
	"epoch": 1.408450704225352,
	"eval_loss": 1.164486050605774,
	"eval_runtime": 254.5126,
	"eval_samples_per_second": 1.965,
	"eval_steps_per_second": 0.248,
	"eval_wer": 63.25566750629723,
	"step": 100
	},
	{
	"epoch": 1.4788732394366197,
	"grad_norm": 15.238794326782227,
	"learning_rate": 2.1000000000000002e-06,
	"loss": 1.09,
	"step": 105
	},
	{
	"epoch": 1.5492957746478875,
	"grad_norm": 10.725071907043457,
	"learning_rate": 2.2e-06,
	"loss": 0.9146,
	"step": 110
	},
	{
	"epoch": 1.5492957746478875,
	"eval_loss": 0.8784648776054382,
	"eval_runtime": 256.185,
	"eval_samples_per_second": 1.952,
	"eval_steps_per_second": 0.246,
	"eval_wer": 56.83249370277078,
	"step": 110
	},
	{
	"epoch": 1.619718309859155,
	"grad_norm": 7.8202009201049805,
	"learning_rate": 2.3000000000000004e-06,
	"loss": 0.8882,
	"step": 115
	},
	{
	"epoch": 1.6901408450704225,
	"grad_norm": 8.60835075378418,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.8044,
	"step": 120
	},
	{
	"epoch": 1.6901408450704225,
	"eval_loss": 0.7906607985496521,
	"eval_runtime": 255.9613,
	"eval_samples_per_second": 1.953,
	"eval_steps_per_second": 0.246,
	"eval_wer": 46.977329974811084,
	"step": 120
	},
	{
	"epoch": 1.76056338028169,
	"grad_norm": 9.780821800231934,
	"learning_rate": 2.5e-06,
	"loss": 0.6849,
	"step": 125
	},
	{
	"epoch": 1.8309859154929577,
	"grad_norm": 9.33056926727295,
	"learning_rate": 2.6e-06,
	"loss": 0.6634,
	"step": 130
	},
	{
	"epoch": 1.8309859154929577,
	"eval_loss": 0.7425487637519836,
	"eval_runtime": 255.5846,
	"eval_samples_per_second": 1.956,
	"eval_steps_per_second": 0.246,
	"eval_wer": 47.48110831234257,
	"step": 130
	},
	{
	"epoch": 1.9014084507042255,
	"grad_norm": 8.966361999511719,
	"learning_rate": 2.7000000000000004e-06,
	"loss": 0.7421,
	"step": 135
	},
	{
	"epoch": 1.971830985915493,
	"grad_norm": 7.636435031890869,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.6722,
	"step": 140
	},
	{
	"epoch": 1.971830985915493,
	"eval_loss": 0.7099979519844055,
	"eval_runtime": 253.8483,
	"eval_samples_per_second": 1.97,
	"eval_steps_per_second": 0.248,
	"eval_wer": 45.90680100755667,
	"step": 140
	},
	{
	"epoch": 2.0422535211267605,
	"grad_norm": 8.085705757141113,
	"learning_rate": 2.9e-06,
	"loss": 0.6865,
	"step": 145
	},
	{
	"epoch": 2.112676056338028,
	"grad_norm": 8.131012916564941,
	"learning_rate": 3e-06,
	"loss": 0.6823,
	"step": 150
	},
	{
	"epoch": 2.112676056338028,
	"eval_loss": 0.6854478120803833,
	"eval_runtime": 255.8245,
	"eval_samples_per_second": 1.954,
	"eval_steps_per_second": 0.246,
	"eval_wer": 42.41183879093199,
	"step": 150
	},
	{
	"epoch": 2.183098591549296,
	"grad_norm": 8.054609298706055,
	"learning_rate": 3.1000000000000004e-06,
	"loss": 0.6001,
	"step": 155
	},
	{
	"epoch": 2.2535211267605635,
	"grad_norm": 6.9759063720703125,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.5802,
	"step": 160
	},
	{
	"epoch": 2.2535211267605635,
	"eval_loss": 0.6659273505210876,
	"eval_runtime": 254.855,
	"eval_samples_per_second": 1.962,
	"eval_steps_per_second": 0.247,
	"eval_wer": 40.42821158690176,
	"step": 160
	},
	{
	"epoch": 2.323943661971831,
	"grad_norm": 8.077522277832031,
	"learning_rate": 3.3000000000000006e-06,
	"loss": 0.6065,
	"step": 165
	},
	{
	"epoch": 2.3943661971830985,
	"grad_norm": 6.6878228187561035,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.6084,
	"step": 170
	},
	{
	"epoch": 2.3943661971830985,
	"eval_loss": 0.6503352522850037,
	"eval_runtime": 253.7567,
	"eval_samples_per_second": 1.97,
	"eval_steps_per_second": 0.248,
	"eval_wer": 40.8375314861461,
	"step": 170
	},
	{
	"epoch": 2.464788732394366,
	"grad_norm": 7.941697597503662,
	"learning_rate": 3.5e-06,
	"loss": 0.5972,
	"step": 175
	},
	{
	"epoch": 2.535211267605634,
	"grad_norm": 7.986533164978027,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.6038,
	"step": 180
	},
	{
	"epoch": 2.535211267605634,
	"eval_loss": 0.6345599889755249,
	"eval_runtime": 254.9306,
	"eval_samples_per_second": 1.961,
	"eval_steps_per_second": 0.247,
	"eval_wer": 41.49874055415617,
	"step": 180
	},
	{
	"epoch": 2.6056338028169015,
	"grad_norm": 6.744418144226074,
	"learning_rate": 3.7e-06,
	"loss": 0.5007,
	"step": 185
	},
	{
	"epoch": 2.676056338028169,
	"grad_norm": 6.323821544647217,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.5095,
	"step": 190
	},
	{
	"epoch": 2.676056338028169,
	"eval_loss": 0.6247134804725647,
	"eval_runtime": 257.1561,
	"eval_samples_per_second": 1.944,
	"eval_steps_per_second": 0.245,
	"eval_wer": 42.03400503778337,
	"step": 190
	},
	{
	"epoch": 2.7464788732394365,
	"grad_norm": 6.979465961456299,
	"learning_rate": 3.900000000000001e-06,
	"loss": 0.5943,
	"step": 195
	},
	{
	"epoch": 2.816901408450704,
	"grad_norm": 6.675357818603516,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.5251,
	"step": 200
	},
	{
	"epoch": 2.816901408450704,
	"eval_loss": 0.6154741644859314,
	"eval_runtime": 255.2235,
	"eval_samples_per_second": 1.959,
	"eval_steps_per_second": 0.247,
	"eval_wer": 39.357682619647356,
	"step": 200
	},
	{
	"epoch": 2.887323943661972,
	"grad_norm": 6.802981853485107,
	"learning_rate": 4.1e-06,
	"loss": 0.5528,
	"step": 205
	},
	{
	"epoch": 2.9577464788732395,
	"grad_norm": 6.836462497711182,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 0.5699,
	"step": 210
	},
	{
	"epoch": 2.9577464788732395,
	"eval_loss": 0.6045908331871033,
	"eval_runtime": 254.5675,
	"eval_samples_per_second": 1.964,
	"eval_steps_per_second": 0.247,
	"eval_wer": 38.350125944584384,
	"step": 210
	},
	{
	"epoch": 3.028169014084507,
	"grad_norm": 6.114952087402344,
	"learning_rate": 4.3e-06,
	"loss": 0.478,
	"step": 215
	},
	{
	"epoch": 3.0985915492957745,
	"grad_norm": 5.803236961364746,
	"learning_rate": 4.4e-06,
	"loss": 0.4839,
	"step": 220
	},
	{
	"epoch": 3.0985915492957745,
	"eval_loss": 0.5944731831550598,
	"eval_runtime": 254.5629,
	"eval_samples_per_second": 1.964,
	"eval_steps_per_second": 0.247,
	"eval_wer": 37.27959697732997,
	"step": 220
	},
	{
	"epoch": 3.169014084507042,
	"grad_norm": 5.95841646194458,
	"learning_rate": 4.5e-06,
	"loss": 0.4982,
	"step": 225
	},
	{
	"epoch": 3.23943661971831,
	"grad_norm": 6.992792129516602,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.4843,
	"step": 230
	},
	{
	"epoch": 3.23943661971831,
	"eval_loss": 0.5861312747001648,
	"eval_runtime": 257.6573,
	"eval_samples_per_second": 1.941,
	"eval_steps_per_second": 0.245,
	"eval_wer": 48.394206549118394,
	"step": 230
	},
	{
	"epoch": 3.3098591549295775,
	"grad_norm": 5.872804164886475,
	"learning_rate": 4.7e-06,
	"loss": 0.4471,
	"step": 235
	},
	{
	"epoch": 3.380281690140845,
	"grad_norm": 6.013182640075684,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.4538,
	"step": 240
	},
	{
	"epoch": 3.380281690140845,
	"eval_loss": 0.5793710350990295,
	"eval_runtime": 254.563,
	"eval_samples_per_second": 1.964,
	"eval_steps_per_second": 0.247,
	"eval_wer": 34.66624685138539,
	"step": 240
	},
	{
	"epoch": 3.4507042253521125,
	"grad_norm": 6.745495319366455,
	"learning_rate": 4.9000000000000005e-06,
	"loss": 0.4932,
	"step": 245
	},
	{
	"epoch": 3.52112676056338,
	"grad_norm": 5.320774078369141,
	"learning_rate": 5e-06,
	"loss": 0.4741,
	"step": 250
	},
	{
	"epoch": 3.52112676056338,
	"eval_loss": 0.5736850500106812,
	"eval_runtime": 255.3883,
	"eval_samples_per_second": 1.958,
	"eval_steps_per_second": 0.247,
	"eval_wer": 33.816120906801004,
	"step": 250
	},
	{
	"epoch": 3.591549295774648,
	"grad_norm": 6.753683090209961,
	"learning_rate": 5.1e-06,
	"loss": 0.5025,
	"step": 255
	},
	{
	"epoch": 3.6619718309859155,
	"grad_norm": 7.474066257476807,
	"learning_rate": 5.2e-06,
	"loss": 0.4542,
	"step": 260
	},
	{
	"epoch": 3.6619718309859155,
	"eval_loss": 0.5662725567817688,
	"eval_runtime": 255.3299,
	"eval_samples_per_second": 1.958,
	"eval_steps_per_second": 0.247,
	"eval_wer": 41.97103274559194,
	"step": 260
	},
	{
	"epoch": 3.732394366197183,
	"grad_norm": 5.626581192016602,
	"learning_rate": 5.300000000000001e-06,
	"loss": 0.4639,
	"step": 265
	},
	{
	"epoch": 3.802816901408451,
	"grad_norm": 5.518383026123047,
	"learning_rate": 5.400000000000001e-06,
	"loss": 0.4163,
	"step": 270
	},
	{
	"epoch": 3.802816901408451,
	"eval_loss": 0.5622957944869995,
	"eval_runtime": 256.1828,
	"eval_samples_per_second": 1.952,
	"eval_steps_per_second": 0.246,
	"eval_wer": 46.095717884130984,
	"step": 270
	},
	{
	"epoch": 3.873239436619718,
	"grad_norm": 6.132260799407959,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.3922,
	"step": 275
	},
	{
	"epoch": 3.943661971830986,
	"grad_norm": 5.8338942527771,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.3496,
	"step": 280
	},
	{
	"epoch": 3.943661971830986,
	"eval_loss": 0.560535192489624,
	"eval_runtime": 255.0016,
	"eval_samples_per_second": 1.961,
	"eval_steps_per_second": 0.247,
	"eval_wer": 42.2544080604534,
	"step": 280
	},
	{
	"epoch": 4.014084507042254,
	"grad_norm": 4.769192695617676,
	"learning_rate": 5.7e-06,
	"loss": 0.4389,
	"step": 285
	},
	{
	"epoch": 4.084507042253521,
	"grad_norm": 5.79905366897583,
	"learning_rate": 5.8e-06,
	"loss": 0.3835,
	"step": 290
	},
	{
	"epoch": 4.084507042253521,
	"eval_loss": 0.5556859374046326,
	"eval_runtime": 255.3987,
	"eval_samples_per_second": 1.958,
	"eval_steps_per_second": 0.247,
	"eval_wer": 41.656171284634766,
	"step": 290
	},
	{
	"epoch": 4.154929577464789,
	"grad_norm": 5.353799819946289,
	"learning_rate": 5.9e-06,
	"loss": 0.385,
	"step": 295
	},
	{
	"epoch": 4.225352112676056,
	"grad_norm": 5.164504528045654,
	"learning_rate": 6e-06,
	"loss": 0.3462,
	"step": 300
	},
	{
	"epoch": 4.225352112676056,
	"eval_loss": 0.550672173500061,
	"eval_runtime": 255.5806,
	"eval_samples_per_second": 1.956,
	"eval_steps_per_second": 0.246,
	"eval_wer": 36.39798488664987,
	"step": 300
	},
	{
	"epoch": 4.295774647887324,
	"grad_norm": 5.903466701507568,
	"learning_rate": 6.1e-06,
	"loss": 0.3733,
	"step": 305
	},
	{
	"epoch": 4.366197183098592,
	"grad_norm": 6.308957099914551,
	"learning_rate": 6.200000000000001e-06,
	"loss": 0.3133,
	"step": 310
	},
	{
	"epoch": 4.366197183098592,
	"eval_loss": 0.5452054738998413,
	"eval_runtime": 255.9204,
	"eval_samples_per_second": 1.954,
	"eval_steps_per_second": 0.246,
	"eval_wer": 42.56926952141058,
	"step": 310
	},
	{
	"epoch": 4.436619718309859,
	"grad_norm": 4.767759323120117,
	"learning_rate": 6.300000000000001e-06,
	"loss": 0.3544,
	"step": 315
	},
	{
	"epoch": 4.507042253521127,
	"grad_norm": 5.711643695831299,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.3638,
	"step": 320
	},
	{
	"epoch": 4.507042253521127,
	"eval_loss": 0.5434854030609131,
	"eval_runtime": 253.7024,
	"eval_samples_per_second": 1.971,
	"eval_steps_per_second": 0.248,
	"eval_wer": 35.957178841309826,
	"step": 320
	},
	{
	"epoch": 4.577464788732394,
	"grad_norm": 5.667789936065674,
	"learning_rate": 6.5000000000000004e-06,
	"loss": 0.3974,
	"step": 325
	},
	{
	"epoch": 4.647887323943662,
	"grad_norm": 6.108503341674805,
	"learning_rate": 6.600000000000001e-06,
	"loss": 0.3826,
	"step": 330
	},
	{
	"epoch": 4.647887323943662,
	"eval_loss": 0.5396420955657959,
	"eval_runtime": 252.7138,
	"eval_samples_per_second": 1.979,
	"eval_steps_per_second": 0.249,
	"eval_wer": 31.95843828715365,
	"step": 330
	},
	{
	"epoch": 4.71830985915493,
	"grad_norm": 5.889377117156982,
	"learning_rate": 6.700000000000001e-06,
	"loss": 0.3813,
	"step": 335
	},
	{
	"epoch": 4.788732394366197,
	"grad_norm": 5.469658851623535,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.3581,
	"step": 340
	},
	{
	"epoch": 4.788732394366197,
	"eval_loss": 0.5361477136611938,
	"eval_runtime": 251.8728,
	"eval_samples_per_second": 1.985,
	"eval_steps_per_second": 0.25,
	"eval_wer": 33.78463476070529,
	"step": 340
	},
	{
	"epoch": 4.859154929577465,
	"grad_norm": 5.188804626464844,
	"learning_rate": 6.9e-06,
	"loss": 0.3351,
	"step": 345
	},
	{
	"epoch": 4.929577464788732,
	"grad_norm": 5.103167533874512,
	"learning_rate": 7e-06,
	"loss": 0.3127,
	"step": 350
	},
	{
	"epoch": 4.929577464788732,
	"eval_loss": 0.5339432954788208,
	"eval_runtime": 252.7571,
	"eval_samples_per_second": 1.978,
	"eval_steps_per_second": 0.249,
	"eval_wer": 37.342569269521405,
	"step": 350
	},
	{
	"epoch": 5.0,
	"grad_norm": 9.485374450683594,
	"learning_rate": 7.100000000000001e-06,
	"loss": 0.3265,
	"step": 355
	},
	{
	"epoch": 5.070422535211268,
	"grad_norm": 5.010895252227783,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.2988,
	"step": 360
	},
	{
	"epoch": 5.070422535211268,
	"eval_loss": 0.5347580909729004,
	"eval_runtime": 253.3761,
	"eval_samples_per_second": 1.973,
	"eval_steps_per_second": 0.249,
	"eval_wer": 38.727959697733,
	"step": 360
	},
	{
	"epoch": 5.140845070422535,
	"grad_norm": 5.113419055938721,
	"learning_rate": 7.3e-06,
	"loss": 0.2953,
	"step": 365
	},
	{
	"epoch": 5.211267605633803,
	"grad_norm": 5.5772247314453125,
	"learning_rate": 7.4e-06,
	"loss": 0.2807,
	"step": 370
	},
	{
	"epoch": 5.211267605633803,
	"eval_loss": 0.5343714952468872,
	"eval_runtime": 252.932,
	"eval_samples_per_second": 1.977,
	"eval_steps_per_second": 0.249,
	"eval_wer": 35.51637279596977,
	"step": 370
	},
	{
	"epoch": 5.28169014084507,
	"grad_norm": 5.650921821594238,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.3147,
	"step": 375
	},
	{
	"epoch": 5.352112676056338,
	"grad_norm": 5.143499374389648,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.2612,
	"step": 380
	},
	{
	"epoch": 5.352112676056338,
	"eval_loss": 0.5304917097091675,
	"eval_runtime": 252.0942,
	"eval_samples_per_second": 1.983,
	"eval_steps_per_second": 0.25,
	"eval_wer": 34.66624685138539,
	"step": 380
	},
	{
	"epoch": 5.422535211267606,
	"grad_norm": 5.593881607055664,
	"learning_rate": 7.7e-06,
	"loss": 0.2606,
	"step": 385
	},
	{
	"epoch": 5.492957746478873,
	"grad_norm": 5.4485392570495605,
	"learning_rate": 7.800000000000002e-06,
	"loss": 0.2762,
	"step": 390
	},
	{
	"epoch": 5.492957746478873,
	"eval_loss": 0.5305802226066589,
	"eval_runtime": 252.0179,
	"eval_samples_per_second": 1.984,
	"eval_steps_per_second": 0.25,
	"eval_wer": 32.27329974811083,
	"step": 390
	},
	{
	"epoch": 5.563380281690141,
	"grad_norm": 4.250403881072998,
	"learning_rate": 7.9e-06,
	"loss": 0.2609,
	"step": 395
	},
	{
	"epoch": 5.633802816901408,
	"grad_norm": 5.564484596252441,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.299,
	"step": 400
	},
	{
	"epoch": 5.633802816901408,
	"eval_loss": 0.5266876220703125,
	"eval_runtime": 251.1581,
	"eval_samples_per_second": 1.991,
	"eval_steps_per_second": 0.251,
	"eval_wer": 36.87027707808564,
	"step": 400
	},
	{
	"epoch": 5.704225352112676,
	"grad_norm": 4.646668910980225,
	"learning_rate": 8.1e-06,
	"loss": 0.2368,
	"step": 405
	},
	{
	"epoch": 5.774647887323944,
	"grad_norm": 5.00687313079834,
	"learning_rate": 8.2e-06,
	"loss": 0.2718,
	"step": 410
	},
	{
	"epoch": 5.774647887323944,
	"eval_loss": 0.5231830477714539,
	"eval_runtime": 252.6711,
	"eval_samples_per_second": 1.979,
	"eval_steps_per_second": 0.249,
	"eval_wer": 41.68765743073048,
	"step": 410
	},
	{
	"epoch": 5.845070422535211,
	"grad_norm": 4.078917503356934,
	"learning_rate": 8.3e-06,
	"loss": 0.252,
	"step": 415
	},
	{
	"epoch": 5.915492957746479,
	"grad_norm": 4.877511501312256,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.2618,
	"step": 420
	},
	{
	"epoch": 5.915492957746479,
	"eval_loss": 0.5207710266113281,
	"eval_runtime": 252.1118,
	"eval_samples_per_second": 1.983,
	"eval_steps_per_second": 0.25,
	"eval_wer": 34.09949622166247,
	"step": 420
	},
	{
	"epoch": 5.985915492957746,
	"grad_norm": 5.141012191772461,
	"learning_rate": 8.5e-06,
	"loss": 0.3232,
	"step": 425
	},
	{
	"epoch": 6.056338028169014,
	"grad_norm": 4.299196243286133,
	"learning_rate": 8.6e-06,
	"loss": 0.2121,
	"step": 430
	},
	{
	"epoch": 6.056338028169014,
	"eval_loss": 0.5220197439193726,
	"eval_runtime": 252.0399,
	"eval_samples_per_second": 1.984,
	"eval_steps_per_second": 0.25,
	"eval_wer": 28.05415617128463,
	"step": 430
	},
	{
	"epoch": 6.126760563380282,
	"grad_norm": 3.769075393676758,
	"learning_rate": 8.700000000000001e-06,
	"loss": 0.2119,
	"step": 435
	},
	{
	"epoch": 6.197183098591549,
	"grad_norm": 4.311405181884766,
	"learning_rate": 8.8e-06,
	"loss": 0.1929,
	"step": 440
	},
	{
	"epoch": 6.197183098591549,
	"eval_loss": 0.5256190299987793,
	"eval_runtime": 253.2092,
	"eval_samples_per_second": 1.975,
	"eval_steps_per_second": 0.249,
	"eval_wer": 35.79974811083124,
	"step": 440
	},
	{
	"epoch": 6.267605633802817,
	"grad_norm": 3.735041618347168,
	"learning_rate": 8.900000000000001e-06,
	"loss": 0.2104,
	"step": 445
	},
	{
	"epoch": 6.338028169014084,
	"grad_norm": 6.507180690765381,
	"learning_rate": 9e-06,
	"loss": 0.2504,
	"step": 450
	},
	{
	"epoch": 6.338028169014084,
	"eval_loss": 0.529583215713501,
	"eval_runtime": 252.3402,
	"eval_samples_per_second": 1.981,
	"eval_steps_per_second": 0.25,
	"eval_wer": 32.87153652392947,
	"step": 450
	},
	{
	"epoch": 6.408450704225352,
	"grad_norm": 4.1670355796813965,
	"learning_rate": 9.100000000000001e-06,
	"loss": 0.1931,
	"step": 455
	},
	{
	"epoch": 6.47887323943662,
	"grad_norm": 4.260618209838867,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.2064,
	"step": 460
	},
	{
	"epoch": 6.47887323943662,
	"eval_loss": 0.5265011191368103,
	"eval_runtime": 253.5935,
	"eval_samples_per_second": 1.972,
	"eval_steps_per_second": 0.248,
	"eval_wer": 35.3904282115869,
	"step": 460
	},
	{
	"epoch": 6.549295774647887,
	"grad_norm": 4.580427169799805,
	"learning_rate": 9.3e-06,
	"loss": 0.2099,
	"step": 465
	},
	{
	"epoch": 6.619718309859155,
	"grad_norm": 5.135242938995361,
	"learning_rate": 9.4e-06,
	"loss": 0.2044,
	"step": 470
	},
	{
	"epoch": 6.619718309859155,
	"eval_loss": 0.5266779065132141,
	"eval_runtime": 253.6172,
	"eval_samples_per_second": 1.971,
	"eval_steps_per_second": 0.248,
	"eval_wer": 38.31863979848866,
	"step": 470
	},
	{
	"epoch": 6.690140845070422,
	"grad_norm": 4.770451545715332,
	"learning_rate": 9.5e-06,
	"loss": 0.2118,
	"step": 475
	},
	{
	"epoch": 6.76056338028169,
	"grad_norm": 4.276612758636475,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.1844,
	"step": 480
	},
	{
	"epoch": 6.76056338028169,
	"eval_loss": 0.5231460332870483,
	"eval_runtime": 253.7339,
	"eval_samples_per_second": 1.971,
	"eval_steps_per_second": 0.248,
	"eval_wer": 35.107052896725435,
	"step": 480
	},
	{
	"epoch": 6.830985915492958,
	"grad_norm": 6.741299152374268,
	"learning_rate": 9.7e-06,
	"loss": 0.2276,
	"step": 485
	},
	{
	"epoch": 6.901408450704225,
	"grad_norm": 5.4448370933532715,
	"learning_rate": 9.800000000000001e-06,
	"loss": 0.1867,
	"step": 490
	},
	{
	"epoch": 6.901408450704225,
	"eval_loss": 0.5235409140586853,
	"eval_runtime": 252.1039,
	"eval_samples_per_second": 1.983,
	"eval_steps_per_second": 0.25,
	"eval_wer": 31.580604534005037,
	"step": 490
	},
	{
	"epoch": 6.971830985915493,
	"grad_norm": 5.26415491104126,
	"learning_rate": 9.9e-06,
	"loss": 0.2232,
	"step": 495
	},
	{
	"epoch": 7.042253521126761,
	"grad_norm": 3.9737112522125244,
	"learning_rate": 0.0,
	"loss": 0.1562,
	"step": 500
	},
	{
	"epoch": 7.042253521126761,
	"eval_loss": 0.5233400464057922,
	"eval_runtime": 252.8742,
	"eval_samples_per_second": 1.977,
	"eval_steps_per_second": 0.249,
	"eval_wer": 31.10831234256927,
	"step": 500
	},
	{
	"epoch": 7.042253521126761,
	"step": 500,
	"total_flos": 7.8022170722304e+17,
	"train_loss": 0.9523631989955902,
	"train_runtime": 13251.4495,
	"train_samples_per_second": 2.415,
	"train_steps_per_second": 0.038
	}
	],
	"logging_steps": 5,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 10,
	"total_flos": 7.8022170722304e+17,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}