khaingsmon
/

whisper2

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # whisper2
-This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5233
 - Wer: 31.1083

 # whisper2
+This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on the tiny dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5233
 - Wer: 31.1083

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1180 @@

+{
+  "best_metric": 28.05415617128463,
+  "best_model_checkpoint": "whisper2/checkpoint-430",
+  "epoch": 7.042253521126761,
+  "eval_steps": 10,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07042253521126761,
+      "grad_norm": 43.82194137573242,
+      "learning_rate": 1.0000000000000001e-07,
+      "loss": 3.9547,
+      "step": 5
+    },
+    {
+      "epoch": 0.14084507042253522,
+      "grad_norm": 45.53117370605469,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 3.9553,
+      "step": 10
+    },
+    {
+      "epoch": 0.14084507042253522,
+      "eval_loss": 3.964555501937866,
+      "eval_runtime": 264.1292,
+      "eval_samples_per_second": 1.893,
+      "eval_steps_per_second": 0.239,
+      "eval_wer": 74.87405541561712,
+      "step": 10
+    },
+    {
+      "epoch": 0.2112676056338028,
+      "grad_norm": 46.162776947021484,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 3.882,
+      "step": 15
+    },
+    {
+      "epoch": 0.28169014084507044,
+      "grad_norm": 46.07596206665039,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 3.9548,
+      "step": 20
+    },
+    {
+      "epoch": 0.28169014084507044,
+      "eval_loss": 3.8793957233428955,
+      "eval_runtime": 256.6948,
+      "eval_samples_per_second": 1.948,
+      "eval_steps_per_second": 0.245,
+      "eval_wer": 77.67632241813602,
+      "step": 20
+    },
+    {
+      "epoch": 0.352112676056338,
+      "grad_norm": 45.13657760620117,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 3.9469,
+      "step": 25
+    },
+    {
+      "epoch": 0.4225352112676056,
+      "grad_norm": 44.565940856933594,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 3.8127,
+      "step": 30
+    },
+    {
+      "epoch": 0.4225352112676056,
+      "eval_loss": 3.740476608276367,
+      "eval_runtime": 257.3378,
+      "eval_samples_per_second": 1.943,
+      "eval_steps_per_second": 0.245,
+      "eval_wer": 76.4168765743073,
+      "step": 30
+    },
+    {
+      "epoch": 0.49295774647887325,
+      "grad_norm": 44.24871826171875,
+      "learning_rate": 7.000000000000001e-07,
+      "loss": 3.7507,
+      "step": 35
+    },
+    {
+      "epoch": 0.5633802816901409,
+      "grad_norm": 42.1717529296875,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 3.6178,
+      "step": 40
+    },
+    {
+      "epoch": 0.5633802816901409,
+      "eval_loss": 3.5547332763671875,
+      "eval_runtime": 256.8157,
+      "eval_samples_per_second": 1.947,
+      "eval_steps_per_second": 0.245,
+      "eval_wer": 75.31486146095719,
+      "step": 40
+    },
+    {
+      "epoch": 0.6338028169014085,
+      "grad_norm": 44.667205810546875,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 3.4825,
+      "step": 45
+    },
+    {
+      "epoch": 0.704225352112676,
+      "grad_norm": 43.76979064941406,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 3.3992,
+      "step": 50
+    },
+    {
+      "epoch": 0.704225352112676,
+      "eval_loss": 3.323503255844116,
+      "eval_runtime": 255.1809,
+      "eval_samples_per_second": 1.959,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 70.27707808564232,
+      "step": 50
+    },
+    {
+      "epoch": 0.7746478873239436,
+      "grad_norm": 41.28179168701172,
+      "learning_rate": 1.1e-06,
+      "loss": 3.3124,
+      "step": 55
+    },
+    {
+      "epoch": 0.8450704225352113,
+      "grad_norm": 40.813392639160156,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 3.1416,
+      "step": 60
+    },
+    {
+      "epoch": 0.8450704225352113,
+      "eval_loss": 3.040179491043091,
+      "eval_runtime": 255.4069,
+      "eval_samples_per_second": 1.958,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 67.85264483627203,
+      "step": 60
+    },
+    {
+      "epoch": 0.9154929577464789,
+      "grad_norm": 40.00282287597656,
+      "learning_rate": 1.3e-06,
+      "loss": 2.88,
+      "step": 65
+    },
+    {
+      "epoch": 0.9859154929577465,
+      "grad_norm": 40.60588455200195,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 2.8052,
+      "step": 70
+    },
+    {
+      "epoch": 0.9859154929577465,
+      "eval_loss": 2.6852359771728516,
+      "eval_runtime": 254.3541,
+      "eval_samples_per_second": 1.966,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 65.96347607052897,
+      "step": 70
+    },
+    {
+      "epoch": 1.056338028169014,
+      "grad_norm": 44.205726623535156,
+      "learning_rate": 1.5e-06,
+      "loss": 2.4894,
+      "step": 75
+    },
+    {
+      "epoch": 1.1267605633802817,
+      "grad_norm": 40.45851516723633,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 2.3513,
+      "step": 80
+    },
+    {
+      "epoch": 1.1267605633802817,
+      "eval_loss": 2.223541021347046,
+      "eval_runtime": 256.3144,
+      "eval_samples_per_second": 1.951,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 68.3249370277078,
+      "step": 80
+    },
+    {
+      "epoch": 1.1971830985915493,
+      "grad_norm": 37.049591064453125,
+      "learning_rate": 1.7000000000000002e-06,
+      "loss": 2.2021,
+      "step": 85
+    },
+    {
+      "epoch": 1.267605633802817,
+      "grad_norm": 32.15092468261719,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 1.893,
+      "step": 90
+    },
+    {
+      "epoch": 1.267605633802817,
+      "eval_loss": 1.6707711219787598,
+      "eval_runtime": 254.2495,
+      "eval_samples_per_second": 1.967,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 63.822418136020154,
+      "step": 90
+    },
+    {
+      "epoch": 1.3380281690140845,
+      "grad_norm": 29.11300277709961,
+      "learning_rate": 1.9000000000000002e-06,
+      "loss": 1.6227,
+      "step": 95
+    },
+    {
+      "epoch": 1.408450704225352,
+      "grad_norm": 19.466663360595703,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.2871,
+      "step": 100
+    },
+    {
+      "epoch": 1.408450704225352,
+      "eval_loss": 1.164486050605774,
+      "eval_runtime": 254.5126,
+      "eval_samples_per_second": 1.965,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 63.25566750629723,
+      "step": 100
+    },
+    {
+      "epoch": 1.4788732394366197,
+      "grad_norm": 15.238794326782227,
+      "learning_rate": 2.1000000000000002e-06,
+      "loss": 1.09,
+      "step": 105
+    },
+    {
+      "epoch": 1.5492957746478875,
+      "grad_norm": 10.725071907043457,
+      "learning_rate": 2.2e-06,
+      "loss": 0.9146,
+      "step": 110
+    },
+    {
+      "epoch": 1.5492957746478875,
+      "eval_loss": 0.8784648776054382,
+      "eval_runtime": 256.185,
+      "eval_samples_per_second": 1.952,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 56.83249370277078,
+      "step": 110
+    },
+    {
+      "epoch": 1.619718309859155,
+      "grad_norm": 7.8202009201049805,
+      "learning_rate": 2.3000000000000004e-06,
+      "loss": 0.8882,
+      "step": 115
+    },
+    {
+      "epoch": 1.6901408450704225,
+      "grad_norm": 8.60835075378418,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.8044,
+      "step": 120
+    },
+    {
+      "epoch": 1.6901408450704225,
+      "eval_loss": 0.7906607985496521,
+      "eval_runtime": 255.9613,
+      "eval_samples_per_second": 1.953,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 46.977329974811084,
+      "step": 120
+    },
+    {
+      "epoch": 1.76056338028169,
+      "grad_norm": 9.780821800231934,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6849,
+      "step": 125
+    },
+    {
+      "epoch": 1.8309859154929577,
+      "grad_norm": 9.33056926727295,
+      "learning_rate": 2.6e-06,
+      "loss": 0.6634,
+      "step": 130
+    },
+    {
+      "epoch": 1.8309859154929577,
+      "eval_loss": 0.7425487637519836,
+      "eval_runtime": 255.5846,
+      "eval_samples_per_second": 1.956,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 47.48110831234257,
+      "step": 130
+    },
+    {
+      "epoch": 1.9014084507042255,
+      "grad_norm": 8.966361999511719,
+      "learning_rate": 2.7000000000000004e-06,
+      "loss": 0.7421,
+      "step": 135
+    },
+    {
+      "epoch": 1.971830985915493,
+      "grad_norm": 7.636435031890869,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.6722,
+      "step": 140
+    },
+    {
+      "epoch": 1.971830985915493,
+      "eval_loss": 0.7099979519844055,
+      "eval_runtime": 253.8483,
+      "eval_samples_per_second": 1.97,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 45.90680100755667,
+      "step": 140
+    },
+    {
+      "epoch": 2.0422535211267605,
+      "grad_norm": 8.085705757141113,
+      "learning_rate": 2.9e-06,
+      "loss": 0.6865,
+      "step": 145
+    },
+    {
+      "epoch": 2.112676056338028,
+      "grad_norm": 8.131012916564941,
+      "learning_rate": 3e-06,
+      "loss": 0.6823,
+      "step": 150
+    },
+    {
+      "epoch": 2.112676056338028,
+      "eval_loss": 0.6854478120803833,
+      "eval_runtime": 255.8245,
+      "eval_samples_per_second": 1.954,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 42.41183879093199,
+      "step": 150
+    },
+    {
+      "epoch": 2.183098591549296,
+      "grad_norm": 8.054609298706055,
+      "learning_rate": 3.1000000000000004e-06,
+      "loss": 0.6001,
+      "step": 155
+    },
+    {
+      "epoch": 2.2535211267605635,
+      "grad_norm": 6.9759063720703125,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.5802,
+      "step": 160
+    },
+    {
+      "epoch": 2.2535211267605635,
+      "eval_loss": 0.6659273505210876,
+      "eval_runtime": 254.855,
+      "eval_samples_per_second": 1.962,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 40.42821158690176,
+      "step": 160
+    },
+    {
+      "epoch": 2.323943661971831,
+      "grad_norm": 8.077522277832031,
+      "learning_rate": 3.3000000000000006e-06,
+      "loss": 0.6065,
+      "step": 165
+    },
+    {
+      "epoch": 2.3943661971830985,
+      "grad_norm": 6.6878228187561035,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.6084,
+      "step": 170
+    },
+    {
+      "epoch": 2.3943661971830985,
+      "eval_loss": 0.6503352522850037,
+      "eval_runtime": 253.7567,
+      "eval_samples_per_second": 1.97,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 40.8375314861461,
+      "step": 170
+    },
+    {
+      "epoch": 2.464788732394366,
+      "grad_norm": 7.941697597503662,
+      "learning_rate": 3.5e-06,
+      "loss": 0.5972,
+      "step": 175
+    },
+    {
+      "epoch": 2.535211267605634,
+      "grad_norm": 7.986533164978027,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.6038,
+      "step": 180
+    },
+    {
+      "epoch": 2.535211267605634,
+      "eval_loss": 0.6345599889755249,
+      "eval_runtime": 254.9306,
+      "eval_samples_per_second": 1.961,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 41.49874055415617,
+      "step": 180
+    },
+    {
+      "epoch": 2.6056338028169015,
+      "grad_norm": 6.744418144226074,
+      "learning_rate": 3.7e-06,
+      "loss": 0.5007,
+      "step": 185
+    },
+    {
+      "epoch": 2.676056338028169,
+      "grad_norm": 6.323821544647217,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 0.5095,
+      "step": 190
+    },
+    {
+      "epoch": 2.676056338028169,
+      "eval_loss": 0.6247134804725647,
+      "eval_runtime": 257.1561,
+      "eval_samples_per_second": 1.944,
+      "eval_steps_per_second": 0.245,
+      "eval_wer": 42.03400503778337,
+      "step": 190
+    },
+    {
+      "epoch": 2.7464788732394365,
+      "grad_norm": 6.979465961456299,
+      "learning_rate": 3.900000000000001e-06,
+      "loss": 0.5943,
+      "step": 195
+    },
+    {
+      "epoch": 2.816901408450704,
+      "grad_norm": 6.675357818603516,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.5251,
+      "step": 200
+    },
+    {
+      "epoch": 2.816901408450704,
+      "eval_loss": 0.6154741644859314,
+      "eval_runtime": 255.2235,
+      "eval_samples_per_second": 1.959,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 39.357682619647356,
+      "step": 200
+    },
+    {
+      "epoch": 2.887323943661972,
+      "grad_norm": 6.802981853485107,
+      "learning_rate": 4.1e-06,
+      "loss": 0.5528,
+      "step": 205
+    },
+    {
+      "epoch": 2.9577464788732395,
+      "grad_norm": 6.836462497711182,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.5699,
+      "step": 210
+    },
+    {
+      "epoch": 2.9577464788732395,
+      "eval_loss": 0.6045908331871033,
+      "eval_runtime": 254.5675,
+      "eval_samples_per_second": 1.964,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 38.350125944584384,
+      "step": 210
+    },
+    {
+      "epoch": 3.028169014084507,
+      "grad_norm": 6.114952087402344,
+      "learning_rate": 4.3e-06,
+      "loss": 0.478,
+      "step": 215
+    },
+    {
+      "epoch": 3.0985915492957745,
+      "grad_norm": 5.803236961364746,
+      "learning_rate": 4.4e-06,
+      "loss": 0.4839,
+      "step": 220
+    },
+    {
+      "epoch": 3.0985915492957745,
+      "eval_loss": 0.5944731831550598,
+      "eval_runtime": 254.5629,
+      "eval_samples_per_second": 1.964,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 37.27959697732997,
+      "step": 220
+    },
+    {
+      "epoch": 3.169014084507042,
+      "grad_norm": 5.95841646194458,
+      "learning_rate": 4.5e-06,
+      "loss": 0.4982,
+      "step": 225
+    },
+    {
+      "epoch": 3.23943661971831,
+      "grad_norm": 6.992792129516602,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 0.4843,
+      "step": 230
+    },
+    {
+      "epoch": 3.23943661971831,
+      "eval_loss": 0.5861312747001648,
+      "eval_runtime": 257.6573,
+      "eval_samples_per_second": 1.941,
+      "eval_steps_per_second": 0.245,
+      "eval_wer": 48.394206549118394,
+      "step": 230
+    },
+    {
+      "epoch": 3.3098591549295775,
+      "grad_norm": 5.872804164886475,
+      "learning_rate": 4.7e-06,
+      "loss": 0.4471,
+      "step": 235
+    },
+    {
+      "epoch": 3.380281690140845,
+      "grad_norm": 6.013182640075684,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.4538,
+      "step": 240
+    },
+    {
+      "epoch": 3.380281690140845,
+      "eval_loss": 0.5793710350990295,
+      "eval_runtime": 254.563,
+      "eval_samples_per_second": 1.964,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 34.66624685138539,
+      "step": 240
+    },
+    {
+      "epoch": 3.4507042253521125,
+      "grad_norm": 6.745495319366455,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.4932,
+      "step": 245
+    },
+    {
+      "epoch": 3.52112676056338,
+      "grad_norm": 5.320774078369141,
+      "learning_rate": 5e-06,
+      "loss": 0.4741,
+      "step": 250
+    },
+    {
+      "epoch": 3.52112676056338,
+      "eval_loss": 0.5736850500106812,
+      "eval_runtime": 255.3883,
+      "eval_samples_per_second": 1.958,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 33.816120906801004,
+      "step": 250
+    },
+    {
+      "epoch": 3.591549295774648,
+      "grad_norm": 6.753683090209961,
+      "learning_rate": 5.1e-06,
+      "loss": 0.5025,
+      "step": 255
+    },
+    {
+      "epoch": 3.6619718309859155,
+      "grad_norm": 7.474066257476807,
+      "learning_rate": 5.2e-06,
+      "loss": 0.4542,
+      "step": 260
+    },
+    {
+      "epoch": 3.6619718309859155,
+      "eval_loss": 0.5662725567817688,
+      "eval_runtime": 255.3299,
+      "eval_samples_per_second": 1.958,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 41.97103274559194,
+      "step": 260
+    },
+    {
+      "epoch": 3.732394366197183,
+      "grad_norm": 5.626581192016602,
+      "learning_rate": 5.300000000000001e-06,
+      "loss": 0.4639,
+      "step": 265
+    },
+    {
+      "epoch": 3.802816901408451,
+      "grad_norm": 5.518383026123047,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 0.4163,
+      "step": 270
+    },
+    {
+      "epoch": 3.802816901408451,
+      "eval_loss": 0.5622957944869995,
+      "eval_runtime": 256.1828,
+      "eval_samples_per_second": 1.952,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 46.095717884130984,
+      "step": 270
+    },
+    {
+      "epoch": 3.873239436619718,
+      "grad_norm": 6.132260799407959,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.3922,
+      "step": 275
+    },
+    {
+      "epoch": 3.943661971830986,
+      "grad_norm": 5.8338942527771,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.3496,
+      "step": 280
+    },
+    {
+      "epoch": 3.943661971830986,
+      "eval_loss": 0.560535192489624,
+      "eval_runtime": 255.0016,
+      "eval_samples_per_second": 1.961,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 42.2544080604534,
+      "step": 280
+    },
+    {
+      "epoch": 4.014084507042254,
+      "grad_norm": 4.769192695617676,
+      "learning_rate": 5.7e-06,
+      "loss": 0.4389,
+      "step": 285
+    },
+    {
+      "epoch": 4.084507042253521,
+      "grad_norm": 5.79905366897583,
+      "learning_rate": 5.8e-06,
+      "loss": 0.3835,
+      "step": 290
+    },
+    {
+      "epoch": 4.084507042253521,
+      "eval_loss": 0.5556859374046326,
+      "eval_runtime": 255.3987,
+      "eval_samples_per_second": 1.958,
+      "eval_steps_per_second": 0.247,
+      "eval_wer": 41.656171284634766,
+      "step": 290
+    },
+    {
+      "epoch": 4.154929577464789,
+      "grad_norm": 5.353799819946289,
+      "learning_rate": 5.9e-06,
+      "loss": 0.385,
+      "step": 295
+    },
+    {
+      "epoch": 4.225352112676056,
+      "grad_norm": 5.164504528045654,
+      "learning_rate": 6e-06,
+      "loss": 0.3462,
+      "step": 300
+    },
+    {
+      "epoch": 4.225352112676056,
+      "eval_loss": 0.550672173500061,
+      "eval_runtime": 255.5806,
+      "eval_samples_per_second": 1.956,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 36.39798488664987,
+      "step": 300
+    },
+    {
+      "epoch": 4.295774647887324,
+      "grad_norm": 5.903466701507568,
+      "learning_rate": 6.1e-06,
+      "loss": 0.3733,
+      "step": 305
+    },
+    {
+      "epoch": 4.366197183098592,
+      "grad_norm": 6.308957099914551,
+      "learning_rate": 6.200000000000001e-06,
+      "loss": 0.3133,
+      "step": 310
+    },
+    {
+      "epoch": 4.366197183098592,
+      "eval_loss": 0.5452054738998413,
+      "eval_runtime": 255.9204,
+      "eval_samples_per_second": 1.954,
+      "eval_steps_per_second": 0.246,
+      "eval_wer": 42.56926952141058,
+      "step": 310
+    },
+    {
+      "epoch": 4.436619718309859,
+      "grad_norm": 4.767759323120117,
+      "learning_rate": 6.300000000000001e-06,
+      "loss": 0.3544,
+      "step": 315
+    },
+    {
+      "epoch": 4.507042253521127,
+      "grad_norm": 5.711643695831299,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.3638,
+      "step": 320
+    },
+    {
+      "epoch": 4.507042253521127,
+      "eval_loss": 0.5434854030609131,
+      "eval_runtime": 253.7024,
+      "eval_samples_per_second": 1.971,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 35.957178841309826,
+      "step": 320
+    },
+    {
+      "epoch": 4.577464788732394,
+      "grad_norm": 5.667789936065674,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.3974,
+      "step": 325
+    },
+    {
+      "epoch": 4.647887323943662,
+      "grad_norm": 6.108503341674805,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 0.3826,
+      "step": 330
+    },
+    {
+      "epoch": 4.647887323943662,
+      "eval_loss": 0.5396420955657959,
+      "eval_runtime": 252.7138,
+      "eval_samples_per_second": 1.979,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 31.95843828715365,
+      "step": 330
+    },
+    {
+      "epoch": 4.71830985915493,
+      "grad_norm": 5.889377117156982,
+      "learning_rate": 6.700000000000001e-06,
+      "loss": 0.3813,
+      "step": 335
+    },
+    {
+      "epoch": 4.788732394366197,
+      "grad_norm": 5.469658851623535,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.3581,
+      "step": 340
+    },
+    {
+      "epoch": 4.788732394366197,
+      "eval_loss": 0.5361477136611938,
+      "eval_runtime": 251.8728,
+      "eval_samples_per_second": 1.985,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 33.78463476070529,
+      "step": 340
+    },
+    {
+      "epoch": 4.859154929577465,
+      "grad_norm": 5.188804626464844,
+      "learning_rate": 6.9e-06,
+      "loss": 0.3351,
+      "step": 345
+    },
+    {
+      "epoch": 4.929577464788732,
+      "grad_norm": 5.103167533874512,
+      "learning_rate": 7e-06,
+      "loss": 0.3127,
+      "step": 350
+    },
+    {
+      "epoch": 4.929577464788732,
+      "eval_loss": 0.5339432954788208,
+      "eval_runtime": 252.7571,
+      "eval_samples_per_second": 1.978,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 37.342569269521405,
+      "step": 350
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 9.485374450683594,
+      "learning_rate": 7.100000000000001e-06,
+      "loss": 0.3265,
+      "step": 355
+    },
+    {
+      "epoch": 5.070422535211268,
+      "grad_norm": 5.010895252227783,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.2988,
+      "step": 360
+    },
+    {
+      "epoch": 5.070422535211268,
+      "eval_loss": 0.5347580909729004,
+      "eval_runtime": 253.3761,
+      "eval_samples_per_second": 1.973,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 38.727959697733,
+      "step": 360
+    },
+    {
+      "epoch": 5.140845070422535,
+      "grad_norm": 5.113419055938721,
+      "learning_rate": 7.3e-06,
+      "loss": 0.2953,
+      "step": 365
+    },
+    {
+      "epoch": 5.211267605633803,
+      "grad_norm": 5.5772247314453125,
+      "learning_rate": 7.4e-06,
+      "loss": 0.2807,
+      "step": 370
+    },
+    {
+      "epoch": 5.211267605633803,
+      "eval_loss": 0.5343714952468872,
+      "eval_runtime": 252.932,
+      "eval_samples_per_second": 1.977,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 35.51637279596977,
+      "step": 370
+    },
+    {
+      "epoch": 5.28169014084507,
+      "grad_norm": 5.650921821594238,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.3147,
+      "step": 375
+    },
+    {
+      "epoch": 5.352112676056338,
+      "grad_norm": 5.143499374389648,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.2612,
+      "step": 380
+    },
+    {
+      "epoch": 5.352112676056338,
+      "eval_loss": 0.5304917097091675,
+      "eval_runtime": 252.0942,
+      "eval_samples_per_second": 1.983,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 34.66624685138539,
+      "step": 380
+    },
+    {
+      "epoch": 5.422535211267606,
+      "grad_norm": 5.593881607055664,
+      "learning_rate": 7.7e-06,
+      "loss": 0.2606,
+      "step": 385
+    },
+    {
+      "epoch": 5.492957746478873,
+      "grad_norm": 5.4485392570495605,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.2762,
+      "step": 390
+    },
+    {
+      "epoch": 5.492957746478873,
+      "eval_loss": 0.5305802226066589,
+      "eval_runtime": 252.0179,
+      "eval_samples_per_second": 1.984,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 32.27329974811083,
+      "step": 390
+    },
+    {
+      "epoch": 5.563380281690141,
+      "grad_norm": 4.250403881072998,
+      "learning_rate": 7.9e-06,
+      "loss": 0.2609,
+      "step": 395
+    },
+    {
+      "epoch": 5.633802816901408,
+      "grad_norm": 5.564484596252441,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.299,
+      "step": 400
+    },
+    {
+      "epoch": 5.633802816901408,
+      "eval_loss": 0.5266876220703125,
+      "eval_runtime": 251.1581,
+      "eval_samples_per_second": 1.991,
+      "eval_steps_per_second": 0.251,
+      "eval_wer": 36.87027707808564,
+      "step": 400
+    },
+    {
+      "epoch": 5.704225352112676,
+      "grad_norm": 4.646668910980225,
+      "learning_rate": 8.1e-06,
+      "loss": 0.2368,
+      "step": 405
+    },
+    {
+      "epoch": 5.774647887323944,
+      "grad_norm": 5.00687313079834,
+      "learning_rate": 8.2e-06,
+      "loss": 0.2718,
+      "step": 410
+    },
+    {
+      "epoch": 5.774647887323944,
+      "eval_loss": 0.5231830477714539,
+      "eval_runtime": 252.6711,
+      "eval_samples_per_second": 1.979,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 41.68765743073048,
+      "step": 410
+    },
+    {
+      "epoch": 5.845070422535211,
+      "grad_norm": 4.078917503356934,
+      "learning_rate": 8.3e-06,
+      "loss": 0.252,
+      "step": 415
+    },
+    {
+      "epoch": 5.915492957746479,
+      "grad_norm": 4.877511501312256,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.2618,
+      "step": 420
+    },
+    {
+      "epoch": 5.915492957746479,
+      "eval_loss": 0.5207710266113281,
+      "eval_runtime": 252.1118,
+      "eval_samples_per_second": 1.983,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 34.09949622166247,
+      "step": 420
+    },
+    {
+      "epoch": 5.985915492957746,
+      "grad_norm": 5.141012191772461,
+      "learning_rate": 8.5e-06,
+      "loss": 0.3232,
+      "step": 425
+    },
+    {
+      "epoch": 6.056338028169014,
+      "grad_norm": 4.299196243286133,
+      "learning_rate": 8.6e-06,
+      "loss": 0.2121,
+      "step": 430
+    },
+    {
+      "epoch": 6.056338028169014,
+      "eval_loss": 0.5220197439193726,
+      "eval_runtime": 252.0399,
+      "eval_samples_per_second": 1.984,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 28.05415617128463,
+      "step": 430
+    },
+    {
+      "epoch": 6.126760563380282,
+      "grad_norm": 3.769075393676758,
+      "learning_rate": 8.700000000000001e-06,
+      "loss": 0.2119,
+      "step": 435
+    },
+    {
+      "epoch": 6.197183098591549,
+      "grad_norm": 4.311405181884766,
+      "learning_rate": 8.8e-06,
+      "loss": 0.1929,
+      "step": 440
+    },
+    {
+      "epoch": 6.197183098591549,
+      "eval_loss": 0.5256190299987793,
+      "eval_runtime": 253.2092,
+      "eval_samples_per_second": 1.975,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 35.79974811083124,
+      "step": 440
+    },
+    {
+      "epoch": 6.267605633802817,
+      "grad_norm": 3.735041618347168,
+      "learning_rate": 8.900000000000001e-06,
+      "loss": 0.2104,
+      "step": 445
+    },
+    {
+      "epoch": 6.338028169014084,
+      "grad_norm": 6.507180690765381,
+      "learning_rate": 9e-06,
+      "loss": 0.2504,
+      "step": 450
+    },
+    {
+      "epoch": 6.338028169014084,
+      "eval_loss": 0.529583215713501,
+      "eval_runtime": 252.3402,
+      "eval_samples_per_second": 1.981,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 32.87153652392947,
+      "step": 450
+    },
+    {
+      "epoch": 6.408450704225352,
+      "grad_norm": 4.1670355796813965,
+      "learning_rate": 9.100000000000001e-06,
+      "loss": 0.1931,
+      "step": 455
+    },
+    {
+      "epoch": 6.47887323943662,
+      "grad_norm": 4.260618209838867,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.2064,
+      "step": 460
+    },
+    {
+      "epoch": 6.47887323943662,
+      "eval_loss": 0.5265011191368103,
+      "eval_runtime": 253.5935,
+      "eval_samples_per_second": 1.972,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 35.3904282115869,
+      "step": 460
+    },
+    {
+      "epoch": 6.549295774647887,
+      "grad_norm": 4.580427169799805,
+      "learning_rate": 9.3e-06,
+      "loss": 0.2099,
+      "step": 465
+    },
+    {
+      "epoch": 6.619718309859155,
+      "grad_norm": 5.135242938995361,
+      "learning_rate": 9.4e-06,
+      "loss": 0.2044,
+      "step": 470
+    },
+    {
+      "epoch": 6.619718309859155,
+      "eval_loss": 0.5266779065132141,
+      "eval_runtime": 253.6172,
+      "eval_samples_per_second": 1.971,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 38.31863979848866,
+      "step": 470
+    },
+    {
+      "epoch": 6.690140845070422,
+      "grad_norm": 4.770451545715332,
+      "learning_rate": 9.5e-06,
+      "loss": 0.2118,
+      "step": 475
+    },
+    {
+      "epoch": 6.76056338028169,
+      "grad_norm": 4.276612758636475,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.1844,
+      "step": 480
+    },
+    {
+      "epoch": 6.76056338028169,
+      "eval_loss": 0.5231460332870483,
+      "eval_runtime": 253.7339,
+      "eval_samples_per_second": 1.971,
+      "eval_steps_per_second": 0.248,
+      "eval_wer": 35.107052896725435,
+      "step": 480
+    },
+    {
+      "epoch": 6.830985915492958,
+      "grad_norm": 6.741299152374268,
+      "learning_rate": 9.7e-06,
+      "loss": 0.2276,
+      "step": 485
+    },
+    {
+      "epoch": 6.901408450704225,
+      "grad_norm": 5.4448370933532715,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.1867,
+      "step": 490
+    },
+    {
+      "epoch": 6.901408450704225,
+      "eval_loss": 0.5235409140586853,
+      "eval_runtime": 252.1039,
+      "eval_samples_per_second": 1.983,
+      "eval_steps_per_second": 0.25,
+      "eval_wer": 31.580604534005037,
+      "step": 490
+    },
+    {
+      "epoch": 6.971830985915493,
+      "grad_norm": 5.26415491104126,
+      "learning_rate": 9.9e-06,
+      "loss": 0.2232,
+      "step": 495
+    },
+    {
+      "epoch": 7.042253521126761,
+      "grad_norm": 3.9737112522125244,
+      "learning_rate": 0.0,
+      "loss": 0.1562,
+      "step": 500
+    },
+    {
+      "epoch": 7.042253521126761,
+      "eval_loss": 0.5233400464057922,
+      "eval_runtime": 252.8742,
+      "eval_samples_per_second": 1.977,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 31.10831234256927,
+      "step": 500
+    },
+    {
+      "epoch": 7.042253521126761,
+      "step": 500,
+      "total_flos": 7.8022170722304e+17,
+      "train_loss": 0.9523631989955902,
+      "train_runtime": 13251.4495,
+      "train_samples_per_second": 2.415,
+      "train_steps_per_second": 0.038
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 10,
+  "total_flos": 7.8022170722304e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}