{ "best_metric": 12.839726193851513, "best_model_checkpoint": "./checkpoint-7500", "epoch": 2.176, "global_step": 8000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 4.6000000000000004e-07, "loss": 1.4182, "step": 25 }, { "epoch": 0.01, "learning_rate": 9.400000000000001e-07, "loss": 1.292, "step": 50 }, { "epoch": 0.01, "learning_rate": 1.44e-06, "loss": 1.0018, "step": 75 }, { "epoch": 0.01, "learning_rate": 1.94e-06, "loss": 0.7765, "step": 100 }, { "epoch": 0.02, "learning_rate": 2.4400000000000004e-06, "loss": 0.7103, "step": 125 }, { "epoch": 0.02, "learning_rate": 2.9400000000000002e-06, "loss": 0.6597, "step": 150 }, { "epoch": 0.02, "learning_rate": 3.44e-06, "loss": 0.6657, "step": 175 }, { "epoch": 0.03, "learning_rate": 3.94e-06, "loss": 0.5853, "step": 200 }, { "epoch": 0.03, "learning_rate": 4.440000000000001e-06, "loss": 0.5273, "step": 225 }, { "epoch": 0.03, "learning_rate": 4.94e-06, "loss": 0.5979, "step": 250 }, { "epoch": 0.03, "learning_rate": 5.4400000000000004e-06, "loss": 0.5861, "step": 275 }, { "epoch": 0.04, "learning_rate": 5.94e-06, "loss": 0.5085, "step": 300 }, { "epoch": 0.04, "learning_rate": 6.440000000000001e-06, "loss": 0.4827, "step": 325 }, { "epoch": 0.04, "learning_rate": 6.9400000000000005e-06, "loss": 0.4909, "step": 350 }, { "epoch": 0.05, "learning_rate": 7.440000000000001e-06, "loss": 0.4651, "step": 375 }, { "epoch": 0.05, "learning_rate": 7.94e-06, "loss": 0.494, "step": 400 }, { "epoch": 0.05, "learning_rate": 8.44e-06, "loss": 0.4188, "step": 425 }, { "epoch": 0.06, "learning_rate": 8.94e-06, "loss": 0.3849, "step": 450 }, { "epoch": 0.06, "learning_rate": 9.440000000000001e-06, "loss": 0.4577, "step": 475 }, { "epoch": 0.06, "learning_rate": 9.940000000000001e-06, "loss": 0.4415, "step": 500 }, { "epoch": 0.06, "eval_loss": 0.5091741681098938, "eval_runtime": 1795.8417, "eval_samples_per_second": 3.67, "eval_steps_per_second": 0.459, "eval_wer": 36.96990562598728, "step": 500 }, { "epoch": 0.07, "learning_rate": 9.970666666666668e-06, "loss": 0.4614, "step": 525 }, { "epoch": 0.07, "learning_rate": 9.937333333333334e-06, "loss": 0.4284, "step": 550 }, { "epoch": 0.07, "learning_rate": 9.904e-06, "loss": 0.4486, "step": 575 }, { "epoch": 0.07, "learning_rate": 9.870666666666667e-06, "loss": 0.4431, "step": 600 }, { "epoch": 0.08, "learning_rate": 9.837333333333335e-06, "loss": 0.4245, "step": 625 }, { "epoch": 0.08, "learning_rate": 9.804000000000001e-06, "loss": 0.4264, "step": 650 }, { "epoch": 0.08, "learning_rate": 9.770666666666668e-06, "loss": 0.4147, "step": 675 }, { "epoch": 0.09, "learning_rate": 9.737333333333334e-06, "loss": 0.4116, "step": 700 }, { "epoch": 0.09, "learning_rate": 9.704e-06, "loss": 0.3665, "step": 725 }, { "epoch": 0.09, "learning_rate": 9.670666666666667e-06, "loss": 0.4009, "step": 750 }, { "epoch": 0.1, "learning_rate": 9.637333333333333e-06, "loss": 0.3902, "step": 775 }, { "epoch": 0.1, "learning_rate": 9.604000000000002e-06, "loss": 0.3657, "step": 800 }, { "epoch": 0.1, "learning_rate": 9.570666666666666e-06, "loss": 0.3781, "step": 825 }, { "epoch": 0.11, "learning_rate": 9.537333333333334e-06, "loss": 0.4346, "step": 850 }, { "epoch": 0.11, "learning_rate": 9.504e-06, "loss": 0.4036, "step": 875 }, { "epoch": 0.11, "learning_rate": 9.470666666666667e-06, "loss": 0.3776, "step": 900 }, { "epoch": 0.12, "learning_rate": 9.437333333333334e-06, "loss": 0.4082, "step": 925 }, { "epoch": 0.12, "learning_rate": 9.404e-06, "loss": 0.3838, "step": 950 }, { "epoch": 0.12, "learning_rate": 9.370666666666668e-06, "loss": 0.4215, "step": 975 }, { "epoch": 0.12, "learning_rate": 9.337333333333335e-06, "loss": 0.4206, "step": 1000 }, { "epoch": 0.12, "eval_loss": 0.41442760825157166, "eval_runtime": 1800.1281, "eval_samples_per_second": 3.661, "eval_steps_per_second": 0.458, "eval_wer": 28.33650613633602, "step": 1000 }, { "epoch": 0.13, "learning_rate": 9.304000000000001e-06, "loss": 0.4108, "step": 1025 }, { "epoch": 0.13, "learning_rate": 9.270666666666667e-06, "loss": 0.3692, "step": 1050 }, { "epoch": 0.13, "learning_rate": 9.237333333333334e-06, "loss": 0.3605, "step": 1075 }, { "epoch": 0.14, "learning_rate": 9.204e-06, "loss": 0.3929, "step": 1100 }, { "epoch": 0.14, "learning_rate": 9.170666666666668e-06, "loss": 0.3869, "step": 1125 }, { "epoch": 0.14, "learning_rate": 9.137333333333333e-06, "loss": 0.3675, "step": 1150 }, { "epoch": 0.15, "learning_rate": 9.104000000000001e-06, "loss": 0.3237, "step": 1175 }, { "epoch": 0.15, "learning_rate": 9.070666666666668e-06, "loss": 0.3177, "step": 1200 }, { "epoch": 0.15, "learning_rate": 9.037333333333334e-06, "loss": 0.2814, "step": 1225 }, { "epoch": 0.16, "learning_rate": 9.004e-06, "loss": 0.3247, "step": 1250 }, { "epoch": 0.16, "learning_rate": 8.970666666666667e-06, "loss": 0.3484, "step": 1275 }, { "epoch": 0.16, "learning_rate": 8.937333333333335e-06, "loss": 0.3439, "step": 1300 }, { "epoch": 0.17, "learning_rate": 8.904e-06, "loss": 0.3278, "step": 1325 }, { "epoch": 0.17, "learning_rate": 8.870666666666668e-06, "loss": 0.2681, "step": 1350 }, { "epoch": 0.17, "learning_rate": 8.837333333333334e-06, "loss": 0.348, "step": 1375 }, { "epoch": 0.17, "learning_rate": 8.804e-06, "loss": 0.2799, "step": 1400 }, { "epoch": 0.18, "learning_rate": 8.770666666666667e-06, "loss": 0.2981, "step": 1425 }, { "epoch": 0.18, "learning_rate": 8.737333333333334e-06, "loss": 0.3931, "step": 1450 }, { "epoch": 0.18, "learning_rate": 8.704e-06, "loss": 0.3253, "step": 1475 }, { "epoch": 0.19, "learning_rate": 8.670666666666666e-06, "loss": 0.272, "step": 1500 }, { "epoch": 0.19, "eval_loss": 0.355411559343338, "eval_runtime": 1814.9108, "eval_samples_per_second": 3.632, "eval_steps_per_second": 0.454, "eval_wer": 24.74381303414476, "step": 1500 }, { "epoch": 0.19, "learning_rate": 8.637333333333335e-06, "loss": 0.2907, "step": 1525 }, { "epoch": 0.19, "learning_rate": 8.604000000000001e-06, "loss": 0.2933, "step": 1550 }, { "epoch": 0.2, "learning_rate": 8.570666666666667e-06, "loss": 0.3691, "step": 1575 }, { "epoch": 0.2, "learning_rate": 8.537333333333334e-06, "loss": 0.3436, "step": 1600 }, { "epoch": 0.2, "learning_rate": 8.504000000000002e-06, "loss": 0.3675, "step": 1625 }, { "epoch": 0.21, "learning_rate": 8.470666666666667e-06, "loss": 0.3293, "step": 1650 }, { "epoch": 0.21, "learning_rate": 8.437333333333335e-06, "loss": 0.3261, "step": 1675 }, { "epoch": 0.21, "learning_rate": 8.404000000000001e-06, "loss": 0.2926, "step": 1700 }, { "epoch": 0.22, "learning_rate": 8.370666666666668e-06, "loss": 0.3077, "step": 1725 }, { "epoch": 0.22, "learning_rate": 8.337333333333334e-06, "loss": 0.3402, "step": 1750 }, { "epoch": 0.22, "learning_rate": 8.304e-06, "loss": 0.3268, "step": 1775 }, { "epoch": 0.23, "learning_rate": 8.270666666666667e-06, "loss": 0.3374, "step": 1800 }, { "epoch": 0.23, "learning_rate": 8.237333333333333e-06, "loss": 0.2706, "step": 1825 }, { "epoch": 0.23, "learning_rate": 8.204000000000001e-06, "loss": 0.3183, "step": 1850 }, { "epoch": 0.23, "learning_rate": 8.170666666666668e-06, "loss": 0.2651, "step": 1875 }, { "epoch": 0.24, "learning_rate": 8.137333333333334e-06, "loss": 0.2943, "step": 1900 }, { "epoch": 0.24, "learning_rate": 8.104e-06, "loss": 0.2566, "step": 1925 }, { "epoch": 0.24, "learning_rate": 8.070666666666667e-06, "loss": 0.2191, "step": 1950 }, { "epoch": 0.25, "learning_rate": 8.037333333333334e-06, "loss": 0.2475, "step": 1975 }, { "epoch": 0.25, "learning_rate": 8.004e-06, "loss": 0.2681, "step": 2000 }, { "epoch": 0.25, "eval_loss": 0.32705560326576233, "eval_runtime": 1813.7957, "eval_samples_per_second": 3.634, "eval_steps_per_second": 0.454, "eval_wer": 22.141439507472963, "step": 2000 }, { "epoch": 0.25, "learning_rate": 7.970666666666668e-06, "loss": 0.2198, "step": 2025 }, { "epoch": 0.26, "learning_rate": 7.937333333333333e-06, "loss": 0.2488, "step": 2050 }, { "epoch": 0.26, "learning_rate": 7.904000000000001e-06, "loss": 0.255, "step": 2075 }, { "epoch": 0.26, "learning_rate": 7.872e-06, "loss": 0.3194, "step": 2100 }, { "epoch": 0.27, "learning_rate": 7.838666666666668e-06, "loss": 0.267, "step": 2125 }, { "epoch": 0.27, "learning_rate": 7.805333333333333e-06, "loss": 0.2606, "step": 2150 }, { "epoch": 0.27, "learning_rate": 7.772000000000001e-06, "loss": 0.298, "step": 2175 }, { "epoch": 0.28, "learning_rate": 7.738666666666668e-06, "loss": 0.2627, "step": 2200 }, { "epoch": 0.28, "learning_rate": 7.705333333333334e-06, "loss": 0.2669, "step": 2225 }, { "epoch": 0.28, "learning_rate": 7.672e-06, "loss": 0.2211, "step": 2250 }, { "epoch": 0.28, "learning_rate": 7.638666666666667e-06, "loss": 0.2841, "step": 2275 }, { "epoch": 0.29, "learning_rate": 7.605333333333333e-06, "loss": 0.2735, "step": 2300 }, { "epoch": 0.29, "learning_rate": 7.5720000000000005e-06, "loss": 0.2536, "step": 2325 }, { "epoch": 0.29, "learning_rate": 7.538666666666668e-06, "loss": 0.2091, "step": 2350 }, { "epoch": 0.3, "learning_rate": 7.505333333333334e-06, "loss": 0.2331, "step": 2375 }, { "epoch": 0.3, "learning_rate": 7.472000000000001e-06, "loss": 0.2565, "step": 2400 }, { "epoch": 0.3, "learning_rate": 7.438666666666667e-06, "loss": 0.2227, "step": 2425 }, { "epoch": 0.31, "learning_rate": 7.405333333333334e-06, "loss": 0.2651, "step": 2450 }, { "epoch": 0.31, "learning_rate": 7.372e-06, "loss": 0.2292, "step": 2475 }, { "epoch": 0.31, "learning_rate": 7.338666666666667e-06, "loss": 0.2099, "step": 2500 }, { "epoch": 0.31, "eval_loss": 0.2973436415195465, "eval_runtime": 1831.6606, "eval_samples_per_second": 3.598, "eval_steps_per_second": 0.45, "eval_wer": 19.53501559398923, "step": 2500 }, { "epoch": 0.32, "learning_rate": 7.3053333333333344e-06, "loss": 0.2293, "step": 2525 }, { "epoch": 0.32, "learning_rate": 7.272e-06, "loss": 0.2747, "step": 2550 }, { "epoch": 0.32, "learning_rate": 7.238666666666667e-06, "loss": 0.2507, "step": 2575 }, { "epoch": 0.33, "learning_rate": 7.2053333333333345e-06, "loss": 0.2871, "step": 2600 }, { "epoch": 0.33, "learning_rate": 7.172e-06, "loss": 0.2031, "step": 2625 }, { "epoch": 0.33, "learning_rate": 7.138666666666667e-06, "loss": 0.2481, "step": 2650 }, { "epoch": 0.33, "learning_rate": 7.105333333333334e-06, "loss": 0.2173, "step": 2675 }, { "epoch": 0.34, "learning_rate": 7.072000000000001e-06, "loss": 0.2288, "step": 2700 }, { "epoch": 0.34, "learning_rate": 7.038666666666667e-06, "loss": 0.2227, "step": 2725 }, { "epoch": 0.34, "learning_rate": 7.005333333333334e-06, "loss": 0.2666, "step": 2750 }, { "epoch": 0.35, "learning_rate": 6.972000000000001e-06, "loss": 0.2017, "step": 2775 }, { "epoch": 0.35, "learning_rate": 6.938666666666667e-06, "loss": 0.2285, "step": 2800 }, { "epoch": 0.35, "learning_rate": 6.905333333333334e-06, "loss": 0.2226, "step": 2825 }, { "epoch": 0.36, "learning_rate": 6.872000000000001e-06, "loss": 0.2294, "step": 2850 }, { "epoch": 0.36, "learning_rate": 6.838666666666667e-06, "loss": 0.2147, "step": 2875 }, { "epoch": 0.36, "learning_rate": 6.805333333333334e-06, "loss": 0.2145, "step": 2900 }, { "epoch": 0.37, "learning_rate": 6.7720000000000006e-06, "loss": 0.2163, "step": 2925 }, { "epoch": 0.37, "learning_rate": 6.738666666666667e-06, "loss": 0.2418, "step": 2950 }, { "epoch": 0.37, "learning_rate": 6.705333333333333e-06, "loss": 0.2254, "step": 2975 }, { "epoch": 0.38, "learning_rate": 6.672000000000001e-06, "loss": 0.2283, "step": 3000 }, { "epoch": 0.38, "eval_loss": 0.2760361433029175, "eval_runtime": 1825.768, "eval_samples_per_second": 3.61, "eval_steps_per_second": 0.451, "eval_wer": 18.50419215035036, "step": 3000 }, { "epoch": 0.38, "learning_rate": 6.638666666666668e-06, "loss": 0.2079, "step": 3025 }, { "epoch": 0.38, "learning_rate": 6.6053333333333335e-06, "loss": 0.2072, "step": 3050 }, { "epoch": 0.38, "learning_rate": 6.572000000000001e-06, "loss": 0.1982, "step": 3075 }, { "epoch": 0.39, "learning_rate": 6.538666666666667e-06, "loss": 0.203, "step": 3100 }, { "epoch": 0.39, "learning_rate": 6.505333333333334e-06, "loss": 0.2086, "step": 3125 }, { "epoch": 0.39, "learning_rate": 6.472000000000001e-06, "loss": 0.2027, "step": 3150 }, { "epoch": 0.4, "learning_rate": 6.438666666666667e-06, "loss": 0.2472, "step": 3175 }, { "epoch": 0.4, "learning_rate": 6.405333333333334e-06, "loss": 0.2051, "step": 3200 }, { "epoch": 0.4, "learning_rate": 6.372e-06, "loss": 0.2442, "step": 3225 }, { "epoch": 0.41, "learning_rate": 6.338666666666667e-06, "loss": 0.2736, "step": 3250 }, { "epoch": 0.41, "learning_rate": 6.305333333333333e-06, "loss": 0.2056, "step": 3275 }, { "epoch": 1.0, "learning_rate": 6.272e-06, "loss": 0.2335, "step": 3300 }, { "epoch": 1.0, "learning_rate": 6.2386666666666675e-06, "loss": 0.2336, "step": 3325 }, { "epoch": 1.01, "learning_rate": 6.205333333333334e-06, "loss": 0.2246, "step": 3350 }, { "epoch": 1.01, "learning_rate": 6.172e-06, "loss": 0.2139, "step": 3375 }, { "epoch": 1.01, "learning_rate": 6.138666666666668e-06, "loss": 0.1926, "step": 3400 }, { "epoch": 1.02, "learning_rate": 6.105333333333334e-06, "loss": 0.1883, "step": 3425 }, { "epoch": 1.02, "learning_rate": 6.0720000000000005e-06, "loss": 0.1779, "step": 3450 }, { "epoch": 1.02, "learning_rate": 6.038666666666667e-06, "loss": 0.1774, "step": 3475 }, { "epoch": 1.03, "learning_rate": 6.005333333333334e-06, "loss": 0.1477, "step": 3500 }, { "epoch": 1.03, "eval_loss": 0.263724148273468, "eval_runtime": 1810.3464, "eval_samples_per_second": 3.641, "eval_steps_per_second": 0.455, "eval_wer": 17.149337761756247, "step": 3500 }, { "epoch": 1.03, "learning_rate": 5.972e-06, "loss": 0.1764, "step": 3525 }, { "epoch": 1.03, "learning_rate": 5.938666666666667e-06, "loss": 0.1823, "step": 3550 }, { "epoch": 1.03, "learning_rate": 5.905333333333334e-06, "loss": 0.1493, "step": 3575 }, { "epoch": 1.04, "learning_rate": 5.872000000000001e-06, "loss": 0.1619, "step": 3600 }, { "epoch": 1.04, "learning_rate": 5.838666666666667e-06, "loss": 0.1614, "step": 3625 }, { "epoch": 1.04, "learning_rate": 5.8053333333333335e-06, "loss": 0.1225, "step": 3650 }, { "epoch": 1.05, "learning_rate": 5.772000000000001e-06, "loss": 0.1155, "step": 3675 }, { "epoch": 1.05, "learning_rate": 5.738666666666667e-06, "loss": 0.1134, "step": 3700 }, { "epoch": 1.05, "learning_rate": 5.705333333333334e-06, "loss": 0.1134, "step": 3725 }, { "epoch": 1.06, "learning_rate": 5.672000000000001e-06, "loss": 0.1068, "step": 3750 }, { "epoch": 1.06, "learning_rate": 5.6386666666666665e-06, "loss": 0.1295, "step": 3775 }, { "epoch": 1.06, "learning_rate": 5.605333333333334e-06, "loss": 0.0968, "step": 3800 }, { "epoch": 1.07, "learning_rate": 5.572000000000001e-06, "loss": 0.1202, "step": 3825 }, { "epoch": 1.07, "learning_rate": 5.538666666666667e-06, "loss": 0.1058, "step": 3850 }, { "epoch": 1.07, "learning_rate": 5.505333333333334e-06, "loss": 0.0992, "step": 3875 }, { "epoch": 1.08, "learning_rate": 5.472e-06, "loss": 0.1327, "step": 3900 }, { "epoch": 1.08, "learning_rate": 5.4386666666666676e-06, "loss": 0.1263, "step": 3925 }, { "epoch": 1.08, "learning_rate": 5.405333333333333e-06, "loss": 0.1284, "step": 3950 }, { "epoch": 1.08, "learning_rate": 5.372e-06, "loss": 0.1268, "step": 3975 }, { "epoch": 1.09, "learning_rate": 5.338666666666668e-06, "loss": 0.1008, "step": 4000 }, { "epoch": 1.09, "eval_loss": 0.2592164874076843, "eval_runtime": 1806.1641, "eval_samples_per_second": 3.649, "eval_steps_per_second": 0.456, "eval_wer": 16.393940621329335, "step": 4000 }, { "epoch": 1.09, "learning_rate": 5.305333333333333e-06, "loss": 0.1054, "step": 4025 }, { "epoch": 1.09, "learning_rate": 5.2720000000000005e-06, "loss": 0.0985, "step": 4050 }, { "epoch": 1.1, "learning_rate": 5.238666666666668e-06, "loss": 0.1112, "step": 4075 }, { "epoch": 1.1, "learning_rate": 5.205333333333333e-06, "loss": 0.117, "step": 4100 }, { "epoch": 1.1, "learning_rate": 5.172000000000001e-06, "loss": 0.1106, "step": 4125 }, { "epoch": 1.11, "learning_rate": 5.140000000000001e-06, "loss": 0.0938, "step": 4150 }, { "epoch": 1.11, "learning_rate": 5.106666666666667e-06, "loss": 0.1119, "step": 4175 }, { "epoch": 1.11, "learning_rate": 5.073333333333334e-06, "loss": 0.1204, "step": 4200 }, { "epoch": 1.12, "learning_rate": 5.04e-06, "loss": 0.1002, "step": 4225 }, { "epoch": 1.12, "learning_rate": 5.006666666666667e-06, "loss": 0.1252, "step": 4250 }, { "epoch": 1.12, "learning_rate": 4.973333333333334e-06, "loss": 0.1189, "step": 4275 }, { "epoch": 1.13, "learning_rate": 4.94e-06, "loss": 0.1079, "step": 4300 }, { "epoch": 1.13, "learning_rate": 4.9066666666666666e-06, "loss": 0.1053, "step": 4325 }, { "epoch": 1.13, "learning_rate": 4.873333333333334e-06, "loss": 0.1105, "step": 4350 }, { "epoch": 1.13, "learning_rate": 4.84e-06, "loss": 0.0836, "step": 4375 }, { "epoch": 1.14, "learning_rate": 4.8066666666666675e-06, "loss": 0.0927, "step": 4400 }, { "epoch": 1.14, "learning_rate": 4.773333333333334e-06, "loss": 0.0861, "step": 4425 }, { "epoch": 1.14, "learning_rate": 4.74e-06, "loss": 0.0705, "step": 4450 }, { "epoch": 1.15, "learning_rate": 4.706666666666667e-06, "loss": 0.0845, "step": 4475 }, { "epoch": 1.15, "learning_rate": 4.673333333333333e-06, "loss": 0.0866, "step": 4500 }, { "epoch": 1.15, "eval_loss": 0.2561035752296448, "eval_runtime": 1801.0109, "eval_samples_per_second": 3.66, "eval_steps_per_second": 0.458, "eval_wer": 15.806634533597958, "step": 4500 }, { "epoch": 1.15, "learning_rate": 4.6400000000000005e-06, "loss": 0.0792, "step": 4525 }, { "epoch": 1.16, "learning_rate": 4.606666666666667e-06, "loss": 0.0782, "step": 4550 }, { "epoch": 1.16, "learning_rate": 4.573333333333333e-06, "loss": 0.1199, "step": 4575 }, { "epoch": 1.16, "learning_rate": 4.540000000000001e-06, "loss": 0.0928, "step": 4600 }, { "epoch": 1.17, "learning_rate": 4.506666666666667e-06, "loss": 0.0901, "step": 4625 }, { "epoch": 1.17, "learning_rate": 4.473333333333334e-06, "loss": 0.0739, "step": 4650 }, { "epoch": 1.17, "learning_rate": 4.440000000000001e-06, "loss": 0.0807, "step": 4675 }, { "epoch": 1.18, "learning_rate": 4.406666666666667e-06, "loss": 0.1097, "step": 4700 }, { "epoch": 1.18, "learning_rate": 4.3733333333333335e-06, "loss": 0.0824, "step": 4725 }, { "epoch": 1.18, "learning_rate": 4.34e-06, "loss": 0.0923, "step": 4750 }, { "epoch": 1.18, "learning_rate": 4.306666666666666e-06, "loss": 0.0891, "step": 4775 }, { "epoch": 1.19, "learning_rate": 4.273333333333334e-06, "loss": 0.0765, "step": 4800 }, { "epoch": 1.19, "learning_rate": 4.24e-06, "loss": 0.0725, "step": 4825 }, { "epoch": 1.19, "learning_rate": 4.206666666666667e-06, "loss": 0.0743, "step": 4850 }, { "epoch": 1.2, "learning_rate": 4.173333333333334e-06, "loss": 0.0888, "step": 4875 }, { "epoch": 1.2, "learning_rate": 4.14e-06, "loss": 0.088, "step": 4900 }, { "epoch": 1.2, "learning_rate": 4.1066666666666674e-06, "loss": 0.0856, "step": 4925 }, { "epoch": 1.21, "learning_rate": 4.073333333333334e-06, "loss": 0.0862, "step": 4950 }, { "epoch": 1.21, "learning_rate": 4.04e-06, "loss": 0.0986, "step": 4975 }, { "epoch": 1.21, "learning_rate": 4.006666666666667e-06, "loss": 0.0915, "step": 5000 }, { "epoch": 1.21, "eval_loss": 0.24113886058330536, "eval_runtime": 1828.0642, "eval_samples_per_second": 3.605, "eval_steps_per_second": 0.451, "eval_wer": 15.030985459111346, "step": 5000 }, { "epoch": 1.22, "learning_rate": 3.973333333333333e-06, "loss": 0.0955, "step": 5025 }, { "epoch": 1.22, "learning_rate": 3.94e-06, "loss": 0.0729, "step": 5050 }, { "epoch": 1.22, "learning_rate": 3.906666666666667e-06, "loss": 0.0799, "step": 5075 }, { "epoch": 1.23, "learning_rate": 3.873333333333333e-06, "loss": 0.0848, "step": 5100 }, { "epoch": 1.23, "learning_rate": 3.8400000000000005e-06, "loss": 0.0813, "step": 5125 }, { "epoch": 1.23, "learning_rate": 3.806666666666667e-06, "loss": 0.0719, "step": 5150 }, { "epoch": 1.23, "learning_rate": 3.7733333333333338e-06, "loss": 0.0781, "step": 5175 }, { "epoch": 1.24, "learning_rate": 3.74e-06, "loss": 0.0582, "step": 5200 }, { "epoch": 1.24, "learning_rate": 3.7066666666666666e-06, "loss": 0.0838, "step": 5225 }, { "epoch": 1.24, "learning_rate": 3.673333333333334e-06, "loss": 0.0721, "step": 5250 }, { "epoch": 1.25, "learning_rate": 3.6400000000000003e-06, "loss": 0.0672, "step": 5275 }, { "epoch": 1.25, "learning_rate": 3.606666666666667e-06, "loss": 0.0654, "step": 5300 }, { "epoch": 1.25, "learning_rate": 3.5733333333333336e-06, "loss": 0.0514, "step": 5325 }, { "epoch": 1.26, "learning_rate": 3.54e-06, "loss": 0.061, "step": 5350 }, { "epoch": 1.26, "learning_rate": 3.5066666666666673e-06, "loss": 0.0919, "step": 5375 }, { "epoch": 1.26, "learning_rate": 3.4733333333333337e-06, "loss": 0.0565, "step": 5400 }, { "epoch": 1.27, "learning_rate": 3.44e-06, "loss": 0.0758, "step": 5425 }, { "epoch": 1.27, "learning_rate": 3.406666666666667e-06, "loss": 0.0724, "step": 5450 }, { "epoch": 1.27, "learning_rate": 3.3733333333333334e-06, "loss": 0.0687, "step": 5475 }, { "epoch": 1.28, "learning_rate": 3.3400000000000006e-06, "loss": 0.0803, "step": 5500 }, { "epoch": 1.28, "eval_loss": 0.2330218106508255, "eval_runtime": 1819.3056, "eval_samples_per_second": 3.623, "eval_steps_per_second": 0.453, "eval_wer": 14.7616347361173, "step": 5500 }, { "epoch": 1.28, "learning_rate": 3.306666666666667e-06, "loss": 0.0637, "step": 5525 }, { "epoch": 1.28, "learning_rate": 3.2733333333333335e-06, "loss": 0.0459, "step": 5550 }, { "epoch": 1.28, "learning_rate": 3.2400000000000003e-06, "loss": 0.0658, "step": 5575 }, { "epoch": 1.29, "learning_rate": 3.2066666666666667e-06, "loss": 0.0685, "step": 5600 }, { "epoch": 1.29, "learning_rate": 3.173333333333334e-06, "loss": 0.0501, "step": 5625 }, { "epoch": 1.29, "learning_rate": 3.1400000000000004e-06, "loss": 0.066, "step": 5650 }, { "epoch": 1.3, "learning_rate": 3.106666666666667e-06, "loss": 0.0689, "step": 5675 }, { "epoch": 1.3, "learning_rate": 3.0733333333333337e-06, "loss": 0.0632, "step": 5700 }, { "epoch": 1.3, "learning_rate": 3.04e-06, "loss": 0.078, "step": 5725 }, { "epoch": 1.31, "learning_rate": 3.0066666666666674e-06, "loss": 0.0889, "step": 5750 }, { "epoch": 1.31, "learning_rate": 2.973333333333334e-06, "loss": 0.0808, "step": 5775 }, { "epoch": 1.31, "learning_rate": 2.9400000000000002e-06, "loss": 0.059, "step": 5800 }, { "epoch": 1.32, "learning_rate": 2.906666666666667e-06, "loss": 0.0658, "step": 5825 }, { "epoch": 1.32, "learning_rate": 2.8733333333333335e-06, "loss": 0.0509, "step": 5850 }, { "epoch": 1.32, "learning_rate": 2.84e-06, "loss": 0.0612, "step": 5875 }, { "epoch": 1.33, "learning_rate": 2.806666666666667e-06, "loss": 0.0515, "step": 5900 }, { "epoch": 1.33, "learning_rate": 2.7733333333333336e-06, "loss": 0.051, "step": 5925 }, { "epoch": 1.33, "learning_rate": 2.7400000000000004e-06, "loss": 0.09, "step": 5950 }, { "epoch": 1.33, "learning_rate": 2.706666666666667e-06, "loss": 0.0568, "step": 5975 }, { "epoch": 1.34, "learning_rate": 2.6733333333333333e-06, "loss": 0.0674, "step": 6000 }, { "epoch": 1.34, "eval_loss": 0.23249581456184387, "eval_runtime": 1802.9331, "eval_samples_per_second": 3.656, "eval_steps_per_second": 0.457, "eval_wer": 13.846247316618737, "step": 6000 }, { "epoch": 1.34, "learning_rate": 2.64e-06, "loss": 0.0397, "step": 6025 }, { "epoch": 1.34, "learning_rate": 2.606666666666667e-06, "loss": 0.0617, "step": 6050 }, { "epoch": 1.35, "learning_rate": 2.573333333333334e-06, "loss": 0.0619, "step": 6075 }, { "epoch": 1.35, "learning_rate": 2.5400000000000002e-06, "loss": 0.0641, "step": 6100 }, { "epoch": 1.35, "learning_rate": 2.5066666666666667e-06, "loss": 0.0443, "step": 6125 }, { "epoch": 1.36, "learning_rate": 2.4733333333333335e-06, "loss": 0.0639, "step": 6150 }, { "epoch": 1.36, "learning_rate": 2.4400000000000004e-06, "loss": 0.0411, "step": 6175 }, { "epoch": 1.36, "learning_rate": 2.4066666666666668e-06, "loss": 0.0634, "step": 6200 }, { "epoch": 1.37, "learning_rate": 2.3733333333333336e-06, "loss": 0.0666, "step": 6225 }, { "epoch": 1.37, "learning_rate": 2.3400000000000005e-06, "loss": 0.0583, "step": 6250 }, { "epoch": 1.37, "learning_rate": 2.306666666666667e-06, "loss": 0.0491, "step": 6275 }, { "epoch": 1.38, "learning_rate": 2.2733333333333333e-06, "loss": 0.0515, "step": 6300 }, { "epoch": 1.38, "learning_rate": 2.24e-06, "loss": 0.0758, "step": 6325 }, { "epoch": 1.38, "learning_rate": 2.206666666666667e-06, "loss": 0.0582, "step": 6350 }, { "epoch": 1.38, "learning_rate": 2.1733333333333334e-06, "loss": 0.0468, "step": 6375 }, { "epoch": 1.39, "learning_rate": 2.1413333333333336e-06, "loss": 0.0589, "step": 6400 }, { "epoch": 1.39, "learning_rate": 2.108e-06, "loss": 0.0463, "step": 6425 }, { "epoch": 1.39, "learning_rate": 2.074666666666667e-06, "loss": 0.0396, "step": 6450 }, { "epoch": 1.4, "learning_rate": 2.0413333333333337e-06, "loss": 0.0605, "step": 6475 }, { "epoch": 1.4, "learning_rate": 2.008e-06, "loss": 0.0679, "step": 6500 }, { "epoch": 1.4, "eval_loss": 0.22990146279335022, "eval_runtime": 1798.7772, "eval_samples_per_second": 3.664, "eval_steps_per_second": 0.458, "eval_wer": 13.58094698043663, "step": 6500 }, { "epoch": 1.4, "learning_rate": 1.974666666666667e-06, "loss": 0.0645, "step": 6525 }, { "epoch": 1.41, "learning_rate": 1.9413333333333334e-06, "loss": 0.0662, "step": 6550 }, { "epoch": 1.41, "learning_rate": 1.908e-06, "loss": 0.0646, "step": 6575 }, { "epoch": 2.0, "learning_rate": 1.8746666666666668e-06, "loss": 0.0518, "step": 6600 }, { "epoch": 2.0, "learning_rate": 1.8413333333333337e-06, "loss": 0.0731, "step": 6625 }, { "epoch": 2.01, "learning_rate": 1.808e-06, "loss": 0.0727, "step": 6650 }, { "epoch": 2.01, "learning_rate": 1.7746666666666667e-06, "loss": 0.0486, "step": 6675 }, { "epoch": 2.01, "learning_rate": 1.7413333333333336e-06, "loss": 0.052, "step": 6700 }, { "epoch": 2.02, "learning_rate": 1.7080000000000002e-06, "loss": 0.0494, "step": 6725 }, { "epoch": 2.02, "learning_rate": 1.6746666666666668e-06, "loss": 0.0393, "step": 6750 }, { "epoch": 2.02, "learning_rate": 1.6413333333333335e-06, "loss": 0.0436, "step": 6775 }, { "epoch": 2.03, "learning_rate": 1.608e-06, "loss": 0.0353, "step": 6800 }, { "epoch": 2.03, "learning_rate": 1.5746666666666667e-06, "loss": 0.0417, "step": 6825 }, { "epoch": 2.03, "learning_rate": 1.5413333333333336e-06, "loss": 0.0443, "step": 6850 }, { "epoch": 2.04, "learning_rate": 1.508e-06, "loss": 0.0409, "step": 6875 }, { "epoch": 2.04, "learning_rate": 1.4746666666666668e-06, "loss": 0.0454, "step": 6900 }, { "epoch": 2.04, "learning_rate": 1.4413333333333335e-06, "loss": 0.0391, "step": 6925 }, { "epoch": 2.04, "learning_rate": 1.4080000000000001e-06, "loss": 0.0411, "step": 6950 }, { "epoch": 2.05, "learning_rate": 1.3746666666666667e-06, "loss": 0.0278, "step": 6975 }, { "epoch": 2.05, "learning_rate": 1.3413333333333334e-06, "loss": 0.027, "step": 7000 }, { "epoch": 2.05, "eval_loss": 0.23039141297340393, "eval_runtime": 1798.6414, "eval_samples_per_second": 3.664, "eval_steps_per_second": 0.458, "eval_wer": 13.380452833245576, "step": 7000 }, { "epoch": 2.05, "learning_rate": 1.308e-06, "loss": 0.0273, "step": 7025 }, { "epoch": 2.06, "learning_rate": 1.2746666666666669e-06, "loss": 0.0373, "step": 7050 }, { "epoch": 2.06, "learning_rate": 1.2413333333333335e-06, "loss": 0.0207, "step": 7075 }, { "epoch": 2.06, "learning_rate": 1.2080000000000001e-06, "loss": 0.0286, "step": 7100 }, { "epoch": 2.07, "learning_rate": 1.1746666666666668e-06, "loss": 0.0269, "step": 7125 }, { "epoch": 2.07, "learning_rate": 1.1413333333333334e-06, "loss": 0.0228, "step": 7150 }, { "epoch": 2.07, "learning_rate": 1.108e-06, "loss": 0.028, "step": 7175 }, { "epoch": 2.08, "learning_rate": 1.0746666666666669e-06, "loss": 0.0377, "step": 7200 }, { "epoch": 2.08, "learning_rate": 1.0413333333333333e-06, "loss": 0.0228, "step": 7225 }, { "epoch": 2.08, "learning_rate": 1.0080000000000001e-06, "loss": 0.0327, "step": 7250 }, { "epoch": 2.09, "learning_rate": 9.746666666666668e-07, "loss": 0.0354, "step": 7275 }, { "epoch": 2.09, "learning_rate": 9.413333333333334e-07, "loss": 0.0314, "step": 7300 }, { "epoch": 2.09, "learning_rate": 9.080000000000001e-07, "loss": 0.0347, "step": 7325 }, { "epoch": 2.09, "learning_rate": 8.746666666666668e-07, "loss": 0.0266, "step": 7350 }, { "epoch": 2.1, "learning_rate": 8.413333333333334e-07, "loss": 0.0327, "step": 7375 }, { "epoch": 2.1, "learning_rate": 8.08e-07, "loss": 0.0185, "step": 7400 }, { "epoch": 2.1, "learning_rate": 7.746666666666668e-07, "loss": 0.0214, "step": 7425 }, { "epoch": 2.11, "learning_rate": 7.413333333333333e-07, "loss": 0.0317, "step": 7450 }, { "epoch": 2.11, "learning_rate": 7.08e-07, "loss": 0.0275, "step": 7475 }, { "epoch": 2.11, "learning_rate": 6.746666666666667e-07, "loss": 0.0231, "step": 7500 }, { "epoch": 2.11, "eval_loss": 0.22874309122562408, "eval_runtime": 1793.9081, "eval_samples_per_second": 3.674, "eval_steps_per_second": 0.459, "eval_wer": 12.839726193851513, "step": 7500 }, { "epoch": 2.12, "learning_rate": 6.413333333333334e-07, "loss": 0.0267, "step": 7525 }, { "epoch": 2.12, "learning_rate": 6.08e-07, "loss": 0.0251, "step": 7550 }, { "epoch": 2.12, "learning_rate": 5.746666666666667e-07, "loss": 0.0234, "step": 7575 }, { "epoch": 2.13, "learning_rate": 5.413333333333334e-07, "loss": 0.0352, "step": 7600 }, { "epoch": 2.13, "learning_rate": 5.08e-07, "loss": 0.0238, "step": 7625 }, { "epoch": 2.13, "learning_rate": 4.746666666666667e-07, "loss": 0.0245, "step": 7650 }, { "epoch": 2.14, "learning_rate": 4.413333333333333e-07, "loss": 0.0247, "step": 7675 }, { "epoch": 2.14, "learning_rate": 4.0800000000000005e-07, "loss": 0.0211, "step": 7700 }, { "epoch": 2.14, "learning_rate": 3.7466666666666674e-07, "loss": 0.0342, "step": 7725 }, { "epoch": 2.14, "learning_rate": 3.4133333333333337e-07, "loss": 0.0184, "step": 7750 }, { "epoch": 2.15, "learning_rate": 3.0800000000000006e-07, "loss": 0.0299, "step": 7775 }, { "epoch": 2.15, "learning_rate": 2.746666666666667e-07, "loss": 0.0139, "step": 7800 }, { "epoch": 2.15, "learning_rate": 2.413333333333333e-07, "loss": 0.0273, "step": 7825 }, { "epoch": 2.16, "learning_rate": 2.08e-07, "loss": 0.0201, "step": 7850 }, { "epoch": 2.16, "learning_rate": 1.7466666666666667e-07, "loss": 0.0237, "step": 7875 }, { "epoch": 2.16, "learning_rate": 1.4133333333333333e-07, "loss": 0.0227, "step": 7900 }, { "epoch": 2.17, "learning_rate": 1.0800000000000001e-07, "loss": 0.02, "step": 7925 }, { "epoch": 2.17, "learning_rate": 7.466666666666667e-08, "loss": 0.019, "step": 7950 }, { "epoch": 2.17, "learning_rate": 4.133333333333334e-08, "loss": 0.0285, "step": 7975 }, { "epoch": 2.18, "learning_rate": 8e-09, "loss": 0.0285, "step": 8000 }, { "epoch": 2.18, "eval_loss": 0.23037254810333252, "eval_runtime": 1820.2026, "eval_samples_per_second": 3.621, "eval_steps_per_second": 0.453, "eval_wer": 12.8883308355948, "step": 8000 }, { "epoch": 2.18, "step": 8000, "total_flos": 3.265527462100992e+19, "train_loss": 0.18796414549276233, "train_runtime": 39400.0429, "train_samples_per_second": 0.812, "train_steps_per_second": 0.203 } ], "max_steps": 8000, "num_train_epochs": 9223372036854775807, "total_flos": 3.265527462100992e+19, "trial_name": null, "trial_params": null }