{ "best_metric": 4.8385198634858195, "best_model_checkpoint": "./checkpoint-1500", "epoch": 2.276, "global_step": 1500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02, "learning_rate": 5.337725362513818e-07, "loss": 1.0338, "step": 25 }, { "epoch": 0.03, "learning_rate": 6.712460395362235e-07, "loss": 0.6138, "step": 50 }, { "epoch": 0.05, "learning_rate": 7.448557621064326e-07, "loss": 0.3242, "step": 75 }, { "epoch": 0.07, "learning_rate": 7.98395961247633e-07, "loss": 0.2734, "step": 100 }, { "epoch": 0.08, "learning_rate": 8.393538435335606e-07, "loss": 0.2426, "step": 125 }, { "epoch": 0.1, "learning_rate": 8.725321774688733e-07, "loss": 0.2288, "step": 150 }, { "epoch": 0.12, "learning_rate": 9.004197582692396e-07, "loss": 0.2202, "step": 175 }, { "epoch": 0.13, "learning_rate": 9.244741681495453e-07, "loss": 0.1864, "step": 200 }, { "epoch": 0.15, "learning_rate": 9.456229388687313e-07, "loss": 0.2019, "step": 225 }, { "epoch": 0.17, "learning_rate": 9.644929895185596e-07, "loss": 0.1834, "step": 250 }, { "epoch": 0.18, "learning_rate": 9.815279569082485e-07, "loss": 0.1815, "step": 275 }, { "epoch": 0.2, "learning_rate": 9.970533381328862e-07, "loss": 0.1761, "step": 300 }, { "epoch": 0.22, "learning_rate": 9.841666666666666e-07, "loss": 0.185, "step": 325 }, { "epoch": 0.23, "learning_rate": 9.633333333333334e-07, "loss": 0.1538, "step": 350 }, { "epoch": 0.25, "learning_rate": 9.425e-07, "loss": 0.1623, "step": 375 }, { "epoch": 0.27, "learning_rate": 9.216666666666666e-07, "loss": 0.1569, "step": 400 }, { "epoch": 0.28, "learning_rate": 9.008333333333333e-07, "loss": 0.1465, "step": 425 }, { "epoch": 0.3, "learning_rate": 8.799999999999999e-07, "loss": 0.1508, "step": 450 }, { "epoch": 0.32, "learning_rate": 8.591666666666666e-07, "loss": 0.1509, "step": 475 }, { "epoch": 0.33, "learning_rate": 8.383333333333334e-07, "loss": 0.1526, "step": 500 }, { "epoch": 0.33, "eval_loss": 0.1588134765625, "eval_runtime": 2273.9706, "eval_samples_per_second": 3.823, "eval_steps_per_second": 0.239, "eval_wer": 4.907449437635548, "step": 500 }, { "epoch": 0.35, "learning_rate": 8.175e-07, "loss": 0.1533, "step": 525 }, { "epoch": 1.0, "learning_rate": 7.966666666666666e-07, "loss": 0.1471, "step": 550 }, { "epoch": 1.02, "learning_rate": 7.758333333333334e-07, "loss": 0.1451, "step": 575 }, { "epoch": 1.04, "learning_rate": 7.55e-07, "loss": 0.1406, "step": 600 }, { "epoch": 1.05, "learning_rate": 7.341666666666666e-07, "loss": 0.1306, "step": 625 }, { "epoch": 1.07, "learning_rate": 7.133333333333333e-07, "loss": 0.1226, "step": 650 }, { "epoch": 1.09, "learning_rate": 6.924999999999999e-07, "loss": 0.1152, "step": 675 }, { "epoch": 1.1, "learning_rate": 6.716666666666666e-07, "loss": 0.1251, "step": 700 }, { "epoch": 1.12, "learning_rate": 6.508333333333334e-07, "loss": 0.1169, "step": 725 }, { "epoch": 1.14, "learning_rate": 6.3e-07, "loss": 0.1092, "step": 750 }, { "epoch": 1.15, "learning_rate": 6.091666666666666e-07, "loss": 0.13, "step": 775 }, { "epoch": 1.17, "learning_rate": 5.883333333333333e-07, "loss": 0.1177, "step": 800 }, { "epoch": 1.19, "learning_rate": 5.675e-07, "loss": 0.1127, "step": 825 }, { "epoch": 1.2, "learning_rate": 5.474999999999999e-07, "loss": 0.1114, "step": 850 }, { "epoch": 1.22, "learning_rate": 5.266666666666666e-07, "loss": 0.1139, "step": 875 }, { "epoch": 1.24, "learning_rate": 5.058333333333333e-07, "loss": 0.1096, "step": 900 }, { "epoch": 1.25, "learning_rate": 4.85e-07, "loss": 0.1021, "step": 925 }, { "epoch": 1.27, "learning_rate": 4.6416666666666663e-07, "loss": 0.1037, "step": 950 }, { "epoch": 1.29, "learning_rate": 4.4333333333333336e-07, "loss": 0.1053, "step": 975 }, { "epoch": 1.3, "learning_rate": 4.225e-07, "loss": 0.1046, "step": 1000 }, { "epoch": 1.3, "eval_loss": 0.1510009765625, "eval_runtime": 2297.9318, "eval_samples_per_second": 3.783, "eval_steps_per_second": 0.237, "eval_wer": 4.8805500916258975, "step": 1000 }, { "epoch": 1.32, "learning_rate": 4.0166666666666665e-07, "loss": 0.1072, "step": 1025 }, { "epoch": 1.34, "learning_rate": 3.808333333333333e-07, "loss": 0.1089, "step": 1050 }, { "epoch": 1.35, "learning_rate": 3.6e-07, "loss": 0.1082, "step": 1075 }, { "epoch": 2.01, "learning_rate": 3.3916666666666667e-07, "loss": 0.1089, "step": 1100 }, { "epoch": 2.03, "learning_rate": 3.1833333333333334e-07, "loss": 0.1109, "step": 1125 }, { "epoch": 2.04, "learning_rate": 2.9749999999999996e-07, "loss": 0.0989, "step": 1150 }, { "epoch": 2.06, "learning_rate": 2.766666666666667e-07, "loss": 0.0959, "step": 1175 }, { "epoch": 2.08, "learning_rate": 2.5583333333333335e-07, "loss": 0.0985, "step": 1200 }, { "epoch": 2.09, "learning_rate": 2.3499999999999997e-07, "loss": 0.0862, "step": 1225 }, { "epoch": 2.11, "learning_rate": 2.1416666666666667e-07, "loss": 0.092, "step": 1250 }, { "epoch": 2.13, "learning_rate": 1.9333333333333332e-07, "loss": 0.0926, "step": 1275 }, { "epoch": 2.14, "learning_rate": 1.725e-07, "loss": 0.0893, "step": 1300 }, { "epoch": 2.16, "learning_rate": 1.5166666666666666e-07, "loss": 0.0984, "step": 1325 }, { "epoch": 2.18, "learning_rate": 1.3083333333333333e-07, "loss": 0.0902, "step": 1350 }, { "epoch": 2.19, "learning_rate": 1.0999999999999999e-07, "loss": 0.0972, "step": 1375 }, { "epoch": 2.21, "learning_rate": 8.916666666666666e-08, "loss": 0.0938, "step": 1400 }, { "epoch": 2.23, "learning_rate": 6.833333333333332e-08, "loss": 0.0847, "step": 1425 }, { "epoch": 2.24, "learning_rate": 4.7499999999999995e-08, "loss": 0.091, "step": 1450 }, { "epoch": 2.26, "learning_rate": 2.6666666666666667e-08, "loss": 0.0808, "step": 1475 }, { "epoch": 2.28, "learning_rate": 5.8333333333333335e-09, "loss": 0.079, "step": 1500 }, { "epoch": 2.28, "eval_loss": 0.1502685546875, "eval_runtime": 2273.3398, "eval_samples_per_second": 3.824, "eval_steps_per_second": 0.239, "eval_wer": 4.8385198634858195, "step": 1500 }, { "epoch": 2.28, "step": 1500, "total_flos": 1.0191220995495297e+20, "train_loss": 0.15757004801432292, "train_runtime": 18540.0869, "train_samples_per_second": 2.589, "train_steps_per_second": 0.081 } ], "max_steps": 1500, "num_train_epochs": 9223372036854775807, "total_flos": 1.0191220995495297e+20, "trial_name": null, "trial_params": null }