{ "best_metric": null, "best_model_checkpoint": null, "epoch": 22.997333333333334, "eval_steps": 500, "global_step": 4312, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.5333333333333333, "grad_norm": 0.9283596873283386, "learning_rate": 3e-05, "loss": 1.963, "step": 100 }, { "epoch": 0.9973333333333333, "eval_accuracy": 0.5695384615384615, "eval_loss": 1.6438876390457153, "eval_runtime": 5.0534, "eval_samples_per_second": 98.943, "eval_steps_per_second": 12.467, "step": 187 }, { "epoch": 0.9973333333333333, "eval_exact_match": 16.2, "eval_f1": 25.888571428571442, "step": 187 }, { "epoch": 1.0666666666666667, "grad_norm": 1.0407154560089111, "learning_rate": 3e-05, "loss": 1.6668, "step": 200 }, { "epoch": 1.6, "grad_norm": 1.1281720399856567, "learning_rate": 3e-05, "loss": 1.6099, "step": 300 }, { "epoch": 2.0, "eval_accuracy": 0.5733333333333334, "eval_loss": 1.618270754814148, "eval_runtime": 5.1983, "eval_samples_per_second": 96.186, "eval_steps_per_second": 12.119, "step": 375 }, { "epoch": 2.0, "eval_exact_match": 16.6, "eval_f1": 26.287619047619057, "step": 375 }, { "epoch": 2.1333333333333333, "grad_norm": 1.2508225440979004, "learning_rate": 3e-05, "loss": 1.5866, "step": 400 }, { "epoch": 2.6666666666666665, "grad_norm": 1.3197834491729736, "learning_rate": 3e-05, "loss": 1.524, "step": 500 }, { "epoch": 2.997333333333333, "eval_accuracy": 0.5743589743589743, "eval_loss": 1.6164497137069702, "eval_runtime": 5.0495, "eval_samples_per_second": 99.019, "eval_steps_per_second": 12.476, "step": 562 }, { "epoch": 2.997333333333333, "eval_exact_match": 17.8, "eval_f1": 27.35428571428571, "step": 562 }, { "epoch": 3.2, "grad_norm": 1.6320394277572632, "learning_rate": 3e-05, "loss": 1.4752, "step": 600 }, { "epoch": 3.7333333333333334, "grad_norm": 1.7101725339889526, "learning_rate": 3e-05, "loss": 1.3938, "step": 700 }, { "epoch": 4.0, "eval_accuracy": 0.5728717948717948, "eval_loss": 1.6376241445541382, "eval_runtime": 4.9662, "eval_samples_per_second": 100.68, "eval_steps_per_second": 12.686, "step": 750 }, { "epoch": 4.0, "eval_exact_match": 18.0, "eval_f1": 27.498571428571427, "step": 750 }, { "epoch": 4.266666666666667, "grad_norm": 2.1727664470672607, "learning_rate": 3e-05, "loss": 1.342, "step": 800 }, { "epoch": 4.8, "grad_norm": 2.341384172439575, "learning_rate": 3e-05, "loss": 1.2685, "step": 900 }, { "epoch": 4.997333333333334, "eval_accuracy": 0.5699487179487179, "eval_loss": 1.684618353843689, "eval_runtime": 5.5457, "eval_samples_per_second": 90.16, "eval_steps_per_second": 11.36, "step": 937 }, { "epoch": 4.997333333333334, "eval_exact_match": 19.2, "eval_f1": 28.190952380952375, "step": 937 }, { "epoch": 5.333333333333333, "grad_norm": 2.5624172687530518, "learning_rate": 3e-05, "loss": 1.1847, "step": 1000 }, { "epoch": 5.866666666666667, "grad_norm": 2.8159019947052, "learning_rate": 3e-05, "loss": 1.1591, "step": 1100 }, { "epoch": 6.0, "eval_accuracy": 0.5672820512820513, "eval_loss": 1.7546838521957397, "eval_runtime": 5.0186, "eval_samples_per_second": 99.629, "eval_steps_per_second": 12.553, "step": 1125 }, { "epoch": 6.0, "eval_exact_match": 16.6, "eval_f1": 25.054761904761914, "step": 1125 }, { "epoch": 6.4, "grad_norm": 3.056166410446167, "learning_rate": 3e-05, "loss": 1.0486, "step": 1200 }, { "epoch": 6.933333333333334, "grad_norm": 2.873281240463257, "learning_rate": 3e-05, "loss": 1.0444, "step": 1300 }, { "epoch": 6.997333333333334, "eval_accuracy": 0.5643076923076923, "eval_loss": 1.8394943475723267, "eval_runtime": 5.5931, "eval_samples_per_second": 89.396, "eval_steps_per_second": 11.264, "step": 1312 }, { "epoch": 6.997333333333334, "eval_exact_match": 15.8, "eval_f1": 23.925714285714296, "step": 1312 }, { "epoch": 7.466666666666667, "grad_norm": 3.069322109222412, "learning_rate": 3e-05, "loss": 0.9374, "step": 1400 }, { "epoch": 8.0, "grad_norm": 3.2732129096984863, "learning_rate": 3e-05, "loss": 0.9535, "step": 1500 }, { "epoch": 8.0, "eval_accuracy": 0.5612820512820513, "eval_loss": 1.9008216857910156, "eval_runtime": 5.1357, "eval_samples_per_second": 97.358, "eval_steps_per_second": 12.267, "step": 1500 }, { "epoch": 8.0, "eval_exact_match": 15.2, "eval_f1": 23.12063492063493, "step": 1500 }, { "epoch": 8.533333333333333, "grad_norm": 3.382610321044922, "learning_rate": 3e-05, "loss": 0.8235, "step": 1600 }, { "epoch": 8.997333333333334, "eval_accuracy": 0.5592307692307692, "eval_loss": 2.026776075363159, "eval_runtime": 5.5056, "eval_samples_per_second": 90.817, "eval_steps_per_second": 11.443, "step": 1687 }, { "epoch": 8.997333333333334, "eval_exact_match": 13.8, "eval_f1": 21.42285714285715, "step": 1687 }, { "epoch": 9.066666666666666, "grad_norm": 4.363819122314453, "learning_rate": 3e-05, "loss": 0.8547, "step": 1700 }, { "epoch": 9.6, "grad_norm": 3.685805320739746, "learning_rate": 3e-05, "loss": 0.7635, "step": 1800 }, { "epoch": 10.0, "eval_accuracy": 0.5567692307692308, "eval_loss": 2.0937435626983643, "eval_runtime": 5.235, "eval_samples_per_second": 95.512, "eval_steps_per_second": 12.034, "step": 1875 }, { "epoch": 10.0, "eval_exact_match": 15.2, "eval_f1": 22.031904761904762, "step": 1875 }, { "epoch": 10.133333333333333, "grad_norm": 3.5318357944488525, "learning_rate": 3e-05, "loss": 0.7554, "step": 1900 }, { "epoch": 10.666666666666666, "grad_norm": 3.6454901695251465, "learning_rate": 3e-05, "loss": 0.6978, "step": 2000 }, { "epoch": 10.997333333333334, "eval_accuracy": 0.556974358974359, "eval_loss": 2.1557741165161133, "eval_runtime": 5.1556, "eval_samples_per_second": 96.981, "eval_steps_per_second": 12.22, "step": 2062 }, { "epoch": 10.997333333333334, "eval_exact_match": 15.0, "eval_f1": 23.010000000000012, "step": 2062 }, { "epoch": 11.2, "grad_norm": 3.658707618713379, "learning_rate": 3e-05, "loss": 0.6969, "step": 2100 }, { "epoch": 11.733333333333333, "grad_norm": 3.7350716590881348, "learning_rate": 3e-05, "loss": 0.6615, "step": 2200 }, { "epoch": 12.0, "eval_accuracy": 0.5551794871794872, "eval_loss": 2.239973545074463, "eval_runtime": 4.9026, "eval_samples_per_second": 101.986, "eval_steps_per_second": 12.85, "step": 2250 }, { "epoch": 12.0, "eval_exact_match": 15.6, "eval_f1": 23.333492063492066, "step": 2250 }, { "epoch": 12.266666666666667, "grad_norm": 4.4434709548950195, "learning_rate": 3e-05, "loss": 0.632, "step": 2300 }, { "epoch": 12.8, "grad_norm": 3.4198718070983887, "learning_rate": 3e-05, "loss": 0.6262, "step": 2400 }, { "epoch": 12.997333333333334, "eval_accuracy": 0.5556410256410257, "eval_loss": 2.268662452697754, "eval_runtime": 5.327, "eval_samples_per_second": 93.862, "eval_steps_per_second": 11.827, "step": 2437 }, { "epoch": 12.997333333333334, "eval_exact_match": 14.4, "eval_f1": 22.583492063492077, "step": 2437 }, { "epoch": 13.333333333333334, "grad_norm": 3.158496618270874, "learning_rate": 3e-05, "loss": 0.5973, "step": 2500 }, { "epoch": 13.866666666666667, "grad_norm": 3.5720713138580322, "learning_rate": 3e-05, "loss": 0.5958, "step": 2600 }, { "epoch": 14.0, "eval_accuracy": 0.5536923076923077, "eval_loss": 2.358220100402832, "eval_runtime": 5.236, "eval_samples_per_second": 95.493, "eval_steps_per_second": 12.032, "step": 2625 }, { "epoch": 14.0, "eval_exact_match": 14.6, "eval_f1": 21.79904761904763, "step": 2625 }, { "epoch": 14.4, "grad_norm": 5.126227855682373, "learning_rate": 3e-05, "loss": 0.5692, "step": 2700 }, { "epoch": 14.933333333333334, "grad_norm": 3.3391811847686768, "learning_rate": 3e-05, "loss": 0.5778, "step": 2800 }, { "epoch": 14.997333333333334, "eval_accuracy": 0.5533846153846154, "eval_loss": 2.395972728729248, "eval_runtime": 5.1135, "eval_samples_per_second": 97.78, "eval_steps_per_second": 12.32, "step": 2812 }, { "epoch": 14.997333333333334, "eval_exact_match": 14.6, "eval_f1": 22.537301587301595, "step": 2812 }, { "epoch": 15.466666666666667, "grad_norm": 2.8773677349090576, "learning_rate": 3e-05, "loss": 0.5461, "step": 2900 }, { "epoch": 16.0, "grad_norm": 3.580195903778076, "learning_rate": 3e-05, "loss": 0.5661, "step": 3000 }, { "epoch": 16.0, "eval_accuracy": 0.5533846153846154, "eval_loss": 2.4321775436401367, "eval_runtime": 5.0238, "eval_samples_per_second": 99.527, "eval_steps_per_second": 12.54, "step": 3000 }, { "epoch": 16.0, "eval_exact_match": 14.0, "eval_f1": 22.300808080808093, "step": 3000 }, { "epoch": 16.533333333333335, "grad_norm": 3.6829302310943604, "learning_rate": 3e-05, "loss": 0.5277, "step": 3100 }, { "epoch": 16.997333333333334, "eval_accuracy": 0.5515384615384615, "eval_loss": 2.482792615890503, "eval_runtime": 5.3006, "eval_samples_per_second": 94.328, "eval_steps_per_second": 11.885, "step": 3187 }, { "epoch": 16.997333333333334, "eval_exact_match": 13.4, "eval_f1": 21.439682539682543, "step": 3187 }, { "epoch": 17.066666666666666, "grad_norm": 3.1766672134399414, "learning_rate": 3e-05, "loss": 0.5475, "step": 3200 }, { "epoch": 17.6, "grad_norm": 3.070977210998535, "learning_rate": 3e-05, "loss": 0.5211, "step": 3300 }, { "epoch": 18.0, "eval_accuracy": 0.5516410256410257, "eval_loss": 2.510619640350342, "eval_runtime": 5.0519, "eval_samples_per_second": 98.973, "eval_steps_per_second": 12.471, "step": 3375 }, { "epoch": 18.0, "eval_exact_match": 12.6, "eval_f1": 20.136349206349216, "step": 3375 }, { "epoch": 18.133333333333333, "grad_norm": 4.728194713592529, "learning_rate": 3e-05, "loss": 0.5344, "step": 3400 }, { "epoch": 18.666666666666668, "grad_norm": 3.1506965160369873, "learning_rate": 3e-05, "loss": 0.5189, "step": 3500 }, { "epoch": 18.997333333333334, "eval_accuracy": 0.5514871794871795, "eval_loss": 2.5705809593200684, "eval_runtime": 4.9081, "eval_samples_per_second": 101.872, "eval_steps_per_second": 12.836, "step": 3562 }, { "epoch": 18.997333333333334, "eval_exact_match": 13.8, "eval_f1": 21.51634920634921, "step": 3562 }, { "epoch": 19.2, "grad_norm": 2.7202513217926025, "learning_rate": 3e-05, "loss": 0.5198, "step": 3600 }, { "epoch": 19.733333333333334, "grad_norm": 2.581169366836548, "learning_rate": 3e-05, "loss": 0.5166, "step": 3700 }, { "epoch": 20.0, "eval_accuracy": 0.5526153846153846, "eval_loss": 2.542161226272583, "eval_runtime": 5.0196, "eval_samples_per_second": 99.609, "eval_steps_per_second": 12.551, "step": 3750 }, { "epoch": 20.0, "eval_exact_match": 14.4, "eval_f1": 21.563492063492074, "step": 3750 }, { "epoch": 20.266666666666666, "grad_norm": 2.6741623878479004, "learning_rate": 3e-05, "loss": 0.5112, "step": 3800 }, { "epoch": 20.8, "grad_norm": 3.241607666015625, "learning_rate": 3e-05, "loss": 0.5132, "step": 3900 }, { "epoch": 20.997333333333334, "eval_accuracy": 0.550923076923077, "eval_loss": 2.594764232635498, "eval_runtime": 5.2553, "eval_samples_per_second": 95.142, "eval_steps_per_second": 11.988, "step": 3937 }, { "epoch": 20.997333333333334, "eval_exact_match": 13.4, "eval_f1": 21.25015873015874, "step": 3937 }, { "epoch": 21.333333333333332, "grad_norm": 2.6324737071990967, "learning_rate": 3e-05, "loss": 0.5011, "step": 4000 }, { "epoch": 21.866666666666667, "grad_norm": 3.572909116744995, "learning_rate": 3e-05, "loss": 0.5115, "step": 4100 }, { "epoch": 22.0, "eval_accuracy": 0.5512307692307692, "eval_loss": 2.604835033416748, "eval_runtime": 5.1325, "eval_samples_per_second": 97.419, "eval_steps_per_second": 12.275, "step": 4125 }, { "epoch": 22.0, "eval_exact_match": 14.2, "eval_f1": 21.673968253968265, "step": 4125 }, { "epoch": 22.4, "grad_norm": 2.303550958633423, "learning_rate": 3e-05, "loss": 0.4973, "step": 4200 }, { "epoch": 22.933333333333334, "grad_norm": 2.5230953693389893, "learning_rate": 3e-05, "loss": 0.5083, "step": 4300 }, { "epoch": 22.997333333333334, "eval_accuracy": 0.5520512820512821, "eval_loss": 2.5811188220977783, "eval_runtime": 5.2251, "eval_samples_per_second": 95.692, "eval_steps_per_second": 12.057, "step": 4312 }, { "epoch": 22.997333333333334, "eval_exact_match": 14.6, "eval_f1": 22.511111111111124, "step": 4312 } ], "logging_steps": 100, "max_steps": 9350, "num_input_tokens_seen": 0, "num_train_epochs": 50, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 7.899272485797888e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }