|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 38.99733333333333, |
|
"eval_steps": 500, |
|
"global_step": 7312, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 0.9283596873283386, |
|
"learning_rate": 3e-05, |
|
"loss": 1.963, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.9973333333333333, |
|
"eval_accuracy": 0.5695384615384615, |
|
"eval_loss": 1.6438876390457153, |
|
"eval_runtime": 5.0534, |
|
"eval_samples_per_second": 98.943, |
|
"eval_steps_per_second": 12.467, |
|
"step": 187 |
|
}, |
|
{ |
|
"epoch": 0.9973333333333333, |
|
"eval_exact_match": 16.2, |
|
"eval_f1": 25.888571428571442, |
|
"step": 187 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 1.0407154560089111, |
|
"learning_rate": 3e-05, |
|
"loss": 1.6668, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 1.1281720399856567, |
|
"learning_rate": 3e-05, |
|
"loss": 1.6099, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.5733333333333334, |
|
"eval_loss": 1.618270754814148, |
|
"eval_runtime": 5.1983, |
|
"eval_samples_per_second": 96.186, |
|
"eval_steps_per_second": 12.119, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_exact_match": 16.6, |
|
"eval_f1": 26.287619047619057, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 1.2508225440979004, |
|
"learning_rate": 3e-05, |
|
"loss": 1.5866, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 1.3197834491729736, |
|
"learning_rate": 3e-05, |
|
"loss": 1.524, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 2.997333333333333, |
|
"eval_accuracy": 0.5743589743589743, |
|
"eval_loss": 1.6164497137069702, |
|
"eval_runtime": 5.0495, |
|
"eval_samples_per_second": 99.019, |
|
"eval_steps_per_second": 12.476, |
|
"step": 562 |
|
}, |
|
{ |
|
"epoch": 2.997333333333333, |
|
"eval_exact_match": 17.8, |
|
"eval_f1": 27.35428571428571, |
|
"step": 562 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 1.6320394277572632, |
|
"learning_rate": 3e-05, |
|
"loss": 1.4752, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"grad_norm": 1.7101725339889526, |
|
"learning_rate": 3e-05, |
|
"loss": 1.3938, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_accuracy": 0.5728717948717948, |
|
"eval_loss": 1.6376241445541382, |
|
"eval_runtime": 4.9662, |
|
"eval_samples_per_second": 100.68, |
|
"eval_steps_per_second": 12.686, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_exact_match": 18.0, |
|
"eval_f1": 27.498571428571427, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 4.266666666666667, |
|
"grad_norm": 2.1727664470672607, |
|
"learning_rate": 3e-05, |
|
"loss": 1.342, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"grad_norm": 2.341384172439575, |
|
"learning_rate": 3e-05, |
|
"loss": 1.2685, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 4.997333333333334, |
|
"eval_accuracy": 0.5699487179487179, |
|
"eval_loss": 1.684618353843689, |
|
"eval_runtime": 5.5457, |
|
"eval_samples_per_second": 90.16, |
|
"eval_steps_per_second": 11.36, |
|
"step": 937 |
|
}, |
|
{ |
|
"epoch": 4.997333333333334, |
|
"eval_exact_match": 19.2, |
|
"eval_f1": 28.190952380952375, |
|
"step": 937 |
|
}, |
|
{ |
|
"epoch": 5.333333333333333, |
|
"grad_norm": 2.5624172687530518, |
|
"learning_rate": 3e-05, |
|
"loss": 1.1847, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 5.866666666666667, |
|
"grad_norm": 2.8159019947052, |
|
"learning_rate": 3e-05, |
|
"loss": 1.1591, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_accuracy": 0.5672820512820513, |
|
"eval_loss": 1.7546838521957397, |
|
"eval_runtime": 5.0186, |
|
"eval_samples_per_second": 99.629, |
|
"eval_steps_per_second": 12.553, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_exact_match": 16.6, |
|
"eval_f1": 25.054761904761914, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"grad_norm": 3.056166410446167, |
|
"learning_rate": 3e-05, |
|
"loss": 1.0486, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 6.933333333333334, |
|
"grad_norm": 2.873281240463257, |
|
"learning_rate": 3e-05, |
|
"loss": 1.0444, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 6.997333333333334, |
|
"eval_accuracy": 0.5643076923076923, |
|
"eval_loss": 1.8394943475723267, |
|
"eval_runtime": 5.5931, |
|
"eval_samples_per_second": 89.396, |
|
"eval_steps_per_second": 11.264, |
|
"step": 1312 |
|
}, |
|
{ |
|
"epoch": 6.997333333333334, |
|
"eval_exact_match": 15.8, |
|
"eval_f1": 23.925714285714296, |
|
"step": 1312 |
|
}, |
|
{ |
|
"epoch": 7.466666666666667, |
|
"grad_norm": 3.069322109222412, |
|
"learning_rate": 3e-05, |
|
"loss": 0.9374, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 3.2732129096984863, |
|
"learning_rate": 3e-05, |
|
"loss": 0.9535, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_accuracy": 0.5612820512820513, |
|
"eval_loss": 1.9008216857910156, |
|
"eval_runtime": 5.1357, |
|
"eval_samples_per_second": 97.358, |
|
"eval_steps_per_second": 12.267, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_exact_match": 15.2, |
|
"eval_f1": 23.12063492063493, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 8.533333333333333, |
|
"grad_norm": 3.382610321044922, |
|
"learning_rate": 3e-05, |
|
"loss": 0.8235, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 8.997333333333334, |
|
"eval_accuracy": 0.5592307692307692, |
|
"eval_loss": 2.026776075363159, |
|
"eval_runtime": 5.5056, |
|
"eval_samples_per_second": 90.817, |
|
"eval_steps_per_second": 11.443, |
|
"step": 1687 |
|
}, |
|
{ |
|
"epoch": 8.997333333333334, |
|
"eval_exact_match": 13.8, |
|
"eval_f1": 21.42285714285715, |
|
"step": 1687 |
|
}, |
|
{ |
|
"epoch": 9.066666666666666, |
|
"grad_norm": 4.363819122314453, |
|
"learning_rate": 3e-05, |
|
"loss": 0.8547, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"grad_norm": 3.685805320739746, |
|
"learning_rate": 3e-05, |
|
"loss": 0.7635, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_accuracy": 0.5567692307692308, |
|
"eval_loss": 2.0937435626983643, |
|
"eval_runtime": 5.235, |
|
"eval_samples_per_second": 95.512, |
|
"eval_steps_per_second": 12.034, |
|
"step": 1875 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_exact_match": 15.2, |
|
"eval_f1": 22.031904761904762, |
|
"step": 1875 |
|
}, |
|
{ |
|
"epoch": 10.133333333333333, |
|
"grad_norm": 3.5318357944488525, |
|
"learning_rate": 3e-05, |
|
"loss": 0.7554, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 10.666666666666666, |
|
"grad_norm": 3.6454901695251465, |
|
"learning_rate": 3e-05, |
|
"loss": 0.6978, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 10.997333333333334, |
|
"eval_accuracy": 0.556974358974359, |
|
"eval_loss": 2.1557741165161133, |
|
"eval_runtime": 5.1556, |
|
"eval_samples_per_second": 96.981, |
|
"eval_steps_per_second": 12.22, |
|
"step": 2062 |
|
}, |
|
{ |
|
"epoch": 10.997333333333334, |
|
"eval_exact_match": 15.0, |
|
"eval_f1": 23.010000000000012, |
|
"step": 2062 |
|
}, |
|
{ |
|
"epoch": 11.2, |
|
"grad_norm": 3.658707618713379, |
|
"learning_rate": 3e-05, |
|
"loss": 0.6969, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 11.733333333333333, |
|
"grad_norm": 3.7350716590881348, |
|
"learning_rate": 3e-05, |
|
"loss": 0.6615, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"eval_accuracy": 0.5551794871794872, |
|
"eval_loss": 2.239973545074463, |
|
"eval_runtime": 4.9026, |
|
"eval_samples_per_second": 101.986, |
|
"eval_steps_per_second": 12.85, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"eval_exact_match": 15.6, |
|
"eval_f1": 23.333492063492066, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 12.266666666666667, |
|
"grad_norm": 4.4434709548950195, |
|
"learning_rate": 3e-05, |
|
"loss": 0.632, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 12.8, |
|
"grad_norm": 3.4198718070983887, |
|
"learning_rate": 3e-05, |
|
"loss": 0.6262, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 12.997333333333334, |
|
"eval_accuracy": 0.5556410256410257, |
|
"eval_loss": 2.268662452697754, |
|
"eval_runtime": 5.327, |
|
"eval_samples_per_second": 93.862, |
|
"eval_steps_per_second": 11.827, |
|
"step": 2437 |
|
}, |
|
{ |
|
"epoch": 12.997333333333334, |
|
"eval_exact_match": 14.4, |
|
"eval_f1": 22.583492063492077, |
|
"step": 2437 |
|
}, |
|
{ |
|
"epoch": 13.333333333333334, |
|
"grad_norm": 3.158496618270874, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5973, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 13.866666666666667, |
|
"grad_norm": 3.5720713138580322, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5958, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"eval_accuracy": 0.5536923076923077, |
|
"eval_loss": 2.358220100402832, |
|
"eval_runtime": 5.236, |
|
"eval_samples_per_second": 95.493, |
|
"eval_steps_per_second": 12.032, |
|
"step": 2625 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"eval_exact_match": 14.6, |
|
"eval_f1": 21.79904761904763, |
|
"step": 2625 |
|
}, |
|
{ |
|
"epoch": 14.4, |
|
"grad_norm": 5.126227855682373, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5692, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 14.933333333333334, |
|
"grad_norm": 3.3391811847686768, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5778, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 14.997333333333334, |
|
"eval_accuracy": 0.5533846153846154, |
|
"eval_loss": 2.395972728729248, |
|
"eval_runtime": 5.1135, |
|
"eval_samples_per_second": 97.78, |
|
"eval_steps_per_second": 12.32, |
|
"step": 2812 |
|
}, |
|
{ |
|
"epoch": 14.997333333333334, |
|
"eval_exact_match": 14.6, |
|
"eval_f1": 22.537301587301595, |
|
"step": 2812 |
|
}, |
|
{ |
|
"epoch": 15.466666666666667, |
|
"grad_norm": 2.8773677349090576, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5461, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"grad_norm": 3.580195903778076, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5661, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_accuracy": 0.5533846153846154, |
|
"eval_loss": 2.4321775436401367, |
|
"eval_runtime": 5.0238, |
|
"eval_samples_per_second": 99.527, |
|
"eval_steps_per_second": 12.54, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_exact_match": 14.0, |
|
"eval_f1": 22.300808080808093, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 16.533333333333335, |
|
"grad_norm": 3.6829302310943604, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5277, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 16.997333333333334, |
|
"eval_accuracy": 0.5515384615384615, |
|
"eval_loss": 2.482792615890503, |
|
"eval_runtime": 5.3006, |
|
"eval_samples_per_second": 94.328, |
|
"eval_steps_per_second": 11.885, |
|
"step": 3187 |
|
}, |
|
{ |
|
"epoch": 16.997333333333334, |
|
"eval_exact_match": 13.4, |
|
"eval_f1": 21.439682539682543, |
|
"step": 3187 |
|
}, |
|
{ |
|
"epoch": 17.066666666666666, |
|
"grad_norm": 3.1766672134399414, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5475, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 17.6, |
|
"grad_norm": 3.070977210998535, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5211, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"eval_accuracy": 0.5516410256410257, |
|
"eval_loss": 2.510619640350342, |
|
"eval_runtime": 5.0519, |
|
"eval_samples_per_second": 98.973, |
|
"eval_steps_per_second": 12.471, |
|
"step": 3375 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"eval_exact_match": 12.6, |
|
"eval_f1": 20.136349206349216, |
|
"step": 3375 |
|
}, |
|
{ |
|
"epoch": 18.133333333333333, |
|
"grad_norm": 4.728194713592529, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5344, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 18.666666666666668, |
|
"grad_norm": 3.1506965160369873, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5189, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 18.997333333333334, |
|
"eval_accuracy": 0.5514871794871795, |
|
"eval_loss": 2.5705809593200684, |
|
"eval_runtime": 4.9081, |
|
"eval_samples_per_second": 101.872, |
|
"eval_steps_per_second": 12.836, |
|
"step": 3562 |
|
}, |
|
{ |
|
"epoch": 18.997333333333334, |
|
"eval_exact_match": 13.8, |
|
"eval_f1": 21.51634920634921, |
|
"step": 3562 |
|
}, |
|
{ |
|
"epoch": 19.2, |
|
"grad_norm": 2.7202513217926025, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5198, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 19.733333333333334, |
|
"grad_norm": 2.581169366836548, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5166, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"eval_accuracy": 0.5526153846153846, |
|
"eval_loss": 2.542161226272583, |
|
"eval_runtime": 5.0196, |
|
"eval_samples_per_second": 99.609, |
|
"eval_steps_per_second": 12.551, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"eval_exact_match": 14.4, |
|
"eval_f1": 21.563492063492074, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 20.266666666666666, |
|
"grad_norm": 2.6741623878479004, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5112, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 20.8, |
|
"grad_norm": 3.241607666015625, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5132, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 20.997333333333334, |
|
"eval_accuracy": 0.550923076923077, |
|
"eval_loss": 2.594764232635498, |
|
"eval_runtime": 5.2553, |
|
"eval_samples_per_second": 95.142, |
|
"eval_steps_per_second": 11.988, |
|
"step": 3937 |
|
}, |
|
{ |
|
"epoch": 20.997333333333334, |
|
"eval_exact_match": 13.4, |
|
"eval_f1": 21.25015873015874, |
|
"step": 3937 |
|
}, |
|
{ |
|
"epoch": 21.333333333333332, |
|
"grad_norm": 2.6324737071990967, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5011, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 21.866666666666667, |
|
"grad_norm": 3.572909116744995, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5115, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"eval_accuracy": 0.5512307692307692, |
|
"eval_loss": 2.604835033416748, |
|
"eval_runtime": 5.1325, |
|
"eval_samples_per_second": 97.419, |
|
"eval_steps_per_second": 12.275, |
|
"step": 4125 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"eval_exact_match": 14.2, |
|
"eval_f1": 21.673968253968265, |
|
"step": 4125 |
|
}, |
|
{ |
|
"epoch": 22.4, |
|
"grad_norm": 2.303550958633423, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4973, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 22.933333333333334, |
|
"grad_norm": 2.5230953693389893, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5083, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 22.997333333333334, |
|
"eval_accuracy": 0.5520512820512821, |
|
"eval_loss": 2.5811188220977783, |
|
"eval_runtime": 5.2251, |
|
"eval_samples_per_second": 95.692, |
|
"eval_steps_per_second": 12.057, |
|
"step": 4312 |
|
}, |
|
{ |
|
"epoch": 22.997333333333334, |
|
"eval_exact_match": 14.6, |
|
"eval_f1": 22.511111111111124, |
|
"step": 4312 |
|
}, |
|
{ |
|
"epoch": 23.466666666666665, |
|
"grad_norm": 2.1872711181640625, |
|
"learning_rate": 3e-05, |
|
"loss": 0.49, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"grad_norm": 2.1276657581329346, |
|
"learning_rate": 3e-05, |
|
"loss": 0.5081, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"eval_accuracy": 0.5513333333333333, |
|
"eval_loss": 2.5661673545837402, |
|
"eval_runtime": 5.1065, |
|
"eval_samples_per_second": 97.915, |
|
"eval_steps_per_second": 12.337, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"eval_exact_match": 15.2, |
|
"eval_f1": 23.028547008547015, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 24.533333333333335, |
|
"grad_norm": 3.943235158920288, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4862, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 24.997333333333334, |
|
"eval_accuracy": 0.5522051282051282, |
|
"eval_loss": 2.6429293155670166, |
|
"eval_runtime": 4.8982, |
|
"eval_samples_per_second": 102.078, |
|
"eval_steps_per_second": 12.862, |
|
"step": 4687 |
|
}, |
|
{ |
|
"epoch": 24.997333333333334, |
|
"eval_exact_match": 13.8, |
|
"eval_f1": 21.402380952380966, |
|
"step": 4687 |
|
}, |
|
{ |
|
"epoch": 25.066666666666666, |
|
"grad_norm": 4.37394380569458, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4998, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 25.6, |
|
"grad_norm": 2.133417844772339, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4845, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 26.0, |
|
"eval_accuracy": 0.5533846153846154, |
|
"eval_loss": 2.6020326614379883, |
|
"eval_runtime": 5.0467, |
|
"eval_samples_per_second": 99.075, |
|
"eval_steps_per_second": 12.483, |
|
"step": 4875 |
|
}, |
|
{ |
|
"epoch": 26.0, |
|
"eval_exact_match": 13.8, |
|
"eval_f1": 22.005714285714294, |
|
"step": 4875 |
|
}, |
|
{ |
|
"epoch": 26.133333333333333, |
|
"grad_norm": 2.307835102081299, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4967, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 26.666666666666668, |
|
"grad_norm": 2.352783203125, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4869, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 26.997333333333334, |
|
"eval_accuracy": 0.5521538461538461, |
|
"eval_loss": 2.633915424346924, |
|
"eval_runtime": 5.2178, |
|
"eval_samples_per_second": 95.826, |
|
"eval_steps_per_second": 12.074, |
|
"step": 5062 |
|
}, |
|
{ |
|
"epoch": 26.997333333333334, |
|
"eval_exact_match": 13.6, |
|
"eval_f1": 21.69952380952382, |
|
"step": 5062 |
|
}, |
|
{ |
|
"epoch": 27.2, |
|
"grad_norm": 3.5862042903900146, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4863, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 27.733333333333334, |
|
"grad_norm": 2.1928396224975586, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4862, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 28.0, |
|
"eval_accuracy": 0.5524102564102564, |
|
"eval_loss": 2.6161999702453613, |
|
"eval_runtime": 5.0462, |
|
"eval_samples_per_second": 99.085, |
|
"eval_steps_per_second": 12.485, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 28.0, |
|
"eval_exact_match": 14.8, |
|
"eval_f1": 22.126190476190487, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 28.266666666666666, |
|
"grad_norm": 2.0402398109436035, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4836, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 28.8, |
|
"grad_norm": 2.1713831424713135, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4856, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 28.997333333333334, |
|
"eval_accuracy": 0.5525641025641026, |
|
"eval_loss": 2.6764330863952637, |
|
"eval_runtime": 5.9146, |
|
"eval_samples_per_second": 84.537, |
|
"eval_steps_per_second": 10.652, |
|
"step": 5437 |
|
}, |
|
{ |
|
"epoch": 28.997333333333334, |
|
"eval_exact_match": 14.2, |
|
"eval_f1": 21.448412698412714, |
|
"step": 5437 |
|
}, |
|
{ |
|
"epoch": 29.333333333333332, |
|
"grad_norm": 2.2155110836029053, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4786, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 29.866666666666667, |
|
"grad_norm": 1.7778940200805664, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4871, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"eval_accuracy": 0.5525641025641026, |
|
"eval_loss": 2.6703062057495117, |
|
"eval_runtime": 4.8938, |
|
"eval_samples_per_second": 102.171, |
|
"eval_steps_per_second": 12.874, |
|
"step": 5625 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"eval_exact_match": 14.2, |
|
"eval_f1": 20.916825396825406, |
|
"step": 5625 |
|
}, |
|
{ |
|
"epoch": 30.4, |
|
"grad_norm": 2.07055401802063, |
|
"learning_rate": 3e-05, |
|
"loss": 0.475, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 30.933333333333334, |
|
"grad_norm": 1.788883924484253, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4863, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 30.997333333333334, |
|
"eval_accuracy": 0.5533333333333333, |
|
"eval_loss": 2.6787095069885254, |
|
"eval_runtime": 5.0298, |
|
"eval_samples_per_second": 99.407, |
|
"eval_steps_per_second": 12.525, |
|
"step": 5812 |
|
}, |
|
{ |
|
"epoch": 30.997333333333334, |
|
"eval_exact_match": 14.0, |
|
"eval_f1": 21.74063492063493, |
|
"step": 5812 |
|
}, |
|
{ |
|
"epoch": 31.466666666666665, |
|
"grad_norm": 1.6789844036102295, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4693, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"grad_norm": 1.622942566871643, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4884, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"eval_accuracy": 0.5528205128205128, |
|
"eval_loss": 2.6847567558288574, |
|
"eval_runtime": 5.2277, |
|
"eval_samples_per_second": 95.644, |
|
"eval_steps_per_second": 12.051, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"eval_exact_match": 14.2, |
|
"eval_f1": 21.513968253968265, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 32.53333333333333, |
|
"grad_norm": 1.7828670740127563, |
|
"learning_rate": 3e-05, |
|
"loss": 0.467, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 32.99733333333333, |
|
"eval_accuracy": 0.5531282051282052, |
|
"eval_loss": 2.668905735015869, |
|
"eval_runtime": 5.7429, |
|
"eval_samples_per_second": 87.064, |
|
"eval_steps_per_second": 10.97, |
|
"step": 6187 |
|
}, |
|
{ |
|
"epoch": 32.99733333333333, |
|
"eval_exact_match": 14.8, |
|
"eval_f1": 22.606190476190484, |
|
"step": 6187 |
|
}, |
|
{ |
|
"epoch": 33.06666666666667, |
|
"grad_norm": 1.8942480087280273, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4805, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 33.6, |
|
"grad_norm": 1.859069585800171, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4694, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 34.0, |
|
"eval_accuracy": 0.5524615384615384, |
|
"eval_loss": 2.701338768005371, |
|
"eval_runtime": 5.1485, |
|
"eval_samples_per_second": 97.115, |
|
"eval_steps_per_second": 12.237, |
|
"step": 6375 |
|
}, |
|
{ |
|
"epoch": 34.0, |
|
"eval_exact_match": 13.4, |
|
"eval_f1": 21.174920634920642, |
|
"step": 6375 |
|
}, |
|
{ |
|
"epoch": 34.13333333333333, |
|
"grad_norm": 1.8238064050674438, |
|
"learning_rate": 3e-05, |
|
"loss": 0.476, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 34.666666666666664, |
|
"grad_norm": 1.784118413925171, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4712, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 34.99733333333333, |
|
"eval_accuracy": 0.5521025641025641, |
|
"eval_loss": 2.706479072570801, |
|
"eval_runtime": 5.7012, |
|
"eval_samples_per_second": 87.7, |
|
"eval_steps_per_second": 11.05, |
|
"step": 6562 |
|
}, |
|
{ |
|
"epoch": 34.99733333333333, |
|
"eval_exact_match": 13.2, |
|
"eval_f1": 21.548253968253984, |
|
"step": 6562 |
|
}, |
|
{ |
|
"epoch": 35.2, |
|
"grad_norm": 1.6702320575714111, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4711, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 35.733333333333334, |
|
"grad_norm": 2.1222314834594727, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4733, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"eval_accuracy": 0.5522564102564103, |
|
"eval_loss": 2.670701742172241, |
|
"eval_runtime": 5.2238, |
|
"eval_samples_per_second": 95.716, |
|
"eval_steps_per_second": 12.06, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"eval_exact_match": 12.8, |
|
"eval_f1": 20.31333333333334, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 36.266666666666666, |
|
"grad_norm": 1.5269900560379028, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4678, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 36.8, |
|
"grad_norm": 1.7864423990249634, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4752, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 36.99733333333333, |
|
"eval_accuracy": 0.5531794871794872, |
|
"eval_loss": 2.675729513168335, |
|
"eval_runtime": 6.0665, |
|
"eval_samples_per_second": 82.42, |
|
"eval_steps_per_second": 10.385, |
|
"step": 6937 |
|
}, |
|
{ |
|
"epoch": 36.99733333333333, |
|
"eval_exact_match": 14.4, |
|
"eval_f1": 22.22396825396826, |
|
"step": 6937 |
|
}, |
|
{ |
|
"epoch": 37.333333333333336, |
|
"grad_norm": 2.6186816692352295, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4671, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 37.86666666666667, |
|
"grad_norm": 2.1805689334869385, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4744, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 38.0, |
|
"eval_accuracy": 0.5534358974358974, |
|
"eval_loss": 2.701582431793213, |
|
"eval_runtime": 4.964, |
|
"eval_samples_per_second": 100.725, |
|
"eval_steps_per_second": 12.691, |
|
"step": 7125 |
|
}, |
|
{ |
|
"epoch": 38.0, |
|
"eval_exact_match": 13.6, |
|
"eval_f1": 21.16952380952382, |
|
"step": 7125 |
|
}, |
|
{ |
|
"epoch": 38.4, |
|
"grad_norm": 1.9267176389694214, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4611, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 38.93333333333333, |
|
"grad_norm": 1.8288675546646118, |
|
"learning_rate": 3e-05, |
|
"loss": 0.4759, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 38.99733333333333, |
|
"eval_accuracy": 0.5525641025641026, |
|
"eval_loss": 2.726337432861328, |
|
"eval_runtime": 5.6276, |
|
"eval_samples_per_second": 88.847, |
|
"eval_steps_per_second": 11.195, |
|
"step": 7312 |
|
}, |
|
{ |
|
"epoch": 38.99733333333333, |
|
"eval_exact_match": 12.2, |
|
"eval_f1": 19.783968253968265, |
|
"step": 7312 |
|
} |
|
], |
|
"logging_steps": 100, |
|
"max_steps": 9350, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 50, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.3395200547015885e+17, |
|
"train_batch_size": 2, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|