{ "best_metric": null, "best_model_checkpoint": null, "epoch": 42.99733333333333, "eval_steps": 500, "global_step": 8062, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.5333333333333333, "grad_norm": 0.9283596873283386, "learning_rate": 3e-05, "loss": 1.963, "step": 100 }, { "epoch": 0.9973333333333333, "eval_accuracy": 0.5695384615384615, "eval_loss": 1.6438876390457153, "eval_runtime": 5.0534, "eval_samples_per_second": 98.943, "eval_steps_per_second": 12.467, "step": 187 }, { "epoch": 0.9973333333333333, "eval_exact_match": 16.2, "eval_f1": 25.888571428571442, "step": 187 }, { "epoch": 1.0666666666666667, "grad_norm": 1.0407154560089111, "learning_rate": 3e-05, "loss": 1.6668, "step": 200 }, { "epoch": 1.6, "grad_norm": 1.1281720399856567, "learning_rate": 3e-05, "loss": 1.6099, "step": 300 }, { "epoch": 2.0, "eval_accuracy": 0.5733333333333334, "eval_loss": 1.618270754814148, "eval_runtime": 5.1983, "eval_samples_per_second": 96.186, "eval_steps_per_second": 12.119, "step": 375 }, { "epoch": 2.0, "eval_exact_match": 16.6, "eval_f1": 26.287619047619057, "step": 375 }, { "epoch": 2.1333333333333333, "grad_norm": 1.2508225440979004, "learning_rate": 3e-05, "loss": 1.5866, "step": 400 }, { "epoch": 2.6666666666666665, "grad_norm": 1.3197834491729736, "learning_rate": 3e-05, "loss": 1.524, "step": 500 }, { "epoch": 2.997333333333333, "eval_accuracy": 0.5743589743589743, "eval_loss": 1.6164497137069702, "eval_runtime": 5.0495, "eval_samples_per_second": 99.019, "eval_steps_per_second": 12.476, "step": 562 }, { "epoch": 2.997333333333333, "eval_exact_match": 17.8, "eval_f1": 27.35428571428571, "step": 562 }, { "epoch": 3.2, "grad_norm": 1.6320394277572632, "learning_rate": 3e-05, "loss": 1.4752, "step": 600 }, { "epoch": 3.7333333333333334, "grad_norm": 1.7101725339889526, "learning_rate": 3e-05, "loss": 1.3938, "step": 700 }, { "epoch": 4.0, "eval_accuracy": 0.5728717948717948, "eval_loss": 1.6376241445541382, "eval_runtime": 4.9662, "eval_samples_per_second": 100.68, "eval_steps_per_second": 12.686, "step": 750 }, { "epoch": 4.0, "eval_exact_match": 18.0, "eval_f1": 27.498571428571427, "step": 750 }, { "epoch": 4.266666666666667, "grad_norm": 2.1727664470672607, "learning_rate": 3e-05, "loss": 1.342, "step": 800 }, { "epoch": 4.8, "grad_norm": 2.341384172439575, "learning_rate": 3e-05, "loss": 1.2685, "step": 900 }, { "epoch": 4.997333333333334, "eval_accuracy": 0.5699487179487179, "eval_loss": 1.684618353843689, "eval_runtime": 5.5457, "eval_samples_per_second": 90.16, "eval_steps_per_second": 11.36, "step": 937 }, { "epoch": 4.997333333333334, "eval_exact_match": 19.2, "eval_f1": 28.190952380952375, "step": 937 }, { "epoch": 5.333333333333333, "grad_norm": 2.5624172687530518, "learning_rate": 3e-05, "loss": 1.1847, "step": 1000 }, { "epoch": 5.866666666666667, "grad_norm": 2.8159019947052, "learning_rate": 3e-05, "loss": 1.1591, "step": 1100 }, { "epoch": 6.0, "eval_accuracy": 0.5672820512820513, "eval_loss": 1.7546838521957397, "eval_runtime": 5.0186, "eval_samples_per_second": 99.629, "eval_steps_per_second": 12.553, "step": 1125 }, { "epoch": 6.0, "eval_exact_match": 16.6, "eval_f1": 25.054761904761914, "step": 1125 }, { "epoch": 6.4, "grad_norm": 3.056166410446167, "learning_rate": 3e-05, "loss": 1.0486, "step": 1200 }, { "epoch": 6.933333333333334, "grad_norm": 2.873281240463257, "learning_rate": 3e-05, "loss": 1.0444, "step": 1300 }, { "epoch": 6.997333333333334, "eval_accuracy": 0.5643076923076923, "eval_loss": 1.8394943475723267, "eval_runtime": 5.5931, "eval_samples_per_second": 89.396, "eval_steps_per_second": 11.264, "step": 1312 }, { "epoch": 6.997333333333334, "eval_exact_match": 15.8, "eval_f1": 23.925714285714296, "step": 1312 }, { "epoch": 7.466666666666667, "grad_norm": 3.069322109222412, "learning_rate": 3e-05, "loss": 0.9374, "step": 1400 }, { "epoch": 8.0, "grad_norm": 3.2732129096984863, "learning_rate": 3e-05, "loss": 0.9535, "step": 1500 }, { "epoch": 8.0, "eval_accuracy": 0.5612820512820513, "eval_loss": 1.9008216857910156, "eval_runtime": 5.1357, "eval_samples_per_second": 97.358, "eval_steps_per_second": 12.267, "step": 1500 }, { "epoch": 8.0, "eval_exact_match": 15.2, "eval_f1": 23.12063492063493, "step": 1500 }, { "epoch": 8.533333333333333, "grad_norm": 3.382610321044922, "learning_rate": 3e-05, "loss": 0.8235, "step": 1600 }, { "epoch": 8.997333333333334, "eval_accuracy": 0.5592307692307692, "eval_loss": 2.026776075363159, "eval_runtime": 5.5056, "eval_samples_per_second": 90.817, "eval_steps_per_second": 11.443, "step": 1687 }, { "epoch": 8.997333333333334, "eval_exact_match": 13.8, "eval_f1": 21.42285714285715, "step": 1687 }, { "epoch": 9.066666666666666, "grad_norm": 4.363819122314453, "learning_rate": 3e-05, "loss": 0.8547, "step": 1700 }, { "epoch": 9.6, "grad_norm": 3.685805320739746, "learning_rate": 3e-05, "loss": 0.7635, "step": 1800 }, { "epoch": 10.0, "eval_accuracy": 0.5567692307692308, "eval_loss": 2.0937435626983643, "eval_runtime": 5.235, "eval_samples_per_second": 95.512, "eval_steps_per_second": 12.034, "step": 1875 }, { "epoch": 10.0, "eval_exact_match": 15.2, "eval_f1": 22.031904761904762, "step": 1875 }, { "epoch": 10.133333333333333, "grad_norm": 3.5318357944488525, "learning_rate": 3e-05, "loss": 0.7554, "step": 1900 }, { "epoch": 10.666666666666666, "grad_norm": 3.6454901695251465, "learning_rate": 3e-05, "loss": 0.6978, "step": 2000 }, { "epoch": 10.997333333333334, "eval_accuracy": 0.556974358974359, "eval_loss": 2.1557741165161133, "eval_runtime": 5.1556, "eval_samples_per_second": 96.981, "eval_steps_per_second": 12.22, "step": 2062 }, { "epoch": 10.997333333333334, "eval_exact_match": 15.0, "eval_f1": 23.010000000000012, "step": 2062 }, { "epoch": 11.2, "grad_norm": 3.658707618713379, "learning_rate": 3e-05, "loss": 0.6969, "step": 2100 }, { "epoch": 11.733333333333333, "grad_norm": 3.7350716590881348, "learning_rate": 3e-05, "loss": 0.6615, "step": 2200 }, { "epoch": 12.0, "eval_accuracy": 0.5551794871794872, "eval_loss": 2.239973545074463, "eval_runtime": 4.9026, "eval_samples_per_second": 101.986, "eval_steps_per_second": 12.85, "step": 2250 }, { "epoch": 12.0, "eval_exact_match": 15.6, "eval_f1": 23.333492063492066, "step": 2250 }, { "epoch": 12.266666666666667, "grad_norm": 4.4434709548950195, "learning_rate": 3e-05, "loss": 0.632, "step": 2300 }, { "epoch": 12.8, "grad_norm": 3.4198718070983887, "learning_rate": 3e-05, "loss": 0.6262, "step": 2400 }, { "epoch": 12.997333333333334, "eval_accuracy": 0.5556410256410257, "eval_loss": 2.268662452697754, "eval_runtime": 5.327, "eval_samples_per_second": 93.862, "eval_steps_per_second": 11.827, "step": 2437 }, { "epoch": 12.997333333333334, "eval_exact_match": 14.4, "eval_f1": 22.583492063492077, "step": 2437 }, { "epoch": 13.333333333333334, "grad_norm": 3.158496618270874, "learning_rate": 3e-05, "loss": 0.5973, "step": 2500 }, { "epoch": 13.866666666666667, "grad_norm": 3.5720713138580322, "learning_rate": 3e-05, "loss": 0.5958, "step": 2600 }, { "epoch": 14.0, "eval_accuracy": 0.5536923076923077, "eval_loss": 2.358220100402832, "eval_runtime": 5.236, "eval_samples_per_second": 95.493, "eval_steps_per_second": 12.032, "step": 2625 }, { "epoch": 14.0, "eval_exact_match": 14.6, "eval_f1": 21.79904761904763, "step": 2625 }, { "epoch": 14.4, "grad_norm": 5.126227855682373, "learning_rate": 3e-05, "loss": 0.5692, "step": 2700 }, { "epoch": 14.933333333333334, "grad_norm": 3.3391811847686768, "learning_rate": 3e-05, "loss": 0.5778, "step": 2800 }, { "epoch": 14.997333333333334, "eval_accuracy": 0.5533846153846154, "eval_loss": 2.395972728729248, "eval_runtime": 5.1135, "eval_samples_per_second": 97.78, "eval_steps_per_second": 12.32, "step": 2812 }, { "epoch": 14.997333333333334, "eval_exact_match": 14.6, "eval_f1": 22.537301587301595, "step": 2812 }, { "epoch": 15.466666666666667, "grad_norm": 2.8773677349090576, "learning_rate": 3e-05, "loss": 0.5461, "step": 2900 }, { "epoch": 16.0, "grad_norm": 3.580195903778076, "learning_rate": 3e-05, "loss": 0.5661, "step": 3000 }, { "epoch": 16.0, "eval_accuracy": 0.5533846153846154, "eval_loss": 2.4321775436401367, "eval_runtime": 5.0238, "eval_samples_per_second": 99.527, "eval_steps_per_second": 12.54, "step": 3000 }, { "epoch": 16.0, "eval_exact_match": 14.0, "eval_f1": 22.300808080808093, "step": 3000 }, { "epoch": 16.533333333333335, "grad_norm": 3.6829302310943604, "learning_rate": 3e-05, "loss": 0.5277, "step": 3100 }, { "epoch": 16.997333333333334, "eval_accuracy": 0.5515384615384615, "eval_loss": 2.482792615890503, "eval_runtime": 5.3006, "eval_samples_per_second": 94.328, "eval_steps_per_second": 11.885, "step": 3187 }, { "epoch": 16.997333333333334, "eval_exact_match": 13.4, "eval_f1": 21.439682539682543, "step": 3187 }, { "epoch": 17.066666666666666, "grad_norm": 3.1766672134399414, "learning_rate": 3e-05, "loss": 0.5475, "step": 3200 }, { "epoch": 17.6, "grad_norm": 3.070977210998535, "learning_rate": 3e-05, "loss": 0.5211, "step": 3300 }, { "epoch": 18.0, "eval_accuracy": 0.5516410256410257, "eval_loss": 2.510619640350342, "eval_runtime": 5.0519, "eval_samples_per_second": 98.973, "eval_steps_per_second": 12.471, "step": 3375 }, { "epoch": 18.0, "eval_exact_match": 12.6, "eval_f1": 20.136349206349216, "step": 3375 }, { "epoch": 18.133333333333333, "grad_norm": 4.728194713592529, "learning_rate": 3e-05, "loss": 0.5344, "step": 3400 }, { "epoch": 18.666666666666668, "grad_norm": 3.1506965160369873, "learning_rate": 3e-05, "loss": 0.5189, "step": 3500 }, { "epoch": 18.997333333333334, "eval_accuracy": 0.5514871794871795, "eval_loss": 2.5705809593200684, "eval_runtime": 4.9081, "eval_samples_per_second": 101.872, "eval_steps_per_second": 12.836, "step": 3562 }, { "epoch": 18.997333333333334, "eval_exact_match": 13.8, "eval_f1": 21.51634920634921, "step": 3562 }, { "epoch": 19.2, "grad_norm": 2.7202513217926025, "learning_rate": 3e-05, "loss": 0.5198, "step": 3600 }, { "epoch": 19.733333333333334, "grad_norm": 2.581169366836548, "learning_rate": 3e-05, "loss": 0.5166, "step": 3700 }, { "epoch": 20.0, "eval_accuracy": 0.5526153846153846, "eval_loss": 2.542161226272583, "eval_runtime": 5.0196, "eval_samples_per_second": 99.609, "eval_steps_per_second": 12.551, "step": 3750 }, { "epoch": 20.0, "eval_exact_match": 14.4, "eval_f1": 21.563492063492074, "step": 3750 }, { "epoch": 20.266666666666666, "grad_norm": 2.6741623878479004, "learning_rate": 3e-05, "loss": 0.5112, "step": 3800 }, { "epoch": 20.8, "grad_norm": 3.241607666015625, "learning_rate": 3e-05, "loss": 0.5132, "step": 3900 }, { "epoch": 20.997333333333334, "eval_accuracy": 0.550923076923077, "eval_loss": 2.594764232635498, "eval_runtime": 5.2553, "eval_samples_per_second": 95.142, "eval_steps_per_second": 11.988, "step": 3937 }, { "epoch": 20.997333333333334, "eval_exact_match": 13.4, "eval_f1": 21.25015873015874, "step": 3937 }, { "epoch": 21.333333333333332, "grad_norm": 2.6324737071990967, "learning_rate": 3e-05, "loss": 0.5011, "step": 4000 }, { "epoch": 21.866666666666667, "grad_norm": 3.572909116744995, "learning_rate": 3e-05, "loss": 0.5115, "step": 4100 }, { "epoch": 22.0, "eval_accuracy": 0.5512307692307692, "eval_loss": 2.604835033416748, "eval_runtime": 5.1325, "eval_samples_per_second": 97.419, "eval_steps_per_second": 12.275, "step": 4125 }, { "epoch": 22.0, "eval_exact_match": 14.2, "eval_f1": 21.673968253968265, "step": 4125 }, { "epoch": 22.4, "grad_norm": 2.303550958633423, "learning_rate": 3e-05, "loss": 0.4973, "step": 4200 }, { "epoch": 22.933333333333334, "grad_norm": 2.5230953693389893, "learning_rate": 3e-05, "loss": 0.5083, "step": 4300 }, { "epoch": 22.997333333333334, "eval_accuracy": 0.5520512820512821, "eval_loss": 2.5811188220977783, "eval_runtime": 5.2251, "eval_samples_per_second": 95.692, "eval_steps_per_second": 12.057, "step": 4312 }, { "epoch": 22.997333333333334, "eval_exact_match": 14.6, "eval_f1": 22.511111111111124, "step": 4312 }, { "epoch": 23.466666666666665, "grad_norm": 2.1872711181640625, "learning_rate": 3e-05, "loss": 0.49, "step": 4400 }, { "epoch": 24.0, "grad_norm": 2.1276657581329346, "learning_rate": 3e-05, "loss": 0.5081, "step": 4500 }, { "epoch": 24.0, "eval_accuracy": 0.5513333333333333, "eval_loss": 2.5661673545837402, "eval_runtime": 5.1065, "eval_samples_per_second": 97.915, "eval_steps_per_second": 12.337, "step": 4500 }, { "epoch": 24.0, "eval_exact_match": 15.2, "eval_f1": 23.028547008547015, "step": 4500 }, { "epoch": 24.533333333333335, "grad_norm": 3.943235158920288, "learning_rate": 3e-05, "loss": 0.4862, "step": 4600 }, { "epoch": 24.997333333333334, "eval_accuracy": 0.5522051282051282, "eval_loss": 2.6429293155670166, "eval_runtime": 4.8982, "eval_samples_per_second": 102.078, "eval_steps_per_second": 12.862, "step": 4687 }, { "epoch": 24.997333333333334, "eval_exact_match": 13.8, "eval_f1": 21.402380952380966, "step": 4687 }, { "epoch": 25.066666666666666, "grad_norm": 4.37394380569458, "learning_rate": 3e-05, "loss": 0.4998, "step": 4700 }, { "epoch": 25.6, "grad_norm": 2.133417844772339, "learning_rate": 3e-05, "loss": 0.4845, "step": 4800 }, { "epoch": 26.0, "eval_accuracy": 0.5533846153846154, "eval_loss": 2.6020326614379883, "eval_runtime": 5.0467, "eval_samples_per_second": 99.075, "eval_steps_per_second": 12.483, "step": 4875 }, { "epoch": 26.0, "eval_exact_match": 13.8, "eval_f1": 22.005714285714294, "step": 4875 }, { "epoch": 26.133333333333333, "grad_norm": 2.307835102081299, "learning_rate": 3e-05, "loss": 0.4967, "step": 4900 }, { "epoch": 26.666666666666668, "grad_norm": 2.352783203125, "learning_rate": 3e-05, "loss": 0.4869, "step": 5000 }, { "epoch": 26.997333333333334, "eval_accuracy": 0.5521538461538461, "eval_loss": 2.633915424346924, "eval_runtime": 5.2178, "eval_samples_per_second": 95.826, "eval_steps_per_second": 12.074, "step": 5062 }, { "epoch": 26.997333333333334, "eval_exact_match": 13.6, "eval_f1": 21.69952380952382, "step": 5062 }, { "epoch": 27.2, "grad_norm": 3.5862042903900146, "learning_rate": 3e-05, "loss": 0.4863, "step": 5100 }, { "epoch": 27.733333333333334, "grad_norm": 2.1928396224975586, "learning_rate": 3e-05, "loss": 0.4862, "step": 5200 }, { "epoch": 28.0, "eval_accuracy": 0.5524102564102564, "eval_loss": 2.6161999702453613, "eval_runtime": 5.0462, "eval_samples_per_second": 99.085, "eval_steps_per_second": 12.485, "step": 5250 }, { "epoch": 28.0, "eval_exact_match": 14.8, "eval_f1": 22.126190476190487, "step": 5250 }, { "epoch": 28.266666666666666, "grad_norm": 2.0402398109436035, "learning_rate": 3e-05, "loss": 0.4836, "step": 5300 }, { "epoch": 28.8, "grad_norm": 2.1713831424713135, "learning_rate": 3e-05, "loss": 0.4856, "step": 5400 }, { "epoch": 28.997333333333334, "eval_accuracy": 0.5525641025641026, "eval_loss": 2.6764330863952637, "eval_runtime": 5.9146, "eval_samples_per_second": 84.537, "eval_steps_per_second": 10.652, "step": 5437 }, { "epoch": 28.997333333333334, "eval_exact_match": 14.2, "eval_f1": 21.448412698412714, "step": 5437 }, { "epoch": 29.333333333333332, "grad_norm": 2.2155110836029053, "learning_rate": 3e-05, "loss": 0.4786, "step": 5500 }, { "epoch": 29.866666666666667, "grad_norm": 1.7778940200805664, "learning_rate": 3e-05, "loss": 0.4871, "step": 5600 }, { "epoch": 30.0, "eval_accuracy": 0.5525641025641026, "eval_loss": 2.6703062057495117, "eval_runtime": 4.8938, "eval_samples_per_second": 102.171, "eval_steps_per_second": 12.874, "step": 5625 }, { "epoch": 30.0, "eval_exact_match": 14.2, "eval_f1": 20.916825396825406, "step": 5625 }, { "epoch": 30.4, "grad_norm": 2.07055401802063, "learning_rate": 3e-05, "loss": 0.475, "step": 5700 }, { "epoch": 30.933333333333334, "grad_norm": 1.788883924484253, "learning_rate": 3e-05, "loss": 0.4863, "step": 5800 }, { "epoch": 30.997333333333334, "eval_accuracy": 0.5533333333333333, "eval_loss": 2.6787095069885254, "eval_runtime": 5.0298, "eval_samples_per_second": 99.407, "eval_steps_per_second": 12.525, "step": 5812 }, { "epoch": 30.997333333333334, "eval_exact_match": 14.0, "eval_f1": 21.74063492063493, "step": 5812 }, { "epoch": 31.466666666666665, "grad_norm": 1.6789844036102295, "learning_rate": 3e-05, "loss": 0.4693, "step": 5900 }, { "epoch": 32.0, "grad_norm": 1.622942566871643, "learning_rate": 3e-05, "loss": 0.4884, "step": 6000 }, { "epoch": 32.0, "eval_accuracy": 0.5528205128205128, "eval_loss": 2.6847567558288574, "eval_runtime": 5.2277, "eval_samples_per_second": 95.644, "eval_steps_per_second": 12.051, "step": 6000 }, { "epoch": 32.0, "eval_exact_match": 14.2, "eval_f1": 21.513968253968265, "step": 6000 }, { "epoch": 32.53333333333333, "grad_norm": 1.7828670740127563, "learning_rate": 3e-05, "loss": 0.467, "step": 6100 }, { "epoch": 32.99733333333333, "eval_accuracy": 0.5531282051282052, "eval_loss": 2.668905735015869, "eval_runtime": 5.7429, "eval_samples_per_second": 87.064, "eval_steps_per_second": 10.97, "step": 6187 }, { "epoch": 32.99733333333333, "eval_exact_match": 14.8, "eval_f1": 22.606190476190484, "step": 6187 }, { "epoch": 33.06666666666667, "grad_norm": 1.8942480087280273, "learning_rate": 3e-05, "loss": 0.4805, "step": 6200 }, { "epoch": 33.6, "grad_norm": 1.859069585800171, "learning_rate": 3e-05, "loss": 0.4694, "step": 6300 }, { "epoch": 34.0, "eval_accuracy": 0.5524615384615384, "eval_loss": 2.701338768005371, "eval_runtime": 5.1485, "eval_samples_per_second": 97.115, "eval_steps_per_second": 12.237, "step": 6375 }, { "epoch": 34.0, "eval_exact_match": 13.4, "eval_f1": 21.174920634920642, "step": 6375 }, { "epoch": 34.13333333333333, "grad_norm": 1.8238064050674438, "learning_rate": 3e-05, "loss": 0.476, "step": 6400 }, { "epoch": 34.666666666666664, "grad_norm": 1.784118413925171, "learning_rate": 3e-05, "loss": 0.4712, "step": 6500 }, { "epoch": 34.99733333333333, "eval_accuracy": 0.5521025641025641, "eval_loss": 2.706479072570801, "eval_runtime": 5.7012, "eval_samples_per_second": 87.7, "eval_steps_per_second": 11.05, "step": 6562 }, { "epoch": 34.99733333333333, "eval_exact_match": 13.2, "eval_f1": 21.548253968253984, "step": 6562 }, { "epoch": 35.2, "grad_norm": 1.6702320575714111, "learning_rate": 3e-05, "loss": 0.4711, "step": 6600 }, { "epoch": 35.733333333333334, "grad_norm": 2.1222314834594727, "learning_rate": 3e-05, "loss": 0.4733, "step": 6700 }, { "epoch": 36.0, "eval_accuracy": 0.5522564102564103, "eval_loss": 2.670701742172241, "eval_runtime": 5.2238, "eval_samples_per_second": 95.716, "eval_steps_per_second": 12.06, "step": 6750 }, { "epoch": 36.0, "eval_exact_match": 12.8, "eval_f1": 20.31333333333334, "step": 6750 }, { "epoch": 36.266666666666666, "grad_norm": 1.5269900560379028, "learning_rate": 3e-05, "loss": 0.4678, "step": 6800 }, { "epoch": 36.8, "grad_norm": 1.7864423990249634, "learning_rate": 3e-05, "loss": 0.4752, "step": 6900 }, { "epoch": 36.99733333333333, "eval_accuracy": 0.5531794871794872, "eval_loss": 2.675729513168335, "eval_runtime": 6.0665, "eval_samples_per_second": 82.42, "eval_steps_per_second": 10.385, "step": 6937 }, { "epoch": 36.99733333333333, "eval_exact_match": 14.4, "eval_f1": 22.22396825396826, "step": 6937 }, { "epoch": 37.333333333333336, "grad_norm": 2.6186816692352295, "learning_rate": 3e-05, "loss": 0.4671, "step": 7000 }, { "epoch": 37.86666666666667, "grad_norm": 2.1805689334869385, "learning_rate": 3e-05, "loss": 0.4744, "step": 7100 }, { "epoch": 38.0, "eval_accuracy": 0.5534358974358974, "eval_loss": 2.701582431793213, "eval_runtime": 4.964, "eval_samples_per_second": 100.725, "eval_steps_per_second": 12.691, "step": 7125 }, { "epoch": 38.0, "eval_exact_match": 13.6, "eval_f1": 21.16952380952382, "step": 7125 }, { "epoch": 38.4, "grad_norm": 1.9267176389694214, "learning_rate": 3e-05, "loss": 0.4611, "step": 7200 }, { "epoch": 38.93333333333333, "grad_norm": 1.8288675546646118, "learning_rate": 3e-05, "loss": 0.4759, "step": 7300 }, { "epoch": 38.99733333333333, "eval_accuracy": 0.5525641025641026, "eval_loss": 2.726337432861328, "eval_runtime": 5.6276, "eval_samples_per_second": 88.847, "eval_steps_per_second": 11.195, "step": 7312 }, { "epoch": 38.99733333333333, "eval_exact_match": 12.2, "eval_f1": 19.783968253968265, "step": 7312 }, { "epoch": 39.46666666666667, "grad_norm": 1.7793669700622559, "learning_rate": 3e-05, "loss": 0.4589, "step": 7400 }, { "epoch": 40.0, "grad_norm": 1.6059751510620117, "learning_rate": 3e-05, "loss": 0.4759, "step": 7500 }, { "epoch": 40.0, "eval_accuracy": 0.5525128205128205, "eval_loss": 2.736008405685425, "eval_runtime": 5.6736, "eval_samples_per_second": 88.128, "eval_steps_per_second": 11.104, "step": 7500 }, { "epoch": 40.0, "eval_exact_match": 12.4, "eval_f1": 20.80158730158731, "step": 7500 }, { "epoch": 40.53333333333333, "grad_norm": 1.7500640153884888, "learning_rate": 3e-05, "loss": 0.4569, "step": 7600 }, { "epoch": 40.99733333333333, "eval_accuracy": 0.5524102564102564, "eval_loss": 2.757992744445801, "eval_runtime": 5.7367, "eval_samples_per_second": 87.158, "eval_steps_per_second": 10.982, "step": 7687 }, { "epoch": 40.99733333333333, "eval_exact_match": 12.8, "eval_f1": 20.586666666666677, "step": 7687 }, { "epoch": 41.06666666666667, "grad_norm": 3.21926212310791, "learning_rate": 3e-05, "loss": 0.469, "step": 7700 }, { "epoch": 41.6, "grad_norm": 1.447327971458435, "learning_rate": 3e-05, "loss": 0.4585, "step": 7800 }, { "epoch": 42.0, "eval_accuracy": 0.5521025641025641, "eval_loss": 2.7459263801574707, "eval_runtime": 5.947, "eval_samples_per_second": 84.076, "eval_steps_per_second": 10.594, "step": 7875 }, { "epoch": 42.0, "eval_exact_match": 12.4, "eval_f1": 19.576522366522376, "step": 7875 }, { "epoch": 42.13333333333333, "grad_norm": 1.6787067651748657, "learning_rate": 3e-05, "loss": 0.4688, "step": 7900 }, { "epoch": 42.666666666666664, "grad_norm": 1.491296648979187, "learning_rate": 3e-05, "loss": 0.4602, "step": 8000 }, { "epoch": 42.99733333333333, "eval_accuracy": 0.5521538461538461, "eval_loss": 2.7965104579925537, "eval_runtime": 4.909, "eval_samples_per_second": 101.854, "eval_steps_per_second": 12.834, "step": 8062 }, { "epoch": 42.99733333333333, "eval_exact_match": 13.0, "eval_f1": 20.853015873015874, "step": 8062 } ], "logging_steps": 100, "max_steps": 9350, "num_input_tokens_seen": 0, "num_train_epochs": 50, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.476975114972037e+17, "train_batch_size": 2, "trial_name": null, "trial_params": null }