|
{ |
|
"best_metric": 0.9166666666666666, |
|
"best_model_checkpoint": "deit-base-distilled-patch16-224-hasta-75-fold4/checkpoint-4", |
|
"epoch": 100.0, |
|
"eval_steps": 500, |
|
"global_step": 100, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 1.0, |
|
"eval_accuracy": 0.0, |
|
"eval_loss": 1.3782509565353394, |
|
"eval_runtime": 0.1697, |
|
"eval_samples_per_second": 70.723, |
|
"eval_steps_per_second": 5.894, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.16666666666666666, |
|
"eval_loss": 1.1470450162887573, |
|
"eval_runtime": 0.1727, |
|
"eval_samples_per_second": 69.475, |
|
"eval_steps_per_second": 5.79, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_accuracy": 0.75, |
|
"eval_loss": 0.7683658599853516, |
|
"eval_runtime": 0.1664, |
|
"eval_samples_per_second": 72.132, |
|
"eval_steps_per_second": 6.011, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.44661346077919006, |
|
"eval_runtime": 0.1705, |
|
"eval_samples_per_second": 70.367, |
|
"eval_steps_per_second": 5.864, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.31160277128219604, |
|
"eval_runtime": 0.1708, |
|
"eval_samples_per_second": 70.26, |
|
"eval_steps_per_second": 5.855, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.302399605512619, |
|
"eval_runtime": 0.1712, |
|
"eval_samples_per_second": 70.088, |
|
"eval_steps_per_second": 5.841, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3113258183002472, |
|
"eval_runtime": 0.17, |
|
"eval_samples_per_second": 70.583, |
|
"eval_steps_per_second": 5.882, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3525850474834442, |
|
"eval_runtime": 0.1722, |
|
"eval_samples_per_second": 69.68, |
|
"eval_steps_per_second": 5.807, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.5370473265647888, |
|
"eval_runtime": 0.1683, |
|
"eval_samples_per_second": 71.291, |
|
"eval_steps_per_second": 5.941, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 2.1474409103393555, |
|
"learning_rate": 5e-05, |
|
"loss": 0.3843, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.6259357333183289, |
|
"eval_runtime": 0.1683, |
|
"eval_samples_per_second": 71.303, |
|
"eval_steps_per_second": 5.942, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 11.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.4978603422641754, |
|
"eval_runtime": 0.1761, |
|
"eval_samples_per_second": 68.149, |
|
"eval_steps_per_second": 5.679, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.35551348328590393, |
|
"eval_runtime": 0.1698, |
|
"eval_samples_per_second": 70.651, |
|
"eval_steps_per_second": 5.888, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 13.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.31318408250808716, |
|
"eval_runtime": 0.1785, |
|
"eval_samples_per_second": 67.231, |
|
"eval_steps_per_second": 5.603, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3053753077983856, |
|
"eval_runtime": 0.1705, |
|
"eval_samples_per_second": 70.387, |
|
"eval_steps_per_second": 5.866, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.32621100544929504, |
|
"eval_runtime": 0.1741, |
|
"eval_samples_per_second": 68.923, |
|
"eval_steps_per_second": 5.744, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3495100438594818, |
|
"eval_runtime": 0.1707, |
|
"eval_samples_per_second": 70.293, |
|
"eval_steps_per_second": 5.858, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 17.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3210816979408264, |
|
"eval_runtime": 0.1729, |
|
"eval_samples_per_second": 69.408, |
|
"eval_steps_per_second": 5.784, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2993333637714386, |
|
"eval_runtime": 0.175, |
|
"eval_samples_per_second": 68.572, |
|
"eval_steps_per_second": 5.714, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 19.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3174295723438263, |
|
"eval_runtime": 0.1738, |
|
"eval_samples_per_second": 69.048, |
|
"eval_steps_per_second": 5.754, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"grad_norm": 1.0123381614685059, |
|
"learning_rate": 4.4444444444444447e-05, |
|
"loss": 0.1412, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.32205843925476074, |
|
"eval_runtime": 0.1642, |
|
"eval_samples_per_second": 73.088, |
|
"eval_steps_per_second": 6.091, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 21.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.32479026913642883, |
|
"eval_runtime": 0.1762, |
|
"eval_samples_per_second": 68.103, |
|
"eval_steps_per_second": 5.675, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.32446736097335815, |
|
"eval_runtime": 0.1695, |
|
"eval_samples_per_second": 70.792, |
|
"eval_steps_per_second": 5.899, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 23.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.34116366505622864, |
|
"eval_runtime": 0.1709, |
|
"eval_samples_per_second": 70.212, |
|
"eval_steps_per_second": 5.851, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.3021368980407715, |
|
"eval_runtime": 0.173, |
|
"eval_samples_per_second": 69.37, |
|
"eval_steps_per_second": 5.781, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2038118690252304, |
|
"eval_runtime": 0.1731, |
|
"eval_samples_per_second": 69.309, |
|
"eval_steps_per_second": 5.776, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 26.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1855746954679489, |
|
"eval_runtime": 0.1804, |
|
"eval_samples_per_second": 66.507, |
|
"eval_steps_per_second": 5.542, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 27.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.21264700591564178, |
|
"eval_runtime": 0.1721, |
|
"eval_samples_per_second": 69.739, |
|
"eval_steps_per_second": 5.812, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 28.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2161237746477127, |
|
"eval_runtime": 0.1749, |
|
"eval_samples_per_second": 68.603, |
|
"eval_steps_per_second": 5.717, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 29.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.18375468254089355, |
|
"eval_runtime": 0.1735, |
|
"eval_samples_per_second": 69.156, |
|
"eval_steps_per_second": 5.763, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"grad_norm": 0.9007534980773926, |
|
"learning_rate": 3.888888888888889e-05, |
|
"loss": 0.0596, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1688234955072403, |
|
"eval_runtime": 0.1681, |
|
"eval_samples_per_second": 71.383, |
|
"eval_steps_per_second": 5.949, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 31.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1827336996793747, |
|
"eval_runtime": 0.1774, |
|
"eval_samples_per_second": 67.648, |
|
"eval_steps_per_second": 5.637, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1860342025756836, |
|
"eval_runtime": 0.1691, |
|
"eval_samples_per_second": 70.978, |
|
"eval_steps_per_second": 5.915, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 33.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1818682998418808, |
|
"eval_runtime": 0.1746, |
|
"eval_samples_per_second": 68.722, |
|
"eval_steps_per_second": 5.727, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 34.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.18678773939609528, |
|
"eval_runtime": 0.1639, |
|
"eval_samples_per_second": 73.206, |
|
"eval_steps_per_second": 6.101, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 35.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.22118733823299408, |
|
"eval_runtime": 0.1734, |
|
"eval_samples_per_second": 69.224, |
|
"eval_steps_per_second": 5.769, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.2478359192609787, |
|
"eval_runtime": 0.1708, |
|
"eval_samples_per_second": 70.263, |
|
"eval_steps_per_second": 5.855, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 37.0, |
|
"eval_accuracy": 0.8333333333333334, |
|
"eval_loss": 0.2652883231639862, |
|
"eval_runtime": 0.1667, |
|
"eval_samples_per_second": 71.985, |
|
"eval_steps_per_second": 5.999, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 38.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2093004733324051, |
|
"eval_runtime": 0.1709, |
|
"eval_samples_per_second": 70.229, |
|
"eval_steps_per_second": 5.852, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 39.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1923973113298416, |
|
"eval_runtime": 0.1727, |
|
"eval_samples_per_second": 69.476, |
|
"eval_steps_per_second": 5.79, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"grad_norm": 1.3623900413513184, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.0541, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.17886002361774445, |
|
"eval_runtime": 0.164, |
|
"eval_samples_per_second": 73.19, |
|
"eval_steps_per_second": 6.099, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 41.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.16460523009300232, |
|
"eval_runtime": 0.1704, |
|
"eval_samples_per_second": 70.411, |
|
"eval_steps_per_second": 5.868, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 42.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.16351616382598877, |
|
"eval_runtime": 0.1764, |
|
"eval_samples_per_second": 68.04, |
|
"eval_steps_per_second": 5.67, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 43.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.16112661361694336, |
|
"eval_runtime": 0.1755, |
|
"eval_samples_per_second": 68.378, |
|
"eval_steps_per_second": 5.698, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 44.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.15918682515621185, |
|
"eval_runtime": 0.1702, |
|
"eval_samples_per_second": 70.492, |
|
"eval_steps_per_second": 5.874, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 45.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.17541702091693878, |
|
"eval_runtime": 0.1712, |
|
"eval_samples_per_second": 70.088, |
|
"eval_steps_per_second": 5.841, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 46.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19084930419921875, |
|
"eval_runtime": 0.1669, |
|
"eval_samples_per_second": 71.913, |
|
"eval_steps_per_second": 5.993, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 47.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.18590079247951508, |
|
"eval_runtime": 0.1727, |
|
"eval_samples_per_second": 69.494, |
|
"eval_steps_per_second": 5.791, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 48.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1687254160642624, |
|
"eval_runtime": 0.1695, |
|
"eval_samples_per_second": 70.81, |
|
"eval_steps_per_second": 5.901, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 49.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.16456137597560883, |
|
"eval_runtime": 0.1725, |
|
"eval_samples_per_second": 69.569, |
|
"eval_steps_per_second": 5.797, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 50.0, |
|
"grad_norm": 1.1997383832931519, |
|
"learning_rate": 2.777777777777778e-05, |
|
"loss": 0.0306, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 50.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.16627325117588043, |
|
"eval_runtime": 0.17, |
|
"eval_samples_per_second": 70.574, |
|
"eval_steps_per_second": 5.881, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 51.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.16089710593223572, |
|
"eval_runtime": 0.1754, |
|
"eval_samples_per_second": 68.425, |
|
"eval_steps_per_second": 5.702, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 52.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1791062355041504, |
|
"eval_runtime": 0.1669, |
|
"eval_samples_per_second": 71.92, |
|
"eval_steps_per_second": 5.993, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 53.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.20291262865066528, |
|
"eval_runtime": 0.1848, |
|
"eval_samples_per_second": 64.918, |
|
"eval_steps_per_second": 5.41, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 54.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2204572707414627, |
|
"eval_runtime": 0.1747, |
|
"eval_samples_per_second": 68.706, |
|
"eval_steps_per_second": 5.726, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 55.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.23582406342029572, |
|
"eval_runtime": 0.1713, |
|
"eval_samples_per_second": 70.061, |
|
"eval_steps_per_second": 5.838, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 56.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.23922990262508392, |
|
"eval_runtime": 0.1824, |
|
"eval_samples_per_second": 65.783, |
|
"eval_steps_per_second": 5.482, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 57.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2591475546360016, |
|
"eval_runtime": 0.168, |
|
"eval_samples_per_second": 71.414, |
|
"eval_steps_per_second": 5.951, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 58.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2536010444164276, |
|
"eval_runtime": 0.1748, |
|
"eval_samples_per_second": 68.637, |
|
"eval_steps_per_second": 5.72, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 59.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.26779311895370483, |
|
"eval_runtime": 0.1723, |
|
"eval_samples_per_second": 69.66, |
|
"eval_steps_per_second": 5.805, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 60.0, |
|
"grad_norm": 1.160689115524292, |
|
"learning_rate": 2.2222222222222223e-05, |
|
"loss": 0.0369, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 60.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2655346691608429, |
|
"eval_runtime": 0.1659, |
|
"eval_samples_per_second": 72.352, |
|
"eval_steps_per_second": 6.029, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 61.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.27824312448501587, |
|
"eval_runtime": 0.1712, |
|
"eval_samples_per_second": 70.111, |
|
"eval_steps_per_second": 5.843, |
|
"step": 61 |
|
}, |
|
{ |
|
"epoch": 62.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.30498436093330383, |
|
"eval_runtime": 0.1727, |
|
"eval_samples_per_second": 69.489, |
|
"eval_steps_per_second": 5.791, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 63.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.31990528106689453, |
|
"eval_runtime": 0.1743, |
|
"eval_samples_per_second": 68.829, |
|
"eval_steps_per_second": 5.736, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 64.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3130139708518982, |
|
"eval_runtime": 0.1682, |
|
"eval_samples_per_second": 71.349, |
|
"eval_steps_per_second": 5.946, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 65.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3062848448753357, |
|
"eval_runtime": 0.1683, |
|
"eval_samples_per_second": 71.303, |
|
"eval_steps_per_second": 5.942, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 66.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.28849390149116516, |
|
"eval_runtime": 0.1717, |
|
"eval_samples_per_second": 69.902, |
|
"eval_steps_per_second": 5.825, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 67.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2654469311237335, |
|
"eval_runtime": 0.1869, |
|
"eval_samples_per_second": 64.195, |
|
"eval_steps_per_second": 5.35, |
|
"step": 67 |
|
}, |
|
{ |
|
"epoch": 68.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.24782799184322357, |
|
"eval_runtime": 0.1693, |
|
"eval_samples_per_second": 70.895, |
|
"eval_steps_per_second": 5.908, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 69.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2357795387506485, |
|
"eval_runtime": 0.1775, |
|
"eval_samples_per_second": 67.615, |
|
"eval_steps_per_second": 5.635, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 70.0, |
|
"grad_norm": 1.0654630661010742, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.0241, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 70.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.21064038574695587, |
|
"eval_runtime": 0.169, |
|
"eval_samples_per_second": 71.006, |
|
"eval_steps_per_second": 5.917, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 71.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.20465107262134552, |
|
"eval_runtime": 0.1731, |
|
"eval_samples_per_second": 69.339, |
|
"eval_steps_per_second": 5.778, |
|
"step": 71 |
|
}, |
|
{ |
|
"epoch": 72.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.20998422801494598, |
|
"eval_runtime": 0.175, |
|
"eval_samples_per_second": 68.553, |
|
"eval_steps_per_second": 5.713, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 73.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.20924921333789825, |
|
"eval_runtime": 0.1742, |
|
"eval_samples_per_second": 68.901, |
|
"eval_steps_per_second": 5.742, |
|
"step": 73 |
|
}, |
|
{ |
|
"epoch": 74.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.22613614797592163, |
|
"eval_runtime": 0.1761, |
|
"eval_samples_per_second": 68.132, |
|
"eval_steps_per_second": 5.678, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 75.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.23804503679275513, |
|
"eval_runtime": 0.1668, |
|
"eval_samples_per_second": 71.933, |
|
"eval_steps_per_second": 5.994, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 76.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.26443949341773987, |
|
"eval_runtime": 0.1717, |
|
"eval_samples_per_second": 69.896, |
|
"eval_steps_per_second": 5.825, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 77.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.29717662930488586, |
|
"eval_runtime": 0.1702, |
|
"eval_samples_per_second": 70.521, |
|
"eval_steps_per_second": 5.877, |
|
"step": 77 |
|
}, |
|
{ |
|
"epoch": 78.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3053447902202606, |
|
"eval_runtime": 0.1771, |
|
"eval_samples_per_second": 67.769, |
|
"eval_steps_per_second": 5.647, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 79.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3132895827293396, |
|
"eval_runtime": 0.1784, |
|
"eval_samples_per_second": 67.259, |
|
"eval_steps_per_second": 5.605, |
|
"step": 79 |
|
}, |
|
{ |
|
"epoch": 80.0, |
|
"grad_norm": 0.8203877806663513, |
|
"learning_rate": 1.1111111111111112e-05, |
|
"loss": 0.0234, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 80.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.3051357865333557, |
|
"eval_runtime": 0.1646, |
|
"eval_samples_per_second": 72.922, |
|
"eval_steps_per_second": 6.077, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 81.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.30008748173713684, |
|
"eval_runtime": 0.1682, |
|
"eval_samples_per_second": 71.328, |
|
"eval_steps_per_second": 5.944, |
|
"step": 81 |
|
}, |
|
{ |
|
"epoch": 82.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2921183407306671, |
|
"eval_runtime": 0.1756, |
|
"eval_samples_per_second": 68.328, |
|
"eval_steps_per_second": 5.694, |
|
"step": 82 |
|
}, |
|
{ |
|
"epoch": 83.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.28994205594062805, |
|
"eval_runtime": 0.1744, |
|
"eval_samples_per_second": 68.8, |
|
"eval_steps_per_second": 5.733, |
|
"step": 83 |
|
}, |
|
{ |
|
"epoch": 84.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.27981895208358765, |
|
"eval_runtime": 0.1753, |
|
"eval_samples_per_second": 68.441, |
|
"eval_steps_per_second": 5.703, |
|
"step": 84 |
|
}, |
|
{ |
|
"epoch": 85.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.26413819193840027, |
|
"eval_runtime": 0.1708, |
|
"eval_samples_per_second": 70.248, |
|
"eval_steps_per_second": 5.854, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 86.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.25144389271736145, |
|
"eval_runtime": 0.1714, |
|
"eval_samples_per_second": 70.003, |
|
"eval_steps_per_second": 5.834, |
|
"step": 86 |
|
}, |
|
{ |
|
"epoch": 87.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2419152855873108, |
|
"eval_runtime": 0.1721, |
|
"eval_samples_per_second": 69.715, |
|
"eval_steps_per_second": 5.81, |
|
"step": 87 |
|
}, |
|
{ |
|
"epoch": 88.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.22822971642017365, |
|
"eval_runtime": 0.174, |
|
"eval_samples_per_second": 68.953, |
|
"eval_steps_per_second": 5.746, |
|
"step": 88 |
|
}, |
|
{ |
|
"epoch": 89.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.21740013360977173, |
|
"eval_runtime": 0.169, |
|
"eval_samples_per_second": 71.027, |
|
"eval_steps_per_second": 5.919, |
|
"step": 89 |
|
}, |
|
{ |
|
"epoch": 90.0, |
|
"grad_norm": 1.2268873453140259, |
|
"learning_rate": 5.555555555555556e-06, |
|
"loss": 0.0197, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 90.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2069769650697708, |
|
"eval_runtime": 0.1799, |
|
"eval_samples_per_second": 66.697, |
|
"eval_steps_per_second": 5.558, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 91.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.2006475329399109, |
|
"eval_runtime": 0.1721, |
|
"eval_samples_per_second": 69.732, |
|
"eval_steps_per_second": 5.811, |
|
"step": 91 |
|
}, |
|
{ |
|
"epoch": 92.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19767142832279205, |
|
"eval_runtime": 0.1701, |
|
"eval_samples_per_second": 70.55, |
|
"eval_steps_per_second": 5.879, |
|
"step": 92 |
|
}, |
|
{ |
|
"epoch": 93.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19563210010528564, |
|
"eval_runtime": 0.1785, |
|
"eval_samples_per_second": 67.228, |
|
"eval_steps_per_second": 5.602, |
|
"step": 93 |
|
}, |
|
{ |
|
"epoch": 94.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19464950263500214, |
|
"eval_runtime": 0.17, |
|
"eval_samples_per_second": 70.596, |
|
"eval_steps_per_second": 5.883, |
|
"step": 94 |
|
}, |
|
{ |
|
"epoch": 95.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19312070310115814, |
|
"eval_runtime": 0.1738, |
|
"eval_samples_per_second": 69.038, |
|
"eval_steps_per_second": 5.753, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 96.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19204175472259521, |
|
"eval_runtime": 0.1698, |
|
"eval_samples_per_second": 70.683, |
|
"eval_steps_per_second": 5.89, |
|
"step": 96 |
|
}, |
|
{ |
|
"epoch": 97.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19221650063991547, |
|
"eval_runtime": 0.1772, |
|
"eval_samples_per_second": 67.714, |
|
"eval_steps_per_second": 5.643, |
|
"step": 97 |
|
}, |
|
{ |
|
"epoch": 98.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19261722266674042, |
|
"eval_runtime": 0.1662, |
|
"eval_samples_per_second": 72.184, |
|
"eval_steps_per_second": 6.015, |
|
"step": 98 |
|
}, |
|
{ |
|
"epoch": 99.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.19421516358852386, |
|
"eval_runtime": 0.1725, |
|
"eval_samples_per_second": 69.552, |
|
"eval_steps_per_second": 5.796, |
|
"step": 99 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"grad_norm": 0.37542709708213806, |
|
"learning_rate": 0.0, |
|
"loss": 0.0295, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.1950238198041916, |
|
"eval_runtime": 0.1644, |
|
"eval_samples_per_second": 72.993, |
|
"eval_steps_per_second": 6.083, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"step": 100, |
|
"total_flos": 4.804632427843584e+17, |
|
"train_loss": 0.08035601288080216, |
|
"train_runtime": 415.3839, |
|
"train_samples_per_second": 14.926, |
|
"train_steps_per_second": 0.241 |
|
}, |
|
{ |
|
"epoch": 100.0, |
|
"eval_accuracy": 0.9166666666666666, |
|
"eval_loss": 0.44661346077919006, |
|
"eval_runtime": 0.2118, |
|
"eval_samples_per_second": 56.661, |
|
"eval_steps_per_second": 4.722, |
|
"step": 100 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 100, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 100, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 4.804632427843584e+17, |
|
"train_batch_size": 32, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|