|
{ |
|
"best_metric": 0.07833071053028107, |
|
"best_model_checkpoint": "./vit-base-beans/checkpoint-1200", |
|
"epoch": 10.0, |
|
"global_step": 1200, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.08, |
|
"learning_rate": 9.916666666666667e-05, |
|
"loss": 3.3572, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.17, |
|
"learning_rate": 9.833333333333333e-05, |
|
"loss": 3.3309, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"learning_rate": 9.75e-05, |
|
"loss": 3.3317, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"learning_rate": 9.666666666666667e-05, |
|
"loss": 3.2354, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"eval_accuracy": 0.14925373134328357, |
|
"eval_loss": 3.1641855239868164, |
|
"eval_runtime": 26.2101, |
|
"eval_samples_per_second": 69.019, |
|
"eval_steps_per_second": 8.661, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.42, |
|
"learning_rate": 9.583333333333334e-05, |
|
"loss": 3.1214, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"learning_rate": 9.5e-05, |
|
"loss": 3.0125, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.58, |
|
"learning_rate": 9.416666666666667e-05, |
|
"loss": 2.8941, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.67, |
|
"learning_rate": 9.333333333333334e-05, |
|
"loss": 2.7662, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.67, |
|
"eval_accuracy": 0.49364289662797123, |
|
"eval_loss": 2.6006529331207275, |
|
"eval_runtime": 27.9834, |
|
"eval_samples_per_second": 64.645, |
|
"eval_steps_per_second": 8.112, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"learning_rate": 9.250000000000001e-05, |
|
"loss": 2.5779, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.83, |
|
"learning_rate": 9.166666666666667e-05, |
|
"loss": 2.4169, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.92, |
|
"learning_rate": 9.083333333333334e-05, |
|
"loss": 2.2155, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"learning_rate": 9e-05, |
|
"loss": 2.0937, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_accuracy": 0.7650635710337202, |
|
"eval_loss": 1.9998520612716675, |
|
"eval_runtime": 26.4412, |
|
"eval_samples_per_second": 68.416, |
|
"eval_steps_per_second": 8.585, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.08, |
|
"learning_rate": 8.916666666666667e-05, |
|
"loss": 1.8822, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 1.17, |
|
"learning_rate": 8.833333333333333e-05, |
|
"loss": 1.7804, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"learning_rate": 8.75e-05, |
|
"loss": 1.7131, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"learning_rate": 8.666666666666667e-05, |
|
"loss": 1.5259, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"eval_accuracy": 0.8745163073521283, |
|
"eval_loss": 1.4515111446380615, |
|
"eval_runtime": 24.7867, |
|
"eval_samples_per_second": 72.983, |
|
"eval_steps_per_second": 9.158, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 1.42, |
|
"learning_rate": 8.583333333333334e-05, |
|
"loss": 1.4667, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"learning_rate": 8.5e-05, |
|
"loss": 1.2858, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 1.58, |
|
"learning_rate": 8.416666666666668e-05, |
|
"loss": 1.1885, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 1.67, |
|
"learning_rate": 8.333333333333334e-05, |
|
"loss": 1.0983, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.67, |
|
"eval_accuracy": 0.94914317302377, |
|
"eval_loss": 1.0214712619781494, |
|
"eval_runtime": 25.6817, |
|
"eval_samples_per_second": 70.439, |
|
"eval_steps_per_second": 8.839, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.75, |
|
"learning_rate": 8.25e-05, |
|
"loss": 0.9688, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 1.83, |
|
"learning_rate": 8.166666666666667e-05, |
|
"loss": 0.9714, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 1.92, |
|
"learning_rate": 8.083333333333334e-05, |
|
"loss": 0.9118, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"learning_rate": 8e-05, |
|
"loss": 0.8105, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.9646213377556662, |
|
"eval_loss": 0.7325700521469116, |
|
"eval_runtime": 25.8951, |
|
"eval_samples_per_second": 69.859, |
|
"eval_steps_per_second": 8.766, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 2.08, |
|
"learning_rate": 7.916666666666666e-05, |
|
"loss": 0.7067, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 2.17, |
|
"learning_rate": 7.833333333333333e-05, |
|
"loss": 0.6925, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"learning_rate": 7.75e-05, |
|
"loss": 0.6423, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 2.33, |
|
"learning_rate": 7.666666666666667e-05, |
|
"loss": 0.5457, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 2.33, |
|
"eval_accuracy": 0.9718076285240465, |
|
"eval_loss": 0.5292437076568604, |
|
"eval_runtime": 24.1866, |
|
"eval_samples_per_second": 74.793, |
|
"eval_steps_per_second": 9.385, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 2.42, |
|
"learning_rate": 7.583333333333334e-05, |
|
"loss": 0.4918, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"learning_rate": 7.500000000000001e-05, |
|
"loss": 0.4792, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 2.58, |
|
"learning_rate": 7.416666666666668e-05, |
|
"loss": 0.4164, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"learning_rate": 7.333333333333333e-05, |
|
"loss": 0.4194, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"eval_accuracy": 0.9701492537313433, |
|
"eval_loss": 0.41341233253479004, |
|
"eval_runtime": 24.8508, |
|
"eval_samples_per_second": 72.794, |
|
"eval_steps_per_second": 9.135, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 2.75, |
|
"learning_rate": 7.25e-05, |
|
"loss": 0.3747, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 2.83, |
|
"learning_rate": 7.166666666666667e-05, |
|
"loss": 0.4001, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 2.92, |
|
"learning_rate": 7.083333333333334e-05, |
|
"loss": 0.3775, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"learning_rate": 7e-05, |
|
"loss": 0.3682, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_accuracy": 0.978441127694859, |
|
"eval_loss": 0.32523876428604126, |
|
"eval_runtime": 24.3128, |
|
"eval_samples_per_second": 74.405, |
|
"eval_steps_per_second": 9.337, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 3.08, |
|
"learning_rate": 6.916666666666666e-05, |
|
"loss": 0.2973, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 3.17, |
|
"learning_rate": 6.833333333333333e-05, |
|
"loss": 0.2633, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 3.25, |
|
"learning_rate": 6.750000000000001e-05, |
|
"loss": 0.2854, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 3.33, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 0.2607, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 3.33, |
|
"eval_accuracy": 0.9828634604754007, |
|
"eval_loss": 0.26496848464012146, |
|
"eval_runtime": 25.3117, |
|
"eval_samples_per_second": 71.469, |
|
"eval_steps_per_second": 8.968, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 3.42, |
|
"learning_rate": 6.583333333333334e-05, |
|
"loss": 0.2508, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"learning_rate": 6.500000000000001e-05, |
|
"loss": 0.2339, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 3.58, |
|
"learning_rate": 6.416666666666668e-05, |
|
"loss": 0.2406, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 3.67, |
|
"learning_rate": 6.333333333333333e-05, |
|
"loss": 0.2557, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 3.67, |
|
"eval_accuracy": 0.9718076285240465, |
|
"eval_loss": 0.2686881422996521, |
|
"eval_runtime": 26.2285, |
|
"eval_samples_per_second": 68.971, |
|
"eval_steps_per_second": 8.655, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"learning_rate": 6.25e-05, |
|
"loss": 0.262, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 3.83, |
|
"learning_rate": 6.166666666666667e-05, |
|
"loss": 0.1922, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 3.92, |
|
"learning_rate": 6.083333333333333e-05, |
|
"loss": 0.2254, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"learning_rate": 6e-05, |
|
"loss": 0.1972, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_accuracy": 0.9828634604754007, |
|
"eval_loss": 0.20172837376594543, |
|
"eval_runtime": 23.5345, |
|
"eval_samples_per_second": 76.866, |
|
"eval_steps_per_second": 9.645, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 4.08, |
|
"learning_rate": 5.916666666666667e-05, |
|
"loss": 0.1817, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 4.17, |
|
"learning_rate": 5.833333333333334e-05, |
|
"loss": 0.1867, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 4.25, |
|
"learning_rate": 5.7499999999999995e-05, |
|
"loss": 0.1433, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 4.33, |
|
"learning_rate": 5.666666666666667e-05, |
|
"loss": 0.1379, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 4.33, |
|
"eval_accuracy": 0.9839690436705362, |
|
"eval_loss": 0.17190077900886536, |
|
"eval_runtime": 26.064, |
|
"eval_samples_per_second": 69.406, |
|
"eval_steps_per_second": 8.709, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 4.42, |
|
"learning_rate": 5.583333333333334e-05, |
|
"loss": 0.1551, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"learning_rate": 5.500000000000001e-05, |
|
"loss": 0.1498, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 4.58, |
|
"learning_rate": 5.4166666666666664e-05, |
|
"loss": 0.165, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 4.67, |
|
"learning_rate": 5.333333333333333e-05, |
|
"loss": 0.1232, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 4.67, |
|
"eval_accuracy": 0.9828634604754007, |
|
"eval_loss": 0.15986143052577972, |
|
"eval_runtime": 23.7083, |
|
"eval_samples_per_second": 76.302, |
|
"eval_steps_per_second": 9.575, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 4.75, |
|
"learning_rate": 5.25e-05, |
|
"loss": 0.1756, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 4.83, |
|
"learning_rate": 5.166666666666667e-05, |
|
"loss": 0.1117, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 4.92, |
|
"learning_rate": 5.0833333333333333e-05, |
|
"loss": 0.128, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"learning_rate": 5e-05, |
|
"loss": 0.0976, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_accuracy": 0.9712548369264787, |
|
"eval_loss": 0.1809568554162979, |
|
"eval_runtime": 23.9233, |
|
"eval_samples_per_second": 75.617, |
|
"eval_steps_per_second": 9.489, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 5.08, |
|
"learning_rate": 4.9166666666666665e-05, |
|
"loss": 0.1375, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 5.17, |
|
"learning_rate": 4.8333333333333334e-05, |
|
"loss": 0.1116, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 5.25, |
|
"learning_rate": 4.75e-05, |
|
"loss": 0.1415, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 5.33, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 0.0997, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 5.33, |
|
"eval_accuracy": 0.9839690436705362, |
|
"eval_loss": 0.13625413179397583, |
|
"eval_runtime": 23.6139, |
|
"eval_samples_per_second": 76.607, |
|
"eval_steps_per_second": 9.613, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 5.42, |
|
"learning_rate": 4.5833333333333334e-05, |
|
"loss": 0.113, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 5.5, |
|
"learning_rate": 4.5e-05, |
|
"loss": 0.0801, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 5.58, |
|
"learning_rate": 4.4166666666666665e-05, |
|
"loss": 0.0743, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 5.67, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.0896, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 5.67, |
|
"eval_accuracy": 0.988391376451078, |
|
"eval_loss": 0.11103730648756027, |
|
"eval_runtime": 25.2922, |
|
"eval_samples_per_second": 71.524, |
|
"eval_steps_per_second": 8.975, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 5.75, |
|
"learning_rate": 4.25e-05, |
|
"loss": 0.0911, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 5.83, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 0.073, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 5.92, |
|
"learning_rate": 4.0833333333333334e-05, |
|
"loss": 0.0836, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"learning_rate": 4e-05, |
|
"loss": 0.0853, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_accuracy": 0.9900497512437811, |
|
"eval_loss": 0.10298473387956619, |
|
"eval_runtime": 25.0951, |
|
"eval_samples_per_second": 72.086, |
|
"eval_steps_per_second": 9.046, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 6.08, |
|
"learning_rate": 3.9166666666666665e-05, |
|
"loss": 0.0642, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 6.17, |
|
"learning_rate": 3.8333333333333334e-05, |
|
"loss": 0.0686, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 6.25, |
|
"learning_rate": 3.7500000000000003e-05, |
|
"loss": 0.0988, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 6.33, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 0.0634, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 6.33, |
|
"eval_accuracy": 0.986180210060807, |
|
"eval_loss": 0.10669608414173126, |
|
"eval_runtime": 23.7517, |
|
"eval_samples_per_second": 76.163, |
|
"eval_steps_per_second": 9.557, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 6.42, |
|
"learning_rate": 3.5833333333333335e-05, |
|
"loss": 0.0586, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 6.5, |
|
"learning_rate": 3.5e-05, |
|
"loss": 0.06, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 6.58, |
|
"learning_rate": 3.4166666666666666e-05, |
|
"loss": 0.0567, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.0643, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"eval_accuracy": 0.9894969596462134, |
|
"eval_loss": 0.09639524668455124, |
|
"eval_runtime": 23.6297, |
|
"eval_samples_per_second": 76.556, |
|
"eval_steps_per_second": 9.607, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 6.75, |
|
"learning_rate": 3.2500000000000004e-05, |
|
"loss": 0.0563, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 6.83, |
|
"learning_rate": 3.1666666666666666e-05, |
|
"loss": 0.0638, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 6.92, |
|
"learning_rate": 3.0833333333333335e-05, |
|
"loss": 0.0536, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"learning_rate": 3e-05, |
|
"loss": 0.0641, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"eval_accuracy": 0.9872857932559425, |
|
"eval_loss": 0.09574727714061737, |
|
"eval_runtime": 25.7699, |
|
"eval_samples_per_second": 70.198, |
|
"eval_steps_per_second": 8.809, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 7.08, |
|
"learning_rate": 2.916666666666667e-05, |
|
"loss": 0.0571, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 7.17, |
|
"learning_rate": 2.8333333333333335e-05, |
|
"loss": 0.0567, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 7.25, |
|
"learning_rate": 2.7500000000000004e-05, |
|
"loss": 0.0487, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 7.33, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 0.0464, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 7.33, |
|
"eval_accuracy": 0.9911553344389166, |
|
"eval_loss": 0.08537043631076813, |
|
"eval_runtime": 26.4935, |
|
"eval_samples_per_second": 68.281, |
|
"eval_steps_per_second": 8.568, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 7.42, |
|
"learning_rate": 2.5833333333333336e-05, |
|
"loss": 0.0487, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"learning_rate": 2.5e-05, |
|
"loss": 0.0464, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 7.58, |
|
"learning_rate": 2.4166666666666667e-05, |
|
"loss": 0.0455, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 7.67, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.046, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 7.67, |
|
"eval_accuracy": 0.9906025428413489, |
|
"eval_loss": 0.08185369521379471, |
|
"eval_runtime": 24.8849, |
|
"eval_samples_per_second": 72.695, |
|
"eval_steps_per_second": 9.122, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 7.75, |
|
"learning_rate": 2.25e-05, |
|
"loss": 0.0454, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 7.83, |
|
"learning_rate": 2.1666666666666667e-05, |
|
"loss": 0.0448, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 7.92, |
|
"learning_rate": 2.0833333333333336e-05, |
|
"loss": 0.0485, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"learning_rate": 2e-05, |
|
"loss": 0.0446, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_accuracy": 0.9900497512437811, |
|
"eval_loss": 0.08438780158758163, |
|
"eval_runtime": 23.7846, |
|
"eval_samples_per_second": 76.057, |
|
"eval_steps_per_second": 9.544, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 8.08, |
|
"learning_rate": 1.9166666666666667e-05, |
|
"loss": 0.0427, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 8.17, |
|
"learning_rate": 1.8333333333333333e-05, |
|
"loss": 0.0419, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 8.25, |
|
"learning_rate": 1.75e-05, |
|
"loss": 0.0414, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 8.33, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.0406, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 8.33, |
|
"eval_accuracy": 0.9906025428413489, |
|
"eval_loss": 0.08179429918527603, |
|
"eval_runtime": 25.4679, |
|
"eval_samples_per_second": 71.031, |
|
"eval_steps_per_second": 8.913, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 8.42, |
|
"learning_rate": 1.5833333333333333e-05, |
|
"loss": 0.0422, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 8.5, |
|
"learning_rate": 1.5e-05, |
|
"loss": 0.0421, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 8.58, |
|
"learning_rate": 1.4166666666666668e-05, |
|
"loss": 0.0397, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 8.67, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.0404, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 8.67, |
|
"eval_accuracy": 0.9894969596462134, |
|
"eval_loss": 0.0798824205994606, |
|
"eval_runtime": 26.1885, |
|
"eval_samples_per_second": 69.076, |
|
"eval_steps_per_second": 8.668, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 8.75, |
|
"learning_rate": 1.25e-05, |
|
"loss": 0.0402, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 8.83, |
|
"learning_rate": 1.1666666666666668e-05, |
|
"loss": 0.0418, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 8.92, |
|
"learning_rate": 1.0833333333333334e-05, |
|
"loss": 0.0393, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"learning_rate": 1e-05, |
|
"loss": 0.0386, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"eval_accuracy": 0.9894969596462134, |
|
"eval_loss": 0.08014928549528122, |
|
"eval_runtime": 24.5975, |
|
"eval_samples_per_second": 73.544, |
|
"eval_steps_per_second": 9.229, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 9.08, |
|
"learning_rate": 9.166666666666666e-06, |
|
"loss": 0.0388, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 9.17, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 0.0383, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 9.25, |
|
"learning_rate": 7.5e-06, |
|
"loss": 0.0389, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 9.33, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 0.0386, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 9.33, |
|
"eval_accuracy": 0.9889441680486457, |
|
"eval_loss": 0.07926672697067261, |
|
"eval_runtime": 24.5643, |
|
"eval_samples_per_second": 73.643, |
|
"eval_steps_per_second": 9.241, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 9.42, |
|
"learning_rate": 5.833333333333334e-06, |
|
"loss": 0.0381, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 9.5, |
|
"learning_rate": 5e-06, |
|
"loss": 0.0375, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 9.58, |
|
"learning_rate": 4.166666666666667e-06, |
|
"loss": 0.0385, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 9.67, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 0.0378, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 9.67, |
|
"eval_accuracy": 0.9889441680486457, |
|
"eval_loss": 0.07844050228595734, |
|
"eval_runtime": 24.8252, |
|
"eval_samples_per_second": 72.869, |
|
"eval_steps_per_second": 9.144, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 9.75, |
|
"learning_rate": 2.5e-06, |
|
"loss": 0.0379, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 9.83, |
|
"learning_rate": 1.6666666666666667e-06, |
|
"loss": 0.0381, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 9.92, |
|
"learning_rate": 8.333333333333333e-07, |
|
"loss": 0.0379, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"learning_rate": 0.0, |
|
"loss": 0.0375, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_accuracy": 0.9889441680486457, |
|
"eval_loss": 0.07833071053028107, |
|
"eval_runtime": 25.8277, |
|
"eval_samples_per_second": 70.041, |
|
"eval_steps_per_second": 8.789, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"step": 1200, |
|
"total_flos": 2.219132546087547e+18, |
|
"train_loss": 0.5339297652244568, |
|
"train_runtime": 1645.4859, |
|
"train_samples_per_second": 17.399, |
|
"train_steps_per_second": 0.729 |
|
} |
|
], |
|
"max_steps": 1200, |
|
"num_train_epochs": 10, |
|
"total_flos": 2.219132546087547e+18, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|