{ "best_metric": 0.07833071053028107, "best_model_checkpoint": "./vit-base-beans/checkpoint-1200", "epoch": 10.0, "global_step": 1200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.08, "learning_rate": 9.916666666666667e-05, "loss": 3.3572, "step": 10 }, { "epoch": 0.17, "learning_rate": 9.833333333333333e-05, "loss": 3.3309, "step": 20 }, { "epoch": 0.25, "learning_rate": 9.75e-05, "loss": 3.3317, "step": 30 }, { "epoch": 0.33, "learning_rate": 9.666666666666667e-05, "loss": 3.2354, "step": 40 }, { "epoch": 0.33, "eval_accuracy": 0.14925373134328357, "eval_loss": 3.1641855239868164, "eval_runtime": 26.2101, "eval_samples_per_second": 69.019, "eval_steps_per_second": 8.661, "step": 40 }, { "epoch": 0.42, "learning_rate": 9.583333333333334e-05, "loss": 3.1214, "step": 50 }, { "epoch": 0.5, "learning_rate": 9.5e-05, "loss": 3.0125, "step": 60 }, { "epoch": 0.58, "learning_rate": 9.416666666666667e-05, "loss": 2.8941, "step": 70 }, { "epoch": 0.67, "learning_rate": 9.333333333333334e-05, "loss": 2.7662, "step": 80 }, { "epoch": 0.67, "eval_accuracy": 0.49364289662797123, "eval_loss": 2.6006529331207275, "eval_runtime": 27.9834, "eval_samples_per_second": 64.645, "eval_steps_per_second": 8.112, "step": 80 }, { "epoch": 0.75, "learning_rate": 9.250000000000001e-05, "loss": 2.5779, "step": 90 }, { "epoch": 0.83, "learning_rate": 9.166666666666667e-05, "loss": 2.4169, "step": 100 }, { "epoch": 0.92, "learning_rate": 9.083333333333334e-05, "loss": 2.2155, "step": 110 }, { "epoch": 1.0, "learning_rate": 9e-05, "loss": 2.0937, "step": 120 }, { "epoch": 1.0, "eval_accuracy": 0.7650635710337202, "eval_loss": 1.9998520612716675, "eval_runtime": 26.4412, "eval_samples_per_second": 68.416, "eval_steps_per_second": 8.585, "step": 120 }, { "epoch": 1.08, "learning_rate": 8.916666666666667e-05, "loss": 1.8822, "step": 130 }, { "epoch": 1.17, "learning_rate": 8.833333333333333e-05, "loss": 1.7804, "step": 140 }, { "epoch": 1.25, "learning_rate": 8.75e-05, "loss": 1.7131, "step": 150 }, { "epoch": 1.33, "learning_rate": 8.666666666666667e-05, "loss": 1.5259, "step": 160 }, { "epoch": 1.33, "eval_accuracy": 0.8745163073521283, "eval_loss": 1.4515111446380615, "eval_runtime": 24.7867, "eval_samples_per_second": 72.983, "eval_steps_per_second": 9.158, "step": 160 }, { "epoch": 1.42, "learning_rate": 8.583333333333334e-05, "loss": 1.4667, "step": 170 }, { "epoch": 1.5, "learning_rate": 8.5e-05, "loss": 1.2858, "step": 180 }, { "epoch": 1.58, "learning_rate": 8.416666666666668e-05, "loss": 1.1885, "step": 190 }, { "epoch": 1.67, "learning_rate": 8.333333333333334e-05, "loss": 1.0983, "step": 200 }, { "epoch": 1.67, "eval_accuracy": 0.94914317302377, "eval_loss": 1.0214712619781494, "eval_runtime": 25.6817, "eval_samples_per_second": 70.439, "eval_steps_per_second": 8.839, "step": 200 }, { "epoch": 1.75, "learning_rate": 8.25e-05, "loss": 0.9688, "step": 210 }, { "epoch": 1.83, "learning_rate": 8.166666666666667e-05, "loss": 0.9714, "step": 220 }, { "epoch": 1.92, "learning_rate": 8.083333333333334e-05, "loss": 0.9118, "step": 230 }, { "epoch": 2.0, "learning_rate": 8e-05, "loss": 0.8105, "step": 240 }, { "epoch": 2.0, "eval_accuracy": 0.9646213377556662, "eval_loss": 0.7325700521469116, "eval_runtime": 25.8951, "eval_samples_per_second": 69.859, "eval_steps_per_second": 8.766, "step": 240 }, { "epoch": 2.08, "learning_rate": 7.916666666666666e-05, "loss": 0.7067, "step": 250 }, { "epoch": 2.17, "learning_rate": 7.833333333333333e-05, "loss": 0.6925, "step": 260 }, { "epoch": 2.25, "learning_rate": 7.75e-05, "loss": 0.6423, "step": 270 }, { "epoch": 2.33, "learning_rate": 7.666666666666667e-05, "loss": 0.5457, "step": 280 }, { "epoch": 2.33, "eval_accuracy": 0.9718076285240465, "eval_loss": 0.5292437076568604, "eval_runtime": 24.1866, "eval_samples_per_second": 74.793, "eval_steps_per_second": 9.385, "step": 280 }, { "epoch": 2.42, "learning_rate": 7.583333333333334e-05, "loss": 0.4918, "step": 290 }, { "epoch": 2.5, "learning_rate": 7.500000000000001e-05, "loss": 0.4792, "step": 300 }, { "epoch": 2.58, "learning_rate": 7.416666666666668e-05, "loss": 0.4164, "step": 310 }, { "epoch": 2.67, "learning_rate": 7.333333333333333e-05, "loss": 0.4194, "step": 320 }, { "epoch": 2.67, "eval_accuracy": 0.9701492537313433, "eval_loss": 0.41341233253479004, "eval_runtime": 24.8508, "eval_samples_per_second": 72.794, "eval_steps_per_second": 9.135, "step": 320 }, { "epoch": 2.75, "learning_rate": 7.25e-05, "loss": 0.3747, "step": 330 }, { "epoch": 2.83, "learning_rate": 7.166666666666667e-05, "loss": 0.4001, "step": 340 }, { "epoch": 2.92, "learning_rate": 7.083333333333334e-05, "loss": 0.3775, "step": 350 }, { "epoch": 3.0, "learning_rate": 7e-05, "loss": 0.3682, "step": 360 }, { "epoch": 3.0, "eval_accuracy": 0.978441127694859, "eval_loss": 0.32523876428604126, "eval_runtime": 24.3128, "eval_samples_per_second": 74.405, "eval_steps_per_second": 9.337, "step": 360 }, { "epoch": 3.08, "learning_rate": 6.916666666666666e-05, "loss": 0.2973, "step": 370 }, { "epoch": 3.17, "learning_rate": 6.833333333333333e-05, "loss": 0.2633, "step": 380 }, { "epoch": 3.25, "learning_rate": 6.750000000000001e-05, "loss": 0.2854, "step": 390 }, { "epoch": 3.33, "learning_rate": 6.666666666666667e-05, "loss": 0.2607, "step": 400 }, { "epoch": 3.33, "eval_accuracy": 0.9828634604754007, "eval_loss": 0.26496848464012146, "eval_runtime": 25.3117, "eval_samples_per_second": 71.469, "eval_steps_per_second": 8.968, "step": 400 }, { "epoch": 3.42, "learning_rate": 6.583333333333334e-05, "loss": 0.2508, "step": 410 }, { "epoch": 3.5, "learning_rate": 6.500000000000001e-05, "loss": 0.2339, "step": 420 }, { "epoch": 3.58, "learning_rate": 6.416666666666668e-05, "loss": 0.2406, "step": 430 }, { "epoch": 3.67, "learning_rate": 6.333333333333333e-05, "loss": 0.2557, "step": 440 }, { "epoch": 3.67, "eval_accuracy": 0.9718076285240465, "eval_loss": 0.2686881422996521, "eval_runtime": 26.2285, "eval_samples_per_second": 68.971, "eval_steps_per_second": 8.655, "step": 440 }, { "epoch": 3.75, "learning_rate": 6.25e-05, "loss": 0.262, "step": 450 }, { "epoch": 3.83, "learning_rate": 6.166666666666667e-05, "loss": 0.1922, "step": 460 }, { "epoch": 3.92, "learning_rate": 6.083333333333333e-05, "loss": 0.2254, "step": 470 }, { "epoch": 4.0, "learning_rate": 6e-05, "loss": 0.1972, "step": 480 }, { "epoch": 4.0, "eval_accuracy": 0.9828634604754007, "eval_loss": 0.20172837376594543, "eval_runtime": 23.5345, "eval_samples_per_second": 76.866, "eval_steps_per_second": 9.645, "step": 480 }, { "epoch": 4.08, "learning_rate": 5.916666666666667e-05, "loss": 0.1817, "step": 490 }, { "epoch": 4.17, "learning_rate": 5.833333333333334e-05, "loss": 0.1867, "step": 500 }, { "epoch": 4.25, "learning_rate": 5.7499999999999995e-05, "loss": 0.1433, "step": 510 }, { "epoch": 4.33, "learning_rate": 5.666666666666667e-05, "loss": 0.1379, "step": 520 }, { "epoch": 4.33, "eval_accuracy": 0.9839690436705362, "eval_loss": 0.17190077900886536, "eval_runtime": 26.064, "eval_samples_per_second": 69.406, "eval_steps_per_second": 8.709, "step": 520 }, { "epoch": 4.42, "learning_rate": 5.583333333333334e-05, "loss": 0.1551, "step": 530 }, { "epoch": 4.5, "learning_rate": 5.500000000000001e-05, "loss": 0.1498, "step": 540 }, { "epoch": 4.58, "learning_rate": 5.4166666666666664e-05, "loss": 0.165, "step": 550 }, { "epoch": 4.67, "learning_rate": 5.333333333333333e-05, "loss": 0.1232, "step": 560 }, { "epoch": 4.67, "eval_accuracy": 0.9828634604754007, "eval_loss": 0.15986143052577972, "eval_runtime": 23.7083, "eval_samples_per_second": 76.302, "eval_steps_per_second": 9.575, "step": 560 }, { "epoch": 4.75, "learning_rate": 5.25e-05, "loss": 0.1756, "step": 570 }, { "epoch": 4.83, "learning_rate": 5.166666666666667e-05, "loss": 0.1117, "step": 580 }, { "epoch": 4.92, "learning_rate": 5.0833333333333333e-05, "loss": 0.128, "step": 590 }, { "epoch": 5.0, "learning_rate": 5e-05, "loss": 0.0976, "step": 600 }, { "epoch": 5.0, "eval_accuracy": 0.9712548369264787, "eval_loss": 0.1809568554162979, "eval_runtime": 23.9233, "eval_samples_per_second": 75.617, "eval_steps_per_second": 9.489, "step": 600 }, { "epoch": 5.08, "learning_rate": 4.9166666666666665e-05, "loss": 0.1375, "step": 610 }, { "epoch": 5.17, "learning_rate": 4.8333333333333334e-05, "loss": 0.1116, "step": 620 }, { "epoch": 5.25, "learning_rate": 4.75e-05, "loss": 0.1415, "step": 630 }, { "epoch": 5.33, "learning_rate": 4.666666666666667e-05, "loss": 0.0997, "step": 640 }, { "epoch": 5.33, "eval_accuracy": 0.9839690436705362, "eval_loss": 0.13625413179397583, "eval_runtime": 23.6139, "eval_samples_per_second": 76.607, "eval_steps_per_second": 9.613, "step": 640 }, { "epoch": 5.42, "learning_rate": 4.5833333333333334e-05, "loss": 0.113, "step": 650 }, { "epoch": 5.5, "learning_rate": 4.5e-05, "loss": 0.0801, "step": 660 }, { "epoch": 5.58, "learning_rate": 4.4166666666666665e-05, "loss": 0.0743, "step": 670 }, { "epoch": 5.67, "learning_rate": 4.3333333333333334e-05, "loss": 0.0896, "step": 680 }, { "epoch": 5.67, "eval_accuracy": 0.988391376451078, "eval_loss": 0.11103730648756027, "eval_runtime": 25.2922, "eval_samples_per_second": 71.524, "eval_steps_per_second": 8.975, "step": 680 }, { "epoch": 5.75, "learning_rate": 4.25e-05, "loss": 0.0911, "step": 690 }, { "epoch": 5.83, "learning_rate": 4.166666666666667e-05, "loss": 0.073, "step": 700 }, { "epoch": 5.92, "learning_rate": 4.0833333333333334e-05, "loss": 0.0836, "step": 710 }, { "epoch": 6.0, "learning_rate": 4e-05, "loss": 0.0853, "step": 720 }, { "epoch": 6.0, "eval_accuracy": 0.9900497512437811, "eval_loss": 0.10298473387956619, "eval_runtime": 25.0951, "eval_samples_per_second": 72.086, "eval_steps_per_second": 9.046, "step": 720 }, { "epoch": 6.08, "learning_rate": 3.9166666666666665e-05, "loss": 0.0642, "step": 730 }, { "epoch": 6.17, "learning_rate": 3.8333333333333334e-05, "loss": 0.0686, "step": 740 }, { "epoch": 6.25, "learning_rate": 3.7500000000000003e-05, "loss": 0.0988, "step": 750 }, { "epoch": 6.33, "learning_rate": 3.6666666666666666e-05, "loss": 0.0634, "step": 760 }, { "epoch": 6.33, "eval_accuracy": 0.986180210060807, "eval_loss": 0.10669608414173126, "eval_runtime": 23.7517, "eval_samples_per_second": 76.163, "eval_steps_per_second": 9.557, "step": 760 }, { "epoch": 6.42, "learning_rate": 3.5833333333333335e-05, "loss": 0.0586, "step": 770 }, { "epoch": 6.5, "learning_rate": 3.5e-05, "loss": 0.06, "step": 780 }, { "epoch": 6.58, "learning_rate": 3.4166666666666666e-05, "loss": 0.0567, "step": 790 }, { "epoch": 6.67, "learning_rate": 3.3333333333333335e-05, "loss": 0.0643, "step": 800 }, { "epoch": 6.67, "eval_accuracy": 0.9894969596462134, "eval_loss": 0.09639524668455124, "eval_runtime": 23.6297, "eval_samples_per_second": 76.556, "eval_steps_per_second": 9.607, "step": 800 }, { "epoch": 6.75, "learning_rate": 3.2500000000000004e-05, "loss": 0.0563, "step": 810 }, { "epoch": 6.83, "learning_rate": 3.1666666666666666e-05, "loss": 0.0638, "step": 820 }, { "epoch": 6.92, "learning_rate": 3.0833333333333335e-05, "loss": 0.0536, "step": 830 }, { "epoch": 7.0, "learning_rate": 3e-05, "loss": 0.0641, "step": 840 }, { "epoch": 7.0, "eval_accuracy": 0.9872857932559425, "eval_loss": 0.09574727714061737, "eval_runtime": 25.7699, "eval_samples_per_second": 70.198, "eval_steps_per_second": 8.809, "step": 840 }, { "epoch": 7.08, "learning_rate": 2.916666666666667e-05, "loss": 0.0571, "step": 850 }, { "epoch": 7.17, "learning_rate": 2.8333333333333335e-05, "loss": 0.0567, "step": 860 }, { "epoch": 7.25, "learning_rate": 2.7500000000000004e-05, "loss": 0.0487, "step": 870 }, { "epoch": 7.33, "learning_rate": 2.6666666666666667e-05, "loss": 0.0464, "step": 880 }, { "epoch": 7.33, "eval_accuracy": 0.9911553344389166, "eval_loss": 0.08537043631076813, "eval_runtime": 26.4935, "eval_samples_per_second": 68.281, "eval_steps_per_second": 8.568, "step": 880 }, { "epoch": 7.42, "learning_rate": 2.5833333333333336e-05, "loss": 0.0487, "step": 890 }, { "epoch": 7.5, "learning_rate": 2.5e-05, "loss": 0.0464, "step": 900 }, { "epoch": 7.58, "learning_rate": 2.4166666666666667e-05, "loss": 0.0455, "step": 910 }, { "epoch": 7.67, "learning_rate": 2.3333333333333336e-05, "loss": 0.046, "step": 920 }, { "epoch": 7.67, "eval_accuracy": 0.9906025428413489, "eval_loss": 0.08185369521379471, "eval_runtime": 24.8849, "eval_samples_per_second": 72.695, "eval_steps_per_second": 9.122, "step": 920 }, { "epoch": 7.75, "learning_rate": 2.25e-05, "loss": 0.0454, "step": 930 }, { "epoch": 7.83, "learning_rate": 2.1666666666666667e-05, "loss": 0.0448, "step": 940 }, { "epoch": 7.92, "learning_rate": 2.0833333333333336e-05, "loss": 0.0485, "step": 950 }, { "epoch": 8.0, "learning_rate": 2e-05, "loss": 0.0446, "step": 960 }, { "epoch": 8.0, "eval_accuracy": 0.9900497512437811, "eval_loss": 0.08438780158758163, "eval_runtime": 23.7846, "eval_samples_per_second": 76.057, "eval_steps_per_second": 9.544, "step": 960 }, { "epoch": 8.08, "learning_rate": 1.9166666666666667e-05, "loss": 0.0427, "step": 970 }, { "epoch": 8.17, "learning_rate": 1.8333333333333333e-05, "loss": 0.0419, "step": 980 }, { "epoch": 8.25, "learning_rate": 1.75e-05, "loss": 0.0414, "step": 990 }, { "epoch": 8.33, "learning_rate": 1.6666666666666667e-05, "loss": 0.0406, "step": 1000 }, { "epoch": 8.33, "eval_accuracy": 0.9906025428413489, "eval_loss": 0.08179429918527603, "eval_runtime": 25.4679, "eval_samples_per_second": 71.031, "eval_steps_per_second": 8.913, "step": 1000 }, { "epoch": 8.42, "learning_rate": 1.5833333333333333e-05, "loss": 0.0422, "step": 1010 }, { "epoch": 8.5, "learning_rate": 1.5e-05, "loss": 0.0421, "step": 1020 }, { "epoch": 8.58, "learning_rate": 1.4166666666666668e-05, "loss": 0.0397, "step": 1030 }, { "epoch": 8.67, "learning_rate": 1.3333333333333333e-05, "loss": 0.0404, "step": 1040 }, { "epoch": 8.67, "eval_accuracy": 0.9894969596462134, "eval_loss": 0.0798824205994606, "eval_runtime": 26.1885, "eval_samples_per_second": 69.076, "eval_steps_per_second": 8.668, "step": 1040 }, { "epoch": 8.75, "learning_rate": 1.25e-05, "loss": 0.0402, "step": 1050 }, { "epoch": 8.83, "learning_rate": 1.1666666666666668e-05, "loss": 0.0418, "step": 1060 }, { "epoch": 8.92, "learning_rate": 1.0833333333333334e-05, "loss": 0.0393, "step": 1070 }, { "epoch": 9.0, "learning_rate": 1e-05, "loss": 0.0386, "step": 1080 }, { "epoch": 9.0, "eval_accuracy": 0.9894969596462134, "eval_loss": 0.08014928549528122, "eval_runtime": 24.5975, "eval_samples_per_second": 73.544, "eval_steps_per_second": 9.229, "step": 1080 }, { "epoch": 9.08, "learning_rate": 9.166666666666666e-06, "loss": 0.0388, "step": 1090 }, { "epoch": 9.17, "learning_rate": 8.333333333333334e-06, "loss": 0.0383, "step": 1100 }, { "epoch": 9.25, "learning_rate": 7.5e-06, "loss": 0.0389, "step": 1110 }, { "epoch": 9.33, "learning_rate": 6.666666666666667e-06, "loss": 0.0386, "step": 1120 }, { "epoch": 9.33, "eval_accuracy": 0.9889441680486457, "eval_loss": 0.07926672697067261, "eval_runtime": 24.5643, "eval_samples_per_second": 73.643, "eval_steps_per_second": 9.241, "step": 1120 }, { "epoch": 9.42, "learning_rate": 5.833333333333334e-06, "loss": 0.0381, "step": 1130 }, { "epoch": 9.5, "learning_rate": 5e-06, "loss": 0.0375, "step": 1140 }, { "epoch": 9.58, "learning_rate": 4.166666666666667e-06, "loss": 0.0385, "step": 1150 }, { "epoch": 9.67, "learning_rate": 3.3333333333333333e-06, "loss": 0.0378, "step": 1160 }, { "epoch": 9.67, "eval_accuracy": 0.9889441680486457, "eval_loss": 0.07844050228595734, "eval_runtime": 24.8252, "eval_samples_per_second": 72.869, "eval_steps_per_second": 9.144, "step": 1160 }, { "epoch": 9.75, "learning_rate": 2.5e-06, "loss": 0.0379, "step": 1170 }, { "epoch": 9.83, "learning_rate": 1.6666666666666667e-06, "loss": 0.0381, "step": 1180 }, { "epoch": 9.92, "learning_rate": 8.333333333333333e-07, "loss": 0.0379, "step": 1190 }, { "epoch": 10.0, "learning_rate": 0.0, "loss": 0.0375, "step": 1200 }, { "epoch": 10.0, "eval_accuracy": 0.9889441680486457, "eval_loss": 0.07833071053028107, "eval_runtime": 25.8277, "eval_samples_per_second": 70.041, "eval_steps_per_second": 8.789, "step": 1200 }, { "epoch": 10.0, "step": 1200, "total_flos": 2.219132546087547e+18, "train_loss": 0.5339297652244568, "train_runtime": 1645.4859, "train_samples_per_second": 17.399, "train_steps_per_second": 0.729 } ], "max_steps": 1200, "num_train_epochs": 10, "total_flos": 2.219132546087547e+18, "trial_name": null, "trial_params": null }