{ "best_metric": 0.8593508500772797, "best_model_checkpoint": "mit-b2-finetuned-memes/checkpoint-360", "epoch": 9.987654320987655, "global_step": 400, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.25, "learning_rate": 3e-05, "loss": 1.5809, "step": 10 }, { "epoch": 0.49, "learning_rate": 6e-05, "loss": 1.3935, "step": 20 }, { "epoch": 0.74, "learning_rate": 9e-05, "loss": 1.2125, "step": 30 }, { "epoch": 0.99, "learning_rate": 0.00012, "loss": 0.9727, "step": 40 }, { "epoch": 0.99, "eval_accuracy": 0.7333848531684699, "eval_loss": 0.8400309085845947, "eval_runtime": 775.4738, "eval_samples_per_second": 1.669, "eval_steps_per_second": 0.053, "step": 40 }, { "epoch": 1.25, "learning_rate": 0.00011666666666666667, "loss": 0.8348, "step": 50 }, { "epoch": 1.49, "learning_rate": 0.00011333333333333333, "loss": 0.6271, "step": 60 }, { "epoch": 1.74, "learning_rate": 0.00011, "loss": 0.6043, "step": 70 }, { "epoch": 1.99, "learning_rate": 0.00010666666666666667, "loss": 0.5305, "step": 80 }, { "epoch": 1.99, "eval_accuracy": 0.8284389489953632, "eval_loss": 0.5146808624267578, "eval_runtime": 23.9016, "eval_samples_per_second": 54.139, "eval_steps_per_second": 1.715, "step": 80 }, { "epoch": 2.25, "learning_rate": 0.00010333333333333334, "loss": 0.4163, "step": 90 }, { "epoch": 2.49, "learning_rate": 0.0001, "loss": 0.3372, "step": 100 }, { "epoch": 2.74, "learning_rate": 9.666666666666667e-05, "loss": 0.3527, "step": 110 }, { "epoch": 2.99, "learning_rate": 9.333333333333334e-05, "loss": 0.3124, "step": 120 }, { "epoch": 2.99, "eval_accuracy": 0.8145285935085008, "eval_loss": 0.4697549641132355, "eval_runtime": 22.8386, "eval_samples_per_second": 56.658, "eval_steps_per_second": 1.795, "step": 120 }, { "epoch": 3.25, "learning_rate": 9e-05, "loss": 0.2821, "step": 130 }, { "epoch": 3.49, "learning_rate": 8.666666666666667e-05, "loss": 0.2588, "step": 140 }, { "epoch": 3.74, "learning_rate": 8.333333333333333e-05, "loss": 0.1866, "step": 150 }, { "epoch": 3.99, "learning_rate": 7.999999999999999e-05, "loss": 0.2263, "step": 160 }, { "epoch": 3.99, "eval_accuracy": 0.8562596599690881, "eval_loss": 0.3892250061035156, "eval_runtime": 22.8733, "eval_samples_per_second": 56.572, "eval_steps_per_second": 1.792, "step": 160 }, { "epoch": 4.25, "learning_rate": 7.666666666666667e-05, "loss": 0.1584, "step": 170 }, { "epoch": 4.49, "learning_rate": 7.333333333333334e-05, "loss": 0.1588, "step": 180 }, { "epoch": 4.74, "learning_rate": 7.000000000000001e-05, "loss": 0.1487, "step": 190 }, { "epoch": 4.99, "learning_rate": 6.666666666666667e-05, "loss": 0.1453, "step": 200 }, { "epoch": 4.99, "eval_accuracy": 0.857032457496136, "eval_loss": 0.38735243678092957, "eval_runtime": 22.8684, "eval_samples_per_second": 56.585, "eval_steps_per_second": 1.793, "step": 200 }, { "epoch": 5.25, "learning_rate": 6.333333333333333e-05, "loss": 0.1254, "step": 210 }, { "epoch": 5.49, "learning_rate": 6e-05, "loss": 0.1012, "step": 220 }, { "epoch": 5.74, "learning_rate": 5.6666666666666664e-05, "loss": 0.1078, "step": 230 }, { "epoch": 5.99, "learning_rate": 5.333333333333333e-05, "loss": 0.1255, "step": 240 }, { "epoch": 5.99, "eval_accuracy": 0.8469860896445132, "eval_loss": 0.4097033441066742, "eval_runtime": 22.8903, "eval_samples_per_second": 56.53, "eval_steps_per_second": 1.791, "step": 240 }, { "epoch": 6.25, "learning_rate": 5e-05, "loss": 0.0963, "step": 250 }, { "epoch": 6.49, "learning_rate": 4.666666666666667e-05, "loss": 0.1155, "step": 260 }, { "epoch": 6.74, "learning_rate": 4.3333333333333334e-05, "loss": 0.0821, "step": 270 }, { "epoch": 6.99, "learning_rate": 3.9999999999999996e-05, "loss": 0.0989, "step": 280 }, { "epoch": 6.99, "eval_accuracy": 0.857032457496136, "eval_loss": 0.38595816493034363, "eval_runtime": 23.0627, "eval_samples_per_second": 56.108, "eval_steps_per_second": 1.778, "step": 280 }, { "epoch": 7.25, "learning_rate": 3.666666666666667e-05, "loss": 0.0848, "step": 290 }, { "epoch": 7.49, "learning_rate": 3.3333333333333335e-05, "loss": 0.0834, "step": 300 }, { "epoch": 7.74, "learning_rate": 3e-05, "loss": 0.0818, "step": 310 }, { "epoch": 7.99, "learning_rate": 2.6666666666666667e-05, "loss": 0.0755, "step": 320 }, { "epoch": 7.99, "eval_accuracy": 0.8539412673879444, "eval_loss": 0.4140683114528656, "eval_runtime": 22.9765, "eval_samples_per_second": 56.318, "eval_steps_per_second": 1.784, "step": 320 }, { "epoch": 8.25, "learning_rate": 2.3333333333333336e-05, "loss": 0.0691, "step": 330 }, { "epoch": 8.49, "learning_rate": 1.9999999999999998e-05, "loss": 0.0721, "step": 340 }, { "epoch": 8.74, "learning_rate": 1.6666666666666667e-05, "loss": 0.0804, "step": 350 }, { "epoch": 8.99, "learning_rate": 1.3333333333333333e-05, "loss": 0.08, "step": 360 }, { "epoch": 8.99, "eval_accuracy": 0.8593508500772797, "eval_loss": 0.40489473938941956, "eval_runtime": 22.9961, "eval_samples_per_second": 56.271, "eval_steps_per_second": 1.783, "step": 360 }, { "epoch": 9.25, "learning_rate": 9.999999999999999e-06, "loss": 0.0782, "step": 370 }, { "epoch": 9.49, "learning_rate": 6.666666666666667e-06, "loss": 0.0811, "step": 380 }, { "epoch": 9.74, "learning_rate": 3.3333333333333333e-06, "loss": 0.0619, "step": 390 }, { "epoch": 9.99, "learning_rate": 0.0, "loss": 0.0639, "step": 400 }, { "epoch": 9.99, "eval_accuracy": 0.8523956723338485, "eval_loss": 0.4136844873428345, "eval_runtime": 22.9197, "eval_samples_per_second": 56.458, "eval_steps_per_second": 1.789, "step": 400 }, { "epoch": 9.99, "step": 400, "total_flos": 4.005358668612661e+18, "train_loss": 0.31261438488960264, "train_runtime": 5959.0067, "train_samples_per_second": 8.683, "train_steps_per_second": 0.067 } ], "max_steps": 400, "num_train_epochs": 10, "total_flos": 4.005358668612661e+18, "trial_name": null, "trial_params": null }