|
{ |
|
"best_metric": 0.8593508500772797, |
|
"best_model_checkpoint": "mit-b2-finetuned-memes/checkpoint-360", |
|
"epoch": 9.987654320987655, |
|
"global_step": 400, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.25, |
|
"learning_rate": 3e-05, |
|
"loss": 1.5809, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.49, |
|
"learning_rate": 6e-05, |
|
"loss": 1.3935, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.74, |
|
"learning_rate": 9e-05, |
|
"loss": 1.2125, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.99, |
|
"learning_rate": 0.00012, |
|
"loss": 0.9727, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.99, |
|
"eval_accuracy": 0.7333848531684699, |
|
"eval_loss": 0.8400309085845947, |
|
"eval_runtime": 775.4738, |
|
"eval_samples_per_second": 1.669, |
|
"eval_steps_per_second": 0.053, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"learning_rate": 0.00011666666666666667, |
|
"loss": 0.8348, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 1.49, |
|
"learning_rate": 0.00011333333333333333, |
|
"loss": 0.6271, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 1.74, |
|
"learning_rate": 0.00011, |
|
"loss": 0.6043, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 1.99, |
|
"learning_rate": 0.00010666666666666667, |
|
"loss": 0.5305, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 1.99, |
|
"eval_accuracy": 0.8284389489953632, |
|
"eval_loss": 0.5146808624267578, |
|
"eval_runtime": 23.9016, |
|
"eval_samples_per_second": 54.139, |
|
"eval_steps_per_second": 1.715, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"learning_rate": 0.00010333333333333334, |
|
"loss": 0.4163, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 2.49, |
|
"learning_rate": 0.0001, |
|
"loss": 0.3372, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 2.74, |
|
"learning_rate": 9.666666666666667e-05, |
|
"loss": 0.3527, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 2.99, |
|
"learning_rate": 9.333333333333334e-05, |
|
"loss": 0.3124, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 2.99, |
|
"eval_accuracy": 0.8145285935085008, |
|
"eval_loss": 0.4697549641132355, |
|
"eval_runtime": 22.8386, |
|
"eval_samples_per_second": 56.658, |
|
"eval_steps_per_second": 1.795, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 3.25, |
|
"learning_rate": 9e-05, |
|
"loss": 0.2821, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 3.49, |
|
"learning_rate": 8.666666666666667e-05, |
|
"loss": 0.2588, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 3.74, |
|
"learning_rate": 8.333333333333333e-05, |
|
"loss": 0.1866, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 3.99, |
|
"learning_rate": 7.999999999999999e-05, |
|
"loss": 0.2263, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 3.99, |
|
"eval_accuracy": 0.8562596599690881, |
|
"eval_loss": 0.3892250061035156, |
|
"eval_runtime": 22.8733, |
|
"eval_samples_per_second": 56.572, |
|
"eval_steps_per_second": 1.792, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 4.25, |
|
"learning_rate": 7.666666666666667e-05, |
|
"loss": 0.1584, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 4.49, |
|
"learning_rate": 7.333333333333334e-05, |
|
"loss": 0.1588, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 4.74, |
|
"learning_rate": 7.000000000000001e-05, |
|
"loss": 0.1487, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 4.99, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 0.1453, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 4.99, |
|
"eval_accuracy": 0.857032457496136, |
|
"eval_loss": 0.38735243678092957, |
|
"eval_runtime": 22.8684, |
|
"eval_samples_per_second": 56.585, |
|
"eval_steps_per_second": 1.793, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 5.25, |
|
"learning_rate": 6.333333333333333e-05, |
|
"loss": 0.1254, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 5.49, |
|
"learning_rate": 6e-05, |
|
"loss": 0.1012, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 5.74, |
|
"learning_rate": 5.6666666666666664e-05, |
|
"loss": 0.1078, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 5.99, |
|
"learning_rate": 5.333333333333333e-05, |
|
"loss": 0.1255, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 5.99, |
|
"eval_accuracy": 0.8469860896445132, |
|
"eval_loss": 0.4097033441066742, |
|
"eval_runtime": 22.8903, |
|
"eval_samples_per_second": 56.53, |
|
"eval_steps_per_second": 1.791, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 6.25, |
|
"learning_rate": 5e-05, |
|
"loss": 0.0963, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 6.49, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 0.1155, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 6.74, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.0821, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 6.99, |
|
"learning_rate": 3.9999999999999996e-05, |
|
"loss": 0.0989, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 6.99, |
|
"eval_accuracy": 0.857032457496136, |
|
"eval_loss": 0.38595816493034363, |
|
"eval_runtime": 23.0627, |
|
"eval_samples_per_second": 56.108, |
|
"eval_steps_per_second": 1.778, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 7.25, |
|
"learning_rate": 3.666666666666667e-05, |
|
"loss": 0.0848, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 7.49, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.0834, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 7.74, |
|
"learning_rate": 3e-05, |
|
"loss": 0.0818, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 7.99, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 0.0755, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 7.99, |
|
"eval_accuracy": 0.8539412673879444, |
|
"eval_loss": 0.4140683114528656, |
|
"eval_runtime": 22.9765, |
|
"eval_samples_per_second": 56.318, |
|
"eval_steps_per_second": 1.784, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 8.25, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.0691, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 8.49, |
|
"learning_rate": 1.9999999999999998e-05, |
|
"loss": 0.0721, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 8.74, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.0804, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 8.99, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.08, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 8.99, |
|
"eval_accuracy": 0.8593508500772797, |
|
"eval_loss": 0.40489473938941956, |
|
"eval_runtime": 22.9961, |
|
"eval_samples_per_second": 56.271, |
|
"eval_steps_per_second": 1.783, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 9.25, |
|
"learning_rate": 9.999999999999999e-06, |
|
"loss": 0.0782, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 9.49, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 0.0811, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 9.74, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 0.0619, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 9.99, |
|
"learning_rate": 0.0, |
|
"loss": 0.0639, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 9.99, |
|
"eval_accuracy": 0.8523956723338485, |
|
"eval_loss": 0.4136844873428345, |
|
"eval_runtime": 22.9197, |
|
"eval_samples_per_second": 56.458, |
|
"eval_steps_per_second": 1.789, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 9.99, |
|
"step": 400, |
|
"total_flos": 4.005358668612661e+18, |
|
"train_loss": 0.31261438488960264, |
|
"train_runtime": 5959.0067, |
|
"train_samples_per_second": 8.683, |
|
"train_steps_per_second": 0.067 |
|
} |
|
], |
|
"max_steps": 400, |
|
"num_train_epochs": 10, |
|
"total_flos": 4.005358668612661e+18, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|