vit-lr-cosine-warmup / trainer_state.json

🍻 cheers

b844ddf verified 3 months ago

No virus

7.59 kB

	{
	"best_metric": 0.4735751152038574,
	"best_model_checkpoint": "./vit-lr-cosine-warmup/checkpoint-963",
	"epoch": 13.0,
	"eval_steps": 500,
	"global_step": 4173,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 7.814958572387695,
	"learning_rate": 4.1428571428571437e-05,
	"loss": 0.86,
	"step": 321
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8141470180305131,
	"eval_f1": 0.8010598763076213,
	"eval_loss": 0.5250416994094849,
	"eval_precision": 0.8100096575743447,
	"eval_recall": 0.8141470180305131,
	"eval_runtime": 36.0914,
	"eval_samples_per_second": 79.908,
	"eval_steps_per_second": 10.002,
	"step": 321
	},
	{
	"epoch": 2.0,
	"grad_norm": 6.845722198486328,
	"learning_rate": 8.311688311688312e-05,
	"loss": 0.4517,
	"step": 642
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8221220527045769,
	"eval_f1": 0.8099830282273331,
	"eval_loss": 0.5117006897926331,
	"eval_precision": 0.8347375649374938,
	"eval_recall": 0.8221220527045769,
	"eval_runtime": 37.2073,
	"eval_samples_per_second": 77.512,
	"eval_steps_per_second": 9.702,
	"step": 642
	},
	{
	"epoch": 3.0,
	"grad_norm": 2.5204238891601562,
	"learning_rate": 9.985334621908699e-05,
	"loss": 0.3512,
	"step": 963
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8394590846047156,
	"eval_f1": 0.830758624078281,
	"eval_loss": 0.4735751152038574,
	"eval_precision": 0.8318317467279469,
	"eval_recall": 0.8394590846047156,
	"eval_runtime": 35.8524,
	"eval_samples_per_second": 80.441,
	"eval_steps_per_second": 10.069,
	"step": 963
	},
	{
	"epoch": 4.0,
	"grad_norm": 5.594597816467285,
	"learning_rate": 9.894936461151184e-05,
	"loss": 0.2184,
	"step": 1284
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.8567961165048543,
	"eval_f1": 0.85051019948,
	"eval_loss": 0.4796653389930725,
	"eval_precision": 0.8536361493542505,
	"eval_recall": 0.8567961165048543,
	"eval_runtime": 35.3028,
	"eval_samples_per_second": 81.693,
	"eval_steps_per_second": 10.226,
	"step": 1284
	},
	{
	"epoch": 5.0,
	"grad_norm": 9.165299415588379,
	"learning_rate": 9.723506398349735e-05,
	"loss": 0.1264,
	"step": 1605
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.8547156726768377,
	"eval_f1": 0.8530254035056796,
	"eval_loss": 0.6211732029914856,
	"eval_precision": 0.8551837556766221,
	"eval_recall": 0.8547156726768377,
	"eval_runtime": 36.6331,
	"eval_samples_per_second": 78.727,
	"eval_steps_per_second": 9.854,
	"step": 1605
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.9397739768028259,
	"learning_rate": 9.473882326123909e-05,
	"loss": 0.0687,
	"step": 1926
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.8463938973647711,
	"eval_f1": 0.840249522586874,
	"eval_loss": 0.7659199237823486,
	"eval_precision": 0.8475689441425499,
	"eval_recall": 0.8463938973647711,
	"eval_runtime": 35.8316,
	"eval_samples_per_second": 80.488,
	"eval_steps_per_second": 10.075,
	"step": 1926
	},
	{
	"epoch": 7.0,
	"grad_norm": 11.412993431091309,
	"learning_rate": 9.15019657867844e-05,
	"loss": 0.0463,
	"step": 2247
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.8519417475728155,
	"eval_f1": 0.84690540461018,
	"eval_loss": 0.8237490057945251,
	"eval_precision": 0.8546320390871954,
	"eval_recall": 0.8519417475728155,
	"eval_runtime": 36.3237,
	"eval_samples_per_second": 79.397,
	"eval_steps_per_second": 9.938,
	"step": 2247
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.15119314193725586,
	"learning_rate": 8.759130166350091e-05,
	"loss": 0.0373,
	"step": 2568
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.8377253814147018,
	"eval_f1": 0.8414971604167042,
	"eval_loss": 0.871150553226471,
	"eval_precision": 0.8492780112281874,
	"eval_recall": 0.8377253814147018,
	"eval_runtime": 37.0971,
	"eval_samples_per_second": 77.742,
	"eval_steps_per_second": 9.731,
	"step": 2568
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.9838098883628845,
	"learning_rate": 8.304716115113689e-05,
	"loss": 0.0347,
	"step": 2889
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.8567961165048543,
	"eval_f1": 0.8533749018674412,
	"eval_loss": 0.8180708885192871,
	"eval_precision": 0.8549859977362129,
	"eval_recall": 0.8567961165048543,
	"eval_runtime": 36.43,
	"eval_samples_per_second": 79.166,
	"eval_steps_per_second": 9.909,
	"step": 2889
	},
	{
	"epoch": 10.0,
	"grad_norm": 2.4911880493164062,
	"learning_rate": 7.795595034552552e-05,
	"loss": 0.0263,
	"step": 3210
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.8446601941747572,
	"eval_f1": 0.8308350673322552,
	"eval_loss": 1.0705382823944092,
	"eval_precision": 0.8388632159592988,
	"eval_recall": 0.8446601941747572,
	"eval_runtime": 36.2711,
	"eval_samples_per_second": 79.512,
	"eval_steps_per_second": 9.953,
	"step": 3210
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.003689270233735442,
	"learning_rate": 7.240195031927308e-05,
	"loss": 0.0289,
	"step": 3531
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.858876560332871,
	"eval_f1": 0.855018220816544,
	"eval_loss": 0.9376017451286316,
	"eval_precision": 0.8605983316828895,
	"eval_recall": 0.858876560332871,
	"eval_runtime": 36.7783,
	"eval_samples_per_second": 78.416,
	"eval_steps_per_second": 9.816,
	"step": 3531
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.08966358751058578,
	"learning_rate": 6.647710326399964e-05,
	"loss": 0.0164,
	"step": 3852
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.863384188626907,
	"eval_f1": 0.8610588511525862,
	"eval_loss": 0.9714025259017944,
	"eval_precision": 0.8611342448885915,
	"eval_recall": 0.863384188626907,
	"eval_runtime": 36.4831,
	"eval_samples_per_second": 79.05,
	"eval_steps_per_second": 9.895,
	"step": 3852
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.05049363151192665,
	"learning_rate": 6.027949045818934e-05,
	"loss": 0.0077,
	"step": 4173
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.8398058252427184,
	"eval_f1": 0.8242916893123671,
	"eval_loss": 1.2992373704910278,
	"eval_precision": 0.8395816522197255,
	"eval_recall": 0.8398058252427184,
	"eval_runtime": 37.0798,
	"eval_samples_per_second": 77.778,
	"eval_steps_per_second": 9.736,
	"step": 4173
	},
	{
	"epoch": 13.0,
	"step": 4173,
	"total_flos": 5.166157498470679e+18,
	"train_loss": 0.1749291451406399,
	"train_runtime": 1863.5469,
	"train_samples_per_second": 275.174,
	"train_steps_per_second": 17.225
	}
	],
	"logging_steps": 500,
	"max_steps": 32100,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 500,
	"total_flos": 5.166157498470679e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}