hBERTv2_new_no_pretrain_qqp / trainer_state.json

End of training

d80efcc about 1 year ago

5.04 kB

	{
	"best_metric": 0.6578601002693176,
	"best_model_checkpoint": "hBERTv2_new_no_pretrain_qqp/checkpoint-14215",
	"epoch": 10.0,
	"global_step": 28430,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"learning_rate": 0.0004900105522335561,
	"loss": 0.6669,
	"step": 2843
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6595353484153748,
	"eval_runtime": 67.7356,
	"eval_samples_per_second": 596.88,
	"eval_steps_per_second": 4.665,
	"step": 2843
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.0004800105522335561,
	"loss": 0.6591,
	"step": 5686
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6586501598358154,
	"eval_runtime": 67.7263,
	"eval_samples_per_second": 596.962,
	"eval_steps_per_second": 4.666,
	"step": 5686
	},
	{
	"epoch": 3.0,
	"learning_rate": 0.0004700105522335561,
	"loss": 0.6589,
	"step": 8529
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6581756472587585,
	"eval_runtime": 67.7959,
	"eval_samples_per_second": 596.348,
	"eval_steps_per_second": 4.661,
	"step": 8529
	},
	{
	"epoch": 4.0,
	"learning_rate": 0.0004600140696447415,
	"loss": 0.6587,
	"step": 11372
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6579899787902832,
	"eval_runtime": 67.7187,
	"eval_samples_per_second": 597.028,
	"eval_steps_per_second": 4.666,
	"step": 11372
	},
	{
	"epoch": 5.0,
	"learning_rate": 0.0004500175870559268,
	"loss": 0.6586,
	"step": 14215
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6578601002693176,
	"eval_runtime": 67.6584,
	"eval_samples_per_second": 597.561,
	"eval_steps_per_second": 4.671,
	"step": 14215
	},
	{
	"epoch": 6.0,
	"learning_rate": 0.0004400211044671122,
	"loss": 0.6586,
	"step": 17058
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6580154895782471,
	"eval_runtime": 67.6879,
	"eval_samples_per_second": 597.3,
	"eval_steps_per_second": 4.668,
	"step": 17058
	},
	{
	"epoch": 7.0,
	"learning_rate": 0.00043002110446711226,
	"loss": 0.6586,
	"step": 19901
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6579923629760742,
	"eval_runtime": 67.6844,
	"eval_samples_per_second": 597.331,
	"eval_steps_per_second": 4.669,
	"step": 19901
	},
	{
	"epoch": 8.0,
	"learning_rate": 0.00042002813928948297,
	"loss": 0.6586,
	"step": 22744
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6579098701477051,
	"eval_runtime": 67.6644,
	"eval_samples_per_second": 597.508,
	"eval_steps_per_second": 4.67,
	"step": 22744
	},
	{
	"epoch": 9.0,
	"learning_rate": 0.00041003165670066834,
	"loss": 0.6586,
	"step": 25587
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6579644680023193,
	"eval_runtime": 67.7204,
	"eval_samples_per_second": 597.014,
	"eval_steps_per_second": 4.666,
	"step": 25587
	},
	{
	"epoch": 10.0,
	"learning_rate": 0.0004000351741118537,
	"loss": 0.6586,
	"step": 28430
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.6318327974276527,
	"eval_combined_score": 0.3159163987138264,
	"eval_f1": 0.0,
	"eval_loss": 0.6579644680023193,
	"eval_runtime": 67.7641,
	"eval_samples_per_second": 596.629,
	"eval_steps_per_second": 4.663,
	"step": 28430
	},
	{
	"epoch": 10.0,
	"step": 28430,
	"total_flos": 5.3244920021909504e+17,
	"train_loss": 0.6595250953891686,
	"train_runtime": 18380.3319,
	"train_samples_per_second": 989.77,
	"train_steps_per_second": 7.734
	}
	],
	"max_steps": 142150,
	"num_train_epochs": 50,
	"total_flos": 5.3244920021909504e+17,
	"trial_name": null,
	"trial_params": null
	}