bert-large-cased_overall-coherence / trainer_state.json

Upload folder using huggingface_hub

a47b665 verified 2 months ago

No virus

3.9 kB

	{
	"best_metric": 0.031336501240730286,
	"best_model_checkpoint": "logs/google-bert/bert-large-cased_overall-coherence/checkpoint-772",
	"epoch": 7.0,
	"eval_steps": 500,
	"global_step": 1351,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 2.359694242477417,
	"learning_rate": 1.901554404145078e-05,
	"loss": 0.2918,
	"step": 193
	},
	{
	"epoch": 1.0,
	"eval_MAE": 0.1806364357471466,
	"eval_R2": -0.5334044478520719,
	"eval_RMSE": 0.24513159692287445,
	"eval_loss": 0.06008950248360634,
	"eval_runtime": 14.0168,
	"eval_samples_per_second": 205.539,
	"eval_steps_per_second": 3.496,
	"step": 193
	},
	{
	"epoch": 2.0,
	"grad_norm": 4.046112060546875,
	"learning_rate": 1.8015544041450778e-05,
	"loss": 0.0417,
	"step": 386
	},
	{
	"epoch": 2.0,
	"eval_MAE": 0.1616782695055008,
	"eval_R2": -0.20231869056611274,
	"eval_RMSE": 0.21706047654151917,
	"eval_loss": 0.047115251421928406,
	"eval_runtime": 14.1157,
	"eval_samples_per_second": 204.099,
	"eval_steps_per_second": 3.471,
	"step": 386
	},
	{
	"epoch": 3.0,
	"grad_norm": 4.841380596160889,
	"learning_rate": 1.7015544041450777e-05,
	"loss": 0.0358,
	"step": 579
	},
	{
	"epoch": 3.0,
	"eval_MAE": 0.14208842813968658,
	"eval_R2": 0.06907855860957834,
	"eval_RMSE": 0.1909974068403244,
	"eval_loss": 0.03648001328110695,
	"eval_runtime": 14.1019,
	"eval_samples_per_second": 204.299,
	"eval_steps_per_second": 3.475,
	"step": 579
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.935973882675171,
	"learning_rate": 1.601554404145078e-05,
	"loss": 0.0298,
	"step": 772
	},
	{
	"epoch": 4.0,
	"eval_MAE": 0.13905900716781616,
	"eval_R2": 0.20033410036457755,
	"eval_RMSE": 0.17702119052410126,
	"eval_loss": 0.031336501240730286,
	"eval_runtime": 14.1051,
	"eval_samples_per_second": 204.253,
	"eval_steps_per_second": 3.474,
	"step": 772
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.4018096923828125,
	"learning_rate": 1.5015544041450778e-05,
	"loss": 0.0259,
	"step": 965
	},
	{
	"epoch": 5.0,
	"eval_MAE": 0.13839736580848694,
	"eval_R2": 0.09617620841026953,
	"eval_RMSE": 0.188197061419487,
	"eval_loss": 0.035418134182691574,
	"eval_runtime": 14.0324,
	"eval_samples_per_second": 205.311,
	"eval_steps_per_second": 3.492,
	"step": 965
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.8566466569900513,
	"learning_rate": 1.4015544041450779e-05,
	"loss": 0.0232,
	"step": 1158
	},
	{
	"epoch": 6.0,
	"eval_MAE": 0.13626991212368011,
	"eval_R2": 0.18108005143449513,
	"eval_RMSE": 0.1791396290063858,
	"eval_loss": 0.03209100663661957,
	"eval_runtime": 14.0546,
	"eval_samples_per_second": 204.987,
	"eval_steps_per_second": 3.486,
	"step": 1158
	},
	{
	"epoch": 7.0,
	"grad_norm": 6.615726947784424,
	"learning_rate": 1.3015544041450778e-05,
	"loss": 0.0203,
	"step": 1351
	},
	{
	"epoch": 7.0,
	"eval_MAE": 0.1330207884311676,
	"eval_R2": 0.17193841716478142,
	"eval_RMSE": 0.18013672530651093,
	"eval_loss": 0.03244924172759056,
	"eval_runtime": 14.0517,
	"eval_samples_per_second": 205.029,
	"eval_steps_per_second": 3.487,
	"step": 1351
	}
	],
	"logging_steps": 500,
	"max_steps": 3860,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"total_flos": 7.515647390691597e+16,
	"train_batch_size": 60,
	"trial_name": null,
	"trial_params": null
	}