apwic
/

summarization-lora-4

Generated from Trainer

Model card Files Files and versions Community

summarization-lora-4 / trainer_state.json

apwic's picture

End of training

47d05bd verified 5 months ago

3.15 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 8920,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 2.7599432468414307,
	"learning_rate": 4e-05,
	"loss": 1.3987,
	"step": 1784
	},
	{
	"epoch": 1.0,
	"eval_gen_len": 1.0,
	"eval_loss": 0.6450759768486023,
	"eval_rouge1": 0.4474,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.4495,
	"eval_rougeLsum": 0.4472,
	"eval_runtime": 113.2438,
	"eval_samples_per_second": 6.596,
	"eval_steps_per_second": 0.212,
	"step": 1784
	},
	{
	"epoch": 2.0,
	"grad_norm": 3.751906633377075,
	"learning_rate": 3e-05,
	"loss": 0.8591,
	"step": 3568
	},
	{
	"epoch": 2.0,
	"eval_gen_len": 1.0,
	"eval_loss": 0.5833613276481628,
	"eval_rouge1": 0.4222,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.4206,
	"eval_rougeLsum": 0.4228,
	"eval_runtime": 112.1253,
	"eval_samples_per_second": 6.662,
	"eval_steps_per_second": 0.214,
	"step": 3568
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.9588125944137573,
	"learning_rate": 2e-05,
	"loss": 0.7949,
	"step": 5352
	},
	{
	"epoch": 3.0,
	"eval_gen_len": 1.0,
	"eval_loss": 0.5684486031532288,
	"eval_rouge1": 0.4462,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.4449,
	"eval_rougeLsum": 0.4456,
	"eval_runtime": 111.7592,
	"eval_samples_per_second": 6.684,
	"eval_steps_per_second": 0.215,
	"step": 5352
	},
	{
	"epoch": 4.0,
	"grad_norm": 2.155653238296509,
	"learning_rate": 1e-05,
	"loss": 0.7674,
	"step": 7136
	},
	{
	"epoch": 4.0,
	"eval_gen_len": 1.0,
	"eval_loss": 0.5638545751571655,
	"eval_rouge1": 0.4564,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.4538,
	"eval_rougeLsum": 0.4545,
	"eval_runtime": 113.3026,
	"eval_samples_per_second": 6.593,
	"eval_steps_per_second": 0.212,
	"step": 7136
	},
	{
	"epoch": 5.0,
	"grad_norm": 2.0103201866149902,
	"learning_rate": 0.0,
	"loss": 0.7542,
	"step": 8920
	},
	{
	"epoch": 5.0,
	"eval_gen_len": 1.0,
	"eval_loss": 0.5587765574455261,
	"eval_rouge1": 0.4494,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.4489,
	"eval_rougeLsum": 0.4499,
	"eval_runtime": 112.3597,
	"eval_samples_per_second": 6.648,
	"eval_steps_per_second": 0.214,
	"step": 8920
	},
	{
	"epoch": 5.0,
	"step": 8920,
	"total_flos": 7.496541225879552e+16,
	"train_loss": 0.914843011009319,
	"train_runtime": 5163.073,
	"train_samples_per_second": 13.815,
	"train_steps_per_second": 1.728
	}
	],
	"logging_steps": 500,
	"max_steps": 8920,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 7.496541225879552e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}