apwic
/

indosum-base-1

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

indosum-base-1 / trainer_state.json

apwic's picture

End of training

6a42776 verified 7 months ago

history blame contribute delete

3.29 kB

	{
	"best_metric": 72.0587,
	"best_model_checkpoint": "bin/indosum-base-1/checkpoint-4460",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 4460,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 0.9205507636070251,
	"learning_rate": 0.0008,
	"loss": 1.1904,
	"step": 892
	},
	{
	"epoch": 1.0,
	"eval_gen_len": 95.85981308411215,
	"eval_loss": 0.8053300976753235,
	"eval_rouge1": 65.8257,
	"eval_rouge2": 57.6167,
	"eval_rougeL": 62.6222,
	"eval_rougeLsum": 65.0027,
	"eval_runtime": 190.0984,
	"eval_samples_per_second": 3.94,
	"eval_steps_per_second": 0.126,
	"step": 892
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.9236537218093872,
	"learning_rate": 0.0006,
	"loss": 0.6851,
	"step": 1784
	},
	{
	"epoch": 2.0,
	"eval_gen_len": 96.29105473965286,
	"eval_loss": 0.6778599619865417,
	"eval_rouge1": 67.8889,
	"eval_rouge2": 60.0878,
	"eval_rougeL": 64.5868,
	"eval_rougeLsum": 66.9914,
	"eval_runtime": 191.4753,
	"eval_samples_per_second": 3.912,
	"eval_steps_per_second": 0.125,
	"step": 1784
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.7036951184272766,
	"learning_rate": 0.0004,
	"loss": 0.4856,
	"step": 2676
	},
	{
	"epoch": 3.0,
	"eval_gen_len": 96.92122830440587,
	"eval_loss": 0.6460219621658325,
	"eval_rouge1": 70.9241,
	"eval_rouge2": 63.6363,
	"eval_rougeL": 67.8555,
	"eval_rougeLsum": 70.153,
	"eval_runtime": 191.9289,
	"eval_samples_per_second": 3.902,
	"eval_steps_per_second": 0.125,
	"step": 2676
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.5336605906486511,
	"learning_rate": 0.0002,
	"loss": 0.3358,
	"step": 3568
	},
	{
	"epoch": 4.0,
	"eval_gen_len": 101.87449933244326,
	"eval_loss": 0.6564512848854065,
	"eval_rouge1": 69.9002,
	"eval_rouge2": 62.4,
	"eval_rougeL": 66.5928,
	"eval_rougeLsum": 69.0347,
	"eval_runtime": 192.0018,
	"eval_samples_per_second": 3.901,
	"eval_steps_per_second": 0.125,
	"step": 3568
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.46569395065307617,
	"learning_rate": 0.0,
	"loss": 0.1973,
	"step": 4460
	},
	{
	"epoch": 5.0,
	"eval_gen_len": 99.37650200267022,
	"eval_loss": 0.7477750778198242,
	"eval_rouge1": 72.0587,
	"eval_rouge2": 64.7973,
	"eval_rougeL": 68.9279,
	"eval_rougeLsum": 71.3028,
	"eval_runtime": 192.0514,
	"eval_samples_per_second": 3.9,
	"eval_steps_per_second": 0.125,
	"step": 4460
	},
	{
	"epoch": 5.0,
	"step": 4460,
	"total_flos": 4.883347058982912e+16,
	"train_loss": 0.5788277185551254,
	"train_runtime": 5011.2822,
	"train_samples_per_second": 14.231,
	"train_steps_per_second": 0.89
	}
	],
	"logging_steps": 500,
	"max_steps": 4460,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 4.883347058982912e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}