aoi_clip_clean_new_sampler_fomula_clean / trainer_state.json

End of training

79dc090 verified 6 months ago

4.64 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 60.0,
	"eval_steps": 8874,
	"global_step": 88740,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 6.0,
	"grad_norm": 2.476245641708374,
	"learning_rate": 9.0009015100293e-06,
	"loss": 2.4036,
	"step": 8874
	},
	{
	"epoch": 6.0,
	"eval_loss": 3.011286497116089,
	"eval_runtime": 32.2427,
	"eval_samples_per_second": 301.308,
	"eval_steps_per_second": 6.854,
	"step": 8874
	},
	{
	"epoch": 12.0,
	"grad_norm": 10.134785652160645,
	"learning_rate": 8.001239576290288e-06,
	"loss": 2.1954,
	"step": 17748
	},
	{
	"epoch": 12.0,
	"eval_loss": 3.1597039699554443,
	"eval_runtime": 31.8518,
	"eval_samples_per_second": 305.006,
	"eval_steps_per_second": 6.938,
	"step": 17748
	},
	{
	"epoch": 18.0,
	"grad_norm": 14.89818000793457,
	"learning_rate": 7.001690331304937e-06,
	"loss": 2.0709,
	"step": 26622
	},
	{
	"epoch": 18.0,
	"eval_loss": 3.206042528152466,
	"eval_runtime": 33.1331,
	"eval_samples_per_second": 293.211,
	"eval_steps_per_second": 6.67,
	"step": 26622
	},
	{
	"epoch": 24.0,
	"grad_norm": 20.7427921295166,
	"learning_rate": 6.002141086319586e-06,
	"loss": 2.0132,
	"step": 35496
	},
	{
	"epoch": 24.0,
	"eval_loss": 3.307133913040161,
	"eval_runtime": 31.6331,
	"eval_samples_per_second": 307.115,
	"eval_steps_per_second": 6.986,
	"step": 35496
	},
	{
	"epoch": 30.0,
	"grad_norm": 10.81413745880127,
	"learning_rate": 5.0025918413342355e-06,
	"loss": 1.9783,
	"step": 44370
	},
	{
	"epoch": 30.0,
	"eval_loss": 3.3543457984924316,
	"eval_runtime": 31.6425,
	"eval_samples_per_second": 307.024,
	"eval_steps_per_second": 6.984,
	"step": 44370
	},
	{
	"epoch": 36.0,
	"grad_norm": 13.179546356201172,
	"learning_rate": 4.003155285102547e-06,
	"loss": 1.9672,
	"step": 53244
	},
	{
	"epoch": 36.0,
	"eval_loss": 3.45923113822937,
	"eval_runtime": 31.6946,
	"eval_samples_per_second": 306.519,
	"eval_steps_per_second": 6.973,
	"step": 53244
	},
	{
	"epoch": 42.0,
	"grad_norm": 35.83116149902344,
	"learning_rate": 3.003606040117197e-06,
	"loss": 1.9536,
	"step": 62118
	},
	{
	"epoch": 42.0,
	"eval_loss": 3.473649740219116,
	"eval_runtime": 31.7269,
	"eval_samples_per_second": 306.207,
	"eval_steps_per_second": 6.966,
	"step": 62118
	},
	{
	"epoch": 48.0,
	"grad_norm": 2.7362611293792725,
	"learning_rate": 2.0041694838855083e-06,
	"loss": 1.9473,
	"step": 70992
	},
	{
	"epoch": 48.0,
	"eval_loss": 3.531722068786621,
	"eval_runtime": 31.6356,
	"eval_samples_per_second": 307.091,
	"eval_steps_per_second": 6.986,
	"step": 70992
	},
	{
	"epoch": 54.0,
	"grad_norm": 3.277851104736328,
	"learning_rate": 1.0046202389001578e-06,
	"loss": 1.9479,
	"step": 79866
	},
	{
	"epoch": 54.0,
	"eval_loss": 3.5619990825653076,
	"eval_runtime": 31.6245,
	"eval_samples_per_second": 307.199,
	"eval_steps_per_second": 6.988,
	"step": 79866
	},
	{
	"epoch": 60.0,
	"grad_norm": 2.524662733078003,
	"learning_rate": 5.070993914807302e-09,
	"loss": 1.9411,
	"step": 88740
	},
	{
	"epoch": 60.0,
	"eval_loss": 3.5839552879333496,
	"eval_runtime": 31.4889,
	"eval_samples_per_second": 308.522,
	"eval_steps_per_second": 7.018,
	"step": 88740
	},
	{
	"epoch": 60.0,
	"step": 88740,
	"total_flos": 1.4015777943683174e+18,
	"train_loss": 2.0418326404735745,
	"train_runtime": 30807.4628,
	"train_samples_per_second": 115.158,
	"train_steps_per_second": 2.88
	}
	],
	"logging_steps": 8874,
	"max_steps": 88740,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 60,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4015777943683174e+18,
	"train_batch_size": 40,
	"trial_name": null,
	"trial_params": null
	}