Training in progress, step 11000, checkpoint

612a16b verified 2 months ago

No virus

6.9 kB

	{
	"best_metric": 0.7624731472235634,
	"best_model_checkpoint": "training_dir/checkpoint-6000",
	"epoch": 1.7225180081428124,
	"eval_steps": 1000,
	"global_step": 11000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.15659254619480112,
	"grad_norm": 67.27922058105469,
	"learning_rate": 9.92108585858586e-06,
	"loss": 0.7405,
	"step": 1000
	},
	{
	"epoch": 0.15659254619480112,
	"eval_accuracy": 0.6914335664335665,
	"eval_f1": 0.6593208421129121,
	"eval_loss": 1.1309396028518677,
	"eval_precision": 0.6956839140215929,
	"eval_recall": 0.6914335664335665,
	"eval_runtime": 47.9571,
	"eval_samples_per_second": 47.709,
	"eval_steps_per_second": 5.964,
	"step": 1000
	},
	{
	"epoch": 0.31318509238960224,
	"grad_norm": 14.41289234161377,
	"learning_rate": 9.763257575757577e-06,
	"loss": 0.4907,
	"step": 2000
	},
	{
	"epoch": 0.31318509238960224,
	"eval_accuracy": 0.743006993006993,
	"eval_f1": 0.733830578366595,
	"eval_loss": 0.8223879337310791,
	"eval_precision": 0.7463673332921382,
	"eval_recall": 0.743006993006993,
	"eval_runtime": 47.4569,
	"eval_samples_per_second": 48.212,
	"eval_steps_per_second": 6.027,
	"step": 2000
	},
	{
	"epoch": 0.46977763858440336,
	"grad_norm": 1.8675850629806519,
	"learning_rate": 9.605429292929293e-06,
	"loss": 0.4543,
	"step": 3000
	},
	{
	"epoch": 0.46977763858440336,
	"eval_accuracy": 0.7312062937062938,
	"eval_f1": 0.7152230962884388,
	"eval_loss": 0.9456853270530701,
	"eval_precision": 0.7333745521313426,
	"eval_recall": 0.7312062937062938,
	"eval_runtime": 47.3928,
	"eval_samples_per_second": 48.277,
	"eval_steps_per_second": 6.035,
	"step": 3000
	},
	{
	"epoch": 0.6263701847792045,
	"grad_norm": 36.809181213378906,
	"learning_rate": 9.44760101010101e-06,
	"loss": 0.4431,
	"step": 4000
	},
	{
	"epoch": 0.6263701847792045,
	"eval_accuracy": 0.7456293706293706,
	"eval_f1": 0.7418425557235627,
	"eval_loss": 0.7822393774986267,
	"eval_precision": 0.7420175571942784,
	"eval_recall": 0.7456293706293706,
	"eval_runtime": 47.4108,
	"eval_samples_per_second": 48.259,
	"eval_steps_per_second": 6.032,
	"step": 4000
	},
	{
	"epoch": 0.7829627309740056,
	"grad_norm": 1.452012300491333,
	"learning_rate": 9.289772727272728e-06,
	"loss": 0.4423,
	"step": 5000
	},
	{
	"epoch": 0.7829627309740056,
	"eval_accuracy": 0.7539335664335665,
	"eval_f1": 0.7466934407427619,
	"eval_loss": 0.8257411122322083,
	"eval_precision": 0.7528625679945705,
	"eval_recall": 0.7539335664335665,
	"eval_runtime": 47.5443,
	"eval_samples_per_second": 48.123,
	"eval_steps_per_second": 6.015,
	"step": 5000
	},
	{
	"epoch": 0.9395552771688067,
	"grad_norm": 16.726686477661133,
	"learning_rate": 9.131944444444445e-06,
	"loss": 0.4505,
	"step": 6000
	},
	{
	"epoch": 0.9395552771688067,
	"eval_accuracy": 0.7670454545454546,
	"eval_f1": 0.7624731472235634,
	"eval_loss": 0.7416993379592896,
	"eval_precision": 0.7669396954578515,
	"eval_recall": 0.7670454545454546,
	"eval_runtime": 47.5056,
	"eval_samples_per_second": 48.163,
	"eval_steps_per_second": 6.02,
	"step": 6000
	},
	{
	"epoch": 1.096147823363608,
	"grad_norm": 47.86187744140625,
	"learning_rate": 8.974116161616161e-06,
	"loss": 0.4028,
	"step": 7000
	},
	{
	"epoch": 1.096147823363608,
	"eval_accuracy": 0.7399475524475524,
	"eval_f1": 0.7251034362957096,
	"eval_loss": 1.0867348909378052,
	"eval_precision": 0.7436508232814505,
	"eval_recall": 0.7399475524475524,
	"eval_runtime": 47.6192,
	"eval_samples_per_second": 48.048,
	"eval_steps_per_second": 6.006,
	"step": 7000
	},
	{
	"epoch": 1.252740369558409,
	"grad_norm": 1.5419590473175049,
	"learning_rate": 8.816287878787879e-06,
	"loss": 0.3891,
	"step": 8000
	},
	{
	"epoch": 1.252740369558409,
	"eval_accuracy": 0.7504370629370629,
	"eval_f1": 0.7360022991843806,
	"eval_loss": 1.1146304607391357,
	"eval_precision": 0.7541770480812687,
	"eval_recall": 0.7504370629370629,
	"eval_runtime": 47.6132,
	"eval_samples_per_second": 48.054,
	"eval_steps_per_second": 6.007,
	"step": 8000
	},
	{
	"epoch": 1.4093329157532102,
	"grad_norm": 48.14420700073242,
	"learning_rate": 8.658459595959596e-06,
	"loss": 0.3957,
	"step": 9000
	},
	{
	"epoch": 1.4093329157532102,
	"eval_accuracy": 0.7613636363636364,
	"eval_f1": 0.7534759031290063,
	"eval_loss": 0.9045655727386475,
	"eval_precision": 0.7581869302928095,
	"eval_recall": 0.7613636363636364,
	"eval_runtime": 47.5148,
	"eval_samples_per_second": 48.153,
	"eval_steps_per_second": 6.019,
	"step": 9000
	},
	{
	"epoch": 1.5659254619480114,
	"grad_norm": 5.539546489715576,
	"learning_rate": 8.500631313131314e-06,
	"loss": 0.401,
	"step": 10000
	},
	{
	"epoch": 1.5659254619480114,
	"eval_accuracy": 0.7622377622377622,
	"eval_f1": 0.7562280560821415,
	"eval_loss": 0.951400876045227,
	"eval_precision": 0.760121427774359,
	"eval_recall": 0.7622377622377622,
	"eval_runtime": 47.6294,
	"eval_samples_per_second": 48.038,
	"eval_steps_per_second": 6.005,
	"step": 10000
	},
	{
	"epoch": 1.7225180081428124,
	"grad_norm": 44.26694107055664,
	"learning_rate": 8.342803030303031e-06,
	"loss": 0.3903,
	"step": 11000
	},
	{
	"epoch": 1.7225180081428124,
	"eval_accuracy": 0.7552447552447552,
	"eval_f1": 0.7447143825904207,
	"eval_loss": 0.9456614255905151,
	"eval_precision": 0.7531489883387709,
	"eval_recall": 0.7552447552447552,
	"eval_runtime": 47.5072,
	"eval_samples_per_second": 48.161,
	"eval_steps_per_second": 6.02,
	"step": 11000
	}
	],
	"logging_steps": 1000,
	"max_steps": 63860,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.2525788225157308e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}