nerui-base-3 / trainer_state.json

End of training

7b298ec verified 6 months ago

6.12 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 480,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 2.027179718017578,
	"learning_rate": 4e-05,
	"loss": 0.241,
	"step": 96
	},
	{
	"epoch": 1.0,
	"eval_LOCATION_f1": 0.8723404255319148,
	"eval_LOCATION_number": 86,
	"eval_LOCATION_precision": 0.803921568627451,
	"eval_LOCATION_recall": 0.9534883720930233,
	"eval_ORGANIZATION_f1": 0.9008498583569405,
	"eval_ORGANIZATION_number": 178,
	"eval_ORGANIZATION_precision": 0.9085714285714286,
	"eval_ORGANIZATION_recall": 0.8932584269662921,
	"eval_PERSON_f1": 0.9612403100775193,
	"eval_PERSON_number": 128,
	"eval_PERSON_precision": 0.9538461538461539,
	"eval_PERSON_recall": 0.96875,
	"eval_loss": 0.05585619434714317,
	"eval_overall_accuracy": 0.9832658569500675,
	"eval_overall_f1": 0.9136420525657072,
	"eval_overall_precision": 0.8968058968058968,
	"eval_overall_recall": 0.9311224489795918,
	"eval_runtime": 1.3404,
	"eval_samples_per_second": 126.825,
	"eval_steps_per_second": 2.238,
	"step": 96
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.5001760721206665,
	"learning_rate": 3e-05,
	"loss": 0.0545,
	"step": 192
	},
	{
	"epoch": 2.0,
	"eval_LOCATION_f1": 0.8961748633879781,
	"eval_LOCATION_number": 86,
	"eval_LOCATION_precision": 0.845360824742268,
	"eval_LOCATION_recall": 0.9534883720930233,
	"eval_ORGANIZATION_f1": 0.9111111111111112,
	"eval_ORGANIZATION_number": 178,
	"eval_ORGANIZATION_precision": 0.9010989010989011,
	"eval_ORGANIZATION_recall": 0.9213483146067416,
	"eval_PERSON_f1": 0.9763779527559054,
	"eval_PERSON_number": 128,
	"eval_PERSON_precision": 0.9841269841269841,
	"eval_PERSON_recall": 0.96875,
	"eval_loss": 0.05511007830500603,
	"eval_overall_accuracy": 0.9827260458839406,
	"eval_overall_f1": 0.9284818067754077,
	"eval_overall_precision": 0.9135802469135802,
	"eval_overall_recall": 0.9438775510204082,
	"eval_runtime": 1.2378,
	"eval_samples_per_second": 137.339,
	"eval_steps_per_second": 2.424,
	"step": 192
	},
	{
	"epoch": 3.0,
	"grad_norm": 3.457658290863037,
	"learning_rate": 2e-05,
	"loss": 0.0286,
	"step": 288
	},
	{
	"epoch": 3.0,
	"eval_LOCATION_f1": 0.9189189189189189,
	"eval_LOCATION_number": 86,
	"eval_LOCATION_precision": 0.8585858585858586,
	"eval_LOCATION_recall": 0.9883720930232558,
	"eval_ORGANIZATION_f1": 0.9344729344729344,
	"eval_ORGANIZATION_number": 178,
	"eval_ORGANIZATION_precision": 0.9479768786127167,
	"eval_ORGANIZATION_recall": 0.9213483146067416,
	"eval_PERSON_f1": 0.9763779527559054,
	"eval_PERSON_number": 128,
	"eval_PERSON_precision": 0.9841269841269841,
	"eval_PERSON_recall": 0.96875,
	"eval_loss": 0.04845225811004639,
	"eval_overall_accuracy": 0.9870445344129555,
	"eval_overall_f1": 0.9443037974683544,
	"eval_overall_precision": 0.9371859296482412,
	"eval_overall_recall": 0.951530612244898,
	"eval_runtime": 1.2338,
	"eval_samples_per_second": 137.782,
	"eval_steps_per_second": 2.431,
	"step": 288
	},
	{
	"epoch": 4.0,
	"grad_norm": 2.5664279460906982,
	"learning_rate": 1e-05,
	"loss": 0.0151,
	"step": 384
	},
	{
	"epoch": 4.0,
	"eval_LOCATION_f1": 0.9378531073446328,
	"eval_LOCATION_number": 86,
	"eval_LOCATION_precision": 0.9120879120879121,
	"eval_LOCATION_recall": 0.9651162790697675,
	"eval_ORGANIZATION_f1": 0.9322033898305084,
	"eval_ORGANIZATION_number": 178,
	"eval_ORGANIZATION_precision": 0.9375,
	"eval_ORGANIZATION_recall": 0.9269662921348315,
	"eval_PERSON_f1": 0.9765625,
	"eval_PERSON_number": 128,
	"eval_PERSON_precision": 0.9765625,
	"eval_PERSON_recall": 0.9765625,
	"eval_loss": 0.057044416666030884,
	"eval_overall_accuracy": 0.9873144399460189,
	"eval_overall_f1": 0.9479034307496824,
	"eval_overall_precision": 0.9443037974683545,
	"eval_overall_recall": 0.951530612244898,
	"eval_runtime": 1.1835,
	"eval_samples_per_second": 143.642,
	"eval_steps_per_second": 2.535,
	"step": 384
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.14279630780220032,
	"learning_rate": 0.0,
	"loss": 0.0088,
	"step": 480
	},
	{
	"epoch": 5.0,
	"eval_LOCATION_f1": 0.9431818181818181,
	"eval_LOCATION_number": 86,
	"eval_LOCATION_precision": 0.9222222222222223,
	"eval_LOCATION_recall": 0.9651162790697675,
	"eval_ORGANIZATION_f1": 0.9385474860335196,
	"eval_ORGANIZATION_number": 178,
	"eval_ORGANIZATION_precision": 0.9333333333333333,
	"eval_ORGANIZATION_recall": 0.9438202247191011,
	"eval_PERSON_f1": 0.9803921568627452,
	"eval_PERSON_number": 128,
	"eval_PERSON_precision": 0.984251968503937,
	"eval_PERSON_recall": 0.9765625,
	"eval_loss": 0.05175752565264702,
	"eval_overall_accuracy": 0.9889338731443995,
	"eval_overall_f1": 0.9531051964512041,
	"eval_overall_precision": 0.947103274559194,
	"eval_overall_recall": 0.9591836734693877,
	"eval_runtime": 1.2661,
	"eval_samples_per_second": 134.27,
	"eval_steps_per_second": 2.369,
	"step": 480
	},
	{
	"epoch": 5.0,
	"step": 480,
	"total_flos": 193448468569026.0,
	"train_loss": 0.06961918647090594,
	"train_runtime": 225.7241,
	"train_samples_per_second": 33.913,
	"train_steps_per_second": 2.126
	}
	],
	"logging_steps": 500,
	"max_steps": 480,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 193448468569026.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}