deberta-v3-xsmall-NER-FINETUNED / trainer_state.json

Upload 12 files

474eaca verified about 2 months ago

No virus

11.7 kB

	{
	"best_metric": 0.20017504692077637,
	"best_model_checkpoint": "retr00h/deberta-v3-xsmall-NER-FINETUNED/checkpoint-21750",
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 21750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.23,
	"grad_norm": 2.853134870529175,
	"learning_rate": 5.747126436781609e-06,
	"loss": 3.0474,
	"step": 500
	},
	{
	"epoch": 0.46,
	"grad_norm": 6.231101989746094,
	"learning_rate": 1.1494252873563218e-05,
	"loss": 1.6994,
	"step": 1000
	},
	{
	"epoch": 0.69,
	"grad_norm": 3.9581143856048584,
	"learning_rate": 1.7241379310344828e-05,
	"loss": 1.3816,
	"step": 1500
	},
	{
	"epoch": 0.92,
	"grad_norm": 4.630077362060547,
	"learning_rate": 2.2988505747126437e-05,
	"loss": 1.1601,
	"step": 2000
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7779691278743173,
	"eval_f1": 0.16480717205426432,
	"eval_loss": 0.9353219270706177,
	"eval_precision": 0.255042170883755,
	"eval_recall": 0.12173634003325651,
	"eval_runtime": 79.6748,
	"eval_samples_per_second": 109.206,
	"eval_steps_per_second": 6.828,
	"step": 2175
	},
	{
	"epoch": 1.15,
	"grad_norm": 4.457046985626221,
	"learning_rate": 2.8735632183908045e-05,
	"loss": 0.9478,
	"step": 2500
	},
	{
	"epoch": 1.38,
	"grad_norm": 4.775448799133301,
	"learning_rate": 3.4482758620689657e-05,
	"loss": 0.8116,
	"step": 3000
	},
	{
	"epoch": 1.61,
	"grad_norm": 5.369730472564697,
	"learning_rate": 4.0229885057471265e-05,
	"loss": 0.6936,
	"step": 3500
	},
	{
	"epoch": 1.84,
	"grad_norm": 4.07623815536499,
	"learning_rate": 4.597701149425287e-05,
	"loss": 0.6135,
	"step": 4000
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8369943324621483,
	"eval_f1": 0.3358227912411726,
	"eval_loss": 0.5102753043174744,
	"eval_precision": 0.4002825999192572,
	"eval_recall": 0.2892441436447971,
	"eval_runtime": 71.0073,
	"eval_samples_per_second": 122.537,
	"eval_steps_per_second": 7.661,
	"step": 4350
	},
	{
	"epoch": 2.07,
	"grad_norm": 5.637992858886719,
	"learning_rate": 4.99908321555821e-05,
	"loss": 0.5371,
	"step": 4500
	},
	{
	"epoch": 2.3,
	"grad_norm": 3.2398834228515625,
	"learning_rate": 4.982803524033569e-05,
	"loss": 0.4694,
	"step": 5000
	},
	{
	"epoch": 2.53,
	"grad_norm": 1.9868240356445312,
	"learning_rate": 4.9463034836859035e-05,
	"loss": 0.4455,
	"step": 5500
	},
	{
	"epoch": 2.76,
	"grad_norm": 4.583148002624512,
	"learning_rate": 4.8898803566790296e-05,
	"loss": 0.4219,
	"step": 6000
	},
	{
	"epoch": 2.99,
	"grad_norm": 5.9840850830078125,
	"learning_rate": 4.813993661979598e-05,
	"loss": 0.398,
	"step": 6500
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8726373171368517,
	"eval_f1": 0.4454696078749878,
	"eval_loss": 0.36235153675079346,
	"eval_precision": 0.5025840266832826,
	"eval_recall": 0.4000116689518364,
	"eval_runtime": 70.9398,
	"eval_samples_per_second": 122.653,
	"eval_steps_per_second": 7.668,
	"step": 6525
	},
	{
	"epoch": 3.22,
	"grad_norm": 3.646019458770752,
	"learning_rate": 4.7192614329611715e-05,
	"loss": 0.3553,
	"step": 7000
	},
	{
	"epoch": 3.45,
	"grad_norm": 3.0514578819274902,
	"learning_rate": 4.606455184041622e-05,
	"loss": 0.331,
	"step": 7500
	},
	{
	"epoch": 3.68,
	"grad_norm": 3.9326324462890625,
	"learning_rate": 4.4764936273463734e-05,
	"loss": 0.3217,
	"step": 8000
	},
	{
	"epoch": 3.91,
	"grad_norm": 4.370193958282471,
	"learning_rate": 4.3304351905699714e-05,
	"loss": 0.3176,
	"step": 8500
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.8849798379121097,
	"eval_f1": 0.5237382906107038,
	"eval_loss": 0.3116133511066437,
	"eval_precision": 0.5214888940305414,
	"eval_recall": 0.5260071764053794,
	"eval_runtime": 71.2115,
	"eval_samples_per_second": 122.185,
	"eval_steps_per_second": 7.639,
	"step": 8700
	},
	{
	"epoch": 4.14,
	"grad_norm": 3.159623146057129,
	"learning_rate": 4.169469396971739e-05,
	"loss": 0.2854,
	"step": 9000
	},
	{
	"epoch": 4.37,
	"grad_norm": 2.860635757446289,
	"learning_rate": 3.994907177708181e-05,
	"loss": 0.272,
	"step": 9500
	},
	{
	"epoch": 4.6,
	"grad_norm": 3.7297463417053223,
	"learning_rate": 3.808170195400064e-05,
	"loss": 0.2613,
	"step": 10000
	},
	{
	"epoch": 4.83,
	"grad_norm": 2.5407516956329346,
	"learning_rate": 3.6107792658847595e-05,
	"loss": 0.2517,
	"step": 10500
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9037705346052107,
	"eval_f1": 0.5800842276864557,
	"eval_loss": 0.2615918517112732,
	"eval_precision": 0.6010322177040975,
	"eval_recall": 0.5605472738411272,
	"eval_runtime": 70.3111,
	"eval_samples_per_second": 123.75,
	"eval_steps_per_second": 7.737,
	"step": 10875
	},
	{
	"epoch": 5.06,
	"grad_norm": 3.3271915912628174,
	"learning_rate": 3.404341972448928e-05,
	"loss": 0.247,
	"step": 11000
	},
	{
	"epoch": 5.29,
	"grad_norm": 1.9302195310592651,
	"learning_rate": 3.1905395734132326e-05,
	"loss": 0.2211,
	"step": 11500
	},
	{
	"epoch": 5.52,
	"grad_norm": 1.3263697624206543,
	"learning_rate": 2.9711133096957962e-05,
	"loss": 0.2132,
	"step": 12000
	},
	{
	"epoch": 5.75,
	"grad_norm": 2.6910924911499023,
	"learning_rate": 2.7478502238677862e-05,
	"loss": 0.2143,
	"step": 12500
	},
	{
	"epoch": 5.98,
	"grad_norm": 4.239352703094482,
	"learning_rate": 2.5225686061930326e-05,
	"loss": 0.2085,
	"step": 13000
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9127478723656762,
	"eval_f1": 0.6213380291938935,
	"eval_loss": 0.23839746415615082,
	"eval_precision": 0.6199395945867456,
	"eval_recall": 0.6227427871291461,
	"eval_runtime": 70.8696,
	"eval_samples_per_second": 122.775,
	"eval_steps_per_second": 7.676,
	"step": 13050
	},
	{
	"epoch": 6.21,
	"grad_norm": 2.263456106185913,
	"learning_rate": 2.2971031861814223e-05,
	"loss": 0.1895,
	"step": 13500
	},
	{
	"epoch": 6.44,
	"grad_norm": 3.127639055252075,
	"learning_rate": 2.073290190258459e-05,
	"loss": 0.1891,
	"step": 14000
	},
	{
	"epoch": 6.67,
	"grad_norm": 6.135817527770996,
	"learning_rate": 1.852952387243698e-05,
	"loss": 0.1729,
	"step": 14500
	},
	{
	"epoch": 6.9,
	"grad_norm": 2.980323076248169,
	"learning_rate": 1.6378842434300746e-05,
	"loss": 0.1752,
	"step": 15000
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9185261764294775,
	"eval_f1": 0.6522748506554175,
	"eval_loss": 0.22249895334243774,
	"eval_precision": 0.633583587712785,
	"eval_recall": 0.6721024533971236,
	"eval_runtime": 71.7327,
	"eval_samples_per_second": 121.298,
	"eval_steps_per_second": 7.584,
	"step": 15225
	},
	{
	"epoch": 7.13,
	"grad_norm": 3.3994078636169434,
	"learning_rate": 1.4298373081635322e-05,
	"loss": 0.1721,
	"step": 15500
	},
	{
	"epoch": 7.36,
	"grad_norm": 2.7240686416625977,
	"learning_rate": 1.2305059489451364e-05,
	"loss": 0.1549,
	"step": 16000
	},
	{
	"epoch": 7.59,
	"grad_norm": 2.529590606689453,
	"learning_rate": 1.041513552231265e-05,
	"loss": 0.1577,
	"step": 16500
	},
	{
	"epoch": 7.82,
	"grad_norm": 2.3119211196899414,
	"learning_rate": 8.643993023147797e-06,
	"loss": 0.1513,
	"step": 17000
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.92717385284445,
	"eval_f1": 0.6904867478151416,
	"eval_loss": 0.20956499874591827,
	"eval_precision": 0.6773587023629118,
	"eval_recall": 0.7041337261880452,
	"eval_runtime": 69.3099,
	"eval_samples_per_second": 125.538,
	"eval_steps_per_second": 7.849,
	"step": 17400
	},
	{
	"epoch": 8.05,
	"grad_norm": 1.2401313781738281,
	"learning_rate": 7.00605645962078e-06,
	"loss": 0.1493,
	"step": 17500
	},
	{
	"epoch": 8.28,
	"grad_norm": 4.699456691741943,
	"learning_rate": 5.51466544896021e-06,
	"loss": 0.1456,
	"step": 18000
	},
	{
	"epoch": 8.51,
	"grad_norm": 1.5753775835037231,
	"learning_rate": 4.181966117984099e-06,
	"loss": 0.1389,
	"step": 18500
	},
	{
	"epoch": 8.74,
	"grad_norm": 0.9824960231781006,
	"learning_rate": 3.0188121831012023e-06,
	"loss": 0.1399,
	"step": 19000
	},
	{
	"epoch": 8.97,
	"grad_norm": 1.2070369720458984,
	"learning_rate": 2.0346765559094567e-06,
	"loss": 0.1365,
	"step": 19500
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9298507029698532,
	"eval_f1": 0.7024456131275685,
	"eval_loss": 0.20172493159770966,
	"eval_precision": 0.6921421492283732,
	"eval_recall": 0.7130604743428921,
	"eval_runtime": 71.3537,
	"eval_samples_per_second": 121.942,
	"eval_steps_per_second": 7.624,
	"step": 19575
	},
	{
	"epoch": 9.2,
	"grad_norm": 2.9319190979003906,
	"learning_rate": 1.2375741942894869e-06,
	"loss": 0.1354,
	"step": 20000
	},
	{
	"epoch": 9.43,
	"grad_norm": 2.670553684234619,
	"learning_rate": 6.339968273062741e-07,
	"loss": 0.1298,
	"step": 20500
	},
	{
	"epoch": 9.66,
	"grad_norm": 1.6918872594833374,
	"learning_rate": 2.288600855298306e-07,
	"loss": 0.1291,
	"step": 21000
	},
	{
	"epoch": 9.89,
	"grad_norm": 1.8715825080871582,
	"learning_rate": 2.546346735399219e-08,
	"loss": 0.1314,
	"step": 21500
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9306313410359806,
	"eval_f1": 0.7046287809349221,
	"eval_loss": 0.20017504692077637,
	"eval_precision": 0.6920804613869742,
	"eval_recall": 0.7176405379386797,
	"eval_runtime": 70.9745,
	"eval_samples_per_second": 122.593,
	"eval_steps_per_second": 7.665,
	"step": 21750
	},
	{
	"epoch": 10.0,
	"step": 21750,
	"total_flos": 3852992789501856.0,
	"train_loss": 0.4320273476085444,
	"train_runtime": 4787.7797,
	"train_samples_per_second": 72.685,
	"train_steps_per_second": 4.543
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9306313410359806,
	"eval_f1": 0.7046287809349221,
	"eval_loss": 0.20017504692077637,
	"eval_precision": 0.6920804613869742,
	"eval_recall": 0.7176405379386797,
	"eval_runtime": 71.7164,
	"eval_samples_per_second": 121.325,
	"eval_steps_per_second": 7.585,
	"step": 21750
	}
	],
	"logging_steps": 500,
	"max_steps": 21750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 3852992789501856.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}