sentiment-pt-pl10-0 / trainer_state.json

End of training

bd83858 verified 5 months ago

No virus

11 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 20.0,
	"eval_steps": 500,
	"global_step": 2440,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 4.232791900634766,
	"learning_rate": 4.75e-05,
	"loss": 0.5568,
	"step": 122
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7243107769423559,
	"eval_f1": 0.6144317942230656,
	"eval_loss": 0.48217353224754333,
	"eval_precision": 0.65566534914361,
	"eval_recall": 0.6074286233860702,
	"eval_runtime": 1.8124,
	"eval_samples_per_second": 220.155,
	"eval_steps_per_second": 27.588,
	"step": 122
	},
	{
	"epoch": 2.0,
	"grad_norm": 3.6621267795562744,
	"learning_rate": 4.5e-05,
	"loss": 0.4661,
	"step": 244
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.7543859649122807,
	"eval_f1": 0.7304054054054054,
	"eval_loss": 0.44529902935028076,
	"eval_precision": 0.7240563585317666,
	"eval_recall": 0.7612293144208038,
	"eval_runtime": 1.7908,
	"eval_samples_per_second": 222.81,
	"eval_steps_per_second": 27.921,
	"step": 244
	},
	{
	"epoch": 3.0,
	"grad_norm": 3.223342180252075,
	"learning_rate": 4.25e-05,
	"loss": 0.3875,
	"step": 366
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8621553884711779,
	"eval_f1": 0.8238834717707957,
	"eval_loss": 0.3446956276893616,
	"eval_precision": 0.8487520627062706,
	"eval_recall": 0.8074649936352064,
	"eval_runtime": 1.7891,
	"eval_samples_per_second": 223.02,
	"eval_steps_per_second": 27.947,
	"step": 366
	},
	{
	"epoch": 4.0,
	"grad_norm": 3.7967684268951416,
	"learning_rate": 4e-05,
	"loss": 0.318,
	"step": 488
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.849624060150376,
	"eval_f1": 0.8267427049559981,
	"eval_loss": 0.34423500299453735,
	"eval_precision": 0.8158466596088483,
	"eval_recall": 0.8436079287143117,
	"eval_runtime": 1.786,
	"eval_samples_per_second": 223.404,
	"eval_steps_per_second": 27.996,
	"step": 488
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.4756224453449249,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.2855,
	"step": 610
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.849624060150376,
	"eval_f1": 0.826007326007326,
	"eval_loss": 0.3348763883113861,
	"eval_precision": 0.8157828282828283,
	"eval_recall": 0.8411074740861975,
	"eval_runtime": 1.7834,
	"eval_samples_per_second": 223.733,
	"eval_steps_per_second": 28.037,
	"step": 610
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.1933702230453491,
	"learning_rate": 3.5e-05,
	"loss": 0.2638,
	"step": 732
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.8370927318295739,
	"eval_f1": 0.8177454831659652,
	"eval_loss": 0.35479673743247986,
	"eval_precision": 0.805161943319838,
	"eval_recall": 0.8472449536279323,
	"eval_runtime": 1.7837,
	"eval_samples_per_second": 223.688,
	"eval_steps_per_second": 28.031,
	"step": 732
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.3131154775619507,
	"learning_rate": 3.2500000000000004e-05,
	"loss": 0.2397,
	"step": 854
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.8646616541353384,
	"eval_f1": 0.8434065934065934,
	"eval_loss": 0.3253527581691742,
	"eval_precision": 0.8325757575757575,
	"eval_recall": 0.8592471358428806,
	"eval_runtime": 1.7938,
	"eval_samples_per_second": 222.438,
	"eval_steps_per_second": 27.874,
	"step": 854
	},
	{
	"epoch": 8.0,
	"grad_norm": 5.750446319580078,
	"learning_rate": 3e-05,
	"loss": 0.2428,
	"step": 976
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.8922305764411027,
	"eval_f1": 0.8654532336864889,
	"eval_loss": 0.2798740565776825,
	"eval_precision": 0.8804269882659713,
	"eval_recall": 0.8537461356610292,
	"eval_runtime": 1.7849,
	"eval_samples_per_second": 223.546,
	"eval_steps_per_second": 28.013,
	"step": 976
	},
	{
	"epoch": 9.0,
	"grad_norm": 5.672217845916748,
	"learning_rate": 2.7500000000000004e-05,
	"loss": 0.2229,
	"step": 1098
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.8721804511278195,
	"eval_f1": 0.8484099018899409,
	"eval_loss": 0.29030779004096985,
	"eval_precision": 0.8430645161290322,
	"eval_recall": 0.8545644662665939,
	"eval_runtime": 1.7837,
	"eval_samples_per_second": 223.689,
	"eval_steps_per_second": 28.031,
	"step": 1098
	},
	{
	"epoch": 10.0,
	"grad_norm": 2.1360011100769043,
	"learning_rate": 2.5e-05,
	"loss": 0.2144,
	"step": 1220
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.8972431077694235,
	"eval_f1": 0.8769602202215754,
	"eval_loss": 0.2583388686180115,
	"eval_precision": 0.8742831541218639,
	"eval_recall": 0.8797963266048372,
	"eval_runtime": 1.7944,
	"eval_samples_per_second": 222.362,
	"eval_steps_per_second": 27.865,
	"step": 1220
	},
	{
	"epoch": 11.0,
	"grad_norm": 4.677872657775879,
	"learning_rate": 2.25e-05,
	"loss": 0.1967,
	"step": 1342
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.8822055137844611,
	"eval_f1": 0.8622085718274466,
	"eval_loss": 0.27431806921958923,
	"eval_precision": 0.8530168716042322,
	"eval_recall": 0.8741589379887251,
	"eval_runtime": 1.7823,
	"eval_samples_per_second": 223.874,
	"eval_steps_per_second": 28.054,
	"step": 1342
	},
	{
	"epoch": 12.0,
	"grad_norm": 2.564518451690674,
	"learning_rate": 2e-05,
	"loss": 0.1855,
	"step": 1464
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.8771929824561403,
	"eval_f1": 0.8563451067988272,
	"eval_loss": 0.29132312536239624,
	"eval_precision": 0.8473119816985988,
	"eval_recall": 0.8681123840698308,
	"eval_runtime": 1.7831,
	"eval_samples_per_second": 223.773,
	"eval_steps_per_second": 28.042,
	"step": 1464
	},
	{
	"epoch": 13.0,
	"grad_norm": 2.314499855041504,
	"learning_rate": 1.75e-05,
	"loss": 0.1761,
	"step": 1586
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9022556390977443,
	"eval_f1": 0.8786430103333984,
	"eval_loss": 0.26596176624298096,
	"eval_precision": 0.8913001481099878,
	"eval_recall": 0.8683396981269322,
	"eval_runtime": 1.7906,
	"eval_samples_per_second": 222.829,
	"eval_steps_per_second": 27.923,
	"step": 1586
	},
	{
	"epoch": 14.0,
	"grad_norm": 7.584296226501465,
	"learning_rate": 1.5e-05,
	"loss": 0.1733,
	"step": 1708
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.8822055137844611,
	"eval_f1": 0.8622085718274466,
	"eval_loss": 0.28683483600616455,
	"eval_precision": 0.8530168716042322,
	"eval_recall": 0.8741589379887251,
	"eval_runtime": 1.7857,
	"eval_samples_per_second": 223.438,
	"eval_steps_per_second": 28.0,
	"step": 1708
	},
	{
	"epoch": 15.0,
	"grad_norm": 1.435178518295288,
	"learning_rate": 1.25e-05,
	"loss": 0.1582,
	"step": 1830
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.8847117794486216,
	"eval_f1": 0.8648373983739837,
	"eval_loss": 0.28010857105255127,
	"eval_precision": 0.8561154177433248,
	"eval_recall": 0.8759319876341153,
	"eval_runtime": 1.788,
	"eval_samples_per_second": 223.159,
	"eval_steps_per_second": 27.965,
	"step": 1830
	},
	{
	"epoch": 16.0,
	"grad_norm": 1.7755215167999268,
	"learning_rate": 1e-05,
	"loss": 0.1537,
	"step": 1952
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.87468671679198,
	"eval_f1": 0.8550061050061051,
	"eval_loss": 0.30731528997421265,
	"eval_precision": 0.8437710437710437,
	"eval_recall": 0.8713402436806692,
	"eval_runtime": 1.7883,
	"eval_samples_per_second": 223.118,
	"eval_steps_per_second": 27.96,
	"step": 1952
	},
	{
	"epoch": 17.0,
	"grad_norm": 3.1951849460601807,
	"learning_rate": 7.5e-06,
	"loss": 0.1537,
	"step": 2074
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.8972431077694235,
	"eval_f1": 0.8781334505389722,
	"eval_loss": 0.2702249586582184,
	"eval_precision": 0.872316715542522,
	"eval_recall": 0.8847972358610656,
	"eval_runtime": 1.7845,
	"eval_samples_per_second": 223.597,
	"eval_steps_per_second": 28.02,
	"step": 2074
	},
	{
	"epoch": 18.0,
	"grad_norm": 3.639573097229004,
	"learning_rate": 5e-06,
	"loss": 0.1461,
	"step": 2196
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.8947368421052632,
	"eval_f1": 0.8760282890453928,
	"eval_loss": 0.29228049516677856,
	"eval_precision": 0.8682260305697083,
	"eval_recall": 0.8855246408437898,
	"eval_runtime": 1.8077,
	"eval_samples_per_second": 220.726,
	"eval_steps_per_second": 27.66,
	"step": 2196
	},
	{
	"epoch": 19.0,
	"grad_norm": 3.177137613296509,
	"learning_rate": 2.5e-06,
	"loss": 0.1449,
	"step": 2318
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.8947368421052632,
	"eval_f1": 0.8754533563232059,
	"eval_loss": 0.27906104922294617,
	"eval_precision": 0.8689781021897811,
	"eval_recall": 0.8830241862156756,
	"eval_runtime": 1.7931,
	"eval_samples_per_second": 222.52,
	"eval_steps_per_second": 27.885,
	"step": 2318
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.6333515048027039,
	"learning_rate": 0.0,
	"loss": 0.1502,
	"step": 2440
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.8972431077694235,
	"eval_f1": 0.8781334505389722,
	"eval_loss": 0.2797949016094208,
	"eval_precision": 0.872316715542522,
	"eval_recall": 0.8847972358610656,
	"eval_runtime": 1.7912,
	"eval_samples_per_second": 222.75,
	"eval_steps_per_second": 27.914,
	"step": 2440
	},
	{
	"epoch": 20.0,
	"step": 2440,
	"total_flos": 8444128359504000.0,
	"train_loss": 0.24180538537072355,
	"train_runtime": 620.8783,
	"train_samples_per_second": 117.189,
	"train_steps_per_second": 3.93
	}
	],
	"logging_steps": 500,
	"max_steps": 2440,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"total_flos": 8444128359504000.0,
	"train_batch_size": 30,
	"trial_name": null,
	"trial_params": null
	}