autotrain-6doma-5m8vf / checkpoint-1107 /trainer_state.json

Upload folder using huggingface_hub

aac3138 verified 6 months ago

10.1 kB

	{
	"best_metric": 0.18285594880580902,
	"best_model_checkpoint": "autotrain-6doma-5m8vf/checkpoint-1107",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 1107,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.06775067750677506,
	"grad_norm": 16.566085815429688,
	"learning_rate": 9.90990990990991e-06,
	"loss": 1.5667,
	"step": 25
	},
	{
	"epoch": 0.13550135501355012,
	"grad_norm": 25.27834129333496,
	"learning_rate": 2.117117117117117e-05,
	"loss": 1.2958,
	"step": 50
	},
	{
	"epoch": 0.2032520325203252,
	"grad_norm": 14.882951736450195,
	"learning_rate": 3.2432432432432436e-05,
	"loss": 1.0021,
	"step": 75
	},
	{
	"epoch": 0.27100271002710025,
	"grad_norm": 12.05569839477539,
	"learning_rate": 4.369369369369369e-05,
	"loss": 0.7635,
	"step": 100
	},
	{
	"epoch": 0.33875338753387535,
	"grad_norm": 15.701233863830566,
	"learning_rate": 4.944779116465864e-05,
	"loss": 0.572,
	"step": 125
	},
	{
	"epoch": 0.4065040650406504,
	"grad_norm": 45.54197692871094,
	"learning_rate": 4.8242971887550205e-05,
	"loss": 0.4778,
	"step": 150
	},
	{
	"epoch": 0.4742547425474255,
	"grad_norm": 20.10284996032715,
	"learning_rate": 4.698795180722892e-05,
	"loss": 0.4213,
	"step": 175
	},
	{
	"epoch": 0.5420054200542005,
	"grad_norm": 52.795291900634766,
	"learning_rate": 4.573293172690764e-05,
	"loss": 0.4171,
	"step": 200
	},
	{
	"epoch": 0.6097560975609756,
	"grad_norm": 32.24135208129883,
	"learning_rate": 4.447791164658635e-05,
	"loss": 0.4031,
	"step": 225
	},
	{
	"epoch": 0.6775067750677507,
	"grad_norm": 48.17521286010742,
	"learning_rate": 4.3222891566265064e-05,
	"loss": 0.3206,
	"step": 250
	},
	{
	"epoch": 0.7452574525745257,
	"grad_norm": 27.5257511138916,
	"learning_rate": 4.196787148594378e-05,
	"loss": 0.3616,
	"step": 275
	},
	{
	"epoch": 0.8130081300813008,
	"grad_norm": 15.912370681762695,
	"learning_rate": 4.071285140562249e-05,
	"loss": 0.508,
	"step": 300
	},
	{
	"epoch": 0.8807588075880759,
	"grad_norm": 12.763589859008789,
	"learning_rate": 3.9508032128514064e-05,
	"loss": 0.3685,
	"step": 325
	},
	{
	"epoch": 0.948509485094851,
	"grad_norm": 20.36044692993164,
	"learning_rate": 3.8253012048192774e-05,
	"loss": 0.393,
	"step": 350
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.9189005768578216,
	"eval_f1_macro": 0.8913236764060113,
	"eval_f1_micro": 0.9189005768578216,
	"eval_f1_weighted": 0.9195807716070247,
	"eval_loss": 0.2322985827922821,
	"eval_precision_macro": 0.8992556342366311,
	"eval_precision_micro": 0.9189005768578216,
	"eval_precision_weighted": 0.9235420876186199,
	"eval_recall_macro": 0.8887207219589304,
	"eval_recall_micro": 0.9189005768578216,
	"eval_recall_weighted": 0.9189005768578216,
	"eval_runtime": 19.8492,
	"eval_samples_per_second": 148.469,
	"eval_steps_per_second": 9.32,
	"step": 369
	},
	{
	"epoch": 1.016260162601626,
	"grad_norm": 14.446638107299805,
	"learning_rate": 3.699799196787149e-05,
	"loss": 0.2934,
	"step": 375
	},
	{
	"epoch": 1.084010840108401,
	"grad_norm": 29.589651107788086,
	"learning_rate": 3.57429718875502e-05,
	"loss": 0.3801,
	"step": 400
	},
	{
	"epoch": 1.151761517615176,
	"grad_norm": 23.76276397705078,
	"learning_rate": 3.4487951807228916e-05,
	"loss": 0.2276,
	"step": 425
	},
	{
	"epoch": 1.2195121951219512,
	"grad_norm": 33.06072998046875,
	"learning_rate": 3.323293172690763e-05,
	"loss": 0.2623,
	"step": 450
	},
	{
	"epoch": 1.2872628726287263,
	"grad_norm": 31.562694549560547,
	"learning_rate": 3.197791164658634e-05,
	"loss": 0.3324,
	"step": 475
	},
	{
	"epoch": 1.3550135501355014,
	"grad_norm": 25.050046920776367,
	"learning_rate": 3.072289156626506e-05,
	"loss": 0.3613,
	"step": 500
	},
	{
	"epoch": 1.4227642276422765,
	"grad_norm": 5.65738582611084,
	"learning_rate": 2.9467871485943778e-05,
	"loss": 0.3689,
	"step": 525
	},
	{
	"epoch": 1.4905149051490514,
	"grad_norm": 30.50360870361328,
	"learning_rate": 2.821285140562249e-05,
	"loss": 0.2128,
	"step": 550
	},
	{
	"epoch": 1.5582655826558267,
	"grad_norm": 31.306838989257812,
	"learning_rate": 2.6957831325301207e-05,
	"loss": 0.3329,
	"step": 575
	},
	{
	"epoch": 1.6260162601626016,
	"grad_norm": 5.569540023803711,
	"learning_rate": 2.570281124497992e-05,
	"loss": 0.3934,
	"step": 600
	},
	{
	"epoch": 1.6937669376693767,
	"grad_norm": 79.83793640136719,
	"learning_rate": 2.4447791164658633e-05,
	"loss": 0.3329,
	"step": 625
	},
	{
	"epoch": 1.7615176151761518,
	"grad_norm": 11.711432456970215,
	"learning_rate": 2.319277108433735e-05,
	"loss": 0.3065,
	"step": 650
	},
	{
	"epoch": 1.8292682926829267,
	"grad_norm": 27.71021842956543,
	"learning_rate": 2.1937751004016066e-05,
	"loss": 0.3361,
	"step": 675
	},
	{
	"epoch": 1.897018970189702,
	"grad_norm": 24.346481323242188,
	"learning_rate": 2.068273092369478e-05,
	"loss": 0.3967,
	"step": 700
	},
	{
	"epoch": 1.9647696476964769,
	"grad_norm": 7.5306549072265625,
	"learning_rate": 1.9427710843373495e-05,
	"loss": 0.3304,
	"step": 725
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9284017645062775,
	"eval_f1_macro": 0.903605865288441,
	"eval_f1_micro": 0.9284017645062775,
	"eval_f1_weighted": 0.9277100982185731,
	"eval_loss": 0.2046061009168625,
	"eval_precision_macro": 0.9095877174004062,
	"eval_precision_micro": 0.9284017645062775,
	"eval_precision_weighted": 0.9281331331487362,
	"eval_recall_macro": 0.8989112570392443,
	"eval_recall_micro": 0.9284017645062775,
	"eval_recall_weighted": 0.9284017645062775,
	"eval_runtime": 19.9432,
	"eval_samples_per_second": 147.769,
	"eval_steps_per_second": 9.276,
	"step": 738
	},
	{
	"epoch": 2.032520325203252,
	"grad_norm": 28.1395206451416,
	"learning_rate": 1.822289156626506e-05,
	"loss": 0.332,
	"step": 750
	},
	{
	"epoch": 2.100271002710027,
	"grad_norm": 7.682183265686035,
	"learning_rate": 1.6967871485943776e-05,
	"loss": 0.2995,
	"step": 775
	},
	{
	"epoch": 2.168021680216802,
	"grad_norm": 23.640390396118164,
	"learning_rate": 1.5712851405622492e-05,
	"loss": 0.3089,
	"step": 800
	},
	{
	"epoch": 2.2357723577235773,
	"grad_norm": 3.6244945526123047,
	"learning_rate": 1.4457831325301205e-05,
	"loss": 0.2557,
	"step": 825
	},
	{
	"epoch": 2.303523035230352,
	"grad_norm": 109.68293762207031,
	"learning_rate": 1.3202811244979921e-05,
	"loss": 0.3734,
	"step": 850
	},
	{
	"epoch": 2.3712737127371275,
	"grad_norm": 28.19609832763672,
	"learning_rate": 1.1947791164658636e-05,
	"loss": 0.3144,
	"step": 875
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 17.588850021362305,
	"learning_rate": 1.069277108433735e-05,
	"loss": 0.4061,
	"step": 900
	},
	{
	"epoch": 2.5067750677506773,
	"grad_norm": 21.384654998779297,
	"learning_rate": 9.437751004016063e-06,
	"loss": 0.2626,
	"step": 925
	},
	{
	"epoch": 2.5745257452574526,
	"grad_norm": 0.35269397497177124,
	"learning_rate": 8.18273092369478e-06,
	"loss": 0.2822,
	"step": 950
	},
	{
	"epoch": 2.642276422764228,
	"grad_norm": 21.37306785583496,
	"learning_rate": 6.927710843373494e-06,
	"loss": 0.4436,
	"step": 975
	},
	{
	"epoch": 2.710027100271003,
	"grad_norm": 17.97796630859375,
	"learning_rate": 5.672690763052209e-06,
	"loss": 0.2517,
	"step": 1000
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 9.19117259979248,
	"learning_rate": 4.417670682730924e-06,
	"loss": 0.2395,
	"step": 1025
	},
	{
	"epoch": 2.845528455284553,
	"grad_norm": 64.22978210449219,
	"learning_rate": 3.1626506024096387e-06,
	"loss": 0.3387,
	"step": 1050
	},
	{
	"epoch": 2.913279132791328,
	"grad_norm": 1.4875394105911255,
	"learning_rate": 1.9076305220883537e-06,
	"loss": 0.2559,
	"step": 1075
	},
	{
	"epoch": 2.9810298102981028,
	"grad_norm": 0.5281310677528381,
	"learning_rate": 6.526104417670682e-07,
	"loss": 0.3605,
	"step": 1100
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9365456396335257,
	"eval_f1_macro": 0.9148614413559308,
	"eval_f1_micro": 0.9365456396335257,
	"eval_f1_weighted": 0.9364564915178187,
	"eval_loss": 0.18285594880580902,
	"eval_precision_macro": 0.9159613318061458,
	"eval_precision_micro": 0.9365456396335257,
	"eval_precision_weighted": 0.9365041505044936,
	"eval_recall_macro": 0.9139276800740521,
	"eval_recall_micro": 0.9365456396335257,
	"eval_recall_weighted": 0.9365456396335257,
	"eval_runtime": 19.7723,
	"eval_samples_per_second": 149.047,
	"eval_steps_per_second": 9.357,
	"step": 1107
	}
	],
	"logging_steps": 25,
	"max_steps": 1107,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 2.225421168402862e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}