End of training

dca9d48 verified about 2 months ago

No virus

11.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 19.946666666666665,
	"eval_steps": 500,
	"global_step": 3740,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.2082328200340271,
	"learning_rate": 0.0003,
	"loss": 1.7516,
	"step": 100
	},
	{
	"epoch": 0.9973333333333333,
	"eval_accuracy": 0.608609865470852,
	"eval_loss": 1.6714181900024414,
	"eval_runtime": 6.6041,
	"eval_samples_per_second": 75.71,
	"eval_steps_per_second": 9.54,
	"step": 187
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.2450818121433258,
	"learning_rate": 0.0003,
	"loss": 1.6997,
	"step": 200
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.36302751302719116,
	"learning_rate": 0.0003,
	"loss": 1.5219,
	"step": 300
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.6104035874439462,
	"eval_loss": 1.6736148595809937,
	"eval_runtime": 7.0545,
	"eval_samples_per_second": 70.877,
	"eval_steps_per_second": 8.93,
	"step": 375
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 0.4031146764755249,
	"learning_rate": 0.0003,
	"loss": 1.4473,
	"step": 400
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.4989413917064667,
	"learning_rate": 0.0003,
	"loss": 1.2037,
	"step": 500
	},
	{
	"epoch": 2.997333333333333,
	"eval_accuracy": 0.6081076233183856,
	"eval_loss": 1.756110429763794,
	"eval_runtime": 6.5632,
	"eval_samples_per_second": 76.183,
	"eval_steps_per_second": 9.599,
	"step": 562
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.5431676506996155,
	"learning_rate": 0.0003,
	"loss": 1.0868,
	"step": 600
	},
	{
	"epoch": 3.7333333333333334,
	"grad_norm": 0.5269047021865845,
	"learning_rate": 0.0003,
	"loss": 0.8815,
	"step": 700
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.6032645739910314,
	"eval_loss": 1.8874716758728027,
	"eval_runtime": 6.1584,
	"eval_samples_per_second": 81.19,
	"eval_steps_per_second": 10.23,
	"step": 750
	},
	{
	"epoch": 4.266666666666667,
	"grad_norm": 0.681224524974823,
	"learning_rate": 0.0003,
	"loss": 0.7337,
	"step": 800
	},
	{
	"epoch": 4.8,
	"grad_norm": 0.7092007994651794,
	"learning_rate": 0.0003,
	"loss": 0.6016,
	"step": 900
	},
	{
	"epoch": 4.997333333333334,
	"eval_accuracy": 0.5979730941704036,
	"eval_loss": 2.076803684234619,
	"eval_runtime": 6.7069,
	"eval_samples_per_second": 74.55,
	"eval_steps_per_second": 9.393,
	"step": 937
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 0.6530160903930664,
	"learning_rate": 0.0003,
	"loss": 0.4625,
	"step": 1000
	},
	{
	"epoch": 5.866666666666667,
	"grad_norm": 0.7848784923553467,
	"learning_rate": 0.0003,
	"loss": 0.3979,
	"step": 1100
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.5953094170403588,
	"eval_loss": 2.260585069656372,
	"eval_runtime": 7.0817,
	"eval_samples_per_second": 70.605,
	"eval_steps_per_second": 8.896,
	"step": 1125
	},
	{
	"epoch": 6.4,
	"grad_norm": 0.8100391030311584,
	"learning_rate": 0.0003,
	"loss": 0.2797,
	"step": 1200
	},
	{
	"epoch": 6.933333333333334,
	"grad_norm": 0.723619282245636,
	"learning_rate": 0.0003,
	"loss": 0.2591,
	"step": 1300
	},
	{
	"epoch": 6.997333333333334,
	"eval_accuracy": 0.5932645739910314,
	"eval_loss": 2.4669973850250244,
	"eval_runtime": 7.1955,
	"eval_samples_per_second": 69.488,
	"eval_steps_per_second": 8.755,
	"step": 1312
	},
	{
	"epoch": 7.466666666666667,
	"grad_norm": 0.6629557013511658,
	"learning_rate": 0.0003,
	"loss": 0.1822,
	"step": 1400
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.6765617728233337,
	"learning_rate": 0.0003,
	"loss": 0.1821,
	"step": 1500
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.592152466367713,
	"eval_loss": 2.6145341396331787,
	"eval_runtime": 7.0099,
	"eval_samples_per_second": 71.327,
	"eval_steps_per_second": 8.987,
	"step": 1500
	},
	{
	"epoch": 8.533333333333333,
	"grad_norm": 0.5296387672424316,
	"learning_rate": 0.0003,
	"loss": 0.1338,
	"step": 1600
	},
	{
	"epoch": 8.997333333333334,
	"eval_accuracy": 0.5910582959641255,
	"eval_loss": 2.739866256713867,
	"eval_runtime": 7.1202,
	"eval_samples_per_second": 70.223,
	"eval_steps_per_second": 8.848,
	"step": 1687
	},
	{
	"epoch": 9.066666666666666,
	"grad_norm": 0.402245432138443,
	"learning_rate": 0.0003,
	"loss": 0.1407,
	"step": 1700
	},
	{
	"epoch": 9.6,
	"grad_norm": 0.44858765602111816,
	"learning_rate": 0.0003,
	"loss": 0.1172,
	"step": 1800
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.5914618834080717,
	"eval_loss": 2.833005666732788,
	"eval_runtime": 7.0274,
	"eval_samples_per_second": 71.15,
	"eval_steps_per_second": 8.965,
	"step": 1875
	},
	{
	"epoch": 10.133333333333333,
	"grad_norm": 0.4508216381072998,
	"learning_rate": 0.0003,
	"loss": 0.1195,
	"step": 1900
	},
	{
	"epoch": 10.666666666666666,
	"grad_norm": 0.37036266922950745,
	"learning_rate": 0.0003,
	"loss": 0.1102,
	"step": 2000
	},
	{
	"epoch": 10.997333333333334,
	"eval_accuracy": 0.5914349775784753,
	"eval_loss": 2.8673934936523438,
	"eval_runtime": 6.5903,
	"eval_samples_per_second": 75.869,
	"eval_steps_per_second": 9.56,
	"step": 2062
	},
	{
	"epoch": 11.2,
	"grad_norm": 0.3041936457157135,
	"learning_rate": 0.0003,
	"loss": 0.1131,
	"step": 2100
	},
	{
	"epoch": 11.733333333333333,
	"grad_norm": 0.5073165893554688,
	"learning_rate": 0.0003,
	"loss": 0.1079,
	"step": 2200
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.5903497757847533,
	"eval_loss": 2.894710063934326,
	"eval_runtime": 7.0771,
	"eval_samples_per_second": 70.65,
	"eval_steps_per_second": 8.902,
	"step": 2250
	},
	{
	"epoch": 12.266666666666667,
	"grad_norm": 0.4313170909881592,
	"learning_rate": 0.0003,
	"loss": 0.1083,
	"step": 2300
	},
	{
	"epoch": 12.8,
	"grad_norm": 0.4307994544506073,
	"learning_rate": 0.0003,
	"loss": 0.11,
	"step": 2400
	},
	{
	"epoch": 12.997333333333334,
	"eval_accuracy": 0.589354260089686,
	"eval_loss": 2.9230430126190186,
	"eval_runtime": 7.1832,
	"eval_samples_per_second": 69.607,
	"eval_steps_per_second": 8.771,
	"step": 2437
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 0.38372334837913513,
	"learning_rate": 0.0003,
	"loss": 0.1082,
	"step": 2500
	},
	{
	"epoch": 13.866666666666667,
	"grad_norm": 0.49263113737106323,
	"learning_rate": 0.0003,
	"loss": 0.1136,
	"step": 2600
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.5888340807174888,
	"eval_loss": 2.9049084186553955,
	"eval_runtime": 6.7163,
	"eval_samples_per_second": 74.446,
	"eval_steps_per_second": 9.38,
	"step": 2625
	},
	{
	"epoch": 14.4,
	"grad_norm": 0.42505690455436707,
	"learning_rate": 0.0003,
	"loss": 0.1086,
	"step": 2700
	},
	{
	"epoch": 14.933333333333334,
	"grad_norm": 0.6179661750793457,
	"learning_rate": 0.0003,
	"loss": 0.1173,
	"step": 2800
	},
	{
	"epoch": 14.997333333333334,
	"eval_accuracy": 0.5882511210762332,
	"eval_loss": 2.8788018226623535,
	"eval_runtime": 6.217,
	"eval_samples_per_second": 80.425,
	"eval_steps_per_second": 10.133,
	"step": 2812
	},
	{
	"epoch": 15.466666666666667,
	"grad_norm": 0.45964017510414124,
	"learning_rate": 0.0003,
	"loss": 0.109,
	"step": 2900
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.5801168084144592,
	"learning_rate": 0.0003,
	"loss": 0.1163,
	"step": 3000
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.589237668161435,
	"eval_loss": 2.9582040309906006,
	"eval_runtime": 7.1226,
	"eval_samples_per_second": 70.199,
	"eval_steps_per_second": 8.845,
	"step": 3000
	},
	{
	"epoch": 16.533333333333335,
	"grad_norm": 0.4587346315383911,
	"learning_rate": 0.0003,
	"loss": 0.1047,
	"step": 3100
	},
	{
	"epoch": 16.997333333333334,
	"eval_accuracy": 0.5885650224215246,
	"eval_loss": 2.9484808444976807,
	"eval_runtime": 6.6834,
	"eval_samples_per_second": 74.812,
	"eval_steps_per_second": 9.426,
	"step": 3187
	},
	{
	"epoch": 17.066666666666666,
	"grad_norm": 0.4009888470172882,
	"learning_rate": 0.0003,
	"loss": 0.1145,
	"step": 3200
	},
	{
	"epoch": 17.6,
	"grad_norm": 1.4840149879455566,
	"learning_rate": 0.0003,
	"loss": 0.1044,
	"step": 3300
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.5894080717488789,
	"eval_loss": 2.9815316200256348,
	"eval_runtime": 7.2254,
	"eval_samples_per_second": 69.2,
	"eval_steps_per_second": 8.719,
	"step": 3375
	},
	{
	"epoch": 18.133333333333333,
	"grad_norm": 0.4150511920452118,
	"learning_rate": 0.0003,
	"loss": 0.1111,
	"step": 3400
	},
	{
	"epoch": 18.666666666666668,
	"grad_norm": 0.47382423281669617,
	"learning_rate": 0.0003,
	"loss": 0.105,
	"step": 3500
	},
	{
	"epoch": 18.997333333333334,
	"eval_accuracy": 0.5881076233183856,
	"eval_loss": 2.987971544265747,
	"eval_runtime": 7.3831,
	"eval_samples_per_second": 67.722,
	"eval_steps_per_second": 8.533,
	"step": 3562
	},
	{
	"epoch": 19.2,
	"grad_norm": 0.4355124533176422,
	"learning_rate": 0.0003,
	"loss": 0.1068,
	"step": 3600
	},
	{
	"epoch": 19.733333333333334,
	"grad_norm": 0.43823131918907166,
	"learning_rate": 0.0003,
	"loss": 0.1036,
	"step": 3700
	},
	{
	"epoch": 19.946666666666665,
	"eval_accuracy": 0.5885829596412556,
	"eval_loss": 3.0184407234191895,
	"eval_runtime": 6.2011,
	"eval_samples_per_second": 80.631,
	"eval_steps_per_second": 10.159,
	"step": 3740
	},
	{
	"epoch": 19.946666666666665,
	"step": 3740,
	"total_flos": 3.767212755417825e+17,
	"train_loss": 0.406913380316872,
	"train_runtime": 8744.2637,
	"train_samples_per_second": 13.723,
	"train_steps_per_second": 0.428
	}
	],
	"logging_steps": 100,
	"max_steps": 3740,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"total_flos": 3.767212755417825e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}