Training in progress, step 25, checkpoint

f4eb565 verified 30 days ago

6.5 kB

	{
	"best_metric": 0.6138322353363037,
	"best_model_checkpoint": "miner_id_24/checkpoint-25",
	"epoch": 0.006159152500615915,
	"eval_steps": 5,
	"global_step": 25,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0002463661000246366,
	"grad_norm": 0.5469629764556885,
	"learning_rate": 2e-05,
	"loss": 0.9891,
	"step": 1
	},
	{
	"epoch": 0.0002463661000246366,
	"eval_loss": 0.8779290318489075,
	"eval_runtime": 313.0811,
	"eval_samples_per_second": 5.459,
	"eval_steps_per_second": 2.731,
	"step": 1
	},
	{
	"epoch": 0.0004927322000492732,
	"grad_norm": 0.5583520531654358,
	"learning_rate": 4e-05,
	"loss": 0.5833,
	"step": 2
	},
	{
	"epoch": 0.0007390983000739098,
	"grad_norm": 0.41663986444473267,
	"learning_rate": 6e-05,
	"loss": 0.5106,
	"step": 3
	},
	{
	"epoch": 0.0009854644000985464,
	"grad_norm": 0.4580349028110504,
	"learning_rate": 8e-05,
	"loss": 0.7081,
	"step": 4
	},
	{
	"epoch": 0.001231830500123183,
	"grad_norm": 0.3514888882637024,
	"learning_rate": 0.0001,
	"loss": 0.4564,
	"step": 5
	},
	{
	"epoch": 0.001231830500123183,
	"eval_loss": 0.8547623157501221,
	"eval_runtime": 311.5363,
	"eval_samples_per_second": 5.486,
	"eval_steps_per_second": 2.744,
	"step": 5
	},
	{
	"epoch": 0.0014781966001478197,
	"grad_norm": 0.5555539131164551,
	"learning_rate": 0.00012,
	"loss": 0.6882,
	"step": 6
	},
	{
	"epoch": 0.0017245627001724563,
	"grad_norm": 0.3112781345844269,
	"learning_rate": 0.00014,
	"loss": 0.3356,
	"step": 7
	},
	{
	"epoch": 0.001970928800197093,
	"grad_norm": 0.5190461874008179,
	"learning_rate": 0.00016,
	"loss": 0.6538,
	"step": 8
	},
	{
	"epoch": 0.0022172949002217295,
	"grad_norm": 0.4782675504684448,
	"learning_rate": 0.00018,
	"loss": 1.078,
	"step": 9
	},
	{
	"epoch": 0.002463661000246366,
	"grad_norm": 0.42852485179901123,
	"learning_rate": 0.0002,
	"loss": 0.8526,
	"step": 10
	},
	{
	"epoch": 0.002463661000246366,
	"eval_loss": 0.7292912006378174,
	"eval_runtime": 311.1124,
	"eval_samples_per_second": 5.493,
	"eval_steps_per_second": 2.748,
	"step": 10
	},
	{
	"epoch": 0.0027100271002710027,
	"grad_norm": 0.4965437054634094,
	"learning_rate": 0.00019781476007338058,
	"loss": 0.5197,
	"step": 11
	},
	{
	"epoch": 0.0029563932002956393,
	"grad_norm": 0.6098279356956482,
	"learning_rate": 0.0001913545457642601,
	"loss": 0.5851,
	"step": 12
	},
	{
	"epoch": 0.003202759300320276,
	"grad_norm": 0.5826135873794556,
	"learning_rate": 0.00018090169943749476,
	"loss": 0.643,
	"step": 13
	},
	{
	"epoch": 0.0034491254003449125,
	"grad_norm": 0.4636547565460205,
	"learning_rate": 0.00016691306063588583,
	"loss": 0.4137,
	"step": 14
	},
	{
	"epoch": 0.003695491500369549,
	"grad_norm": 0.6051448583602905,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.3466,
	"step": 15
	},
	{
	"epoch": 0.003695491500369549,
	"eval_loss": 0.6458022594451904,
	"eval_runtime": 311.6704,
	"eval_samples_per_second": 5.483,
	"eval_steps_per_second": 2.743,
	"step": 15
	},
	{
	"epoch": 0.003941857600394186,
	"grad_norm": 0.5250495672225952,
	"learning_rate": 0.00013090169943749476,
	"loss": 0.6101,
	"step": 16
	},
	{
	"epoch": 0.004188223700418822,
	"grad_norm": 0.4610646367073059,
	"learning_rate": 0.00011045284632676536,
	"loss": 0.5967,
	"step": 17
	},
	{
	"epoch": 0.004434589800443459,
	"grad_norm": 0.4124172627925873,
	"learning_rate": 8.954715367323468e-05,
	"loss": 0.5159,
	"step": 18
	},
	{
	"epoch": 0.004680955900468096,
	"grad_norm": 0.3477323651313782,
	"learning_rate": 6.909830056250527e-05,
	"loss": 0.4371,
	"step": 19
	},
	{
	"epoch": 0.004927322000492732,
	"grad_norm": 0.36285078525543213,
	"learning_rate": 5.000000000000002e-05,
	"loss": 0.6104,
	"step": 20
	},
	{
	"epoch": 0.004927322000492732,
	"eval_loss": 0.6183786392211914,
	"eval_runtime": 317.4187,
	"eval_samples_per_second": 5.384,
	"eval_steps_per_second": 2.694,
	"step": 20
	},
	{
	"epoch": 0.005173688100517369,
	"grad_norm": 0.39517274498939514,
	"learning_rate": 3.308693936411421e-05,
	"loss": 0.8512,
	"step": 21
	},
	{
	"epoch": 0.005420054200542005,
	"grad_norm": 0.35510003566741943,
	"learning_rate": 1.9098300562505266e-05,
	"loss": 0.8077,
	"step": 22
	},
	{
	"epoch": 0.005666420300566642,
	"grad_norm": 0.23273567855358124,
	"learning_rate": 8.645454235739903e-06,
	"loss": 0.2846,
	"step": 23
	},
	{
	"epoch": 0.005912786400591279,
	"grad_norm": 0.38091930747032166,
	"learning_rate": 2.1852399266194314e-06,
	"loss": 0.8437,
	"step": 24
	},
	{
	"epoch": 0.006159152500615915,
	"grad_norm": 0.3586118817329407,
	"learning_rate": 0.0,
	"loss": 0.8139,
	"step": 25
	},
	{
	"epoch": 0.006159152500615915,
	"eval_loss": 0.6138322353363037,
	"eval_runtime": 316.5536,
	"eval_samples_per_second": 5.399,
	"eval_steps_per_second": 2.701,
	"step": 25
	}
	],
	"logging_steps": 1,
	"max_steps": 25,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 2,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7906887160823808.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}