Training in progress, step 50, checkpoint

599f81f verified 22 days ago

5.84 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.11286681715575621,
	"eval_steps": 5,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002257336343115124,
	"eval_loss": 10.37696647644043,
	"eval_runtime": 1.3605,
	"eval_samples_per_second": 549.072,
	"eval_steps_per_second": 69.093,
	"step": 1
	},
	{
	"epoch": 0.006772009029345372,
	"grad_norm": 0.5311530232429504,
	"learning_rate": 3e-05,
	"loss": 10.3708,
	"step": 3
	},
	{
	"epoch": 0.011286681715575621,
	"eval_loss": 10.375223159790039,
	"eval_runtime": 1.3445,
	"eval_samples_per_second": 555.583,
	"eval_steps_per_second": 69.913,
	"step": 5
	},
	{
	"epoch": 0.013544018058690745,
	"grad_norm": 0.4600737690925598,
	"learning_rate": 6e-05,
	"loss": 10.3742,
	"step": 6
	},
	{
	"epoch": 0.020316027088036117,
	"grad_norm": 0.4388561248779297,
	"learning_rate": 9e-05,
	"loss": 10.3715,
	"step": 9
	},
	{
	"epoch": 0.022573363431151242,
	"eval_loss": 10.36904525756836,
	"eval_runtime": 1.3711,
	"eval_samples_per_second": 544.833,
	"eval_steps_per_second": 68.56,
	"step": 10
	},
	{
	"epoch": 0.02708803611738149,
	"grad_norm": 0.39423269033432007,
	"learning_rate": 9.938441702975689e-05,
	"loss": 10.3707,
	"step": 12
	},
	{
	"epoch": 0.033860045146726865,
	"grad_norm": 0.45872196555137634,
	"learning_rate": 9.619397662556435e-05,
	"loss": 10.3518,
	"step": 15
	},
	{
	"epoch": 0.033860045146726865,
	"eval_loss": 10.359448432922363,
	"eval_runtime": 1.4011,
	"eval_samples_per_second": 533.148,
	"eval_steps_per_second": 67.09,
	"step": 15
	},
	{
	"epoch": 0.040632054176072234,
	"grad_norm": 0.5480523705482483,
	"learning_rate": 9.045084971874738e-05,
	"loss": 10.3586,
	"step": 18
	},
	{
	"epoch": 0.045146726862302484,
	"eval_loss": 10.348822593688965,
	"eval_runtime": 1.4092,
	"eval_samples_per_second": 530.083,
	"eval_steps_per_second": 66.704,
	"step": 20
	},
	{
	"epoch": 0.04740406320541761,
	"grad_norm": 0.481340229511261,
	"learning_rate": 8.247240241650918e-05,
	"loss": 10.3482,
	"step": 21
	},
	{
	"epoch": 0.05417607223476298,
	"grad_norm": 0.6495785713195801,
	"learning_rate": 7.269952498697734e-05,
	"loss": 10.3488,
	"step": 24
	},
	{
	"epoch": 0.056433408577878104,
	"eval_loss": 10.337669372558594,
	"eval_runtime": 1.3982,
	"eval_samples_per_second": 534.277,
	"eval_steps_per_second": 67.232,
	"step": 25
	},
	{
	"epoch": 0.060948081264108354,
	"grad_norm": 0.7056164145469666,
	"learning_rate": 6.167226819279528e-05,
	"loss": 10.3473,
	"step": 27
	},
	{
	"epoch": 0.06772009029345373,
	"grad_norm": 0.7669053673744202,
	"learning_rate": 5e-05,
	"loss": 10.3337,
	"step": 30
	},
	{
	"epoch": 0.06772009029345373,
	"eval_loss": 10.328136444091797,
	"eval_runtime": 1.3693,
	"eval_samples_per_second": 545.526,
	"eval_steps_per_second": 68.647,
	"step": 30
	},
	{
	"epoch": 0.0744920993227991,
	"grad_norm": 0.6908026337623596,
	"learning_rate": 3.832773180720475e-05,
	"loss": 10.338,
	"step": 33
	},
	{
	"epoch": 0.07900677200902935,
	"eval_loss": 10.320672035217285,
	"eval_runtime": 1.3491,
	"eval_samples_per_second": 553.69,
	"eval_steps_per_second": 69.675,
	"step": 35
	},
	{
	"epoch": 0.08126410835214447,
	"grad_norm": 0.54636549949646,
	"learning_rate": 2.7300475013022663e-05,
	"loss": 10.3207,
	"step": 36
	},
	{
	"epoch": 0.08803611738148984,
	"grad_norm": 0.703861653804779,
	"learning_rate": 1.7527597583490822e-05,
	"loss": 10.3198,
	"step": 39
	},
	{
	"epoch": 0.09029345372460497,
	"eval_loss": 10.316521644592285,
	"eval_runtime": 1.3669,
	"eval_samples_per_second": 546.511,
	"eval_steps_per_second": 68.771,
	"step": 40
	},
	{
	"epoch": 0.09480812641083522,
	"grad_norm": 0.5754713416099548,
	"learning_rate": 9.549150281252633e-06,
	"loss": 10.3213,
	"step": 42
	},
	{
	"epoch": 0.10158013544018059,
	"grad_norm": 0.7273910641670227,
	"learning_rate": 3.8060233744356633e-06,
	"loss": 10.3121,
	"step": 45
	},
	{
	"epoch": 0.10158013544018059,
	"eval_loss": 10.314825057983398,
	"eval_runtime": 1.405,
	"eval_samples_per_second": 531.663,
	"eval_steps_per_second": 66.903,
	"step": 45
	},
	{
	"epoch": 0.10835214446952596,
	"grad_norm": 0.7388740181922913,
	"learning_rate": 6.15582970243117e-07,
	"loss": 10.3121,
	"step": 48
	},
	{
	"epoch": 0.11286681715575621,
	"eval_loss": 10.314505577087402,
	"eval_runtime": 1.3781,
	"eval_samples_per_second": 542.057,
	"eval_steps_per_second": 68.211,
	"step": 50
	}
	],
	"logging_steps": 3,
	"max_steps": 50,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5577533030400.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}