Upload folder using huggingface_hub

78721e9 verified 2 months ago

11 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 60,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 5.823124698748474,
	"learning_rate": 0.0,
	"loss": 0.7634,
	"step": 1
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 6.263118239866239,
	"learning_rate": 2e-05,
	"loss": 0.8049,
	"step": 2
	},
	{
	"epoch": 0.256,
	"grad_norm": 4.592831158098326,
	"learning_rate": 4e-05,
	"loss": 0.7336,
	"step": 3
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 7.435996456081825,
	"learning_rate": 3.997360144932023e-05,
	"loss": 0.7447,
	"step": 4
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 4.9930199194954845,
	"learning_rate": 3.989448322877848e-05,
	"loss": 0.6817,
	"step": 5
	},
	{
	"epoch": 0.512,
	"grad_norm": 2.7882960279288187,
	"learning_rate": 3.976287740574748e-05,
	"loss": 0.6266,
	"step": 6
	},
	{
	"epoch": 0.5973333333333334,
	"grad_norm": 2.289976818179644,
	"learning_rate": 3.957917000278156e-05,
	"loss": 0.5836,
	"step": 7
	},
	{
	"epoch": 0.6826666666666666,
	"grad_norm": 2.0583597935795557,
	"learning_rate": 3.9343899865346015e-05,
	"loss": 0.577,
	"step": 8
	},
	{
	"epoch": 0.768,
	"grad_norm": 13.050076851975552,
	"learning_rate": 3.905775708129045e-05,
	"loss": 0.6045,
	"step": 9
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 2.783967024609478,
	"learning_rate": 3.872158095670225e-05,
	"loss": 0.6023,
	"step": 10
	},
	{
	"epoch": 0.9386666666666666,
	"grad_norm": 1.163643128396933,
	"learning_rate": 3.833635755407723e-05,
	"loss": 0.544,
	"step": 11
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.163643128396933,
	"learning_rate": 3.7903216800028416e-05,
	"loss": 0.3686,
	"step": 12
	},
	{
	"epoch": 1.0853333333333333,
	"grad_norm": 1.5234410523189195,
	"learning_rate": 3.742342917101661e-05,
	"loss": 0.4892,
	"step": 13
	},
	{
	"epoch": 1.1706666666666667,
	"grad_norm": 1.483688268087892,
	"learning_rate": 3.6898401966824035e-05,
	"loss": 0.4911,
	"step": 14
	},
	{
	"epoch": 1.256,
	"grad_norm": 1.2000288439558042,
	"learning_rate": 3.632967518270159e-05,
	"loss": 0.4668,
	"step": 15
	},
	{
	"epoch": 1.3413333333333333,
	"grad_norm": 1.072884798409246,
	"learning_rate": 3.5718916992297456e-05,
	"loss": 0.4744,
	"step": 16
	},
	{
	"epoch": 1.4266666666666667,
	"grad_norm": 0.95741338622577,
	"learning_rate": 3.506791885461636e-05,
	"loss": 0.4314,
	"step": 17
	},
	{
	"epoch": 1.512,
	"grad_norm": 0.8196543627260083,
	"learning_rate": 3.4378590259361626e-05,
	"loss": 0.4361,
	"step": 18
	},
	{
	"epoch": 1.5973333333333333,
	"grad_norm": 0.9870975955862293,
	"learning_rate": 3.36529531260729e-05,
	"loss": 0.4458,
	"step": 19
	},
	{
	"epoch": 1.6826666666666665,
	"grad_norm": 0.7238930039506358,
	"learning_rate": 3.289313587348778e-05,
	"loss": 0.4447,
	"step": 20
	},
	{
	"epoch": 1.768,
	"grad_norm": 1.0705050070030169,
	"learning_rate": 3.2101367176522886e-05,
	"loss": 0.4357,
	"step": 21
	},
	{
	"epoch": 1.8533333333333335,
	"grad_norm": 0.8320969342312032,
	"learning_rate": 3.12799694291864e-05,
	"loss": 0.4195,
	"step": 22
	},
	{
	"epoch": 1.9386666666666668,
	"grad_norm": 0.841619379612519,
	"learning_rate": 3.043135193259623e-05,
	"loss": 0.4234,
	"step": 23
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.7955715839135618,
	"learning_rate": 2.9558003828084768e-05,
	"loss": 0.3177,
	"step": 24
	},
	{
	"epoch": 2.0853333333333333,
	"grad_norm": 0.8659929753748914,
	"learning_rate": 2.866248679611846e-05,
	"loss": 0.3824,
	"step": 25
	},
	{
	"epoch": 2.1706666666666665,
	"grad_norm": 0.6868897117855765,
	"learning_rate": 2.774742754244764e-05,
	"loss": 0.34,
	"step": 26
	},
	{
	"epoch": 2.2560000000000002,
	"grad_norm": 0.6329547253401125,
	"learning_rate": 2.681551009352598e-05,
	"loss": 0.3577,
	"step": 27
	},
	{
	"epoch": 2.3413333333333335,
	"grad_norm": 0.7087428490324059,
	"learning_rate": 2.586946792379844e-05,
	"loss": 0.3519,
	"step": 28
	},
	{
	"epoch": 2.4266666666666667,
	"grad_norm": 0.6266353632340126,
	"learning_rate": 2.491207593794977e-05,
	"loss": 0.3251,
	"step": 29
	},
	{
	"epoch": 2.512,
	"grad_norm": 0.5822120409569,
	"learning_rate": 2.3946142331630955e-05,
	"loss": 0.3098,
	"step": 30
	},
	{
	"epoch": 2.5973333333333333,
	"grad_norm": 0.602806966101651,
	"learning_rate": 2.297450035453752e-05,
	"loss": 0.3443,
	"step": 31
	},
	{
	"epoch": 2.6826666666666665,
	"grad_norm": 0.5376510071707957,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.3295,
	"step": 32
	},
	{
	"epoch": 2.768,
	"grad_norm": 0.5705130453549662,
	"learning_rate": 2.1025499645462485e-05,
	"loss": 0.3137,
	"step": 33
	},
	{
	"epoch": 2.8533333333333335,
	"grad_norm": 0.5043286363745183,
	"learning_rate": 2.0053857668369054e-05,
	"loss": 0.3115,
	"step": 34
	},
	{
	"epoch": 2.9386666666666668,
	"grad_norm": 0.41142089674196747,
	"learning_rate": 1.9087924062050235e-05,
	"loss": 0.2944,
	"step": 35
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.5645739901906839,
	"learning_rate": 1.8130532076201567e-05,
	"loss": 0.2286,
	"step": 36
	},
	{
	"epoch": 3.0853333333333333,
	"grad_norm": 0.43084927397789824,
	"learning_rate": 1.7184489906474028e-05,
	"loss": 0.2556,
	"step": 37
	},
	{
	"epoch": 3.1706666666666665,
	"grad_norm": 0.4785715148027804,
	"learning_rate": 1.6252572457552366e-05,
	"loss": 0.2486,
	"step": 38
	},
	{
	"epoch": 3.2560000000000002,
	"grad_norm": 0.48284181173314744,
	"learning_rate": 1.533751320388154e-05,
	"loss": 0.248,
	"step": 39
	},
	{
	"epoch": 3.3413333333333335,
	"grad_norm": 0.4486695709595867,
	"learning_rate": 1.4441996171915241e-05,
	"loss": 0.2427,
	"step": 40
	},
	{
	"epoch": 3.4266666666666667,
	"grad_norm": 0.45515108810384375,
	"learning_rate": 1.356864806740378e-05,
	"loss": 0.2313,
	"step": 41
	},
	{
	"epoch": 3.512,
	"grad_norm": 0.4768420671943082,
	"learning_rate": 1.2720030570813608e-05,
	"loss": 0.2651,
	"step": 42
	},
	{
	"epoch": 3.5973333333333333,
	"grad_norm": 0.44608004702049003,
	"learning_rate": 1.1898632823477121e-05,
	"loss": 0.2382,
	"step": 43
	},
	{
	"epoch": 3.6826666666666665,
	"grad_norm": 0.4780060358370541,
	"learning_rate": 1.1106864126512233e-05,
	"loss": 0.2628,
	"step": 44
	},
	{
	"epoch": 3.768,
	"grad_norm": 0.41039041344773,
	"learning_rate": 1.0347046873927104e-05,
	"loss": 0.2228,
	"step": 45
	},
	{
	"epoch": 3.8533333333333335,
	"grad_norm": 0.35875405696476276,
	"learning_rate": 9.62140974063838e-06,
	"loss": 0.2264,
	"step": 46
	},
	{
	"epoch": 3.9386666666666668,
	"grad_norm": 0.4345913144288298,
	"learning_rate": 8.93208114538365e-06,
	"loss": 0.2317,
	"step": 47
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.4345913144288298,
	"learning_rate": 8.281083007702546e-06,
	"loss": 0.1773,
	"step": 48
	},
	{
	"epoch": 4.085333333333334,
	"grad_norm": 0.3679685887922565,
	"learning_rate": 7.670324817298414e-06,
	"loss": 0.218,
	"step": 49
	},
	{
	"epoch": 4.1706666666666665,
	"grad_norm": 0.3677298278123729,
	"learning_rate": 7.101598033175973e-06,
	"loss": 0.1968,
	"step": 50
	},
	{
	"epoch": 4.256,
	"grad_norm": 0.32479113103959867,
	"learning_rate": 6.576570828983397e-06,
	"loss": 0.2085,
	"step": 51
	},
	{
	"epoch": 4.341333333333333,
	"grad_norm": 0.3139710188610545,
	"learning_rate": 6.0967831999715895e-06,
	"loss": 0.1927,
	"step": 52
	},
	{
	"epoch": 4.426666666666667,
	"grad_norm": 0.3545890466978573,
	"learning_rate": 5.663642445922777e-06,
	"loss": 0.1836,
	"step": 53
	},
	{
	"epoch": 4.5120000000000005,
	"grad_norm": 0.32966873074012826,
	"learning_rate": 5.278419043297756e-06,
	"loss": 0.187,
	"step": 54
	},
	{
	"epoch": 4.597333333333333,
	"grad_norm": 0.32158898287910775,
	"learning_rate": 4.9422429187095586e-06,
	"loss": 0.1733,
	"step": 55
	},
	{
	"epoch": 4.682666666666667,
	"grad_norm": 0.3261200364116069,
	"learning_rate": 4.656100134653988e-06,
	"loss": 0.1885,
	"step": 56
	},
	{
	"epoch": 4.768,
	"grad_norm": 0.30401427961662475,
	"learning_rate": 4.420829997218441e-06,
	"loss": 0.1717,
	"step": 57
	},
	{
	"epoch": 4.8533333333333335,
	"grad_norm": 0.2826937087587518,
	"learning_rate": 4.23712259425253e-06,
	"loss": 0.1904,
	"step": 58
	},
	{
	"epoch": 4.938666666666666,
	"grad_norm": 0.2810378347062423,
	"learning_rate": 4.105516771221528e-06,
	"loss": 0.1567,
	"step": 59
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.2854110729980929,
	"learning_rate": 4.026398550679772e-06,
	"loss": 0.151,
	"step": 60
	},
	{
	"epoch": 5.0,
	"step": 60,
	"total_flos": 1.3964481498657587e+17,
	"train_loss": 0.3644733558098475,
	"train_runtime": 19998.7035,
	"train_samples_per_second": 0.375,
	"train_steps_per_second": 0.003
	}
	],
	"logging_steps": 1,
	"max_steps": 60,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3964481498657587e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}