Xkev's picture
Upload folder using huggingface_hub
78721e9 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 5.0,
"eval_steps": 500,
"global_step": 60,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.08533333333333333,
"grad_norm": 5.823124698748474,
"learning_rate": 0.0,
"loss": 0.7634,
"step": 1
},
{
"epoch": 0.17066666666666666,
"grad_norm": 6.263118239866239,
"learning_rate": 2e-05,
"loss": 0.8049,
"step": 2
},
{
"epoch": 0.256,
"grad_norm": 4.592831158098326,
"learning_rate": 4e-05,
"loss": 0.7336,
"step": 3
},
{
"epoch": 0.3413333333333333,
"grad_norm": 7.435996456081825,
"learning_rate": 3.997360144932023e-05,
"loss": 0.7447,
"step": 4
},
{
"epoch": 0.4266666666666667,
"grad_norm": 4.9930199194954845,
"learning_rate": 3.989448322877848e-05,
"loss": 0.6817,
"step": 5
},
{
"epoch": 0.512,
"grad_norm": 2.7882960279288187,
"learning_rate": 3.976287740574748e-05,
"loss": 0.6266,
"step": 6
},
{
"epoch": 0.5973333333333334,
"grad_norm": 2.289976818179644,
"learning_rate": 3.957917000278156e-05,
"loss": 0.5836,
"step": 7
},
{
"epoch": 0.6826666666666666,
"grad_norm": 2.0583597935795557,
"learning_rate": 3.9343899865346015e-05,
"loss": 0.577,
"step": 8
},
{
"epoch": 0.768,
"grad_norm": 13.050076851975552,
"learning_rate": 3.905775708129045e-05,
"loss": 0.6045,
"step": 9
},
{
"epoch": 0.8533333333333334,
"grad_norm": 2.783967024609478,
"learning_rate": 3.872158095670225e-05,
"loss": 0.6023,
"step": 10
},
{
"epoch": 0.9386666666666666,
"grad_norm": 1.163643128396933,
"learning_rate": 3.833635755407723e-05,
"loss": 0.544,
"step": 11
},
{
"epoch": 1.0,
"grad_norm": 1.163643128396933,
"learning_rate": 3.7903216800028416e-05,
"loss": 0.3686,
"step": 12
},
{
"epoch": 1.0853333333333333,
"grad_norm": 1.5234410523189195,
"learning_rate": 3.742342917101661e-05,
"loss": 0.4892,
"step": 13
},
{
"epoch": 1.1706666666666667,
"grad_norm": 1.483688268087892,
"learning_rate": 3.6898401966824035e-05,
"loss": 0.4911,
"step": 14
},
{
"epoch": 1.256,
"grad_norm": 1.2000288439558042,
"learning_rate": 3.632967518270159e-05,
"loss": 0.4668,
"step": 15
},
{
"epoch": 1.3413333333333333,
"grad_norm": 1.072884798409246,
"learning_rate": 3.5718916992297456e-05,
"loss": 0.4744,
"step": 16
},
{
"epoch": 1.4266666666666667,
"grad_norm": 0.95741338622577,
"learning_rate": 3.506791885461636e-05,
"loss": 0.4314,
"step": 17
},
{
"epoch": 1.512,
"grad_norm": 0.8196543627260083,
"learning_rate": 3.4378590259361626e-05,
"loss": 0.4361,
"step": 18
},
{
"epoch": 1.5973333333333333,
"grad_norm": 0.9870975955862293,
"learning_rate": 3.36529531260729e-05,
"loss": 0.4458,
"step": 19
},
{
"epoch": 1.6826666666666665,
"grad_norm": 0.7238930039506358,
"learning_rate": 3.289313587348778e-05,
"loss": 0.4447,
"step": 20
},
{
"epoch": 1.768,
"grad_norm": 1.0705050070030169,
"learning_rate": 3.2101367176522886e-05,
"loss": 0.4357,
"step": 21
},
{
"epoch": 1.8533333333333335,
"grad_norm": 0.8320969342312032,
"learning_rate": 3.12799694291864e-05,
"loss": 0.4195,
"step": 22
},
{
"epoch": 1.9386666666666668,
"grad_norm": 0.841619379612519,
"learning_rate": 3.043135193259623e-05,
"loss": 0.4234,
"step": 23
},
{
"epoch": 2.0,
"grad_norm": 0.7955715839135618,
"learning_rate": 2.9558003828084768e-05,
"loss": 0.3177,
"step": 24
},
{
"epoch": 2.0853333333333333,
"grad_norm": 0.8659929753748914,
"learning_rate": 2.866248679611846e-05,
"loss": 0.3824,
"step": 25
},
{
"epoch": 2.1706666666666665,
"grad_norm": 0.6868897117855765,
"learning_rate": 2.774742754244764e-05,
"loss": 0.34,
"step": 26
},
{
"epoch": 2.2560000000000002,
"grad_norm": 0.6329547253401125,
"learning_rate": 2.681551009352598e-05,
"loss": 0.3577,
"step": 27
},
{
"epoch": 2.3413333333333335,
"grad_norm": 0.7087428490324059,
"learning_rate": 2.586946792379844e-05,
"loss": 0.3519,
"step": 28
},
{
"epoch": 2.4266666666666667,
"grad_norm": 0.6266353632340126,
"learning_rate": 2.491207593794977e-05,
"loss": 0.3251,
"step": 29
},
{
"epoch": 2.512,
"grad_norm": 0.5822120409569,
"learning_rate": 2.3946142331630955e-05,
"loss": 0.3098,
"step": 30
},
{
"epoch": 2.5973333333333333,
"grad_norm": 0.602806966101651,
"learning_rate": 2.297450035453752e-05,
"loss": 0.3443,
"step": 31
},
{
"epoch": 2.6826666666666665,
"grad_norm": 0.5376510071707957,
"learning_rate": 2.2000000000000003e-05,
"loss": 0.3295,
"step": 32
},
{
"epoch": 2.768,
"grad_norm": 0.5705130453549662,
"learning_rate": 2.1025499645462485e-05,
"loss": 0.3137,
"step": 33
},
{
"epoch": 2.8533333333333335,
"grad_norm": 0.5043286363745183,
"learning_rate": 2.0053857668369054e-05,
"loss": 0.3115,
"step": 34
},
{
"epoch": 2.9386666666666668,
"grad_norm": 0.41142089674196747,
"learning_rate": 1.9087924062050235e-05,
"loss": 0.2944,
"step": 35
},
{
"epoch": 3.0,
"grad_norm": 0.5645739901906839,
"learning_rate": 1.8130532076201567e-05,
"loss": 0.2286,
"step": 36
},
{
"epoch": 3.0853333333333333,
"grad_norm": 0.43084927397789824,
"learning_rate": 1.7184489906474028e-05,
"loss": 0.2556,
"step": 37
},
{
"epoch": 3.1706666666666665,
"grad_norm": 0.4785715148027804,
"learning_rate": 1.6252572457552366e-05,
"loss": 0.2486,
"step": 38
},
{
"epoch": 3.2560000000000002,
"grad_norm": 0.48284181173314744,
"learning_rate": 1.533751320388154e-05,
"loss": 0.248,
"step": 39
},
{
"epoch": 3.3413333333333335,
"grad_norm": 0.4486695709595867,
"learning_rate": 1.4441996171915241e-05,
"loss": 0.2427,
"step": 40
},
{
"epoch": 3.4266666666666667,
"grad_norm": 0.45515108810384375,
"learning_rate": 1.356864806740378e-05,
"loss": 0.2313,
"step": 41
},
{
"epoch": 3.512,
"grad_norm": 0.4768420671943082,
"learning_rate": 1.2720030570813608e-05,
"loss": 0.2651,
"step": 42
},
{
"epoch": 3.5973333333333333,
"grad_norm": 0.44608004702049003,
"learning_rate": 1.1898632823477121e-05,
"loss": 0.2382,
"step": 43
},
{
"epoch": 3.6826666666666665,
"grad_norm": 0.4780060358370541,
"learning_rate": 1.1106864126512233e-05,
"loss": 0.2628,
"step": 44
},
{
"epoch": 3.768,
"grad_norm": 0.41039041344773,
"learning_rate": 1.0347046873927104e-05,
"loss": 0.2228,
"step": 45
},
{
"epoch": 3.8533333333333335,
"grad_norm": 0.35875405696476276,
"learning_rate": 9.62140974063838e-06,
"loss": 0.2264,
"step": 46
},
{
"epoch": 3.9386666666666668,
"grad_norm": 0.4345913144288298,
"learning_rate": 8.93208114538365e-06,
"loss": 0.2317,
"step": 47
},
{
"epoch": 4.0,
"grad_norm": 0.4345913144288298,
"learning_rate": 8.281083007702546e-06,
"loss": 0.1773,
"step": 48
},
{
"epoch": 4.085333333333334,
"grad_norm": 0.3679685887922565,
"learning_rate": 7.670324817298414e-06,
"loss": 0.218,
"step": 49
},
{
"epoch": 4.1706666666666665,
"grad_norm": 0.3677298278123729,
"learning_rate": 7.101598033175973e-06,
"loss": 0.1968,
"step": 50
},
{
"epoch": 4.256,
"grad_norm": 0.32479113103959867,
"learning_rate": 6.576570828983397e-06,
"loss": 0.2085,
"step": 51
},
{
"epoch": 4.341333333333333,
"grad_norm": 0.3139710188610545,
"learning_rate": 6.0967831999715895e-06,
"loss": 0.1927,
"step": 52
},
{
"epoch": 4.426666666666667,
"grad_norm": 0.3545890466978573,
"learning_rate": 5.663642445922777e-06,
"loss": 0.1836,
"step": 53
},
{
"epoch": 4.5120000000000005,
"grad_norm": 0.32966873074012826,
"learning_rate": 5.278419043297756e-06,
"loss": 0.187,
"step": 54
},
{
"epoch": 4.597333333333333,
"grad_norm": 0.32158898287910775,
"learning_rate": 4.9422429187095586e-06,
"loss": 0.1733,
"step": 55
},
{
"epoch": 4.682666666666667,
"grad_norm": 0.3261200364116069,
"learning_rate": 4.656100134653988e-06,
"loss": 0.1885,
"step": 56
},
{
"epoch": 4.768,
"grad_norm": 0.30401427961662475,
"learning_rate": 4.420829997218441e-06,
"loss": 0.1717,
"step": 57
},
{
"epoch": 4.8533333333333335,
"grad_norm": 0.2826937087587518,
"learning_rate": 4.23712259425253e-06,
"loss": 0.1904,
"step": 58
},
{
"epoch": 4.938666666666666,
"grad_norm": 0.2810378347062423,
"learning_rate": 4.105516771221528e-06,
"loss": 0.1567,
"step": 59
},
{
"epoch": 5.0,
"grad_norm": 0.2854110729980929,
"learning_rate": 4.026398550679772e-06,
"loss": 0.151,
"step": 60
},
{
"epoch": 5.0,
"step": 60,
"total_flos": 1.3964481498657587e+17,
"train_loss": 0.3644733558098475,
"train_runtime": 19998.7035,
"train_samples_per_second": 0.375,
"train_steps_per_second": 0.003
}
],
"logging_steps": 1,
"max_steps": 60,
"num_input_tokens_seen": 0,
"num_train_epochs": 5,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 1.3964481498657587e+17,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}