| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 5.0, | |
| "eval_steps": 500, | |
| "global_step": 60, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 5.823124698748474, | |
| "learning_rate": 0.0, | |
| "loss": 0.7634, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.17066666666666666, | |
| "grad_norm": 6.263118239866239, | |
| "learning_rate": 2e-05, | |
| "loss": 0.8049, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 4.592831158098326, | |
| "learning_rate": 4e-05, | |
| "loss": 0.7336, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.3413333333333333, | |
| "grad_norm": 7.435996456081825, | |
| "learning_rate": 3.997360144932023e-05, | |
| "loss": 0.7447, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 4.9930199194954845, | |
| "learning_rate": 3.989448322877848e-05, | |
| "loss": 0.6817, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.512, | |
| "grad_norm": 2.7882960279288187, | |
| "learning_rate": 3.976287740574748e-05, | |
| "loss": 0.6266, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.5973333333333334, | |
| "grad_norm": 2.289976818179644, | |
| "learning_rate": 3.957917000278156e-05, | |
| "loss": 0.5836, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.6826666666666666, | |
| "grad_norm": 2.0583597935795557, | |
| "learning_rate": 3.9343899865346015e-05, | |
| "loss": 0.577, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.768, | |
| "grad_norm": 13.050076851975552, | |
| "learning_rate": 3.905775708129045e-05, | |
| "loss": 0.6045, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 2.783967024609478, | |
| "learning_rate": 3.872158095670225e-05, | |
| "loss": 0.6023, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.9386666666666666, | |
| "grad_norm": 1.163643128396933, | |
| "learning_rate": 3.833635755407723e-05, | |
| "loss": 0.544, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 1.163643128396933, | |
| "learning_rate": 3.7903216800028416e-05, | |
| "loss": 0.3686, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 1.0853333333333333, | |
| "grad_norm": 1.5234410523189195, | |
| "learning_rate": 3.742342917101661e-05, | |
| "loss": 0.4892, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 1.1706666666666667, | |
| "grad_norm": 1.483688268087892, | |
| "learning_rate": 3.6898401966824035e-05, | |
| "loss": 0.4911, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 1.256, | |
| "grad_norm": 1.2000288439558042, | |
| "learning_rate": 3.632967518270159e-05, | |
| "loss": 0.4668, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 1.3413333333333333, | |
| "grad_norm": 1.072884798409246, | |
| "learning_rate": 3.5718916992297456e-05, | |
| "loss": 0.4744, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 1.4266666666666667, | |
| "grad_norm": 0.95741338622577, | |
| "learning_rate": 3.506791885461636e-05, | |
| "loss": 0.4314, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 1.512, | |
| "grad_norm": 0.8196543627260083, | |
| "learning_rate": 3.4378590259361626e-05, | |
| "loss": 0.4361, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 1.5973333333333333, | |
| "grad_norm": 0.9870975955862293, | |
| "learning_rate": 3.36529531260729e-05, | |
| "loss": 0.4458, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 1.6826666666666665, | |
| "grad_norm": 0.7238930039506358, | |
| "learning_rate": 3.289313587348778e-05, | |
| "loss": 0.4447, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 1.768, | |
| "grad_norm": 1.0705050070030169, | |
| "learning_rate": 3.2101367176522886e-05, | |
| "loss": 0.4357, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 1.8533333333333335, | |
| "grad_norm": 0.8320969342312032, | |
| "learning_rate": 3.12799694291864e-05, | |
| "loss": 0.4195, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 1.9386666666666668, | |
| "grad_norm": 0.841619379612519, | |
| "learning_rate": 3.043135193259623e-05, | |
| "loss": 0.4234, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.7955715839135618, | |
| "learning_rate": 2.9558003828084768e-05, | |
| "loss": 0.3177, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 2.0853333333333333, | |
| "grad_norm": 0.8659929753748914, | |
| "learning_rate": 2.866248679611846e-05, | |
| "loss": 0.3824, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 2.1706666666666665, | |
| "grad_norm": 0.6868897117855765, | |
| "learning_rate": 2.774742754244764e-05, | |
| "loss": 0.34, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 2.2560000000000002, | |
| "grad_norm": 0.6329547253401125, | |
| "learning_rate": 2.681551009352598e-05, | |
| "loss": 0.3577, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 2.3413333333333335, | |
| "grad_norm": 0.7087428490324059, | |
| "learning_rate": 2.586946792379844e-05, | |
| "loss": 0.3519, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 2.4266666666666667, | |
| "grad_norm": 0.6266353632340126, | |
| "learning_rate": 2.491207593794977e-05, | |
| "loss": 0.3251, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 2.512, | |
| "grad_norm": 0.5822120409569, | |
| "learning_rate": 2.3946142331630955e-05, | |
| "loss": 0.3098, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 2.5973333333333333, | |
| "grad_norm": 0.602806966101651, | |
| "learning_rate": 2.297450035453752e-05, | |
| "loss": 0.3443, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 2.6826666666666665, | |
| "grad_norm": 0.5376510071707957, | |
| "learning_rate": 2.2000000000000003e-05, | |
| "loss": 0.3295, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 2.768, | |
| "grad_norm": 0.5705130453549662, | |
| "learning_rate": 2.1025499645462485e-05, | |
| "loss": 0.3137, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 2.8533333333333335, | |
| "grad_norm": 0.5043286363745183, | |
| "learning_rate": 2.0053857668369054e-05, | |
| "loss": 0.3115, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 2.9386666666666668, | |
| "grad_norm": 0.41142089674196747, | |
| "learning_rate": 1.9087924062050235e-05, | |
| "loss": 0.2944, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.5645739901906839, | |
| "learning_rate": 1.8130532076201567e-05, | |
| "loss": 0.2286, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 3.0853333333333333, | |
| "grad_norm": 0.43084927397789824, | |
| "learning_rate": 1.7184489906474028e-05, | |
| "loss": 0.2556, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 3.1706666666666665, | |
| "grad_norm": 0.4785715148027804, | |
| "learning_rate": 1.6252572457552366e-05, | |
| "loss": 0.2486, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 3.2560000000000002, | |
| "grad_norm": 0.48284181173314744, | |
| "learning_rate": 1.533751320388154e-05, | |
| "loss": 0.248, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 3.3413333333333335, | |
| "grad_norm": 0.4486695709595867, | |
| "learning_rate": 1.4441996171915241e-05, | |
| "loss": 0.2427, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 3.4266666666666667, | |
| "grad_norm": 0.45515108810384375, | |
| "learning_rate": 1.356864806740378e-05, | |
| "loss": 0.2313, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 3.512, | |
| "grad_norm": 0.4768420671943082, | |
| "learning_rate": 1.2720030570813608e-05, | |
| "loss": 0.2651, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 3.5973333333333333, | |
| "grad_norm": 0.44608004702049003, | |
| "learning_rate": 1.1898632823477121e-05, | |
| "loss": 0.2382, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 3.6826666666666665, | |
| "grad_norm": 0.4780060358370541, | |
| "learning_rate": 1.1106864126512233e-05, | |
| "loss": 0.2628, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 3.768, | |
| "grad_norm": 0.41039041344773, | |
| "learning_rate": 1.0347046873927104e-05, | |
| "loss": 0.2228, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 3.8533333333333335, | |
| "grad_norm": 0.35875405696476276, | |
| "learning_rate": 9.62140974063838e-06, | |
| "loss": 0.2264, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 3.9386666666666668, | |
| "grad_norm": 0.4345913144288298, | |
| "learning_rate": 8.93208114538365e-06, | |
| "loss": 0.2317, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 0.4345913144288298, | |
| "learning_rate": 8.281083007702546e-06, | |
| "loss": 0.1773, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 4.085333333333334, | |
| "grad_norm": 0.3679685887922565, | |
| "learning_rate": 7.670324817298414e-06, | |
| "loss": 0.218, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 4.1706666666666665, | |
| "grad_norm": 0.3677298278123729, | |
| "learning_rate": 7.101598033175973e-06, | |
| "loss": 0.1968, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 4.256, | |
| "grad_norm": 0.32479113103959867, | |
| "learning_rate": 6.576570828983397e-06, | |
| "loss": 0.2085, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 4.341333333333333, | |
| "grad_norm": 0.3139710188610545, | |
| "learning_rate": 6.0967831999715895e-06, | |
| "loss": 0.1927, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 4.426666666666667, | |
| "grad_norm": 0.3545890466978573, | |
| "learning_rate": 5.663642445922777e-06, | |
| "loss": 0.1836, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 4.5120000000000005, | |
| "grad_norm": 0.32966873074012826, | |
| "learning_rate": 5.278419043297756e-06, | |
| "loss": 0.187, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 4.597333333333333, | |
| "grad_norm": 0.32158898287910775, | |
| "learning_rate": 4.9422429187095586e-06, | |
| "loss": 0.1733, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 4.682666666666667, | |
| "grad_norm": 0.3261200364116069, | |
| "learning_rate": 4.656100134653988e-06, | |
| "loss": 0.1885, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 4.768, | |
| "grad_norm": 0.30401427961662475, | |
| "learning_rate": 4.420829997218441e-06, | |
| "loss": 0.1717, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 4.8533333333333335, | |
| "grad_norm": 0.2826937087587518, | |
| "learning_rate": 4.23712259425253e-06, | |
| "loss": 0.1904, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 4.938666666666666, | |
| "grad_norm": 0.2810378347062423, | |
| "learning_rate": 4.105516771221528e-06, | |
| "loss": 0.1567, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 0.2854110729980929, | |
| "learning_rate": 4.026398550679772e-06, | |
| "loss": 0.151, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "step": 60, | |
| "total_flos": 1.3964481498657587e+17, | |
| "train_loss": 0.3644733558098475, | |
| "train_runtime": 19998.7035, | |
| "train_samples_per_second": 0.375, | |
| "train_steps_per_second": 0.003 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 60, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 5, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1.3964481498657587e+17, | |
| "train_batch_size": 1, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |