| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 0.11666666666666667, |
| "eval_steps": 500, |
| "global_step": 700, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0016666666666666668, |
| "grad_norm": 0.17955420911312103, |
| "learning_rate": 1.2272727272727271e-05, |
| "loss": 10.305491638183593, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.0033333333333333335, |
| "grad_norm": 0.10135336220264435, |
| "learning_rate": 2.5909090909090906e-05, |
| "loss": 9.537527465820313, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.005, |
| "grad_norm": 0.07960466295480728, |
| "learning_rate": 3.954545454545454e-05, |
| "loss": 9.106172180175781, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 0.06795097142457962, |
| "learning_rate": 5.318181818181818e-05, |
| "loss": 8.718563842773438, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.008333333333333333, |
| "grad_norm": 0.05100312456488609, |
| "learning_rate": 6.68181818181818e-05, |
| "loss": 8.348831176757812, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.01, |
| "grad_norm": 0.04906494542956352, |
| "learning_rate": 8.045454545454545e-05, |
| "loss": 7.987481689453125, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.011666666666666667, |
| "grad_norm": 0.04696398228406906, |
| "learning_rate": 9.40909090909091e-05, |
| "loss": 7.68848876953125, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 0.061917733401060104, |
| "learning_rate": 0.00010772727272727271, |
| "loss": 7.5045921325683596, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.015, |
| "grad_norm": 0.057658903300762177, |
| "learning_rate": 0.00012136363636363636, |
| "loss": 7.318255615234375, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 0.07039465755224228, |
| "learning_rate": 0.000135, |
| "loss": 7.1057685852050785, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.018333333333333333, |
| "grad_norm": 0.07016664743423462, |
| "learning_rate": 0.00014863636363636362, |
| "loss": 6.860664367675781, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 0.05617974326014519, |
| "learning_rate": 0.00016227272727272726, |
| "loss": 6.646616363525391, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.021666666666666667, |
| "grad_norm": 0.06325174123048782, |
| "learning_rate": 0.00017590909090909088, |
| "loss": 6.355916213989258, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.023333333333333334, |
| "grad_norm": 0.055446118116378784, |
| "learning_rate": 0.00018954545454545453, |
| "loss": 6.141727447509766, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.025, |
| "grad_norm": 0.054804038256406784, |
| "learning_rate": 0.00020318181818181815, |
| "loss": 5.897381591796875, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 0.0623275451362133, |
| "learning_rate": 0.00021681818181818182, |
| "loss": 5.885671234130859, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.028333333333333332, |
| "grad_norm": 0.07681386917829514, |
| "learning_rate": 0.00023045454545454544, |
| "loss": 5.685733032226563, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.03, |
| "grad_norm": 0.04866230487823486, |
| "learning_rate": 0.00024409090909090905, |
| "loss": 5.53424072265625, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.03166666666666667, |
| "grad_norm": 0.04755285009741783, |
| "learning_rate": 0.0002577272727272727, |
| "loss": 5.486316299438476, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 0.04537806287407875, |
| "learning_rate": 0.0002713636363636363, |
| "loss": 5.251799011230469, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.035, |
| "grad_norm": 0.06503544747829437, |
| "learning_rate": 0.000285, |
| "loss": 5.205155944824218, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.03666666666666667, |
| "grad_norm": 0.047095887362957, |
| "learning_rate": 0.0002986363636363636, |
| "loss": 5.0513874053955075, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.03833333333333333, |
| "grad_norm": 0.04293389245867729, |
| "learning_rate": 0.000299998205309827, |
| "loss": 5.07093505859375, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 0.03894070163369179, |
| "learning_rate": 0.00029999200149769797, |
| "loss": 4.897030258178711, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.041666666666666664, |
| "grad_norm": 0.03855148330330849, |
| "learning_rate": 0.0002999813665901747, |
| "loss": 4.875085067749024, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.043333333333333335, |
| "grad_norm": 0.0404694639146328, |
| "learning_rate": 0.00029996630090143596, |
| "loss": 4.785137939453125, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.045, |
| "grad_norm": 0.04759955033659935, |
| "learning_rate": 0.0002999468048765554, |
| "loss": 4.664665985107422, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.04666666666666667, |
| "grad_norm": 0.040492940694093704, |
| "learning_rate": 0.0002999228790914889, |
| "loss": 4.679857635498047, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.04833333333333333, |
| "grad_norm": 0.03861634433269501, |
| "learning_rate": 0.0002998945242530568, |
| "loss": 4.589862060546875, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 0.03984590247273445, |
| "learning_rate": 0.0002998617411989239, |
| "loss": 4.600507354736328, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.051666666666666666, |
| "grad_norm": 0.04622051492333412, |
| "learning_rate": 0.00029982453089757413, |
| "loss": 4.467031097412109, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 0.043236907571554184, |
| "learning_rate": 0.00029978289444828194, |
| "loss": 4.450032806396484, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.055, |
| "grad_norm": 0.03891831263899803, |
| "learning_rate": 0.0002997368330810802, |
| "loss": 4.394803237915039, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.056666666666666664, |
| "grad_norm": 0.041397932916879654, |
| "learning_rate": 0.0002996863481567235, |
| "loss": 4.410647201538086, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.058333333333333334, |
| "grad_norm": 0.03689548373222351, |
| "learning_rate": 0.0002996314411666482, |
| "loss": 4.301704406738281, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.06, |
| "grad_norm": 0.038849372416734695, |
| "learning_rate": 0.0002995721137329282, |
| "loss": 4.242988967895508, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.06166666666666667, |
| "grad_norm": 0.03877558186650276, |
| "learning_rate": 0.00029950836760822704, |
| "loss": 4.151651763916016, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.06333333333333334, |
| "grad_norm": 0.03422855585813522, |
| "learning_rate": 0.0002994402046757462, |
| "loss": 4.228427124023438, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.065, |
| "grad_norm": 0.040397658944129944, |
| "learning_rate": 0.0002993676269491695, |
| "loss": 4.222199249267578, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 0.03786230832338333, |
| "learning_rate": 0.0002992906365726033, |
| "loss": 4.117541885375976, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.06833333333333333, |
| "grad_norm": 0.0379491001367569, |
| "learning_rate": 0.00029920923582051377, |
| "loss": 4.12406005859375, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.07, |
| "grad_norm": 0.03680192679166794, |
| "learning_rate": 0.00029912342709765904, |
| "loss": 4.020008850097656, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.07166666666666667, |
| "grad_norm": 0.03528207913041115, |
| "learning_rate": 0.0002990332129390185, |
| "loss": 3.9816268920898437, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.07333333333333333, |
| "grad_norm": 0.03580179810523987, |
| "learning_rate": 0.00029893859600971793, |
| "loss": 3.980207061767578, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.075, |
| "grad_norm": 0.034479495137929916, |
| "learning_rate": 0.0002988395791049506, |
| "loss": 4.027605819702148, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.07666666666666666, |
| "grad_norm": 0.034174006432294846, |
| "learning_rate": 0.00029873616514989487, |
| "loss": 3.981894683837891, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.07833333333333334, |
| "grad_norm": 0.0394420325756073, |
| "learning_rate": 0.00029862835719962757, |
| "loss": 3.915305328369141, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 0.03507312014698982, |
| "learning_rate": 0.00029851615843903405, |
| "loss": 3.907708740234375, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.08166666666666667, |
| "grad_norm": 0.035838689655065536, |
| "learning_rate": 0.0002983995721827137, |
| "loss": 3.8745994567871094, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 0.03250565007328987, |
| "learning_rate": 0.00029827860187488247, |
| "loss": 3.863072967529297, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.085, |
| "grad_norm": 0.037158895283937454, |
| "learning_rate": 0.00029815325108927063, |
| "loss": 3.7035972595214846, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.08666666666666667, |
| "grad_norm": 0.03817693144083023, |
| "learning_rate": 0.00029802352352901757, |
| "loss": 3.784911346435547, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.08833333333333333, |
| "grad_norm": 0.03666158393025398, |
| "learning_rate": 0.0002978894230265623, |
| "loss": 3.753315734863281, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.09, |
| "grad_norm": 0.03293011710047722, |
| "learning_rate": 0.0002977509535435302, |
| "loss": 3.711289978027344, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.09166666666666666, |
| "grad_norm": 0.03294748812913895, |
| "learning_rate": 0.00029760811917061607, |
| "loss": 3.7139713287353517, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 0.03147300332784653, |
| "learning_rate": 0.00029746092412746296, |
| "loss": 3.583917999267578, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.095, |
| "grad_norm": 0.03498848155140877, |
| "learning_rate": 0.000297309372762538, |
| "loss": 3.6284183502197265, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.09666666666666666, |
| "grad_norm": 0.030913719907402992, |
| "learning_rate": 0.0002971534695530037, |
| "loss": 3.5620845794677733, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.09833333333333333, |
| "grad_norm": 0.030253689736127853, |
| "learning_rate": 0.00029699321910458556, |
| "loss": 3.5500133514404295, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 0.03715764731168747, |
| "learning_rate": 0.00029682862615143616, |
| "loss": 3.5795806884765624, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.10166666666666667, |
| "grad_norm": 0.032984547317028046, |
| "learning_rate": 0.00029665969555599535, |
| "loss": 3.6005035400390626, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.10333333333333333, |
| "grad_norm": 0.03254346922039986, |
| "learning_rate": 0.0002964864323088464, |
| "loss": 3.54862060546875, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.105, |
| "grad_norm": 0.03320642560720444, |
| "learning_rate": 0.00029630884152856874, |
| "loss": 3.534542465209961, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 0.031381070613861084, |
| "learning_rate": 0.00029612692846158676, |
| "loss": 3.502734375, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.10833333333333334, |
| "grad_norm": 0.03120303899049759, |
| "learning_rate": 0.00029594069848201476, |
| "loss": 3.481256103515625, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.11, |
| "grad_norm": 0.03503166139125824, |
| "learning_rate": 0.00029575015709149813, |
| "loss": 3.464976501464844, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.11166666666666666, |
| "grad_norm": 0.03037203475832939, |
| "learning_rate": 0.0002955553099190508, |
| "loss": 3.3426334381103517, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.11333333333333333, |
| "grad_norm": 0.030078619718551636, |
| "learning_rate": 0.0002953561627208891, |
| "loss": 3.386351776123047, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.115, |
| "grad_norm": 0.030806683003902435, |
| "learning_rate": 0.0002951527213802617, |
| "loss": 3.241590118408203, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 0.03040868043899536, |
| "learning_rate": 0.00029494499190727566, |
| "loss": 3.414640426635742, |
| "step": 700 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 6000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 9223372036854775807, |
| "save_steps": 100, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 1.06588538929152e+17, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|