| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 3.0, |
| "eval_steps": 30, |
| "global_step": 360, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.008333333333333333, |
| "grad_norm": 0.9462232657835241, |
| "learning_rate": 8.142857142857143e-07, |
| "loss": 2.5443, |
| "step": 1 |
| }, |
| { |
| "epoch": 0.008333333333333333, |
| "eval_loss": 2.5896365642547607, |
| "eval_runtime": 96.0059, |
| "eval_samples_per_second": 4.271, |
| "eval_steps_per_second": 0.271, |
| "step": 1 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 0.9597143397960513, |
| "learning_rate": 1.6285714285714286e-06, |
| "loss": 2.5524, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.025, |
| "grad_norm": 0.9246258453027174, |
| "learning_rate": 2.442857142857143e-06, |
| "loss": 2.5411, |
| "step": 3 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 0.9822285829186661, |
| "learning_rate": 3.2571428571428572e-06, |
| "loss": 2.5518, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.041666666666666664, |
| "grad_norm": 0.9044329068814566, |
| "learning_rate": 4.071428571428572e-06, |
| "loss": 2.4922, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.05, |
| "grad_norm": 0.9131300887744053, |
| "learning_rate": 4.885714285714286e-06, |
| "loss": 2.5713, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.058333333333333334, |
| "grad_norm": 0.8336298309675122, |
| "learning_rate": 5.7000000000000005e-06, |
| "loss": 2.4959, |
| "step": 7 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 0.810775409605909, |
| "learning_rate": 6.5142857142857145e-06, |
| "loss": 2.4943, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.075, |
| "grad_norm": 0.6993505055921954, |
| "learning_rate": 7.3285714285714285e-06, |
| "loss": 2.5022, |
| "step": 9 |
| }, |
| { |
| "epoch": 0.08333333333333333, |
| "grad_norm": 0.5909140859664664, |
| "learning_rate": 8.142857142857143e-06, |
| "loss": 2.468, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.09166666666666666, |
| "grad_norm": 0.5464791893738283, |
| "learning_rate": 8.957142857142857e-06, |
| "loss": 2.5203, |
| "step": 11 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 0.41153668995149084, |
| "learning_rate": 9.771428571428571e-06, |
| "loss": 2.4912, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.10833333333333334, |
| "grad_norm": 0.35433353277028035, |
| "learning_rate": 1.0585714285714287e-05, |
| "loss": 2.4467, |
| "step": 13 |
| }, |
| { |
| "epoch": 0.11666666666666667, |
| "grad_norm": 0.27579908222756766, |
| "learning_rate": 1.1400000000000001e-05, |
| "loss": 2.4599, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.125, |
| "grad_norm": 0.22636758420678307, |
| "learning_rate": 1.2214285714285715e-05, |
| "loss": 2.4357, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.22309908436920517, |
| "learning_rate": 1.3028571428571429e-05, |
| "loss": 2.368, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.14166666666666666, |
| "grad_norm": 0.2384290311446137, |
| "learning_rate": 1.3842857142857143e-05, |
| "loss": 2.4054, |
| "step": 17 |
| }, |
| { |
| "epoch": 0.15, |
| "grad_norm": 0.2279055472006466, |
| "learning_rate": 1.4657142857142857e-05, |
| "loss": 2.4162, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.15833333333333333, |
| "grad_norm": 0.24659885813398136, |
| "learning_rate": 1.547142857142857e-05, |
| "loss": 2.4109, |
| "step": 19 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 0.21920560481126147, |
| "learning_rate": 1.6285714285714287e-05, |
| "loss": 2.4344, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.175, |
| "grad_norm": 0.21340860355678012, |
| "learning_rate": 1.71e-05, |
| "loss": 2.4532, |
| "step": 21 |
| }, |
| { |
| "epoch": 0.18333333333333332, |
| "grad_norm": 0.1775246176788835, |
| "learning_rate": 1.7914285714285715e-05, |
| "loss": 2.4398, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.19166666666666668, |
| "grad_norm": 0.15469100364725502, |
| "learning_rate": 1.872857142857143e-05, |
| "loss": 2.4275, |
| "step": 23 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 0.1261136620302219, |
| "learning_rate": 1.9542857142857143e-05, |
| "loss": 2.3855, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.20833333333333334, |
| "grad_norm": 0.1251566381945981, |
| "learning_rate": 2.0357142857142858e-05, |
| "loss": 2.4008, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.21666666666666667, |
| "grad_norm": 0.12280228065778742, |
| "learning_rate": 2.1171428571428574e-05, |
| "loss": 2.4086, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.225, |
| "grad_norm": 0.1362748806421765, |
| "learning_rate": 2.1985714285714286e-05, |
| "loss": 2.3642, |
| "step": 27 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 0.12370426656542512, |
| "learning_rate": 2.2800000000000002e-05, |
| "loss": 2.4168, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.24166666666666667, |
| "grad_norm": 0.12077140199925576, |
| "learning_rate": 2.3614285714285718e-05, |
| "loss": 2.3502, |
| "step": 29 |
| }, |
| { |
| "epoch": 0.25, |
| "grad_norm": 0.10854652278245232, |
| "learning_rate": 2.442857142857143e-05, |
| "loss": 2.323, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.25, |
| "eval_loss": 2.4455511569976807, |
| "eval_runtime": 82.5732, |
| "eval_samples_per_second": 4.965, |
| "eval_steps_per_second": 0.315, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.25833333333333336, |
| "grad_norm": 0.10286886191993252, |
| "learning_rate": 2.5242857142857142e-05, |
| "loss": 2.4007, |
| "step": 31 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.09687340891245565, |
| "learning_rate": 2.6057142857142858e-05, |
| "loss": 2.4088, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.275, |
| "grad_norm": 0.09653492248714694, |
| "learning_rate": 2.6871428571428574e-05, |
| "loss": 2.3906, |
| "step": 33 |
| }, |
| { |
| "epoch": 0.2833333333333333, |
| "grad_norm": 0.09022900019263645, |
| "learning_rate": 2.7685714285714286e-05, |
| "loss": 2.4065, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.2916666666666667, |
| "grad_norm": 0.0912409242342349, |
| "learning_rate": 2.85e-05, |
| "loss": 2.3699, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 0.09592020125185927, |
| "learning_rate": 2.8499644890093217e-05, |
| "loss": 2.3587, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.30833333333333335, |
| "grad_norm": 0.0907084429462166, |
| "learning_rate": 2.8498579578071537e-05, |
| "loss": 2.4259, |
| "step": 37 |
| }, |
| { |
| "epoch": 0.31666666666666665, |
| "grad_norm": 0.09390099422567517, |
| "learning_rate": 2.8496804117030106e-05, |
| "loss": 2.3232, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.325, |
| "grad_norm": 0.08704027284958313, |
| "learning_rate": 2.849431859545787e-05, |
| "loss": 2.4027, |
| "step": 39 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 0.08787482564111378, |
| "learning_rate": 2.849112313723319e-05, |
| "loss": 2.3827, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.3416666666666667, |
| "grad_norm": 0.08422520058818864, |
| "learning_rate": 2.8487217901617672e-05, |
| "loss": 2.353, |
| "step": 41 |
| }, |
| { |
| "epoch": 0.35, |
| "grad_norm": 0.07979320980153469, |
| "learning_rate": 2.84826030832482e-05, |
| "loss": 2.3519, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.35833333333333334, |
| "grad_norm": 0.07814774416810645, |
| "learning_rate": 2.8477278912127266e-05, |
| "loss": 2.3708, |
| "step": 43 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 0.07237049854036091, |
| "learning_rate": 2.847124565361149e-05, |
| "loss": 2.388, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.375, |
| "grad_norm": 0.07354258492789081, |
| "learning_rate": 2.8464503608398385e-05, |
| "loss": 2.3586, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.38333333333333336, |
| "grad_norm": 0.0771281784161838, |
| "learning_rate": 2.845705311251141e-05, |
| "loss": 2.3993, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.39166666666666666, |
| "grad_norm": 0.0763264062020341, |
| "learning_rate": 2.844889453728318e-05, |
| "loss": 2.3838, |
| "step": 47 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 0.07082143620733677, |
| "learning_rate": 2.8440028289336977e-05, |
| "loss": 2.3628, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.4083333333333333, |
| "grad_norm": 0.0715578975320661, |
| "learning_rate": 2.8430454810566477e-05, |
| "loss": 2.361, |
| "step": 49 |
| }, |
| { |
| "epoch": 0.4166666666666667, |
| "grad_norm": 0.06881630985450242, |
| "learning_rate": 2.8420174578113747e-05, |
| "loss": 2.4392, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.425, |
| "grad_norm": 0.0689279893077156, |
| "learning_rate": 2.8409188104345426e-05, |
| "loss": 2.3519, |
| "step": 51 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 0.07069081407018309, |
| "learning_rate": 2.8397495936827232e-05, |
| "loss": 2.3981, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.44166666666666665, |
| "grad_norm": 0.07092917277421104, |
| "learning_rate": 2.8385098658296637e-05, |
| "loss": 2.355, |
| "step": 53 |
| }, |
| { |
| "epoch": 0.45, |
| "grad_norm": 0.0703607034709259, |
| "learning_rate": 2.8371996886633843e-05, |
| "loss": 2.3793, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.4583333333333333, |
| "grad_norm": 0.07124199690967324, |
| "learning_rate": 2.8358191274830974e-05, |
| "loss": 2.4275, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 0.07099804346309355, |
| "learning_rate": 2.8343682510959552e-05, |
| "loss": 2.3323, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.475, |
| "grad_norm": 0.06967632308939245, |
| "learning_rate": 2.8328471318136165e-05, |
| "loss": 2.3883, |
| "step": 57 |
| }, |
| { |
| "epoch": 0.48333333333333334, |
| "grad_norm": 0.07156300179553134, |
| "learning_rate": 2.831255845448647e-05, |
| "loss": 2.3298, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.49166666666666664, |
| "grad_norm": 0.0704201532980033, |
| "learning_rate": 2.8295944713107387e-05, |
| "loss": 2.331, |
| "step": 59 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 0.06794782460291071, |
| "learning_rate": 2.8278630922027563e-05, |
| "loss": 2.3776, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.5, |
| "eval_loss": 2.4216628074645996, |
| "eval_runtime": 82.3879, |
| "eval_samples_per_second": 4.976, |
| "eval_steps_per_second": 0.316, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.5083333333333333, |
| "grad_norm": 0.07045949082426937, |
| "learning_rate": 2.8260617944166123e-05, |
| "loss": 2.3319, |
| "step": 61 |
| }, |
| { |
| "epoch": 0.5166666666666667, |
| "grad_norm": 0.0702234192794877, |
| "learning_rate": 2.824190667728965e-05, |
| "loss": 2.3647, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.525, |
| "grad_norm": 0.06946814214632402, |
| "learning_rate": 2.8222498053967434e-05, |
| "loss": 2.3967, |
| "step": 63 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.06563265580127577, |
| "learning_rate": 2.8202393041525005e-05, |
| "loss": 2.3863, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.5416666666666666, |
| "grad_norm": 0.0723770670150652, |
| "learning_rate": 2.8181592641995933e-05, |
| "loss": 2.3823, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.55, |
| "grad_norm": 0.06870429029917037, |
| "learning_rate": 2.8160097892071847e-05, |
| "loss": 2.3241, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.5583333333333333, |
| "grad_norm": 0.08615444480664787, |
| "learning_rate": 2.8137909863050806e-05, |
| "loss": 2.3504, |
| "step": 67 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 0.06980417460436542, |
| "learning_rate": 2.8115029660783887e-05, |
| "loss": 2.3762, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.575, |
| "grad_norm": 0.0691283200064781, |
| "learning_rate": 2.809145842562007e-05, |
| "loss": 2.3202, |
| "step": 69 |
| }, |
| { |
| "epoch": 0.5833333333333334, |
| "grad_norm": 0.06434433998677834, |
| "learning_rate": 2.8067197332349406e-05, |
| "loss": 2.4117, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.5916666666666667, |
| "grad_norm": 0.06712521054811822, |
| "learning_rate": 2.8042247590144472e-05, |
| "loss": 2.4234, |
| "step": 71 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 0.07781170630767965, |
| "learning_rate": 2.8016610442500087e-05, |
| "loss": 2.3614, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.6083333333333333, |
| "grad_norm": 0.07179449259884696, |
| "learning_rate": 2.7990287167171357e-05, |
| "loss": 2.327, |
| "step": 73 |
| }, |
| { |
| "epoch": 0.6166666666666667, |
| "grad_norm": 0.0666012429917219, |
| "learning_rate": 2.7963279076109976e-05, |
| "loss": 2.3606, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.625, |
| "grad_norm": 0.07042352420672252, |
| "learning_rate": 2.7935587515398855e-05, |
| "loss": 2.387, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 0.07141219809062525, |
| "learning_rate": 2.7907213865185014e-05, |
| "loss": 2.3975, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.6416666666666667, |
| "grad_norm": 0.07530038535140655, |
| "learning_rate": 2.787815953961081e-05, |
| "loss": 2.3975, |
| "step": 77 |
| }, |
| { |
| "epoch": 0.65, |
| "grad_norm": 0.06873021297298251, |
| "learning_rate": 2.784842598674345e-05, |
| "loss": 2.3724, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.6583333333333333, |
| "grad_norm": 0.06853494667979494, |
| "learning_rate": 2.781801468850282e-05, |
| "loss": 2.3994, |
| "step": 79 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.07164446612343163, |
| "learning_rate": 2.778692716058762e-05, |
| "loss": 2.3448, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.675, |
| "grad_norm": 0.07112624750325054, |
| "learning_rate": 2.7755164952399844e-05, |
| "loss": 2.2984, |
| "step": 81 |
| }, |
| { |
| "epoch": 0.6833333333333333, |
| "grad_norm": 0.07679055297227524, |
| "learning_rate": 2.7722729646967527e-05, |
| "loss": 2.3699, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.6916666666666667, |
| "grad_norm": 0.07270378630883641, |
| "learning_rate": 2.768962286086587e-05, |
| "loss": 2.3436, |
| "step": 83 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 0.06869524209312625, |
| "learning_rate": 2.7655846244136654e-05, |
| "loss": 2.3856, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.7083333333333334, |
| "grad_norm": 0.07006104211903366, |
| "learning_rate": 2.762140148020602e-05, |
| "loss": 2.3852, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.7166666666666667, |
| "grad_norm": 0.07264285304887648, |
| "learning_rate": 2.758629028580055e-05, |
| "loss": 2.3834, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.725, |
| "grad_norm": 0.07253530482477301, |
| "learning_rate": 2.7550514410861718e-05, |
| "loss": 2.3573, |
| "step": 87 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 0.07265955522289944, |
| "learning_rate": 2.751407563845866e-05, |
| "loss": 2.3163, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.7416666666666667, |
| "grad_norm": 0.07374626234739601, |
| "learning_rate": 2.747697578469931e-05, |
| "loss": 2.3851, |
| "step": 89 |
| }, |
| { |
| "epoch": 0.75, |
| "grad_norm": 0.07255481420091238, |
| "learning_rate": 2.7439216698639904e-05, |
| "loss": 2.3345, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.75, |
| "eval_loss": 2.4115521907806396, |
| "eval_runtime": 82.0248, |
| "eval_samples_per_second": 4.998, |
| "eval_steps_per_second": 0.317, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.7583333333333333, |
| "grad_norm": 0.06817548300510701, |
| "learning_rate": 2.7400800262192788e-05, |
| "loss": 2.3449, |
| "step": 91 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 0.07336990573663302, |
| "learning_rate": 2.7361728390032657e-05, |
| "loss": 2.3448, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.775, |
| "grad_norm": 0.07822885886131264, |
| "learning_rate": 2.732200302950111e-05, |
| "loss": 2.3217, |
| "step": 93 |
| }, |
| { |
| "epoch": 0.7833333333333333, |
| "grad_norm": 0.07296512071361201, |
| "learning_rate": 2.728162616050959e-05, |
| "loss": 2.3329, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.7916666666666666, |
| "grad_norm": 0.07367928865175823, |
| "learning_rate": 2.724059979544072e-05, |
| "loss": 2.3208, |
| "step": 95 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.07504139519989858, |
| "learning_rate": 2.719892597904801e-05, |
| "loss": 2.3483, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.8083333333333333, |
| "grad_norm": 0.06790757702451031, |
| "learning_rate": 2.7156606788353906e-05, |
| "loss": 2.4128, |
| "step": 97 |
| }, |
| { |
| "epoch": 0.8166666666666667, |
| "grad_norm": 0.07011160737870108, |
| "learning_rate": 2.7113644332546336e-05, |
| "loss": 2.3832, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.825, |
| "grad_norm": 0.08077329808935288, |
| "learning_rate": 2.707004075287352e-05, |
| "loss": 2.3308, |
| "step": 99 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 0.0719496280235162, |
| "learning_rate": 2.7025798222537306e-05, |
| "loss": 2.3254, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.8416666666666667, |
| "grad_norm": 0.07275409855582728, |
| "learning_rate": 2.698091894658483e-05, |
| "loss": 2.3967, |
| "step": 101 |
| }, |
| { |
| "epoch": 0.85, |
| "grad_norm": 0.07201531734077336, |
| "learning_rate": 2.693540516179861e-05, |
| "loss": 2.3346, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.8583333333333333, |
| "grad_norm": 0.0765467775604243, |
| "learning_rate": 2.6889259136585094e-05, |
| "loss": 2.3336, |
| "step": 103 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 0.077223728318478, |
| "learning_rate": 2.6842483170861568e-05, |
| "loss": 2.3313, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.875, |
| "grad_norm": 0.07639332869289207, |
| "learning_rate": 2.6795079595941553e-05, |
| "loss": 2.4008, |
| "step": 105 |
| }, |
| { |
| "epoch": 0.8833333333333333, |
| "grad_norm": 0.07440505813328589, |
| "learning_rate": 2.6747050774418605e-05, |
| "loss": 2.3425, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.8916666666666667, |
| "grad_norm": 0.06937810484842656, |
| "learning_rate": 2.6698399100048556e-05, |
| "loss": 2.3349, |
| "step": 107 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 0.07336400555418392, |
| "learning_rate": 2.6649126997630225e-05, |
| "loss": 2.3792, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.9083333333333333, |
| "grad_norm": 0.07442564570941794, |
| "learning_rate": 2.6599236922884547e-05, |
| "loss": 2.3683, |
| "step": 109 |
| }, |
| { |
| "epoch": 0.9166666666666666, |
| "grad_norm": 0.07470689463768693, |
| "learning_rate": 2.65487313623322e-05, |
| "loss": 2.3036, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.925, |
| "grad_norm": 0.07096997017300663, |
| "learning_rate": 2.649761283316966e-05, |
| "loss": 2.3682, |
| "step": 111 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 0.07511821034386772, |
| "learning_rate": 2.6445883883143744e-05, |
| "loss": 2.3346, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.9416666666666667, |
| "grad_norm": 0.07057540374817312, |
| "learning_rate": 2.639354709042466e-05, |
| "loss": 2.3502, |
| "step": 113 |
| }, |
| { |
| "epoch": 0.95, |
| "grad_norm": 0.07300364605060353, |
| "learning_rate": 2.6340605063477456e-05, |
| "loss": 2.3711, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.9583333333333334, |
| "grad_norm": 0.06925480258849577, |
| "learning_rate": 2.628706044093207e-05, |
| "loss": 2.3816, |
| "step": 115 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 0.0705107307569524, |
| "learning_rate": 2.623291589145179e-05, |
| "loss": 2.2958, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.975, |
| "grad_norm": 0.07331112076487026, |
| "learning_rate": 2.6178174113600252e-05, |
| "loss": 2.3279, |
| "step": 117 |
| }, |
| { |
| "epoch": 0.9833333333333333, |
| "grad_norm": 0.06780655482074792, |
| "learning_rate": 2.612283783570695e-05, |
| "loss": 2.4117, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.9916666666666667, |
| "grad_norm": 0.07485055181125701, |
| "learning_rate": 2.606690981573125e-05, |
| "loss": 2.303, |
| "step": 119 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.07276467760742707, |
| "learning_rate": 2.6010392841124932e-05, |
| "loss": 2.3608, |
| "step": 120 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_loss": 2.4049572944641113, |
| "eval_runtime": 82.3343, |
| "eval_samples_per_second": 4.98, |
| "eval_steps_per_second": 0.316, |
| "step": 120 |
| }, |
| { |
| "epoch": 1.0083333333333333, |
| "grad_norm": 0.07548790321925977, |
| "learning_rate": 2.5953289728693274e-05, |
| "loss": 2.3185, |
| "step": 121 |
| }, |
| { |
| "epoch": 1.0166666666666666, |
| "grad_norm": 0.0730570698984131, |
| "learning_rate": 2.5895603324454647e-05, |
| "loss": 2.2877, |
| "step": 122 |
| }, |
| { |
| "epoch": 1.025, |
| "grad_norm": 0.07345139782586493, |
| "learning_rate": 2.5837336503498694e-05, |
| "loss": 2.2836, |
| "step": 123 |
| }, |
| { |
| "epoch": 1.0333333333333334, |
| "grad_norm": 0.07299378924326991, |
| "learning_rate": 2.5778492169843003e-05, |
| "loss": 2.3436, |
| "step": 124 |
| }, |
| { |
| "epoch": 1.0416666666666667, |
| "grad_norm": 0.07154250149880004, |
| "learning_rate": 2.5719073256288394e-05, |
| "loss": 2.3822, |
| "step": 125 |
| }, |
| { |
| "epoch": 1.05, |
| "grad_norm": 0.0720748804004234, |
| "learning_rate": 2.565908272427274e-05, |
| "loss": 2.2708, |
| "step": 126 |
| }, |
| { |
| "epoch": 1.0583333333333333, |
| "grad_norm": 0.07269892036621302, |
| "learning_rate": 2.5598523563723373e-05, |
| "loss": 2.3377, |
| "step": 127 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 0.0756770863265576, |
| "learning_rate": 2.5537398792908062e-05, |
| "loss": 2.352, |
| "step": 128 |
| }, |
| { |
| "epoch": 1.075, |
| "grad_norm": 0.07397323539112335, |
| "learning_rate": 2.547571145828459e-05, |
| "loss": 2.3643, |
| "step": 129 |
| }, |
| { |
| "epoch": 1.0833333333333333, |
| "grad_norm": 0.07438211371538549, |
| "learning_rate": 2.54134646343489e-05, |
| "loss": 2.3387, |
| "step": 130 |
| }, |
| { |
| "epoch": 1.0916666666666666, |
| "grad_norm": 0.07094248712059498, |
| "learning_rate": 2.5350661423481885e-05, |
| "loss": 2.3221, |
| "step": 131 |
| }, |
| { |
| "epoch": 1.1, |
| "grad_norm": 0.0771622686218861, |
| "learning_rate": 2.5287304955794754e-05, |
| "loss": 2.3183, |
| "step": 132 |
| }, |
| { |
| "epoch": 1.1083333333333334, |
| "grad_norm": 0.07495056480159959, |
| "learning_rate": 2.5223398388973028e-05, |
| "loss": 2.3697, |
| "step": 133 |
| }, |
| { |
| "epoch": 1.1166666666666667, |
| "grad_norm": 0.07629199954207538, |
| "learning_rate": 2.515894490811916e-05, |
| "loss": 2.3529, |
| "step": 134 |
| }, |
| { |
| "epoch": 1.125, |
| "grad_norm": 0.0762534542729489, |
| "learning_rate": 2.5093947725593792e-05, |
| "loss": 2.3208, |
| "step": 135 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 0.07587427933984144, |
| "learning_rate": 2.502841008085565e-05, |
| "loss": 2.3448, |
| "step": 136 |
| }, |
| { |
| "epoch": 1.1416666666666666, |
| "grad_norm": 0.07490456619530689, |
| "learning_rate": 2.49623352403001e-05, |
| "loss": 2.3435, |
| "step": 137 |
| }, |
| { |
| "epoch": 1.15, |
| "grad_norm": 0.0744781797534131, |
| "learning_rate": 2.4895726497096315e-05, |
| "loss": 2.4, |
| "step": 138 |
| }, |
| { |
| "epoch": 1.1583333333333332, |
| "grad_norm": 0.07464944817741491, |
| "learning_rate": 2.482858717102319e-05, |
| "loss": 2.318, |
| "step": 139 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 0.07309033869975678, |
| "learning_rate": 2.4760920608303867e-05, |
| "loss": 2.2891, |
| "step": 140 |
| }, |
| { |
| "epoch": 1.175, |
| "grad_norm": 0.07284517336177344, |
| "learning_rate": 2.469273018143894e-05, |
| "loss": 2.3051, |
| "step": 141 |
| }, |
| { |
| "epoch": 1.1833333333333333, |
| "grad_norm": 0.07652064520411771, |
| "learning_rate": 2.462401928903839e-05, |
| "loss": 2.3555, |
| "step": 142 |
| }, |
| { |
| "epoch": 1.1916666666666667, |
| "grad_norm": 0.07701974074136966, |
| "learning_rate": 2.45547913556522e-05, |
| "loss": 2.3015, |
| "step": 143 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 0.08108352272511765, |
| "learning_rate": 2.448504983159966e-05, |
| "loss": 2.3221, |
| "step": 144 |
| }, |
| { |
| "epoch": 1.2083333333333333, |
| "grad_norm": 0.07752288456105606, |
| "learning_rate": 2.441479819279742e-05, |
| "loss": 2.3684, |
| "step": 145 |
| }, |
| { |
| "epoch": 1.2166666666666668, |
| "grad_norm": 0.07881711814524053, |
| "learning_rate": 2.4344039940586235e-05, |
| "loss": 2.3011, |
| "step": 146 |
| }, |
| { |
| "epoch": 1.225, |
| "grad_norm": 0.07757542042787384, |
| "learning_rate": 2.4272778601556472e-05, |
| "loss": 2.3509, |
| "step": 147 |
| }, |
| { |
| "epoch": 1.2333333333333334, |
| "grad_norm": 0.07228965364348439, |
| "learning_rate": 2.4201017727372336e-05, |
| "loss": 2.3801, |
| "step": 148 |
| }, |
| { |
| "epoch": 1.2416666666666667, |
| "grad_norm": 0.07389812003829682, |
| "learning_rate": 2.4128760894594853e-05, |
| "loss": 2.3359, |
| "step": 149 |
| }, |
| { |
| "epoch": 1.25, |
| "grad_norm": 0.08146218033856112, |
| "learning_rate": 2.4056011704503633e-05, |
| "loss": 2.3096, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.25, |
| "eval_loss": 2.400259494781494, |
| "eval_runtime": 81.604, |
| "eval_samples_per_second": 5.024, |
| "eval_steps_per_second": 0.319, |
| "step": 150 |
| }, |
| { |
| "epoch": 1.2583333333333333, |
| "grad_norm": 0.07407260421175128, |
| "learning_rate": 2.3982773782917347e-05, |
| "loss": 2.3418, |
| "step": 151 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 0.07827237096687646, |
| "learning_rate": 2.390905078001306e-05, |
| "loss": 2.2778, |
| "step": 152 |
| }, |
| { |
| "epoch": 1.275, |
| "grad_norm": 0.07699758244967876, |
| "learning_rate": 2.383484637014426e-05, |
| "loss": 2.3245, |
| "step": 153 |
| }, |
| { |
| "epoch": 1.2833333333333332, |
| "grad_norm": 0.07805943021524937, |
| "learning_rate": 2.3760164251657773e-05, |
| "loss": 2.3782, |
| "step": 154 |
| }, |
| { |
| "epoch": 1.2916666666666667, |
| "grad_norm": 0.0741687347632035, |
| "learning_rate": 2.368500814670941e-05, |
| "loss": 2.3765, |
| "step": 155 |
| }, |
| { |
| "epoch": 1.3, |
| "grad_norm": 0.07696079818166807, |
| "learning_rate": 2.3609381801078448e-05, |
| "loss": 2.3958, |
| "step": 156 |
| }, |
| { |
| "epoch": 1.3083333333333333, |
| "grad_norm": 0.08864860865623735, |
| "learning_rate": 2.3533288983980964e-05, |
| "loss": 2.3482, |
| "step": 157 |
| }, |
| { |
| "epoch": 1.3166666666666667, |
| "grad_norm": 0.07676755572584443, |
| "learning_rate": 2.3456733487881978e-05, |
| "loss": 2.3511, |
| "step": 158 |
| }, |
| { |
| "epoch": 1.325, |
| "grad_norm": 0.07754541163995884, |
| "learning_rate": 2.337971912830641e-05, |
| "loss": 2.3754, |
| "step": 159 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 0.08430746433268149, |
| "learning_rate": 2.3302249743648926e-05, |
| "loss": 2.4063, |
| "step": 160 |
| }, |
| { |
| "epoch": 1.3416666666666668, |
| "grad_norm": 0.08113759941899056, |
| "learning_rate": 2.322432919498265e-05, |
| "loss": 2.3352, |
| "step": 161 |
| }, |
| { |
| "epoch": 1.35, |
| "grad_norm": 0.08147516272984133, |
| "learning_rate": 2.3145961365866708e-05, |
| "loss": 2.3119, |
| "step": 162 |
| }, |
| { |
| "epoch": 1.3583333333333334, |
| "grad_norm": 0.07749688842544009, |
| "learning_rate": 2.3067150162152675e-05, |
| "loss": 2.3547, |
| "step": 163 |
| }, |
| { |
| "epoch": 1.3666666666666667, |
| "grad_norm": 0.08640326754187048, |
| "learning_rate": 2.298789951178992e-05, |
| "loss": 2.3389, |
| "step": 164 |
| }, |
| { |
| "epoch": 1.375, |
| "grad_norm": 0.0795137333109577, |
| "learning_rate": 2.2908213364629812e-05, |
| "loss": 2.3778, |
| "step": 165 |
| }, |
| { |
| "epoch": 1.3833333333333333, |
| "grad_norm": 0.07739334763959965, |
| "learning_rate": 2.2828095692228886e-05, |
| "loss": 2.3658, |
| "step": 166 |
| }, |
| { |
| "epoch": 1.3916666666666666, |
| "grad_norm": 0.07783031237693959, |
| "learning_rate": 2.2747550487650887e-05, |
| "loss": 2.3575, |
| "step": 167 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 0.07682655233706284, |
| "learning_rate": 2.2666581765267758e-05, |
| "loss": 2.2825, |
| "step": 168 |
| }, |
| { |
| "epoch": 1.4083333333333332, |
| "grad_norm": 0.08359081032268273, |
| "learning_rate": 2.2585193560559563e-05, |
| "loss": 2.261, |
| "step": 169 |
| }, |
| { |
| "epoch": 1.4166666666666667, |
| "grad_norm": 0.0826940676306091, |
| "learning_rate": 2.250338992991335e-05, |
| "loss": 2.3069, |
| "step": 170 |
| }, |
| { |
| "epoch": 1.425, |
| "grad_norm": 0.08462619097403327, |
| "learning_rate": 2.2421174950421017e-05, |
| "loss": 2.2864, |
| "step": 171 |
| }, |
| { |
| "epoch": 1.4333333333333333, |
| "grad_norm": 0.07990029642375193, |
| "learning_rate": 2.233855271967606e-05, |
| "loss": 2.3033, |
| "step": 172 |
| }, |
| { |
| "epoch": 1.4416666666666667, |
| "grad_norm": 0.08051779058857793, |
| "learning_rate": 2.2255527355569372e-05, |
| "loss": 2.3166, |
| "step": 173 |
| }, |
| { |
| "epoch": 1.45, |
| "grad_norm": 0.08604667339713809, |
| "learning_rate": 2.217210299608402e-05, |
| "loss": 2.387, |
| "step": 174 |
| }, |
| { |
| "epoch": 1.4583333333333333, |
| "grad_norm": 0.07829742536277012, |
| "learning_rate": 2.208828379908899e-05, |
| "loss": 2.311, |
| "step": 175 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 0.07850219342360719, |
| "learning_rate": 2.200407394213196e-05, |
| "loss": 2.3384, |
| "step": 176 |
| }, |
| { |
| "epoch": 1.475, |
| "grad_norm": 0.08531707041033702, |
| "learning_rate": 2.19194776222311e-05, |
| "loss": 2.3107, |
| "step": 177 |
| }, |
| { |
| "epoch": 1.4833333333333334, |
| "grad_norm": 0.07652853009760147, |
| "learning_rate": 2.183449905566589e-05, |
| "loss": 2.3494, |
| "step": 178 |
| }, |
| { |
| "epoch": 1.4916666666666667, |
| "grad_norm": 0.0797336095546633, |
| "learning_rate": 2.1749142477766972e-05, |
| "loss": 2.3291, |
| "step": 179 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 0.08700079540422817, |
| "learning_rate": 2.166341214270507e-05, |
| "loss": 2.3132, |
| "step": 180 |
| }, |
| { |
| "epoch": 1.5, |
| "eval_loss": 2.3966128826141357, |
| "eval_runtime": 83.184, |
| "eval_samples_per_second": 4.929, |
| "eval_steps_per_second": 0.313, |
| "step": 180 |
| }, |
| { |
| "epoch": 1.5083333333333333, |
| "grad_norm": 0.07925581040107615, |
| "learning_rate": 2.157731232327897e-05, |
| "loss": 2.3578, |
| "step": 181 |
| }, |
| { |
| "epoch": 1.5166666666666666, |
| "grad_norm": 0.07873086864048841, |
| "learning_rate": 2.1490847310702544e-05, |
| "loss": 2.3229, |
| "step": 182 |
| }, |
| { |
| "epoch": 1.525, |
| "grad_norm": 0.07775316849537767, |
| "learning_rate": 2.1404021414390874e-05, |
| "loss": 2.3756, |
| "step": 183 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 0.07949428482523528, |
| "learning_rate": 2.1316838961745518e-05, |
| "loss": 2.3535, |
| "step": 184 |
| }, |
| { |
| "epoch": 1.5416666666666665, |
| "grad_norm": 0.08423278187074197, |
| "learning_rate": 2.1229304297938755e-05, |
| "loss": 2.3517, |
| "step": 185 |
| }, |
| { |
| "epoch": 1.55, |
| "grad_norm": 0.07930583119038707, |
| "learning_rate": 2.1141421785697097e-05, |
| "loss": 2.3929, |
| "step": 186 |
| }, |
| { |
| "epoch": 1.5583333333333333, |
| "grad_norm": 0.07736840323261199, |
| "learning_rate": 2.1053195805083803e-05, |
| "loss": 2.3194, |
| "step": 187 |
| }, |
| { |
| "epoch": 1.5666666666666667, |
| "grad_norm": 0.08306421066524537, |
| "learning_rate": 2.0964630753280584e-05, |
| "loss": 2.3131, |
| "step": 188 |
| }, |
| { |
| "epoch": 1.575, |
| "grad_norm": 0.0805185815818936, |
| "learning_rate": 2.0875731044368472e-05, |
| "loss": 2.3238, |
| "step": 189 |
| }, |
| { |
| "epoch": 1.5833333333333335, |
| "grad_norm": 0.07729948838070921, |
| "learning_rate": 2.078650110910779e-05, |
| "loss": 2.3279, |
| "step": 190 |
| }, |
| { |
| "epoch": 1.5916666666666668, |
| "grad_norm": 0.08053951644296133, |
| "learning_rate": 2.0696945394717355e-05, |
| "loss": 2.3343, |
| "step": 191 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 0.08184664333069269, |
| "learning_rate": 2.0607068364652783e-05, |
| "loss": 2.3441, |
| "step": 192 |
| }, |
| { |
| "epoch": 1.6083333333333334, |
| "grad_norm": 0.07894699650259683, |
| "learning_rate": 2.051687449838409e-05, |
| "loss": 2.3384, |
| "step": 193 |
| }, |
| { |
| "epoch": 1.6166666666666667, |
| "grad_norm": 0.08288692832517489, |
| "learning_rate": 2.042636829117239e-05, |
| "loss": 2.3219, |
| "step": 194 |
| }, |
| { |
| "epoch": 1.625, |
| "grad_norm": 0.09061769591669266, |
| "learning_rate": 2.033555425384586e-05, |
| "loss": 2.3168, |
| "step": 195 |
| }, |
| { |
| "epoch": 1.6333333333333333, |
| "grad_norm": 0.07607427061534017, |
| "learning_rate": 2.0244436912574938e-05, |
| "loss": 2.3592, |
| "step": 196 |
| }, |
| { |
| "epoch": 1.6416666666666666, |
| "grad_norm": 0.08827457673533141, |
| "learning_rate": 2.0153020808646715e-05, |
| "loss": 2.3177, |
| "step": 197 |
| }, |
| { |
| "epoch": 1.65, |
| "grad_norm": 0.0757688204165182, |
| "learning_rate": 2.0061310498238618e-05, |
| "loss": 2.2366, |
| "step": 198 |
| }, |
| { |
| "epoch": 1.6583333333333332, |
| "grad_norm": 0.07815852114026649, |
| "learning_rate": 1.996931055219132e-05, |
| "loss": 2.3161, |
| "step": 199 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 0.08058901889279678, |
| "learning_rate": 1.9877025555780927e-05, |
| "loss": 2.3749, |
| "step": 200 |
| }, |
| { |
| "epoch": 1.675, |
| "grad_norm": 0.07708027281441528, |
| "learning_rate": 1.978446010849045e-05, |
| "loss": 2.2854, |
| "step": 201 |
| }, |
| { |
| "epoch": 1.6833333333333333, |
| "grad_norm": 0.08312283019758401, |
| "learning_rate": 1.969161882378058e-05, |
| "loss": 2.3524, |
| "step": 202 |
| }, |
| { |
| "epoch": 1.6916666666666667, |
| "grad_norm": 0.07784046601849169, |
| "learning_rate": 1.9598506328859717e-05, |
| "loss": 2.3418, |
| "step": 203 |
| }, |
| { |
| "epoch": 1.7, |
| "grad_norm": 0.07906237498578873, |
| "learning_rate": 1.95051272644534e-05, |
| "loss": 2.3514, |
| "step": 204 |
| }, |
| { |
| "epoch": 1.7083333333333335, |
| "grad_norm": 0.08323464269988524, |
| "learning_rate": 1.9411486284572977e-05, |
| "loss": 2.3133, |
| "step": 205 |
| }, |
| { |
| "epoch": 1.7166666666666668, |
| "grad_norm": 0.08153670371604982, |
| "learning_rate": 1.931758805628366e-05, |
| "loss": 2.3388, |
| "step": 206 |
| }, |
| { |
| "epoch": 1.725, |
| "grad_norm": 0.08152589045596419, |
| "learning_rate": 1.9223437259471912e-05, |
| "loss": 2.3309, |
| "step": 207 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 0.08382345786042532, |
| "learning_rate": 1.9129038586612224e-05, |
| "loss": 2.3282, |
| "step": 208 |
| }, |
| { |
| "epoch": 1.7416666666666667, |
| "grad_norm": 0.0835609429134592, |
| "learning_rate": 1.903439674253321e-05, |
| "loss": 2.3567, |
| "step": 209 |
| }, |
| { |
| "epoch": 1.75, |
| "grad_norm": 0.08252984125014622, |
| "learning_rate": 1.8939516444183143e-05, |
| "loss": 2.3352, |
| "step": 210 |
| }, |
| { |
| "epoch": 1.75, |
| "eval_loss": 2.3933684825897217, |
| "eval_runtime": 83.3063, |
| "eval_samples_per_second": 4.922, |
| "eval_steps_per_second": 0.312, |
| "step": 210 |
| }, |
| { |
| "epoch": 1.7583333333333333, |
| "grad_norm": 0.0815481053340795, |
| "learning_rate": 1.884440242039485e-05, |
| "loss": 2.3262, |
| "step": 211 |
| }, |
| { |
| "epoch": 1.7666666666666666, |
| "grad_norm": 0.08258761118218041, |
| "learning_rate": 1.8749059411650034e-05, |
| "loss": 2.3396, |
| "step": 212 |
| }, |
| { |
| "epoch": 1.775, |
| "grad_norm": 0.0884999967331726, |
| "learning_rate": 1.8653492169843003e-05, |
| "loss": 2.3176, |
| "step": 213 |
| }, |
| { |
| "epoch": 1.7833333333333332, |
| "grad_norm": 0.0824785010834098, |
| "learning_rate": 1.8557705458043838e-05, |
| "loss": 2.3272, |
| "step": 214 |
| }, |
| { |
| "epoch": 1.7916666666666665, |
| "grad_norm": 0.08727167025374602, |
| "learning_rate": 1.8461704050261e-05, |
| "loss": 2.2298, |
| "step": 215 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 0.0768016904891171, |
| "learning_rate": 1.8365492731203398e-05, |
| "loss": 2.3554, |
| "step": 216 |
| }, |
| { |
| "epoch": 1.8083333333333333, |
| "grad_norm": 0.07709533586121158, |
| "learning_rate": 1.8269076296041917e-05, |
| "loss": 2.3702, |
| "step": 217 |
| }, |
| { |
| "epoch": 1.8166666666666667, |
| "grad_norm": 0.0806446736093232, |
| "learning_rate": 1.8172459550170424e-05, |
| "loss": 2.3585, |
| "step": 218 |
| }, |
| { |
| "epoch": 1.825, |
| "grad_norm": 0.07523532523458193, |
| "learning_rate": 1.8075647308966268e-05, |
| "loss": 2.3609, |
| "step": 219 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 0.07497201271988578, |
| "learning_rate": 1.797864439755028e-05, |
| "loss": 2.3755, |
| "step": 220 |
| }, |
| { |
| "epoch": 1.8416666666666668, |
| "grad_norm": 0.08249074177996166, |
| "learning_rate": 1.7881455650546303e-05, |
| "loss": 2.372, |
| "step": 221 |
| }, |
| { |
| "epoch": 1.85, |
| "grad_norm": 0.0780160636961897, |
| "learning_rate": 1.7784085911840214e-05, |
| "loss": 2.3823, |
| "step": 222 |
| }, |
| { |
| "epoch": 1.8583333333333334, |
| "grad_norm": 0.08148680526536918, |
| "learning_rate": 1.7686540034338513e-05, |
| "loss": 2.3314, |
| "step": 223 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 0.0795864595636552, |
| "learning_rate": 1.758882287972646e-05, |
| "loss": 2.2853, |
| "step": 224 |
| }, |
| { |
| "epoch": 1.875, |
| "grad_norm": 0.08198344669246531, |
| "learning_rate": 1.749093931822577e-05, |
| "loss": 2.3605, |
| "step": 225 |
| }, |
| { |
| "epoch": 1.8833333333333333, |
| "grad_norm": 0.08138145213474299, |
| "learning_rate": 1.739289422835185e-05, |
| "loss": 2.2721, |
| "step": 226 |
| }, |
| { |
| "epoch": 1.8916666666666666, |
| "grad_norm": 0.08306015511124677, |
| "learning_rate": 1.7294692496670715e-05, |
| "loss": 2.2889, |
| "step": 227 |
| }, |
| { |
| "epoch": 1.9, |
| "grad_norm": 0.07478727556401082, |
| "learning_rate": 1.7196339017555378e-05, |
| "loss": 2.3416, |
| "step": 228 |
| }, |
| { |
| "epoch": 1.9083333333333332, |
| "grad_norm": 0.08858459574829487, |
| "learning_rate": 1.709783869294196e-05, |
| "loss": 2.3081, |
| "step": 229 |
| }, |
| { |
| "epoch": 1.9166666666666665, |
| "grad_norm": 0.08175368181940743, |
| "learning_rate": 1.699919643208533e-05, |
| "loss": 2.3304, |
| "step": 230 |
| }, |
| { |
| "epoch": 1.925, |
| "grad_norm": 0.07630479738636474, |
| "learning_rate": 1.6900417151314503e-05, |
| "loss": 2.3454, |
| "step": 231 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 0.07687273996639293, |
| "learning_rate": 1.6801505773787527e-05, |
| "loss": 2.3901, |
| "step": 232 |
| }, |
| { |
| "epoch": 1.9416666666666667, |
| "grad_norm": 0.08600269874202937, |
| "learning_rate": 1.670246722924616e-05, |
| "loss": 2.3081, |
| "step": 233 |
| }, |
| { |
| "epoch": 1.95, |
| "grad_norm": 0.07737694968965858, |
| "learning_rate": 1.660330645377018e-05, |
| "loss": 2.3643, |
| "step": 234 |
| }, |
| { |
| "epoch": 1.9583333333333335, |
| "grad_norm": 0.08165758061569027, |
| "learning_rate": 1.6504028389531333e-05, |
| "loss": 2.355, |
| "step": 235 |
| }, |
| { |
| "epoch": 1.9666666666666668, |
| "grad_norm": 0.08264378429137093, |
| "learning_rate": 1.640463798454704e-05, |
| "loss": 2.3219, |
| "step": 236 |
| }, |
| { |
| "epoch": 1.975, |
| "grad_norm": 0.0858368818345628, |
| "learning_rate": 1.6305140192433787e-05, |
| "loss": 2.3329, |
| "step": 237 |
| }, |
| { |
| "epoch": 1.9833333333333334, |
| "grad_norm": 0.07616999163161729, |
| "learning_rate": 1.620553997216023e-05, |
| "loss": 2.3523, |
| "step": 238 |
| }, |
| { |
| "epoch": 1.9916666666666667, |
| "grad_norm": 0.08241527325980988, |
| "learning_rate": 1.6105842287800046e-05, |
| "loss": 2.2982, |
| "step": 239 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.08007891750583127, |
| "learning_rate": 1.600605210828451e-05, |
| "loss": 2.2785, |
| "step": 240 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_loss": 2.3910558223724365, |
| "eval_runtime": 83.4904, |
| "eval_samples_per_second": 4.911, |
| "eval_steps_per_second": 0.311, |
| "step": 240 |
| }, |
| { |
| "epoch": 2.0083333333333333, |
| "grad_norm": 0.08108687194604622, |
| "learning_rate": 1.5906174407154883e-05, |
| "loss": 2.3367, |
| "step": 241 |
| }, |
| { |
| "epoch": 2.0166666666666666, |
| "grad_norm": 0.0806511417182259, |
| "learning_rate": 1.5806214162314463e-05, |
| "loss": 2.3011, |
| "step": 242 |
| }, |
| { |
| "epoch": 2.025, |
| "grad_norm": 0.08264392219751603, |
| "learning_rate": 1.5706176355780556e-05, |
| "loss": 2.3036, |
| "step": 243 |
| }, |
| { |
| "epoch": 2.033333333333333, |
| "grad_norm": 0.07958409681135217, |
| "learning_rate": 1.5606065973436132e-05, |
| "loss": 2.3056, |
| "step": 244 |
| }, |
| { |
| "epoch": 2.0416666666666665, |
| "grad_norm": 0.07856642651007223, |
| "learning_rate": 1.550588800478133e-05, |
| "loss": 2.3692, |
| "step": 245 |
| }, |
| { |
| "epoch": 2.05, |
| "grad_norm": 0.08350216798892127, |
| "learning_rate": 1.5405647442684794e-05, |
| "loss": 2.2697, |
| "step": 246 |
| }, |
| { |
| "epoch": 2.058333333333333, |
| "grad_norm": 0.08390645284684875, |
| "learning_rate": 1.530534928313484e-05, |
| "loss": 2.2425, |
| "step": 247 |
| }, |
| { |
| "epoch": 2.066666666666667, |
| "grad_norm": 0.07883358190907572, |
| "learning_rate": 1.5204998524990423e-05, |
| "loss": 2.3281, |
| "step": 248 |
| }, |
| { |
| "epoch": 2.075, |
| "grad_norm": 0.07994560560782488, |
| "learning_rate": 1.5104600169732015e-05, |
| "loss": 2.3285, |
| "step": 249 |
| }, |
| { |
| "epoch": 2.0833333333333335, |
| "grad_norm": 0.08345016891314849, |
| "learning_rate": 1.5004159221212325e-05, |
| "loss": 2.3252, |
| "step": 250 |
| }, |
| { |
| "epoch": 2.091666666666667, |
| "grad_norm": 0.0767244585605165, |
| "learning_rate": 1.490368068540692e-05, |
| "loss": 2.3176, |
| "step": 251 |
| }, |
| { |
| "epoch": 2.1, |
| "grad_norm": 0.07853322933102938, |
| "learning_rate": 1.4803169570164703e-05, |
| "loss": 2.286, |
| "step": 252 |
| }, |
| { |
| "epoch": 2.1083333333333334, |
| "grad_norm": 0.07885223855237164, |
| "learning_rate": 1.4702630884958345e-05, |
| "loss": 2.3293, |
| "step": 253 |
| }, |
| { |
| "epoch": 2.1166666666666667, |
| "grad_norm": 0.07786083611140765, |
| "learning_rate": 1.4602069640634605e-05, |
| "loss": 2.3241, |
| "step": 254 |
| }, |
| { |
| "epoch": 2.125, |
| "grad_norm": 0.07961379829842732, |
| "learning_rate": 1.4501490849164585e-05, |
| "loss": 2.3218, |
| "step": 255 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 0.0812119479291348, |
| "learning_rate": 1.4400899523393928e-05, |
| "loss": 2.3101, |
| "step": 256 |
| }, |
| { |
| "epoch": 2.1416666666666666, |
| "grad_norm": 0.07820228956836967, |
| "learning_rate": 1.4300300676793e-05, |
| "loss": 2.3105, |
| "step": 257 |
| }, |
| { |
| "epoch": 2.15, |
| "grad_norm": 0.0787354321940814, |
| "learning_rate": 1.4199699323207e-05, |
| "loss": 2.2921, |
| "step": 258 |
| }, |
| { |
| "epoch": 2.158333333333333, |
| "grad_norm": 0.0821168083039209, |
| "learning_rate": 1.4099100476606071e-05, |
| "loss": 2.3449, |
| "step": 259 |
| }, |
| { |
| "epoch": 2.1666666666666665, |
| "grad_norm": 0.08227570212622978, |
| "learning_rate": 1.3998509150835417e-05, |
| "loss": 2.2804, |
| "step": 260 |
| }, |
| { |
| "epoch": 2.175, |
| "grad_norm": 0.07956552166316343, |
| "learning_rate": 1.3897930359365397e-05, |
| "loss": 2.2798, |
| "step": 261 |
| }, |
| { |
| "epoch": 2.183333333333333, |
| "grad_norm": 0.08355971196343313, |
| "learning_rate": 1.3797369115041656e-05, |
| "loss": 2.3121, |
| "step": 262 |
| }, |
| { |
| "epoch": 2.191666666666667, |
| "grad_norm": 0.07664615523847712, |
| "learning_rate": 1.3696830429835303e-05, |
| "loss": 2.3511, |
| "step": 263 |
| }, |
| { |
| "epoch": 2.2, |
| "grad_norm": 0.07875754809310784, |
| "learning_rate": 1.3596319314593088e-05, |
| "loss": 2.276, |
| "step": 264 |
| }, |
| { |
| "epoch": 2.2083333333333335, |
| "grad_norm": 0.07805417721469433, |
| "learning_rate": 1.3495840778787675e-05, |
| "loss": 2.3156, |
| "step": 265 |
| }, |
| { |
| "epoch": 2.216666666666667, |
| "grad_norm": 0.08500867883177173, |
| "learning_rate": 1.339539983026799e-05, |
| "loss": 2.3304, |
| "step": 266 |
| }, |
| { |
| "epoch": 2.225, |
| "grad_norm": 0.08575986404103182, |
| "learning_rate": 1.3295001475009578e-05, |
| "loss": 2.3171, |
| "step": 267 |
| }, |
| { |
| "epoch": 2.2333333333333334, |
| "grad_norm": 0.0796424885760881, |
| "learning_rate": 1.3194650716865163e-05, |
| "loss": 2.3488, |
| "step": 268 |
| }, |
| { |
| "epoch": 2.2416666666666667, |
| "grad_norm": 0.07791982790558008, |
| "learning_rate": 1.3094352557315207e-05, |
| "loss": 2.3806, |
| "step": 269 |
| }, |
| { |
| "epoch": 2.25, |
| "grad_norm": 0.0840055290628465, |
| "learning_rate": 1.299411199521868e-05, |
| "loss": 2.3277, |
| "step": 270 |
| }, |
| { |
| "epoch": 2.25, |
| "eval_loss": 2.3895957469940186, |
| "eval_runtime": 83.1157, |
| "eval_samples_per_second": 4.933, |
| "eval_steps_per_second": 0.313, |
| "step": 270 |
| }, |
| { |
| "epoch": 2.2583333333333333, |
| "grad_norm": 0.07770712903979533, |
| "learning_rate": 1.2893934026563873e-05, |
| "loss": 2.2666, |
| "step": 271 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 0.07846164594226922, |
| "learning_rate": 1.2793823644219445e-05, |
| "loss": 2.2855, |
| "step": 272 |
| }, |
| { |
| "epoch": 2.275, |
| "grad_norm": 0.08498339693180243, |
| "learning_rate": 1.269378583768554e-05, |
| "loss": 2.2733, |
| "step": 273 |
| }, |
| { |
| "epoch": 2.283333333333333, |
| "grad_norm": 0.07834222258922019, |
| "learning_rate": 1.2593825592845122e-05, |
| "loss": 2.3193, |
| "step": 274 |
| }, |
| { |
| "epoch": 2.2916666666666665, |
| "grad_norm": 0.08132580954052983, |
| "learning_rate": 1.2493947891715491e-05, |
| "loss": 2.3085, |
| "step": 275 |
| }, |
| { |
| "epoch": 2.3, |
| "grad_norm": 0.07883697009265064, |
| "learning_rate": 1.239415771219996e-05, |
| "loss": 2.3545, |
| "step": 276 |
| }, |
| { |
| "epoch": 2.3083333333333336, |
| "grad_norm": 0.08023901828387182, |
| "learning_rate": 1.2294460027839779e-05, |
| "loss": 2.3489, |
| "step": 277 |
| }, |
| { |
| "epoch": 2.3166666666666664, |
| "grad_norm": 0.08930364086676225, |
| "learning_rate": 1.2194859807566216e-05, |
| "loss": 2.2591, |
| "step": 278 |
| }, |
| { |
| "epoch": 2.325, |
| "grad_norm": 0.08343332964333285, |
| "learning_rate": 1.2095362015452961e-05, |
| "loss": 2.3404, |
| "step": 279 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "grad_norm": 0.08292455976075656, |
| "learning_rate": 1.199597161046867e-05, |
| "loss": 2.3028, |
| "step": 280 |
| }, |
| { |
| "epoch": 2.341666666666667, |
| "grad_norm": 0.08627078651851632, |
| "learning_rate": 1.189669354622982e-05, |
| "loss": 2.343, |
| "step": 281 |
| }, |
| { |
| "epoch": 2.35, |
| "grad_norm": 0.08202097516344958, |
| "learning_rate": 1.1797532770753842e-05, |
| "loss": 2.326, |
| "step": 282 |
| }, |
| { |
| "epoch": 2.3583333333333334, |
| "grad_norm": 0.08362611496815728, |
| "learning_rate": 1.169849422621248e-05, |
| "loss": 2.3035, |
| "step": 283 |
| }, |
| { |
| "epoch": 2.3666666666666667, |
| "grad_norm": 0.08888611458113292, |
| "learning_rate": 1.1599582848685506e-05, |
| "loss": 2.2812, |
| "step": 284 |
| }, |
| { |
| "epoch": 2.375, |
| "grad_norm": 0.08217261091117088, |
| "learning_rate": 1.1500803567914671e-05, |
| "loss": 2.3378, |
| "step": 285 |
| }, |
| { |
| "epoch": 2.3833333333333333, |
| "grad_norm": 0.07985728135451624, |
| "learning_rate": 1.1402161307058047e-05, |
| "loss": 2.3522, |
| "step": 286 |
| }, |
| { |
| "epoch": 2.3916666666666666, |
| "grad_norm": 0.08014525439116486, |
| "learning_rate": 1.1303660982444624e-05, |
| "loss": 2.2256, |
| "step": 287 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 0.08787593050595495, |
| "learning_rate": 1.1205307503329286e-05, |
| "loss": 2.2974, |
| "step": 288 |
| }, |
| { |
| "epoch": 2.408333333333333, |
| "grad_norm": 0.08195162040998395, |
| "learning_rate": 1.1107105771648151e-05, |
| "loss": 2.353, |
| "step": 289 |
| }, |
| { |
| "epoch": 2.4166666666666665, |
| "grad_norm": 0.08267743479386988, |
| "learning_rate": 1.1009060681774236e-05, |
| "loss": 2.3274, |
| "step": 290 |
| }, |
| { |
| "epoch": 2.425, |
| "grad_norm": 0.08798947281948663, |
| "learning_rate": 1.0911177120273537e-05, |
| "loss": 2.3404, |
| "step": 291 |
| }, |
| { |
| "epoch": 2.4333333333333336, |
| "grad_norm": 0.08828111892887862, |
| "learning_rate": 1.0813459965661489e-05, |
| "loss": 2.3348, |
| "step": 292 |
| }, |
| { |
| "epoch": 2.4416666666666664, |
| "grad_norm": 0.08102528742267785, |
| "learning_rate": 1.0715914088159789e-05, |
| "loss": 2.2863, |
| "step": 293 |
| }, |
| { |
| "epoch": 2.45, |
| "grad_norm": 0.0866645702075036, |
| "learning_rate": 1.06185443494537e-05, |
| "loss": 2.3357, |
| "step": 294 |
| }, |
| { |
| "epoch": 2.4583333333333335, |
| "grad_norm": 0.08290121294865929, |
| "learning_rate": 1.0521355602449723e-05, |
| "loss": 2.3537, |
| "step": 295 |
| }, |
| { |
| "epoch": 2.466666666666667, |
| "grad_norm": 0.08332374744178081, |
| "learning_rate": 1.042435269103374e-05, |
| "loss": 2.3554, |
| "step": 296 |
| }, |
| { |
| "epoch": 2.475, |
| "grad_norm": 0.08367195510948358, |
| "learning_rate": 1.0327540449829583e-05, |
| "loss": 2.3384, |
| "step": 297 |
| }, |
| { |
| "epoch": 2.4833333333333334, |
| "grad_norm": 0.08673119537467149, |
| "learning_rate": 1.0230923703958083e-05, |
| "loss": 2.2725, |
| "step": 298 |
| }, |
| { |
| "epoch": 2.4916666666666667, |
| "grad_norm": 0.08235186060858125, |
| "learning_rate": 1.0134507268796605e-05, |
| "loss": 2.328, |
| "step": 299 |
| }, |
| { |
| "epoch": 2.5, |
| "grad_norm": 0.08408079009588813, |
| "learning_rate": 1.0038295949739004e-05, |
| "loss": 2.3403, |
| "step": 300 |
| }, |
| { |
| "epoch": 2.5, |
| "eval_loss": 2.3881967067718506, |
| "eval_runtime": 82.1489, |
| "eval_samples_per_second": 4.991, |
| "eval_steps_per_second": 0.316, |
| "step": 300 |
| }, |
| { |
| "epoch": 2.5083333333333333, |
| "grad_norm": 0.07909547450093556, |
| "learning_rate": 9.942294541956169e-06, |
| "loss": 2.3357, |
| "step": 301 |
| }, |
| { |
| "epoch": 2.5166666666666666, |
| "grad_norm": 0.08766753125589274, |
| "learning_rate": 9.846507830157e-06, |
| "loss": 2.2503, |
| "step": 302 |
| }, |
| { |
| "epoch": 2.525, |
| "grad_norm": 0.07987208695801865, |
| "learning_rate": 9.75094058834997e-06, |
| "loss": 2.3168, |
| "step": 303 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 0.08537107163629042, |
| "learning_rate": 9.655597579605152e-06, |
| "loss": 2.3036, |
| "step": 304 |
| }, |
| { |
| "epoch": 2.5416666666666665, |
| "grad_norm": 0.08251527677113132, |
| "learning_rate": 9.560483555816858e-06, |
| "loss": 2.3419, |
| "step": 305 |
| }, |
| { |
| "epoch": 2.55, |
| "grad_norm": 0.08523777732696665, |
| "learning_rate": 9.465603257466792e-06, |
| "loss": 2.3449, |
| "step": 306 |
| }, |
| { |
| "epoch": 2.5583333333333336, |
| "grad_norm": 0.0848931418707024, |
| "learning_rate": 9.370961413387778e-06, |
| "loss": 2.2844, |
| "step": 307 |
| }, |
| { |
| "epoch": 2.5666666666666664, |
| "grad_norm": 0.08156484852737556, |
| "learning_rate": 9.27656274052809e-06, |
| "loss": 2.3485, |
| "step": 308 |
| }, |
| { |
| "epoch": 2.575, |
| "grad_norm": 0.08185057405642468, |
| "learning_rate": 9.182411943716344e-06, |
| "loss": 2.3748, |
| "step": 309 |
| }, |
| { |
| "epoch": 2.5833333333333335, |
| "grad_norm": 0.08210521440208327, |
| "learning_rate": 9.088513715427028e-06, |
| "loss": 2.376, |
| "step": 310 |
| }, |
| { |
| "epoch": 2.591666666666667, |
| "grad_norm": 0.08030540134328207, |
| "learning_rate": 8.9948727355466e-06, |
| "loss": 2.3196, |
| "step": 311 |
| }, |
| { |
| "epoch": 2.6, |
| "grad_norm": 0.08216024303479584, |
| "learning_rate": 8.901493671140283e-06, |
| "loss": 2.3534, |
| "step": 312 |
| }, |
| { |
| "epoch": 2.6083333333333334, |
| "grad_norm": 0.08105902557687622, |
| "learning_rate": 8.808381176219426e-06, |
| "loss": 2.2729, |
| "step": 313 |
| }, |
| { |
| "epoch": 2.6166666666666667, |
| "grad_norm": 0.08410998796525411, |
| "learning_rate": 8.71553989150955e-06, |
| "loss": 2.3596, |
| "step": 314 |
| }, |
| { |
| "epoch": 2.625, |
| "grad_norm": 0.08582437979635364, |
| "learning_rate": 8.622974444219076e-06, |
| "loss": 2.3063, |
| "step": 315 |
| }, |
| { |
| "epoch": 2.6333333333333333, |
| "grad_norm": 0.08419960708603666, |
| "learning_rate": 8.530689447808683e-06, |
| "loss": 2.3468, |
| "step": 316 |
| }, |
| { |
| "epoch": 2.6416666666666666, |
| "grad_norm": 0.08532017727647645, |
| "learning_rate": 8.438689501761387e-06, |
| "loss": 2.3378, |
| "step": 317 |
| }, |
| { |
| "epoch": 2.65, |
| "grad_norm": 0.08544492639100988, |
| "learning_rate": 8.346979191353288e-06, |
| "loss": 2.2872, |
| "step": 318 |
| }, |
| { |
| "epoch": 2.658333333333333, |
| "grad_norm": 0.0825611786693761, |
| "learning_rate": 8.255563087425069e-06, |
| "loss": 2.3037, |
| "step": 319 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 0.07923900030264817, |
| "learning_rate": 8.164445746154141e-06, |
| "loss": 2.2746, |
| "step": 320 |
| }, |
| { |
| "epoch": 2.675, |
| "grad_norm": 0.0805988851220756, |
| "learning_rate": 8.073631708827614e-06, |
| "loss": 2.3116, |
| "step": 321 |
| }, |
| { |
| "epoch": 2.6833333333333336, |
| "grad_norm": 0.07902450485255898, |
| "learning_rate": 7.983125501615913e-06, |
| "loss": 2.3253, |
| "step": 322 |
| }, |
| { |
| "epoch": 2.6916666666666664, |
| "grad_norm": 0.08586994856844313, |
| "learning_rate": 7.892931635347223e-06, |
| "loss": 2.3636, |
| "step": 323 |
| }, |
| { |
| "epoch": 2.7, |
| "grad_norm": 0.08029033935205021, |
| "learning_rate": 7.803054605282652e-06, |
| "loss": 2.3023, |
| "step": 324 |
| }, |
| { |
| "epoch": 2.7083333333333335, |
| "grad_norm": 0.08041087816983067, |
| "learning_rate": 7.713498890892208e-06, |
| "loss": 2.3629, |
| "step": 325 |
| }, |
| { |
| "epoch": 2.716666666666667, |
| "grad_norm": 0.08451031313730265, |
| "learning_rate": 7.624268955631531e-06, |
| "loss": 2.2625, |
| "step": 326 |
| }, |
| { |
| "epoch": 2.725, |
| "grad_norm": 0.07898217475608488, |
| "learning_rate": 7.53536924671942e-06, |
| "loss": 2.3106, |
| "step": 327 |
| }, |
| { |
| "epoch": 2.7333333333333334, |
| "grad_norm": 0.08283676255780481, |
| "learning_rate": 7.446804194916206e-06, |
| "loss": 2.3576, |
| "step": 328 |
| }, |
| { |
| "epoch": 2.7416666666666667, |
| "grad_norm": 0.08212231805524588, |
| "learning_rate": 7.358578214302908e-06, |
| "loss": 2.2791, |
| "step": 329 |
| }, |
| { |
| "epoch": 2.75, |
| "grad_norm": 0.08251122557980495, |
| "learning_rate": 7.270695702061248e-06, |
| "loss": 2.3553, |
| "step": 330 |
| }, |
| { |
| "epoch": 2.75, |
| "eval_loss": 2.387129783630371, |
| "eval_runtime": 81.7826, |
| "eval_samples_per_second": 5.013, |
| "eval_steps_per_second": 0.318, |
| "step": 330 |
| }, |
| { |
| "epoch": 2.7583333333333333, |
| "grad_norm": 0.08008513950564178, |
| "learning_rate": 7.1831610382544856e-06, |
| "loss": 2.2737, |
| "step": 331 |
| }, |
| { |
| "epoch": 2.7666666666666666, |
| "grad_norm": 0.08378397772580942, |
| "learning_rate": 7.095978585609125e-06, |
| "loss": 2.362, |
| "step": 332 |
| }, |
| { |
| "epoch": 2.775, |
| "grad_norm": 0.08519607549475229, |
| "learning_rate": 7.009152689297463e-06, |
| "loss": 2.2601, |
| "step": 333 |
| }, |
| { |
| "epoch": 2.783333333333333, |
| "grad_norm": 0.08038464346170233, |
| "learning_rate": 6.9226876767210355e-06, |
| "loss": 2.3434, |
| "step": 334 |
| }, |
| { |
| "epoch": 2.7916666666666665, |
| "grad_norm": 0.08107258257971683, |
| "learning_rate": 6.83658785729493e-06, |
| "loss": 2.2608, |
| "step": 335 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 0.0801095446046233, |
| "learning_rate": 6.750857522233032e-06, |
| "loss": 2.3562, |
| "step": 336 |
| }, |
| { |
| "epoch": 2.8083333333333336, |
| "grad_norm": 0.08032953635285699, |
| "learning_rate": 6.665500944334116e-06, |
| "loss": 2.3473, |
| "step": 337 |
| }, |
| { |
| "epoch": 2.8166666666666664, |
| "grad_norm": 0.08165787890975398, |
| "learning_rate": 6.580522377768902e-06, |
| "loss": 2.3662, |
| "step": 338 |
| }, |
| { |
| "epoch": 2.825, |
| "grad_norm": 0.08186138228862638, |
| "learning_rate": 6.495926057868045e-06, |
| "loss": 2.3611, |
| "step": 339 |
| }, |
| { |
| "epoch": 2.8333333333333335, |
| "grad_norm": 0.08409693406516083, |
| "learning_rate": 6.4117162009110105e-06, |
| "loss": 2.3014, |
| "step": 340 |
| }, |
| { |
| "epoch": 2.841666666666667, |
| "grad_norm": 0.08426043237254878, |
| "learning_rate": 6.327897003915982e-06, |
| "loss": 2.3556, |
| "step": 341 |
| }, |
| { |
| "epoch": 2.85, |
| "grad_norm": 0.07860767709618154, |
| "learning_rate": 6.244472644430632e-06, |
| "loss": 2.3986, |
| "step": 342 |
| }, |
| { |
| "epoch": 2.8583333333333334, |
| "grad_norm": 0.07913910815896576, |
| "learning_rate": 6.161447280323948e-06, |
| "loss": 2.3041, |
| "step": 343 |
| }, |
| { |
| "epoch": 2.8666666666666667, |
| "grad_norm": 0.0834686817566552, |
| "learning_rate": 6.078825049578985e-06, |
| "loss": 2.2694, |
| "step": 344 |
| }, |
| { |
| "epoch": 2.875, |
| "grad_norm": 0.09464173421182612, |
| "learning_rate": 5.996610070086646e-06, |
| "loss": 2.3291, |
| "step": 345 |
| }, |
| { |
| "epoch": 2.8833333333333333, |
| "grad_norm": 0.08924525286993587, |
| "learning_rate": 5.914806439440443e-06, |
| "loss": 2.2425, |
| "step": 346 |
| }, |
| { |
| "epoch": 2.8916666666666666, |
| "grad_norm": 0.07984144031222275, |
| "learning_rate": 5.833418234732248e-06, |
| "loss": 2.3212, |
| "step": 347 |
| }, |
| { |
| "epoch": 2.9, |
| "grad_norm": 0.08119999485058818, |
| "learning_rate": 5.752449512349119e-06, |
| "loss": 2.3043, |
| "step": 348 |
| }, |
| { |
| "epoch": 2.908333333333333, |
| "grad_norm": 0.08130268904604636, |
| "learning_rate": 5.671904307771115e-06, |
| "loss": 2.3431, |
| "step": 349 |
| }, |
| { |
| "epoch": 2.9166666666666665, |
| "grad_norm": 0.0886368269447557, |
| "learning_rate": 5.591786635370193e-06, |
| "loss": 2.2584, |
| "step": 350 |
| }, |
| { |
| "epoch": 2.925, |
| "grad_norm": 0.08449560278602129, |
| "learning_rate": 5.5121004882100805e-06, |
| "loss": 2.2614, |
| "step": 351 |
| }, |
| { |
| "epoch": 2.9333333333333336, |
| "grad_norm": 0.0877133422168611, |
| "learning_rate": 5.4328498378473245e-06, |
| "loss": 2.3467, |
| "step": 352 |
| }, |
| { |
| "epoch": 2.9416666666666664, |
| "grad_norm": 0.0829503072213313, |
| "learning_rate": 5.354038634133295e-06, |
| "loss": 2.2975, |
| "step": 353 |
| }, |
| { |
| "epoch": 2.95, |
| "grad_norm": 0.08436627929472401, |
| "learning_rate": 5.27567080501735e-06, |
| "loss": 2.3115, |
| "step": 354 |
| }, |
| { |
| "epoch": 2.9583333333333335, |
| "grad_norm": 0.08048623155801396, |
| "learning_rate": 5.197750256351076e-06, |
| "loss": 2.2584, |
| "step": 355 |
| }, |
| { |
| "epoch": 2.966666666666667, |
| "grad_norm": 0.08109596859654204, |
| "learning_rate": 5.120280871693596e-06, |
| "loss": 2.3677, |
| "step": 356 |
| }, |
| { |
| "epoch": 2.975, |
| "grad_norm": 0.081013576151029, |
| "learning_rate": 5.0432665121180266e-06, |
| "loss": 2.3585, |
| "step": 357 |
| }, |
| { |
| "epoch": 2.9833333333333334, |
| "grad_norm": 0.08546479543984016, |
| "learning_rate": 4.966711016019037e-06, |
| "loss": 2.303, |
| "step": 358 |
| }, |
| { |
| "epoch": 2.9916666666666667, |
| "grad_norm": 0.08245660024002954, |
| "learning_rate": 4.890618198921555e-06, |
| "loss": 2.3149, |
| "step": 359 |
| }, |
| { |
| "epoch": 3.0, |
| "grad_norm": 0.08512068224524219, |
| "learning_rate": 4.814991853290595e-06, |
| "loss": 2.2894, |
| "step": 360 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_loss": 2.386331081390381, |
| "eval_runtime": 82.119, |
| "eval_samples_per_second": 4.993, |
| "eval_steps_per_second": 0.317, |
| "step": 360 |
| } |
| ], |
| "logging_steps": 1, |
| "max_steps": 480, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 4, |
| "save_steps": 60, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 4.466444455850803e+17, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|