{ "best_metric": null, "best_model_checkpoint": null, "epoch": 20.0, "eval_steps": 500, "global_step": 120, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.16666666666666666, "grad_norm": 9.996176719665527, "learning_rate": 0.00019833333333333335, "loss": 9.3055, "step": 1 }, { "epoch": 0.3333333333333333, "grad_norm": NaN, "learning_rate": 0.00019833333333333335, "loss": 9.113, "step": 2 }, { "epoch": 0.5, "grad_norm": 11.601034164428711, "learning_rate": 0.00019666666666666666, "loss": 9.0898, "step": 3 }, { "epoch": 0.6666666666666666, "grad_norm": 20.349306106567383, "learning_rate": 0.000195, "loss": 8.7993, "step": 4 }, { "epoch": 0.8333333333333334, "grad_norm": 25.184730529785156, "learning_rate": 0.00019333333333333333, "loss": 8.333, "step": 5 }, { "epoch": 1.0, "grad_norm": 13.329120635986328, "learning_rate": 0.00019166666666666667, "loss": 7.9961, "step": 6 }, { "epoch": 1.1666666666666667, "grad_norm": 8.383143424987793, "learning_rate": 0.00019, "loss": 7.8197, "step": 7 }, { "epoch": 1.3333333333333333, "grad_norm": 6.8824028968811035, "learning_rate": 0.00018833333333333335, "loss": 7.6296, "step": 8 }, { "epoch": 1.5, "grad_norm": 6.662093162536621, "learning_rate": 0.0001866666666666667, "loss": 7.5766, "step": 9 }, { "epoch": 1.6666666666666665, "grad_norm": 6.5743632316589355, "learning_rate": 0.00018500000000000002, "loss": 7.5354, "step": 10 }, { "epoch": 1.8333333333333335, "grad_norm": 5.239775657653809, "learning_rate": 0.00018333333333333334, "loss": 7.4454, "step": 11 }, { "epoch": 2.0, "grad_norm": 3.852353811264038, "learning_rate": 0.00018166666666666667, "loss": 7.4435, "step": 12 }, { "epoch": 2.1666666666666665, "grad_norm": 4.084356784820557, "learning_rate": 0.00018, "loss": 7.3747, "step": 13 }, { "epoch": 2.3333333333333335, "grad_norm": 4.106002330780029, "learning_rate": 0.00017833333333333335, "loss": 7.3751, "step": 14 }, { "epoch": 2.5, "grad_norm": 4.112590312957764, "learning_rate": 0.00017666666666666666, "loss": 7.3905, "step": 15 }, { "epoch": 2.6666666666666665, "grad_norm": 3.850327968597412, "learning_rate": 0.000175, "loss": 7.3509, "step": 16 }, { "epoch": 2.8333333333333335, "grad_norm": 3.867799758911133, "learning_rate": 0.00017333333333333334, "loss": 7.3674, "step": 17 }, { "epoch": 3.0, "grad_norm": 3.6226632595062256, "learning_rate": 0.00017166666666666667, "loss": 7.2736, "step": 18 }, { "epoch": 3.1666666666666665, "grad_norm": 3.084348440170288, "learning_rate": 0.00017, "loss": 7.2721, "step": 19 }, { "epoch": 3.3333333333333335, "grad_norm": 3.3022353649139404, "learning_rate": 0.00016833333333333335, "loss": 7.2884, "step": 20 }, { "epoch": 3.5, "grad_norm": 2.312713623046875, "learning_rate": 0.0001666666666666667, "loss": 7.2756, "step": 21 }, { "epoch": 3.6666666666666665, "grad_norm": 2.862736701965332, "learning_rate": 0.000165, "loss": 7.2789, "step": 22 }, { "epoch": 3.8333333333333335, "grad_norm": 3.960524082183838, "learning_rate": 0.00016333333333333334, "loss": 7.2941, "step": 23 }, { "epoch": 4.0, "grad_norm": 3.2837612628936768, "learning_rate": 0.00016166666666666668, "loss": 7.2624, "step": 24 }, { "epoch": 4.166666666666667, "grad_norm": 2.9246368408203125, "learning_rate": 0.00016, "loss": 7.2896, "step": 25 }, { "epoch": 4.333333333333333, "grad_norm": 3.159517526626587, "learning_rate": 0.00015833333333333332, "loss": 7.2348, "step": 26 }, { "epoch": 4.5, "grad_norm": 3.172602891921997, "learning_rate": 0.00015666666666666666, "loss": 7.2534, "step": 27 }, { "epoch": 4.666666666666667, "grad_norm": 2.349774122238159, "learning_rate": 0.000155, "loss": 7.1811, "step": 28 }, { "epoch": 4.833333333333333, "grad_norm": 2.613893747329712, "learning_rate": 0.00015333333333333334, "loss": 7.2341, "step": 29 }, { "epoch": 5.0, "grad_norm": 1.907836675643921, "learning_rate": 0.00015166666666666668, "loss": 7.2261, "step": 30 }, { "epoch": 5.166666666666667, "grad_norm": 2.000274658203125, "learning_rate": 0.00015000000000000001, "loss": 7.2101, "step": 31 }, { "epoch": 5.333333333333333, "grad_norm": 1.68790864944458, "learning_rate": 0.00014833333333333335, "loss": 7.1859, "step": 32 }, { "epoch": 5.5, "grad_norm": 2.083620548248291, "learning_rate": 0.00014666666666666666, "loss": 7.2482, "step": 33 }, { "epoch": 5.666666666666667, "grad_norm": 2.451608657836914, "learning_rate": 0.000145, "loss": 7.2327, "step": 34 }, { "epoch": 5.833333333333333, "grad_norm": 2.5982701778411865, "learning_rate": 0.00014333333333333334, "loss": 7.1789, "step": 35 }, { "epoch": 6.0, "grad_norm": 2.0255370140075684, "learning_rate": 0.00014166666666666668, "loss": 7.2053, "step": 36 }, { "epoch": 6.166666666666667, "grad_norm": 2.0500452518463135, "learning_rate": 0.00014, "loss": 7.163, "step": 37 }, { "epoch": 6.333333333333333, "grad_norm": 2.657477855682373, "learning_rate": 0.00013833333333333333, "loss": 7.1961, "step": 38 }, { "epoch": 6.5, "grad_norm": 2.333373785018921, "learning_rate": 0.00013666666666666666, "loss": 7.1585, "step": 39 }, { "epoch": 6.666666666666667, "grad_norm": 2.1554603576660156, "learning_rate": 0.00013500000000000003, "loss": 7.2375, "step": 40 }, { "epoch": 6.833333333333333, "grad_norm": 2.1240673065185547, "learning_rate": 0.00013333333333333334, "loss": 7.2136, "step": 41 }, { "epoch": 7.0, "grad_norm": 2.012666702270508, "learning_rate": 0.00013166666666666668, "loss": 7.1701, "step": 42 }, { "epoch": 7.166666666666667, "grad_norm": 1.942769169807434, "learning_rate": 0.00013000000000000002, "loss": 7.2061, "step": 43 }, { "epoch": 7.333333333333333, "grad_norm": 2.049074649810791, "learning_rate": 0.00012833333333333335, "loss": 7.1875, "step": 44 }, { "epoch": 7.5, "grad_norm": 2.4958574771881104, "learning_rate": 0.00012666666666666666, "loss": 7.1676, "step": 45 }, { "epoch": 7.666666666666667, "grad_norm": 1.97785222530365, "learning_rate": 0.000125, "loss": 7.1786, "step": 46 }, { "epoch": 7.833333333333333, "grad_norm": 2.810258626937866, "learning_rate": 0.00012333333333333334, "loss": 7.1568, "step": 47 }, { "epoch": 8.0, "grad_norm": 1.9358999729156494, "learning_rate": 0.00012166666666666667, "loss": 7.1832, "step": 48 }, { "epoch": 8.166666666666666, "grad_norm": 1.7094190120697021, "learning_rate": 0.00012, "loss": 7.1493, "step": 49 }, { "epoch": 8.333333333333334, "grad_norm": 1.900357961654663, "learning_rate": 0.00011833333333333334, "loss": 7.1889, "step": 50 }, { "epoch": 8.5, "grad_norm": 2.7656311988830566, "learning_rate": 0.00011666666666666668, "loss": 7.148, "step": 51 }, { "epoch": 8.666666666666666, "grad_norm": 1.8277168273925781, "learning_rate": 0.00011499999999999999, "loss": 7.1962, "step": 52 }, { "epoch": 8.833333333333334, "grad_norm": 1.8862431049346924, "learning_rate": 0.00011333333333333334, "loss": 7.1534, "step": 53 }, { "epoch": 9.0, "grad_norm": 2.083066701889038, "learning_rate": 0.00011166666666666668, "loss": 7.1815, "step": 54 }, { "epoch": 9.166666666666666, "grad_norm": 2.243966579437256, "learning_rate": 0.00011000000000000002, "loss": 7.1854, "step": 55 }, { "epoch": 9.333333333333334, "grad_norm": 2.30122709274292, "learning_rate": 0.00010833333333333333, "loss": 7.1212, "step": 56 }, { "epoch": 9.5, "grad_norm": 2.0310866832733154, "learning_rate": 0.00010666666666666667, "loss": 7.1292, "step": 57 }, { "epoch": 9.666666666666666, "grad_norm": 2.3550353050231934, "learning_rate": 0.000105, "loss": 7.2215, "step": 58 }, { "epoch": 9.833333333333334, "grad_norm": 2.20973801612854, "learning_rate": 0.00010333333333333334, "loss": 7.1883, "step": 59 }, { "epoch": 10.0, "grad_norm": 1.7200679779052734, "learning_rate": 0.00010166666666666667, "loss": 7.1315, "step": 60 }, { "epoch": 10.166666666666666, "grad_norm": 1.5856778621673584, "learning_rate": 0.0001, "loss": 7.1531, "step": 61 }, { "epoch": 10.333333333333334, "grad_norm": 2.5991392135620117, "learning_rate": 9.833333333333333e-05, "loss": 7.1658, "step": 62 }, { "epoch": 10.5, "grad_norm": 1.9534707069396973, "learning_rate": 9.666666666666667e-05, "loss": 7.1404, "step": 63 }, { "epoch": 10.666666666666666, "grad_norm": 1.643308401107788, "learning_rate": 9.5e-05, "loss": 7.1531, "step": 64 }, { "epoch": 10.833333333333334, "grad_norm": 1.7626416683197021, "learning_rate": 9.333333333333334e-05, "loss": 7.1786, "step": 65 }, { "epoch": 11.0, "grad_norm": 1.4250434637069702, "learning_rate": 9.166666666666667e-05, "loss": 7.1496, "step": 66 }, { "epoch": 11.166666666666666, "grad_norm": 1.87589693069458, "learning_rate": 9e-05, "loss": 7.147, "step": 67 }, { "epoch": 11.333333333333334, "grad_norm": 1.737741470336914, "learning_rate": 8.833333333333333e-05, "loss": 7.1678, "step": 68 }, { "epoch": 11.5, "grad_norm": 1.3601438999176025, "learning_rate": 8.666666666666667e-05, "loss": 7.1464, "step": 69 }, { "epoch": 11.666666666666666, "grad_norm": 1.7974656820297241, "learning_rate": 8.5e-05, "loss": 7.2134, "step": 70 }, { "epoch": 11.833333333333334, "grad_norm": 2.1084883213043213, "learning_rate": 8.333333333333334e-05, "loss": 7.1072, "step": 71 }, { "epoch": 12.0, "grad_norm": 1.8446587324142456, "learning_rate": 8.166666666666667e-05, "loss": 7.1346, "step": 72 }, { "epoch": 12.166666666666666, "grad_norm": 1.8687093257904053, "learning_rate": 8e-05, "loss": 7.0995, "step": 73 }, { "epoch": 12.333333333333334, "grad_norm": 1.7230603694915771, "learning_rate": 7.833333333333333e-05, "loss": 7.2023, "step": 74 }, { "epoch": 12.5, "grad_norm": 1.7585816383361816, "learning_rate": 7.666666666666667e-05, "loss": 7.1752, "step": 75 }, { "epoch": 12.666666666666666, "grad_norm": 2.682413101196289, "learning_rate": 7.500000000000001e-05, "loss": 7.1501, "step": 76 }, { "epoch": 12.833333333333334, "grad_norm": 2.1813175678253174, "learning_rate": 7.333333333333333e-05, "loss": 7.1343, "step": 77 }, { "epoch": 13.0, "grad_norm": 1.9682540893554688, "learning_rate": 7.166666666666667e-05, "loss": 7.1303, "step": 78 }, { "epoch": 13.166666666666666, "grad_norm": 2.2799887657165527, "learning_rate": 7e-05, "loss": 7.1243, "step": 79 }, { "epoch": 13.333333333333334, "grad_norm": 1.92588472366333, "learning_rate": 6.833333333333333e-05, "loss": 7.1308, "step": 80 }, { "epoch": 13.5, "grad_norm": 1.7221243381500244, "learning_rate": 6.666666666666667e-05, "loss": 7.1353, "step": 81 }, { "epoch": 13.666666666666666, "grad_norm": 2.1498842239379883, "learning_rate": 6.500000000000001e-05, "loss": 7.105, "step": 82 }, { "epoch": 13.833333333333334, "grad_norm": 2.1947121620178223, "learning_rate": 6.333333333333333e-05, "loss": 7.1263, "step": 83 }, { "epoch": 14.0, "grad_norm": 2.6071479320526123, "learning_rate": 6.166666666666667e-05, "loss": 7.2294, "step": 84 }, { "epoch": 14.166666666666666, "grad_norm": 1.9314939975738525, "learning_rate": 6e-05, "loss": 7.1078, "step": 85 }, { "epoch": 14.333333333333334, "grad_norm": 2.081263542175293, "learning_rate": 5.833333333333334e-05, "loss": 7.142, "step": 86 }, { "epoch": 14.5, "grad_norm": 1.365136742591858, "learning_rate": 5.666666666666667e-05, "loss": 7.1133, "step": 87 }, { "epoch": 14.666666666666666, "grad_norm": 3.0725936889648438, "learning_rate": 5.500000000000001e-05, "loss": 7.0743, "step": 88 }, { "epoch": 14.833333333333334, "grad_norm": 2.1740472316741943, "learning_rate": 5.333333333333333e-05, "loss": 7.155, "step": 89 }, { "epoch": 15.0, "grad_norm": 3.8192708492279053, "learning_rate": 5.166666666666667e-05, "loss": 7.2193, "step": 90 }, { "epoch": 15.166666666666666, "grad_norm": 1.4506871700286865, "learning_rate": 5e-05, "loss": 7.1516, "step": 91 }, { "epoch": 15.333333333333334, "grad_norm": 2.3783648014068604, "learning_rate": 4.8333333333333334e-05, "loss": 7.1323, "step": 92 }, { "epoch": 15.5, "grad_norm": 2.0182697772979736, "learning_rate": 4.666666666666667e-05, "loss": 7.0806, "step": 93 }, { "epoch": 15.666666666666666, "grad_norm": 1.972489833831787, "learning_rate": 4.5e-05, "loss": 7.1348, "step": 94 }, { "epoch": 15.833333333333334, "grad_norm": 2.1752395629882812, "learning_rate": 4.3333333333333334e-05, "loss": 7.1774, "step": 95 }, { "epoch": 16.0, "grad_norm": 2.119612455368042, "learning_rate": 4.166666666666667e-05, "loss": 7.0916, "step": 96 }, { "epoch": 16.166666666666668, "grad_norm": 1.9465644359588623, "learning_rate": 4e-05, "loss": 7.1488, "step": 97 }, { "epoch": 16.333333333333332, "grad_norm": 1.7382686138153076, "learning_rate": 3.8333333333333334e-05, "loss": 7.0954, "step": 98 }, { "epoch": 16.5, "grad_norm": 1.5779635906219482, "learning_rate": 3.6666666666666666e-05, "loss": 7.1016, "step": 99 }, { "epoch": 16.666666666666668, "grad_norm": 2.305907726287842, "learning_rate": 3.5e-05, "loss": 7.1071, "step": 100 }, { "epoch": 16.833333333333332, "grad_norm": 2.938469409942627, "learning_rate": 3.3333333333333335e-05, "loss": 7.1415, "step": 101 }, { "epoch": 17.0, "grad_norm": 2.0791733264923096, "learning_rate": 3.1666666666666666e-05, "loss": 7.142, "step": 102 }, { "epoch": 17.166666666666668, "grad_norm": 2.060059070587158, "learning_rate": 3e-05, "loss": 7.1488, "step": 103 }, { "epoch": 17.333333333333332, "grad_norm": 1.9948276281356812, "learning_rate": 2.8333333333333335e-05, "loss": 7.1139, "step": 104 }, { "epoch": 17.5, "grad_norm": 2.2282490730285645, "learning_rate": 2.6666666666666667e-05, "loss": 7.1126, "step": 105 }, { "epoch": 17.666666666666668, "grad_norm": 3.4862804412841797, "learning_rate": 2.5e-05, "loss": 7.1105, "step": 106 }, { "epoch": 17.833333333333332, "grad_norm": 2.5423128604888916, "learning_rate": 2.3333333333333336e-05, "loss": 7.1192, "step": 107 }, { "epoch": 18.0, "grad_norm": 2.4720511436462402, "learning_rate": 2.1666666666666667e-05, "loss": 7.1078, "step": 108 }, { "epoch": 18.166666666666668, "grad_norm": 2.346407651901245, "learning_rate": 2e-05, "loss": 7.1301, "step": 109 }, { "epoch": 18.333333333333332, "grad_norm": 2.01698899269104, "learning_rate": 1.8333333333333333e-05, "loss": 7.1082, "step": 110 }, { "epoch": 18.5, "grad_norm": 1.6917645931243896, "learning_rate": 1.6666666666666667e-05, "loss": 7.0735, "step": 111 }, { "epoch": 18.666666666666668, "grad_norm": 2.2952117919921875, "learning_rate": 1.5e-05, "loss": 7.0548, "step": 112 }, { "epoch": 18.833333333333332, "grad_norm": 2.255409002304077, "learning_rate": 1.3333333333333333e-05, "loss": 7.1601, "step": 113 }, { "epoch": 19.0, "grad_norm": 2.1308393478393555, "learning_rate": 1.1666666666666668e-05, "loss": 7.1408, "step": 114 }, { "epoch": 19.166666666666668, "grad_norm": 2.4893856048583984, "learning_rate": 1e-05, "loss": 7.1783, "step": 115 }, { "epoch": 19.333333333333332, "grad_norm": 2.091352939605713, "learning_rate": 8.333333333333334e-06, "loss": 7.1003, "step": 116 }, { "epoch": 19.5, "grad_norm": 2.4116783142089844, "learning_rate": 6.666666666666667e-06, "loss": 7.1215, "step": 117 }, { "epoch": 19.666666666666668, "grad_norm": 1.5502471923828125, "learning_rate": 5e-06, "loss": 7.0898, "step": 118 }, { "epoch": 19.833333333333332, "grad_norm": 1.9066845178604126, "learning_rate": 3.3333333333333333e-06, "loss": 7.0796, "step": 119 }, { "epoch": 20.0, "grad_norm": 1.8975646495819092, "learning_rate": 1.6666666666666667e-06, "loss": 7.0866, "step": 120 }, { "epoch": 20.0, "step": 120, "total_flos": 26107084892160.0, "train_loss": 7.272801029682159, "train_runtime": 990.0662, "train_samples_per_second": 1.939, "train_steps_per_second": 0.121 } ], "logging_steps": 1.0, "max_steps": 120, "num_input_tokens_seen": 0, "num_train_epochs": 20, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 26107084892160.0, "train_batch_size": 2, "trial_name": null, "trial_params": null }